このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230911となっている論文です。

PDF登録状況(公開日: 20230911)

TitleAuthorsAbstract論文公表日・翻訳日
# Serberus: コンパイル時のスペックから暗号化コードを保護する

Serberus: Protecting Cryptographic Code from Spectres at Compile-Time ( http://arxiv.org/abs/2309.05174v1 )

ライセンス: Link先を確認
Nicholas Mosier, Hamed Nemati, John C. Mitchell, Caroline Trippel, (参考訳) Serberusは、既存のハードウェア上でSpectre攻撃(PHT、BTB、RSB、STLおよび/またはPSF推測プリミティブを含む)に対して、CT(Constant-time)コードをハードニングするための最初の包括的緩和である。 Serberusは3つの洞察に基づいている。 第一に、いくつかのハードウェア制御フロー整合性(CFI)保護は、過渡制御フローをソフトウェア解析によって包括的に考慮される程度に制限する。 第二に、承認されたCTコード規律に従って、スペクトル後の時代に安全でない2つのコードパターンを許可する。 第三に、一度これらのコードパターンに対処すると、CTプログラムのすべてのSpectreのシークレットリークは、パブリック型レジスタにシークレット値をトランジェントに割り当てるインストラクションの4つのクラスのうちの1つに帰せられる。 我々は,OpenSSL,Libsodium,HACL*ライブラリの暗号プリミティブ上でSerberusを評価する。 Serberusは21.3%のランタイムオーバーヘッドを導入している。

We present Serberus, the first comprehensive mitigation for hardening constant-time (CT) code against Spectre attacks (involving the PHT, BTB, RSB, STL and/or PSF speculation primitives) on existing hardware. Serberus is based on three insights. First, some hardware control-flow integrity (CFI) protections restrict transient control-flow to the extent that it may be comprehensively considered by software analyses. Second, conformance to the accepted CT code discipline permits two code patterns that are unsafe in the post-Spectre era. Third, once these code patterns are addressed, all Spectre leakage of secrets in CT programs can be attributed to one of four classes of taint primitives--instructions that can transiently assign a secret value to a publicly-typed register. We evaluate Serberus on cryptographic primitives in the OpenSSL, Libsodium, and HACL* libraries. Serberus introduces 21.3% runtime overhead on average, compared to 24.9% for the next closest state-of-the-art software mitigation, which is less secure.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-11
# FuzzLLM: 大規模言語モデルにおけるジェイルブレイク脆弱性を積極的に発見するための新しいユニバーサルファズリングフレームワーク

FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models ( http://arxiv.org/abs/2309.05274v1 )

ライセンス: Link先を確認
Dongyu Yao, Jianshu Zhang, Ian G. Harris, Marcel Carlsson, (参考訳) 大規模言語モデル(LLMs)におけるジェイルブレイクの脆弱性は、サービスガイドラインに違反したコンテンツを細心の注意を払って引き起こすプロンプトを利用して、研究コミュニティの注目を集めている。 モデルオーナーは、安全訓練戦略を通じて個々のジェイルブレイクプロンプトを防御できるが、この比較的パッシブなアプローチは、同様のジェイルブレイクの幅広いカテゴリーを扱うのに苦労している。 この問題に対処するために、私たちはLLMのジェイルブレイク脆弱性を積極的にテストし発見するために設計された自動ファジリングフレームワークであるFuzzLLMを紹介した。 テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。 異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。 大規模な実験では、様々なLSMにわたる脆弱性発見におけるFuzzLLMの有効性と包括性を実証している。

Jailbreak vulnerabilities in Large Language Models (LLMs), which exploit meticulously crafted prompts to elicit content that violates service guidelines, have captured the attention of research communities. While model owners can defend against individual jailbreak prompts through safety training strategies, this relatively passive approach struggles to handle the broader category of similar jailbreaks. To tackle this issue, we introduce FuzzLLM, an automated fuzzing framework designed to proactively test and discover jailbreak vulnerabilities in LLMs. We utilize templates to capture the structural integrity of a prompt and isolate key features of a jailbreak class as constraints. By integrating different base classes into powerful combo attacks and varying the elements of constraints and prohibited questions, FuzzLLM enables efficient testing with reduced manual effort. Extensive experiments demonstrate FuzzLLM's effectiveness and comprehensiveness in vulnerability discovery across various LLMs.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-11
# D2WFP: 深層および暗黒のWebブラウジング活動の法的な特定、抽出、分析のための新しいプロトコル

D2WFP: A Novel Protocol for Forensically Identifying, Extracting, and Analysing Deep and Dark Web Browsing Activities ( http://arxiv.org/abs/2309.05537v1 )

ライセンス: Link先を確認
Mohamed Chahine Ghanem, Patrick Mulvihill, Karim Ouazzane, Ramzi Djemai, Dipo Dunsin, (参考訳) ディープウェブ(Deep Web)やダークウェブ(ダークウェブ)として知られるインデクシングされていないWebを使って犯罪行為を犯したり促進したりすることは、過去10年間で劇的に増加している。 ダークウェブは、あらゆる種類の犯罪行為が [1-2] 起こる、悪名高い危険な場所であり、ウェブの法医学的手法、ツール、方法論の進歩にもかかわらず、暗黒と深みのあるウェブの法医学と、調査技術とアーティファクトの識別と抽出という技術的違いを公式に取り組んだ研究はほとんどない。 D2WFPというプロトコルは、ボラティリティの順序を観察し、ブラウジングに関連するすべてのハイブやアーティファクトを網羅するシステム的アプローチを導入し、最終的に精度と有効性を即興的に実現し、調査活動を行うための新たなシーケンシャルなアプローチを確立します。 科学的に健全で包括的なプロセスを経てD2WFPを評価することによって、厳密な量的・質的な研究が行われ、その結果、現在の産業やオープンソースのブラウジング法則よりも優れたD2WFPを採用する際に、再発見されたアーティファクトの数が明らかに増加することを示した。 D2WFPの第二の貢献は、D2WFP内のアーティファクト相関とクロスバリデーションの堅牢な定式化である。

The use of the un-indexed web, commonly known as the deep web and dark web, to commit or facilitate criminal activity has drastically increased over the past decade. The dark web is an in-famously dangerous place where all kinds of criminal activities take place [1-2], despite advances in web forensics techniques, tools, and methodologies, few studies have formally tackled the dark and deep web forensics and the technical differences in terms of investigative techniques and artefacts identification and extraction. This research proposes a novel and comprehensive protocol to guide and assist digital forensics professionals in investigating crimes committed on or via the deep and dark web, The protocol named D2WFP establishes a new sequential approach for performing investigative activities by observing the order of volatility and implementing a systemic approach covering all browsing related hives and artefacts which ultimately resulted into improv-ing the accuracy and effectiveness. Rigorous quantitative and qualitative research has been conducted by assessing D2WFP following a scientifically-sound and comprehensive process in different scenarios and the obtained results show an apparent increase in the number of artefacts re-covered when adopting D2WFP which outperform any current industry or opensource browsing forensics tools. The second contribution of D2WFP is the robust formulation of artefact correlation and cross-validation within D2WFP which enables digital forensics professionals to better document and structure their analysis of host-based deep and dark web browsing artefacts.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-11
# REVERSIM: ハードウェアリバースエンジニアリングにおける人的側面学習のための大規模人口アクセスのためのゲームベースアプローチ

REVERSIM: A Game-Based Approach to Accessing Large Populations for Studying Human Aspects in Hardware Reverse Engineering ( http://arxiv.org/abs/2309.05740v1 )

ライセンス: Link先を確認
Steffen Becker, Carina Wiesen, René Walendy, Nikol Rummel, Christof Paar, (参考訳) ハードウェアリバースエンジニアリング(英: Hardware Reverse Engineering, HRE)は、集積回路(IC)を解析するための技術である。 専門家は、設計検証や知的財産権侵害の検出など、さまざまなセキュリティクリティカルなタスクにHREを使用している。 しかし、HREはまた、脅威アクターがICのセキュリティを覆すことを可能にする。 これまでの研究では、完全に自動化されたソリューションが存在しないため、アナリストはHREを実行するための認知能力に大きく依存していることが示されている。 したがって、HREに関わる認知過程を評価するための制御された実験を行えば、ハードウェア保護のための新たな道が開ける可能性がある。 しかし、HREの専門家がこのような経験的な研究でほとんど利用できないという方法論的な課題に直面している。 この不足に対処するため、現実的なHREサブプロセスを模倣するゲームベースのシミュレーションであるREVERSIMを開発し、事前の知識を必要としないよう特別に設計した。 まず,現実のHRE問題に対するREVERSIMの適合性を実証した14人の専門家と研究者を対象に,半構造化インタビューを行った。 第2に,89名の非専門家を対象とするユーザスタディを実施し,HREや関連ドメインの事前知識を必要とせずにシミュレーションを実施できることを実証した。 最後に,REVERSIMを用いた実験の方向性について概説し,HRE研究の進展の可能性を明らかにする。

Hardware Reverse Engineering (HRE) is a technique for analyzing Integrated Circuits (ICs). Experts employ HRE for various security-critical tasks, such as design verification or the detection of intellectual property violations. However, HRE also enables threat actors to subvert the security of an IC. Previous studies have shown that analysts rely heavily on their cognitive abilities to perform HRE as no fully automated solutions exist. Therefore, conducting controlled experimental studies to assess the cognitive processes involved in HRE could open new avenues for hardware protection. However, researchers have faced the methodological challenge that HRE experts are largely unavailable for such empirical research. To address this scarcity, we have developed REVERSIM, a game-based simulation that mimics realistic HRE subprocesses and is specifically designed to require no prior knowledge. To support these claims, we conducted two empirical studies: First, we performed semi-structured interviews with 14 professionals and researchers from the HRE domain, who attested to the comparability of REVERSIM to real-world HRE problems. Second, we conducted a user study involving 89 non-expert participants, demonstrating that participants could engage in the simulation without prior knowledge in HRE or related domains. Finally, we outline several research directions for experiments with REVERSIM, highlighting its potential in advancing HRE research.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-11
# SkillScanner: 開発段階における静的解析によるポリシー違反音声アプリケーションの検出

SkillScanner: Detecting Policy-Violating Voice Applications Through Static Analysis at the Development Phase ( http://arxiv.org/abs/2309.05867v1 )

ライセンス: Link先を確認
Song Liao, Long Cheng, Haipeng Cai, Linke Guo, Hongxin Hu, (参考訳) Amazon AlexaマーケットプレースはVPA(Voice Personal Assistant)プラットフォームで、スキルストアに10万以上の音声アプリケーション(スキル)が発行されている。 ボイスアプリの品質と信頼性を維持するため、Amazon Alexaは、サードパーティのスキル開発者が遵守する一連のポリシー要件を実装した。 しかし、近年の研究では、現在のスキルストアで政策違反のスキルが流行していることが明らかになっている。 スキルにおけるポリシー違反の原因を理解するために、まず、Amazon Alexaプラットフォームで定義されたさまざまなポリシー要件を認識しているかどうかに注目した34人のサードパーティのスキル開発者を対象に、ユーザスタディを実施します。 ユーザスタディの結果から,VPAのポリシ要件とスキル開発者のプラクティスとの間には,顕著なギャップがあることが分かる。 結果として、政策違反のスキルが出版されることは避けられない。 人材からのスキルストアへの新たなポリシー違反スキルの流入を防止するため、開発段階での潜在的なポリシー違反を特定することが重要である。 本研究では,SkillScannerの設計と開発を行う。SkillScannerは,サードパーティ開発者がスキル開発ライフサイクルの初期段階でポリシー違反を検出するための,効率的な静的コード解析ツールである。 SkillScannerの性能を評価するために、GitHubから収集した2,451のオープンソーススキルについて実証的研究を行った。 SkillScannerは786のスキルから、1,328のポリシー違反を効果的に特定した。 我々の結果は、これらのポリシー違反の32%が、コードの複製(コードコピーとペースト)を通じて導入されていることを示唆している。 特に、潜在的なAlexaの公式アカウント(GitHubの"alexa"や"alexa-samples"など)からの42のスキルコード例には、ポリシー違反が含まれていることが分かりました。

The Amazon Alexa marketplace is the largest Voice Personal Assistant (VPA) platform with over 100,000 voice applications (i.e., skills) published to the skills store. In an effort to maintain the quality and trustworthiness of voice-apps, Amazon Alexa has implemented a set of policy requirements to be adhered to by third-party skill developers. However, recent works reveal the prevalence of policy-violating skills in the current skills store. To understand the causes of policy violations in skills, we first conduct a user study with 34 third-party skill developers focusing on whether they are aware of the various policy requirements defined by the Amazon Alexa platform. Our user study results show that there is a notable gap between VPA's policy requirements and skill developers' practices. As a result, it is inevitable that policy-violating skills will be published. To prevent the inflow of new policy-breaking skills to the skills store from the source, it is critical to identify potential policy violations at the development phase. In this work, we design and develop SkillScanner, an efficient static code analysis tool to facilitate third-party developers to detect policy violations early in the skill development lifecycle. To evaluate the performance of SkillScanner, we conducted an empirical study on 2,451 open source skills collected from GitHub. SkillScanner effectively identified 1,328 different policy violations from 786 skills. Our results suggest that 32% of these policy violations are introduced through code duplication (i.e., code copy and paste). In particular, we found that 42 skill code examples from potential Alexa's official accounts (e.g., "alexa" and "alexa-samples" on GitHub) contain policy violations, which lead to 81 policy violations in other skills due to the copy-pasted code snippets from these Alexa's code examples.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-11
# 一般化レインボー微分プライバシー

Generalized Rainbow Differential Privacy ( http://arxiv.org/abs/2309.05871v1 )

ライセンス: Link先を確認
Yuzhou Gu, Ziqi Zhou, Onur Günlü, Rafael G. L. D'Oliveira, Parastoo Sadeghi, Muriel Médard, Rafael F. Schaefer, (参考訳) 偏微分プライバシーと呼ばれるランダムなグラフカラー化により,DP機構を設計するための新しい枠組みについて検討する。 このフレームワークでは、データセットはグラフのノードであり、2つの隣接するデータセットはエッジで接続される。 グラフの各データセットは、メカニズムの出力を優先的に順序付けしており、これらの順序付けは虹と呼ばれる。 異なる虹色は、接続されたデータセットのグラフを異なる領域に分割する。 そのような領域の境界におけるDP機構が固定され、すべての同じレインボー境界データセットに対して同一に振る舞う場合、(境界条件が有効である限り)一意の最適$(\epsilon,\delta)$-DP機構が存在し、閉形式で表現できることを示す。 提案手法は,任意の有限色および$(\epsilon,\delta)$-DPに対して適用される支配順序とDPの興味深い関係に基づいており,従来の3色のみに適用される場合と$(\epsilon,\delta)$-DPの場合は$\epsilon$-DPに対してのみ適用可能である。 我々は、最適DP機構が存在しない非均一境界条件の例を与えることによって、同次境界条件の仮定を正当化する。

We study a new framework for designing differentially private (DP) mechanisms via randomized graph colorings, called rainbow differential privacy. In this framework, datasets are nodes in a graph, and two neighboring datasets are connected by an edge. Each dataset in the graph has a preferential ordering for the possible outputs of the mechanism, and these orderings are called rainbows. Different rainbows partition the graph of connected datasets into different regions. We show that if a DP mechanism at the boundary of such regions is fixed and it behaves identically for all same-rainbow boundary datasets, then a unique optimal $(\epsilon,\delta)$-DP mechanism exists (as long as the boundary condition is valid) and can be expressed in closed-form. Our proof technique is based on an interesting relationship between dominance ordering and DP, which applies to any finite number of colors and for $(\epsilon,\delta)$-DP, improving upon previous results that only apply to at most three colors and for $\epsilon$-DP. We justify the homogeneous boundary condition assumption by giving an example with non-homogeneous boundary condition, for which there exists no optimal DP mechanism.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-11
# 21cmemu: 21cmfast summary observablesのエミュレータ

21cmEMU: an emulator of 21cmFAST summary observables ( http://arxiv.org/abs/2309.05697v1 )

ライセンス: Link先を確認
Daniela Breitman, Andrei Mesinger, Steven Murray, David Prelogovic, Yuxiang Qin, Roberto Trotta(参考訳) 近年では、EoR(Epoch of Reionization)の観測が急速に進んでいる。 これらは、宇宙の最初の10億年間に銀河と銀河間物質(IGM)の高次元的な推測を可能にした。 しかし、効率的な半数値シミュレーションを用いても、従来の3D光源をオンザフライで計算する推論手法は10^5$コア時間を要する。 ここでは、人気のある21cmFASTシミュレーションコードから、いくつかのサマリ観測器のエミュレータである21cmEMUを紹介する。 21cmEMUは、EoR銀河を特徴づける9つのパラメータを入力として、以下の要約統計を出力する。 i) IGM は、中性分数を意味する。 (ii)21cmのパワースペクトル (iii)平均21cmスピン温度 (iv)空平均(グローバル)21cmの信号 (vi)紫外線(UV)光度関数(LF)、及び (vii)宇宙マイクロ波背景(cmb)に光学的深さを散乱するトムソン。 すべての可観測性は、計算コストを10$^4$ 以上削減することで、中央値よりも低い精度で予測される。 推論結果を検証した後、いくつかのアプリケーションを紹介します。 (i)異なる観測データセットの相対的制約力の定量化 (二)最近のEoRの主張が過去の推測にどのように影響するか、及び 三 イオン化アレイ(HERA)望遠鏡の水素エポックの観測第六シーズンから、今後の制約を予測すること。 21cmEMUは公開されており、21CMMCサンプル装置に代替シミュレータとして含まれている。

Recent years have witnessed rapid progress in observations of the Epoch of Reionization (EoR). These have enabled high-dimensional inference of galaxy and intergalactic medium (IGM) properties during the first billion years of our Universe. However, even using efficient, semi-numerical simulations, traditional inference approaches that compute 3D lightcones on-the-fly can take $10^5$ core hours. Here we present 21cmEMU: an emulator of several summary observables from the popular 21cmFAST simulation code. 21cmEMU takes as input nine parameters characterizing EoR galaxies, and outputs the following summary statistics: (i) the IGM mean neutral fraction; (ii) the 21-cm power spectrum; (iii) the mean 21-cm spin temperature; (iv) the sky-averaged (global) 21-cm signal; (vi) the ultraviolet (UV) luminosity functions (LFs); and (vii) the Thomson scattering optical depth to the cosmic microwave background (CMB). All observables are predicted with sub-percent median accuracy, with a reduction of the computational cost by a factor of over 10$^4$. After validating inference results, we showcase a few applications, including: (i) quantifying the relative constraining power of different observational datasets; (ii) seeing how recent claims of a late EoR impact previous inferences; and (iii) forecasting upcoming constraints from the sixth observing season of the Hydrogen Epoch of Reionization Array (HERA) telescope. 21cmEMU is publicly-available, and is included as an alternative simulator in the public 21CMMC sampler.
翻訳日:2024-01-15 16:41:53 公開日:2023-09-11
# HEALPix Meshを用いた類似した深層学習天気予報の精度向上

Advancing Parsimonious Deep Learning Weather Prediction using the HEALPix Mesh ( http://arxiv.org/abs/2311.06253v1 )

ライセンス: Link先を確認
Matthias Karlbauer, Nathaniel Cresswell-Clay, Raul A. Moreno, Dale R. Durran, Thorsten Kurth, and Martin V. Butz(参考訳) 本研究では, 階層等角領域等緯度画像化(HEALPix)を用いて, 地球規模約110kmのメッシュ上で, 任意に長時間のリードタイムで7つの大気変数を予測する。 Pangu-WeatherやGraphCastのような最先端の機械学習天気予報モデルと比較して、我々のDLWP-HPXモデルは粗い解像度と予測変数がはるかに少ない。 しかし1週間のリードタイムでは、そのスキルは欧州中距離気象予報センターの最先端の数値気象予報モデルより約1日遅れている。 我々は,キューブ球面からヒールピクスメッシュへの切り替え,u-netのチャネル深さの反転,u-net階層の各レベルへのゲートリカレントユニット(gru)の導入など,モデル設計とデータ関連決定による連続的な予測改善を報告した。 HEALPixメッシュ上のすべての細胞の東西方向に一貫した配向は、地球全体の気象パターンの伝播に成功している位置不変の畳み込みカーネルの開発を促進する。 2日後にスペクトルパワーが失われることなく、このモデルは将来数百ステップにわたって自己回帰的に展開され、1年間のシミュレーションで示されているように、季節的な傾向を反映した安定的で現実的な大気状態を生成することができる。 当社のDLWP-HPXモデルは研究に適しており,季節・季節の予測に適している可能性がある。

We present a parsimonious deep learning weather prediction model on the Hierarchical Equal Area isoLatitude Pixelization (HEALPix) to forecast seven atmospheric variables for arbitrarily long lead times on a global approximately 110 km mesh at 3h time resolution. In comparison to state-of-the-art machine learning weather forecast models, such as Pangu-Weather and GraphCast, our DLWP-HPX model uses coarser resolution and far fewer prognostic variables. Yet, at one-week lead times its skill is only about one day behind the state-of-the-art numerical weather prediction model from the European Centre for Medium-Range Weather Forecasts. We report successive forecast improvements resulting from model design and data-related decisions, such as switching from the cubed sphere to the HEALPix mesh, inverting the channel depth of the U-Net, and introducing gated recurrent units (GRU) on each level of the U-Net hierarchy. The consistent east-west orientation of all cells on the HEALPix mesh facilitates the development of location-invariant convolution kernels that are successfully applied to propagate global weather patterns across our planet. Without any loss of spectral power after two days, the model can be unrolled autoregressively for hundreds of steps into the future to generate stable and realistic states of the atmosphere that respect seasonal trends, as showcased in one-year simulations. Our parsimonious DLWP-HPX model is research-friendly and potentially well-suited for sub-seasonal and seasonal forecasting.
翻訳日:2024-01-15 16:19:27 公開日:2023-09-11
# toolcoder: コード生成モデルにapi検索ツールの使用を教える

ToolCoder: Teach Code Generation Models to use API search tools ( http://arxiv.org/abs/2305.04032v5 )

ライセンス: Link先を確認
Kechi Zhang, Huangzhao Zhang, Ge Li, Jia Li, Zhuo Li, Zhi Jin(参考訳) 近年、自然言語記述からソースコードを自動的に生成する研究が増えている。 しかし、現在の大規模コード生成モデルは、特定のコンテキストに対して適切なapiを選択するときにしばしば困難に直面する。 これらのモデルは、要件を満たしていないAPIを生成したり、サードパーティのライブラリで存在しないAPIを参照する。 ツールを使ってAPIを検索する人間のプロセスにインスパイアされた私たちは、コード生成とAPI選択を支援するために、API検索ツールを既存のモデルに統合する新しいアプローチであるToolCoderを提案する。 ツールの使用方法を教えるため,ChatGPTを用いた自動データアノテーション手法を導入し,ソースコードデータと微調整コード生成モデルにツール使用情報を追加する。 推論中、我々はAPI検索ツールを生成プロセスに統合し、モデルが自動的に検索ツールを使用してAPIを選択することができるようにします。 実験の結果,ToolCoderは5つの公開およびプライベートなライブラリコード生成ベンチマークで優れたパフォーマンスと一般化を示し,平均パス@1メトリクスでは少なくとも6.21倍,平均パス@10メトリクスでは9.64倍の改善があった。 さらに、我々の比較的小さなToolCoderモデルは、コード生成プロセスにプログラミングツールを組み込む可能性を強調し、現在の最高のモデルであるGPT-3.5に匹敵することを示している。

Automatically generating source code from natural language descriptions has been a growing field of research in recent years. However, current large-scale code generation models often encounter difficulties when selecting appropriate APIs for specific contexts. These models may generate APIs that do not meet requirements or refer to non-existent APIs in third-party libraries, especially for lesser-known or private libraries. Inspired by the process of human developers using tools to search APIs, we propose ToolCoder, a novel approach that integrates API search tools with existing models to assist in code generation and API selection. To teach our model to use tools, we introduce an automated data annotation method using ChatGPT to add tool usage information into the source code data and fine-tune code generation models. During inference, we integrate API search tools into the generation process so that our model can automatically use the search tool to get suggestions when selecting an API. Our experimental results demonstrate that ToolCoder exhibits excellent performance and generalization across five public and private library code generation benchmarks, with at least 6.21\% improvement on average pass@1 metrics and 9.64\% improvement on average pass@10 metrics compared to state-of-the-art methods. Furthermore, we show that our relatively small ToolCoder model is comparable to one of the current best models, GPT-3.5, highlighting the potential of incorporating programming tools into the code generation process.
翻訳日:2023-10-24 12:04:22 公開日:2023-09-11
# 生成型AIシステムのソフトウェアテスト:課題と機会

Software Testing of Generative AI Systems: Challenges and Opportunities ( http://arxiv.org/abs/2309.03554v3 )

ライセンス: Link先を確認
Aldeida Aleti(参考訳) ソフトウェアテストはソフトウェア工学において確立された分野であり、ソフトウェアシステムの品質と信頼性を確保するための様々な技術と方法論を含んでいる。 しかし、生成人工知能(GenAI)システムの出現により、テスト領域に新たな課題が生じる。 これらのシステムは、新規で創造的なアウトプットを生成することができ、新しいテストアプローチを必要とするユニークな複雑さをもたらす。 本稿では,生成型AIシステムによってもたらされる課題について考察し,テスト分野における今後の研究の可能性について論じる。 従来のテスト技術が不十分あるいは不十分なGenAIシステムの特徴について触れます。 これらの課題に対処し、さらなる研究を進めることで、GenAIの保護方法の理解を深め、この急速に進化する領域における品質保証の改善の道を開くことができます。

Software Testing is a well-established area in software engineering, encompassing various techniques and methodologies to ensure the quality and reliability of software systems. However, with the advent of generative artificial intelligence (GenAI) systems, new challenges arise in the testing domain. These systems, capable of generating novel and creative outputs, introduce unique complexities that require novel testing approaches. In this paper, I aim to explore the challenges posed by generative AI systems and discuss potential opportunities for future research in the field of testing. I will touch on the specific characteristics of GenAI systems that make traditional testing techniques inadequate or insufficient. By addressing these challenges and pursuing further research, we can enhance our understanding of how to safeguard GenAI and pave the way for improved quality assurance in this rapidly evolving domain.
翻訳日:2023-10-23 08:42:19 公開日:2023-09-11
# インセンティブベースのソフトウェアセキュリティ:セキュアなコードを書くための公正なマイクロペイメント

Incentive-Based Software Security: Fair Micro-Payments for Writing Secure Code ( http://arxiv.org/abs/2309.05338v1 )

ライセンス: Link先を確認
Stefan Rass, Martin Pinzger(参考訳) ソフトウェア開発者が製品のセキュリティに対する貢献に報いるために、公平で説明可能なインセンティブを生み出すメカニズムについて説明する。 我々は協調ゲーム理論を用いてリスク管理ワークフロー内の開発者チームの行動をモデル化し、チームが既知の脅威に対して積極的に取り組むことを考慮し、その結果に基づいてマイクロペイメントを受け取る。 シェープリー値の使用は、計算の公理的基礎の(新しい)解釈を通じて、ここでの自然な説明を提供する。 結果として得られるメカニズムは実装が簡単で、gitリポジトリやマイニングで利用可能なような、コラボレーションソフトウェア開発の標準ツールに依存しています。 マイクロペイメントモデル自体は決定論的であり、開発者チームや企業の範囲外の不確実な情報に依存しないため、そのメカニズムの一部となるリスク管理プロセスにおいて、敵のインセンティブやユーザ行動に関する仮定は無効である。 実生活データに基づいた実例でモデルと照合する。

We describe a mechanism to create fair and explainable incentives for software developers to reward contributions to security of a product. We use cooperative game theory to model the actions of the developer team inside a risk management workflow, considering the team to actively work against known threats, and thereby receive micro-payments based on their performance. The use of the Shapley-value provides natural explanations here directly through (new) interpretations of the axiomatic grounding of the imputation. The resulting mechanism is straightforward to implement, and relies on standard tools from collaborative software development, such as are available for git repositories and mining thereof. The micropayment model itself is deterministic and does not rely on uncertain information outside the scope of the developer team or the enterprise, hence is void of assumptions about adversarial incentives, or user behavior, up to their role in the risk management process that the mechanism is part of. We corroborate our model with a worked example based on real-life data.
翻訳日:2023-10-23 08:12:31 公開日:2023-09-11
# github copilotの使用方法と課題,期待される機能

Demystifying Practices, Challenges and Expected Features of Using GitHub Copilot ( http://arxiv.org/abs/2309.05687v1 )

ライセンス: Link先を確認
Beiqi Zhang, Peng Liang, Xiyu Zhou, Aakash Ahmad, Muhammad Waseem(参考訳) 機械学習の進歩に伴い、ソースコードを自動コンパイルするAI対応ツールへの関心が高まっている。 GitHub Copilotは、何十億行ものオープンソースのGitHubコードで訓練されており、2021年6月のローンチ以来、ますます使われているツールの1つだ。 しかし、自動補完ソースコードのプログラミングにcopilotを使うことのプラクティスや課題、期待される機能を理解することには、実践者の観点からはほとんど努力が払われていない。 この目的のために、Stack Overflow(SO)とGitHubの議論からデータを収集して分析し、実証的研究を行った。 copilotの使用に関する303のso投稿と927のgithub議論を検索して手動で収集しました。 プログラミング言語,統合開発環境(ide),copilotで使用される技術,実装された機能,メリット,制限,copilotを使用する際の課題を特定した。 The results show that when practitioners use Copilot: (1) The major programming languages used with Copilot are JavaScript and Python, (2) the main IDE used with Copilot is Visual Studio Code, (3) the most common used technology with Copilot is Node.js, (4) the leading function implemented by Copilot is data processing, (5) the main purpose of users using Copilot is to help generate code, (6) the significant benefit of using Copilot is useful code generation, (7) the main limitation encountered by practitioners when using Copilot is difficulty of integration, and (8) the most common expected feature is that Copilot can be integrated with more IDEs. 以上の結果から,Copilotの使用は二重刃の剣のようなもので,使用するかどうかを判断する際には,さまざまな側面を慎重に検討する必要があることが示唆された。 私たちの研究は、開発者や実践者に知らせる経験的基盤を提供し、将来の調査の基盤も提供しています。

With the advances in machine learning, there is a growing interest in AI-enabled tools for autocompleting source code. GitHub Copilot has been trained on billions of lines of open source GitHub code, and is one of such tools that has been increasingly used since its launch in June 2021. However, little effort has been devoted to understanding the practices, challenges, and expected features of using Copilot in programming for auto-completed source code from the point of view of practitioners. To this end, we conducted an empirical study by collecting and analyzing the data from Stack Overflow (SO) and GitHub Discussions. We searched and manually collected 303 SO posts and 927 GitHub discussions related to the usage of Copilot. We identified the programming languages, Integrated Development Environments (IDEs), technologies used with Copilot, functions implemented, benefits, limitations, and challenges when using Copilot. The results show that when practitioners use Copilot: (1) The major programming languages used with Copilot are JavaScript and Python, (2) the main IDE used with Copilot is Visual Studio Code, (3) the most common used technology with Copilot is Node.js, (4) the leading function implemented by Copilot is data processing, (5) the main purpose of users using Copilot is to help generate code, (6) the significant benefit of using Copilot is useful code generation, (7) the main limitation encountered by practitioners when using Copilot is difficulty of integration, and (8) the most common expected feature is that Copilot can be integrated with more IDEs. Our results suggest that using Copilot is like a double-edged sword, which requires developers to carefully consider various aspects when deciding whether or not to use it. Our study provides empirically grounded foundations that could inform developers and practitioners, as well as provide a basis for future investigations.
翻訳日:2023-10-23 08:01:22 公開日:2023-09-11
# Latte: Javaの軽量エイリアストラッキング

Latte: Lightweight Aliasing Tracking for Java ( http://arxiv.org/abs/2309.05637v1 )

ライセンス: Link先を確認
Conrad Zimmerman, Catarina Gamboa, Alcides Fonseca, Jonathan Aldrich(参考訳) 多くの既存のシステムはエイリアスとユニークさを追跡しており、それぞれに表現力と開発者の努力のトレードオフがある。 オブジェクト指向言語におけるアリアシングの推論に必要なアノテーションの量と不変量の複雑さを最小化することを目的とした,新しいアプローチであるlatteを提案する。 このアプローチではパラメータとフィールドのアノテーションのみを必要とするが、ローカル変数のアノテーションは推論される。 さらに、このエイリアスが正確に決定できる限り、局所変数間のエイリアスを可能にするために一意性を緩和する。 これにより、言語や実行時のセマンティクスを変更することなく、破壊的な読み込みをサポートすることができる。 このような単純さにもかかわらず、この設計がスタックのモデリングなどの実践的な応用により、局所的なシーケンシャルなセッティングにおいてユニークさやエイリアスをトラッキングするのにどのように使用できるかを示す。

Many existing systems track aliasing and uniqueness, each with their own trade-off between expressiveness and developer effort. We propose Latte, a new approach that aims to minimize both the amount of annotations and the complexity of invariants necessary for reasoning about aliasing in an object-oriented language with mutation. Our approach only requires annotations for parameters and fields, while annotations for local variables are inferred. Furthermore, it relaxes uniqueness to allow aliasing among local variables, as long as this aliasing can be precisely determined. This enables support for destructive reads without changes to the language or its run-time semantics. Despite this simplicity, we show how this design can still be used for tracking uniqueness and aliasing in a local sequential setting, with practical applications, such as modeling a stack.
翻訳日:2023-10-23 08:00:47 公開日:2023-09-11
# 物理インフォームド確率拡散場による生成超弾性

Generative Hyperelasticity with Physics-Informed Probabilistic Diffusion Fields ( http://arxiv.org/abs/2310.03745v1 )

ライセンス: Link先を確認
Vahidullah Tac, Manuel K Rausch, Ilias Bilionis, Francisco Sahli Costabal, Adrian Buganza Tepole(参考訳) 多くの天然物は高度に複雑、非線形、異方性、不均一な機械的性質を示す。 近年、データ駆動型ひずみエネルギー関数は、これらの複雑な物質の挙動を高精度に捉えつつ、物理に基づく制約を満たす柔軟性を有することが示されている。 しかし、これらのアプローチのほとんどは、これらの物質の推定と空間的不均一性の不確実性を無視している。 本研究では、これらの問題に対処するために、最近の生成モデルの発展を活用している。 我々はブロック型ニューラル常微分方程式(NODE)の構築に利用し、建設によって、現実的な超弾性物質モデルの重要な性質であるポリ凸ひずみエネルギー関数を生成する。 このアプローチを確率拡散モデルと組み合わせることで,ひずみエネルギー関数の新しいサンプルを生成する。 この手法により、ガウスホワイトノイズのベクトルをサンプリングし、NODEパラメータに変換することで、可塑性ひずみエネルギー関数を表現できる。 任意の測地線に対する不均質な材料特性をもたらす空間的相関拡散へのアプローチを拡張した。 生体組織に関する合成および実験データを用いて本手法を広範囲に検証し, 空間的不均一性の異なる有限要素シミュレーションを行った。 我々はこのアプローチが超弾性の予測的データ駆動モデルにおける不確実性を含む大きな前進であると信じている。

Many natural materials exhibit highly complex, nonlinear, anisotropic, and heterogeneous mechanical properties. Recently, it has been demonstrated that data-driven strain energy functions possess the flexibility to capture the behavior of these complex materials with high accuracy while satisfying physics-based constraints. However, most of these approaches disregard the uncertainty in the estimates and the spatial heterogeneity of these materials. In this work, we leverage recent advances in generative models to address these issues. We use as building block neural ordinary equations (NODE) that -- by construction -- create polyconvex strain energy functions, a key property of realistic hyperelastic material models. We combine this approach with probabilistic diffusion models to generate new samples of strain energy functions. This technique allows us to sample a vector of Gaussian white noise and translate it to NODE parameters thereby representing plausible strain energy functions. We extend our approach to spatially correlated diffusion resulting in heterogeneous material properties for arbitrary geometries. We extensively test our method with synthetic and experimental data on biological tissues and run finite element simulations with various degrees of spatial heterogeneity. We believe this approach is a major step forward including uncertainty in predictive, data-driven models of hyperelasticity
翻訳日:2023-10-23 04:47:05 公開日:2023-09-11
# 連続変数、離散変数、カテゴリー変数を混合した制約付き最適化問題に対するベイズ的品質・多様性アプローチ

Bayesian Quality-Diversity approaches for constrained optimization problems with mixed continuous, discrete and categorical variables ( http://arxiv.org/abs/2310.05955v1 )

ライセンス: Link先を確認
Loic Brevault and Mathieu Balesdent(参考訳) 航空宇宙工学、民間工学、エネルギー工学などの複雑な設計問題では、設計するシステムの振る舞いや性能を予測するために、数値的なコストのかかるシミュレーションコードを使用する必要がある。 システムの設計を行うために、これらのコードは最適化プロセスに組み込まれ、設計制約を満たしながら最適な設計を提供する。 近年,デザイン空間の探索を強化し,特徴関数に関して最適な多角化ソリューションの集合を提供するために,品質多様性と呼ばれる新しいアプローチが提案されている。 これらの機能はトレードオフを評価するのに興味深い。 さらに、複雑なエンジニアリング設計問題には、最適化問題における技術的な選択を考慮に入れられるような、連続的、離散的、カテゴリー的な設計変数が混在することが多い。 本稿では,連続的,離散的,カテゴリー的ベイズ最適化戦略に基づく新しい品質多様性手法を提案する。 このアプローチは、古典的な品質に関して計算コストを削減できる - 個別の選択と制約を扱う一方で、多様性のアプローチ。 提案手法の性能は, 解析的問題のベンチマークと, 航空宇宙システムを扱う産業設計最適化問題に基づいて評価される。

Complex engineering design problems, such as those involved in aerospace, civil, or energy engineering, require the use of numerically costly simulation codes in order to predict the behavior and performance of the system to be designed. To perform the design of the systems, these codes are often embedded into an optimization process to provide the best design while satisfying the design constraints. Recently, new approaches, called Quality-Diversity, have been proposed in order to enhance the exploration of the design space and to provide a set of optimal diversified solutions with respect to some feature functions. These functions are interesting to assess trade-offs. Furthermore, complex engineering design problems often involve mixed continuous, discrete, and categorical design variables allowing to take into account technological choices in the optimization problem. In this paper, a new Quality-Diversity methodology based on mixed continuous, discrete and categorical Bayesian optimization strategy is proposed. This approach allows to reduce the computational cost with respect to classical Quality - Diversity approaches while dealing with discrete choices and constraints. The performance of the proposed method is assessed on a benchmark of analytical problems as well as on an industrial design optimization problem dealing with aerospace systems.
翻訳日:2023-10-23 03:54:13 公開日:2023-09-11
# ラマン増幅器の最適化:黒・灰色・白ボックスモデルの比較

Optimization of Raman amplifiers: a comparison between black-, grey- and white-box modeling ( http://arxiv.org/abs/2310.05954v1 )

ライセンス: Link先を確認
Metodi P. Yankov, Mehran Soltani, Andrea Carena, Darko Zibar, Francesco Da Ros(参考訳) スループット向上を目指す光通信システムにおいて,光増幅器の設計と最適化がますます重要になっている。 光学増幅器のオフライン最適化は、物理に深く根ざしたホワイトボックスモデルからブラックボックスのデータ駆動物理非依存モデルまで幅広いモデルに依存している。 本稿では,双方向ラマン増幅器における目標周波数距離増幅を実現するために,白色,灰色,黒色ボックスモデルの能力を比較する。 研究手法のいずれにおいても,100kmの間隔でCバンド上で1dBの周波数距離平坦性を達成可能であることを示す。 次に、特に、最適化速度とトレーニングデータへのアクセスの観点から、対象とするアプリケーションシナリオに基づいて、モデルの適用性、利点、欠点について論じる。

Designing and optimizing optical amplifiers to maximize system performance is becoming increasingly important as optical communication systems strive to increase throughput. Offline optimization of optical amplifiers relies on models ranging from white-box models deeply rooted in physics to black-box data-driven physics-agnostic models. Here, we compare the capabilities of white-, grey- and black-box models to achieve a target frequency-distance amplification in a bidirectional Raman amplifier. We show that any of the studied methods can achieve down to 1 dB of frequency-distance flatness over the C-band in a 100-km span. Then, we discuss the models' applicability, advantages, and drawbacks based on the target application scenario, in particular in terms of optimization speed and access to training data.
翻訳日:2023-10-23 03:53:56 公開日:2023-09-11
# GNNによる侵入検知のための効率的なネットワーク表現

Efficient Network Representation for GNN-based Intrusion Detection ( http://arxiv.org/abs/2310.05956v1 )

ライセンス: Link先を確認
Hamdi Friji, Alexis Olivereau, and Mireille Sarkiss(参考訳) 過去数十年間、深刻な経済・プライバシー被害を伴うサイバー攻撃の数が増加しており、サイバー攻撃の防止とリスク軽減を支援するためにネットワーク侵入検出アプローチの必要性が明らかになっている。 本研究では,悪質な動作パターンやマルチステップ攻撃の相関係,スプーフされた攻撃行動と事前攻撃行動の関係など,侵入検知タスクに関連するトポロジ情報の提供を目的とした,フローのグラフとしての新たなネットワーク表現を提案する。 さらに,提案するグラフ構造を活用し,悪意スコアを付与することで通信フローを分類する,グラフニューラルネットワーク(gnn)ベースのフレームワークを提案する。 このフレームワークは、ノード機能を組み込み、ネットワーク表現から関連する攻撃パターンを学習するための3つの主要なステップで構成されている。 最後に,古典的評価手法による潜在的なデータ漏洩問題に注目し,侵入検知システムの性能の信頼性を保証するソリューションを提案する。 提案したフレームワークを実装し,フローベースのグラフ構造を利用することで,従来の機械学習やGNNベースのソリューションよりも優れていることを示す。

The last decades have seen a growth in the number of cyber-attacks with severe economic and privacy damages, which reveals the need for network intrusion detection approaches to assist in preventing cyber-attacks and reducing their risks. In this work, we propose a novel network representation as a graph of flows that aims to provide relevant topological information for the intrusion detection task, such as malicious behavior patterns, the relation between phases of multi-step attacks, and the relation between spoofed and pre-spoofed attackers activities. In addition, we present a Graph Neural Network (GNN) based framework responsible for exploiting the proposed graph structure to classify communication flows by assigning them a maliciousness score. The framework comprises three main steps that aim to embed nodes features and learn relevant attack patterns from the network representation. Finally, we highlight a potential data leakage issue with classical evaluation procedures and suggest a solution to ensure a reliable validation of intrusion detection systems performance. We implement the proposed framework and prove that exploiting the flow-based graph structure outperforms the classical machine learning-based and the previous GNN-based solutions.
翻訳日:2023-10-15 14:25:46 公開日:2023-09-11
# 生物医学文献からの知識グラフ構築のためのBioBERTのゲルムリン遺伝子解析への応用

Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature ( http://arxiv.org/abs/2309.13061v1 )

ライセンス: Link先を確認
Armando D. Diaz Gonzalez, Songhui Yue, Sean T. Hayes, Kevin S. Hughes(参考訳) 生物医学的な情報は急速に増え続けている。 自然言語処理(NLP)の最近の進歩は、遺伝子や疾患などの実体に関するバイオメディカル知識の抽出、正規化、表現の自動化にかなりの関心を集めている。 本研究は、遺伝子や疾患の領域で行われている膨大な研究の知識グラフの構築において、生殖系抽象を解析したものである。 本稿では,ジェムリン遺伝子と疾患を結合する知識グラフ構築手法SimpleGermKGを提案する。 遺伝子および疾患の抽出には、バイオメディカルコーパス上でトレーニング済みのBERTモデルであるBioBERTを用いる。 医学用語を標準化・曖昧化するためのオントロジに基づくルールベースアルゴリズムを提案する。 論文,遺伝子,疾患間の意味的関係について,各エンティティとデータソースを接続し,グラフベースの知識表現で視覚化する部分的関連アプローチを実装した。 最後に,ガームラインコーパスの今後の研究を促すための知識グラフの応用,限界,課題について論じる。 知識グラフには297の遺伝子、130の疾患、46,747のトリプルが含まれている。 グラフベースの可視化が結果の表示に使用される。

Published biomedical information has and continues to rapidly increase. The recent advancements in Natural Language Processing (NLP), have generated considerable interest in automating the extraction, normalization, and representation of biomedical knowledge about entities such as genes and diseases. Our study analyzes germline abstracts in the construction of knowledge graphs of the of the immense work that has been done in this area for genes and diseases. This paper presents SimpleGermKG, an automatic knowledge graph construction approach that connects germline genes and diseases. For the extraction of genes and diseases, we employ BioBERT, a pre-trained BERT model on biomedical corpora. We propose an ontology-based and rule-based algorithm to standardize and disambiguate medical terms. For semantic relationships between articles, genes, and diseases, we implemented a part-whole relation approach to connect each entity with its data source and visualize them in a graph-based knowledge representation. Lastly, we discuss the knowledge graph applications, limitations, and challenges to inspire the future research of germline corpora. Our knowledge graph contains 297 genes, 130 diseases, and 46,747 triples. Graph-based visualizations are used to show the results.
翻訳日:2023-10-01 12:25:38 公開日:2023-09-11
# CompASS:任意スケール空間拡張性を有する高効率深部画像圧縮

COMPASS: High-Efficiency Deep Image Compression with Arbitrary-scale Spatial Scalability ( http://arxiv.org/abs/2309.07926v1 )

ライセンス: Link先を確認
Jongmin Park, Jooyoung Lee and Munchurl Kim(参考訳) 近年,ニューラルネットワークを用いた画像圧縮研究が盛んに行われ,従来の手法と比較して優れた性能を示している。 しかし、ほとんどの作品は、非スカラー画像圧縮(シングルレイヤー符号化)に焦点を当てているが、空間的にスケーラブルな画像圧縮は、多くの応用があるものの、あまり注目されていない。 本稿では,任意の空間スケーラビリティをサポートする新しいNNベースの空間拡張性画像圧縮手法CompASSを提案する。 提案するコンパスは層数とそれぞれのスケール係数を推論中に任意に決定できる非常に柔軟な構造である。 任意のスケール因子に対する隣接層間の空間冗長性を低減するため、我々は暗黙的な神経表現に基づくliffと呼ばれる層間任意スケール予測法を採用している。 複数の層を効果的に訓練するRD損失関数を提案する。 実験結果から, SHVC と NN を用いた空間拡張画像圧縮手法と比較して, BD レートの-58.33% と-47.17% を最大で達成した。 私たちのコンパスは、様々なスケールファクターのためのシングルレイヤーコーディングと同等あるいはそれ以上のコーディング効率を示している。

Recently, neural network (NN)-based image compression studies have actively been made and has shown impressive performance in comparison to traditional methods. However, most of the works have focused on non-scalable image compression (single-layer coding) while spatially scalable image compression has drawn less attention although it has many applications. In this paper, we propose a novel NN-based spatially scalable image compression method, called COMPASS, which supports arbitrary-scale spatial scalability. Our proposed COMPASS has a very flexible structure where the number of layers and their respective scale factors can be arbitrarily determined during inference. To reduce the spatial redundancy between adjacent layers for arbitrary scale factors, our COMPASS adopts an inter-layer arbitrary scale prediction method, called LIFF, based on implicit neural representation. We propose a combined RD loss function to effectively train multiple layers. Experimental results show that our COMPASS achieves BD-rate gain of -58.33% and -47.17% at maximum compared to SHVC and the state-of-the-art NN-based spatially scalable image compression method, respectively, for various combinations of scale factors. Our COMPASS also shows comparable or even better coding efficiency than the single-layer coding for various scale factors.
翻訳日:2023-09-24 04:23:22 公開日:2023-09-11
# mer 2023用マルチラベルジョイントデコードによる階層型視聴覚情報融合

Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023 ( http://arxiv.org/abs/2309.07925v1 )

ライセンス: Link先を確認
Haotian Wang, Yuxuan Xi, Hang Chen, Jun Du, Yan Song, Qing Wang, Hengshun Zhou, Chenxi Wang, Jiefeng Ma, Pengfei Hu, Ya Jiang, Shi Cheng, Jie Zhang and Yuzhe Weng(参考訳) 本稿では,離散感情と次元感情の両方を認識する新しい枠組みを提案する。 本フレームワークでは,基盤モデルから抽出した深い特徴を生映像のロバストな音響的・視覚的表現として利用する。 注意誘導型特徴収集(AFG)に基づく3つの異なる構造は、深い特徴融合のために設計されている。 次に,感情分類と有価回帰のための共同復号構造をデコード段階で導入する。 不確実性に基づくマルチタスク損失も、プロセス全体を最適化するために設計されている。 最後に、後確率レベルで3つの異なる構造を組み合わせることで、離散的および次元的な感情の最終予測を得る。 マルチモーダル感情認識チャレンジ(MER 2023)のデータセットでテストすると、提案フレームワークは感情分類と原子価回帰の両方において一貫した改善をもたらす。 我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。

In this paper, we propose a novel framework for recognizing both discrete and dimensional emotions. In our framework, deep features extracted from foundation models are used as robust acoustic and visual representations of raw video. Three different structures based on attention-guided feature gathering (AFG) are designed for deep feature fusion. Then, we introduce a joint decoding structure for emotion classification and valence regression in the decoding stage. A multi-task loss based on uncertainty is also designed to optimize the whole process. Finally, by combining three different structures on the posterior probability level, we obtain the final predictions of discrete and dimensional emotions. When tested on the dataset of multimodal emotion recognition challenge (MER 2023), the proposed framework yields consistent improvements in both emotion classification and valence regression. Our final system achieves state-of-the-art performance and ranks third on the leaderboard on MER-MULTI sub-challenge.
翻訳日:2023-09-24 04:22:58 公開日:2023-09-11
# 単一浴槽による作業の簡易抽出方法

Simple scheme for extracting work with a single bath ( http://arxiv.org/abs/1806.11384v2 )

ライセンス: Link先を確認
Nicol\`o Piccione, Benedetto Militello, Anna Napoli, Bruno Bellomo(参考訳) 我々は、$\textit{storage}$ bipartite system $s$ の熱化を利用した簡単なプロトコルを提案し、$\textit{resource}$ system $r$ から作業を抽出する。 このプロトコルは、単一の入浴のみを含む最近の作業定義に基づいている。 プロトコルの一般的な記述は、$S$の特性を指定せずに提供される。 我々は抽出された作業とプロセスの理想的な効率の両方を定量化し、それらに最大境界を与える。 次に、このプロトコルを2つの相互作用量子ビットとRabiモデルに適用する。 どちらの場合も、非常に強い結合に対して、サブシステムの素エネルギーである$S$に匹敵する仕事の抽出が得られ、そのピークは入浴温度の有限値である$T$に対して到達する。 最終的に、$t=0$のrabiモデルでは、$s$に格納された作業を外部デバイスに転送する方法を示し、ワーク抽出プロトコル全体を循環的に実装できるようにしました。 我々の提案は、細かい制御を必要としない単純な操作を利用する。

We propose a simple protocol exploiting the thermalization of a $\textit{storage}$ bipartite system $S$ to extract work from a $\textit{resource}$ system $R$. The protocol is based on a recent work definition involving only a single bath. A general description of the protocol is provided without specifying the characteristics of $S$. We quantify both the extracted work and the ideal efficiency of the process also giving maximum bounds for them. Then, we apply the protocol to two cases: two interacting qubits and the Rabi model. In both cases, for very strong couplings, an extraction of work comparable with the bare energies of the subsystems of $S$ is obtained and its peak is reached for finite values of the bath temperature, $T$. We finally show, in the Rabi model at $T=0$, how to transfer the work stored in $S$ to an external device, permitting thus a cyclic implementation of the whole work-extraction protocol. Our proposal makes use of simple operations not needing fine control.
翻訳日:2023-09-24 04:22:26 公開日:2023-09-11
# 未発表社会におけるバイアス定量化のためのデータセット注釈作成の課題

Challenges in Annotating Datasets to Quantify Bias in Under-represented Society ( http://arxiv.org/abs/2309.08624v1 )

ライセンス: Link先を確認
Vithya Yogarajan, Gillian Dobbie, Timothy Pistotti, Joshua Bensemann, Kobe Knowles(参考訳) 高度に洗練された大規模言語モデル(llm)の開発を含む人工知能の最近の進歩は、多くの現実世界のアプリケーションで有益であることが証明されている。 しかし、これらのLSMにエンコードされた固有のバイアスの証拠は、株式に関する懸念を引き起こしている。 これに対し、偏見の定量化と偏見の手法の開発に焦点をあてた研究など、偏見を扱う研究が増加している。 ベンチマークバイアスデータセットは、二元性分類と倫理的/人種的考察のためにも開発されており、主にアメリカの人口動態に焦点を当てている。 しかし、少数社会に関連するバイアスの理解と定量化に関する研究は最小限である。 貧弱な社会におけるバイアスを定量化するための注釈付きデータセットの欠如により、我々はニュージーランド(NZ)人口のベンチマークデータセットの作成に取り組んだ。 3つの注釈が利用できるにもかかわらず、このプロセスで多くの課題に直面しました。 本研究は,手動アノテーションプロセスの概要,遭遇した課題の概観,学んだ教訓,今後の研究へのレコメンデーションについて述べる。

Recent advances in artificial intelligence, including the development of highly sophisticated large language models (LLM), have proven beneficial in many real-world applications. However, evidence of inherent bias encoded in these LLMs has raised concerns about equity. In response, there has been an increase in research dealing with bias, including studies focusing on quantifying bias and developing debiasing techniques. Benchmark bias datasets have also been developed for binary gender classification and ethical/racial considerations, focusing predominantly on American demographics. However, there is minimal research in understanding and quantifying bias related to under-represented societies. Motivated by the lack of annotated datasets for quantifying bias in under-represented societies, we endeavoured to create benchmark datasets for the New Zealand (NZ) population. We faced many challenges in this process, despite the availability of three annotators. This research outlines the manual annotation process, provides an overview of the challenges we encountered and lessons learnt, and presents recommendations for future research.
翻訳日:2023-09-24 04:16:16 公開日:2023-09-11
# lewy体を有するプロドロマ型認知症を鑑別するインドールセンサによるバランス対策

Balance Measures Derived from Insole Sensor Differentiate Prodromal Dementia with Lewy Bodies ( http://arxiv.org/abs/2309.08623v1 )

ライセンス: Link先を確認
Masatomo Kobayashi, Yasunori Yamada, Kaoru Shinkawa, Miyuki Nemoto, Miho Ota, Kiyotaka Nemoto, Tetsuaki Arai(参考訳) lewy型認知症(lewy body)は、神経変性型認知症で2番目に一般的なタイプであり、適切なケアを提供するために、lewy型認知症(mci-lb)による軽度認知障害の予防段階(prodromal stage)で同定される。 しかし、mci-lbは、臨床症状の多様性やアルツハイマー病(mci-ad)による軽度認知障害などの他の病態との類似性から、しばしば過小認識される。 本研究では,30秒の立位作業において,インソールセンサで得られたバランスを活かして,MCI-LBの識別を支援する機械学習に基づく自動パイプラインを提案する。 98人の被験者 (14 MCI-LB, 38 MCI-AD, 46 の認知正常) による実験では、その結果、MCI-LBを78.0%の精度 (AUC: 0.681) で他のグループと区別できることが示された。 われわれは,MCI-LBのタイムリーな同定のための新たなアプローチを開拓し,患者に対するより良いケアを可能にした。

Dementia with Lewy bodies is the second most common type of neurodegenerative dementia, and identification at the prodromal stage$-$i.e., mild cognitive impairment due to Lewy bodies (MCI-LB)$-$is important for providing appropriate care. However, MCI-LB is often underrecognized because of its diversity in clinical manifestations and similarities with other conditions such as mild cognitive impairment due to Alzheimer's disease (MCI-AD). In this study, we propose a machine learning-based automatic pipeline that helps identify MCI-LB by exploiting balance measures acquired with an insole sensor during a 30-s standing task. An experiment with 98 participants (14 MCI-LB, 38 MCI-AD, 46 cognitively normal) showed that the resultant models could discriminate MCI-LB from the other groups with up to 78.0% accuracy (AUC: 0.681), which was 6.8% better than the accuracy of a reference model based on demographic and clinical neuropsychological measures. Our findings may open up a new approach for timely identification of MCI-LB, enabling better care for patients.
翻訳日:2023-09-24 04:15:59 公開日:2023-09-11
# イントロスペクティブ深層学習

Introspective Deep Metric Learning ( http://arxiv.org/abs/2309.09982v1 )

ライセンス: Link先を確認
Chengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 本稿では,不確実性を考慮した画像比較のための内観的深度学習(IDML)フレームワークを提案する。 従来のディープメトリック学習法は、画像の意味的特徴を記述するために識別的埋め込みの学習に焦点を当てており、ノイズや意味的曖昧性に起因する各画像の不確実性の存在を無視している。 これらの不確実性を認識しないトレーニングは、トレーニング中に注釈付きラベルを過度に適合させ、推論中に不満足な判断を下す。 このことから,良質な類似性モデルでは,不確実性に対する認識と意味的相違を考慮し,より強固なトレーニングのために曖昧な画像を扱うべきだと論じた。 そこで本研究では,画像の意味的特徴とあいまいさをそれぞれ記述した,意味的埋め込みだけでなく付随する不確実性埋め込みを用いた画像表現を提案する。 さらに,その意味的差異とあいまいさの両方を考慮し,画像間の類似性判定を行うイントロスペクティブ類似度尺度を提案する。 提案するメトリックの勾配解析により,モデルが適応的かつ遅いペースで学習し,トレーニング中の不確実性に対処できることを示す。 提案したIDMLフレームワークは、不確実性モデリングによる深度メトリック学習の性能を改善し、画像検索とクラスタリングのためのCUB-200-2011、Cars196、Stanford Online Productsデータセットの最先端結果を得る。 さらに,IDMLの有効性と信頼性を示すために,フレームワークの詳細な分析を行う。 コード: https://github.com/wzzheng/idml。

This paper proposes an introspective deep metric learning (IDML) framework for uncertainty-aware comparisons of images. Conventional deep metric learning methods focus on learning a discriminative embedding to describe the semantic features of images, which ignore the existence of uncertainty in each image resulting from noise or semantic ambiguity. Training without awareness of these uncertainties causes the model to overfit the annotated labels during training and produce unsatisfactory judgments during inference. Motivated by this, we argue that a good similarity model should consider the semantic discrepancies with awareness of the uncertainty to better deal with ambiguous images for more robust training. To achieve this, we propose to represent an image using not only a semantic embedding but also an accompanying uncertainty embedding, which describes the semantic characteristics and ambiguity of an image, respectively. We further propose an introspective similarity metric to make similarity judgments between images considering both their semantic differences and ambiguities. The gradient analysis of the proposed metric shows that it enables the model to learn at an adaptive and slower pace to deal with the uncertainty during training. The proposed IDML framework improves the performance of deep metric learning through uncertainty modeling and attains state-of-the-art results on the widely used CUB-200-2011, Cars196, and Stanford Online Products datasets for image retrieval and clustering. We further provide an in-depth analysis of our framework to demonstrate the effectiveness and reliability of IDML. Code: https://github.com/wzzheng/IDML.
翻訳日:2023-09-24 04:07:14 公開日:2023-09-11
# リアル画像に対する脳反応予測のためのディープラーニングアーキテクチャの探索と比較

Exploration and Comparison of Deep Learning Architectures to Predict Brain Response to Realistic Pictures ( http://arxiv.org/abs/2309.09983v1 )

ライセンス: Link先を確認
Riccardo Chimisso, Sathya Bur\v{s}i\'c, Paolo Marocco, Giuseppe Vizzari, Dimitri Ognibene(参考訳) 本稿では,algonauts challenge 2023において,現実画像に対する脳反応を予測するための機械学習アーキテクチャの探索を行う。 我々の研究は、様々な事前訓練されたモデルで広範な実験を行った。 当初、我々はより単純なモデルを用いて脳の活動を予測するが、より複雑なアーキテクチャを導入し、利用可能なデータと大規模事前学習モデルによる埋め込みを導入した。 複数の入力エンコーディングを組み合わせることの難しさや、高次元性、不明瞭な構造、そして出力のノイズの性質といった課題に対して、正規化やオーバーフィッティングといった機械学習問題に関連する典型的な困難に直面した。 これらの問題を克服するために、我々は単一エッジ3D位置ベース、多領域利息予測モデル(ROI)および半球予測モデルを検討したが、複数の単純なモデルを用いることで、各被験者の脳の各半球のROIに特化して、入力としてCLIPによって生成された画像埋め込みを備えた単一の完全に連結された線形層(英語版))が最高の結果を得た。 挑戦のベースラインを超えましたが、結果はデータとの堅牢な関連を確立するには至りませんでした。

We present an exploration of machine learning architectures for predicting brain responses to realistic images on occasion of the Algonauts Challenge 2023. Our research involved extensive experimentation with various pretrained models. Initially, we employed simpler models to predict brain activity but gradually introduced more complex architectures utilizing available data and embeddings generated by large-scale pre-trained models. We encountered typical difficulties related to machine learning problems, e.g. regularization and overfitting, as well as issues specific to the challenge, such as difficulty in combining multiple input encodings, as well as the high dimensionality, unclear structure, and noisy nature of the output. To overcome these issues we tested single edge 3D position-based, multi-region of interest (ROI) and hemisphere predictor models, but we found that employing multiple simple models, each dedicated to a ROI in each hemisphere of the brain of each subject, yielded the best results - a single fully connected linear layer with image embeddings generated by CLIP as input. While we surpassed the challenge baseline, our results fell short of establishing a robust association with the data.
翻訳日:2023-09-24 03:51:37 公開日:2023-09-11
# データ駆動パラメトリック分析における因果推論による失敗の回避--建築・工学・建設業を事例として

Using causal inference to avoid fallouts in data-driven parametric analysis: a case study in the architecture, engineering, and construction industry ( http://arxiv.org/abs/2309.11509v1 )

ライセンス: Link先を確認
Xia Chen, Ruiji Sun, Ueli Saluz, Stefano Schiavon, Philipp Geyer(参考訳) 現実世界の実装における意思決定プロセスは、データ駆動モデルへの依存の増大によって影響を受ける。 本研究では,データ駆動型手法,経験的ドメイン知識,第一原理シミュレーションの相乗パターンを検討した。 因果解析を伴わないデータ駆動モデルを用いた場合, バイアスのある結果の危険性を示した。 建物のエネルギー消費に対する複数の設計ソリューションの含意を評価するケーススタディを用いて,データ駆動モデリングプロセスにおける因果分析の必要性を実証した。 私たちはこう結論づけました (a)データ駆動型モデルの精度評価やドメイン知識のスクリーニングは、偏見や刺激的な結果を除外するものではない。 b) データ駆動モデルの特徴選択は,因果関係,特に衝突者について慎重に考慮しなければならない。 (c)因果解析の結果は、第一原理シミュレーション設計とパラメータチェックの助けとなり、認知バイアスを避けることができる。 建築工学におけるデータ駆動モデルに適用することで因果分析の利点を証明した。

The decision-making process in real-world implementations has been affected by a growing reliance on data-driven models. We investigated the synergetic pattern between the data-driven methods, empirical domain knowledge, and first-principles simulations. We showed the potential risk of biased results when using data-driven models without causal analysis. Using a case study assessing the implication of several design solutions on the energy consumption of a building, we proved the necessity of causal analysis during the data-driven modeling process. We concluded that: (a) Data-driven models' accuracy assessment or domain knowledge screening may not rule out biased and spurious results; (b) Data-driven models' feature selection should involve careful consideration of causal relationships, especially colliders; (c) Causal analysis results can be used as an aid to first-principles simulation design and parameter checking to avoid cognitive biases. We proved the benefits of causal analysis when applied to data-driven models in building engineering.
翻訳日:2023-09-24 03:43:00 公開日:2023-09-11
# 絡み合った状態のエネルギー境界

Energy bounds for entangled states ( http://arxiv.org/abs/1904.02778v2 )

ライセンス: Link先を確認
Nicol\`o Piccione, Benedetto Militello, Anna Napoli, Bruno Bellomo(参考訳) 任意の量の絡み合いに対して任意の有限双極子系の局所エネルギーの最小値と最大値を求め、これらの境界に達する状態の族を同定し、熱状態と形式的な類似点を共有する。 そして、これらのエネルギー境界に近い純状態がランダムに生成される確率を数値的に研究し、考慮されたすべての構成において、2量子および高退化の場合を除いて極めて低いことを見出した。 これらの結果は、エネルギー効率のよいプロトコルを設計するために量子技術において重要である。

We find the minimum and the maximum value for the local energy of an arbitrary finite bipartite system for any given amount of entanglement, also identifying families of states reaching these bounds and sharing formal analogies with thermal states. Then, we numerically study the probability of randomly generating pure states close to these energy bounds finding, in all the considered configurations, that it is extremely low except for the two-qubit and highly degenerate cases. These results can be important in quantum technologies to design energetically more efficient protocols.
翻訳日:2023-09-15 20:08:21 公開日:2023-09-11
# 資源拘束型ロボットのためのハイブリッドASR:HMM - 深層学習融合

Hybrid ASR for Resource-Constrained Robots: HMM - Deep Learning Fusion ( http://arxiv.org/abs/2309.07164v1 )

ライセンス: Link先を確認
Anshul Ranjan, Kaushik Jegadeesan(参考訳) 本稿では,資源制約ロボットに特化したハイブリッド音声認識(ASR)システムを提案する。 提案手法は隠れマルコフモデル(hmms)とディープラーニングモデルを組み合わせたもので,ソケットプログラミングを利用して処理タスクを効果的に分散する。 このアーキテクチャでは、HMMベースの処理がロボット内で行われ、別のPCがディープラーニングモデルを処理する。 このHMMとディープラーニングの相乗効果は音声認識精度を大幅に向上させる。 様々なロボットプラットフォームで実験を行い,リアルタイムかつ高精度な音声認識性能を実証した。 特に、このシステムは音響条件の変更や低消費電力ハードウェアとの互換性に適応性を示し、計算資源の少ない環境では非常に効果的である。 このハイブリッドASRパラダイムは、シームレスな人間とロボットの相互作用の可能性を開く。 結論として,ロボット工学に適したASR技術に先駆的な次元を導入する。 ソケットプログラミングを用いて、異なるデバイス間で処理タスクを分散し、HMMとディープラーニングモデルとを戦略的に組み合わせることで、我々のハイブリッドAIRシステムは、制限された計算資源を持つ環境においても、ロボットが音声言語を十分理解し、応答できる可能性を示す。 このパラダイムは、現実世界の幅広いシナリオにおける人間とロボットの相互作用を強化する革新的なコースを定めている。

This paper presents a novel hybrid Automatic Speech Recognition (ASR) system designed specifically for resource-constrained robots. The proposed approach combines Hidden Markov Models (HMMs) with deep learning models and leverages socket programming to distribute processing tasks effectively. In this architecture, the HMM-based processing takes place within the robot, while a separate PC handles the deep learning model. This synergy between HMMs and deep learning enhances speech recognition accuracy significantly. We conducted experiments across various robotic platforms, demonstrating real-time and precise speech recognition capabilities. Notably, the system exhibits adaptability to changing acoustic conditions and compatibility with low-power hardware, making it highly effective in environments with limited computational resources. This hybrid ASR paradigm opens up promising possibilities for seamless human-robot interaction. In conclusion, our research introduces a pioneering dimension to ASR techniques tailored for robotics. By employing socket programming to distribute processing tasks across distinct devices and strategically combining HMMs with deep learning models, our hybrid ASR system showcases its potential to enable robots to comprehend and respond to spoken language adeptly, even in environments with restricted computational resources. This paradigm sets a innovative course for enhancing human-robot interaction across a wide range of real-world scenarios.
翻訳日:2023-09-15 17:39:15 公開日:2023-09-11
# 脳電図に基づく認知負荷検出のための実験パラダイムとディープニューラルネットワークの体系的レビュー

Systematic Review of Experimental Paradigms and Deep Neural Networks for Electroencephalography-Based Cognitive Workload Detection ( http://arxiv.org/abs/2309.07163v1 )

ライセンス: Link先を確認
Vishnu KN and Cota Navin Gupta(参考訳) 本稿では脳波(EEG)に基づく認知作業負荷(CWL)推定の体系的レビューを要約する。 信号分類に使用されるディープニューラルネットワーク(DNN)において、離散的および定量的な認知負荷レベルを確実に引き出すために使用される異なる実験パラダイムと、一般的に使用される入力定式化の特性と表現構造を識別する。 この分析により、CWLのオフライン分類のための2次元行列のネイティブ表現における脳波信号を用いた多くの研究が明らかになった。 しかし、リアルタイムCWL推定のためにオンラインまたは擬似オンライン分類戦略を採用した研究はごくわずかである。 さらに,本レビューの日までの認知負荷検出には,解釈可能なdnnと単一生成モデルのみを用いた。 多くの場合、研究者はブラックボックス型モデルとしてDNNを使用していた。 結論として、dnnは、主にネットワークアーキテクチャの深さによって提供される実質的なモデリング能力のために、脳波信号の分類に有用なツールであることが証明された。 さらに,信号の非定常的性質に対して既存の手法が制限されているため,解釈可能かつ説明可能なDNNモデルを認知的ワークロード推定に利用する必要があることが示唆された。

This article summarizes a systematic review of the electroencephalography (EEG)-based cognitive workload (CWL) estimation. The focus of the article is twofold: identify the disparate experimental paradigms used for reliably eliciting discreet and quantifiable levels of cognitive load and the specific nature and representational structure of the commonly used input formulations in deep neural networks (DNNs) used for signal classification. The analysis revealed a number of studies using EEG signals in its native representation of a two-dimensional matrix for offline classification of CWL. However, only a few studies adopted an online or pseudo-online classification strategy for real-time CWL estimation. Further, only a couple of interpretable DNNs and a single generative model were employed for cognitive load detection till date during this review. More often than not, researchers were using DNNs as black-box type models. In conclusion, DNNs prove to be valuable tools for classifying EEG signals, primarily due to the substantial modeling power provided by the depth of their network architecture. It is further suggested that interpretable and explainable DNN models must be employed for cognitive workload estimation since existing methods are limited in the face of the non-stationary nature of the signal.
翻訳日:2023-09-15 17:38:55 公開日:2023-09-11
# BCI MIデコードのための強力でシンプルなディープラーニングベースライン

A Strong and Simple Deep Learning Baseline for BCI MI Decoding ( http://arxiv.org/abs/2309.07159v1 )

ライセンス: Link先を確認
Yassine El Ouahidi, Vincent Gripon, Bastien Pasdeloup, Ghaith Bouallegue, Nicolas Farrugia and Giulia Lioi(参考訳) BCIにおける運動画像復号のための1次元畳み込みニューラルネットワークであるEEG-SimpleConvを提案する。 私たちの主な動機は、文献の非常に標準的な材料のみを使用して、比較するための非常に単純なベースラインを提案することです。 シミュレーションオンラインセットアップを含む4つの脳波運動画像データセットでその性能を評価し,最近のディープラーニングおよび機械学習アプローチと比較した。 EEG-SimpleConvは、他のアプローチよりも少なくとも良い、あるいははるかに効率的であり、推論時間の低いコストで、被験者間で強力な知識伝達能力を示す。 アドホックなソリューションではなく、市販の材料を使うことは、bciにディープラーニングのアプローチを採用するのに大いに役立つ、と私たちは主張している。 モデルと実験のコードをアクセス可能にします。

We propose EEG-SimpleConv, a straightforward 1D convolutional neural network for Motor Imagery decoding in BCI. Our main motivation is to propose a very simple baseline to compare to, using only very standard ingredients from the literature. We evaluate its performance on four EEG Motor Imagery datasets, including simulated online setups, and compare it to recent Deep Learning and Machine Learning approaches. EEG-SimpleConv is at least as good or far more efficient than other approaches, showing strong knowledge-transfer capabilities across subjects, at the cost of a low inference time. We advocate that using off-the-shelf ingredients rather than coming with ad-hoc solutions can significantly help the adoption of Deep Learning approaches for BCI. We make the code of the models and the experiments accessible.
翻訳日:2023-09-15 17:38:38 公開日:2023-09-11
# AIのための圧縮実数:RISC-V CPUを用いたケーススタディ

Compressed Real Numbers for AI: a case-study using a RISC-V CPU ( http://arxiv.org/abs/2309.07158v1 )

ライセンス: Link先を確認
Federico Rossi, Marco Cococcioni, Roger Ferrer Ib\`a\~nez, Jes\`us Labarta, Filippo Mantovani, Marc Casas, Emanuele Ruffaldi and Sergio Saponara(参考訳) 最近発表されたように、シングル精度のIEEE 754浮動小数点数(binary32)を使用してトレーニングされるディープニューラルネットワーク(DNN)も、低い精度で動作する。 したがって、16ビットと8ビットの圧縮フォーマットが注目されている。 本稿では,機械学習アプリケーションにおけるbinary32の数値圧縮において,bfloat と positive の精度を合理的に低下させることなく,すでに興味深い結果が得られた2種類のフォーマットに注目した。 16ビットと8ビットのbfloat/positがトレーニングされたDNNの重み/バイアスの保存に日常的に使用されているとしても、推論はCPUの32ビットFPU(特にGPUが利用できない場合)で起こる。 本稿では,圧縮されたオペランドがベクトル対応CPUのベクトルレジスタにロードされた後に,計算直前に浮動小数点数のテンソルを分解し,帯域幅を節約し,キャッシュ効率を向上する手法を提案する。 最後に、このソリューションが圧縮されていないものに対して有利であるアーキテクチャパラメータと考察を示す。

As recently demonstrated, Deep Neural Networks (DNN), usually trained using single precision IEEE 754 floating point numbers (binary32), can also work using lower precision. Therefore, 16-bit and 8-bit compressed format have attracted considerable attention. In this paper, we focused on two families of formats that have already achieved interesting results in compressing binary32 numbers in machine learning applications, without sensible degradation of the accuracy: bfloat and posit. Even if 16-bit and 8-bit bfloat/posit are routinely used for reducing the storage of the weights/biases of trained DNNs, the inference still often happens on the 32-bit FPU of the CPU (especially if GPUs are not available). In this paper we propose a way to decompress a tensor of bfloat/posits just before computations, i.e., after the compressed operands have been loaded within the vector registers of a vector capable CPU, in order to save bandwidth usage and increase cache efficiency. Finally, we show the architectural parameters and considerations under which this solution is advantageous with respect to the uncompressed one.
翻訳日:2023-09-15 17:38:25 公開日:2023-09-11
# Desenvolvimento de modelo para predi\c{c}\~ao de cota\c{c}\~oes de a\c{c}\~ao baseada em an\'alise de sentimentos de tweet

Desenvolvimento de modelo para predi\c{c}\~ao de cota\c{c}\~oes de a\c{c}\~ao baseada em an\'alise de sentimentos de tweets ( http://arxiv.org/abs/2309.06538v1 )

ライセンス: Link先を確認
Mario Mitsuo Akita, Everton Josue da Silva(参考訳) 株式市場の株価予測のための機械学習モデルのトレーニングは、そのような論文の取引の自動化がリアルタイムで可能であったため、研究の活発な分野である。 この分野での研究のほとんどは、過去の株価に基づいてニューラルネットワークをトレーニングすることで行われているが、この研究では、iFeel 2.0プラットフォームを使用して、マイクロブログプラットフォームのTwitterから取得した19の感情的特徴を抽出している。 そして、これらの機能を使って、XBootモデルをトレーニングし、同社の将来の株価を予測しました。 その後、モデル出力に基づいてペトロブラスの株の取引をシミュレートし、100個のランダムモデルの平均性能と比較した場合の250日間のR$88,82 (net) の利得を決定した。

Training machine learning models for predicting stock market share prices is an active area of research since the automatization of trading such papers was available in real time. While most of the work in this field of research is done by training Neural networks based on past prices of stock shares, in this work, we use iFeel 2.0 platform to extract 19 sentiment features from posts obtained from microblog platform Twitter that mention the company Petrobras. Then, we used those features to train XBoot models to predict future stock prices for the referred company. Later, we simulated the trading of Petrobras' shares based on the model's outputs and determined the gain of R$88,82 (net) in a 250-day period when compared to a 100 random models' average performance.
翻訳日:2023-09-14 16:31:58 公開日:2023-09-11
# テンソル化ニューラルネットワークの効率的な有限初期化

Efficient Finite Initialization for Tensorized Neural Networks ( http://arxiv.org/abs/2309.06577v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado, Marina Ristol Roura and Aitor Moreno Fdez. de Leceta(参考訳) 本稿では,テンソル化ニューラルネットワークの層をエミュレートする行列のパラメータの爆発を回避する方法で初期化する新しい手法を提案する。 この方法は、全てのノードまたはほとんどのノードの入力または出力への接続があるノード数の多い層を対象としている。 この方法の核心は、この層のフロベニウスノルムを反復的な部分形式で使うことである。 この規範は計算が効率的で、ほとんどの場合、あるいは部分的には計算が容易である。 この手法を異なる層に適用し,その性能を確認した。 https://github.com/i3BQuantumTeam/Q4Real/blob/e07c827651ef16bcf74590ab965ea3985143f891/Quantum-Inspi red%20Variational%20Methods/Normalization_process.ipynb。

We present a novel method for initializing layers of tensorized neural networks in a way that avoids the explosion of the parameters of the matrix it emulates. The method is intended for layers with a high number of nodes in which there is a connection to the input or output of all or most of the nodes. The core of this method is the use of the Frobenius norm of this layer in an iterative partial form, so that it has to be finite and within a certain range. This norm is efficient to compute, fully or partially for most cases of interest. We apply the method to different layers and check its performance. We create a Python function to run it on an arbitrary layer, available in a Jupyter Notebook in the i3BQuantum repository: https://github.com/i3BQuantumTeam/Q4Real/blob/e07c827651ef16bcf74590ab965ea3985143f891/Quantum-Inspi red%20Variational%20Methods/Normalization_process.ipynb
翻訳日:2023-09-14 16:21:05 公開日:2023-09-11
# circle feature graphormer: circle featureはグラフトランスフォーマーを刺激できるのか?

Circle Feature Graphormer: Can Circle Features Stimulate Graph Transformer? ( http://arxiv.org/abs/2309.06574v1 )

ライセンス: Link先を確認
Jingsong Lv, Hongyang Chen, Yao Qi, Lei Yu(参考訳) 本稿では,ogbl-citation2上でのリンク予測タスクの欠如に対する2つの局所グラフ特徴を紹介する。 この機能をcircle機能として定義し、circle of friendsの概念から借用しています。 上記の特徴に対する詳細な計算式を提案する。 まず第一に、第一円の特徴を二部グラフから得られる共通グラフの変形スウィングとして定義する。 第2に、第2の円の特徴をブリッジと定義し、友人の円の異なる2つのノードの重要性を示す。 さらに,まず,グラフの自己認識機構を改良できるように,グラフトランスフォーマーニューラルネットワークを強化するバイアスとして,上記の特徴を提案する。 我々は,2重塔構造を用いてグローバル構造とローカル構造の両方の特徴をキャプチャするsiegネットワークに基づく円状特徴認識グラフトランスフォーマ(cfg)モデルを実装した。 実験の結果,CFGはデータセットogbl-citation2の最先端性能を実現していることがわかった。

In this paper, we introduce two local graph features for missing link prediction tasks on ogbl-citation2. We define the features as Circle Features, which are borrowed from the concept of circle of friends. We propose the detailed computing formulas for the above features. Firstly, we define the first circle feature as modified swing for common graph, which comes from bipartite graph. Secondly, we define the second circle feature as bridge, which indicates the importance of two nodes for different circle of friends. In addition, we firstly propose the above features as bias to enhance graph transformer neural network, such that graph self-attention mechanism can be improved. We implement a Circled Feature aware Graph transformer (CFG) model based on SIEG network, which utilizes a double tower structure to capture both global and local structure features. Experimental results show that CFG achieves the state-of-the-art performance on dataset ogbl-citation2.
翻訳日:2023-09-14 16:20:22 公開日:2023-09-11
# 大学生新聞における教師なしバイアス検出

Unsupervised Bias Detection in College Student Newspapers ( http://arxiv.org/abs/2309.06557v1 )

ライセンス: Link先を確認
Adam M. Lehavi, William McCormack, Noah Kornfeld and Solomon Glazer(参考訳) 本稿では,大学新聞アーカイブのスクレイピングとバイアス検出のために,人間の影響を最小限に抑えたパイプラインを提案する。 本稿では,自動ツールがデータ取得に失敗し,23,154項目からなる14の学生論文のデータセットを生成する,複雑なアーカイブサイトをスクレイピングするフレームワークを提案する。 このデータをキーワードでクエリしてバイアスを計算することも可能で、大きな言語モデルの要約の感情を元の記事と比較することができる。 このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。 結果は、政治的にチャージされた単語と制御された単語で計算され、どのように結果が引き出されるかを示す。 完全な方法は、最小限の仮定と分類によるニュアンスされた洞察の抽出を容易にし、学生新聞の情報源の中でより客観的なバイアスの理解を促す。

This paper presents a pipeline with minimal human influence for scraping and detecting bias on college newspaper archives. This paper introduces a framework for scraping complex archive sites that automated tools fail to grab data from, and subsequently generates a dataset of 14 student papers with 23,154 entries. This data can also then be queried by keyword to calculate bias by comparing the sentiment of a large language model summary to the original article. The advantages of this approach are that it is less comparative than reconstruction bias and requires less labelled data than generating keyword sentiment. Results are calculated on politically charged words as well as control words to show how conclusions can be drawn. The complete method facilitates the extraction of nuanced insights with minimal assumptions and categorizations, paving the way for a more objective understanding of bias within student newspaper sources.
翻訳日:2023-09-14 16:19:03 公開日:2023-09-11
# コンパイラ最適化のための大規模言語モデル

Large Language Models for Compiler Optimization ( http://arxiv.org/abs/2309.07062v1 )

ライセンス: Link先を確認
Chris Cummins, Volker Seeker, Dejan Grubisic, Mostafa Elhoushi, Youwei Liang, Baptiste Roziere, Jonas Gehring, Fabian Gloeckle, Kim Hazelwood, Gabriel Synnaeve, Hugh Leather(参考訳) コード最適化におけるLarge Language Modelsの新たな応用について検討する。 LLVMアセンブリをコードサイズに最適化するために,スクラッチから訓練した7Bパラメータ変換器モデルを提案する。 モデルは入力を最適化しないアセンブリとして取り、プログラムを最適化するためにコンパイラオプションのリストを出力する。 重要なことは、トレーニング中、最適化前後の命令数と最適化コード自体を予測するようモデルに求めることである。 これらの補助学習タスクはモデルの最適化性能を大幅に改善し、モデルの理解度を向上する。 大規模なテストプログラムについて評価する。 提案手法は,コンパイラの命令数を3.0%削減し,数千のコンパイルを必要とする最先端のベースラインを2つ達成する。 さらに、このモデルは驚くほど強力なコード推論能力を示し、コンパイル可能なコードの91%を生成し、コンパイラの70%の出力を完全にエミュレートしている。

We explore the novel application of Large Language Models to code optimization. We present a 7B-parameter transformer model trained from scratch to optimize LLVM assembly for code size. The model takes as input unoptimized assembly and outputs a list of compiler options to best optimize the program. Crucially, during training, we ask the model to predict the instruction counts before and after optimization, and the optimized code itself. These auxiliary learning tasks significantly improve the optimization performance of the model and improve the model's depth of understanding. We evaluate on a large suite of test programs. Our approach achieves a 3.0% improvement in reducing instruction counts over the compiler, outperforming two state-of-the-art baselines that require thousands of compilations. Furthermore, the model shows surprisingly strong code reasoning abilities, generating compilable code 91% of the time and perfectly emulating the output of the compiler 70% of the time.
翻訳日:2023-09-14 13:30:27 公開日:2023-09-11
# 分散ロバストなバッチコンテキストバンディット

Distributionally Robust Batch Contextual Bandits ( http://arxiv.org/abs/2006.05630v7 )

ライセンス: Link先を確認
Nian Si, Fan Zhang, Zhengyuan Zhou, Jose Blanchet(参考訳) 歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。 例えば、オファーの選択、価格、顧客に送信する広告、患者に処方する薬の選択などだ。 しかし、既存の文献は、学習したポリシーが展開される将来の環境が、データを生成した過去の環境と同じである、という決定的な前提に依存している。 本稿では,この仮定を引き上げ,不完全な観測データを用いて分布的に堅牢な政策を学習することを目的とする。 まず,最悪の環境変化下での政策の健全性を評価するための政策評価手順を提案する。 そこで我々は,提案した政策評価スキームに対して,中心極限定理型保証を確立する。 この評価手法を活用することで,一様収束理論に基づく性能保証とともに,対向的摂動や未知の共変量シフトに頑健な政策を学習できる新しい学習アルゴリズムを提案する。 最後に,提案アルゴリズムの有効性を総合データセットで実験的に検証し,標準ポリシー学習アルゴリズムでは欠落している頑健性を示す。 本論文は,実世界の投票データセットの文脈において,提案手法の包括的応用を提供することで結論づける。

Policy learning using historical observational data is an important problem that has found widespread applications. Examples include selecting offers, prices, advertisements to send to customers, as well as selecting which medication to prescribe to a patient. However, existing literature rests on the crucial assumption that the future environment where the learned policy will be deployed is the same as the past environment that has generated the data -- an assumption that is often false or too coarse an approximation. In this paper, we lift this assumption and aim to learn a distributionally robust policy with incomplete observational data. We first present a policy evaluation procedure that allows us to assess how well the policy does under the worst-case environment shift. We then establish a central limit theorem type guarantee for this proposed policy evaluation scheme. Leveraging this evaluation scheme, we further propose a novel learning algorithm that is able to learn a policy that is robust to adversarial perturbations and unknown covariate shifts with a performance guarantee based on the theory of uniform convergence. Finally, we empirically test the effectiveness of our proposed algorithm in synthetic datasets and demonstrate that it provides the robustness that is missing using standard policy learning algorithms. We conclude the paper by providing a comprehensive application of our methods in the context of a real-world voting dataset.
翻訳日:2023-09-13 18:37:11 公開日:2023-09-11
# 量子系の量子モードによる熱力学の非破壊的探究

Non-destructively probing the thermodynamics of quantum systems with qumodes ( http://arxiv.org/abs/1707.04250v2 )

ライセンス: Link先を確認
Thomas J. Elliott, Mile Gu, Jayne Thompson, Nana Liu(参考訳) 量子システムは、その性質上脆弱である。 量子測定による状態の基本的なバックアクションにもかかわらず、実際には測定手段によってシステム自体が破壊されることもある。 これは、同じシステムを複数回測定したい場合や、大量の測定統計を生成したい場合、非常に問題となる。 これを回避する1つのアプローチは、調査中のシステムと結合し、それらの相互作用を通じて、一次システムの特性をアンシヤからインプリントし推論することを可能にする補助プローブの使用である。 ここでは, 連続変数量子モード(qumodes)を用いて, 温度計測, 分割関数の再構成, 可逆的, 不可逆的仕事など, 平衡外における量子系の熱力学を調べる手法を強調する。 横場におけるスピン-1/2系の例を例に,本結果の適用例を示す。

Quantum systems are by their very nature fragile. The fundamental backaction on a state due to quantum measurement notwithstanding, there is also in practice often a destruction of the system itself due to the means of measurement. This becomes acutely problematic when we wish to make measurements of the same system at multiple times, or generate a large quantity of measurement statistics. One approach to circumventing this is the use of ancillary probes that couple to the system under investigation, and through their interaction, enable properties of the primary system to be imprinted onto and inferred from the ancillae. Here we highlight means by which continuous variable quantum modes (qumodes) can be employed to probe the thermodynamics of quantum systems in and out of equilibrium, including thermometry, reconstruction of the partition function, and reversible and irreversible work. We illustrate application of our results with the example of a spin-1/2 system in a transverse field.
翻訳日:2023-09-13 18:34:58 公開日:2023-09-11
# 顔行動分析のための弱教師付き学習 : 概観

Weakly Supervised Learning for Facial Behavior Analysis : A Review ( http://arxiv.org/abs/2101.09858v2 )

ライセンス: Link先を確認
Gnana Praveen R, Eric Granger, Patrick Cardinal(参考訳) 近年,実世界の多くのアプリケーションにおいて,深層学習に基づくアプローチが優れているため,実験室が制御する条件から困難な実環境へ顔の行動分析がシフトしているが,深層学習アプローチの性能はトレーニングデータ量に依存する。 データ取得の大きな問題の1つは、大量のトレーニングデータに対するアノテーションの必要性である。 大規模なトレーニングデータのラベル付けには、表情やアクションユニットの強力なドメイン専門知識が要求されるため、リアルタイム環境では入手が困難であり、特にドメイン専門家のバイアスによる強度に対する表現やアクションユニットのあいまいさに対して、ラベル付けプロセスは極めて脆弱である。 したがって、弱いアノテーションによる顔行動分析の課題に対処する必要がある。 本稿では,分類的および次元的ラベルを用いた顔行動分析のための弱教師付き学習(WSL)アプローチの総合的なレビューと,それに関連する課題と研究の方向性について述べる。 まず,顔行動分析の文脈とそれに関連する課題において,様々な弱いアノテーションを導入する。 そして、既存の最先端のアプローチを体系的にレビューし、これらのアプローチの分類と洞察と限界を提供します。 また、レビュー文献で広く使われているデータセットと評価原則とともにこれらの手法の性能について概説する。 最後に,実際の状況において,弱いラベルを用いた顔行動分析を適用するために,残る課題と機会について検討する。

In the recent years, there has been a shift in facial behavior analysis from the laboratory-controlled conditions to the challenging in-the-wild conditions due to the superior performance of deep learning based approaches for many real world applications.However, the performance of deep learning approaches relies on the amount of training data. One of the major problems with data acquisition is the requirement of annotations for large amount of training data. Labeling process of huge training data demands lot of human support with strong domain expertise for facial expressions or action units, which is difficult to obtain in real-time environments.Moreover, labeling process is highly vulnerable to ambiguity of expressions or action units, especially for intensities due to the bias induced by the domain experts. Therefore, there is an imperative need to address the problem of facial behavior analysis with weak annotations. In this paper, we provide a comprehensive review of weakly supervised learning (WSL) approaches for facial behavior analysis with both categorical as well as dimensional labels along with the challenges and potential research directions associated with it. First, we introduce various types of weak annotations in the context of facial behavior analysis and the corresponding challenges associated with it. We then systematically review the existing state-of-the-art approaches and provide a taxonomy of these approaches along with their insights and limitations. In addition, widely used data-sets in the reviewed literature and the performance of these approaches along with evaluation principles are summarized. Finally, we discuss the remaining challenges and opportunities along with the potential research directions in order to apply facial behavior analysis with weak labels in real life situations.
翻訳日:2023-09-13 18:31:01 公開日:2023-09-11
# 弱ラベルビデオを用いた痛み強度推定の順序回帰のための深いda

Deep DA for Ordinal Regression of Pain Intensity Estimation Using Weakly-Labeled Videos ( http://arxiv.org/abs/2010.15675v4 )

ライセンス: Link先を確認
Gnana Praveen R, Eric Granger, Patrick Cardinal(参考訳) ビデオにおける表情からの痛みの強さの自動推定は、医療応用において大きな可能性を秘めている。 しかし、ドメイン適応(DA)は、通常、ソースでキャプチャされたビデオデータとターゲットドメインの間で発生するドメインシフトの問題を軽減するために必要である。 ビデオの収集と注釈作成に手間がかかり、隣接する強度レベル間のあいまいさによる主観的バイアスから、弱い教師付き学習(wsl)が注目されている。 しかし、最先端のWSLモデルは一般的に回帰問題として定式化され、強度レベルと時間的コヒーレンスの間の順序関係は利用されない。 本稿では,対象領域の動画が周期的に粗いラベルを持つような,順序回帰(WSDA-OR)を用いた弱教師付きDAのための新しい深層学習モデルを提案する。 WSDA-ORモデルは、ターゲットシーケンスに割り当てられた強度レベル間の順序関係を強制し、複数の関連するフレームを(単一のフレームの代わりに)シーケンスレベルのラベルに関連付ける。 特に、複数のインスタンス学習と深い敵対DAを統合することで、識別的およびドメイン不変の特徴表現を学習し、ソフトガウスラベルを用いて、ターゲットドメインからの弱い順序レベルラベルを効率的に表現する。 提案手法は,RECOLAビデオデータセットを完全ラベル付きソースドメインとして,UNBC-McMasterビデオデータを弱いラベル付きターゲットドメインとして検証した。 また,BIOVIDと疲労(プライベート)データセットを用いてシーケンスレベルの推定を行った。 実験結果から,本手法は最先端モデルよりも大幅に向上し,より高精度なローカライゼーションを実現することが可能であることが示唆された。

Automatic estimation of pain intensity from facial expressions in videos has an immense potential in health care applications. However, domain adaptation (DA) is needed to alleviate the problem of domain shifts that typically occurs between video data captured in source and target do-mains. Given the laborious task of collecting and annotating videos, and the subjective bias due to ambiguity among adjacent intensity levels, weakly-supervised learning (WSL)is gaining attention in such applications. Yet, most state-of-the-art WSL models are typically formulated as regression problems, and do not leverage the ordinal relation between intensity levels, nor the temporal coherence of multiple consecutive frames. This paper introduces a new deep learn-ing model for weakly-supervised DA with ordinal regression(WSDA-OR), where videos in target domain have coarse la-bels provided on a periodic basis. The WSDA-OR model enforces ordinal relationships among the intensity levels as-signed to the target sequences, and associates multiple relevant frames to sequence-level labels (instead of a single frame). In particular, it learns discriminant and domain-invariant feature representations by integrating multiple in-stance learning with deep adversarial DA, where soft Gaussian labels are used to efficiently represent the weak ordinal sequence-level labels from the target domain. The proposed approach was validated on the RECOLA video dataset as fully-labeled source domain, and UNBC-McMaster video data as weakly-labeled target domain. We have also validated WSDA-OR on BIOVID and Fatigue (private) datasets for sequence level estimation. Experimental results indicate that our approach can provide a significant improvement over the state-of-the-art models, allowing to achieve a greater localization accuracy.
翻訳日:2023-09-13 18:30:34 公開日:2023-09-11
# 最小エネルギー絡み合った状態の生成

Generation of minimum energy entangled states ( http://arxiv.org/abs/2010.13644v2 )

ライセンス: Link先を確認
Nicol\`o Piccione, Benedetto Militello, Anna Napoli, Bruno Bellomo(参考訳) 2成分の絡み合いを利用する量子技術は、与えられた絡み合い次数に対して最小のエネルギー量を持つ状態を使用することによりより効率的になる。 本稿では, 任意の有限次元のバイパルタイト系において, 基底状態にユニタリ変換を適用するか, サブシステム間の適切な相互作用項のオンオフに基づくゼロ温度熱化プロトコルを用いてこれらの状態を生成する方法を検討する。 特に、3つの可能なユニタリ作用素と5つの可能な相互作用項を明確に識別する。 一方、3つのユニタリ変換のうち2つは、局所初等演算と1つの非局所変換によって容易に分解可能となり、実装が容易になった。 一方,熱化手順を多種多様な状態を生成するために容易に適用できることから,エンタングル化の各度において,最小エネルギーエンタングル状態コストを生成することは,一般論として,他の状態の大部分を発生させるよりも少ないことを数値的に示す。

Quantum technologies exploiting bipartite entanglement could be made more efficient by using states having the minimum amount of energy for a given entanglement degree. Here, we study how to generate these states in the case of a bipartite system of arbitrary finite dimension either by applying a unitary transformation to its ground state or through a zero-temperature thermalization protocol based on turning on and off a suitable interaction term between the subsystems. In particular, we explicitly identify three possible unitary operators and five possible interaction terms. On one hand, two of the three unitary transformations turn out to be easily decomposable in terms of local elementary operations and a single nonlocal one, making their implementation easier. On the other hand, since the thermalization procedures can be easily adapted to generate many different states, we numerically show that, for each degree of entanglement, generating minimum-energy entangled states costs, in general, less than generating the vast majority of the other states.
翻訳日:2023-09-13 18:30:03 公開日:2023-09-11
# 回帰課題の分布外検出:パラメータと予測エントロピー

Out-of-distribution detection for regression tasks: parameter versus predictor entropy ( http://arxiv.org/abs/2010.12995v2 )

ライセンス: Link先を確認
Yann Pequignot, Mathieu Alain, Patrick Dallaire, Alireza Yeganehparast, Pascal Germain, Jos\'ee Desharnais and Fran\c{c}ois Laviolette(参考訳) マシンラーニングモデルのトレーニングサンプルから離れた場所にあるインスタンスが信頼されるかどうかを検出することは、od(out-of-distribution)検出として知られる課題である。 このタスクに対する1つのアプローチは、トレーニングデータを説明することができる予測子の多様性を学ぶことだ。 この情報は、予測の不一致の尺度の観点から、与えられた新しく観測されたインスタンスにおける認識の不確実性の推定に使用できる。 oodを検出する方法の能力の評価と認定には、まだ予測ができないデプロイメントで発生しそうなインスタンスを特定する必要がある。 回帰タスクに着目して、このOOD分布の単純だが洞察に富んだモデルを選択し、データからOODサンプルを識別する様々な手法の能力を実証的に評価する。 さらに,パラメータの多様性が予測要因の多様性に変換できないという証拠を示す。 そこで,ood分布の選択に基づいて,関数空間における近接近傍に基づく予測器上の分布のエントロピーを推定する新しい手法を提案する。 これにより、生成型ニューラルネットワークが与える分布群と組み合わせることで、oodサンプルを検出するロバストな方法を提供する予測器の多様性を体系的に生み出す、変分的目標が導かれる。

It is crucial to detect when an instance lies downright too far from the training samples for the machine learning model to be trusted, a challenge known as out-of-distribution (OOD) detection. For neural networks, one approach to this task consists of learning a diversity of predictors that all can explain the training data. This information can be used to estimate the epistemic uncertainty at a given newly observed instance in terms of a measure of the disagreement of the predictions. Evaluation and certification of the ability of a method to detect OOD require specifying instances which are likely to occur in deployment yet on which no prediction is available. Focusing on regression tasks, we choose a simple yet insightful model for this OOD distribution and conduct an empirical evaluation of the ability of various methods to discriminate OOD samples from the data. Moreover, we exhibit evidence that a diversity of parameters may fail to translate to a diversity of predictors. Based on the choice of an OOD distribution, we propose a new way of estimating the entropy of a distribution on predictors based on nearest neighbors in function space. This leads to a variational objective which, combined with the family of distributions given by a generative neural network, systematically produces a diversity of predictors that provides a robust way to detect OOD samples.
翻訳日:2023-09-13 18:29:45 公開日:2023-09-11
# ベイズ非パラメトリック混合モデルへの接続によるNeyman-Scottプロセスによる時空間クラスタリング

Spatiotemporal Clustering with Neyman-Scott Processes via Connections to Bayesian Nonparametric Mixture Models ( http://arxiv.org/abs/2201.05044v3 )

ライセンス: Link先を確認
Yixin Wang, Anthony Degleris, Alex H. Williams, and Scott W. Linderman(参考訳) Neyman-Scott Process (NSP) は、時間または空間におけるポイントのクラスタを生成するポイントプロセスモデルである。 それらは、ニューラルネットワークのスパイクトレインからドキュメントストリームまで、幅広い現象の自然なモデルです。 クラスタリング特性は2つの確率的定式化によって達成される: まず、ポアソン過程から潜在事象の集合が引き出され、次に、各潜在事象は別のポアソン過程に従って観測されたデータポイントの集合を生成する。 この構成は、ディリクレ過程混合モデル(DPMM)のようなベイズ的な非パラメトリック混合モデルと似ており、潜在事象の数(すなわちクラスタ)がランダム変数であるのに対して、ポイントプロセスの定式化は、特に時空間データのモデル化に好適である。 多くの特殊アルゴリズムがDPMM向けに開発されたが、NSPにおける推論に焦点を当てた研究は比較的少ない。 ここでは NSP と DPMM の新たな接続について述べる。鍵リンクは有限混合モデル (MFMM) と呼ばれるベイズ混合モデルの第三級である。 この接続を利用して,dpmmの標準崩壊ギブスサンプリングアルゴリズムを適用し,nspモデル上でスケーラブルベイズ推定を行う。 ニューラルスパイク列車におけるシーケンス検出や文書ストリームにおけるイベント検出など,さまざまな応用におけるNeyman-Scottプロセスの可能性を示す。

Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
翻訳日:2023-09-13 18:21:15 公開日:2023-09-11
# 話す前に考える - 応答生成のための暗黙の常識知識を明示的に生成する

Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Generation ( http://arxiv.org/abs/2110.08501v4 )

ライセンス: Link先を確認
Pei Zhou, Karthik Gopalakrishnan, Behnam Hedayatnia, Seokhwan Kim, Jay Pujara, Xiang Ren, Yang Liu, Dilek Hakkani-Tur(参考訳) 常識のような暗黙の知識は、人間の会話を流動化する鍵となる。 現在のニューラルレスポンス生成(RG)モデルは、暗黙の知識を省略して、直接応答を生成するように訓練されている。 本稿では、暗黙のコモンセンス知識(思考)を最初に外部化するための生成的アプローチであるThink-Before-Speaking(TBS)について述べる。 暗黙的知識の外部化はより効率的な学習を可能にし、より情報的な反応をもたらし、より説明可能なモデルを可能にすることを期待する。 異なる選択を分析し,知識に合わせた対話を収集し,暗黙の知識を表現し,知識と対話の遷移を行う。 実験の結果,TBSモデルは,ほとんどの自動測定値において,エンド・ツー・エンドおよびナレッジ・増強されたRGベースラインを上回り,より情報的,具体的,コモンセンス・フォローング応答を生成することがわかった。 TBSは意味のある知識も生成し、その85%の確率で対話に関係している。

Implicit knowledge, such as common sense, is key to fluid human conversations. Current neural response generation (RG) models are trained to generate responses directly, omitting unstated implicit knowledge. In this paper, we present Think-Before-Speaking (TBS), a generative approach to first externalize implicit commonsense knowledge (think) and use this knowledge to generate responses (speak). We expect that externalizing implicit knowledge allows more efficient learning, produces more informative responses, and enables more explainable models. We analyze different choices to collect knowledge-aligned dialogues, represent implicit knowledge, and transition between knowledge and dialogues. Empirical results show TBS models outperform end-to-end and knowledge-augmented RG baselines on most automatic metrics and generate more informative, specific, and commonsense-following responses, as evaluated by human annotators. TBS also generates knowledge that makes sense and is relevant to the dialogue around 85\% of the time.
翻訳日:2023-09-13 18:20:20 公開日:2023-09-11
# 帰納的説明の公理的集約

Axiomatic Aggregations of Abductive Explanations ( http://arxiv.org/abs/2109.03890v4 )

ライセンス: Link先を確認
Gagan Biradar, Yacine Izza, Elita Lobo, Vignesh Viswanathan, Yair Zick(参考訳) ポストホックモデル近似法(LIMEやSHAPなど)のロバスト性に対する最近の批判は、モデル精度の導出的説明の台頭につながっている。 データポイントごとに、帰納的説明は結果を生成するのに十分な機能の最小限のサブセットを提供する。 理論上、健全で厳格な、誘惑的な説明は大きな問題に悩まされるが、同じデータポイントに対していくつかの有効な誘惑的な説明がある。 そのような場合、単一の帰納的説明を提供することは不十分であり、一方、有効な帰納的説明を提供することは、その大きさのため理解できない。 本研究では,この課題を,多量の帰納的説明を特徴量スコアに集約することで解決する。 本研究では,協調ゲーム理論のパワー指標に基づく2つの集計法と,既知の因果強度尺度に基づく3つの集計法を提案する。 これら3つの手法を公理的に特徴づけ、それぞれが一意に望ましい性質の集合を満たすことを示す。 また、複数のデータセット上で評価し、これらの説明がSHAPやLIMEを騙す攻撃に対して堅牢であることを示す。

The recent criticisms of the robustness of post hoc model approximation explanation methods (like LIME and SHAP) have led to the rise of model-precise abductive explanations. For each data point, abductive explanations provide a minimal subset of features that are sufficient to generate the outcome. While theoretically sound and rigorous, abductive explanations suffer from a major issue -- there can be several valid abductive explanations for the same data point. In such cases, providing a single abductive explanation can be insufficient; on the other hand, providing all valid abductive explanations can be incomprehensible due to their size. In this work, we solve this issue by aggregating the many possible abductive explanations into feature importance scores. We propose three aggregation methods: two based on power indices from cooperative game theory and a third based on a well-known measure of causal strength. We characterize these three methods axiomatically, showing that each of them uniquely satisfies a set of desirable properties. We also evaluate them on multiple datasets and show that these explanations are robust to the attacks that fool SHAP and LIME.
翻訳日:2023-09-13 18:19:42 公開日:2023-09-11
# Anti-$\mathcal{PT}$ Transformations and Complex Non-Hermitian $\mathcal{PT}$-Symmetric Superpartners

Anti-$\mathcal{PT}$ Transformations And Complex Non-Hermitian $\mathcal{PT}$-Symmetric Superpartners ( http://arxiv.org/abs/2108.12834v3 )

ライセンス: Link先を確認
Taha Koohrokhi and Sehban Kartal and Ali Mohammadi(参考訳) 従来の形状不変超ポテンシャルを複素領域に拡張することにより、複素非エルミート的$\mathcal{pt}$-symmetric superpartnerを構築するための新しい代数的形式を提案する。 結果として得られるポテンシャルは、実エネルギー固有値を持つ非破壊超時間およびパリティ時間(\mathcal{PT}$)対称形状不変ポテンシャルであり、全てのパラメータ値に対してこの性質を維持する。 真の量子論における確率論的解釈を復元するために、$\mathcal{CPT}$-inner 積と呼ばれる新しい内部積は $\mathcal{PT}$-symmetric 量子力学で定義され、ディラック・エルミート内積を置き換える。 本研究では,内部積の新たなバージョンである anti-$\mathcal{pt}$ (\mathcal{apt}$)-inner product, $\langle a|b\rangle\equiv |a\rangle^{\mathcal{apt}} を提案する。 B\rangle$は、追加の考慮なしに以前のバージョンを置き換える。 この$\mathcal{PT}$-supersymmetric quantum mechanics frameworkは、古典光学や量子力学など、物理学の様々な領域を統一することを可能にする。 この理論を検証するために、我々は、$\rm ^{3}H(d,n)^{4}He$反応において、ポテンシャル障壁を越える確率に関する実験データと優れた一致を示す、光導波路の正確な解と量子トンネル確率を示す。

We propose a new algebraic formalism for constructing complex non-Hermitian $\mathcal{PT}$-symmetric superpartners by extending a conventional shape-invariant superpotential into the complex domain. The resulting potential is an unbroken super- and parity-time ($\mathcal{PT}$)-symmetric shape-invariant potential with real energy eigenvalues, maintaining this property for all parameter values. In order to restore the probabilistic interpretation within a true quantum theory, a new inner product called the $\mathcal{CPT}$-inner product is defined in $\mathcal{PT}$-symmetric quantum mechanics, replacing the Dirac Hermitian inner product. In this work, we propose a new version of the inner product called the anti-$\mathcal{PT}$ ($\mathcal{APT}$)-inner product, $\langle A|B\rangle\equiv |A\rangle^{\mathcal{APT}}.|B\rangle$, which replaces the previous versions without any additional considerations. This $\mathcal{PT}$-supersymmetric quantum mechanics framework also allows for the unification of various areas of physics, including classical optics and quantum mechanics. To validate the theory, we present exact solutions for optical waveguides and the quantum tunneling probability, demonstrating excellent agreement with experimental data for the probability of crossing the potential barrier in the $\rm ^{3}H(d,n)^{4}He$ reaction.
翻訳日:2023-09-13 18:18:54 公開日:2023-09-11
# MCML:少しショットスロットタグ付けのための新しいメモリベースコントラストメタラーニング手法

MCML: A Novel Memory-based Contrastive Meta-Learning Method for Few Shot Slot Tagging ( http://arxiv.org/abs/2108.11635v3 )

ライセンス: Link先を確認
Hongru Wang, Zezhong Wang, Wai Chung Kwan, Kam-Fai Wong(参考訳) メタラーニングは、数ショットの学習タスクにおいて、数ショットのスロットタグ付けに広く使用されている。 しかし、既存のメソッドのパフォーマンスは、新しいタスクに適応する際にサポートセットにのみ依存しながら、歴史的に学んだメタトレーニングタスクをモデルが忘れる、 \textit{sample forgeting issue} によって深刻な影響を受ける。 この課題を克服するために、我々は、トレーニングエピソードとトレーニングとテストの間の分散ギャップを橋渡しする \textit{learn-from-memory} と \textit{adaption-from-the-memory} モジュールを含む \textbf{m}emory-based \textbf{c}ontrastive \textbf{m}eta-\textbf{l}earning (別名 mcml) メソッドを提案する。 具体的には、前者は明示的なメモリバンクを使用して、以前の訓練されたエピソードのラベル表現を追跡し、現在のエピソードのラベル表現とメモリに格納された歴史的なものとの対比的な制約を保持する。 さらに、テストエピソードとメモリに埋め込まれた同じラベル間のシフトに基づいて、より正確で堅牢な表現を学ぶために、 \emph{adaption-from-memory} メカニズムが導入された。 実験の結果、MCMLはSNIPSデータセットとNERデータセットの両方でいくつかの最先端の手法より優れており、ショット数が増えると一貫した拡張性を示す。

Meta-learning is widely used for few-shot slot tagging in task of few-shot learning. The performance of existing methods is, however, seriously affected by \textit{sample forgetting issue}, where the model forgets the historically learned meta-training tasks while solely relying on support sets when adapting to new tasks. To overcome this predicament, we propose the \textbf{M}emory-based \textbf{C}ontrastive \textbf{M}eta-\textbf{L}earning (aka, MCML) method, including \textit{learn-from-the-memory} and \textit{adaption-from-the-memory} modules, which bridge the distribution gap between training episodes and between training and testing respectively. Specifically, the former uses an explicit memory bank to keep track of the label representations of previously trained episodes, with a contrastive constraint between the label representations in the current episode with the historical ones stored in the memory. In addition, the \emph{adaption-from-memory} mechanism is introduced to learn more accurate and robust representations based on the shift between the same labels embedded in the testing episodes and memory. Experimental results show that the MCML outperforms several state-of-the-art methods on both SNIPS and NER datasets and demonstrates strong scalability with consistent improvement when the number of shots gets greater.
翻訳日:2023-09-13 18:18:18 公開日:2023-09-11
# GTNet:人間と物体の相互作用を検出する誘導トランスネットワーク

GTNet:Guided Transformer Network for Detecting Human-Object Interactions ( http://arxiv.org/abs/2108.00596v6 )

ライセンス: Link先を確認
A S M Iftekhar, Satish Kumar, R. Austin McEver, Suya You, B. S. Manjunath(参考訳) human-object interaction (hoi) 検出タスクは、人間をローカライズし、オブジェクトをローカライズし、人間とオブジェクトのペア間の相互作用を予測することを指す。 HOIは、複雑な視覚シーンを真に理解するための基本的なステップの1つと考えられている。 hoiの検出には、相対的な空間構成とオブジェクトセマンティクスを利用して、人間のオブジェクトペア間の相互作用を強調する画像の突出した空間領域を見つけることが重要である。 この問題は、新しい自己着脱型誘導変圧器ネットワークであるgtnetによって解決される。 GTNetは、V-COCOとHICO-DETの両方のデータセット上で、アート結果の状態を達成しつつ、この空間的コンテキスト情報を自己注意を介して人間とオブジェクトの視覚的特徴にエンコードする。 コードはオンラインで入手できる。

The human-object interaction (HOI) detection task refers to localizing humans, localizing objects, and predicting the interactions between each human-object pair. HOI is considered one of the fundamental steps in truly understanding complex visual scenes. For detecting HOI, it is important to utilize relative spatial configurations and object semantics to find salient spatial regions of images that highlight the interactions between human object pairs. This issue is addressed by the novel self-attention based guided transformer network, GTNet. GTNet encodes this spatial contextual information in human and object visual features via self-attention while achieving state of the art results on both the V-COCO and HICO-DET datasets. Code will be made available online.
翻訳日:2023-09-13 18:17:50 公開日:2023-09-11
# ランダムニューラルネットワークにおける活動の次元

Dimension of activity in random neural networks ( http://arxiv.org/abs/2207.12373v3 )

ライセンス: Link先を確認
David G. Clark, L.F. Abbott, Ashok Litwin-Kumar(参考訳) ニューラルネットワークは、多くの連結ユニットの協調活動を通して情報を処理する高次元非線形力学系である。 生物と機械学習のネットワークがどのように機能し学習するかを理解するには、この協調した活動の構造、例えば、単位間の相互共分散に含まれる情報を理解する必要がある。 自己整合動的平均場理論(dmft)は、ランダムニューラルネットワークのいくつかの特徴—特にカオス的活動を生み出す—を解明しているが、このアプローチを用いた相互共分散の計算は提供されていない。 ここでは,2箇所の共分散をDMFTを用いて自己整合的に計算する。 本研究では,従来のランダムネットワークモデルにおける活動協調の時空間的特徴を,独立的かつ同一に分散した(d.d.)カップリングモデルを用いて探索する。 我々の公式は幅広い単単位力学に適用され、非二項結合に一般化される。 後者の例として,部分対称結合の場合を分析する。

Neural networks are high-dimensional nonlinear dynamical systems that process information through the coordinated activity of many connected units. Understanding how biological and machine-learning networks function and learn requires knowledge of the structure of this coordinated activity, information contained, for example, in cross covariances between units. Self-consistent dynamical mean field theory (DMFT) has elucidated several features of random neural networks -- in particular, that they can generate chaotic activity -- however, a calculation of cross covariances using this approach has not been provided. Here, we calculate cross covariances self-consistently via a two-site cavity DMFT. We use this theory to probe spatiotemporal features of activity coordination in a classic random-network model with independent and identically distributed (i.i.d.) couplings, showing an extensive but fractionally low effective dimension of activity and a long population-level timescale. Our formulae apply to a wide range of single-unit dynamics and generalize to non-i.i.d. couplings. As an example of the latter, we analyze the case of partially symmetric couplings.
翻訳日:2023-09-13 18:11:57 公開日:2023-09-11
# 量子状態の完全判別のための局所近似

Local approximation for perfect discrimination of quantum states ( http://arxiv.org/abs/2207.03573v2 )

ライセンス: Link先を確認
Scott M. Cohen(参考訳) 量子状態の識別には、可能な状態の集合から与えられた状態を特定することが含まれる。 状態が互いに直交するとき、完全な状態判別は常に大域的測定を用いて可能である。 パーティが複数ラウンドのローカル操作と古典的通信(LOCC)を使用するように制約されている場合、完全状態判別は、誤りが許されるが無限のラウンドの極限で消えなければならないような 'emph{asymptotic LOCC} を用いても不可能であることが多い。 漸近性LOCCに関する最近の結果を利用して、相互直交純状態の任意の集合のLOCC判別における誤り確率の低い境界を導出する。 この下限から得られた知見から,無症候性LOCCによる完全状態判別に必要な条件を立証することができる。 次に、各状態の完全判別をLOCCを用いて任意に行うことができるかどうかの判断を著しく単純化するために必要な条件の力を例示する。 後者の例は、漸近的LOCCによる完全判別が、与えられたマルチパーティイト系において、より少ない状態を持つ UPB が存在しないことを最小限に意味する 'emph{minimal} unextendible product bases (UPB) の特定の部分集合に対して不可能であるという証明を含む。 また、'emph{strong nonlocality without entanglement' と呼ばれるものが、以前に証明されたよりもかなり強いという単純な証明を与える。

Quantum state discrimination involves identifying a given state out of a set of possible states. When the states are mutually orthogonal, perfect state discrimination is always possible using a global measurement. In the case of multipartite systems when the parties are constrained to use multiple rounds of local operations and classical communication (LOCC), perfect state discrimination is often impossible even with the use of \emph{asymptotic LOCC}, wherein an error is allowed but must vanish in the limit of an infinite number of rounds. Utilizing our recent results on asymptotic LOCC, we derive a lower bound on the error probability for LOCC discrimination of any given set of mutually orthogonal pure states. Informed by the insights gained from this lower bound, we are able to prove necessary conditions for perfect state discrimination by asymptotic LOCC. We then illustrate by example the power of these necessary conditions in significantly simplifying the determination of whether perfect discrimination of a given set of states can be accomplished arbitrarily closely using LOCC. The latter examples include a proof that perfect discrimination by asymptotic LOCC is impossible for a certain subset of \emph{minimal} unextendible product bases (UPB), where minimal means that for the given multipartite system, no UPB with a smaller number of states can exist. We also give a simple proof that what has been called \emph{strong nonlocality without entanglement} is considerably stronger than had previously been demonstrated.
翻訳日:2023-09-13 18:10:53 公開日:2023-09-11
# patchrefinenet: 最適パッチワイズバイナリ化からの信号を取り込むことによるバイナリセグメンテーションの改善

PatchRefineNet: Improving Binary Segmentation by Incorporating Signals from Optimal Patch-wise Binarization ( http://arxiv.org/abs/2211.06560v3 )

ライセンス: Link先を確認
Savinay Nagendra, Chaopeng Shen, Daniel Kifer(参考訳) バイナリセグメンテーションモデルの目的は、関心のある対象(例えば、画像中のどのピクセルが道路の一部であるか)に属する画素を決定することである。 モデルは各ピクセルにロジットスコア(すなわち確率)を割り当て、これらはしきい値によって予測に変換される(すなわち、ロジットスコア$\geq \tau$を持つ各ピクセルは道路の一部であると予測される)。 しかし、現在および以前の最先端のセグメンテーションモデルでよく見られる現象は、空間バイアスである -- いくつかのパッチでは、ロジットスコアは一貫して上向きに偏り、別のパッチでは一貫して下向きに偏りがある。 これらのバイアスは最終予測において偽陽性と偽陰性を引き起こす。 本稿では,ベースセグメンテーションモデル上に配置し,パッチ固有のバイアスを修正することを学ぶ小さなネットワークであるpatchrefinenet(prn)を提案する。 多様なベースモデルに対して、PRNは一貫してmIoUを2~3倍改善する。 PRNの背後にある重要なアイデアの1つは、トレーニング中に新しい監視信号を追加することである。 ベースセグメンテーションモデルによって生成されるロジットスコアが与えられると、各画素は、各画像パッチでロジットスコアを最適に閾値決めして得られる擬似ラベルが与えられる。 PRNの損失関数に擬似ラベルを組み込むことは、体系的なバイアスを補正し、偽陽性/陰性を減らすのに役立つ。 主にバイナリセグメンテーションに焦点を絞ったが,prnをサリエンシ検出や少数ショットセグメンテーションに拡張する方法も示す。 また、アイデアをマルチクラスセグメンテーションに拡張する方法についても論じる。

The purpose of binary segmentation models is to determine which pixels belong to an object of interest (e.g., which pixels in an image are part of roads). The models assign a logit score (i.e., probability) to each pixel and these are converted into predictions by thresholding (i.e., each pixel with logit score $\geq \tau$ is predicted to be part of a road). However, a common phenomenon in current and former state-of-the-art segmentation models is spatial bias -- in some patches, the logit scores are consistently biased upwards and in others they are consistently biased downwards. These biases cause false positives and false negatives in the final predictions. In this paper, we propose PatchRefineNet (PRN), a small network that sits on top of a base segmentation model and learns to correct its patch-specific biases. Across a wide variety of base models, PRN consistently helps them improve mIoU by 2-3\%. One of the key ideas behind PRN is the addition of a novel supervision signal during training. Given the logit scores produced by the base segmentation model, each pixel is given a pseudo-label that is obtained by optimally thresholding the logit scores in each image patch. Incorporating these pseudo-labels into the loss function of PRN helps correct systematic biases and reduce false positives/negatives. Although we mainly focus on binary segmentation, we also show how PRN can be extended to saliency detection and few-shot segmentation. We also discuss how the ideas can be extended to multiclass segmentation.
翻訳日:2023-09-13 18:01:15 公開日:2023-09-11
# 動的量子木上の測定誘起相転移

Measurement-induced phase transitions on dynamical quantum trees ( http://arxiv.org/abs/2210.07264v2 )

ライセンス: Link先を確認
Xiaozhou Feng, Brian Skinner, and Adam Nahum(参考訳) モニターされた多体系は、システム上で測定される速度の関数として遷移によって分離された「 'entangling'' または '`disentangling'' の2つの動的相に広く分類される。 この測定誘起遷移の解析理論を作成することは、優れた課題である。 近年、木テンソルネットワークの文脈において、強制的(選択後)な測定結果を持つ全量子回路ダイナミクスと関連づけられる研究が進められている。 しかし、これまでのところ、スピン1/2自由度 (qubits) のダイナミクスに対して ``real''' 測定による正確な解は存在せず、その結果の確率はボルン則に従ってサンプリングされる。 ここでは、木のような時空相互作用グラフを持つ量子ビットの動的プロセスを定義し、システムの時間の関数として崩壊または拡大する。 前者のケースは、正確に解ける測定遷移をもたらす。 解析的および数値的にこれらの過程を探索し,木の再帰構造を利用した。 実数』測定の場合と『実数』測定の場合を比較した。 どちらのケースも測定強度の非自明な値での遷移を示し、実際の測定ケースはより小さな絡み合い位相を示す。 どちらも遷移付近の絡み合いの指数関数的スケーリングを示すが、臨界指数の値が異なる。 2つのケースの興味深い違いは、実際の測定ケースが2つの異なる臨界スケーリングのタイプの境界にあることである。 そこで本研究では,拡張過程を通じて測定相転移を実験的に実現するためのプロトコルを提案する。

Monitored many-body systems fall broadly into two dynamical phases, ``entangling'' or ``disentangling'', separated by a transition as a function of the rate at which measurements are made on the system. Producing an analytical theory of this measurement-induced transition is an outstanding challenge. Recent work made progress in the context of tree tensor networks, which can be related to all-to-all quantum circuit dynamics with forced (postselected) measurement outcomes. So far, however, there are no exact solutions for dynamics of spin-1/2 degrees of freedom (qubits) with ``real'' measurements, whose outcome probabilities are sampled according to the Born rule. Here we define dynamical processes for qubits, with real measurements, that have a tree-like spacetime interaction graph, either collapsing or expanding the system as a function of time. The former case yields an exactly solvable measurement transition. We explore these processes analytically and numerically, exploiting the recursive structure of the tree. We compare the case of ``real'' measurements with the case of ``forced'' measurements. Both cases show a transition at a nontrivial value of the measurement strength, with the real measurement case exhibiting a smaller entangling phase. Both exhibit exponential scaling of the entanglement near the transition, but they differ in the value of a critical exponent. An intriguing difference between the two cases is that the real measurement case lies at the boundary between two distinct types of critical scaling. On the basis of our results we propose a protocol for realizing a measurement phase transition experimentally via an expansion process.
翻訳日:2023-09-13 17:58:59 公開日:2023-09-11
# 格子ゲージ理論における動的量子相転移の量子計算と絡み合いトモグラフィ

Quantum computation of dynamical quantum phase transitions and entanglement tomography in a lattice gauge theory ( http://arxiv.org/abs/2210.03089v2 )

ライセンス: Link先を確認
Niklas Mueller, Joseph A. Carolan, Andrew Connelly, Zohreh Davoudi, Eugene F. Dumitrescu, K\"ubra Yeter-Aydeniz(参考訳) 平衡から遠く離れた強結合ゲージ理論は、初期の宇宙やハドロンやイオン衝突型加速器の物理学を照らし出す独特な特徴を示すかもしれない。 リアルタイム現象の研究は古典シミュレーション法では難しいことが証明されているが、量子シミュレーションの自然な応用である。 この可能性を示すために、IonQ Inc. によるトラップイオン量子コンピュータを用いて、量子非等時相関関数を計算し、単純な格子ゲージ理論であるシュウィンガーモデルの非平衡状態のエンタングルメントトモグラフィーを行う。 最近予測された[zache et al., phys. rev. lett. 122, 050403 (2019)] 動的量子相転移は、短期的デバイスにとって理想的なターゲットとして、次の3つの方法で非平衡ダイナミクスを準備、クエンチ、追跡することによって研究される。 一 ダイナミックな遷移を合図する重複エコー 二 トポロジカルな性質の非等時相関関数及び等時相関関数 三 非平衡状態の絡み合い構造であって、ハミルトニアンの絡み合いを含むもの これらの結果は、量子コンピュータ上の格子ゲージ理論における動的量子相転移の最初の観測であり、量子技術を用いた核・高エネルギー物理学における位相現象の研究への第一歩である。

Strongly-coupled gauge theories far from equilibrium may exhibit unique features that could illuminate the physics of the early universe and of hadron and ion colliders. Studying real-time phenomena has proven challenging with classical-simulation methods, but is a natural application of quantum simulation. To demonstrate this prospect, we quantum compute non-equal time correlation functions and perform entanglement tomography of non-equilibrium states of a simple lattice gauge theory, the Schwinger model, using a trapped-ion quantum computer by IonQ Inc. As an ideal target for near-term devices, a recently-predicted [Zache et al., Phys. Rev. Lett. 122, 050403 (2019)] dynamical quantum phase transition in this model is studied by preparing, quenching, and tracking the subsequent non-equilibrium dynamics in three ways: i) overlap echos signaling dynamical transitions, ii) non-equal time correlation functions with an underlying topological nature, and iii) the entanglement structure of non-equilibrium states, including entanglement Hamiltonians. These results constitute the first observation of a dynamical quantum phase transition in a lattice gauge theory on a quantum computer, and are a first step toward investigating topological phenomena in nuclear and high-energy physics using quantum technologies.
翻訳日:2023-09-13 17:58:34 公開日:2023-09-11
# 潜在力学から有意義な表現へ

From latent dynamics to meaningful representations ( http://arxiv.org/abs/2209.00905v3 )

ライセンス: Link先を確認
Dedi Wang, Yihang Wang, Luke Evans and Pratyush Tiwary(参考訳) 表現学習は機械学習と人工知能の台頭の中心であるが、学習した表現を意味のあるものにすることが重要な問題である。 このため、典型的なアプローチは、事前確率分布を通じて学習表現を正則化することである。 しかし、そのような事前処理は通常使用できないかアドホックである。 これに対応するために,動的制約付き表現学習フレームワークを提案する。 事前定義された確率を用いる代わりに、動的システムにおける表現学習のより自然な制約である特定のダイナミクスに従うために潜在表現を制限します。 我々の信念は、異なる系は異なる限界化された確率分布を持つことができるが、ニュートン方程式やシュロディンガー方程式のような同じ力学に従うという物理学の基本的な観察に由来する。 我々は,現実の蛍光DNA映画データセットを含む様々なシステムに対する枠組みを検証する。 本アルゴリズムは,非相関,等尺,有意な潜在表現を一意に識別できることを示す。

While representation learning has been central to the rise of machine learning and artificial intelligence, a key problem remains in making the learnt representations meaningful. For this the typical approach is to regularize the learned representation through prior probability distributions. However such priors are usually unavailable or ad hoc. To deal with this, we propose a dynamics-constrained representation learning framework. Instead of using predefined probabilities, we restrict the latent representation to follow specific dynamics, which is a more natural constraint for representation learning in dynamical systems. Our belief stems from a fundamental observation in physics that though different systems can have different marginalized probability distributions, they typically obey the same dynamics, such as Newton's and Schrodinger's equations. We validate our framework for different systems including a real-world fluorescent DNA movie dataset. We show that our algorithm can uniquely identify an uncorrelated, isometric and meaningful latent representation.
翻訳日:2023-09-13 17:57:44 公開日:2023-09-11
# 純粋非マルコフ的進化

Pure non-Markovian evolutions ( http://arxiv.org/abs/2302.04883v2 )

ライセンス: Link先を確認
Dario De Santis(参考訳) 非マルコフ力学は情報バックフローによって特徴づけられ、進化するオープン量子システムは、以前環境に失われた情報の一部を取得する。 したがって、非マルコビアン性の定義は、進化が騒がしい最初の時間間隔を意味するが、逆流は起こらない。 2種類の初期雑音を同定し,1つはシステムの情報内容の劣化にのみ影響するが、もう1つは非マルコフ現象の出現に必須である。 したがって、すべての非マルコフ的進化は、両方の種類のノイズを示す雑音非マルコフ型(nnm)と、純粋に本質的なノイズのみを実装する純粋な非マルコフ型(pnm)の2つのクラスに分けられる。 基本的非マルコフ的特徴のタイミング解析により、この区別を行う。 まず,全てのnnmダイナミクスがpnmコアのマルコフ前処理によってシミュレートできることを実証する。 我々はPNMの進化によって提供される情報逆流と非マルコビアン性の測定で得られる利得を定量化する。 同様に, この枠組みにおける絡み合い破壊特性の挙動について検討し, 相関逆流を活性化させる手法について議論する。 最後に、いくつかのよく知られた力学モデルの研究を通して、結果の適用性を示す。

Non-Markovian dynamics are characterized by information backflows, where the evolving open quantum system retrieves part of the information previously lost in the environment. Hence, the very definition of non-Markovianity implies an initial time interval when the evolution is noisy, otherwise no backflow could take place. We identify two types of initial noise, where the first has the only effect of degrading the information content of the system, while the latter is essential for the appearance of non-Markovian phenomena. Therefore, all non-Markovian evolutions can be divided into two classes: noisy non-Markovian (NNM), showing both types of noise, and pure non-Markovian (PNM), implementing solely essential noise. We make this distinction through a timing analysis of fundamental non-Markovian features. First, we prove that all NNM dynamics can be simulated through a Markovian pre-processing of a PNM core. We quantify the gains in terms of information backflows and non-Markovianity measures provided by PNM evolutions. Similarly, we study how the entanglement breaking property behaves in this framework and we discuss a technique to activate correlation backflows. Finally, we show the applicability of our results through the study of several well-know dynamical models.
翻訳日:2023-09-13 17:41:46 公開日:2023-09-11
# トップダウンのボトムアップ、3Dインスタンスのセグメンテーションで

Top-Down Beats Bottom-Up in 3D Instance Segmentation ( http://arxiv.org/abs/2302.02871v4 )

ライセンス: Link先を確認
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich(参考訳) 大部分の3Dインスタンスセグメンテーション手法は、通常はリソース消費後処理を含むボトムアップ戦略を利用する。 ポイントグルーピングでは、ボトムアップ法はハイパーパラメーターの形のオブジェクトに関する事前の仮定に依存し、それはドメイン固有であり、慎重に調整する必要がある。 それとは対照的に、td3dで3dインスタンスセグメンテーションに対処する: エンドツーエンドでトレーニングされた、クラスタフリー、完全な畳み込み、完全なデータ駆動アプローチ。 これは3Dドメインにおけるボトムアップアプローチを上回る最初のトップダウンメソッドである。 ScanNet v2、その拡張であるScanNet200、S3DIS、および空中STPLS3Dデータセットなど、標準的な屋内ベンチマークにおいて優れた精度と一般化能力を示す。 我々のフラッグシップ修正は、最も正確なボトムアップ法よりも1.9倍高速であり、より正確であり、我々の高速な修正は、最先端の精度が2.6倍高速であることを示している。 コードはhttps://github.com/SamsungLabs/td3dで入手できる。

Most 3D instance segmentation methods exploit a bottom-up strategy, typically including resource-exhaustive post-processing. For point grouping, bottom-up methods rely on prior assumptions about the objects in the form of hyperparameters, which are domain-specific and need to be carefully tuned. On the contrary, we address 3D instance segmentation with a TD3D: the pioneering cluster-free, fully-convolutional and entirely data-driven approach trained in an end-to-end manner. This is the first top-down method outperforming bottom-up approaches in 3D domain. With its straightforward pipeline, it demonstrates outstanding accuracy and generalization ability on the standard indoor benchmarks: ScanNet v2, its extension ScanNet200, and S3DIS, as well as on the aerial STPLS3D dataset. Besides, our method is much faster on inference than the current state-of-the-art grouping-based approaches: our flagship modification is 1.9x faster than the most accurate bottom-up method, while being more accurate, and our faster modification shows state-of-the-art accuracy running at 2.6x speed. Code is available at https://github.com/SamsungLabs/td3d .
翻訳日:2023-09-13 17:40:44 公開日:2023-09-11
# 非クリフォードゲートの少ない量子状態の効率的な学習

Efficient Learning of Quantum States Prepared With Few Non-Clifford Gates ( http://arxiv.org/abs/2305.13409v3 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 我々はクリフォードゲートと$O(\log(n))$非クリフォードゲートで用意された量子状態を効率的に学習するアルゴリズムを与える。 具体的には、$n$-qubit state $\lvert \psi \rangle$を少なくとも$t$非クリフォードゲートで用意すると、$\mathsf{poly}(n,2^t,1/\epsilon)$ time and copy of $\lvert \psi \rangle$ suffice to learn $\lvert \psi \rangle$ to trace distance at most $\epsilon$を示す。 この結果は、量子状態が2^k$ パウリ作用素のアーベル群によって安定化されたとき、安定化次元が$k$となるような大きな安定化次元を持つ状態を学ぶためのアルゴリズムの特別な場合として従う。 また, 独立興味のある安定度次元に対する効率的な特性評価アルゴリズムを開発した。

We give an algorithm that efficiently learns a quantum state prepared by Clifford gates and $O(\log(n))$ non-Clifford gates. Specifically, for an $n$-qubit state $\lvert \psi \rangle$ prepared with at most $t$ non-Clifford gates, we show that $\mathsf{poly}(n,2^t,1/\epsilon)$ time and copies of $\lvert \psi \rangle$ suffice to learn $\lvert \psi \rangle$ to trace distance at most $\epsilon$. This result follows as a special case of an algorithm for learning states with large stabilizer dimension, where a quantum state has stabilizer dimension $k$ if it is stabilized by an abelian group of $2^k$ Pauli operators. We also develop an efficient property testing algorithm for stabilizer dimension, which may be of independent interest.
翻訳日:2023-09-13 17:11:22 公開日:2023-09-11
# PaLM 2テクニカルレポート

PaLM 2 Technical Report ( http://arxiv.org/abs/2305.10403v2 )

ライセンス: Link先を確認
Google and : and Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Cl\'ement Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark D\'iaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu(参考訳) マルチ言語と推論能力が向上し,従来のPaLMよりも計算効率がよい,最先端の言語モデルであるPaLM 2を紹介する。 PaLM 2はトランスフォーマーベースのモデルであり、目的の混合を用いて訓練されている。 英語と多言語言語に関する広範囲な評価と推論タスクを通じて、PaLM 2は、異なるモデルサイズで下流タスクの品質を大幅に向上し、同時に、PaLMと比較してより高速かつ効率的に推論できることを示した。 この改善された効率により、より広範なデプロイメントが可能になると同時に、モデルがより自然なインタラクションのペースで、より高速に応答できるようになる。 PaLM 2は、BIG-Benchや他の推論タスク上でのPaLMに対する大幅な改善によって実証された堅牢な推論機能を示している。 PaLM 2は、責任あるAI評価スイート上で安定したパフォーマンスを示し、追加のオーバーヘッドや他の機能への影響なしに毒性に対する推論時間制御を可能にする。 全体として、PaLM 2は様々なタスクと能力のセットで最先端のパフォーマンスを達成する。 PaLM 2ファミリーを論じる際には、(様々なサイズの)事前訓練されたモデルと、これらのモデルの微調整されたバリエーションと、これらのモデルを使用するユーザ向け製品とを区別することが重要である。 特に、ユーザー向け製品には、通常、前処理と後処理のステップが追加される。 さらに、基礎となるモデルは時間とともに進化する可能性がある。 したがって、このレポートで報告された結果に正確に適合するユーザ向け製品の性能を期待するべきではない。

We introduce PaLM 2, a new state-of-the-art language model that has better multilingual and reasoning capabilities and is more compute-efficient than its predecessor PaLM. PaLM 2 is a Transformer-based model trained using a mixture of objectives. Through extensive evaluations on English and multilingual language, and reasoning tasks, we demonstrate that PaLM 2 has significantly improved quality on downstream tasks across different model sizes, while simultaneously exhibiting faster and more efficient inference compared to PaLM. This improved efficiency enables broader deployment while also allowing the model to respond faster, for a more natural pace of interaction. PaLM 2 demonstrates robust reasoning capabilities exemplified by large improvements over PaLM on BIG-Bench and other reasoning tasks. PaLM 2 exhibits stable performance on a suite of responsible AI evaluations, and enables inference-time control over toxicity without additional overhead or impact on other capabilities. Overall, PaLM 2 achieves state-of-the-art performance across a diverse set of tasks and capabilities. When discussing the PaLM 2 family, it is important to distinguish between pre-trained models (of various sizes), fine-tuned variants of these models, and the user-facing products that use these models. In particular, user-facing products typically include additional pre- and post-processing steps. Additionally, the underlying models may evolve over time. Therefore, one should not expect the performance of user-facing products to exactly match the results reported in this report.
翻訳日:2023-09-13 17:10:35 公開日:2023-09-11
# 実時間シミュレーションアバターのヒューマノイド制御

Perpetual Humanoid Control for Real-time Simulated Avatars ( http://arxiv.org/abs/2305.06456v3 )

ライセンス: Link先を確認
Zhengyi Luo, Jinkun Cao, Alexander Winkler, Kris Kitani, Weipeng Xu(参考訳) 本稿では,ノイズ入力(映像からのポーズ推定や言語からの生成など)や予期せぬ転倒の有無で,忠実な動作模倣とフォールトトレラントな動作を実現する物理ベースのヒューマノイドコントローラを提案する。 制御器は外部の安定化力を使わずに1万本のモーションクリップを学習し、自然に故障状態から回復する。 参照動作が与えられた場合、コントローラはリセットを必要とせずにシミュレートされたアバターを永久に制御できる。 その中核として,新しいネットワーク容量を動的に割り当てて,より困難で難しい動作シーケンスを学習するプログレッシブ乗法制御ポリシー(PMCP)を提案する。 pmcpは大規模なモーションデータベースから学習するための効率的なスケーリングを可能にし、破滅的な忘れることなくフェイルステートリカバリなどの新しいタスクを追加できる。 実時間および実時間多人数アバターのユースケースにおいて,映像ベースポーズ推定器と言語ベースモーションジェネレータのノイズポーズを模倣して,コントローラの有効性を実証する。

We present a physics-based humanoid controller that achieves high-fidelity motion imitation and fault-tolerant behavior in the presence of noisy input (e.g. pose estimates from video or generated from language) and unexpected falls. Our controller scales up to learning ten thousand motion clips without using any external stabilizing forces and learns to naturally recover from fail-state. Given reference motion, our controller can perpetually control simulated avatars without requiring resets. At its core, we propose the progressive multiplicative control policy (PMCP), which dynamically allocates new network capacity to learn harder and harder motion sequences. PMCP allows efficient scaling for learning from large-scale motion databases and adding new tasks, such as fail-state recovery, without catastrophic forgetting. We demonstrate the effectiveness of our controller by using it to imitate noisy poses from video-based pose estimators and language-based motion generators in a live and real-time multi-person avatar use case.
翻訳日:2023-09-13 17:10:13 公開日:2023-09-11
# 南フロリダにおける洪水予測のための深層学習モデル

Deep Learning Models for Flood Predictions in South Florida ( http://arxiv.org/abs/2306.15907v4 )

ライセンス: Link先を確認
Jimeng Shi, Zeda Yin, Rukmangadh Myana, Khandker Ishtiaq, Anupama John, Jayantha Obeysekera, Arturo Leon, Giri Narasimhan(参考訳) 河川システムにおける水位シミュレーションと予測は,洪水警報,水理操作,洪水軽減に不可欠である。 工学分野では、HEC-RAS、MIKE、SWMMといったツールを使用して、詳細な物理に基づく水理・水理計算モデルを構築し、流域全体をシミュレートし、システム内の任意の時点での水ステージを予測する。 しかし、これらの物理学に基づくモデルは、特に大きな流域やより長いシミュレーションのために、計算集約的である。 この問題を克服するために,我々は複数の深層学習モデル(DL)を代理モデルとして使用し,水ステージを迅速に予測する。 南フロリダのマイアミ川の下流は,本論文の事例研究として選択されている。 データセットは2010年1月1日から2020年12月31日まで、南フロリダ水管理地区(SFWMD)のDBHYDROデータベースからダウンロードされる。 大規模な実験により、DLモデルの性能は極度の降水条件(熱帯嵐)においても物理学に基づくモデルの性能に匹敵することが示された。 さらに,予測長の増加に伴うDLモデルの予測精度の低下について検討した。 今後の水ステージを予測するため,我々のDLモデルでは,近年の河川系の測定変数と,近い将来に確実に予測できる共変量を用いている。 要約すると、ディープラーニングモデルは、物理ベースのモデルと比較して、少なくとも1000倍のスピードアップで、同等またはより良いエラー率を達成する。

Simulating and predicting water levels in river systems is essential for flood warnings, hydraulic operations, and flood mitigations. In the engineering field, tools such as HEC-RAS, MIKE, and SWMM are used to build detailed physics-based hydrological and hydraulic computational models to simulate the entire watershed, thereby predicting the water stage at any point in the system. However, these physics-based models are computationally intensive, especially for large watersheds and for longer simulations. To overcome this problem, we train several deep learning (DL) models for use as surrogate models to rapidly predict the water stage. The downstream stage of the Miami River in South Florida is chosen as a case study for this paper. The dataset is from January 1, 2010, to December 31, 2020, downloaded from the DBHYDRO database of the South Florida Water Management District (SFWMD). Extensive experiments show that the performance of the DL models is comparable to that of the physics-based models, even during extreme precipitation conditions (i.e., tropical storms). Furthermore, we study the decline in prediction accuracy of the DL models with an increase in prediction lengths. In order to predict the water stage in the future, our DL models use measured variables of the river system from the recent past as well as covariates that can be reliably predicted in the near future. In summary, the deep learning models achieve comparable or better error rates with at least 1000x speedup in comparison to the physics-based models.
翻訳日:2023-09-13 17:01:05 公開日:2023-09-11
# 量子工学におけるトポロジカル超伝導とマヨナフェルミオンの紹介

Introduction to Topological Superconductivity and Majorana Fermions for Quantum Engineers ( http://arxiv.org/abs/2306.09982v2 )

ライセンス: Link先を確認
Sanjay Vishwakarma, Sai Nandan Morapakula, Shalini D, Srinjoy Ganguly and Sri Krishna Sai Kankipati(参考訳) 本稿では, トポロジカル超伝導体におけるマヨラナフェルミオンの活発に拡大する研究分野について紹介する。 我々は、位相的超伝導のいくつかの側面と量子コンピューティングにもたらされる利点について論じる。 キタエフ模型とbdgハミルトニアンの数学的導出は、超伝導とマヨラナフェルミオンの現象を説明するために行われる。 マヨラナフェルミオンと非アベル統計は量子エンジニアにとっての意義とともに詳細に記述されている。 この理論はマヨラナを用いた位相キュービットの工学へと導かれた。

In this tutorial paper, we provide an introduction to the briskly expanding research field of Majorana fermions in topological superconductors. We discuss several aspects of topological superconductivity and the advantages it brings to quantum computing. Mathematical derivation of the Kitaev model and BdG Hamiltonian is carried out to explain the phenomena of superconductivity and Majorana fermions. The Majorana fermions and the Non-Abelian statistics are described in detail along with their significance for quantum engineers. The theory provided led towards the engineering of the topological qubits using Majoranas.
翻訳日:2023-09-13 16:59:50 公開日:2023-09-11
# モノリンガルデータからのバイリンガルおよびコード変換音声認識モデルの訓練に向けて

Towards training Bilingual and Code-Switched Speech Recognition models from Monolingual data sources ( http://arxiv.org/abs/2306.08753v2 )

ライセンス: Link先を確認
Kunal Dhawan, Dima Rekesh, Boris Ginsburg(参考訳) ASR(Multilingual Automatic Speech Recognition)モデルでは、複数の言語にまたがる音声の書き起こしが可能で、個別のモデルを必要としない。 さらに、Language Identification (LID)を実行し、コード変更された音声を処理する。 しかし、これらのモデルを訓練するには特別なコードスウィッチと多言語音声コーパスが必要である。 本稿では,バイリンガル学習に対する異なるアプローチと,純粋にモノリンガルなデータソースを用いたコード切替型ASRモデルの評価を行う。 本稿では,モノリンガルなサンプル境界におけるLIDの生成技術と異なり,各トークンに対してLIDを生成する集合トークン化器の概念を紹介する。 両言語間および単言語間モデルの性能を比較し,アグリゲートトークン化器の有効性を示し,合成型asrデータ生成手法を示し,提案するasrモデルが音声認識と音声言語識別のタスクに有効であることを示す。

Multilingual Automatic Speech Recognition (ASR) models are capable of transcribing audios across multiple languages, eliminating the need for separate models. In addition, they can perform Language Identification (LID) and handle code-switched speech. However, training these models requires special code-switch and multilingual speech corpora which are sparsely available. In this paper, we evaluate different approaches towards training of bilingual as well as code-switched ASR models using purely monolingual data sources. We introduce the concept of aggregate tokenizers that differs from the current prevalent technique of generating LIDs at the boundaries of monolingual samples and produces LID for each emitted token instead. We compare bilingual and monolingual model performance, showcase the efficacy of aggregate tokenizers, present a synthetic code-switched ASR data generation technique and demonstrate the effectiveness of the proposed code-switched ASR models for the tasks of speech recognition and spoken language identification.
翻訳日:2023-09-13 16:59:26 公開日:2023-09-11
# ModuleFormer:Mixture-of-Expertsのモジュール性

ModuleFormer: Modularity Emerges from Mixture-of-Experts ( http://arxiv.org/abs/2306.04640v2 )

ライセンス: Link先を確認
Yikang Shen, Zheyu Zhang, Tianyou Cao, Shawn Tan, Zhenfang Chen, Chuang Gan(参考訳) 大規模言語モデル(LLM)は目覚ましい結果を得た。 しかし、既存のモデルはトレーニングやデプロイに高価であり、以前の知識を忘れずに事前学習データを超えて知識を拡張することも困難である。 本稿では,モジュール性を活用して大規模言語モデルの効率性と柔軟性を向上させるニューラルネットワークアーキテクチャであるModuleFormerを提案する。 ModuleFormerはSparse Mixture of Experts (SMoE)をベースにしている。 SMoEベースの以前のモジュラー言語モデルとは異なり、ドメイン固有の専門家を学ぶのにドメインラベルのデータを必要とするModuleFormerは、新しいロードバランシングと集中損失で未処理のデータからモジュラリティを誘導することができる。 moduleformerはモジュールアーキテクチャであり、2つの異なるタイプのモジュールを含んでいる。 異なるモジュールは、トレーニングと推論中に入力トークンに対してわずかに活性化される条件である。 実験の結果,大規模な事前学習型言語モデルにおいて,モジュールアーキテクチャが3つの重要な機能を実現することがわかった。 1) 効率性,ModuleFormerは各入力トークンに対してモジュールのサブセットのみを起動するため,2倍以上のスループットを持つ高密度LLMと同じパフォーマンスを実現することができる。 2) 拡張性,ModuleFormerは,高密度LLMよりも破滅的な忘れ方に対して免疫性が高く,トレーニングデータに含まれない新たな知識を学ぶために,新たなモジュールで容易に拡張することができる。 3) 特別化、微調整モジュールFormerは、細調整タスクにモジュールのサブセットを特化でき、タスク非関連モジュールは、軽量なデプロイメントのために容易に刈り取られる。

Large Language Models (LLMs) have achieved remarkable results. However, existing models are expensive to train and deploy, and it is also difficult to expand their knowledge beyond pre-training data without forgetting previous knowledge. This paper proposes a new neural network architecture, ModuleFormer, that leverages modularity to improve the efficiency and flexibility of large language models. ModuleFormer is based on the Sparse Mixture of Experts (SMoE). Unlike the previous SMoE-based modular language model, which requires domain-labeled data to learn domain-specific experts, ModuleFormer can induce modularity from uncurated data with its new load balancing and concentration losses. ModuleFormer is a modular architecture that includes two different types of modules: new stick-breaking attention heads and feedforward experts. Different modules are sparsely activated conditions on the input token during training and inference. In our experiment, we found that the modular architecture enables three important abilities for large pre-trained language models: 1) Efficiency, since ModuleFormer only activates a subset of its modules for each input token, thus it could achieve the same performance as dense LLMs with more than two times throughput; 2) Extendability, ModuleFormer is more immune to catastrophic forgetting than dense LLMs and can be easily extended with new modules to learn new knowledge that is not included in the training data; 3) Specialisation, finetuning ModuleFormer could specialize a subset of modules to the finetuning task and the task-unrelated modules could be easily pruned for a lightweight deployment.
翻訳日:2023-09-13 16:58:28 公開日:2023-09-11
# 大規模言語モデルを用いた多言語コード共進化

Multilingual Code Co-Evolution Using Large Language Models ( http://arxiv.org/abs/2307.14991v2 )

ライセンス: Link先を確認
Jiyang Zhang, Pengyu Nie, Junyi Jessy Li, Milos Gligoric(参考訳) 多くのソフトウェアプロジェクトは複数のプログラミング言語でapiとアルゴリズムを実装している。 開発者が他のプログラミング言語の実装に対する変更(バグ修正や新機能など)が、タイムリーかつエラーなく伝播されることを保証する必要があるため、そのようなプロジェクトのメンテナンスは面倒である。 絶え間なく変化するソフトウェアの世界では、ルールベースの翻訳ツール(トランスパイラ)または機械学習モデルを使用して、ある言語から別の言語へのコード翻訳を行う。 コードベース全体をひとつの言語から別の言語に翻訳することは、開発者の作業方法ではない。 本稿では,大きな言語モデル(LLM)を用いて,あるプログラミング言語から別の言語へのコード変更を翻訳する,新しいタスクを目標とする。 私たちは、このタスクに取り組むために、Codeditorと呼ばれる最初のLLMを設計し、実装しました。 Codeditorは、明示的にコード変更を編集シーケンスとしてモデル化し、プログラミング言語間の変更を関連付けることを学ぶ。 Codeditorを評価するために、2つのプログラミング言語(JavaとC#)で同様の機能を実装する8組のオープンソースソフトウェアプロジェクトから、6,613のコード変更のコーパスを収集しました。 その結果、codeditorは、一般的に使用されるすべての自動メトリクスに対して、最先端のアプローチよりも大きなマージンを持つことがわかった。 私たちの研究によると、Codeditorは既存の世代ベースのモデルと相補的であり、それらの組み合わせによってさらにパフォーマンスが向上します。

Many software projects implement APIs and algorithms in multiple programming languages. Maintaining such projects is tiresome, as developers have to ensure that any change (e.g., a bug fix or a new feature) is being propagated, timely and without errors, to implementations in other programming languages. In the world of ever-changing software, using rule-based translation tools (i.e., transpilers) or machine learning models for translating code from one language to another provides limited value. Translating each time the entire codebase from one language to another is not the way developers work. In this paper, we target a novel task: translating code changes from one programming language to another using large language models (LLMs). We design and implement the first LLM, dubbed Codeditor, to tackle this task. Codeditor explicitly models code changes as edit sequences and learns to correlate changes across programming languages. To evaluate Codeditor, we collect a corpus of 6,613 aligned code changes from 8 pairs of open-source software projects implementing similar functionalities in two programming languages (Java and C#). Results show that Codeditor outperforms the state-of-the-art approaches by a large margin on all commonly used automatic metrics. Our work also reveals that Codeditor is complementary to the existing generation-based models, and their combination ensures even greater performance.
翻訳日:2023-09-13 16:51:57 公開日:2023-09-11
# 老化時計モデルにおけるeXPlainable Artificial Intelligence (XAI)

eXplainable Artificial Intelligence (XAI) in aging clock models ( http://arxiv.org/abs/2307.13704v3 )

ライセンス: Link先を確認
Alena Kalyakulina and Igor Yusipov and Alexey Moskalev and Claudio Franceschi and Mikhail Ivanchenko(参考訳) eXplainable Artificial Intelligence (XAI)は、複雑なモデルの予測を解くことを目的として、機械学習の急速に進歩している分野である。 XAIは特に、医療、診断、レコメンデーション、治療の選択が人工知能システムによる決定に依存する場合など、機密性の高いアプリケーションで必要とされる。 AIアプローチは、老化研究、特に生物学的時計モデルの開発や老化や老化関連疾患のバイオマーカーの特定に広く用いられている。 しかし、ここでのXAIの可能性は完全に評価されるのを待っている。 本稿では,XAIの「加齢時計」開発への応用について論じるとともに,特定の生理システムに焦点をあてた文献を包括的に分析する。

eXplainable Artificial Intelligence (XAI) is a rapidly progressing field of machine learning, aiming to unravel the predictions of complex models. XAI is especially required in sensitive applications, e.g. in health care, when diagnosis, recommendations and treatment choices might rely on the decisions made by artificial intelligence systems. AI approaches have become widely used in aging research as well, in particular, in developing biological clock models and identifying biomarkers of aging and age-related diseases. However, the potential of XAI here awaits to be fully appreciated. We discuss the application of XAI for developing the "aging clocks" and present a comprehensive analysis of the literature categorized by the focus on particular physiological systems.
翻訳日:2023-09-13 16:51:34 公開日:2023-09-11
# 大標準結晶構造の予測のためのアナーリング:n体原子間相互作用の効率的な実装

Annealing for prediction of grand canonical crystal structures: Efficient implementation of n-body atomic interactions ( http://arxiv.org/abs/2307.03123v2 )

ライセンス: Link先を確認
Yannick Couzinie, Yusuke Nishiya, Hirofumi Nishi, Taichi Kosugi, Hidetoshi Nishimori, Yu-ichiro Matsushita(参考訳) 本稿では, 一般的なn-体原子間相互作用, 特に共有結合をシミュレートするために必要な3-体相互作用を考慮し, 結晶構造予測(CSP)に現代イジングマシンで使用可能なアニール方式を提案する。 結晶構造は、単位セルを離散化し、各格子点上の原子の存在または非存在を表すバイナリ変数を配置することによって表される。 その結果,2次非拘束バイナリ最適化 (QUBO) や高次非拘束バイナリ最適化 (HUBO) の問題はCSP問題を解き,シミュレートおよび量子アニールを用いて解く。 lennard-jonesクラスタの例を用いて、粒子密度と構成の同時最適化を可能にする定式化において、ターゲット原子数を含める必要はなく、相互作用の総量を減らすため、アニーリングマシンでの使用に有利であることを示す。 さらに,基礎となる物理に触発された高次相互作用項の削減を可能にするスキームを提案する。 共共有結合型単層MoS2結晶について, 粒子密度と結晶構造をシミュレートアニールにより同時に最適化できることを示す。 また, 単位細胞の初期離散化に代表されない高い確率で, 原子間ポテンシャルの基底状態を再現することを示した。

We propose an annealing scheme usable on modern Ising machines for crystal structures prediction (CSP) by taking into account the general n-body atomic interactions, and in particular three-body interactions which are necessary to simulate covalent bonds. The crystal structure is represented by discretizing a unit cell and placing binary variables which express the existence or non-existence of an atom on every grid point. The resulting quadratic unconstrained binary optimization (QUBO) or higher-order unconstrained binary optimization (HUBO) problems implement the CSP problem and is solved using simulated and quantum annealing. Using the example of Lennard-Jones clusters we show that it is not necessary to include the target atom number in the formulation allowing for simultaneous optimization of both the particle density and the configuration and argue that this is advantageous for use on annealing machines as it reduces the total amount of interactions. We further provide a scheme that allows for reduction of higher-order interaction terms that is inspired by the underlying physics. We show for a covalently bonded monolayer MoS2 crystal that we can simultaneously optimize for the particle density as well as the crystal structure using simulated annealing. We also show that we reproduce ground states of the interatomic potential with high probability that are not represented on the initial discretization of the unit cell.
翻訳日:2023-09-13 16:49:46 公開日:2023-09-11
# 希望から安全へ:潜在空間に適切な理由を課すことによる深層モデルの学習バイアス

From Hope to Safety: Unlearning Biases of Deep Models by Enforcing the Right Reasons in Latent Space ( http://arxiv.org/abs/2308.09437v2 )

ライセンス: Link先を確認
Maximilian Dreyer, Frederik Pahde, Christopher J. Anders, Wojciech Samek, Sebastian Lapuschkin(参考訳) ディープニューラルネットワークは、トレーニングデータに埋め込まれた急激な相関を学習する傾向があるため、潜在的なバイアスのある予測につながる。 これは、医療応用などの高い意思決定のためにこれらのモデルをデプロイする際のリスクを引き起こす。 ポストホックモデル修正の現在の方法は、空間的局所化バイアスに対してのみ可能である入力レベルのアノテーションを必要とするか、潜在特徴空間を増大させ、正しい理由を強制することを望んでいる。 グラデーションによるバイアスに対するモデルの感度を低下させることにより,概念レベルでの適切な理由を確保する新しい手法を提案する。 概念活性化ベクトルを介してバイアスをモデル化する場合、Support Vector Machinesのような従来の回帰ベースのアプローチでは方向が変化する傾向があるため、ロバストな方向を選択することの重要性を強調します。 VGG, ResNet, EfficientNetアーキテクチャを用いてISIC, Bone Age, ImageNet, CelebAデータセットの制御および実環境設定におけるバイアスを効果的に緩和する。

Deep Neural Networks are prone to learning spurious correlations embedded in the training data, leading to potentially biased predictions. This poses risks when deploying these models for high-stake decision-making, such as in medical applications. Current methods for post-hoc model correction either require input-level annotations, which are only possible for spatially localized biases, or augment the latent feature space, thereby hoping to enforce the right reasons. We present a novel method ensuring the right reasons on the concept level by reducing the model's sensitivity towards biases through the gradient. When modeling biases via Concept Activation Vectors, we highlight the importance of choosing robust directions, as traditional regression-based approaches such as Support Vector Machines tend to result in diverging directions. We effectively mitigate biases in controlled and real-world settings on the ISIC, Bone Age, ImageNet and CelebA datasets using VGG, ResNet and EfficientNet architectures.
翻訳日:2023-09-13 16:39:40 公開日:2023-09-11
# 大規模プロセスモデル: 生成AI時代のビジネスプロセス管理

Large Process Models: Business Process Management in the Age of Generative AI ( http://arxiv.org/abs/2309.00900v2 )

ライセンス: Link先を確認
Timotheus Kampik, Christian Warmuth, Adrian Rebmann, Ron Agam, Lukas N.P. Egger, Andreas Gerber, Johannes Hoffart, Jonas Kolk, Philipp Herzig, Gero Decker, Han van der Aa, Artem Polyvyanyy, Stefanie Rinderle-Ma, Ingo Weber, Matthias Weidlich(参考訳) LLM(Large Language Models)や他の生成人工知能アプローチの継続的な成功は、コーパスが厳密に定義されたシンボルモデルよりも大きな情報コーパスが持つことができるという利点を強調し、また、純粋に統計に基づくアプローチが安全性と信頼性の点で持つ課題の証明ポイントとしても機能する。 本研究では,LLMの相関力と知識ベースシステムの分析精度と信頼性,および自動推論手法を組み合わせた大規模プロセスモデル(LPM)の概念を提案する。 LPMは、専門家が蓄積した豊富なプロセス管理経験と、サイズ、地域、産業など様々な特徴を持つ組織のプロセスパフォーマンスデータを直接活用することが想定されている。 このビジョンでは、提案されたlpmによって、組織はコンテキスト固有の(カスタマイズされた)プロセスやその他のビジネスモデル、分析的な深いディビジョン、改善の推奨を受けることができる。 これにより、ビジネス変革に必要な時間と労力を大幅に削減できると同時に、従来よりも深く、より影響力があり、より実行可能な洞察が可能になる。 我々は、LPMの実装は実現可能であるが、LPMビジョンの特定の側面を実装するために解決すべき制限や研究課題も強調する。

The continued success of Large Language Models (LLMs) and other generative artificial intelligence approaches highlights the advantages that large information corpora can have over rigidly defined symbolic models, but also serves as a proof-point of the challenges that purely statistics-based approaches have in terms of safety and trustworthiness. As a framework for contextualizing the potential, as well as the limitations of LLMs and other foundation model-based technologies, we propose the concept of a Large Process Model (LPM) that combines the correlation power of LLMs with the analytical precision and reliability of knowledge-based systems and automated reasoning approaches. LPMs are envisioned to directly utilize the wealth of process management experience that experts have accumulated, as well as process performance data of organizations with diverse characteristics, e.g., regarding size, region, or industry. In this vision, the proposed LPM would allow organizations to receive context-specific (tailored) process and other business models, analytical deep-dives, and improvement recommendations. As such, they would allow to substantially decrease the time and effort required for business transformation, while also allowing for deeper, more impactful, and more actionable insights than previously possible. We argue that implementing an LPM is feasible, but also highlight limitations and research challenges that need to be solved to implement particular aspects of the LPM vision.
翻訳日:2023-09-13 16:32:36 公開日:2023-09-11
# 実時間進化と多重参照状態を持つ量子Laczosアルゴリズムからの核スペクトル

Nuclear Spectra from Quantum Lanczos Algorithm with Real-Time Evolution and Multiple Reference States ( http://arxiv.org/abs/2309.00759v2 )

ライセンス: Link先を確認
Amanda Bowman(参考訳) 量子系のモデルは単粒子状態の追加によって指数関数的にスケールし、計算に難解な問題を示す。 あるいは量子コンピュータは、n$ qubitsで2^n$次元の多体基底を格納することができる。 これは近年発展してきた量子固有解法アルゴリズム、例えば古典的で反復的なランツォスアルゴリズムに基づく量子ランツォスアルゴリズムを動機付けている。 私は、想像とリアルタイムの進化を比較するために、$^{20}$Ne, $^{22}$Na, $^{29}$Naの低い値を求めるために数値シミュレーションを行った。 想像的時間進化はより高速な収束をもたらすが、リアルタイム進化は数十イテレーション以内に収束し、量子コンピュータ上のユニタリ作用素の要求を満たす。 さらに、複数の参照状態を使用することで、一定数のリアルタイムイテレーションでより高速な収束や高い精度が得られる。 私はqlanczosアルゴリズムの古典的なコンピュータ上で量子回路プロトタイプの数値シミュレーションを行い、実時間発展と複数の参照状態を用いて、低次固有状態($^{8}$be)を求める。 これらのシミュレーションは球面ベースとハーツリーフォックベースの両方で行われ、m-スキーム球面ベースがハーツリーフォックベースよりも低い深さ回路に繋がることを示した。 最後に、QLanczosアルゴリズムの量子回路について、実時間進化と多重参照について述べる。

Models of quantum systems scale exponentially with the addition of single-particle states, which can present computationally intractable problems. Alternatively, quantum computers can store a many-body basis of $2^n$ dimensions on $n$ qubits. This motivated the quantum eigensolver algorithms developed in recent years, such as the quantum Lanczos algorithm based on the classical, iterative Lanczos algorithm. I performed numerical simulations to find the low-lying eigenstates of $^{20}$Ne, $^{22}$Na, and $^{29}$Na to compare imaginary- and real-time evolution. Though imaginary-time evolution leads to faster convergence, real-time evolution still converges within tens of iterations and satisfies the requirement for unitary operators on quantum computers. Additionally, using multiple reference states leads to faster convergences or higher accuracy for a fixed number of real-time iterations. I performed quantum circuit prototype numerical simulations on a classical computer of the QLanczos algorithm with real-time evolution and multiple reference states to find the low-lying eigenstates of $^{8}$Be. These simulations were run in both the spherical basis and Hartree-Fock basis, demonstrating that an M-scheme spherical basis leads to lower depth circuits than the Hartree-Fock basis. Finally, I present the quantum circuits for the QLanczos algorithm with real-time evolution and multiple references.
翻訳日:2023-09-13 16:32:12 公開日:2023-09-11
# fonmtl: fon言語のためのマルチタスク学習に向けて

FonMTL: Towards Multitask Learning for the Fon Language ( http://arxiv.org/abs/2308.14280v2 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou, Iffanice Houndayi, Pamely Zantou, Gilles Hacheme(参考訳) 平均200万人が話すFon言語は、本当に低リソースのアフリカの言語で、オンラインプレゼンスに制限があり、既存のデータセット(名前だけ)がある。 マルチタスク学習(multitask learning)は、異なるが関連するタスク間で知識を共有することによって、モデルの一般化能力を向上させることを目的とした学習パラダイムである。 本稿では,fon言語の自然言語処理におけるモデル能力向上のためのマルチタスク学習への最初の探索的アプローチを提案する。 具体的には、Fon における Named Entity Recognition (NER) と Part of Speech Tagging (POS) のタスクについて検討する。 我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。 fonのnerタスクとposタスクの結果は,単一タスクで微調整された複数の多言語事前学習言語モデルと比較して,競争力(あるいは優れた)パフォーマンスを示している。 さらに,2つの損失組合せ戦略の効率性を活用し,同値損失重み付け手法が最適であることを示すために,いくつかのアブレーション研究を行った。 私たちのコードはhttps://github.com/bonaventuredossou/multitask_fonでオープンソースです。

The Fon language, spoken by an average 2 million of people, is a truly low-resourced African language, with a limited online presence, and existing datasets (just to name but a few). Multitask learning is a learning paradigm that aims to improve the generalization capacity of a model by sharing knowledge across different but related tasks: this could be prevalent in very data-scarce scenarios. In this paper, we present the first explorative approach to multitask learning, for model capabilities enhancement in Natural Language Processing for the Fon language. Specifically, we explore the tasks of Named Entity Recognition (NER) and Part of Speech Tagging (POS) for Fon. We leverage two language model heads as encoders to build shared representations for the inputs, and we use linear layers blocks for classification relative to each task. Our results on the NER and POS tasks for Fon, show competitive (or better) performances compared to several multilingual pretrained language models finetuned on single tasks. Additionally, we perform a few ablation studies to leverage the efficiency of two different loss combination strategies and find out that the equal loss weighting approach works best in our case. Our code is open-sourced at https://github.com/bonaventuredossou/multitask_fon.
翻訳日:2023-09-13 16:29:53 公開日:2023-09-11
# 材料セグメンテーション用マルチモーダル変圧器

Multimodal Transformer for Material Segmentation ( http://arxiv.org/abs/2309.04001v2 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif(参考訳) 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。 しかし,各モダリティのユニークな特徴から,異なるモダリティの情報を効果的に活用することは依然として困難である。 本稿では,RGB,直線偏光角(AoLP),直線偏光度(DoLP),近赤外線(NIR)の4つの異なる組み合わせから情報を効果的に融合する新しい融合戦略を提案する。 また,マルチモーダルセグメンテーションを行うための核融合戦略を組み込んだマルチモーダルセグメンテーショントランスフォーマ (mmsformer) という新しいモデルを提案する。 MMSFormerは、現在のMCubeS(Multimodal Materials Segmentation)データセットよりも52.05%のmIoUを実現している。 例えば,砂利 (+10.4%) および人 (+9.1%) クラスの検出において,本手法は大幅な改善をもたらす。 アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。 さらに, 各種材料の識別性能を向上させるため, 異なる入力モードの容量に着目したアブレーション研究を行った。 コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。

Leveraging information across diverse modalities is known to enhance performance on multimodal segmentation tasks. However, effectively fusing information from different modalities remains challenging due to the unique characteristics of each modality. In this paper, we propose a novel fusion strategy that can effectively fuse information from different combinations of four different modalities: RGB, Angle of Linear Polarization (AoLP), Degree of Linear Polarization (DoLP) and Near-Infrared (NIR). We also propose a new model named Multi-Modal Segmentation Transformer (MMSFormer) that incorporates the proposed fusion strategy to perform multimodal material segmentation. MMSFormer achieves 52.05% mIoU outperforming the current state-of-the-art on Multimodal Material Segmentation (MCubeS) dataset. For instance, our method provides significant improvement in detecting gravel (+10.4%) and human (+9.1%) classes. Ablation studies show that different modules in the fusion block are crucial for overall model performance. Furthermore, our ablation studies also highlight the capacity of different input modalities to improve performance in the identification of different types of materials. The code and pretrained models will be made available at https://github.com/csiplab/MMSFormer.
翻訳日:2023-09-13 16:09:35 公開日:2023-09-11
# ImageBind-LLM:マルチモードインストラクションチューニング

ImageBind-LLM: Multi-modality Instruction Tuning ( http://arxiv.org/abs/2309.03905v2 )

ライセンス: Link先を確認
Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao(参考訳) ImageBind-LLMは,大規模言語モデル(LLM)のマルチモーダル・インストラクション・チューニング手法である。 既存の作業は主に言語とイメージのチューニングに重点を置いており、それとは違って、ImageBind-LLMは、音声、3Dポイントクラウド、ビデオ、および画像テキストアライメントトレーニングのみによる埋め込み空間演算を含むマルチモーダルな条件に対応できる。 トレーニング中、LLaMAとImageBindの画像エンコーダの埋め込み空間を整列するために学習可能なバインドネットワークを採用する。 次に、バインドネットワークによって変換された画像特徴をLLaMAのすべてのレイヤのワードトークンに追加し、無注意かつゼロ初期化ゲーティング機構を介して視覚的指示を段階的に注入する。 ImageBindの組込みにより、簡単な画像テキストトレーニングにより、より優れたマルチモード命令追従能力が得られる。 推論中、マルチモーダル入力は対応するImageBindエンコーダに入力され、提案したビジュアルキャッシュモデルにより処理され、さらなるクロスモーダル埋め込み拡張を行う。 トレーニングフリーキャッシュモデルは、ImageBindによって抽出された300万の画像特徴から抽出される。 特に,我々のアプローチでは,imagebind-llmは多様なモダリティの指示に応答し,重要な言語生成品質を示すことができる。 コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されている。

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
翻訳日:2023-09-13 16:09:11 公開日:2023-09-11
# データ効率、次元減少、および一般化対称情報ボトルネック

Data efficiency, dimensionality reduction, and the generalized symmetric information bottleneck ( http://arxiv.org/abs/2309.05649v1 )

ライセンス: Link先を確認
K. Michael Martini and Ilya Nemenman(参考訳) シンメトリ・インフォメーション・ボトルネック(Symmetric Information Bottleneck, SIB)は、2つのランダム変数を同時に圧縮して圧縮したバージョン間の情報を保存する次元還元技術である。 本稿では, 一般化対称性情報ボトルネック (GSIB) を導入し, 同時還元コストの異なる機能形態を探索する。 次に、このような同時圧縮のデータセットサイズ要件について検討する。 我々は、関連する損失関数の統計的揺らぎの有界とルート平均2乗推定を導出した。 GSIB圧縮を同時に行う場合、同じ誤差を1回に1回に1回圧縮するのに比べて、定性的に少ないデータを必要とする。 これは、各入力変数の独立圧縮よりも同時圧縮の方がデータ効率が良いという、より一般的な原則の例である。

The Symmetric Information Bottleneck (SIB), an extension of the more familiar Information Bottleneck, is a dimensionality reduction technique that simultaneously compresses two random variables to preserve information between their compressed versions. We introduce the Generalized Symmetric Information Bottleneck (GSIB), which explores different functional forms of the cost of such simultaneous reduction. We then explore the dataset size requirements of such simultaneous compression. We do this by deriving bounds and root-mean-squared estimates of statistical fluctuations of the involved loss functions. We show that, in typical situations, the simultaneous GSIB compression requires qualitatively less data to achieve the same errors compared to compressing variables one at a time. We suggest that this is an example of a more general principle that simultaneous compression is more data efficient than independent compression of each of the input variables.
翻訳日:2023-09-13 16:00:27 公開日:2023-09-11
# EANet:オンライン軌道予測のためのエキスパート注意ネットワーク

EANet: Expert Attention Network for Online Trajectory Prediction ( http://arxiv.org/abs/2309.05683v1 )

ライセンス: Link先を確認
Pengfei Yao, Tianlu Mao, Min Shi, Jingkai Sun, Zhaoqi Wang(参考訳) 軌道予測は自動運転において重要な役割を果たす。 既存の主流研究と継続的学習ベースの手法はすべて、完全なデータセットのトレーニングを必要としており、シナリオの突然の変化が発生した場合の予測精度が低下し、即座にモデルに応答し更新することができない。 これらの方法がリアルタイムで予測でき、データインスタンスを使ってモデルを直接更新できるかどうか(つまり、オンライン学習の設定)は疑問である。 データインスタンスストリームによって引き起こされる勾配の爆発や消滅の問題にも対処する必要がある。 Hedge Propagationアルゴリズムにインスパイアされた我々は、軌道予測のための完全なオンライン学習フレームワークであるExpert Attention Networkを提案する。 ネットワーク層の深さの異なる重みを調整し、勾配問題によるモデル更新をゆっくりと回避し、新しいシナリオの知識を高速に学習して予測精度を回復する専門家注意を導入する。 さらに,シナリオ変化に敏感な短期動作トレンドカーネル関数を提案する。 我々の知る限りでは、この研究は軌道予測においてオンライン学習問題に対処する最初の試みである。 実験結果から,従来の手法は勾配問題に悩まされ,予測誤差を迅速に低減し,最先端の予測精度に達することが示唆された。

Trajectory prediction plays a crucial role in autonomous driving. Existing mainstream research and continuoual learning-based methods all require training on complete datasets, leading to poor prediction accuracy when sudden changes in scenarios occur and failing to promptly respond and update the model. Whether these methods can make a prediction in real-time and use data instances to update the model immediately(i.e., online learning settings) remains a question. The problem of gradient explosion or vanishing caused by data instance streams also needs to be addressed. Inspired by Hedge Propagation algorithm, we propose Expert Attention Network, a complete online learning framework for trajectory prediction. We introduce expert attention, which adjusts the weights of different depths of network layers, avoiding the model updated slowly due to gradient problem and enabling fast learning of new scenario's knowledge to restore prediction accuracy. Furthermore, we propose a short-term motion trend kernel function which is sensitive to scenario change, allowing the model to respond quickly. To the best of our knowledge, this work is the first attempt to address the online learning problem in trajectory prediction. The experimental results indicate that traditional methods suffer from gradient problems and that our method can quickly reduce prediction errors and reach the state-of-the-art prediction accuracy.
翻訳日:2023-09-13 15:51:32 公開日:2023-09-11
# 量子流体の多体干渉法

Manybody Interferometry of Quantum Fluids ( http://arxiv.org/abs/2309.05727v1 )

ライセンス: Link先を確認
Gabrielle Roberts, Andrei Vrajitoarea, Brendan Saxberg, Margaret G. Panetta, Jonathan Simon and David I. Schuster(参考訳) 強い相関を持つ物質を特徴付けることは量子科学においてますます大きな課題であり、構造はしばしば巨大な絡み合いによってあいまいにされる。 半導体ヘテロ構造や2d材料から合成原子、フォトニック、イオンの量子物質まで、多体量子状態の合成の進展が加速し、状態キャラクタリゼーションへの新しいアプローチの扉を開く。 量子状態では、状態の準備と特徴を別々に扱うべきではないことが、情報抽出において量子的優位性をもたらすことが明らかになっている。 ロスシュミットエコーから摂動の効果を測定するために、スクランブルと多体局在を特徴付ける時間外相関子(otocs)、位相不変量を測定する不純物干渉法、量子フーリエ変換エンハンスセンシングまで、状態形成とキャラクタリゼーションの区別を曖昧にするプロトコルが普及している。 Here we present a new approach which we term 'manybody Ramsey interferometry' that combines adiabatic state preparation and Ramsey spectroscopy: leveraging our recently-developed one-to-one mapping between computational-basis states and manybody eigenstates, we prepare a superposition of manybody eigenstates controlled by the state of an ancilla qubit, allow the superposition to evolve relative phase, and then reverse the preparation protocol to disentangle the ancilla while localizing phase information back into it. アンシラトモグラフィは、多体固有状態、関連する励起スペクトル、熱力学的観測性に関する情報を抽出する。 この研究は、多くの体の状態を特徴づける新しい道を開き、量子コンピュータが量子物質を効率的に探索する方法を開拓する。

Characterizing strongly correlated matter is an increasingly central challenge in quantum science, where structure is often obscured by massive entanglement. From semiconductor heterostructures and 2D materials to synthetic atomic, photonic and ionic quantum matter, progress in preparation of manybody quantum states is accelerating, opening the door to new approaches to state characterization. It is becoming increasingly clear that in the quantum regime, state preparation and characterization should not be treated separately - entangling the two processes provides a quantum advantage in information extraction. From Loschmidt echo to measure the effect of a perturbation, to out-of-time-order-correlators (OTOCs) to characterize scrambling and manybody localization, to impurity interferometry to measure topological invariants, and even quantum Fourier transform-enhanced sensing, protocols that blur the distinction between state preparation and characterization are becoming prevalent. Here we present a new approach which we term 'manybody Ramsey interferometry' that combines adiabatic state preparation and Ramsey spectroscopy: leveraging our recently-developed one-to-one mapping between computational-basis states and manybody eigenstates, we prepare a superposition of manybody eigenstates controlled by the state of an ancilla qubit, allow the superposition to evolve relative phase, and then reverse the preparation protocol to disentangle the ancilla while localizing phase information back into it. Ancilla tomography then extracts information about the manybody eigenstates, the associated excitation spectrum, and thermodynamic observables. This work opens new avenues for characterizing manybody states, paving the way for quantum computers to efficiently probe quantum matter.
翻訳日:2023-09-13 15:41:43 公開日:2023-09-11
# フラクソニウム量子ビット間の高忠実度ゲートに対する可変インダクティブカプラ

Tunable inductive coupler for high fidelity gates between fluxonium qubits ( http://arxiv.org/abs/2309.05720v1 )

ライセンス: Link先を確認
Helin Zhang, Chunyang Ding, D. K. Weiss, Ziwen Huang, Yuwei Ma, Charles Guinn, Sara Sussman, Sai Pavan Chitta, Danyang Chen, Andrew A. Houck, Jens Koch, David I. Schuster(参考訳) fluxonium qubitはその長いコヒーレンス時間と大きな非調和性のために量子計算の有望な候補である。 2つの重フルクソニウム量子ビット間の強い帰納結合を実現し,それぞれが$\sim50$MHz周波数と$\sim5$GHzアンハーモニシティを持つチューナブルカプラを提案する。 このカプラにより、qubitsは$\textit{xx}$ coupling strengths (-35$から75$ mhz)という大きなチューニング範囲を持つことができる。 $\textit{ZZ}$結合強度は、カプラバイアス範囲全体で$<3$kHz、カプラオフポジションでは$<100$Hzである。 これらの性質は高速で高忠実なシングルビットと2ビットのゲートにつながる。 2つの量子ビットの差分周波数で運転することで、99.72 %$の忠実度を持つ$258$nsの$\sqrt{i\mathrm{SWAP}}$ゲートと、2つの量子ビットの合計周波数で運転することで、99.91 %$の忠実度を持つ$102$nsの$ゲートを実現する。 後者のゲートは、長さが5キュービットのラルモア期間である。 クロスエントロピーベンチマークを20ドル以上連続して実行し、安定したゲート忠実度を測定します。$\sqrt{b\mathrm{SWAP}}$ drift$2 \sigma$) $<0.02\%$および$\sqrt{i\mathrm{SWAP}}$ drift$<08\%$です。

The fluxonium qubit is a promising candidate for quantum computation due to its long coherence times and large anharmonicity. We present a tunable coupler that realizes strong inductive coupling between two heavy-fluxonium qubits, each with $\sim50$MHz frequencies and $\sim5$ GHz anharmonicities. The coupler enables the qubits to have a large tuning range of $\textit{XX}$ coupling strengths ($-35$ to $75$ MHz). The $\textit{ZZ}$ coupling strength is $<3$kHz across the entire coupler bias range, and $<100$Hz at the coupler off-position. These qualities lead to fast, high-fidelity single- and two-qubit gates. By driving at the difference frequency of the two qubits, we realize a $\sqrt{i\mathrm{SWAP}}$ gate in $258$ns with fidelity $99.72\%$, and by driving at the sum frequency of the two qubits, we achieve a $\sqrt{b\mathrm{SWAP}}$ gate in $102$ns with fidelity $99.91\%$. This latter gate is only 5 qubit Larmor periods in length. We run cross-entropy benchmarking for over $20$ consecutive hours and measure stable gate fidelities, with $\sqrt{b\mathrm{SWAP}}$ drift ($2 \sigma$) $< 0.02\%$ and $\sqrt{i\mathrm{SWAP}}$ drift $< 0.08\%$.
翻訳日:2023-09-13 15:41:16 公開日:2023-09-11
# 三角格子上の量子ループモデルから生じる立方体*臨界

Cubic* criticality emerging from quantum loop model on triangular lattice ( http://arxiv.org/abs/2309.05715v1 )

ライセンス: Link先を確認
Xiaoxue Ran, Zheng Yan, Yan-Cheng Wang, Junchen Rong, Yang Qi, and Zi Yang Meng(参考訳) Quantum loop and dimer models are archetypal examples of correlated systems with local constraints, whose generic solutions for different lattice geometries and parameter regimes are difficult to obtain due to the lack of controlled methods to solve them in the thermodynamic limit, yet their solutions are of immediate relevance towards both statistical and quantum field theories and the fast-growing experiments in Rydberg atom arrays and quantum moir\'e materials where the interplay between correlation and local constraints give rise to a plethora of novel phenomena. 最近の研究[1]では、スイーリングクラスタ量子モンテカルロ (QMC) シミュレーションと場理論解析により、三角格子量子ループモデル (QLM) が、格子ネマティック (LN)、ビソンプラケット (VP) 結晶、およびロクサー・キヴェルソン (RK) 点に近いZ2量子スピン液体 (QSL) を持つリッチ基底状態相図をホストしていることが発見された。 Here, we focus on the continuous quantum critical point separating the VP and QSL phases, and demonstrate via both the static and dynamic probes in QMC simulations that this transition is of the (2+1)d Cubic* universality in which the fractionalized visons in QSL condense to give rise to the crystalline VP phase, meanwhile leaves its trace in the anomalously large anomalous dimension exponent and pronounced continua in the dimer and vison spectra compared with those at the conventional Cubic or O(3) quantum critical points. このような現象を検出する実験提案について述べる。

Quantum loop and dimer models are archetypal examples of correlated systems with local constraints, whose generic solutions for different lattice geometries and parameter regimes are difficult to obtain due to the lack of controlled methods to solve them in the thermodynamic limit, yet their solutions are of immediate relevance towards both statistical and quantum field theories and the fast-growing experiments in Rydberg atom arrays and quantum moir\'e materials where the interplay between correlation and local constraints give rise to a plethora of novel phenomena. In a recent work [1], it was found via the sweeping cluster quantum Monte Carlo (QMC) simulations and field theory analysis that the triangular lattice quantum loop model (QLM) host a rich ground state phase diagram with lattice nematic (LN), vison plaquette (VP) crystals and the Z2 quantum spin liquid (QSL) close to the Rokhsar-Kivelson (RK) point. Here, we focus on the continuous quantum critical point separating the VP and QSL phases, and demonstrate via both the static and dynamic probes in QMC simulations that this transition is of the (2+1)d Cubic* universality in which the fractionalized visons in QSL condense to give rise to the crystalline VP phase, meanwhile leaves its trace in the anomalously large anomalous dimension exponent and pronounced continua in the dimer and vison spectra compared with those at the conventional Cubic or O(3) quantum critical points. The experiment proposal of the detection of such phenomena is discussed.
翻訳日:2023-09-13 15:40:39 公開日:2023-09-11
# CaloClouds II:超高速幾何非依存高グラニュラーカロリメータシミュレーション

CaloClouds II: Ultra-Fast Geometry-Independent Highly-Granular Calorimeter Simulation ( http://arxiv.org/abs/2309.05704v1 )

ライセンス: Link先を確認
Erik Buhmann, Frank Gaede, Gregor Kasieczka, Anatolii Korol, William Korcari, Katja Kr\"uger, and Peter McKeown(参考訳) 高グラニュラー検出器のエネルギー沈着の高速シミュレーションは、より高輝度の将来の衝突実験のために必要である。 生成機械学習(ML)モデルは、物理解析において従来のシミュレーションチェーンをスピードアップし、拡張する。 しかし、以前の取り組みの大半は、固定された通常の検出器の読み出しジオメトリに依存するモデルに限られていた。 主要な進歩は、測位に依存しない拡散モデルであるCaloCloudsモデルであり、予想される国際大検出器(ILD)の電磁量計のための点雲としてカロリーメータシャワーを生成する。 本稿では,CaloClouds IIについて紹介する。 例えば、連続時間スコアベースのモデリングでは、CaloCloudsに匹敵する25ステップのサンプリングが可能で、単一のCPUでGeant4よりも6\times$スピードアップできる(5\times$ over CaloClouds)。 さらに,拡散モデルを一段階の正確なサンプリングを可能にし,その結果,46\times$$(37\times$)の高速化を実現した。 これは、カロリメータシャワーの生成における一貫性蒸留の最初の応用である。

Fast simulation of the energy depositions in high-granular detectors is needed for future collider experiments with ever increasing luminosities. Generative machine learning (ML) models have been shown to speed up and augment the traditional simulation chain in physics analysis. However, the majority of previous efforts were limited to models relying on fixed, regular detector readout geometries. A major advancement is the recently introduced CaloClouds model, a geometry-independent diffusion model, which generates calorimeter showers as point clouds for the electromagnetic calorimeter of the envisioned International Large Detector (ILD). In this work, we introduce CaloClouds II which features a number of key improvements. This includes continuous time score-based modelling, which allows for a 25 step sampling with comparable fidelity to CaloClouds while yielding a $6\times$ speed-up over Geant4 on a single CPU ($5\times$ over CaloClouds). We further distill the diffusion model into a consistency model allowing for accurate sampling in a single step and resulting in a $46\times$ ($37\times$) speed-up. This constitutes the first application of consistency distillation for the generation of calorimeter showers.
翻訳日:2023-09-13 15:40:13 公開日:2023-09-11
# 熱帯coamoeba,brane tilings,seiberg dualityを探索する教師なし機械学習技術

Unsupervised Machine Learning Techniques for Exploring Tropical Coamoeba, Brane Tilings and Seiberg Duality ( http://arxiv.org/abs/2309.05702v1 )

ライセンス: Link先を確認
Rak-Kyeong Seong(参考訳) 4d n=1 超対称ゲージ理論のトーリック位相を同一のトーリックカラビ・ヤウ3次元に対応するために教師なし機械学習手法を導入する。 これらの 4d N=1 超対称ゲージ理論は、トーリックなカラビ・ヤウ3次元のD3-ブレーンのワールドボリューム理論であり、ブレーンタイリングとして知られるタイプIIBブレーン構成で実現される。 これは、トーリック・カラビ・ヤウ3次元多様体に関連するミラー曲線のコアメーバ射影の骨格グラフに対応する。 鏡のカラビ・ヤウ3次元の複雑な構造のモジュラーが変化すると、コアメーバと対応するブレインタイリングは形状を変え、セイベルグの双対性によって異なるトーリック相が生じる。 主成分分析 (PCA) や t-分散確率的隣接埋め込み (t-SNE) などの手法を用いることで、複素構造変調によりラベル付けされたコアメーバの空間を、セイベルグ双対性に対応する位相境界を持つ低次元位相空間に投影できることを示す。 本研究では、この手法について、第0ヒルズブルッヒ面F0上の円錐に対応するブレインタイリングの2次元位相図を得る。

We introduce unsupervised machine learning techniques in order to identify toric phases of 4d N=1 supersymmetric gauge theories corresponding to the same toric Calabi-Yau 3-fold. These 4d N=1 supersymmetric gauge theories are worldvolume theories of a D3-brane probing a toric Calabi-Yau 3-fold and are realized in terms of a Type IIB brane configuration known as a brane tiling. It corresponds to the skeleton graph of the coamoeba projection of the mirror curve associated to the toric Calabi-Yau 3-fold. When we vary the complex structure moduli of the mirror Calabi-Yau 3-fold, the coamoeba and the corresponding brane tilings change their shape, giving rise to different toric phases related by Seiberg duality. We illustrate that by employing techniques such as principal component analysis (PCA) and t-distributed stochastic neighbor embedding (t-SNE), we can project the space of coamoeba labelled by complex structure moduli down to a lower dimensional phase space with phase boundaries corresponding to Seiberg duality. In this work, we illustrate this technique by obtaining a 2-dimensional phase diagram for brane tilings corresponding to the cone over the zeroth Hirzebruch surface F0.
翻訳日:2023-09-13 15:39:55 公開日:2023-09-11
# 平均場補正と補助量子ビットを用いた近接分散量子計算

Near-Term Distributed Quantum Computation using Mean-Field Corrections and Auxiliary Qubits ( http://arxiv.org/abs/2309.05693v1 )

ライセンス: Link先を確認
Abigail McClain Gomez, Taylor L. Patti, Anima Anandkumar, Susanne F. Yelin(参考訳) 分散量子計算は、遠隔の量子デバイス間で量子情報を共有することで協調的なノイズと必要な接続を減らすため、量子ハードウェアのスケーラビリティを高めるためにしばしば提案される。 しかし、量子情報の交換自体は、高いゲート忠実性とコストのかかる非局所演算を必要とする、ユニークなエンジニアリング上の課題をもたらす。 そこで本稿では,情報伝達の制限と保守的絡み合い生成を伴う近似的手法に着目し,短期分散量子コンピューティングを提案する。 まず,古典デバイスと量子デバイスの組み合わせで分割された量子システムの時間進化を近似した分散計算方式を考案する。 提案手法では,平均場補正と補助量子ビットを用いて,2つ以上のデバイスを古典的にリンクし,補助量子ビットを最適に符号化することで短時間発展誤差を最小化し,近似スキームの性能をより長い進化時間に拡張する。 次に、選択的な量子ビットシャッフルやテレポーテーションによる限られた量子情報転送を含むように計画を拡張し、我々の方法の適用性を拡大し、性能を向上する。 最後に、これらの概念に基づいて、変分量子アルゴリズムの断片化事前学習のための近似回路切断手法を構築する。 本手法を特徴付けるために,最適化における平均場補正の重要役割を把握し,他の非線形量子技術の解析に適した非線形摂動理論を導入する。 この断片化された事前学習は著しく成功し、反復を少なくしながらアルゴリズムの誤りを桁違いに減らす。

Distributed quantum computation is often proposed to increase the scalability of quantum hardware, as it reduces cooperative noise and requisite connectivity by sharing quantum information between distant quantum devices. However, such exchange of quantum information itself poses unique engineering challenges, requiring high gate fidelity and costly non-local operations. To mitigate this, we propose near-term distributed quantum computing, focusing on approximate approaches that involve limited information transfer and conservative entanglement production. We first devise an approximate distributed computing scheme for the time evolution of quantum systems split across any combination of classical and quantum devices. Our procedure harnesses mean-field corrections and auxiliary qubits to link two or more devices classically, optimally encoding the auxiliary qubits to both minimize short-time evolution error and extend the approximate scheme's performance to longer evolution times. We then expand the scheme to include limited quantum information transfer through selective qubit shuffling or teleportation, broadening our method's applicability and boosting its performance. Finally, we build upon these concepts to produce an approximate circuit-cutting technique for the fragmented pre-training of variational quantum algorithms. To characterize our technique, we introduce a non-linear perturbation theory that discerns the critical role of our mean-field corrections in optimization and may be suitable for analyzing other non-linear quantum techniques. This fragmented pre-training is remarkably successful, reducing algorithmic error by orders of magnitude while requiring fewer iterations.
翻訳日:2023-09-13 15:39:31 公開日:2023-09-11
# 偏乱ランダム正則グラフ上のアンダーソンモデルにおけるロバスト拡張状態

Robust extended states in Anderson model on partially disordered random regular graphs ( http://arxiv.org/abs/2309.05691v1 )

ライセンス: Link先を確認
Daniil Kochergin, Ivan M. Khaymovich, Olga Valba, Alexander Gorsky(参考訳) 本研究では、ランダム正則グラフ(RRG)の部分的に乱れたアンサンブルにおける移動エッジの起源を、接続コスト$d$で解析的に説明し、その位置を制御している。 スペクトルの移動性エッジは、一様分布の無限大障害において、(\beta,d)$-parameter plane において、ある領域において存続し、ここでは$\beta$ は、%クリーン不規則ノードの分数を表す。 移動端および局所状態の分離する臨界曲線は解析的に導出され,数値的に確認される。 スパースと超高密度RRGの局在特性の双対性が発見され、理解されている。 非相反性パラメータで補足された部分不規則rrgの局在特性と3ドルのサイクルの化学ポテンシャルを数値的に解析した。

In this work we analytically explain the origin of the mobility edge in partially disordered ensemble of random regular graphs (RRG), with the connectivity $d$, the position of which is under control. It is shown that the mobility edge in the spectrum survives in some region in $(\beta,d)$-parameter plane at infinitely large uniformly distributed disorder, where $\beta$ stands for the fraction of %clean disordered nodes. The critical curve separating %regimes with and without mobility edge extended and localized states is derived analytically and confirmed numerically. The duality in the localization properties between the sparse and extremely dense RRG has been found and understood. The localization properties of the partially disordered RRG supplemented by the non-reciprocity parameter as well as the chemical potential for the $3$-cycles have been analyzed numerically.
翻訳日:2023-09-13 15:39:04 公開日:2023-09-11
# 1次元の変換不変 2-局所スピン系に対する動的リー代数の分類

Classification of dynamical Lie algebras for translation-invariant 2-local spin systems in one dimension ( http://arxiv.org/abs/2309.05690v1 )

ライセンス: Link先を確認
Roeland Wiersema, Efekan K\"okc\"u, Alexander F. Kemper, Bojko N. Bakalov(参考訳) 1次元スピン鎖について、絡み合いの性質、物理的位相、可積分性の観点から多くのことが理解されている。 しかし、これらの体系を記述したハミルトニアンのリー代数的性質はほとんど解明されていない。 本研究では、変換不変な2-局所スピン鎖ハミルトニアンあるいはいわゆる動的リー代数によって生成されるすべてのリー代数の分類を提供する。 開かつ周期的な境界条件を持つ鎖を考慮し、17のユニークな動的リー代数を求める。 我々の分類では、横場イジングモデルやハイゼンベルク連鎖などのよく知られたモデルも網羅しており、容易に識別できないハミルトン群のよりエキゾチックなクラスも発見できる。 クローズドでオープンなスピンチェーンに加えて、量子機械学習アプローチに関係のある、完全に連結されたトポロジーを持つシステムも検討する。 量子制御,変分量子コンピューティング,スピンチェーン文学といった文脈において,本研究の実際的意義について考察する。

Much is understood about 1-dimensional spin chains in terms of entanglement properties, physical phases, and integrability. However, the Lie algebraic properties of the Hamiltonians describing these systems remain largely unexplored. In this work, we provide a classification of all Lie algebras generated by translation-invariant 2-local spin chain Hamiltonians, or so-called dynamical Lie algebras. We consider chains with open and periodic boundary conditions and find 17 unique dynamical Lie algebras. Our classification covers some well-known models such as the transverse-field Ising model and the Heisenberg chain, and we also find more exotic classes of Hamiltonians that cannot be identified easily. In addition to the closed and open spin chains, we consider systems with a fully connected topology, which may be relevant for quantum machine learning approaches. We discuss the practical implications of our work in the context of quantum control, variational quantum computing, and the spin chain literature.
翻訳日:2023-09-13 15:38:50 公開日:2023-09-11
# 科学のための大規模言語モデル:P vs. NPに関する研究

Large Language Model for Science: A Study on P vs. NP ( http://arxiv.org/abs/2309.05689v1 )

ライセンス: Link先を確認
Qingxiu Dong, Li Dong, Ke Xu, Guangyan Zhou, Yaru Hao, Zhifang Sui, Furu Wei(参考訳) 本研究では、理論計算機科学と数学において最も重要な開問題の一つであるP対NP問題の研究を拡大・加速するために、大規模言語モデル(LLM)を用いる。 具体的には,複雑な問題解決のために llm を用いた深い思考を促進する汎用フレームワーク socratic reasoning を提案する。 ソクラテス的推論は、LLMが自己評価と改善を促進しながら問題を再帰的に発見し、解決し、統合することを奨励する。 P vs. NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、「P $\neq$ NP」を含む97の対話ターンを通して厳密な推論を行うことを示した(Xu and Zhou, 2023)。 この調査は、LLMの広範なソリューション空間における新たな洞察を明らかにし、LLM for Scienceに光を当てた。

In this work, we use large language models (LLMs) to augment and accelerate research on the P versus NP problem, one of the most important open problems in theoretical computer science and mathematics. Specifically, we propose Socratic reasoning, a general framework that promotes in-depth thinking with LLMs for complex problem-solving. Socratic reasoning encourages LLMs to recursively discover, solve, and integrate problems while facilitating self-evaluation and refinement. Our pilot study on the P vs. NP problem shows that GPT-4 successfully produces a proof schema and engages in rigorous reasoning throughout 97 dialogue turns, concluding "P $\neq$ NP", which is in alignment with (Xu and Zhou, 2023). The investigation uncovers novel insights within the extensive solution space of LLMs, shedding light on LLM for Science.
翻訳日:2023-09-13 15:38:34 公開日:2023-09-11
# 時間的忍耐:組み込みレーダデータ処理のための効率的な適応型ディープラーニング

Temporal Patience: Efficient Adaptive Deep Learning for Embedded Radar Data Processing ( http://arxiv.org/abs/2309.05686v1 )

ライセンス: Link先を確認
Max Sponner and Julius Ott and Lorenzo Servadei and Bernd Waschneck and Robert Wille and Akash Kumar(参考訳) radarセンサーは常時オンのスマートデバイスに電力効率の良いソリューションを提供するが、リソースに制約のある組み込みプラットフォームでデータストリームを処理することは依然として難しい。 本稿では,ストリーミングレーダデータに存在する時間相関を利用して,組み込みデバイス上でのディープラーニング推論のための早期排他ニューラルネットワークの効率を向上させる手法を提案する。 これらのネットワークは、アーキテクチャの隠れたレイヤにさらなる分類子ブランチを追加し、その結果が実行時の決定機構によって十分と見なされる場合、推論の早期終了を可能にする。 提案手法では,推論をいつ終了するかを判断し,精度の低下を最小限に抑えながら計算コストを削減できる。 提案手法は,1つのエグジットネットワーク上で最大26%,信頼度に基づく早期エグジットバージョンで12%の運用を節約できることを実証した。 提案手法はコモディティなハードウェア上で動作し,従来の最適化と組み合わせることで,スマートデバイスで一般的に使用されるリソース制約のある組込みプラットフォームで利用できるようにする。 このような効率の向上により、リソース制約のあるプラットフォームでのリアルタイムレーダーデータ処理が可能になり、スマートホーム、インターネット・オブ・シング、人間とコンピュータのインタラクションといったコンテキストで新しいアプリケーションが可能になる。

Radar sensors offer power-efficient solutions for always-on smart devices, but processing the data streams on resource-constrained embedded platforms remains challenging. This paper presents novel techniques that leverage the temporal correlation present in streaming radar data to enhance the efficiency of Early Exit Neural Networks for Deep Learning inference on embedded devices. These networks add additional classifier branches between the architecture's hidden layers that allow for an early termination of the inference if their result is deemed sufficient enough by an at-runtime decision mechanism. Our methods enable more informed decisions on when to terminate the inference, reducing computational costs while maintaining a minimal loss of accuracy. Our results demonstrate that our techniques save up to 26% of operations per inference over a Single Exit Network and 12% over a confidence-based Early Exit version. Our proposed techniques work on commodity hardware and can be combined with traditional optimizations, making them accessible for resource-constrained embedded platforms commonly used in smart devices. Such efficiency gains enable real-time radar data processing on resource-constrained platforms, allowing for new applications in the context of smart homes, Internet-of-Things, and human-computer interaction.
翻訳日:2023-09-13 15:38:19 公開日:2023-09-11
# 生活環境におけるセンサ配置のグレイボックスベイズ最適化

Grey-box Bayesian Optimization for Sensor Placement in Assisted Living Environments ( http://arxiv.org/abs/2309.05784v1 )

ライセンス: Link先を確認
Shadan Golestan, Omid Ardakanian, Pierre Boulanger(参考訳) センサの構成と配置の最適化は, 生活空間における転倒検出, 屋内位置推定, 活動認識に不可欠である。 本稿では,グレイボックスベイズ最適化とシミュレーションに基づく評価に基づいて,任意の室内空間に高品質なセンサ配置を求める新しいサンプル効率の手法を提案する。 我々の重要な技術的貢献は、活動の空間分布に関するドメイン固有の知識を捉え、ベイズ最適化におけるクエリポイントの反復的な選択にそれを取り入れることである。 室内の2つのシミュレーション環境と,人間の活動とセンサトリガを含む実世界のデータセットを考慮すると,提案手法は,高品質なセンサ配置の同定において最先端のブラックボックス最適化手法よりも優れた性能を示し,F1スコアの精度の高いアクティビティ認識を実現するとともに,高価な関数クエリの数が著しく少ない(平均51.3%)。

Optimizing the configuration and placement of sensors is crucial for reliable fall detection, indoor localization, and activity recognition in assisted living spaces. We propose a novel, sample-efficient approach to find a high-quality sensor placement in an arbitrary indoor space based on grey-box Bayesian optimization and simulation-based evaluation. Our key technical contribution lies in capturing domain-specific knowledge about the spatial distribution of activities and incorporating it into the iterative selection of query points in Bayesian optimization. Considering two simulated indoor environments and a real-world dataset containing human activities and sensor triggers, we show that our proposed method performs better compared to state-of-the-art black-box optimization techniques in identifying high-quality sensor placements, leading to accurate activity recognition in terms of F1-score, while also requiring a significantly lower (51.3% on average) number of expensive function queries.
翻訳日:2023-09-13 15:32:04 公開日:2023-09-11
# Blendshapes GHUM: Real-time Monocular Facial Blendshape Prediction

Blendshapes GHUM: Real-time Monocular Facial Blendshape Prediction ( http://arxiv.org/abs/2309.05782v1 )

ライセンス: Link先を確認
Ivan Grishchenko, Geng Yan, Eduard Gabriel Bazavan, Andrei Zanfir, Nikolai Chinaev, Karthik Raveendran, Matthias Grundmann, Cristian Sminchisescu(参考訳) Blendshapes GHUMは、デバイス上のMLパイプラインで、現代の携帯電話で、単眼のRGB画像から、52の顔ブレンドシェープ係数を30以上のFPSで予測し、仮想アバターのような顔の動きを捉えることができる。 私たちの主な貢献は 一 実世界の人体スキャンからブレンド形状係数を得るための注釈なしオフライン方法 二 顔のランドマークに基づいてブレンド形状係数を予測する軽量リアルタイムモデル。

We present Blendshapes GHUM, an on-device ML pipeline that predicts 52 facial blendshape coefficients at 30+ FPS on modern mobile phones, from a single monocular RGB image and enables facial motion capture applications like virtual avatars. Our main contributions are: i) an annotation-free offline method for obtaining blendshape coefficients from real-world human scans, ii) a lightweight real-time model that predicts blendshape coefficients based on facial landmarks.
翻訳日:2023-09-13 15:31:39 公開日:2023-09-11
# LUNet:高分解能ファンダス画像における動脈と静脈の分画の深層学習

LUNet: Deep Learning for the Segmentation of Arterioles and Venules in High Resolution Fundus Images ( http://arxiv.org/abs/2309.05780v1 )

ライセンス: Link先を確認
Jonathan Fhima, Jan Van Eijgen, Hana Kulenovic, Val\'erie Debeuf, Marie Vangilbergen, Marie-Isaline Billen, Helo\"ise Brackenier, Moti Freiman, Ingeborg Stalmans and Joachim A. Behar(参考訳) 網膜は、血管を非侵襲的にアクセスするための唯一の部分であり、デジタル眼底画像(DFI)のようなイメージング技術を用いている。 網膜微小血管の空間分布は心血管疾患によって変化し、目は私たちの心臓の窓と見なされる可能性がある。 網膜動静脈 (A/V) の分画は, 自動微小血管解析に必須である。 アクティブラーニングを用いて,15名の医学生によるクラウドソースマニュアルa/vセグメンテーションを含む新しいdfiデータセットを作成し,高分解能a/vセグメンテーションのための新しいディープラーニングアーキテクチャlunetを開発した。 LUNetアーキテクチャは、モデルの受容場を強化し、パラメータ数を減らすことを目的とした二重拡張畳み込みブロックを含んでいる。 さらにLUNetは長い尾を持ち、セグメンテーションを洗練するために高解像度で動作する。 カスタム損失機能は、血管の連続性を強調している。 lunetは、ローカルテストセット上の2つの最先端セグメンテーションアルゴリズムと、4つの外部テストセットにおいて、民族、同義者、注釈者間の分布シフトをシミュレートしている。 新たに作成されたデータセットをオープンアクセス(アップオンパブリッシュ)します。

The retina is the only part of the human body in which blood vessels can be accessed non-invasively using imaging techniques such as digital fundus images (DFI). The spatial distribution of the retinal microvasculature may change with cardiovascular diseases and thus the eyes may be regarded as a window to our hearts. Computerized segmentation of the retinal arterioles and venules (A/V) is essential for automated microvasculature analysis. Using active learning, we created a new DFI dataset containing 240 crowd-sourced manual A/V segmentations performed by fifteen medical students and reviewed by an ophthalmologist, and developed LUNet, a novel deep learning architecture for high resolution A/V segmentation. LUNet architecture includes a double dilated convolutional block that aims to enhance the receptive field of the model and reduce its parameter count. Furthermore, LUNet has a long tail that operates at high resolution to refine the segmentation. The custom loss function emphasizes the continuity of the blood vessels. LUNet is shown to significantly outperform two state-of-the-art segmentation algorithms on the local test set as well as on four external test sets simulating distribution shifts across ethnicity, comorbidities, and annotators. We make the newly created dataset open access (upon publication).
翻訳日:2023-09-13 15:31:27 公開日:2023-09-11
# 認知関連機能障害に対するスマートウォッチ由来音響マーカー

Smartwatch-derived Acoustic Markers for Deficits in Cognitively Relevant Everyday Functioning ( http://arxiv.org/abs/2309.05777v1 )

ライセンス: Link先を確認
Yasunori Yamada, Kaoru Shinkawa, Masatomo Kobayashi, Miyuki Nemoto, Miho Ota, Kiyotaka Nemoto, Tetsuaki Arai(参考訳) 認知障害による日常生活機能の微妙な欠損の検出は、神経変性疾患、特にアルツハイマー病の早期発見に重要である。 しかし、日常機能評価の現在の基準は質的、主観的評価に基づいている。 音声は認知障害に良い客観的マーカーを提供することが示されているが、認知関連日常機能との関連性は未解明のままである。 本研究では,日常機能における障害検出の客観的指標として,スマートウォッチアプリケーションを用いた音響特徴収集の可能性を示す。 認知的タスクと日常会話の実行中に音声データを収集し, 応用シナリオとして, 高齢者54名を対象に, 日常的な機能評価を行った。 音響的特徴を用いた機械学習モデルは、通常の神経心理学検査で68.5%の精度であった77.8%の精度で日常生活機能に障害のある個人を検出できる。 また,2種類の音声データ(認知タスクと日常会話)にまたがる日常的機能障害を頑健に識別する一般的な音響的特徴を明らかにした。 本研究は,音声データから抽出した共通の音響特徴を,日常的機能障害の指標として用いることができることを示唆する。

Detection of subtle deficits in everyday functioning due to cognitive impairment is important for early detection of neurodegenerative diseases, particularly Alzheimer's disease. However, current standards for assessment of everyday functioning are based on qualitative, subjective ratings. Speech has been shown to provide good objective markers for cognitive impairments, but the association with cognition-relevant everyday functioning remains uninvestigated. In this study, we demonstrate the feasibility of using a smartwatch-based application to collect acoustic features as objective markers for detecting deficits in everyday functioning. We collected voice data during the performance of cognitive tasks and daily conversation, as possible application scenarios, from 54 older adults, along with a measure of everyday functioning. Machine learning models using acoustic features could detect individuals with deficits in everyday functioning with up to 77.8% accuracy, which was higher than the 68.5% accuracy with standard neuropsychological tests. We also identified common acoustic features for robustly discriminating deficits in everyday functioning across both types of voice data (cognitive tasks and daily conversation). Our results suggest that common acoustic features extracted from different types of voice data can be used as markers for deficits in everyday functioning.
翻訳日:2023-09-13 15:31:07 公開日:2023-09-11
# パラメトリックカップリングを用いた超伝導回路の高効率2量子ゲート

Efficient two-qutrit gates in superconducting circuits using parametric coupling ( http://arxiv.org/abs/2309.05766v1 )

ライセンス: Link先を確認
Mahadevan Subramanian and Adrian Lupascu(参考訳) 近年,超伝導回路を用いた単一クトリットゲートと結合クトリットゲートの実証において大きな進展がみられている。 結合クォートリットゲートは、実装時間が長いため、単一のクォートリットゲートよりも忠実度が著しく低い。 本稿では,2つの部分状態スワップとローカル操作を含む分解に基づいて,CZユニバーサルゲートを実装するプロトコルを提案する。 部分状態スワップはパラメトリック結合を用いて効果的に実装できるが、これは高速で周波数選択性の利点がある。 本稿では,このプロトコルをフラックス可変トランスモンで結合した2つの固定周波数トランスモンからなるシステムで詳細に解析する。 可変トランスモンにおける交流フラックスの適用はパラメトリックゲートを制御する。 このプロトコルは超伝導回路アーキテクチャにおいて高速でスケーラブルな2量子ゲートにつながる可能性がある。

Recently, significant progress has been made in the demonstration of single qutrit and coupled qutrit gates with superconducting circuits. Coupled qutrit gates have significantly lower fidelity than single qutrit gates, owing to long implementation times. We present a protocol to implement the CZ universal gate for two qutrits based on a decomposition involving two partial state swaps and local operations. The partial state swaps can be implemented effectively using parametric coupling, which is fast and has the advantage of frequency selectivity. We perform a detailed analysis of this protocol in a system consisting of two fixed-frequency transmons coupled by a flux-tunable transmon. The application of an AC flux in the tunable transmon controls the parametric gates. This protocol has the potential to lead to fast and scalable two-qutrit gates in superconducting circuit architectures.
翻訳日:2023-09-13 15:30:50 公開日:2023-09-11
# TransferDoc: 視覚と言語を統一した自己監督型文書表現学習モデル

TransferDoc: A Self-Supervised Transferable Document Representation Learning Model Unifying Vision and Language ( http://arxiv.org/abs/2309.05756v1 )

ライセンス: Link先を確認
Souhail Bakkali, Sanket Biswas, Zuheng Ming, Mickael Coustaty, Mar\c{c}al Rusi\~nol, Oriol Ramos Terrades, Josep Llad\'os(参考訳) ビジュアル文書理解の分野は、新たな課題と強力なマルチモーダル戦略の急速な成長を目撃している。 しかし、彼らは「pre-train-then-fine-tune'」パラダイムで事前テキストの目的を学習するために大量の文書データに依存しており、実際のオンライン産業環境において顕著なパフォーマンス低下を被っている。 主な理由の1つは、文書ページ内の位置情報を抽出するOCRエンジンの過度な信頼性である。 したがって,この手法は,文書画像内でのグローバルな情報取得の欠如により,モデルの一般化性,柔軟性,堅牢性を阻害する。 3つの新しいプリテキストの目的を用いて,自己教師あり方式で事前学習したクロスモーダルトランスフォーマティブアーキテクチャであるtransferdocを提案する。 TransferDocは、言語と視覚表現を統合することで、よりリッチなセマンティックな概念を学ぶ。 さらに、2つの新しいダウンストリームタスクが、transferdocが他の最先端のアプローチよりも優れる、``closer-to-real''産業評価シナリオとして導入されている。

The field of visual document understanding has witnessed a rapid growth in emerging challenges and powerful multi-modal strategies. However, they rely on an extensive amount of document data to learn their pretext objectives in a ``pre-train-then-fine-tune'' paradigm and thus, suffer a significant performance drop in real-world online industrial settings. One major reason is the over-reliance on OCR engines to extract local positional information within a document page. Therefore, this hinders the model's generalizability, flexibility and robustness due to the lack of capturing global information within a document image. We introduce TransferDoc, a cross-modal transformer-based architecture pre-trained in a self-supervised fashion using three novel pretext objectives. TransferDoc learns richer semantic concepts by unifying language and visual representations, which enables the production of more transferable models. Besides, two novel downstream tasks have been introduced for a ``closer-to-real'' industrial evaluation scenario where TransferDoc outperforms other state-of-the-art approaches.
翻訳日:2023-09-13 15:30:39 公開日:2023-09-11
# 圧縮下のメトリック学習における内在次元の影響

The Effect of Intrinsic Dimension on Metric Learning under Compression ( http://arxiv.org/abs/2309.05751v1 )

ライセンス: Link先を確認
Efstratios Palias, Ata Kab\'an(参考訳) 距離学習は,距離に基づく学習アルゴリズムの性能向上を目的として,入力空間上の適切な距離測定値を求める。 高次元環境では、学習したメトリックに低ランクの制限を課すことにより、メートル法学習は次元の縮小の役割も果たすことができる。 本稿では,高次元データ上で低ランクメトリックをトレーニングする代わりに,ランダムに圧縮されたデータのバージョンを考え,フルランクメトリックをトレーニングする。 本研究では, 環境次元に依存しないランダム圧縮に関して, 距離に基づく計量学習の誤差を理論的に保証する。 私たちの境界は、有界なサポートからのデータ以外は明示的な仮定を一切行わず、良性幾何学的構造が存在するときに自動的に締め付ける。 合成データと実データの両方の実験結果は、高次元設定における理論的な発見を支持する。

Metric learning aims at finding a suitable distance metric over the input space, to improve the performance of distance-based learning algorithms. In high-dimensional settings, metric learning can also play the role of dimensionality reduction, by imposing a low-rank restriction to the learnt metric. In this paper, instead of training a low-rank metric on high-dimensional data, we consider a randomly compressed version of the data, and train a full-rank metric there. We give theoretical guarantees on the error of distance-based metric learning, with respect to the random compression, which do not depend on the ambient dimension. Our bounds do not make any explicit assumptions, aside from i.i.d. data from a bounded support, and automatically tighten when benign geometrical structures are present. Experimental results on both synthetic and real data sets support our theoretical findings in high-dimensional settings.
翻訳日:2023-09-13 15:30:19 公開日:2023-09-11
# LIMEを用いた交通・道路標識分類におけるCNNモデルの信頼性評価

Evaluating the Reliability of CNN Models on Classifying Traffic and Road Signs using LIME ( http://arxiv.org/abs/2309.05747v1 )

ライセンス: Link先を確認
Md. Atiqur Rahman, Ahmed Saad Tanim, Sanjid Islam, Fahim Pranto, G.M. Shahariar and Md. Tanvir Rouf Shawon(参考訳) 本研究の目的は,GTSRB公開データセットを用いた交通・道路標識の分類において,最先端の事前訓練モデルであるResNet-34,VGG-19,DenseNet-121,Inception V3の有効性を評価し,比較することである。 本研究は,これらのモデルの予測精度と,画像分類に適切な特徴を用いる能力を評価することに焦点を当てた。 モデル予測の強みと限界に関する洞察を得るために、この研究は局所的解釈可能なモデルに依存しない説明(LIME)フレームワークを用いている。 この実験の結果から,LIMEは交通や道路標識の分類において,f1スコア0.99のモデルによらず,画像識別のための機械学習モデルの解釈可能性と信頼性を向上させる重要なツールであることが示唆された。 本研究の結論は、モデル予測が関連する画像の特徴に基づいて構築されることを保証することが不可欠であるため、これらのモデルが実際にどのように使用されるかに重要な影響を与える。

The objective of this investigation is to evaluate and contrast the effectiveness of four state-of-the-art pre-trained models, ResNet-34, VGG-19, DenseNet-121, and Inception V3, in classifying traffic and road signs with the utilization of the GTSRB public dataset. The study focuses on evaluating the accuracy of these models' predictions as well as their ability to employ appropriate features for image categorization. To gain insights into the strengths and limitations of the model's predictions, the study employs the local interpretable model-agnostic explanations (LIME) framework. The findings of this experiment indicate that LIME is a crucial tool for improving the interpretability and dependability of machine learning models for image identification, regardless of the models achieving an f1 score of 0.99 on classifying traffic and road signs. The conclusion of this study has important ramifications for how these models are used in practice, as it is crucial to ensure that model predictions are founded on the pertinent image features.
翻訳日:2023-09-13 15:30:04 公開日:2023-09-11
# 量子可観測物の状態独立証明

State-independent certification of quantum observables ( http://arxiv.org/abs/2309.05735v1 )

ライセンス: Link先を確認
Zhen-Peng Xu, Debashis Saha, Kishor Bharti, Ad\'an Cabello(参考訳) 量子観測可能ないくつかの集合は等尺法まで一意であり、任意の初期状態に対して同じ値に達する文脈性証人を持つ。 これらの2つの性質は、熱状態と最大混合状態を含む全ランクの初期状態のシーケンシャルな測定による実験の統計を使ってそれらを証明できる。 この ‘full-rank state-independent certification'' (frc) は、有限次元 $d \ge 3$ の量子系において可能であり、少なくとも 3$ と 4$ の次元においてロバストかつ実験的に有用である。 さらに、いわゆる完全kochen-specker集合が、frcを可能にする場合に限りベル自己テスト可能であることを証明する。 これにより、これら2つの方法の基本的な接続が確立され、量子デバイスを証明する興味深い可能性を開く。

We show that some sets of quantum observables are unique up to an isometry and have a contextuality witness that attains the same value for any initial state. These two properties enable to certify them using the statistics of experiments with sequential measurements on {\em any} initial state of full rank, including thermal states and maximally mixed states. We prove that this ``Full-Rank state-independent Certification'' (FRC) is possible for any quantum system of finite dimension $d \ge 3$ and is robust and experimentally useful in dimensions $3$ and $4$ at least. In addition, we prove that the so-called complete Kochen-Specker sets can be Bell self-tested if and only if they enable FRC. This establishes a fundamental connection between these two methods and opens some interesting possibilities for certifying quantum devices.
翻訳日:2023-09-13 15:29:46 公開日:2023-09-11
# 回路の複雑さと機能性:熱力学的展望

Circuit complexity and functionality: a thermodynamic perspective ( http://arxiv.org/abs/2309.05731v1 )

ライセンス: Link先を確認
Claudio Chamon, Andrei E. Ruckenstein, Eduardo R. Mucciolo, Ran Canetti(参考訳) 我々は,与えられた機能を持つ回路の複雑性と物理の関係を考察する。 統計力学における回路計数問題とアンサンブルの導出との関係を生かして,与えられた関数の回路のエントロピーと一定数のゲートのエントロピーを回路複雑性に結びつける。 熱力学的関係を用いて平衡温度に類似した量を指数関数に結びつけ、異なる関数の数の指数関数的な成長を複雑性の関数として記述する。 この接続は典型回路の有限圧縮性と密接に関連している。 最後に、熱力学的手法を用いて任意の長さのプログラム -- 暗号において重要な問題 -- の難読化のための枠組みを、回路の隣接部分の再帰的混合による熱化として定式化し、これは2つの容器と「ゲートのガス」との混合と見なすことができる。 この再帰的過程は、平均的な複雑性を平衡させ、回路全体の機能を保ちながら、回路エントロピーの飽和に繋がる。 私たちが予想する回路空間におけるエルゴード性に関する熱力学の議論は、断片化による非連結エルゴードセクターに限られる。 フラグメンテーションの概念は、回路難読化の問題に重要な意味を持ち、これは局所移動によって接続できない同じ大きさと機能を持つ回路が存在することを意味する。 さらに、複雑性クラス NP と coNP が一致しない限り、断片化は避けられないと主張する。

We explore a link between complexity and physics for circuits of given functionality. Taking advantage of the connection between circuit counting problems and the derivation of ensembles in statistical mechanics, we tie the entropy of circuits of a given functionality and fixed number of gates to circuit complexity. We use thermodynamic relations to connect the quantity analogous to the equilibrium temperature to the exponent describing the exponential growth of the number of distinct functionalities as a function of complexity. This connection is intimately related to the finite compressibility of typical circuits. Finally, we use the thermodynamic approach to formulate a framework for the obfuscation of programs of arbitrary length -- an important problem in cryptography -- as thermalization through recursive mixing of neighboring sections of a circuit, which can viewed as the mixing of two containers with ``gases of gates''. This recursive process equilibrates the average complexity and leads to the saturation of the circuit entropy, while preserving functionality of the overall circuit. The thermodynamic arguments hinge on ergodicity in the space of circuits which we conjecture is limited to disconnected ergodic sectors due to fragmentation. The notion of fragmentation has important implications for the problem of circuit obfuscation as it implies that there are circuits with same size and functionality that cannot be connected via local moves. Furthermore, we argue that fragmentation is unavoidable unless the complexity classes NP and coNP coincide, a statement that implies the collapse of the polynomial hierarchy of complexity theory to its first level.
翻訳日:2023-09-13 15:29:30 公開日:2023-09-11
# 拡散確率モデルを用いた分子雲の放射場予測

Predicting the Radiation Field of Molecular Clouds using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2309.05811v1 )

ライセンス: Link先を確認
Duo Xu, Stella Offner, Robert Gutermuth, Michael Grudic, David Guszejnov, and Philip Hopkins(参考訳) 星形成における放射フィードバックの影響を正確に定量化することは困難である。 このような複雑な問題に対処するため, 拡散確率モデル (DDPM) を記述した深層学習手法を用いて, 4.5 \um, 24 \um, 250 \umの3バンドダストエミッションに基づく恒星間放射場(ISRF)強度を予測する。 我々は、恒星形成と巨大分子雲(GMC)の進化をモデル化するSTARFORGE(STAR Formation in Gaseous Environments)プロジェクトから磁気流体力学シミュレーションを採用する。 我々はモノケロスR2 (MonR2) GMCで観測されたスペクトルエネルギー分布と一致する合成塵の放出マップを生成する。 合成3バンドダストエミッションを用いたISRF推定のためにDDPMを訓練する。 予測値と真の値の間の分散は、テスト集合の0.1倍以内である。 拡散モデルの評価を,物理パラメータの異なる新しいシミュレーションを含むように拡張した。 これらのアウト・オブ・ディストリビューション・シミュレーションでは一貫したオフセットが観測されているが、モデルは相対強度を2。 一方, ダスト温度のみに由来するISRFと実際のISRFとの間には弱い相関関係が認められた。 我々は、トレーニングされたモデルをMonR2のISRF予測に適用し、強いISRF、明るい光源、高塵の放出の対応を明らかにし、ISRFの変動を捉える能力を確認する。 我々のモデルは、近隣の星団に影響されたような、複雑で制約の弱いISRF環境においても、放射線のフィードバック分布を強く予測する。 しかし、正確なISRF予測では、ターゲット分子雲の特異な物理的条件を反映した正確なトレーニングデータセットが必要である。

Accurately quantifying the impact of radiation feedback in star formation is challenging. To address this complex problem, we employ deep learning techniques, denoising diffusion probabilistic models (DDPMs), to predict the interstellar radiation field (ISRF) strength based on three-band dust emission at 4.5 \um, 24 \um, and 250 \um. We adopt magnetohydrodynamic simulations from the STARFORGE (STAR FORmation in Gaseous Environments) project that model star formation and giant molecular cloud (GMC) evolution. We generate synthetic dust emission maps matching observed spectral energy distributions in the Monoceros R2 (MonR2) GMC. We train DDPMs to estimate the ISRF using synthetic three-band dust emission. The dispersion between the predictions and true values is within a factor of 0.1 for the test set. We extended our assessment of the diffusion model to include new simulations with varying physical parameters. While there is a consistent offset observed in these out-of-distribution simulations, the model effectively constrains the relative intensity to within a factor of 2. Meanwhile, our analysis reveals weak correlation between the ISRF solely derived from dust temperature and the actual ISRF. We apply our trained model to predict the ISRF in MonR2, revealing a correspondence between intense ISRF, bright sources, and high dust emission, confirming the model's ability to capture ISRF variations. Our model robustly predicts radiation feedback distribution, even in complex, poorly constrained ISRF environments like those influenced by nearby star clusters. However, precise ISRF predictions require an accurate training dataset mirroring the target molecular cloud's unique physical conditions.
翻訳日:2023-09-13 15:23:03 公開日:2023-09-11
# ShiFT3D:3Dディテクターをトリッキングするハード入力の合成

SHIFT3D: Synthesizing Hard Inputs For Tricking 3D Detectors ( http://arxiv.org/abs/2309.05810v1 )

ライセンス: Link先を確認
Hongge Chen, Zhao Chen, Gregory P. Meyer, Dennis Park, Carl Vondrick, Ashish Shrivastava, Yuning Chai(参考訳) 本報告では, 3次元物体検出器に対して, 立体形状を識別可能なパイプラインであるShift3Dについて述べる。 自動運転のような安全クリティカルなアプリケーションでは、このような新しい挑戦的な物体の発見は、3d検出器の未知の脆弱性に対する洞察を与える。 物体を符号付き距離関数(sdf)で表現することにより、3次元物体の形状やポーズをスムーズに変形させ、下流の3d検出器を混乱させることができることを示す。 重要なことに、Shift3Dによって生成されたオブジェクトは、ベースラインオブジェクトと物理的に異なるが、意味的に認識可能な形状を保持する。 提案手法は, 現代の3次元物体検出装置に解釈可能な故障モードを提供し, 危険になる前に3次元認識システム内の潜在的な安全性リスクの事前発見を支援する。

We present SHIFT3D, a differentiable pipeline for generating 3D shapes that are structurally plausible yet challenging to 3D object detectors. In safety-critical applications like autonomous driving, discovering such novel challenging objects can offer insight into unknown vulnerabilities of 3D detectors. By representing objects with a signed distanced function (SDF), we show that gradient error signals allow us to smoothly deform the shape or pose of a 3D object in order to confuse a downstream 3D detector. Importantly, the objects generated by SHIFT3D physically differ from the baseline object yet retain a semantically recognizable shape. Our approach provides interpretable failure modes for modern 3D object detectors, and can aid in preemptive discovery of potential safety risks within 3D perception systems before these risks become critical failures.
翻訳日:2023-09-13 15:22:35 公開日:2023-09-11
# 深部ニューラルネットワークと人間の色知覚の多様性

Divergences in Color Perception between Deep Neural Networks and Humans ( http://arxiv.org/abs/2309.05809v1 )

ライセンス: Link先を確認
Ethan O. Nadler, Elise Darragh-Ford, Bhargav Srinivasa Desikan, Christian Conaway, Mark Chu, Tasker Hull, Douglas Guilbeault(参考訳) 深層ニューラルネットワーク(dnn)は、画像分類や物体認識タスクにおける印象的なパフォーマンスによって、人間の視覚モデルとしてますます提案されている。 しかし、DNNが色知覚などの人間の視覚の基本的側面をどの程度捉えているかはいまだ不明である。 そこで我々は,DNNにおける色埋め込みの知覚的コヒーレンスを評価する新しい実験を開発し,これらのアルゴリズムがオンライン調査により収集した色類似性判定の精度を評価する。 最先端のDNNアーキテクチャは、畳み込みニューラルネットワークやビジョントランスフォーマーを含む$-$が、人間の色判定から著しく異なる色類似性判定を提供する。 (i)色特性が制御された画像 (ii)オンライン検索から生成された画像 (iii)標準CIFAR-10データセットの現実世界の画像。 計算神経科学の基礎理論に触発されたウェーブレット分解に基づく色知覚の解釈可能で認知的に妥当なモデルとdnnの性能を比較する。 1つのディープラーニングモデル$-$は、スタイル伝達タスクで訓練された畳み込みDNNであり、$-$は、人間の色知覚のいくつかの側面をキャプチャする。 これらの結果は、類似のDNNアーキテクチャ(例えば、画像分類と画像セグメント化)のトレーニングに使用される高レベルな視覚タスクを変更するときだけでなく、特定のDNNアーキテクチャに異なるレイヤのカラー埋め込みを調べる際にも有効である。 これらの発見は、機械学習アルゴリズムの知覚的表現を分析し、人間の視覚の認知可能なモデルとして機能する能力を向上させる努力において、新たな基盤を打ち破る。 機械学習,人間知覚,具体化認知の意義について考察する。

Deep neural networks (DNNs) are increasingly proposed as models of human vision, bolstered by their impressive performance on image classification and object recognition tasks. Yet, the extent to which DNNs capture fundamental aspects of human vision such as color perception remains unclear. Here, we develop novel experiments for evaluating the perceptual coherence of color embeddings in DNNs, and we assess how well these algorithms predict human color similarity judgments collected via an online survey. We find that state-of-the-art DNN architectures $-$ including convolutional neural networks and vision transformers $-$ provide color similarity judgments that strikingly diverge from human color judgments of (i) images with controlled color properties, (ii) images generated from online searches, and (iii) real-world images from the canonical CIFAR-10 dataset. We compare DNN performance against an interpretable and cognitively plausible model of color perception based on wavelet decomposition, inspired by foundational theories in computational neuroscience. While one deep learning model $-$ a convolutional DNN trained on a style transfer task $-$ captures some aspects of human color perception, our wavelet algorithm provides more coherent color embeddings that better predict human color judgments compared to all DNNs we examine. These results hold when altering the high-level visual task used to train similar DNN architectures (e.g., image classification versus image segmentation), as well as when examining the color embeddings of different layers in a given DNN architecture. These findings break new ground in the effort to analyze the perceptual representations of machine learning algorithms and to improve their ability to serve as cognitively plausible models of human vision. Implications for machine learning, human perception, and embodied cognition are discussed.
翻訳日:2023-09-13 15:22:07 公開日:2023-09-11
# トラップに面したオンラインML自己適応

Online ML Self-adaptation in Face of Traps ( http://arxiv.org/abs/2309.05805v1 )

ライセンス: Link先を確認
Michal T\"opfer, Franti\v{s}ek Pl\'a\v{s}il, Tom\'a\v{s} Bure\v{s}, Petr Hn\v{e}tynka, Martin Kruli\v{s}, Danny Weyns(参考訳) オンライン機械学習(ML)は、適応メカニズムを強化し、システムの有用性を向上させるために、自己適応システムでしばしば使用される。 このようなメリットにもかかわらず、オンラインMLを自己適応に適用することは困難であり、その制限を報告する論文は少ない。 最近、スマートな農業シナリオの自己適応にオンラインmlを適用する実験を行い、コミュニティで十分に議論されていないいくつかの予期せぬ困難(罠)に直面した。 本稿では,これらのトラップを用いた経験を報告する。 具体的には、MLに基づく推定器の仕様とオンライントレーニング、自己適応への影響、および推定器の評価に用いるアプローチに関連するいくつかのトラップについて論じる。 これらのトラップの概要は、オンラインMLを自己適応に適用する際に、他の研究者や実践者のガイダンスとして役立てることができる。

Online machine learning (ML) is often used in self-adaptive systems to strengthen the adaptation mechanism and improve the system utility. Despite such benefits, applying online ML for self-adaptation can be challenging, and not many papers report its limitations. Recently, we experimented with applying online ML for self-adaptation of a smart farming scenario and we had faced several unexpected difficulties -- traps -- that, to our knowledge, are not discussed enough in the community. In this paper, we report our experience with these traps. Specifically, we discuss several traps that relate to the specification and online training of the ML-based estimators, their impact on self-adaptation, and the approach used to evaluate the estimators. Our overview of these traps provides a list of lessons learned, which can serve as guidance for other researchers and practitioners when applying online ML for self-adaptation.
翻訳日:2023-09-13 15:21:16 公開日:2023-09-11
# モデルでは、'良い'ではなく'ニセ'を生成するのは、'ライス'を生成するほど悪くない! 文脈と意味を融合した対話生成損失関数と評価指標

Hi Model, generating 'nice' instead of 'good' is not as bad as generating 'rice'! Towards Context and Semantic Infused Dialogue Generation Loss Function and Evaluation Metric ( http://arxiv.org/abs/2309.05804v1 )

ライセンス: Link先を確認
Abhisek Tiwari, Muhammed Sinan, Kaushik Roy, Amit Sheth, Sriparna Saha and Pushpak Bhattacharyya(参考訳) 過去20年間で、対話モデリングは、単純なルールベースの応答からパーソナライズされた説得力のある応答生成へと大きく前進してきた。 しかし、これらの進歩にもかかわらず、対話生成の目的関数と評価指標はそれぞれ停滞しており、すなわちクロスエントロピーとBLEUである。 これらの語彙ベースのメトリクスには、以下の重要な制限がある。 (a)意味的配慮のない単語間マッチング:「ニケ」と「米」を「良い」で生成できなかった場合と同じクレジットを割り当てる。 b) 生成した応答を評価するための欠落したコンテキスト属性:生成した応答が進行中の対話コンテキストと関係があるとしても、コーパスで提供された金の発話と一致しない場合にペナルティを課すことができる。 本稿では,これらの制約を包括的に検討し,Semantic Infused Contextualized diaLogue (SemTextualLogue) と呼ばれる新たな損失関数を提案する。 さらに,生成した応答を評価しながら,文脈関連性と意味的適切性の両方を取り入れたDialuationと呼ばれる新しい評価指標を定式化する。 タスク指向とオープンドメインの両方のシナリオを含む2つのベンチマーク対話コーパスの実験を行った。 その結果,SemTextualLogue損失をトレーニングした対話生成モデルは,従来のクロスエントロピー損失関数と比較して,(定量的および定性的な評価において)優れた性能を示した。

Over the past two decades, dialogue modeling has made significant strides, moving from simple rule-based responses to personalized and persuasive response generation. However, despite these advancements, the objective functions and evaluation metrics for dialogue generation have remained stagnant, i.e., cross-entropy and BLEU, respectively. These lexical-based metrics have the following key limitations: (a) word-to-word matching without semantic consideration: It assigns the same credit for failure to generate 'nice' and 'rice' for 'good'. (b) missing context attribute for evaluating the generated response: Even if a generated response is relevant to the ongoing dialogue context, it may still be penalized for not matching the gold utterance provided in the corpus. In this paper, we first investigate these limitations comprehensively and propose a new loss function called Semantic Infused Contextualized diaLogue (SemTextualLogue) loss function. Furthermore, we formulate a new evaluation metric called Dialuation, which incorporates both context relevance and semantic appropriateness while evaluating a generated response. We conducted experiments on two benchmark dialogue corpora, encompassing both task-oriented and open-domain scenarios. We found that the dialogue generation model trained with SemTextualLogue loss attained superior performance (in both quantitative and qualitative evaluation) compared to the traditional cross-entropy loss function across the datasets and evaluation metrics.
翻訳日:2023-09-13 15:20:47 公開日:2023-09-11
# エネルギーベースモデルの再検討 -ノイズコントラスト推定と補間エネルギーモデル-

Revisiting Energy Based Models as Policies: Ranking Noise Contrastive Estimation and Interpolating Energy Models ( http://arxiv.org/abs/2309.05803v1 )

ライセンス: Link先を確認
Sumeet Singh, Stephen Tu, Vikas Sindhwani(参考訳) ロボット学習パイプラインにとって重要な設計決定は、ポリシー表現の選択である。次の一連のロボットアクションを生成するために、どのようなモデルを使うべきか? 多くのロボットタスクの本質的にマルチモーダルな性質と、最近のジェネレーティブモデリングの成功により、研究者は政策表現のための拡散モデルのような最先端の確率モデルに転換した。 本研究では,エネルギーベースモデル (EBM) の選択を政策クラスとして再考する。 高次元連続空間におけるエネルギーモデルが訓練には実用的でないという一般的な民間伝承は偽であることを示す。 いくつかの重要な要素を組み合わせたエネルギーモデルのための実践的学習目標とアルゴリズムを開発する。 (i)ランキングノイズコントラスト推定(r-nce) (ii)学習可能な負のサンプラー、 (iii)非敵合同訓練。 提案する目的関数は漸近的に一貫性があり,その極限分散を定量化する。 一方,ibc(暗黙的行動クローニング)の目的が集団レベルでも実際に偏っていることを示し,複数の独立したフォローアップ作業におけるibc訓練エネルギー政策の貧弱な性能に関する数学的説明を提供する。 我々はさらにアルゴリズムを拡張し、ノイズとデータをブリッジする連続確率過程を学習し、この過程をスケール変数でインデックス付けされたEBMの族でモデル化する。 そうすることで、生成モデリングの最近の進歩の背後にある核となるアイデアが実際にebmsと互換性があることを実証する。 全体として,提案するトレーニングアルゴリズムは,ディフュージョンモデルや最先端のアプローチと競合するポリシとして,障害物回避パス計画やコンタクトリッチブロックプッシュといった,いくつかの困難なマルチモーダルベンチマークでエネルギベースのモデルをトレーニングすることを可能にします。

A crucial design decision for any robot learning pipeline is the choice of policy representation: what type of model should be used to generate the next set of robot actions? Owing to the inherent multi-modal nature of many robotic tasks, combined with the recent successes in generative modeling, researchers have turned to state-of-the-art probabilistic models such as diffusion models for policy representation. In this work, we revisit the choice of energy-based models (EBM) as a policy class. We show that the prevailing folklore -- that energy models in high dimensional continuous spaces are impractical to train -- is false. We develop a practical training objective and algorithm for energy models which combines several key ingredients: (i) ranking noise contrastive estimation (R-NCE), (ii) learnable negative samplers, and (iii) non-adversarial joint training. We prove that our proposed objective function is asymptotically consistent and quantify its limiting variance. On the other hand, we show that the Implicit Behavior Cloning (IBC) objective is actually biased even at the population level, providing a mathematical explanation for the poor performance of IBC trained energy policies in several independent follow-up works. We further extend our algorithm to learn a continuous stochastic process that bridges noise and data, modeling this process with a family of EBMs indexed by scale variable. In doing so, we demonstrate that the core idea behind recent progress in generative modeling is actually compatible with EBMs. Altogether, our proposed training algorithms enable us to train energy-based models as policies which compete with -- and even outperform -- diffusion models and other state-of-the-art approaches in several challenging multi-modal benchmarks: obstacle avoidance path planning and contact-rich block pushing.
翻訳日:2023-09-13 15:20:15 公開日:2023-09-11
# 文脈認識型自己監督学習によるハイパーエッジ予測の強化

Enhancing Hyperedge Prediction with Context-Aware Self-Supervised Learning ( http://arxiv.org/abs/2309.05798v1 )

ライセンス: Link先を確認
Yunyong Ko, Hanghang Tong, Sang-Wook Kim(参考訳) ハイパーグラフは自然にグループ間の関係(例えばアイテムを共同購入するユーザーのグループ)をハイパーエッジとしてモデル化することができる。 ハイパーエッジ予測は、将来または未観測のハイパーエッジを予測することであり、これは多くの現実世界のアプリケーション(例えば、グループレコメンデーション)において基本的なタスクである。 ハイパーエッジ予測手法の最近の進歩にもかかわらず、以下の課題はめったに研究されていない。 (C1) 正確なハイパーエッジ予測のために、各ハイパーエッジ候補のノードをどうやって集約するか? そして (C2) ハイパーエッジ予測におけるデータ空間の問題を軽減するには? そこで本稿では,(1)ハイパーエッジのノード間の複雑な関係を正確に把握するために文脈認識ノードアグリゲーションを用いた新しいハイパーエッジ予測フレームワーク(cash)を提案し,(2)ハイパーエッジ予測の文脈における自己教師付きコントラスト学習により(c2)のハイパーグラフ表現を強化する。 さらに, (c2) について, 潜在意味を十分に活用し, ノードレベルのコントラストとグループレベルのコントラスト(すなわち, 二重コントラスト)を考慮し, ノードとハイパーエッジの表現を改善するハイパーエッジ対応拡張法を提案する。 6つの実世界のハイパーグラフに対する大規模な実験により、CASHはハイパーエッジ予測の精度で競合する全ての手法を一貫して上回り、提案手法のそれぞれがCASHのモデル精度を向上させるのに有効であることが判明した。 CASHの詳細については、以下のコードとデータセットを提供する。

Hypergraphs can naturally model group-wise relations (e.g., a group of users who co-purchase an item) as hyperedges. Hyperedge prediction is to predict future or unobserved hyperedges, which is a fundamental task in many real-world applications (e.g., group recommendation). Despite the recent breakthrough of hyperedge prediction methods, the following challenges have been rarely studied: (C1) How to aggregate the nodes in each hyperedge candidate for accurate hyperedge prediction? and (C2) How to mitigate the inherent data sparsity problem in hyperedge prediction? To tackle both challenges together, in this paper, we propose a novel hyperedge prediction framework (CASH) that employs (1) context-aware node aggregation to precisely capture complex relations among nodes in each hyperedge for (C1) and (2) self-supervised contrastive learning in the context of hyperedge prediction to enhance hypergraph representations for (C2). Furthermore, as for (C2), we propose a hyperedge-aware augmentation method to fully exploit the latent semantics behind the original hypergraph and consider both node-level and group-level contrasts (i.e., dual contrasts) for better node and hyperedge representations. Extensive experiments on six real-world hypergraphs reveal that CASH consistently outperforms all competing methods in terms of the accuracy in hyperedge prediction and each of the proposed strategies is effective in improving the model accuracy of CASH. For the detailed information of CASH, we provide the code and datasets at: https://github.com/yy-ko/cash.
翻訳日:2023-09-13 15:19:44 公開日:2023-09-11
# 逆生成モデルの細粒度硬さについて

On the Fine-Grained Hardness of Inverting Generative Models ( http://arxiv.org/abs/2309.05795v1 )

ライセンス: Link先を確認
Feyza Duman Keles and Chinmay Hegde(参考訳) 生成モデル逆転の目的は、与えられたターゲットと密に一致する生成モデル出力を生成するサイズ=n$潜在ベクトルを特定することである。 この操作は、コンピュータビジョンとnlpを含む多くの現代的な応用におけるコア計算プリミティブである。 しかし、この問題は計算的に困難であり、最悪の場合NPハードであることが知られている。 本稿では,この問題に対する計算硬度の景観を詳細に把握することを目的とする。 厳密なモデル反転と近似モデル反転の両方に対して,いくつかの新しい硬度下界を定式化する。 正確には、目標が与えられた生成モデルの範囲内に含まれるかどうかを決定することである。 強い指数時間仮説 (SETH) の下では、正確な逆転の計算複雑性が$\Omega(2^n)$で$k$-SATから還元されることが示され、これは既知の結果の強化である。 近似逆変換のより実践的な問題に対して、モデル範囲の点が与えられた目標に近づくかどうかを$\ell_p$-norm に対して決定することが目的である。 p$ が正の奇数であるとき、SETH の下では、最も近いベクトル問題 (CVP) から還元して、$\Omega(2^n)$ の複雑性を下界とする。 最後に、$p$ が偶数であるとき、指数時間仮説 (ETH) の下では、ハーフ・クライドとバーテックス・コーバーの還元により 2^{\Omega (n)}$ の低い境界を与える。

The objective of generative model inversion is to identify a size-$n$ latent vector that produces a generative model output that closely matches a given target. This operation is a core computational primitive in numerous modern applications involving computer vision and NLP. However, the problem is known to be computationally challenging and NP-hard in the worst case. This paper aims to provide a fine-grained view of the landscape of computational hardness for this problem. We establish several new hardness lower bounds for both exact and approximate model inversion. In exact inversion, the goal is to determine whether a target is contained within the range of a given generative model. Under the strong exponential time hypothesis (SETH), we demonstrate that the computational complexity of exact inversion is lower bounded by $\Omega(2^n)$ via a reduction from $k$-SAT; this is a strengthening of known results. For the more practically relevant problem of approximate inversion, the goal is to determine whether a point in the model range is close to a given target with respect to the $\ell_p$-norm. When $p$ is a positive odd integer, under SETH, we provide an $\Omega(2^n)$ complexity lower bound via a reduction from the closest vectors problem (CVP). Finally, when $p$ is even, under the exponential time hypothesis (ETH), we provide a lower bound of $2^{\Omega (n)}$ via a reduction from Half-Clique and Vertex-Cover.
翻訳日:2023-09-13 15:19:14 公開日:2023-09-11
# PhotoVerse: テキストと画像の拡散モデルによるチューニング不要な画像カスタマイズ

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2309.05793v1 )

ライセンス: Link先を確認
Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng(参考訳) パーソナライズされたテキストから画像への生成は強力で後続のツールとして登場し、ユーザーは独自の概念やプロンプトに基づいてカスタマイズされた画像を作成することができる。 しかし、パーソナライズへの既存のアプローチは、長いチューニング時間、大きなストレージ要件、アイデンティティごとの複数の入力イメージの必要性、アイデンティティと編集性を維持するための制限など、複数の課題に直面している。 そこで本研究では,テキスト領域と画像領域の両方にデュアルブランチコンディショニング機構を取り入れ,画像生成過程を効果的に制御する斬新な手法であるphotoverseを提案する。 さらに、トレーニング中のアイデンティティの保存を高めるために、新しい要素として顔認証の喪失を導入する。 注目すべきは、提案したPhotoVerseは、テストタイムチューニングの必要性を排除し、ターゲットアイデンティティの単一の顔写真のみに依存し、画像生成に関連するリソースコストを大幅に削減する。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。 さらに,本手法は様々なシーンやスタイルを含む多様な画像を生成することができる。 この評価は,アイデンティティの保存と編集性の向上という2つの目的を達成するアプローチの優れた性能を示すものである。 プロジェクトページ: https://photoverse2d.github.io/

Personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times, large storage requirements, the necessity for multiple input images per identity, and limitations in preserving identity and editability. To address these obstacles, we present PhotoVerse, an innovative methodology that incorporates a dual-branch conditioning mechanism in both text and image domains, providing effective control over the image generation process. Furthermore, we introduce facial identity loss as a novel component to enhance the preservation of identity during training. Remarkably, our proposed PhotoVerse eliminates the need for test time tuning and relies solely on a single facial photo of the target identity, significantly reducing the resource cost associated with image generation. After a single training phase, our approach enables generating high-quality images within only a few seconds. Moreover, our method can produce diverse images that encompass various scenes and styles. The extensive evaluation demonstrates the superior performance of our approach, which achieves the dual objectives of preserving identity and facilitating editability. Project page: https://photoverse2d.github.io/
翻訳日:2023-09-13 15:18:46 公開日:2023-09-11
# 自律システムとのマルチモーダルインタラクションのための適応型ユーザ中心型ニューロシンボリック学習

Adaptive User-centered Neuro-symbolic Learning for Multimodal Interaction with Autonomous Systems ( http://arxiv.org/abs/2309.05787v1 )

ライセンス: Link先を確認
Amr Gomaa, Michael Feld(参考訳) 近年の機械学習、特にディープラーニングの進歩により、自律システムは物体とその環境を知覚的サブシンボリックな方法で認識し理解できるようになった。 これらのシステムは、オブジェクト検出、センサーデータ融合、言語理解タスクを実行することができる。 しかし、オブジェクトとその環境をより概念的で象徴的に理解するためのシステムを強化する必要性が高まっている。 人間が提供する明示的な教え(例えば、状況の説明や行動の仕方の説明など)と、人間の行動(例えば、システムのセンサーを通して)を観察して得られる暗黙的な教えの両方を、このレベルの強力な人工知能を達成するために考慮することが不可欠である。 したがって、システムは暗黙的かつ明示的な相互作用モデルをサポートするために、マルチモーダルな入力および出力機能で設計されなければならない。 本稿では、人工知能の分野を前進させ、自律的なシステムが人間のように学習できるようにするため、両方の入力タイプと、ループ内人間とインクリメンタルな学習技術について考察する。 この目的を達成するために,いくつかの仮説と設計ガイドラインを提案し,関連する作業のユースケースを強調する。

Recent advances in machine learning, particularly deep learning, have enabled autonomous systems to perceive and comprehend objects and their environments in a perceptual subsymbolic manner. These systems can now perform object detection, sensor data fusion, and language understanding tasks. However, there is a growing need to enhance these systems to understand objects and their environments more conceptually and symbolically. It is essential to consider both the explicit teaching provided by humans (e.g., describing a situation or explaining how to act) and the implicit teaching obtained by observing human behavior (e.g., through the system's sensors) to achieve this level of powerful artificial intelligence. Thus, the system must be designed with multimodal input and output capabilities to support implicit and explicit interaction models. In this position paper, we argue for considering both types of inputs, as well as human-in-the-loop and incremental learning techniques, for advancing the field of artificial intelligence and enabling autonomous systems to learn like humans. We propose several hypotheses and design guidelines and highlight a use case from related work to achieve this goal.
翻訳日:2023-09-13 15:18:24 公開日:2023-09-11
# インスタンス非依存幾何学と接触ダイナミクス学習

Instance-Agnostic Geometry and Contact Dynamics Learning ( http://arxiv.org/abs/2309.05832v1 )

ライセンス: Link先を確認
Mengti Sun, Bowen Jiang, Bibit Bianchini, Camillo Jose Taylor, Michael Posa(参考訳) 本稿では,視覚とダイナミクスを融合して,図形を共有表現として使用することにより,形状,軌道,物理特性を同時に学習する,インスタンスに依存しない学習フレームワークを提案する。 衝突モデルに先立つ動作キャプチャ入力と既知の形状を仮定する多くのコンタクト学習アプローチとは異なり,提案手法では,対象の幾何学的および動的特性をrgbdビデオから学習する。 本研究では,視覚システムである BundleSDF と,ダイナミックスシステムである ContactNets を統合し,ダイナミックスモジュールからの出力を利用して視覚モジュールからのポーズや幾何学を改良する循環学習パイプラインを提案する。 実験は、剛体および凸体の幾何学と力学を学習し、現在の追跡フレームワークを改善するフレームワークの能力を実証する。

This work presents an instance-agnostic learning framework that fuses vision with dynamics to simultaneously learn shape, pose trajectories and physical properties via the use of geometry as a shared representation. Unlike many contact learning approaches that assume motion capture input and a known shape prior for the collision model, our proposed framework learns an object's geometric and dynamic properties from RGBD video, without requiring either category-level or instance-level shape priors. We integrate a vision system, BundleSDF, with a dynamics system, ContactNets and propose a cyclic training pipeline to use the output from the dynamics module to refine the poses and the geometry from the vision module, using perspective reprojection. Experiments demonstrate our framework's ability to learn the geometry and dynamics of rigid and convex objects and improve upon the current tracking framework.
翻訳日:2023-09-13 15:12:13 公開日:2023-09-11
# 職場安全のためのウェアラブルセンサを用いた実世界の問題解決におけるラボリフトデータに基づく機械学習モデルの精度の検討

Studying Accuracy of Machine Learning Models Trained on Lab Lifting Data in Solving Real-World Problems Using Wearable Sensors for Workplace Safety ( http://arxiv.org/abs/2309.05831v1 )

ライセンス: Link先を確認
Joseph Bertrand, Nick Griffey, Ming-Lun Lu, Rashmi Jha(参考訳) 実験データに基づいてトレーニングされたMLモデルを現実の状況に移植することは、長い間困難だった。 本稿では,実験室で訓練されたリフト識別モデルを現実世界に移植することについて議論する。 トレーニングデータよりもパフォーマンスがはるかに低いため,失敗の原因を探究し,モデル性能を向上させるための4つの潜在的解決策を提案した。

Porting ML models trained on lab data to real-world situations has long been a challenge. This paper discusses porting a lab-trained lifting identification model to the real-world. With performance much lower than on training data, we explored causes of the failure and proposed four potential solutions to increase model performance
翻訳日:2023-09-13 15:11:57 公開日:2023-09-11
# モバイルビジョン変換器を用いた視覚物体追跡

Mobile Vision Transformer-based Visual Object Tracking ( http://arxiv.org/abs/2309.05829v1 )

ライセンス: Link先を確認
Goutam Yelluru Gopal, Maria A. Amer(参考訳) 近年、ビジョントランスフォーマーのような堅牢なバックボーンの導入により、オブジェクト追跡アルゴリズムの性能が改善されている。 しかし、これらの最先端トラッカーは、多くのモデルパラメータを持ち、高速な推論のために特別なハードウェア(GPUなど)に依存しているため、計算コストが高い。 一方、最近の軽量トラッカーは高速であるが、特に大規模データセットでは精度が低い。 本稿では,Mobile Vision Transformers (MobileViT) をバックボーンとして,軽量かつ高精度かつ高速なトラッキングアルゴリズムを提案する。 また,mobilevitバックボーンにおけるテンプレート表現と検索領域表現を融合することにより,ターゲットローカライズに優れた特徴エンコーディングを実現する新しい手法を提案する。 実験の結果,MobileViT ベースのトラッカー MVT は,大規模データセット GOT10k と TrackingNet 上での最近の軽量トラッカーの性能を上回り,推論速度が高いことがわかった。 さらに、モデルパラメータが4.7倍少なく、GPUの2.8倍の速度で動作するにもかかわらず、DMP-50トラッカーよりも優れています。 トラッカーコードとモデルはhttps://github.com/goutamyg/mvtで入手できる。

The introduction of robust backbones, such as Vision Transformers, has improved the performance of object tracking algorithms in recent years. However, these state-of-the-art trackers are computationally expensive since they have a large number of model parameters and rely on specialized hardware (e.g., GPU) for faster inference. On the other hand, recent lightweight trackers are fast but are less accurate, especially on large-scale datasets. We propose a lightweight, accurate, and fast tracking algorithm using Mobile Vision Transformers (MobileViT) as the backbone for the first time. We also present a novel approach of fusing the template and search region representations in the MobileViT backbone, thereby generating superior feature encoding for target localization. The experimental results show that our MobileViT-based Tracker, MVT, surpasses the performance of recent lightweight trackers on the large-scale datasets GOT10k and TrackingNet, and with a high inference speed. In addition, our method outperforms the popular DiMP-50 tracker despite having 4.7 times fewer model parameters and running at 2.8 times its speed on a GPU. The tracker code and models are available at https://github.com/goutamyg/MVT
翻訳日:2023-09-13 15:11:50 公開日:2023-09-11
# 降雨予報のための幾何学的深層学習の探索

Exploring Geometric Deep Learning For Precipitation Nowcasting ( http://arxiv.org/abs/2309.05828v1 )

ライセンス: Link先を確認
Shan Zhao, Sudipan Saha, Zhitong Xiong, Niklas Boers, Xiao Xiang Zhu(参考訳) 降水開始時(数時間)は、非常に複雑な局所的な相互作用を正確に捉える必要があるため、依然として困難である。 畳み込みニューラルネットワークは、グリッドデータと畳み込みを持つ畳み込みカーネルに依存しており、抽出された特徴は限られた受容フィールドによって捕捉される。 したがって、グリッド間の複雑な空間関係をモデル化する能力は欠如している。 幾何学的ディープラーニングは、ニューラルネットワークモデルを非ユークリッド領域に一般化することを目的としている。 このようなモデルはノードやエッジを定義する際に柔軟であり、地理的グリッド間の動的空間関係を効果的に捉えることができる。 そこで我々は,降水量予測のための幾何学的深層学習に基づく時間的グラフ畳み込みネットワーク(GCN)を提案する。 トレーニング手順中に、予測と接地真理画素値とのL1損失を最小化することにより、グリッドセル間の相互作用をシミュレートする隣接行列を自動的に学習する。 そして、各カーネル長の1次元畳み込みにより時間情報を抽出しながら、空間関係をGCN層で洗練する。 隣接情報を補助入力層として供給して最終結果を改善する。 我々はtrento/italy領域におけるレーダ反射率マップのシーケンス上でモデルをテストした。 以上の結果から,GCNはクラウドプロファイルの局所的な詳細をモデル化し,誤差の低減による予測精度の向上を図っている。

Precipitation nowcasting (up to a few hours) remains a challenge due to the highly complex local interactions that need to be captured accurately. Convolutional Neural Networks rely on convolutional kernels convolving with grid data and the extracted features are trapped by limited receptive field, typically expressed in excessively smooth output compared to ground truth. Thus they lack the capacity to model complex spatial relationships among the grids. Geometric deep learning aims to generalize neural network models to non-Euclidean domains. Such models are more flexible in defining nodes and edges and can effectively capture dynamic spatial relationship among geographical grids. Motivated by this, we explore a geometric deep learning-based temporal Graph Convolutional Network (GCN) for precipitation nowcasting. The adjacency matrix that simulates the interactions among grid cells is learned automatically by minimizing the L1 loss between prediction and ground truth pixel value during the training procedure. Then, the spatial relationship is refined by GCN layers while the temporal information is extracted by 1D convolution with various kernel lengths. The neighboring information is fed as auxiliary input layers to improve the final result. We test the model on sequences of radar reflectivity maps over the Trento/Italy area. The results show that GCNs improves the effectiveness of modeling the local details of the cloud profile as well as the prediction accuracy by achieving decreased error measures.
翻訳日:2023-09-13 15:11:29 公開日:2023-09-11
# KD-FixMatch:知識蒸留シームスニューラルネットワーク

KD-FixMatch: Knowledge Distillation Siamese Neural Networks ( http://arxiv.org/abs/2309.05826v1 )

ライセンス: Link先を確認
Chien-Chih Wang, Shaoyuan Xu, Jinmiao Fu, Yang Liu, Bryan Wang(参考訳) 限定ラベル付きデータの課題に対処する手段として,半教師付き学習(SSL)は,ディープラーニングにおいて重要なアプローチとなっている。 ディープニューラルネットワークの成功は、大規模な高品質ラベル付きデータの可用性に大きく依存している。 しかし、データラベリングのプロセスは時間がかかり、スケーラブルであり、ラベル付きデータの不足に繋がる。 SSLは、トレーニングプロセスで追加のラベルのないデータを活用することで、この問題に対処することを目指している。 一般的なSSLアルゴリズムのひとつであるFixMatchは、シアムニューラルネットワーク(SNN)を使用して、同じ重量共有教師と学生ネットワークを同時に訓練する。 しかし、初期のトレーニング段階で擬似ラベルが騒々しい場合、性能劣化が生じる傾向にある。 我々は知識蒸留を取り入れてFixMatchの限界に対処する新しいSSLアルゴリズムKD-FixMatchを提案する。 このアルゴリズムは,SNNの逐次訓練と同時訓練を組み合わせて,性能の向上と性能劣化の低減を図る。 まず、ラベル付きおよびラベルなしのデータを使用して外部SNNを訓練する。 その後、よく訓練された外部SNNのネットワークは、信頼された疑似ラベル付き未ラベルデータのサブセットを高信頼サンプリングと深層埋め込みクラスタリングにより慎重に作成する未ラベルデータの擬似ラベルを生成する。 最後に、内部SNNは、ラベル付きデータ、ラベルなしデータ、およびラベルなしデータのサブセットを信頼された疑似ラベルで訓練する。 4つの公開データセットの実験では、すべてのケースでKD-FixMatchがFixMatchを上回っている。 以上の結果から,KD-FixMatchはFixMatchよりも訓練開始点が良く,モデル性能が向上していることがわかった。

Semi-supervised learning (SSL) has become a crucial approach in deep learning as a way to address the challenge of limited labeled data. The success of deep neural networks heavily relies on the availability of large-scale high-quality labeled data. However, the process of data labeling is time-consuming and unscalable, leading to shortages in labeled data. SSL aims to tackle this problem by leveraging additional unlabeled data in the training process. One of the popular SSL algorithms, FixMatch, trains identical weight-sharing teacher and student networks simultaneously using a siamese neural network (SNN). However, it is prone to performance degradation when the pseudo labels are heavily noisy in the early training stage. We present KD-FixMatch, a novel SSL algorithm that addresses the limitations of FixMatch by incorporating knowledge distillation. The algorithm utilizes a combination of sequential and simultaneous training of SNNs to enhance performance and reduce performance degradation. Firstly, an outer SNN is trained using labeled and unlabeled data. After that, the network of the well-trained outer SNN generates pseudo labels for the unlabeled data, from which a subset of unlabeled data with trusted pseudo labels is then carefully created through high-confidence sampling and deep embedding clustering. Finally, an inner SNN is trained with the labeled data, the unlabeled data, and the subset of unlabeled data with trusted pseudo labels. Experiments on four public data sets demonstrate that KD-FixMatch outperforms FixMatch in all cases. Our results indicate that KD-FixMatch has a better training starting point that leads to improved model performance compared to FixMatch.
翻訳日:2023-09-13 15:11:07 公開日:2023-09-11
# ボソニック・キタエフ・メジャーナ鎖の光力学的実現

Optomechanical realization of the bosonic Kitaev-Majorana chain ( http://arxiv.org/abs/2309.05825v1 )

ライセンス: Link先を確認
Jesse J. Slim, Clara C. Wanjura, Matteo Brunelli, Javier del Pino, Andreas Nunnenkamp, and Ewold Verhagen(参考訳) フェルミオンキタエフ鎖は、位相マヨラナゼロモードを特徴とする標準モデルである。 ナノオプトメカニカルネットワークにおけるボソニックアナログの実験的実現を報告し, パラメトリック相互作用により, ナノメカニカルモード間の2モードスキューズおよびビームスプリッタ結合が誘導され, それぞれフェルミオンの場合のホッピングと超伝導ペアリングに相当する。 ボソニックダイナミクスと輸送において,二次依存的カイラル増幅,システムサイズによるゲインの指数関数的スケーリング,境界条件に対する強い感度など,いくつかの異常現象を観測した。 相互作用相と振幅の制御は、観測された現象と非エルミート位相遷移を結びつけるリッチな動的位相図を明らかにする。 最後に,非エルミート位相の結果,小さな摂動に対する指数関数的に強化された応答を実験的に実証する。 これらの結果は、ボソニックダイナミクスがフェルミイオン平行性を持たない新規な物質の合成相の実証を示し、非エルミトトポロジーとその信号操作およびセンシングへの応用を研究する強力なシステムを確立する。

The fermionic Kitaev chain is a canonical model featuring topological Majorana zero modes. We report the experimental realization of its bosonic analogue in a nano-optomechanical network where parametric interactions induce two-mode squeezing and beamsplitter coupling among the nanomechanical modes, equivalent to hopping and superconductor pairing in the fermionic case, respectively. We observe several extraordinary phenomena in the bosonic dynamics and transport, including quadrature-dependent chiral amplification, exponential scaling of the gain with system size, and strong sensitivity to boundary conditions. Controlling the interaction phases and amplitudes uncovers a rich dynamical phase diagram that links the observed phenomena to non-Hermitian topological phase transitions. Finally, we present an experimental demonstration of an exponentially enhanced response to a small perturbation as a consequence of non-Hermitian topology. These results represent the demonstration of a novel synthetic phase of matter whose bosonic dynamics do not have fermionic parallels, and establish a powerful system to study non-Hermitian topology and its applications in signal manipulation and sensing.
翻訳日:2023-09-13 15:10:40 公開日:2023-09-11
# 現代自己最適化システムのためのアンサンブルに基づくモデリング抽象化

Ensemble-based modeling abstractions for modern self-optimizing systems ( http://arxiv.org/abs/2309.05823v1 )

ライセンス: Link先を確認
Michal T\"opfer, Milad Abdullah, Tom\'a\v{s} Bure\v{s}, Petr Hn\v{e}tynka, Martin Kruli\v{s}(参考訳) 本稿では,我々のアンサンブルに基づくコンポーネントモデルDEECoを拡張し,自律的コンポーネントアンサンブルの確立と再構成において機械学習と最適化ヒューリスティックスを活用する。 我々は、これらの概念をモデルレベルで捉える方法を示し、そのようなモデルが業界4.0の設定におけるアクセス制御関連の問題をモデリングするのにどのように役立つかを示す。 機械学習と最適化のヒューリスティックスの導入は、時間とともに学習し、実行時の動作を最適化し、環境の不確実性に対処する、現代のスマートシステムにとって重要な機能であると主張する。

In this paper, we extend our ensemble-based component model DEECo with the capability to use machine-learning and optimization heuristics in establishing and reconfiguration of autonomic component ensembles. We show how to capture these concepts on the model level and give an example of how such a model can be beneficially used for modeling access-control related problem in the Industry 4.0 settings. We argue that incorporating machine-learning and optimization heuristics is a key feature for modern smart systems which are to learn over the time and optimize their behavior at runtime to deal with uncertainty in their environment.
翻訳日:2023-09-13 15:10:18 公開日:2023-09-11
# 高真空中における浮遊ダイヤモンドの量子制御と高速回転

Quantum control and fast rotation of levitated diamonds in high vacuum ( http://arxiv.org/abs/2309.05821v1 )

ライセンス: Link先を確認
Yuanbin Jin, Kunhong Shen, Peng Ju, Xingyu Gao, Chong Zu, Alejandro J. Grine, Tongcang Li(参考訳) 内部スピン量子ビットを持つ高真空中の浮遊ダイヤモンド粒子は、マクロ量子力学、量子重力、精密測定を探求するために提案されている。 スピンと粒子の回転のカップリングは、量子幾何位相の研究、ジャイロスコープと回転物質波干渉計の作成に利用できる。 しかし、浮遊ダイヤモンドの以前の取り組みは真空レベルやスピン状態の読み出しに苦しんだ。 また、浮遊ダイヤモンドの高速回転も報告されていない。 これらのギャップに対処するため、複数の安定化電極を持つ一体型表面イオントラップを作製する。 これによりオンチップ浮揚が容易になり、高真空で浮遊したナノダイアモンドの磁気共鳴測定が初めて光学的に検出される。 浮遊ナノダイヤモンドの内部温度は10^{-5}$ torr以下である。 印象的なことに、我々はナノダイアモンドを20MHz (1.2 \times 10^{9}$ rpm)まで回転させ、窒素空孔(NV)中心電子スピンの脱落速度を超えた。 これらのNVスピンを用いて、粒子回転による擬似磁場を観測する。 さらに、回転するナノダイヤモンドにおけるスピンの量子コヒーレント制御を実証する。 これらの結果は、スピン量子ビットと機械回転の相互作用において重要な発展を示し、量子現象の研究能力を拡大している。

Levitated diamond particles in high vacuum with internal spin qubits have been proposed for exploring macroscopic quantum mechanics, quantum gravity, and precision measurements. The coupling between spins and particle rotation can be utilized to study quantum geometric phase, create gyroscopes and rotational matter-wave interferometers. However, previous efforts in levitated diamonds struggled with vacuum level or spin state readouts. In addition, fast rotation of a levitated diamond has not been reported. To address these gaps, we fabricate an integrated surface ion trap with multiple stabilization electrodes. This facilitates on-chip levitation and, for the first time, optically detected magnetic resonance measurements of a nanodiamond levitated in high vacuum. The internal temperature of our levitated nanodiamond remains moderate below $10^{-5}$ Torr. Impressively, we have driven a nanodiamond to rotate up to 20 MHz ($1.2 \times 10^{9}$ rpm), surpassing nitrogen-vacancy (NV) center electron spin dephasing rates. Using these NV spins, we observe the pseudo-magnetic field arising from particle rotation. In addition, we demonstrate quantum coherent control of spins in a rotating nanodiamond. These results mark an important development in interfacing mechanical rotation with spin qubits, expanding our capacity to study quantum phenomena.
翻訳日:2023-09-13 15:10:08 公開日:2023-09-11
# 深層畳み込みニューラルネットワークとマルチスペクトルイメージングを用いたイネ病の検出と診断

Rice Plant Disease Detection and Diagnosis using Deep Convolutional Neural Networks and Multispectral Imaging ( http://arxiv.org/abs/2309.05818v1 )

ライセンス: Link先を確認
Yara Ali Alnaggar, Ahmad Sebaq, Karim Amer, ElSayed Naeem, Mohamed Elhelw(参考訳) 米はエジプト国民の食事で定期的に消費されるため、エジプトの戦略的作物と考えられている。 エジプトはアフリカ最大の米生産国であり、年間600万トンが生産されているが、特に米病による生産損失により、その地域需要を満たすために米を輸入している。 米の発芽病は世界の米生産の30%の損失の原因である。 そのため、稲の病害を早期に検出することで、収量被害の抑制を目標とすることが重要である。 本稿では,マルチスペクトルおよびRGB画像データセットとマルチモーダルデータを用いた水稲病検出のためのディープラーニングパイプラインを提案する。 収集したマルチスペクトル画像は赤,緑,近赤外チャネルで構成され,RGBチャネルを入力アーカイブとして使用する場合,RGB入力のみを使用する場合と比較して高いF1精度を示す。

Rice is considered a strategic crop in Egypt as it is regularly consumed in the Egyptian people's diet. Even though Egypt is the highest rice producer in Africa with a share of 6 million tons per year, it still imports rice to satisfy its local needs due to production loss, especially due to rice disease. Rice blast disease is responsible for 30% loss in rice production worldwide. Therefore, it is crucial to target limiting yield damage by detecting rice crops diseases in its early stages. This paper introduces a public multispectral and RGB images dataset and a deep learning pipeline for rice plant disease detection using multi-modal data. The collected multispectral images consist of Red, Green and Near-Infrared channels and we show that using multispectral along with RGB channels as input archives a higher F1 accuracy compared to using RGB input only.
翻訳日:2023-09-13 15:09:46 公開日:2023-09-11
# マルチスケールシステムにおける有効力学の解釈型学習

Interpretable learning of effective dynamics for multiscale systems ( http://arxiv.org/abs/2309.05812v1 )

ライセンス: Link先を確認
Emmanuel Menier, Sebastian Kaltenbach, Mouadh Yagoubi, Marc Schoenauer, Petros Koumoutsakos(参考訳) 高次元マルチスケールシステムのモデリングとシミュレーションは、科学と工学のあらゆる分野において重要な課題である。 今日のコンピュータが進歩しても、支配方程式によって記述される時空間スケールの解決は依然として遠隔の標的であると広く信じられている。 この実現により、モデルオーダー削減技術の開発が盛んに進められている。 近年、ディープ・リカレント・ニューラル・ネットワークに基づく手法は、複雑な時空間系のモデリングとシミュレーションに有望な結果をもたらし、実験および計算データを組み込むことが可能なモデル開発において大きな柔軟性を提供する。 しかし、ニューラルネットワークには解釈性が欠けており、複雑なシステム間の有用性と一般化性が制限されている。 本稿では,最先端のリカレントニューラルネットワークアプローチに匹敵する精度を提供しつつ,解釈可能性の付加的なメリットを提供する,解釈可能な学習効率ダイナミクス(iled)の新たなフレームワークを提案する。 iLED フレームワークは、特定のアーキテクチャの選択を正当化する Mori-Zwanzig と Koopman 作用素理論によって動機付けられている。 3つのベンチマークマルチスケールシステムのシミュレーションにおいて,提案手法の有効性を示す。 その結果, iledフレームワークは正確な予測を生成し, 解釈可能なダイナミクスを得ることができ, 高次元多スケールシステムに対する有望なアプローチであることがわかった。

The modeling and simulation of high-dimensional multiscale systems is a critical challenge across all areas of science and engineering. It is broadly believed that even with today's computer advances resolving all spatiotemporal scales described by the governing equations remains a remote target. This realization has prompted intense efforts to develop model order reduction techniques. In recent years, techniques based on deep recurrent neural networks have produced promising results for the modeling and simulation of complex spatiotemporal systems and offer large flexibility in model development as they can incorporate experimental and computational data. However, neural networks lack interpretability, which limits their utility and generalizability across complex systems. Here we propose a novel framework of Interpretable Learning Effective Dynamics (iLED) that offers comparable accuracy to state-of-the-art recurrent neural network-based approaches while providing the added benefit of interpretability. The iLED framework is motivated by Mori-Zwanzig and Koopman operator theory, which justifies the choice of the specific architecture. We demonstrate the effectiveness of the proposed framework in simulations of three benchmark multiscale systems. Our results show that the iLED framework can generate accurate predictions and obtain interpretable dynamics, making it a promising approach for solving high-dimensional multiscale systems.
翻訳日:2023-09-13 15:09:30 公開日:2023-09-11
# RadiomicsがIPMN分類のためのディープラーニングモデルを強化

Radiomics Boosts Deep Learning Model for IPMN Classification ( http://arxiv.org/abs/2309.05857v1 )

ライセンス: Link先を確認
Lanhong Yao, Zheyuan Zhang, Ugur Demir, Elif Keles, Camila Vendrami, Emil Agarunov, Candice Bolan, Ivo Schoots, Marc Bruno, Rajesh Keswani, Frank Miller, Tamas Gonda, Cemal Yazici, Temel Tirkes, Michael Wallace, Concetto Spampinato, Ulas Bagci(参考訳) 膵管内乳頭粘液性腫瘍 (IPMN) の嚢胞は術前膵管病変であり,膵癌に進展する可能性がある。 したがって, リスクレベルの検出と階層化は, 効果的な治療計画と疾患管理にとって極めて重要である。 しかし,IPMN嚢胞と膵臓の多様で不規則な形状,食感,大きさから,これは極めて困難な課題である。 本研究では,マルチコントラストMRIスキャンからIPMNリスク分類のための新しいコンピュータ支援診断パイプラインを提案する。 提案する分析フレームワークは, 膵臓のデライン化のための効率的な容積自己適応セグメンテーション戦略と, ラジオミクスに基づく予測手法を用いた深層学習に基づく分類手法を含む。 提案手法を246個のマルチコントラストMRIスキャンのマルチセンター・データセットで検証し,本分野の最先端技術(SOTA)に優れた性能を示す。 我々のアブレーション研究は,新しいSOTA性能を達成するための放射能と深層学習モジュールの重要性を国際ガイドラインと比較し,公表された研究(精度81.9\%対61.3\%)と比較した。 臨床的意思決定には重要な意味がある。 マルチセンターデータセット(5つのセンターから246個のMRIスキャン)の厳密な実験では、前例のない性能(81.9%の精度)を達成した。

Intraductal Papillary Mucinous Neoplasm (IPMN) cysts are pre-malignant pancreas lesions, and they can progress into pancreatic cancer. Therefore, detecting and stratifying their risk level is of ultimate importance for effective treatment planning and disease control. However, this is a highly challenging task because of the diverse and irregular shape, texture, and size of the IPMN cysts as well as the pancreas. In this study, we propose a novel computer-aided diagnosis pipeline for IPMN risk classification from multi-contrast MRI scans. Our proposed analysis framework includes an efficient volumetric self-adapting segmentation strategy for pancreas delineation, followed by a newly designed deep learning-based classification scheme with a radiomics-based predictive approach. We test our proposed decision-fusion model in multi-center data sets of 246 multi-contrast MRI scans and obtain superior performance to the state of the art (SOTA) in this field. Our ablation studies demonstrate the significance of both radiomics and deep learning modules for achieving the new SOTA performance compared to international guidelines and published studies (81.9\% vs 61.3\% in accuracy). Our findings have important implications for clinical decision-making. In a series of rigorous experiments on multi-center data sets (246 MRI scans from five centers), we achieved unprecedented performance (81.9\% accuracy).
翻訳日:2023-09-13 15:01:20 公開日:2023-09-11
# ランダムフィルタバンクのエネルギー保存と安定性

Energy Preservation and Stability of Random Filterbanks ( http://arxiv.org/abs/2309.05855v1 )

ライセンス: Link先を確認
Daniel Haider, Vincent Lostanlen, Martin Ehler, Peter Balazs(参考訳) 波形ベースのディープラーニングがなぜ難しいのか? フィルタバンク設計のための畳み込みニューラルネットワーク (convnets) を訓練する試みは数多くあるが、手作りのベースラインを上回りしないことが多い。 これらのベースラインは線形時間不変システムであるため、これはさらに驚くべきことだ。つまり、それらの伝達関数は、大きな受容体を持つ凸体によって正確に表現できる。 本稿では,ランダム畳み込み作用素の数学的観点から,単純凸の統計的性質について詳述する。 ランダムなガウス重みを持つfirフィルタバンクは、大きなフィルタや局所的な周期的な入力信号には不適当であり、どちらもオーディオ信号処理アプリケーションで典型的である。 さらに, ランダムフィルタバンクの期待エネルギー保存は数値安定性には不十分であり, 予測フレーム境界の理論的境界を導出する。

What makes waveform-based deep learning so hard? Despite numerous attempts at training convolutional neural networks (convnets) for filterbank design, they often fail to outperform hand-crafted baselines. This is all the more surprising because these baselines are linear time-invariant systems: as such, their transfer functions could be accurately represented by a convnet with a large receptive field. In this article, we elaborate on the statistical properties of simple convnets from the mathematical perspective of random convolutional operators. We find that FIR filterbanks with random Gaussian weights are ill-conditioned for large filters and locally periodic input signals, which both are typical in audio signal processing applications. Furthermore, we observe that expected energy preservation of a random filterbank is not sufficient for numerical stability and derive theoretical bounds for its expected frame bounds.
翻訳日:2023-09-13 15:00:57 公開日:2023-09-11
# ChemSpaceal:タンパク質特異的分子生成に適用した効率的な能動的学習手法

ChemSpaceAL: An Efficient Active Learning Methodology Applied to Protein-Specific Molecular Generation ( http://arxiv.org/abs/2309.05853v1 )

ライセンス: Link先を確認
Gregory W. Kyro, Anton Morgunov, Rafael I. Brent, Victor S. Batista(参考訳) 生成する人工知能モデルの驚くべき能力は、必然的に薬物発見の分野への応用に繋がった。 したがって、これらの強力なツールの能力と適用性を高める方法論を開発することは、非常に興味深いことである。 本稿では,サンプル空間の構成表現内で戦略的に動作することにより,目的関数に対する生成モデルの微調整を可能にする,新規で効率的な半教師付きアクティブラーニング手法を提案する。 標的分子発生の文脈において、化学空間プロキシ内で戦略的に動作することにより、gptベースの分子発生器とタンパク質標的との魅力的な相互作用を最大化することにより、魅力的な相互作用に基づくスコアリング機能とを微調整する能力を示す。 重要なことは、我々の手法は微調整に使用されるすべてのデータポイントを個別に評価する必要がなく、計算に高価なメトリクスを組み込むことが可能である。 我々は、この方法論の本質的な一般化が、このエキサイティングな分野が発展するにつれて適用され続けることを確実にすることを期待している。 実装と再現性を容易にするため、私たちはChemSpaceAL Pythonパッケージを通じてすべてのソフトウェアを利用可能にしました。

The incredible capabilities of generative artificial intelligence models have inevitably led to their application in the domain of drug discovery. It is therefore of tremendous interest to develop methodologies that enhance the abilities and applicability of these powerful tools. In this work, we present a novel and efficient semi-supervised active learning methodology that allows for the fine-tuning of a generative model with respect to an objective function by strategically operating within a constructed representation of the sample space. In the context of targeted molecular generation, we demonstrate the ability to fine-tune a GPT-based molecular generator with respect to an attractive interaction-based scoring function by strategically operating within a chemical space proxy, thereby maximizing attractive interactions between the generated molecules and a protein target. Importantly, our approach does not require the individual evaluation of all data points that are used for fine-tuning, enabling the incorporation of computationally expensive metrics. We are hopeful that the inherent generality of this methodology ensures that it will remain applicable as this exciting field evolves. To facilitate implementation and reproducibility, we have made all of our software available through the open-source ChemSpaceAL Python package.
翻訳日:2023-09-13 15:00:42 公開日:2023-09-11
# 多変量時系列医療データによる効果的な異常活動検出

Effective Abnormal Activity Detection on Multivariate Time Series Healthcare Data ( http://arxiv.org/abs/2309.05845v1 )

ライセンス: Link先を確認
Mengjia Niu, Yuchen Zhao, Hamed Haddadi(参考訳) 複数のセンサから収集された多変量時系列(mts)データは、スマート医療シナリオにおける正確な異常アクティビティ検出の可能性を提供する。 しかし、異常は多様なパターンを示し、mtsデータでは目立たない。 したがって,時系列の時間依存性と変数間の相互関係を捉える必要があるため,正確な異常検出を実現することは困難である。 この問題に対処するために、効率的な表現学習と異常行動検出のための残留型異常検出手法Rs-ADを提案する。 本手法を実世界の歩行データセット上で評価し,実験結果からF1スコアが0.839であることを示す。

Multivariate time series (MTS) data collected from multiple sensors provide the potential for accurate abnormal activity detection in smart healthcare scenarios. However, anomalies exhibit diverse patterns and become unnoticeable in MTS data. Consequently, achieving accurate anomaly detection is challenging since we have to capture both temporal dependencies of time series and inter-relationships among variables. To address this problem, we propose a Residual-based Anomaly Detection approach, Rs-AD, for effective representation learning and abnormal activity detection. We evaluate our scheme on a real-world gait dataset and the experimental results demonstrate an F1 score of 0.839.
翻訳日:2023-09-13 15:00:20 公開日:2023-09-11
# 健康関連音響信号のコントラスト学習のためのオーディオ拡張の最適化

Optimizing Audio Augmentations for Contrastive Learning of Health-Related Acoustic Signals ( http://arxiv.org/abs/2309.05843v1 )

ライセンス: Link先を確認
Louis Blankemeier, Sebastien Baur, Wei-Hung Weng, Jake Garrison, Yossi Matias, Shruthi Prabhakara, Diego Ardila, Zaid Nabulsi(参考訳) くさびや呼吸音などの健康関連音響信号は、医療診断や継続的な健康モニタリングに関係している。 ヘルスアコースティックスのための既存の機械学習アプローチのほとんどは、特定のタスクに基づいてトレーニングされ、評価され、様々な医療応用における一般化性を制限する。 本稿では,Slowfast NFNetバックボーンを用いた自己教師型学習フレームワークSimCLRを用いて,健康音響の対比学習を行う。 このアプリケーションのためにSlowfast NFNetを最適化する重要な側面は、効果的なオーディオ拡張を特定することである。 各種オーディオ拡張戦略の詳細な分析を行い、適切な拡張戦略により、様々な健康音響タスクにおいて、Slowfast NFNetオーディオエンコーダの性能が向上することを示す。 以上の結果から,増分法を併用すると,それぞれが個別に適用された場合のメリットを超える相乗効果が生じることが明らかとなった。

Health-related acoustic signals, such as cough and breathing sounds, are relevant for medical diagnosis and continuous health monitoring. Most existing machine learning approaches for health acoustics are trained and evaluated on specific tasks, limiting their generalizability across various healthcare applications. In this paper, we leverage a self-supervised learning framework, SimCLR with a Slowfast NFNet backbone, for contrastive learning of health acoustics. A crucial aspect of optimizing Slowfast NFNet for this application lies in identifying effective audio augmentations. We conduct an in-depth analysis of various audio augmentation strategies and demonstrate that an appropriate augmentation strategy enhances the performance of the Slowfast NFNet audio encoder across a diverse set of health acoustic tasks. Our findings reveal that when augmentations are combined, they can produce synergistic effects that exceed the benefits seen when each is applied individually.
翻訳日:2023-09-13 15:00:11 公開日:2023-09-11
# 短時間リモートセンシング画像セマンティクスセグメンテーションのための自己相関と相互相関学習

Self-Correlation and Cross-Correlation Learning for Few-Shot Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2309.05840v1 )

ライセンス: Link先を確認
Linhan Wang, Shuo Lei, Jianfeng He, Shengkun Wang, Min Zhang, Chang-Tien Lu(参考訳) リモートセンシング画像セマンティクスセグメンテーションは、リモートセンシング画像解釈の重要な問題である。 目覚ましい進歩を遂げたものの、既存のディープニューラルネットワーク手法は大規模なトレーニングデータに依存している。 少数のリモートセンシング セマンティクスセグメンテーションは、ターゲットクラスの注釈付きサポートイメージのみを使用して、クエリ画像からターゲットオブジェクトをセグメンテーションすることを目的としている。 既存の少数ショット学習手法の多くは、主に支援画像から情報を取り出すことに集中しており、地理的物体の外観や規模に大きなばらつきを効果的に解決できない。 これらの課題に対処するために,数発のリモートセンシング画像セマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。 本モデルは,セグメンテーション予測を行うために,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進する。 問合せ画像との自己相関を更に探求するため,画像の基本的視覚情報に基づいて,クラス非依存のセグメンテーションマスクを作成するための古典スペクトル法を提案する。 2つのリモートセンシング画像データセットに関する広範囲な実験により、短時間リモートセンシング画像セマンティクスセグメンテーションにおけるモデルの有効性と優位性が証明された。 コードとモデルはhttps://github.com/linhanwang/sccneでアクセスできる。

Remote sensing image semantic segmentation is an important problem for remote sensing image interpretation. Although remarkable progress has been achieved, existing deep neural network methods suffer from the reliance on massive training data. Few-shot remote sensing semantic segmentation aims at learning to segment target objects from a query image using only a few annotated support images of the target class. Most existing few-shot learning methods stem primarily from their sole focus on extracting information from support images, thereby failing to effectively address the large variance in appearance and scales of geographic objects. To tackle these challenges, we propose a Self-Correlation and Cross-Correlation Learning Network for the few-shot remote sensing image semantic segmentation. Our model enhances the generalization by considering both self-correlation and cross-correlation between support and query images to make segmentation predictions. To further explore the self-correlation with the query image, we propose to adopt a classical spectral method to produce a class-agnostic segmentation mask based on the basic visual information of the image. Extensive experiments on two remote sensing image datasets demonstrate the effectiveness and superiority of our model in few-shot remote sensing image semantic segmentation. Code and models will be accessed at https://github.com/linhanwang/SCCNe.
翻訳日:2023-09-13 14:59:53 公開日:2023-09-11
# ポアソン回帰と専門家の混合のためのLiu型収縮推定器 : 心臓疾患研究

Liu-type Shrinkage Estimators for Mixture of Poisson Regressions with Experts: A Heart Disease Study ( http://arxiv.org/abs/2309.05838v1 )

ライセンス: Link先を確認
Elsayed Ghanem, Moein Yoosefi and Armin Hatefi(参考訳) カウントデータは心臓病などの医学研究において重要な役割を担っている。 ポアソン回帰モデル(Poisson regression model)は、一組の共変数がカウント応答に与える影響を評価する一般的な手法である。 ポアソン回帰モデルと専門家との混合は、共変量を利用するための実用的なツールであり、ポアソン回帰の多様性を扱うだけでなく、集団の混合構造を学ぶためにも用いられる。 多重線型性は回帰モデルにおける最も一般的な課題の1つであり、ポアソン回帰成分とエキスパートクラスの不条件設計行列をもたらす。 最大極大法は、多重線型性における共変量の影響について、信頼できない、誤解を招く推定を導出する。 本研究では,ポアソン回帰モデルと専門家との混合による不条件設計行列に対処する2つの縮小手法としてリッジ法とリュー法を開発した。 様々な数値的な研究を通して, 収縮法はML法の分類性能を維持しつつ, 混合モデルの係数をより信頼性の高い推定値を提供することを示した。 収縮法は最終的に心臓病の病期を解析するために心臓研究に適用される。

Count data play a critical role in medical research, such as heart disease. The Poisson regression model is a common technique for evaluating the impact of a set of covariates on the count responses. The mixture of Poisson regression models with experts is a practical tool to exploit the covariates, not only to handle the heterogeneity in the Poisson regressions but also to learn the mixing structure of the population. Multicollinearity is one of the most common challenges with regression models, leading to ill-conditioned design matrices of Poisson regression components and expert classes. The maximum likelihood method produces unreliable and misleading estimates for the effects of the covariates in multicollinearity. In this research, we develop Ridge and Liu-type methods as two shrinkage approaches to cope with the ill-conditioned design matrices of the mixture of Poisson regression models with experts. Through various numerical studies, we demonstrate that the shrinkage methods offer more reliable estimates for the coefficients of the mixture model in multicollinearity while maintaining the classification performance of the ML method. The shrinkage methods are finally applied to a heart study to analyze the heart disease rate stages.
翻訳日:2023-09-13 14:59:32 公開日:2023-09-11
# 安全フィルタ:自律システムにおける安全臨界制御の統一的視点

The Safety Filter: A Unified View of Safety-Critical Control in Autonomous Systems ( http://arxiv.org/abs/2309.05837v1 )

ライセンス: Link先を確認
Kai-Chieh Hsu, Haimin Hu, Jaime Fern\'andez Fisac(参考訳) 近年、ロボット技術の普及に伴い、ロボットの自律性が著しく進歩している。 しかし、新しい展開ドメインの出現は、これらのシステムの安全な運用を確保するための前例のない課題をもたらす。 従来のモデルベースの安全な制御手法は、一般化性とスケーラビリティに苦しむが、新しいデータ駆動型アプローチは、十分に理解された保証を欠く傾向にあり、予測不可能な破滅的な失敗をもたらす。 次世代の自律ロボットの展開に成功するには、両方のパラダイムの強みを統合する必要がある。 この記事では、安全フィルタアプローチのレビューを行い、既存の技術間の重要なつながりを強調し、それらを理解し、比較し、組み合わせるための統一された技術フレームワークを提案します。 新しいunified viewは、一見異なるセーフティフィルタクラスにまたがる共有モジュール構造を公開し、よりスケーラブルな合成、堅牢なモニタリング、効率的な介入への方向性を自然に提案している。

Recent years have seen significant progress in the realm of robot autonomy, accompanied by the expanding reach of robotic technologies. However, the emergence of new deployment domains brings unprecedented challenges in ensuring safe operation of these systems, which remains as crucial as ever. While traditional model-based safe control methods struggle with generalizability and scalability, emerging data-driven approaches tend to lack well-understood guarantees, which can result in unpredictable catastrophic failures. Successful deployment of the next generation of autonomous robots will require integrating the strengths of both paradigms. This article provides a review of safety filter approaches, highlighting important connections between existing techniques and proposing a unified technical framework to understand, compare, and combine them. The new unified view exposes a shared modular structure across a range of seemingly disparate safety filter classes and naturally suggests directions for future progress towards more scalable synthesis, robust monitoring, and efficient intervention.
翻訳日:2023-09-13 14:59:15 公開日:2023-09-11
# SCD-Net:自己教師型骨格に基づく行動認識のための時空間対角ネットワーク

SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition ( http://arxiv.org/abs/2309.05834v1 )

ライセンス: Link先を確認
Cong Wu, Xiao-Jun Wu, Josef Kittler, Tianyang Xu, Sara Atito, Muhammad Awais, Zhenhua Feng(参考訳) 対照的な学習は骨格に基づく行動認識において大きな成功を収めた。 しかし、既存のほとんどのアプローチは、骨格配列を絡み合った時空間表現としてエンコードし、コントラストを同じレベルの表現に限定する。 そこで本稿では,SCD-Net(Spatiotemporal Clues Disentanglement Network)という,新しいコントラスト学習フレームワークを提案する。 具体的には,デカップリングモジュールを特徴抽出器に統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。 SCD-Netのトレーニングでは、構築されたグローバルアンカーを用いて、アンカーと抽出した手がかりとの相互作用を奨励する。 さらに,マスク付き画像モデリングからSCD-Netへの最新の発展を生かして,コンテキスト関連性を強化するための構造制約付き新しいマスキング戦略を提案する。 我々は,NTU-RGB+D (60&120) と PKU-MMD (I&II) データセットを広範囲に評価し,行動認識,行動検索,移動学習,半教師付き学習などの下流タスクを網羅した。 実験の結果,既存のSOTA(State-of-the-art)手法よりも高い性能を示した。

Contrastive learning has achieved great success in skeleton-based action recognition. However, most existing approaches encode the skeleton sequences as entangled spatiotemporal representations and confine the contrasts to the same level of representation. Instead, this paper introduces a novel contrastive learning framework, namely Spatiotemporal Clues Disentanglement Network (SCD-Net). Specifically, we integrate the decoupling module with a feature extractor to derive explicit clues from spatial and temporal domains respectively. As for the training of SCD-Net, with a constructed global anchor, we encourage the interaction between the anchor and extracted clues. Further, we propose a new masking strategy with structural constraints to strengthen the contextual associations, leveraging the latest development from masked image modelling into the proposed SCD-Net. We conduct extensive evaluations on the NTU-RGB+D (60&120) and PKU-MMD (I&II) datasets, covering various downstream tasks such as action recognition, action retrieval, transfer learning, and semi-supervised learning. The experimental results demonstrate the effectiveness of our method, which outperforms the existing state-of-the-art (SOTA) approaches significantly.
翻訳日:2023-09-13 14:58:57 公開日:2023-09-11
# PACE:クラウドインシデント根本原因解析におけるGPT-4による校正信頼度推定の実証と増大

PACE: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis ( http://arxiv.org/abs/2309.05833v1 )

ライセンス: Link先を確認
Dylan Zhang, Xuchao Zhang, Chetan Bansal, Pedro Las-Casas, Rodrigo Fonseca, Saravan Rajmohan(参考訳) 近年、it部門におけるクラウドベースのプラットフォームへの移行は、サービスの信頼性を確保し顧客信頼を維持するために、クラウドインシデント根本原因分析の重要性を強調している。 このプロセスの中心はルート原因の効率的な決定であり、現代のクラウドインフラの複雑な性質のために課題となった。 根本原因同定のためのAI駆動ツールの普及にもかかわらず、その適用性は出力の不整合品質によって制限されている。 本稿では,検索強化大言語モデル (LLM) を推進し,根本原因分析ツールの信頼度を向上する手法を提案する。 このアプローチは2つのフェーズで動作します。 当初, 証拠強度の評価を考慮し, 過去の事件データに基づく信頼度の評価を行った。 その後、モデルは、予測者が生成した根本原因をレビューする。 最適化ステップは、これらの評価を組み合わせて最終信頼割り当てを決定する。 実験結果から,本手法はモデルの信頼性を効果的に表現し,より校正されたスコアを与える。 本研究では, LLMを用いた校正信頼度スコアの作成能力, ドメイン固有検索例が信頼度推定に与える影響, および根本原因分析モデルにおける潜在的な一般化可能性について検討する。 そこで本研究では,クラウドインシデント管理の効率化を図るとともに,信頼性評価のギャップを埋めることを目的としている。

In recent years, the transition to cloud-based platforms in the IT sector has emphasized the significance of cloud incident root cause analysis to ensure service reliability and maintain customer trust. Central to this process is the efficient determination of root causes, a task made challenging due to the complex nature of contemporary cloud infrastructures. Despite the proliferation of AI-driven tools for root cause identification, their applicability remains limited by the inconsistent quality of their outputs. This paper introduces a method for enhancing confidence estimation in root cause analysis tools by prompting retrieval-augmented large language models (LLMs). This approach operates in two phases. Initially, the model evaluates its confidence based on historical incident data, considering its assessment of the evidence strength. Subsequently, the model reviews the root cause generated by the predictor. An optimization step then combines these evaluations to determine the final confidence assignment. Experimental results illustrate that our method enables the model to articulate its confidence effectively, providing a more calibrated score. We address research questions evaluating the ability of our method to produce calibrated confidence scores using LLMs, the impact of domain-specific retrieved examples on confidence estimates, and its potential generalizability across various root cause analysis models. Through this, we aim to bridge the confidence estimation gap, aiding on-call engineers in decision-making and bolstering the efficiency of cloud incident management.
翻訳日:2023-09-13 14:58:36 公開日:2023-09-11
# 分子動力学のモデル還元のための反応座標流

Reaction coordinate flows for model reduction of molecular kinetics ( http://arxiv.org/abs/2309.05878v1 )

ライセンス: Link先を確認
Hao Wu and Frank No\'e(参考訳) 本研究では,分子系の低次元動力学モデルの発見を目的として,反応座標(RC)フローと呼ばれるフローベース機械学習手法を提案する。 rcフローは、座標変換を設計するための正規化フローと、すべてのモデルパラメータをデータ駆動方式で推定できるrcの運動量近似のためのブラウン力学モデルを用いる。 分子動力学の既存のモデル還元法とは対照的に、RCフローは正規化フローの可逆性による連続時間と空間における還元運動学の訓練可能かつトラクタブルなモデルを提供する。 さらに、ブラウン力学に基づく還元運動モデルにより、分子系の相空間における準安定状態の容易に識別可能な表現が得られる。 数値実験により,本手法がシミュレーションから与えられた実状態運動量の解釈可能かつ正確な低次元表現をいかに効果的に発見するかを示す。

In this work, we introduce a flow based machine learning approach, called reaction coordinate (RC) flow, for discovery of low-dimensional kinetic models of molecular systems. The RC flow utilizes a normalizing flow to design the coordinate transformation and a Brownian dynamics model to approximate the kinetics of RC, where all model parameters can be estimated in a data-driven manner. In contrast to existing model reduction methods for molecular kinetics, RC flow offers a trainable and tractable model of reduced kinetics in continuous time and space due to the invertibility of the normalizing flow. Furthermore, the Brownian dynamics-based reduced kinetic model investigated in this work yields a readily discernible representation of metastable states within the phase space of the molecular system. Numerical experiments demonstrate how effectively the proposed method discovers interpretable and accurate low-dimensional representations of given full-state kinetics from simulations.
翻訳日:2023-09-13 14:50:55 公開日:2023-09-11
# ホップ距離を伴う力向グラフ埋め込み

Force-directed graph embedding with hops distance ( http://arxiv.org/abs/2309.05865v1 )

ライセンス: Link先を確認
Hamidreza Lotfalizadeh, Mohammad Al Hasan(参考訳) グラフ埋め込みは、グラフ構造化データを分析するためにますます重要な技術になっている。 グラフ内のノードを低次元空間のベクトルとして表現することにより、グラフ埋め込みはノード分類、リンク予測、可視化といった効率的なグラフ処理と分析タスクを可能にする。 本稿では,グラフトポロジと構造的特徴の保存方法として,定常加速度運動公式を用いてノードを埋め込む新しい力によるグラフ埋め込み法を提案する。 本手法は,ホップ距離に対して,各ノード対間の引力と引力のカスタマイズをシミュレートする。 これらの力はニュートンの第2法則で各ノードの加速度を得るために用いられる。 メソッドは直感的で、並列化可能で、非常にスケーラブルです。 提案手法をいくつかのグラフ解析タスクで評価し,最先端の非教師なし埋め込み技術と比較して競争性能が向上することを示す。

Graph embedding has become an increasingly important technique for analyzing graph-structured data. By representing nodes in a graph as vectors in a low-dimensional space, graph embedding enables efficient graph processing and analysis tasks like node classification, link prediction, and visualization. In this paper, we propose a novel force-directed graph embedding method that utilizes the steady acceleration kinetic formula to embed nodes in a way that preserves graph topology and structural features. Our method simulates a set of customized attractive and repulsive forces between all node pairs with respect to their hop distance. These forces are then used in Newton's second law to obtain the acceleration of each node. The method is intuitive, parallelizable, and highly scalable. We evaluate our method on several graph analysis tasks and show that it achieves competitive performance compared to state-of-the-art unsupervised embedding techniques.
翻訳日:2023-09-13 14:50:41 公開日:2023-09-11
# bionic neural network for external simulation of human locomotor system (特集 バイオサイバネティックス)

The bionic neural network for external simulation of human locomotor system ( http://arxiv.org/abs/2309.05863v1 )

ライセンス: Link先を確認
Yue Shi, Shuhao Ma, Yihui Zhao(参考訳) 筋力と筋骨格モデリング(MSK)技術で推定される関節運動学は、運動の質を説明する有用な指標を提供する。 モデルに基づく計算MSKモデルは、神経ドライブから筋肉、筋肉のダイナミクス、体と関節の運動学、運動学の間の動的相互作用を解釈することができる。 しかし、このような解群は計算時間や筋肉のリクルートの問題、特に複雑なモデリングに苦しむ。 近年,柔軟性と適応性というメリットから,データ駆動型手法が有望な代替手段として登場している。 しかし、大量のラベル付きトレーニングデータを取得するのは容易ではない。 本稿では,MSKモデルに基づく物理インフォームド深層学習法を提案し,関節運動と筋力を予測する。 MSKモデルは、通常の微分方程式(ODE)損失関数としてニューラルネットワークに埋め込まれ、筋肉活性化ダイナミクスと筋肉収縮ダイナミクスの生理的パラメータを識別する。 これらのパラメータは、筋力予測とMSKフォワードダイナミクスモデルを組み合わせたトレーニングプロセス中に自動的に推定される。 6人の健常者による1つのベンチマークデータセットと1つの自己収集データセットを含む2つのデータに対する実験的検証を行う。 その結果,提案する深層学習法は,被験者固有のmsk生理的パラメータを効果的に同定し,物理に適応した前方運動サーロゲートにより正確な運動と筋力の予測が可能となった。

Muscle forces and joint kinematics estimated with musculoskeletal (MSK) modeling techniques offer useful metrics describing movement quality. Model-based computational MSK models can interpret the dynamic interaction between the neural drive to muscles, muscle dynamics, body and joint kinematics, and kinetics. Still, such a set of solutions suffers from high computational time and muscle recruitment problems, especially in complex modeling. In recent years, data-driven methods have emerged as a promising alternative due to the benefits of flexibility and adaptability. However, a large amount of labeled training data is not easy to be acquired. This paper proposes a physics-informed deep learning method based on MSK modeling to predict joint motion and muscle forces. The MSK model is embedded into the neural network as an ordinary differential equation (ODE) loss function with physiological parameters of muscle activation dynamics and muscle contraction dynamics to be identified. These parameters are automatically estimated during the training process which guides the prediction of muscle forces combined with the MSK forward dynamics model. Experimental validations on two groups of data, including one benchmark dataset and one self-collected dataset from six healthy subjects, are performed. The results demonstrate that the proposed deep learning method can effectively identify subject-specific MSK physiological parameters and the trained physics-informed forward-dynamics surrogate yields accurate motion and muscle forces predictions.
翻訳日:2023-09-13 14:50:26 公開日:2023-09-11
# 一般化線形混合モデル(GLMM)を用いた線形成長曲線モデルにおける部分群検出

Subgroup detection in linear growth curve models with generalized linear mixed model (GLMM) trees ( http://arxiv.org/abs/2309.05862v1 )

ライセンス: Link先を確認
Marjolein Fokkema and Achim Zeileis(参考訳) 成長曲線モデルは、時間とともに被験者内の応答変数の開発を研究するための一般的なツールである。 このようなモデルでは、被験者間の異種性は一般的であり、研究者は通常、この異種性の説明や予測に興味がある。 線形成長曲線モデルにおいて,異なる形状の軌道を持つ部分群を同定するために,一般化線形混合効果モデル (GLMM) がいかに用いられるかを示す。 もともとクラスタ化された断面データのために開発されたGLMM木は、長手データに拡張されている。 その結果得られた拡張GLMM木は、成長曲線モデルに直接適用することができる。 シミュレーションおよび実世界のデータでは,拡張性能を評価し,成長曲線モデルにおける他の分割法と比較する。 拡張GLMM木は元のアルゴリズムやLongCARTよりも精度が高く、構造方程式モデル(SEM)木と同様に正確である。 さらに、GLMM木は離散時系列と連続時系列の両方をモデル化することができ、ランダム効果構造の(ミス-)特異化に敏感で、計算がはるかに高速である。

Growth curve models are popular tools for studying the development of a response variable within subjects over time. Heterogeneity between subjects is common in such models, and researchers are typically interested in explaining or predicting this heterogeneity. We show how generalized linear mixed effects model (GLMM) trees can be used to identify subgroups with differently shaped trajectories in linear growth curve models. Originally developed for clustered cross-sectional data, GLMM trees are extended here to longitudinal data. The resulting extended GLMM trees are directly applicable to growth curve models as an important special case. In simulated and real-world data, we assess the performance of the extensions and compare against other partitioning methods for growth curve models. Extended GLMM trees perform more accurately than the original algorithm and LongCART, and similarly accurate as structural equation model (SEM) trees. In addition, GLMM trees allow for modeling both discrete and continuous time series, are less sensitive to (mis-)specification of the random-effects structure and are much faster to compute.
翻訳日:2023-09-13 14:50:02 公開日:2023-09-11
# 変圧器におけるmesa最適化アルゴリズムの解明

Uncovering mesa-optimization algorithms in Transformers ( http://arxiv.org/abs/2309.05858v1 )

ライセンス: Link先を確認
Johannes von Oswald, Eyvind Niklasson, Maximilian Schlegel, Seijin Kobayashi, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Ag\"uera y Arcas, Max Vladymyrov, Razvan Pascanu, Jo\~ao Sacramento(参考訳) トランスフォーマーはディープラーニングにおいて支配的なモデルとなっているが、その優れたパフォーマンスの理由はよく分かっていない。 ここで、トランスフォーマーの強力な性能は、以下の2つのステップからなるモデルの前方パス内で実行される学習プロセスであるmesa最適化へのアーキテクチャバイアスに起因すると仮定する。 一 内部学習目的の構築、及び (ii)その対応解は最適化によって見出される。 この仮説をテストするために、単純なシーケンスモデリングタスクで訓練された一連の自己回帰トランスフォーマーをリバースエンジニアリングし、基礎となる勾配に基づくmesa最適化アルゴリズムを明らかにする。 さらに、学習したフォワードパス最適化アルゴリズムを即座に再利用して教師付き数ショットタスクを解くことを示し、メザ最適化が大規模言語モデルのコンテキスト内学習能力を損なう可能性を示唆した。 最後に,コンテキストに規定された最適化問題を明確かつ効率的に解決する,新たな自己注意層であるメザ層を提案する。 この層は, 合成および予備言語モデリング実験における性能向上に寄与し, メザ最適化は訓練されたトランスフォーマーの重みに隠れた重要な操作である,という仮説に重みを加えることができる。

Transformers have become the dominant model in deep learning, but the reason for their superior performance is poorly understood. Here, we hypothesize that the strong performance of Transformers stems from an architectural bias towards mesa-optimization, a learned process running within the forward pass of a model consisting of the following two steps: (i) the construction of an internal learning objective, and (ii) its corresponding solution found through optimization. To test this hypothesis, we reverse-engineer a series of autoregressive Transformers trained on simple sequence modeling tasks, uncovering underlying gradient-based mesa-optimization algorithms driving the generation of predictions. Moreover, we show that the learned forward-pass optimization algorithm can be immediately repurposed to solve supervised few-shot tasks, suggesting that mesa-optimization might underlie the in-context learning capabilities of large language models. Finally, we propose a novel self-attention layer, the mesa-layer, that explicitly and efficiently solves optimization problems specified in context. We find that this layer can lead to improved performance in synthetic and preliminary language modeling experiments, adding weight to our hypothesis that mesa-optimization is an important operation hidden within the weights of trained Transformers.
翻訳日:2023-09-13 14:49:45 公開日:2023-09-11
# BAPCによる説明可能なAI -- 修正パラメータの前後比較

Explainable AI by BAPC -- Before and After correction Parameter Comparison ( http://arxiv.org/abs/2103.07155v2 )

ライセンス: Link先を確認
Florian Sobieczky, Manuela Gei{\ss}(参考訳) より単純な'ベース'モデルを補正するAIモデルのための局所的なサロゲートは、AI予測の説明を得るための分析方法を表す。 このアプローチは、ベースモデルの線形回帰という文脈で研究されている。 AIモデルは線形モデルの残差誤差を近似し、その説明は解釈可能な基底モデルのパラメータの変化の観点から定式化される。 基準は、サロゲートの損失精度、AIモデルの精度、サロゲートの忠実度の間の正確な関係を定式化する。 これらの基準は,観測データ中の特定の最大ノイズ量を仮定して,最大精度と忠実度の観点から理想的な大きさのインスタンスの近傍を誘導することを示した。

A local surrogate for an AI-model correcting a simpler 'base' model is introduced representing an analytical method to yield explanations of AI-predictions. The approach is studied here in the context of the base model being linear regression. The AI-model approximates the residual error of the linear model and the explanations are formulated in terms of the change of the interpretable base model's parameters. Criteria are formulated for the precise relation between lost accuracy of the surrogate, the accuracy of the AI-model, and the surrogate fidelity. It is shown that, assuming a certain maximal amount of noise in the observed data, these criteria induce neighborhoods of the instances to be explained which have an ideal size in terms of maximal accuracy and fidelity.
翻訳日:2023-09-12 23:59:13 公開日:2023-09-11
# MMD規則化不均衡最適輸送

MMD-Regularized Unbalanced Optimal Transport ( http://arxiv.org/abs/2011.05001v8 )

ライセンス: Link先を確認
Piyushi Manupriya (IIT Hyderabad, INDIA), J. Saketha Nath (IIT Hyderabad, INDIA), Pratik Jawanpuria (Microsoft IDC, INDIA)(参考訳) 最大平均離散化(MMD)正則化を用いて限界制約を強制する不均衡最適輸送(UOT)問題について検討する。 我々の研究は、UOTに関する文献が$\phi$-divergence(例えばKLの発散)に基づく正規化に焦点を当てているという観察に動機づけられている。 MMDの人気にもかかわらず、UOTの文脈における正則化者としての役割は理解されていないようである。 まず MMD-regularized UOT (MMD-UOT) の特殊双対を導出し、いくつかの有用な性質を証明する。 この双対性の結果の1つの興味深い結果として、MDD-UOTはワッサーシュタインのような基底測度を持ち上げるだけでなく、MDDのような推定値に対して標本的に効率的である新しい測度を誘導する。 さらに,非離散測度を含む実世界のアプリケーションに対しては,与えられた(m$)サンプルでのみサポートされる輸送計画の推定器を提案する。 穏やかな条件下では、この有限支持輸送計画による推定誤差も$\mathcal{O}(1/\sqrt{m})$であることを示す。 私たちが知る限り、次元の呪いのないそのようなエラー境界は、$\phi$-divergence regularized UOTでは知られていない。 最後に,加速度勾配勾配を用いて提案した推定器を効率的に計算する方法について議論する。 実験によれば、mmd-uotはkl正規化uotとmmdを含む一般的なベースラインを、さまざまな機械学習アプリケーションにおいて一貫して上回っている。

We study the unbalanced optimal transport (UOT) problem, where the marginal constraints are enforced using Maximum Mean Discrepancy (MMD) regularization. Our work is motivated by the observation that the literature on UOT is focused on regularization based on $\phi$-divergence (e.g., KL divergence). Despite the popularity of MMD, its role as a regularizer in the context of UOT seems less understood. We begin by deriving a specific dual of MMD-regularized UOT (MMD-UOT), which helps us prove several useful properties. One interesting outcome of this duality result is that MMD-UOT induces novel metrics, which not only lift the ground metric like the Wasserstein but are also sample-wise efficient to estimate like the MMD. Further, for real-world applications involving non-discrete measures, we present an estimator for the transport plan that is supported only on the given ($m$) samples. Under mild conditions, we prove that the estimation error with this finitely-supported transport plan is also $\mathcal{O}(1/\sqrt{m})$. As far as we know, such error bounds that are free from the curse of dimensionality are not known for $\phi$-divergence regularized UOT. Finally, we discuss how the proposed estimator can be computed efficiently using accelerated gradient descent. Our experiments show that MMD-UOT consistently outperforms popular baselines, including KL-regularized UOT and MMD, in diverse machine learning applications.
翻訳日:2023-09-12 23:59:02 公開日:2023-09-11
# バッドキャビティ限界における2光子相互作用効果

Two-photon-interaction effects in the bad-cavity limit ( http://arxiv.org/abs/2007.07844v2 )

ライセンス: Link先を確認
Nicol\`o Piccione, Simone Felicetti, Bruno Bellomo(参考訳) 様々な実験プラットフォームは、原子系と制限モードが2光子結合を介して相互作用する非双極子光-物質相互作用の実装に有効なテストベッドであることが証明されている。 ここでは, 有限温度の浴槽とコヒーレントかつ非コヒーレントな駆動の存在下で, いわゆるバッドキャビティ限界における2光子カップリングを介してn$2レベル系と相互作用する減衰量子調和振動子について検討する。 我々は,最近開発されたアディベート除去法を適用して,双極子相互作用の場合と比べ,有効マスター方程式を導出することに成功した。熱寄与とコヒーレント駆動における二次項を含む2レベル系自然放出率の増大,および2レベル系で知覚される有効温度の増加である。 これらの違いは、より早い定常コヒーレンスの生成や、より高温でより強固にできる集団効果の温度依存性など、2段階の系のダイナミクスに衝撃的な効果をもたらす。

Various experimental platforms have proven to be valid testbeds for the implementation of nondipolar light-matter interactions, where atomic systems and confined modes interact via two-photon couplings. Here, we study a damped quantum harmonic oscillator interacting with $N$ two-level systems via a two-photon coupling in the so-called bad-cavity limit, in the presence of finite-temperature baths and coherent and incoherent drivings. We have succeeded in applying a recently developed adiabatic elimination technique to derive an effective master equation for the two-level systems, presenting two fundamental differences compared to the case of a dipolar interaction: an enhancement of the two-level systems spontaneous-like emission rate, including a thermal contribution and a quadratic term in the coherent driving, and an increment of the effective temperature perceived by the two-level systems. These differences give rise to striking effects in the two-level systems dynamics, including a faster generation of steady-state coherence and a richer dependence on temperature of the collective effects, which can be made stronger at higher temperature.
翻訳日:2023-09-12 23:58:14 公開日:2023-09-11
# MC-Blur:画像劣化の総合ベンチマーク

MC-Blur: A Comprehensive Benchmark for Image Deblurring ( http://arxiv.org/abs/2112.00234v3 )

ライセンス: Link先を確認
Kaihao Zhang, Tao Wang, Wenhan Luo, Boheng Chen, Wenqi Ren, Bjorn Stenger, Wei Liu, Hongdong Li, Ming-Hsuan Yang(参考訳) ぼやけたアーティファクトは画像の視覚品質を著しく低下させ、特定のシナリオのために多くのぼやけ方法が提案されている。 しかし、ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。 本稿では,複数種類のぼかしの場合において,異なるデブロワー法がどのように機能するかを考察する。 詳細な性能評価のために,実世界および合成されたぼかし画像を含む大規模多目的画像デブラリングデータセット(mc-blur)を構築した。 提案したMC-Blurデータセットの画像は,1000fpsの高速カメラで捉えたシャープ画像を平均化すること,UHD(Ultra-High-Definition)シャープ画像を大容量のカーネルで包含すること,デフォーカスを付加すること,および様々なカメラモデルで捉えた現実世界のぼやけた画像を平均化する。 MC-Blurデータセットに基づいて、異なるシナリオにおけるSOTA手法の比較、効率の分析、構築したデータセットのキャパシティの調査を行う。 これらのベンチマーク結果は、現在のデブロアリング手法の利点と限界を概観し、我々のデータセットの進歩を明らかにします。

Blur artifacts can seriously degrade the visual quality of images, and numerous deblurring methods have been proposed for specific scenarios. However, in most real-world images, blur is caused by different factors, e.g., motion and defocus. In this paper, we address how different deblurring methods perform in the case of multiple types of blur. For in-depth performance evaluation, we construct a new large-scale multi-cause image deblurring dataset (called MC-Blur), including real-world and synthesized blurry images with mixed factors of blurs. The images in the proposed MC-Blur dataset are collected using different techniques: averaging sharp images captured by a 1000-fps high-speed camera, convolving Ultra-High-Definition (UHD) sharp images with large-size kernels, adding defocus to images, and real-world blurry images captured by various camera models. Based on the MC-Blur dataset, we conduct extensive benchmarking studies to compare SOTA methods in different scenarios, analyze their efficiency, and investigate the built dataset's capacity. These benchmarking results provide a comprehensive overview of the advantages and limitations of current deblurring methods, and reveal the advances of our dataset.
翻訳日:2023-09-12 23:52:57 公開日:2023-09-11
# なぜ干渉現象が量子論の本質を捉えないのか

Why interference phenomena do not capture the essence of quantum theory ( http://arxiv.org/abs/2111.13727v6 )

ライセンス: Link先を確認
Lorenzo Catani, Matthew Leifer, David Schmid, Robert W. Spekkens(参考訳) 量子干渉現象は古典的世界観に挑戦していると見なされている。 ファインマンは、それらが量子力学の唯一の謎と基本的な特異性であるとまで宣言した。 基本的な干渉現象は、光子は粒子でも波でもない、むしろ2つの可能性の間を切り替えるジキル・アンド・ハイドのような実体であり、現実はオブザーバーに依存している、システムは測定に先立って特性を持っていないか、あるいは非局所的または時間的因果的影響を受ける性質を持っている、など、多くの急進的な解釈の結論を受け入れることを強いる。 本研究では,このような結論は基本的な干渉現象によって強制されるものではないことを示す。 我々は、量子干渉の関連する現象論を再現する古典的離散場('toy field theory')の統計理論である量子理論の代替を記述しながら、これらの過激な解釈的主張を拒絶する。 elitzur-vaidman bomb tester、wheeler's delay-choice experiment、quantum eraser experimentなど、これらの解釈的主張を支持すると思われる多くの関連する干渉実験も再現している。 玩具場理論の系はフィールドモードであり、それぞれが常に粒子のような性質(離散占有数)と波のような性質(離散位相)を持っている。 これら2つの性質は共同所有であるが、両者が共同で知ることはできないとする理論もある。 一般に非局所的あるいは後方的因果的影響を好んで引用される現象学は、遠方や過去のシステムについての推論の観点から説明され、観察者に依存した全ては、現実そのものではなく、観察者の現実の知識である。

Quantum interference phenomena are widely viewed as posing a challenge to the classical worldview. Feynman even went so far as to proclaim that they are the only mystery and the basic peculiarity of quantum mechanics. Many have also argued that basic interference phenomena force us to accept a number of radical interpretational conclusions, including: that a photon is neither a particle nor a wave but rather a Jekyll-and-Hyde sort of entity that toggles between the two possibilities, that reality is observer-dependent, and that systems either do not have properties prior to measurements or else have properties that are subject to nonlocal or backwards-in-time causal influences. In this work, we show that such conclusions are not, in fact, forced on us by basic interference phenomena. We do so by describing an alternative to quantum theory, a statistical theory of a classical discrete field (the `toy field theory') that reproduces the relevant phenomenology of quantum interference while rejecting these radical interpretational claims. It also reproduces a number of related interference experiments that are thought to support these interpretational claims, such as the Elitzur-Vaidman bomb tester, Wheeler's delayed-choice experiment, and the quantum eraser experiment. The systems in the toy field theory are field modes, each of which possesses, at all times, both a particle-like property (a discrete occupation number) and a wave-like property (a discrete phase). Although these two properties are jointly possessed, the theory stipulates that they cannot be jointly known. The phenomenology that is generally cited in favour of nonlocal or backwards-in-time causal influences ends up being explained in terms of inferences about distant or past systems, and all that is observer-dependent is the observer's knowledge of reality, not reality itself.
翻訳日:2023-09-12 23:52:31 公開日:2023-09-11
# KPop Fandomsが新型コロナの公衆衛生メッセージングをソーシャルメディアで推進

KPop Fandoms drive COVID-19 Public Health Messaging on Social Media ( http://arxiv.org/abs/2110.04149v2 )

ライセンス: Link先を確認
Ho-Chun Herbert Chang, Becky Pham, Emilio Ferrara(参考訳) 新型コロナウイルス(COVID-19)感染拡大に伴う公衆衛生メッセージ(Kポップファンダム)の予想外だが重要な原因について検討する。 2020年3月から2021年12月までに、マスク着用に関する700万以上のツイートとk-popを活用し、マスクに対する感情や公衆衛生の誤報の中で、ハッシュタグ \#wearamaskとワクチン関連ツイートのオンライン拡散を分析した。 分析によると、韓国のボーイバンドBTSは、医療談話の最も重要なドライバーの一人だ。 医療機関やK-popに言及した著名人からのツイートは、そうでないツイートの111倍のオンラインレスポンスを生成する。 これらのツイートは、メインストリームのソーシャルメディアキャンペーンによるtwitterベースのメッセージングでしばしば無視される南米、東南アジア、農村州からの強い反応も引き起こした。 ネットワークと時間分析は、時間とともに右利きエリートからの利用が増加したことを示している。 機械的には、非社会的エンゲージメントとつながりの強いレベルは、コミュニティにおける持続的な活動を可能にする。 以上の結果から, 公衆衛生機関は, 既存のオーディエンス市場を利用して, 特にcovid-19のような健康危機において, 国内外において, 未利用の地域社会を協調的に拡散し, ターゲティングできる可能性が示唆された。

We examine an unexpected but significant source of positive public health messaging during the COVID-19 pandemic -- K-pop fandoms. Leveraging more than 7 million tweets related to mask-wearing and K-pop between March 2020 and December 2021, we analyzed the online spread of the hashtag \#WearAMask and vaccine-related tweets amid anti-mask sentiments and public health misinformation. Analyses reveal the South Korean boyband BTS as one of the most significant driver of health discourse. Tweets from health agencies and prominent figures that mentioned K-pop generate 111 times more online responses compared to tweets that did not. These tweets also elicited strong responses from South America, Southeast Asia, and rural States -- areas often neglected in Twitter-based messaging by mainstream social media campaigns. Network and temporal analysis show increased use from right-leaning elites over time. Mechanistically, strong-levels of parasocial engagement and connectedness allow sustained activism in the community. Our results suggest that public health institutions may leverage pre-existing audience markets to synergistically diffuse and target under-served communities both domestically and globally, especially during health crises such as COVID-19.
翻訳日:2023-09-12 23:51:24 公開日:2023-09-11
# ロバストな機能レベルの敵は解釈ツールである

Robust Feature-Level Adversaries are Interpretability Tools ( http://arxiv.org/abs/2110.03605v7 )

ライセンス: Link先を確認
Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman(参考訳) コンピュータビジョンにおける敵攻撃に関する文献は、通常ピクセルレベルの摂動に焦点を当てている。 これらは解釈がとても難しい傾向がある。 イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創り出す最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。 我々は3つの貢献をした。 まず,特徴レベルの攻撃はモデル内の表現を研究する上で有用な入力のクラスを提供する。 第二に、これらの敵は独自に多目的であり、非常に堅牢であることを示す。 imagenetのスケールで、ターゲット、普遍、変装、物理的に実現可能なブラックボックス攻撃を生成できることを実証する。 第3に,これらの画像がネットワーク上のバグを識別するための実用的な解釈ツールとして利用できることを示す。 我々はこれらの敵を用いて特徴とクラス間の急激な関連を予測し、ある自然なイメージを別のものに貼り付け、ターゲットの誤分類を引き起こす「コピー/ペースト」攻撃を設計してテストする。 その結果,機能レベルの攻撃は厳密な解釈可能性研究にとって有望なアプローチであることが示唆された。 モデルが学んだことをよりよく理解し、脆弱な機能関連を診断するために、ツールの設計をサポートする。 コードはhttps://github.com/thestephencasper/feature_level_advで入手できる。

The literature on adversarial attacks in computer vision typically focuses on pixel-level perturbations. These tend to be very difficult to interpret. Recent work that manipulates the latent representations of image generators to create "feature-level" adversarial perturbations gives us an opportunity to explore perceptible, interpretable adversarial attacks. We make three contributions. First, we observe that feature-level attacks provide useful classes of inputs for studying representations in models. Second, we show that these adversaries are uniquely versatile and highly robust. We demonstrate that they can be used to produce targeted, universal, disguised, physically-realizable, and black-box attacks at the ImageNet scale. Third, we show how these adversarial images can be used as a practical interpretability tool for identifying bugs in networks. We use these adversaries to make predictions about spurious associations between features and classes which we then test by designing "copy/paste" attacks in which one natural image is pasted into another to cause a targeted misclassification. Our results suggest that feature-level attacks are a promising approach for rigorous interpretability research. They support the design of tools to better understand what a model has learned and diagnose brittle feature associations. Code is available at https://github.com/thestephencasper/feature_level_adv
翻訳日:2023-09-12 23:51:03 公開日:2023-09-11
# スケーラブルな分類課題に対する複雑性最適化スパースベイズ学習

Complexity-Optimized Sparse Bayesian Learning for Scalable Classification Tasks ( http://arxiv.org/abs/2107.08195v5 )

ライセンス: Link先を確認
Jiahua Luo, Chi-Man Wong and Chi-Man Vong(参考訳) スパースベイズ学習(SBL)は極めてスパースな確率モデルを構築し、非常に競争的な一般化を行う。 しかし、SBLは、高次元の特徴空間や大きなデータサイズの問題に対処するため、正規化前の値を更新するために、複雑さ$O(M^3)$ (M: Feature size)で大きな共分散行列を逆転する必要がある。 このような問題ではメモリオーバーフローの問題に容易に悩まされる可能性がある。 本稿では,大共分散行列の逆転を無視し,複雑性を$O(M)$に抑えるため,新たに提案されたSBLの準ニュートン法であるDQN-SBLを用いてこの問題に対処する。 DQN-SBLは、異なる大きさの様々なベンチマークを持つ非線形および線形分類に対して、徹底的に評価される。 実験により, DQN-SBLは, 非常にスパースなモデルで競合一般化を受け, 大規模問題によく対応できることが確認された。

Sparse Bayesian Learning (SBL) constructs an extremely sparse probabilistic model with very competitive generalization. However, SBL needs to invert a big covariance matrix with complexity $O(M^3)$ (M: feature size) for updating the regularization priors, making it difficult for problems with high dimensional feature space or large data size. As it may easily suffer from the memory overflow issue in such problems. This paper addresses this issue with a newly proposed diagonal Quasi-Newton (DQN) method for SBL called DQN-SBL where the inversion of big covariance matrix is ignored so that the complexity is reduced to $O(M)$. The DQN-SBL is thoroughly evaluated for non linear and linear classifications with various benchmarks of different sizes. Experimental results verify that DQN-SBL receives competitive generalization with a very sparse model and scales well to large-scale problems.
翻訳日:2023-09-12 23:50:31 公開日:2023-09-11
# ディープニューラルネットワークは列名からデータ相関を予測できるか?

Can Deep Neural Networks Predict Data Correlations from Column Names? ( http://arxiv.org/abs/2107.04553v2 )

ライセンス: Link先を確認
Immanuel Trummer(参考訳) 最近の出版物では、チューニングとプロファイリングのガイドとして、データベーススキーマ要素の自然言語解析を推奨している。 基礎となる仮説は、最先端の言語処理手法、いわゆる言語モデルがスキーマテキストからデータプロパティに関する情報を抽出できるということである。 本稿では,データ相関分析の文脈において,その仮説を考察する。言語モデルによって,相関データを持つ列ペアを見つけることは可能か? まず,数千のKaggleデータセット(ダウンロード可能)を分析して作成したデータ相関分析のための新しいベンチマークを紹介する。 第二に、そのデータを使って、列名に基づいて相関を予測する言語モデルの研究を行う。 この分析は、異なる言語モデル、様々な相関メトリクス、および多数の精度メトリクスをカバーする。 カラム名の長さや単語の比率など、予測の成功に寄与する要因をピンポイントで特定する。 最後に、rev{the studyは列型が予測性能に与える影響を分析する。 その結果、スキーマテキストは、nlpエンハンスドデータベースチューニングとデータプロファイリングをターゲットとした、将来の研究活動において有用な情報ソースとなり得ることが示された。

Recent publications suggest using natural language analysis on database schema elements to guide tuning and profiling efforts. The underlying hypothesis is that state-of-the-art language processing methods, so-called language models, are able to extract information on data properties from schema text. This paper examines that hypothesis in the context of data correlation analysis: is it possible to find column pairs with correlated data by analyzing their names via language models? First, the paper introduces a novel benchmark for data correlation analysis, created by analyzing thousands of Kaggle data sets (and available for download). Second, it uses that data to study the ability of language models to predict correlation, based on column names. The analysis covers different language models, various correlation metrics, and a multitude of accuracy metrics. It pinpoints factors that contribute to successful predictions, such as the length of column names as well as the ratio of words. Finally, \rev{the study analyzes the impact of column types on prediction performance.} The results show that schema text can be a useful source of information and inform future research efforts, targeted at NLP-enhanced database tuning and data profiling.
翻訳日:2023-09-12 23:50:14 公開日:2023-09-11
# クロスモダリティニューロイメージ合成:調査

Cross-Modality Neuroimage Synthesis: A Survey ( http://arxiv.org/abs/2202.06997v5 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Jiayi Lyu, Feng Zheng, Yefeng Zheng, Yaochu Jin(参考訳) 完全に整列した対のマルチモーダル神経画像データの存在は、脳疾患の診断に有効であることが証明されている。 しかし、高コスト、長期取得、画像の破損、プライバシー問題といった現実的な困難が伴うため、整列データとペアデータの完全な収集は高価または実用的ではない。 現実的な解決策は、教師なしの学習または半教師なしの学習を探索して、欠落した神経画像データを合成することである。 本稿では,様々な視点から多義性ニューロイメージ合成タスクに包括的にアプローチする最初の試みとして,監督レベル(特に教師の弱さと教師の弱さ),損失関数,評価指標,モダリティ合成の範囲,データセット(整列,プライベート,パブリック),合成に基づく下流タスクについて述べる。 まず,クロスモダリティニューロイメージシンテシスの開眼課題について概説する。 次に,様々な監督レベルでのクロスモダリティ合成のアーキテクチャを要約する。 さらに,神経画像合成が様々な下流タスクのパフォーマンスを改善する方法について,詳細な解析を行う。 最後に、オープンチャレンジを再評価し、残りの課題の今後の方向性を指摘する。 すべてのリソースはhttps://github.com/M-3LAB/awesome-multimodal-brain-image-systhesisで利用可能である。

The existence of completely aligned and paired multi-modal neuroimaging data has proved its effectiveness in diagnosis of brain diseases. However, collecting the full set of well-aligned and paired data is expensive or even impractical, since the practical difficulties may include high cost, long time acquisition, image corruption, and privacy issues. A realistic solution is to explore either an unsupervised learning or a semi-supervised learning to synthesize the absent neuroimaging data. In this paper, we are the first one to comprehensively approach cross-modality neuroimage synthesis task from different perspectives, which include the level of the supervision (especially for weakly-supervised and unsupervised), loss function, evaluation metrics, the range of modality synthesis, datasets (aligned, private and public) and the synthesis-based downstream tasks. To begin with, we highlight several opening challenges for cross-modality neuroimage sysnthesis. Then we summarize the architecture of cross-modality synthesis under various of supervision level. In addition, we provide in-depth analysis of how cross-modality neuroimage synthesis can improve the performance of different downstream tasks. Finally, we re-evaluate the open challenges and point out the future directions for the remaining challenges. All resources are available at https://github.com/M-3LAB/awesome-multimodal-brain-image-systhesis
翻訳日:2023-09-12 23:42:38 公開日:2023-09-11
# hermes:非定常ファッション時系列のための外部信号を含むハイブリッド誤り訂正モデル

HERMES: Hybrid Error-corrector Model with inclusion of External Signals for nonstationary fashion time series ( http://arxiv.org/abs/2202.03224v3 )

ライセンス: Link先を確認
Etienne David (TIPIC-SAMOVAR), Jean Bellot, Sylvain Le Corff (IP Paris)(参考訳) 非定常時系列を予測するモデルやアルゴリズムの開発は、長年の統計問題である。 多くのアプリケーション、特にファッションや小売業において、最適な在庫決定を行い、大量の廃棄物を避けることが不可欠である。 最先端のコンピュータビジョンアプローチを用いてソーシャルメディア上で数千のファッショントレンドを追跡することにより、ファッション時系列予測の新しいモデルを提案する。 私たちの貢献は2倍です。 私たちはまず、週1万のファッションタイムのデータセットを公開します。 インフルエンスダイナミクスがトレンド検出の鍵となるため,インフルエンサーの行動を表す外部弱いシグナルを時系列毎に関連付ける。 次に,このようなデータセットを活用するために,新しいハイブリッド予測モデルを提案する。 提案手法では,時系列パラメトリックモデルと季節成分と,散発的な外部信号を含むグローバルリカレントニューラルネットワークを組み合わせる。 このハイブリッドモデルは、m4コンペティションの毎週の時系列で提案されたファッションデータセットの最先端の結果を提供し、外部弱い信号の寄与の利点を説明している。

Developing models and algorithms to predict nonstationary time series is a long standing statistical problem. It is crucial for many applications, in particular for fashion or retail industries, to make optimal inventory decisions and avoid massive wastes. By tracking thousands of fashion trends on social media with state-of-the-art computer vision approaches, we propose a new model for fashion time series forecasting. Our contribution is twofold. We first provide publicly a dataset gathering 10000 weekly fashion time series. As influence dynamics are the key of emerging trend detection, we associate with each time series an external weak signal representing behaviours of influencers. Secondly, to leverage such a dataset, we propose a new hybrid forecasting model. Our approach combines per-time-series parametric models with seasonal components and a global recurrent neural network to include sporadic external signals. This hybrid model provides state-of-the-art results on the proposed fashion dataset, on the weekly time series of the M4 competition, and illustrates the benefit of the contribution of external weak signals.
翻訳日:2023-09-12 23:41:59 公開日:2023-09-11
# 何が見えるか:自然言語記述に基づくゼロショット行動認識法

Tell me what you see: A zero-shot action recognition method based on natural language descriptions ( http://arxiv.org/abs/2112.09976v2 )

ライセンス: Link先を確認
Valter Estevam and Rayson Laroca and David Menotti and Helio Pedrini(参考訳) 本稿では,ゼロショット動作認識に対する新しいアプローチを提案する。 近年,目覚ましい性能を持つ映像から意味情報を得るための物体の検出と分類が研究されている。 そこで本研究では,映像キャプション手法を用いてオブジェクト,シーン,人間,それらの関係に関する意味情報を抽出する。 私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。 より具体的には,インターネット上で検索された文書から抽出した文を用いて,ビデオキャプション手法やクラスを用いて生成された文を用いてビデオを表現する。 これらの表現を用いて、複数のテキストデータセットのパラフレーズ処理タスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。 視覚情報と意味情報の双方をこの空間に投影することは、それらが文であるため簡単であり、最も近い隣の規則による分類を可能にする。 文によるビデオやラベルの表現がドメイン適応問題を軽減することを実証する。 さらに、単語ベクトルは記述の意味的埋め込み空間を構築するのに不適当であることを示す。 提案手法は,UCF101データセットの精度を3.3 pp,TruZeプロトコルでは3.3 pp向上し,従来のプロトコルではUCF101データセットとHMDB51データセットの両方(0/50\% - トレーニング/テストスプリット)の競合結果が得られる。 私たちのコードはhttps://github.com/valterlej/zsarcapで利用可能です。

This paper presents a novel approach to Zero-Shot Action Recognition. Recent works have explored the detection and classification of objects to obtain semantic information from videos with remarkable performance. Inspired by them, we propose using video captioning methods to extract semantic information about objects, scenes, humans, and their relationships. To the best of our knowledge, this is the first work to represent both videos and labels with descriptive sentences. More specifically, we represent videos using sentences generated via video captioning methods and classes using sentences extracted from documents acquired through search engines on the Internet. Using these representations, we build a shared semantic space employing BERT-based embedders pre-trained in the paraphrasing task on multiple text datasets. The projection of both visual and semantic information onto this space is straightforward, as they are sentences, enabling classification using the nearest neighbor rule. We demonstrate that representing videos and labels with sentences alleviates the domain adaptation problem. Additionally, we show that word vectors are unsuitable for building the semantic embedding space of our descriptions. Our method outperforms the state-of-the-art performance on the UCF101 dataset by 3.3 p.p. in accuracy under the TruZe protocol and achieves competitive results on both the UCF101 and HMDB51 datasets under the conventional protocol (0/50\% - training/testing split). Our code is available at https://github.com/valterlej/zsarcap.
翻訳日:2023-09-12 23:41:06 公開日:2023-09-11
# ハイブリッドCPU-FPGAアプローチを用いた量子AIシミュレータ

Quantum AI simulator using a hybrid CPU-FPGA approach ( http://arxiv.org/abs/2206.09593v3 )

ライセンス: Link先を確認
Teppei Suzuki, Tsubasa Miyazaki, Toshiki Inaritai, Takahiro Otsuka(参考訳) 量子カーネル法は量子機械学習の分野で大きな注目を集めている。 しかし、より現実的な環境での量子カーネルの適用可能性の探求は、現在のノイズ量子コンピュータの物理的な量子ビット数によって妨げられ、量子カーネルにエンコードされる機能の数は制限されている。 したがって、古典的技術を用いて量子コンピューティングのための効率的なアプリケーション固有のシミュレータが必要となる。 本稿では、画像分類のために実証的に設計された量子カーネルに注目し、フィールドプログラマブルゲートアレイ(FPGA)の実装を実証する。 我々は、異種CPU-FPGA計算による量子カーネル推定が、従来のCPU実装より470倍高速であることを示す。 アプリケーション固有の量子カーネルの共設計と,その効率的なFPGA実装により,最大780次元特徴量でゲートベースの量子カーネルの最大数値シミュレーションを行うことができた。 ファッショナリズムデータセットを用いた分類タスクに量子カーネルを適用し、最適化されたハイパーパラメータを持つガウスカーネルに匹敵する量子カーネルを示す。

The quantum kernel method has attracted considerable attention in the field of quantum machine learning. However, exploring the applicability of quantum kernels in more realistic settings has been hindered by the number of physical qubits current noisy quantum computers have, thereby limiting the number of features encoded for quantum kernels. Hence, there is a need for an efficient, application-specific simulator for quantum computing by using classical technology. Here we focus on quantum kernels empirically designed for image classification and demonstrate a field programmable gate arrays (FPGA) implementation. We show that the quantum kernel estimation by our heterogeneous CPU-FPGA computing is 470 times faster than that by a conventional CPU implementation. The co-design of our application-specific quantum kernel and its efficient FPGA implementation enabled us to perform one of the largest numerical simulations of a gate-based quantum kernel in terms of features, up to 780-dimensional features. We apply our quantum kernel to classification tasks using Fashion-MNIST dataset and show that our quantum kernel is comparable to Gaussian kernels with the optimized hyperparameter.
翻訳日:2023-09-12 23:32:58 公開日:2023-09-11
# グラフ上のマルチスケールワッサースタイン短経路フィルタカーネル

Multi-scale Wasserstein Shortest-path Filtration Kernels on Graphs ( http://arxiv.org/abs/2206.00979v3 )

ライセンス: Link先を確認
Wei Ye, Hao Tian, Qijun Chen(参考訳) 従来の短パスグラフカーネル(sp)は最も人気のあるグラフカーネルの1つである。 グラフを最短経路に分解し、各グラフの周波数を計算する。 しかしspには2つの大きな課題がある: まず、最短経路の三重項表現は情報を失う。 第二にspは、実世界のグラフでよく見られるグラフ構造の複数の異なるスケール、例えばソーシャルネットワークのチェーン、リング、スター構造を考慮せずにグラフを比較する。 これら2つの課題を克服するために,マルチスケールワッサースタイン短絡グラフカーネル (MWSPF) と呼ばれる新しい短絡グラフカーネルを開発した。 各頂点に根付いた一定の深さのBFS木を用いて、小世界特性を考慮した最短経路の最大長を制限している。 最短経路における全ての頂点のラベルを考える。 複数の異なるスケールでのグラフの比較を容易にするために、頂点とグラフ構造の両方の側面からグラフを強化する。 最短経路の分布(周波数)は拡張グラフをまたいで変化し、ワッサースタイン距離は変化を追跡するために用いられる。 MWSPFの性能を評価するために,様々なベンチマークグラフデータセットの実験を行った。 MWSPFは、ほとんどのデータセットの最先端よりも優れている。

The traditional shortest-path graph kernel (SP) is one of the most popular graph kernels. It decomposes graphs into shortest paths and computes their frequencies in each graph. However, SP has two main challenges: Firstly, the triplet representation of the shortest path loses information. Secondly, SP compares graphs without considering the multiple different scales of the graph structure which is common in real-world graphs, e.g., the chain-, ring-, and star-structures in social networks. To overcome these two challenges, we develop a novel shortest-path graph kernel called the Multi-scale Wasserstein Shortest-Path Filtration graph kernel (MWSPF). It uses a BFS tree of a certain depth rooted at each vertex to restrict the maximum length of the shortest path considering the small world property. It considers the labels of all the vertices in the shortest path. To facilitate the comparison of graphs at multiple different scales, it augments graphs from both the aspects of the vertex and the graph structure. The distribution (frequency) of the shortest path changes across augmented graphs and the Wasserstein distance is employed to track the changes. We conduct experiments on various benchmark graph datasets to evaluate MWSPF's performance. MWSPF is superior to the state-of-the-art on most datasets.
翻訳日:2023-09-12 23:32:25 公開日:2023-09-11
# 真空は、他のシミュラブルアーキテクチャに対する量子的優位性を提供する

The vacuum provides quantum advantage to otherwise simulatable architectures ( http://arxiv.org/abs/2205.09781v2 )

ライセンス: Link先を確認
Cameron Calcluth, Alessandro Ferraro, Giulia Ferrini(参考訳) 我々は,理想的なgottesman-kitaev-preskill安定化状態,すべての有理シンプレクティック演算と実変位を含むガウス演算,ホモダイン測定からなる計算モデルを考える。 計算結果の確率密度関数を計算するアルゴリズムを明示的に提供することにより,このようなアーキテクチャが古典的に効率的にシミュレーション可能であることを実証する。 また,回路が条件演算を含む場合にサンプリングする手法を提案する。 この結果は、手前のコードに対して適切な安定化作用素を導入することによって、有名なゴッテマン=クニールの定理の拡張に基づいている。 b.q. baragiolaらによって検討された普遍計算モデルにおける量子優位を実現する資源について考察する。 〔Phys. Rev. Lett. 123, 200502 (2019)] 上述の要素のサブセットを真空状態として加えたものが真空状態であることは事実である。

We consider a computational model composed of ideal Gottesman-Kitaev-Preskill stabilizer states, Gaussian operations - including all rational symplectic operations and all real displacements -, and homodyne measurement. We prove that such architecture is classically efficiently simulatable, by explicitly providing an algorithm to calculate the probability density function of the measurement outcomes of the computation. We also provide a method to sample when the circuits contain conditional operations. This result is based on an extension of the celebrated Gottesman-Knill theorem, via introducing proper stabilizer operators for the code at hand. We conclude that the resource enabling quantum advantage in the universal computational model considered by B.Q. Baragiola et al. [Phys. Rev. Lett. 123, 200502 (2019)], composed of a subset of the elements given above augmented with a provision of vacuum states, is indeed the vacuum state.
翻訳日:2023-09-12 23:31:53 公開日:2023-09-11
# 依存重みを持つディープニューラルネットワーク:ガウス過程混合限界、重尾、空間性と圧縮性

Deep neural networks with dependent weights: Gaussian Process mixture limit, heavy tails, sparsity and compressibility ( http://arxiv.org/abs/2205.08187v2 )

ライセンス: Link先を確認
Hoil Lee, Fadhel Ayed, Paul Jung, Juho Lee, Hongseok Yang and Fran\c{c}ois Caron(参考訳) 本稿では,重みが依存するディープフィードフォワードニューラルネットワークの無限幅極限について検討し,ガウス分布の混合によりモデル化する。 ネットワークの各隠れノードには、そのノードの出力重みの分散を制御する非負の確率変数が割り当てられる。 これらのノードごとの確率変数について最小の仮定をする:それらは iid であり、それらの和は各層において無限幅極限内の有限確率変数に収束する。 このモデルでは、無限幅ニューラルネットワークの各層は、正の実数に対する非負のスカラーパラメータとL''evy測度という2つの単純な量で特徴づけられることを示す。 スカラーパラメータが厳密に正であり、L''evy測度がすべての隠れた層で自明であれば、イド・ガウスウェイトで得られる古典的ガウス過程(GP)極限を回復する。 さらに興味深いことに、少なくとも一つの層のL''evy測度が非自明であれば、大幅極限におけるガウス過程(MoGP)の混合が得られる。 この状態におけるニューラルネットワークの挙動は、GP状態とは大きく異なる。 ガウス分布が非ガウス分布であり、おそらく重い尾を持つ相関出力を得る。 さらに,本手法では重みは圧縮可能であり,いくつかのノードには漸近的に無視できない寄与があり,そのため重要な隠れた特徴を表わす。 我々は,このアプローチの特別な場合として,多くのスパース性プロモーティングニューラルネットワークモデルを再キャストすることが可能であり,その無限幅限界について考察する。 シミュレーション,MNIST,Fashion MNISTデータセット上での表現学習と圧縮性の観点から,MoGP方式のGP方式に対する利点を述べる。

This article studies the infinite-width limit of deep feedforward neural networks whose weights are dependent, and modelled via a mixture of Gaussian distributions. Each hidden node of the network is assigned a nonnegative random variable that controls the variance of the outgoing weights of that node. We make minimal assumptions on these per-node random variables: they are iid and their sum, in each layer, converges to some finite random variable in the infinite-width limit. Under this model, we show that each layer of the infinite-width neural network can be characterised by two simple quantities: a non-negative scalar parameter and a L\'evy measure on the positive reals. If the scalar parameters are strictly positive and the L\'evy measures are trivial at all hidden layers, then one recovers the classical Gaussian process (GP) limit, obtained with iid Gaussian weights. More interestingly, if the L\'evy measure of at least one layer is non-trivial, we obtain a mixture of Gaussian processes (MoGP) in the large-width limit. The behaviour of the neural network in this regime is very different from the GP regime. One obtains correlated outputs, with non-Gaussian distributions, possibly with heavy tails. Additionally, we show that, in this regime, the weights are compressible, and some nodes have asymptotically non-negligible contributions, therefore representing important hidden features. Many sparsity-promoting neural network models can be recast as special cases of our approach, and we discuss their infinite-width limits; we also present an asymptotic analysis of the pruning error. We illustrate some of the benefits of the MoGP regime over the GP regime in terms of representation learning and compressibility on simulated, MNIST and Fashion MNIST datasets.
翻訳日:2023-09-12 23:31:37 公開日:2023-09-11
# 聴覚行動認識のための耐雑音性学習

Noise-Tolerant Learning for Audio-Visual Action Recognition ( http://arxiv.org/abs/2205.07611v3 )

ライセンス: Link先を確認
Haochen Han, Qinghua Zheng, Minnan Luo, Kaiyao Miao, Feng Tian and Yan Chen(参考訳) 近年,マルチモーダル学習の助けを借りて映像認識が登場し,モデルの性能やロバスト性を改善するために,異なるモダリティの統合に焦点を当てている。 様々なマルチモーダル学習手法が提案され、顕著な認識結果を提供しているが、これらの手法のほとんどは高品質なマニュアルアノテーションに依存し、マルチモーダルデータ間のモダリティが意味的に関連する情報を提供すると仮定している。 残念ながら、広く使われているビデオデータセットは通常、粗い注釈やインターネットから収集される。 したがって、必然的にノイズラベルの一部とノイズ対応を含む。 この課題に対処するために,音声・視覚行動認識タスクをプロキシとして使用し,雑音ラベルと雑音対応の両方に対して反干渉モデルパラメータを求めるための雑音耐性学習フレームワークを提案する。 具体的には,モダリティ間の固有相関による雑音の修正を目的とした2つの位相からなる。 まず、ノイズ耐性コントラスト訓練フェーズを行い、モデルがうる雑音ラベルデータに免疫させる。 ノイズ対応の影響を緩和するために,異なるモード間の一貫性を調整するクロスモーダル雑音推定コンポーネントを提案する。 インスタンスレベルでのノイズ対応が存在するため、その干渉を減らすためのカテゴリレベルのコントラスト損失も提案する。 第2に,ハイブリッド教師付きトレーニングフェーズでは,特徴間の距離メトリックを算出し,学習指導のための補完的監督として使用される補正ラベルを得る。 幅広い雑音レベルの実験により,本手法は動作認識モデルのロバスト性を大幅に改善し,ベースラインをクリアマージンで上回ることを示した。

Recently, video recognition is emerging with the help of multi-modal learning, which focuses on integrating distinct modalities to improve the performance or robustness of the model. Although various multi-modal learning methods have been proposed and offer remarkable recognition results, almost all of these methods rely on high-quality manual annotations and assume that modalities among multi-modal data provide semantically relevant information. Unfortunately, the widely used video datasets are usually coarse-annotated or collected from the Internet. Thus, it inevitably contains a portion of noisy labels and noisy correspondence. To address this challenge, we use the audio-visual action recognition task as a proxy and propose a noise-tolerant learning framework to find anti-interference model parameters against both noisy labels and noisy correspondence. Specifically, our method consists of two phases that aim to rectify noise by the inherent correlation between modalities. First, a noise-tolerant contrastive training phase is performed to make the model immune to the possible noisy-labeled data. To alleviate the influence of noisy correspondence, we propose a cross-modal noise estimation component to adjust the consistency between different modalities. As the noisy correspondence existed at the instance level, we further propose a category-level contrastive loss to reduce its interference. Second, in the hybrid-supervised training phase, we calculate the distance metric among features to obtain corrected labels, which are used as complementary supervision to guide the training. Extensive experiments on a wide range of noisy levels demonstrate that our method significantly improves the robustness of the action recognition model and surpasses the baselines by a clear margin.
翻訳日:2023-09-12 23:31:06 公開日:2023-09-11
# デバイス非依存ランダムネス抽出のための傾斜ハーディパラドックス

Tilted Hardy paradoxes for device-independent randomness extraction ( http://arxiv.org/abs/2205.02751v3 )

ライセンス: Link先を確認
Shuai Zhao, Ravishankar Ramanathan, Yuan Liu, and Pawe{\l} Horodecki(参考訳) デバイス非依存のパラダイムはランダム性の生成、鍵分布、自己テストにおいて目覚ましい成功を収めてきたが、これらの結果の多くは信頼とプライベートなランダムな種を持つと仮定して得られたものである。 測定独立性の仮定を緩和するために、ハーディの非局所性試験が理想的な候補として提案されている。 本稿では,完全2量子の絡み合った状態の自己テストと,最大1ビットの局所ランダム性証明を可能にする,傾きのあるハーディパラドックスのファミリを紹介する。 次に、傾斜したハーディ試験を用いて、任意の測定独立性を持つサンサ・ヴァジラニ(SV)源に対する最先端のランダム性増幅プロトコルの生成率を改善する。 デバイス非依存のランダム性増幅は、任意バイアスのSVソースとほぼ分離可能な状態から可能であることを示す。 最後に、diランダムネス抽出の潜在的な候補として、局所次元の最大絡み合い状態に対するハーディテストのファミリーを導入し、最大2 \log d$bit of global randomnessの最大値を証明する。

The device-independent paradigm has had spectacular successes in randomness generation, key distribution and self-testing, however most of these results have been obtained under the assumption that parties hold trusted and private random seeds. In efforts to relax the assumption of measurement independence, Hardy's non-locality tests have been proposed as ideal candidates. In this paper, we introduce a family of tilted Hardy paradoxes that allow to self-test general pure two-qubit entangled states, as well as certify up to $1$ bit of local randomness. We then use these tilted Hardy tests to obtain an improvement in the generation rate in the state-of-the-art randomness amplification protocols for Santha-Vazirani (SV) sources with arbitrarily limited measurement independence. Our result shows that device-independent randomness amplification is possible for arbitrarily biased SV sources and from almost separable states. Finally, we introduce a family of Hardy tests for maximally entangled states of local dimension $4, 8$ as the potential candidates for DI randomness extraction to certify up to the maximum possible $2 \log d$ bits of global randomness.
翻訳日:2023-09-12 23:30:40 公開日:2023-09-11
# 可変ポーズ最適化を用いたEnd2Endマルチビュー特徴マッチング

End2End Multi-View Feature Matching with Differentiable Pose Optimization ( http://arxiv.org/abs/2205.01694v3 )

ライセンス: Link先を確認
Barbara Roessle and Matthias Nie{\ss}ner(参考訳) 不正な特徴一致はその後のカメラのポーズ推定に深刻な影響を与え、しばしば不利な拒絶のためにRANSACのような追加の時間的な措置を必要とする。 提案手法は特徴マッチングとポーズ最適化を併用することでこの問題に対処する。 そこで本稿では,画像対応度と信頼度を予測するグラフアテンションネットワークを提案する。 結果の一致は、微分可能なポーズ推定における重み付き制約として機能する。 ScanNetのSuperGlueの6.7%に比べて、ポーズ最適化の勾配にマッチしたトレーニング機能は、自然にダウンウェイトなアウトレイラを学び、イメージペアのポーズ推定を向上する。 同時に、ポーズ推定時間を50%以上削減し、RANSACイテレーションを不要にする。 さらに、複数のフレームにまたがるグラフにまたがって複数のビューからの情報を統合し、一致を同時に予測する。 マルチビューマッチングとエンドツーエンドトレーニングを組み合わせることで、SuperGlueと比較してMatterport3Dのポーズ推定指標が18.5%向上する。

Erroneous feature matches have severe impact on subsequent camera pose estimation and often require additional, time-costly measures, like RANSAC, for outlier rejection. Our method tackles this challenge by addressing feature matching and pose optimization jointly. To this end, we propose a graph attention network to predict image correspondences along with confidence weights. The resulting matches serve as weighted constraints in a differentiable pose estimation. Training feature matching with gradients from pose optimization naturally learns to down-weight outliers and boosts pose estimation on image pairs compared to SuperGlue by 6.7% on ScanNet. At the same time, it reduces the pose estimation time by over 50% and renders RANSAC iterations unnecessary. Moreover, we integrate information from multiple views by spanning the graph across multiple frames to predict the matches all at once. Multi-view matching combined with end-to-end training improves the pose estimation metrics on Matterport3D by 18.5% compared to SuperGlue.
翻訳日:2023-09-12 23:30:20 公開日:2023-09-11
# 異なる画像・宇宙状態・システム・クロック間相互作用におけるページ・ウーター構成のロバスト性

Robustness of the Page-Wootters construction across different pictures, states of the universe and system-clock interactions ( http://arxiv.org/abs/2204.11740v3 )

ライセンス: Link先を確認
Simone Rijavec(参考訳) 量子論では、時間の概念は不安定な地面にある。 この問題を解決する一つの方法は、通常のバックグラウンド時間パラメータをプリミティブエンティティとして取り除き、物理システム間の相関を通じてその出現を説明することである。 このアプローチは、page and wootters (1983) によって採用され、2つのサブシステム間の相関関係から静止量子宇宙に時間がどのように出現するかを示した。 本研究では,異なる画像,宇宙の状態,時計相互作用におけるページ・ウータの構成の堅牢性について検討し,宇宙のサブシステム間の相関の役割と性質を明らかにする。 まずは、Heisenberg図でPage-Wootters構造を統一的な基底変更によって定式化する方法を示します。 私は、宇宙の純粋な状態と混合状態の両方を検討し、分析を、宇宙の他のサブシステムとの相互作用を含むように拡張する。 この研究は、建設に必要な相関関係を明らかにしている。 興味深いことに、時計との相互作用がなければ絡み合いは不要である。 この研究は、これらの相互作用が宇宙の混合状態の非単体進化につながることも示している。 単純な2レベルシステムでは、この側面は強い相対論的効果を期待するスケールで関係する。 このようなスケールでは、システムの時間方向の逆転も観察します。

In quantum theory, the concept of time rests on shaky ground. One way to address this problem is to remove the usual background time parameter as a primitive entity and explain its emergence via correlations between physical systems. This approach was adopted by Page and Wootters (1983), who showed how time can emerge in a stationary quantum universe from the correlations between two of its subsystems, one of them acting as a clock for the other. In this work, I study the robustness of the Page-Wootters construction across different pictures, states of the universe and clock interactions, clarifying the role and the nature of the correlations between the subsystems of the universe. I start by showing how to formulate the Page-Wootters construction in the Heisenberg picture via a unitary change of basis. I consider both pure and mixed states of the universe and extend the analysis to include interactions between the clock and the other subsystem of the universe. The study reveals what kind of correlations are necessary for the construction to work. Interestingly, entanglement is not required as long as there are no interactions with the clock. The study also shows that these interactions can lead to a non-unitary evolution for some mixed states of the universe. In a simple two-level system, this aspect becomes relevant at scales where one would expect strong relativistic effects. At these scales, I also observe an inversion in the system's direction of time.
翻訳日:2023-09-12 23:30:02 公開日:2023-09-11
# 駆動型超低温原子の自己組織化による多粒子交絡状態の生成

Generating multiparticle entangled states by self-organization of driven ultracold atoms ( http://arxiv.org/abs/2208.10111v3 )

ライセンス: Link先を確認
Ivor Kre\v{s}i\'c, Gordon R. M. Robb, Gian-Luca Oppo, Thorsten Ackemann(参考訳) 外部駆動下での非線形自己組織化により,超低温原子運動自由度を多粒子交絡状態へ誘導する機構について述べる。 多体モデルの2つの例が研究されている。 最初のモデルでは、外部駆動は時間的に振動する磁場であり、原子間散乱による自己組織化に繋がる。 2つ目のモデルでは、ドライブはポンプレーザーであり、リングキャビティ内の光子原子散乱による逆自己組織化につながる。 原子運動の多粒子絡み合い状態の発生を数値的に示し,モデルの将来的な実験実現について考察する。 空洞の場合,光子側バンドを断熱的に除去した計算は,「バッドキャビティ」状態においても大きな運動量絡みの発生を示す。 量子技術応用における原子運動の自己組織化の可能性を強調した。

We describe a mechanism for guiding the dynamical evolution of ultracold atomic motional degrees of freedom towards multiparticle entangled Dicke-squeezed states, via nonlinear self-organization under external driving. Two examples of many-body models are investigated. In the first model the external drive is a temporally oscillating magnetic field, leading to self-organization by interatomic scattering. In the second model the drive is a pump laser, leading to transverse self-organization by photon-atom scattering in a ring cavity. We numerically demonstrate the generation of multiparticle entangled states of atomic motion and discuss prospective experimental realizations of the models. For the cavity case, the calculations with adiabatically eliminated photon sidebands show significant momentum entanglement generation to occur even in the ``bad cavity" regime. The results highlight the potential for using self-organization of atomic motion in quantum technological applications.
翻訳日:2023-09-12 23:23:39 公開日:2023-09-11
# 想像すらできないことについて、私たちは何を知っているだろうか?

What can we know about that which we cannot even imagine? ( http://arxiv.org/abs/2208.03886v3 )

ライセンス: Link先を確認
David H. Wolpert(参考訳) このエッセイでは一連の質問を検討します。 最初の疑問は、知性の生物学的機能、特に人間の知性の認知的補綴に関するものである。 これらは、おそらく人類がこれまでに開発した最も重要な認知補綴物である人間の言語に関する疑問に繋がる。 人間の言語にカプセル化されている認知力についてラプソーズするのは伝統的ですが、人間言語がいかに恐ろしいほど制限されているかを強調します。 これは、人間数学が究極的には人間の言語で定式化されているかどうかという疑問にもつながります。 次に、これらの質問を組み合わせることで、このエッセイの指導的関心事に対する、部分的で、ある種の、サイドサイドの回答を提示します。

In this essay I will consider a sequence of questions. The first questions concern the biological function of intelligence in general, and cognitive prostheses of human intelligence in particular. These will lead into questions concerning human language, perhaps the most important cognitive prosthesis humanity has ever developed. While it is traditional to rhapsodize about the cognitive power encapsulated in human language, I will emphasize how horribly limited human language is -- and therefore how limited our cognitive abilities are, despite their being augmented with language. This will lead to questions of whether human mathematics, being ultimately formulated in terms of human language, is also deeply limited. I will then combine these questions to pose a partial, sort-of, sideways answer to the guiding concern of this essay: what we can ever discern about that we cannot even conceive?
翻訳日:2023-09-12 23:23:16 公開日:2023-09-11
# 3Dポイントクラウド表現学習におけるマスクオートエンコーダ

Masked Autoencoders in 3D Point Cloud Representation Learning ( http://arxiv.org/abs/2207.01545v2 )

ライセンス: Link先を確認
Jincen Jiang, Xuequan Lu, Lizhi Zhao, Richard Dazeley, Meili Wang(参考訳) トランスフォーマティブに基づく自己教師付き表現学習手法は、ラベルなしデータセットから汎用的な特徴を学習し、下流タスクに有用なネットワーク初期化パラメータを提供する。 近年,3次元点雲データに対する局所表面パッチのマスキングに基づく自己教師型学習が検討されている。 本稿では,自己教師型学習のための新しい自動符号化パラダイムである3Dポイントクラウド表現学習(MAE3D)におけるマスク付きオートエンコーダを提案する。 最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。 次に,パッチワイズmae3dトランスフォーマを使用して,ポイントクラウドパッチのローカル機能と,パッチ間のハイレベルなコンテキスト関係を学習し,マスクパッチの潜在表現を完成させる。 結果として、不完全なポイントクラウドを完成させるために、マルチタスクの損失を伴うポイントクラウドリコンストラクションモジュールを使用します。 本研究では,ShapeNet55上で,ポイントクラウド完了前テキストタスクによる事前学習を行い,ModelNet40およびScanObjectNN(PB\_T50\_RS,最も難しい変種)の事前学習モデルを微調整する。 包括的実験により、ポイントクラウドパッチからmae3dによって抽出されたローカル機能は、下流の分類タスクに有用であり、最先端のメソッドよりも優れた(それぞれ93.4\%$と8.6.2\%$の分類精度)。

Transformer-based Self-supervised Representation Learning methods learn generic features from unlabeled datasets for providing useful network initialization parameters for downstream tasks. Recently, self-supervised learning based upon masking local surface patches for 3D point cloud data has been under-explored. In this paper, we propose masked Autoencoders in 3D point cloud representation learning (abbreviated as MAE3D), a novel autoencoding paradigm for self-supervised learning. We first split the input point cloud into patches and mask a portion of them, then use our Patch Embedding Module to extract the features of unmasked patches. Secondly, we employ patch-wise MAE3D Transformers to learn both local features of point cloud patches and high-level contextual relationships between patches and complete the latent representations of masked patches. We use our Point Cloud Reconstruction Module with multi-task loss to complete the incomplete point cloud as a result. We conduct self-supervised pre-training on ShapeNet55 with the point cloud completion pre-text task and fine-tune the pre-trained model on ModelNet40 and ScanObjectNN (PB\_T50\_RS, the hardest variant). Comprehensive experiments demonstrate that the local features extracted by our MAE3D from point cloud patches are beneficial for downstream classification tasks, soundly outperforming state-of-the-art methods ($93.4\%$ and $86.2\%$ classification accuracy, respectively).
翻訳日:2023-09-12 23:21:30 公開日:2023-09-11
# in-medium similarity renormalization groupと密度行列再正規化群を組み合わせる:シェル構造と情報エントロピー

Combining the in-medium similarity renormalization group with the density matrix renormalization group: Shell structure and information entropy ( http://arxiv.org/abs/2207.01438v2 )

ライセンス: Link先を確認
A. Tichai, S. Knecht, A.T. Kruppa, \"O. Legeza, C.P. Moca, A. Schwenk, M.A. Werner, G. Zarand(参考訳) 本研究では,密度行列再正規化群 (dmrg) と原子価空間 (vs) を結合した新しい多体フレームワークを提案する。 このハイブリッドスキームは、直接対角化よりも大きな空間計算において好ましい計算スケーリングを許容する。 vs-dmrgアプローチのキャパシティは、キラルな2核および3核子相互作用に基づく中性子リッチニッケル同位体のab initio計算で強調され、地上および励起状態エネルギーの収束ab initio計算を可能にする。 また,VS-DMRGの軌道エンタングルメントについて検討し,酸素,ネオン,マグネシウム同位体の核相関効果について検討した。 調査された絡み合い対策は、核シェルの閉鎖とペアの相関を明らかにする。

We propose a novel many-body framework combining the density matrix renormalization group (DMRG) with the valence-space (VS) formulation of the in-medium similarity renormalization group. This hybrid scheme admits for favorable computational scaling in large-space calculations compared to direct diagonalization. The capacity of the VS-DMRG approach is highlighted in ab initio calculations of neutron-rich nickel isotopes based on chiral two- and three-nucleon interactions, and allows us to perform converged ab initio computations of ground and excited state energies. We also study orbital entanglement in the VS-DMRG, and investigate nuclear correlation effects in oxygen, neon, and magnesium isotopes. The explored entanglement measures reveal nuclear shell closures as well as pairing correlations.
翻訳日:2023-09-12 23:21:01 公開日:2023-09-11
# 任意の次元の開境界を持つ完全可解有限単純格子

Fully solvable finite simplex lattices with open boundaries in arbitrary dimensions ( http://arxiv.org/abs/2206.14779v4 )

ライセンス: Link先を確認
Ievgen I. Arkhipov, Adam Miranowicz, Franco Nori, \c{S}ahin K. \"Ozdemir, Fabrizio Minganti(参考訳) 有限単純格子モデルは、物理学の異なる分野、例えば凝縮物質物理学、フラストレーション磁気系や非エルミート局在現象の研究、あるいは化学において、混合物を用いた実験を記述する際に用いられる。 $n$-シプレックスは$n$次元の最も単純なポリトープを表し、例えば1次元、2次元、および3次元の直線セグメント、三角形、四面体である。 本研究では, 一般の非エルミート系において, 開境界を持つn$-simplex 格子モデル {with open boundary} が二次ボソニック系の高次場-モーメント空間から構築できることを示す。 すなわち、このようなn$-simplex 格子は、(k>n)$-dimensions における高退化イテレートポリトープ鎖の次元還元によって形成され、フィールドモーメント空間で自然に現れる。 本研究は, 実空間$n$-simplex 格子の非エルミート現象をシミュレートし, 同様の複雑さを示す多体系の構造に関する貴重な洞察を得るための多機能なプラットフォームを提供することを示す。 様々な応用の中で、これらの単純な構造は、量子信号処理と古典信号処理の両方に必須のツールである離散分数フーリエ変換を実装するための物理的な設定を提供することができる。

Finite simplex lattice models are used in different branches of science, e.g., in condensed matter physics, when studying frustrated magnetic systems and non-Hermitian localization phenomena; or in chemistry, when describing experiments with mixtures. An $n$-simplex represents the simplest possible polytope in $n$ dimensions, e.g., a line segment, a triangle, and a tetrahedron in one, two, and three dimensions, respectively. In this work, we show that various fully solvable, in general non-Hermitian, $n$-simplex lattice models {with open boundaries} can be constructed from the high-order field-moments space of quadratic bosonic systems. Namely, we demonstrate that such $n$-simplex lattices can be formed by a dimensional reduction of highly-degenerate iterated polytope chains in $(k>n)$-dimensions, which naturally emerge in the field-moments space. Our findings indicate that the field-moments space of bosonic systems provides a versatile platform for simulating real-space $n$-simplex lattices exhibiting non-Hermitian phenomena, and yield valuable insights into the structure of many-body systems exhibiting similar complexity. Amongst a variety of practical applications, these simplex structures can offer a physical setting for implementing the discrete fractional Fourier transform, an indispensable tool for both quantum and classical signal processing.
翻訳日:2023-09-12 23:20:47 公開日:2023-09-11
# コミュニケーション効率の良い分散学習のためのSGDの適応的トップK

Adaptive Top-K in SGD for Communication-Efficient Distributed Learning ( http://arxiv.org/abs/2210.13532v2 )

ライセンス: Link先を確認
Mengzhe Ruan, Guangfeng Yan, Yuanzhang Xiao, Linqi Song, Weitao Xu(参考訳) 勾配圧縮を伴う分散確率勾配降下(sgd)は、分散学習を加速するための通信効率の高いソリューションとなっている。 勾配圧縮の一般的な方法はTop-Kスペーシフィケーション(英語版)であり、モデルトレーニング中に勾配を一定度スペーシフィケーションする。 しかし、モデルの性能やトレーニング速度の可能性を最大化するために、スペーシフィケーション度を調整する適応的なアプローチが欠如している。 本稿では, 通信コストと収束誤差のトレードオフをバランスさせて, 収束性能を最適化するために, 勾配降下段ごとに適応度を調整できる新しいSGDフレームワークTop-Kを提案する。 まず,適応スパーシフィケーションスキームと損失関数に対して,収束誤差の上限を導出する。 次に,通信コスト制約下での収束誤差を最小限に抑えるアルゴリズムを提案する。 最後に、MNISTとCIFAR-10データセットの数値結果から、SGDにおける適応的Top-Kアルゴリズムは、誤り補償を考慮しても、最先端の手法に比べてはるかに優れた収束率が得られることが示された。

Distributed stochastic gradient descent (SGD) with gradient compression has become a popular communication-efficient solution for accelerating distributed learning. One commonly used method for gradient compression is Top-K sparsification, which sparsifies the gradients by a fixed degree during model training. However, there has been a lack of an adaptive approach to adjust the sparsification degree to maximize the potential of the model's performance or training speed. This paper proposes a novel adaptive Top-K in SGD framework that enables an adaptive degree of sparsification for each gradient descent step to optimize the convergence performance by balancing the trade-off between communication cost and convergence error. Firstly, an upper bound of convergence error is derived for the adaptive sparsification scheme and the loss function. Secondly, an algorithm is designed to minimize the convergence error under the communication cost constraints. Finally, numerical results on the MNIST and CIFAR-10 datasets demonstrate that the proposed adaptive Top-K algorithm in SGD achieves a significantly better convergence rate compared to state-of-the-art methods, even after considering error compensation.
翻訳日:2023-09-12 23:12:44 公開日:2023-09-11
# 量子ゲージネットワーク:新しい種類のテンソルネットワーク

Quantum Gauge Networks: A New Kind of Tensor Network ( http://arxiv.org/abs/2210.12151v5 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) テンソルネットワークは低次元量子物理学をシミュレートするための強力なツールであるが、テンソルネットワークアルゴリズムは高い空間次元において非常に計算コストが高い。 量子ゲージネットワーク(quantum gauge network)は、シミュレーションの計算コストがより大きな空間次元に対して明示的に増加しないテンソルネットワークアンサッツの一種である。 量子力学のゲージ図から着想を得た。量子力学は空間の各パッチの局所波動関数で構成され、隣接するパッチはユニタリ接続によって関連付けられる。 量子ゲージネットワーク(qgn)は、局所波動関数のヒルベルト空間次元と接続が切断される以外、同様の構造を持つ。 一般化波動関数あるいは行列積状態(MPS)からQGNを得る方法について述べる。 多くの作用素に対する任意の波動関数の2k$-point相関関数はすべて、結合次元 $o(m^k)$ の qgn によって正確に符号化できる。 対照的に、わずか$k=1$の場合、指数的に大きい2^{M/6}$の結合次元は、一般に量子ビットのMPSに対して必要である。 任意の空間次元における量子力学の近似シミュレーションのための簡単なQGNアルゴリズムを提供する。 近似力学は時間に依存しないハミルトニアンの正確なエネルギー保存を達成でき、空間対称性も正確に維持できる。 フェルミオンハミルトニアンの量子クエンチを最大3次元の空間次元でシミュレートしてアルゴリズムをベンチマークする。

Although tensor networks are powerful tools for simulating low-dimensional quantum physics, tensor network algorithms are very computationally costly in higher spatial dimensions. We introduce quantum gauge networks: a different kind of tensor network ansatz for which the computation cost of simulations does not explicitly increase for larger spatial dimensions. We take inspiration from the gauge picture of quantum dynamics, which consists of a local wavefunction for each patch of space, with neighboring patches related by unitary connections. A quantum gauge network (QGN) has a similar structure, except the Hilbert space dimensions of the local wavefunctions and connections are truncated. We describe how a QGN can be obtained from a generic wavefunction or matrix product state (MPS). All $2k$-point correlation functions of any wavefunction for $M$ many operators can be encoded exactly by a QGN with bond dimension $O(M^k)$. In comparison, for just $k=1$, an exponentially larger bond dimension of $2^{M/6}$ is generically required for an MPS of qubits. We provide a simple QGN algorithm for approximate simulations of quantum dynamics in any spatial dimension. The approximate dynamics can achieve exact energy conservation for time-independent Hamiltonians, and spatial symmetries can also be maintained exactly. We benchmark the algorithm by simulating the quantum quench of fermionic Hamiltonians in up to three spatial dimensions.
翻訳日:2023-09-12 23:12:22 公開日:2023-09-11
# 準ニュートン法を最適化する学習

Learning to Optimize Quasi-Newton Methods ( http://arxiv.org/abs/2210.06171v2 )

ライセンス: Link先を確認
Isaac Liao, Rumen R. Dangovski, Jakob N. Foerster, Marin Solja\v{c}i\'c(参考訳) 高速勾配に基づく最適化アルゴリズムは、機械学習モデルの計算効率の良いトレーニングにますます不可欠になっている。 一つのテクニックは、前条件行列によって勾配を乗じてステップを生成することであるが、最良の前条件行列が何であるかは不明である。 本稿では,最適化時に最適な事前条件をオンラインに提供しようとする,新しい機械学習オプティマイザlodoを紹介する。 具体的には、ニューラルネットワークとしてパラメータ化されたプレコンディショナーを学習するために、L2O(Learning to Optimize)技術と準ニュートン法を併用する。 他のl2oメソッドとは異なり、lodoはトレーニングタスクの分散上でのメタトレーニングを必要とせず、テストタスクを最適化しながらオンザフライで最適化することを学び、それをトラバースしながらロスランドスケープのローカル特性に適応する。 理論的には、我々のオプティマイザはノイズ損失景観における逆ヘッシアンを近似し、幅広い逆ヘッシアンを表現できることを示す。 我々は,提案アルゴリズムがノイズの多い設定で最適化できることを実験的に検証し,逆ヘッセン表現の簡易な代替手段が性能を悪化させることを示す。 最後に、オプティマイザを使用して、標準ニューラルネットワークオプティマイザと同等の速度で95kパラメータを持つ半現実的ディープニューラルネットワークをトレーニングします。

Fast gradient-based optimization algorithms have become increasingly essential for the computationally efficient training of machine learning models. One technique is to multiply the gradient by a preconditioner matrix to produce a step, but it is unclear what the best preconditioner matrix is. This paper introduces a novel machine learning optimizer called LODO, which tries to online meta-learn the best preconditioner during optimization. Specifically, our optimizer merges Learning to Optimize (L2O) techniques with quasi-Newton methods to learn preconditioners parameterized as neural networks; they are more flexible than preconditioners in other quasi-Newton methods. Unlike other L2O methods, LODO does not require any meta-training on a training task distribution, and instead learns to optimize on the fly while optimizing on the test task, adapting to the local characteristics of the loss landscape while traversing it. Theoretically, we show that our optimizer approximates the inverse Hessian in noisy loss landscapes and is capable of representing a wide range of inverse Hessians. We experimentally verify that our algorithm can optimize in noisy settings, and show that simpler alternatives for representing the inverse Hessians worsen performance. Lastly, we use our optimizer to train a semi-realistic deep neural network with 95k parameters at speeds comparable to those of standard neural network optimizers.
翻訳日:2023-09-12 23:11:35 公開日:2023-09-11
# 線形関数近似による時間差学習の有限時間解析:末尾平均化と正規化

Finite time analysis of temporal difference learning with linear function approximation: Tail averaging and regularisation ( http://arxiv.org/abs/2210.05918v2 )

ライセンス: Link先を確認
Gandharv Patil, Prashanth L.A., Dheeraj Nagaraj, Doina Precup(参考訳) 一般時間差学習アルゴリズム(popular temporal difference:td)の有限時間挙動をテール平均化と組み合わせて検討した。 予測された td の不動点の下にある行列の固有値に関する情報を必要としないステップサイズの選択の下で、テール平均 td のパラメータ誤差の有限時間境界を求める。 我々の分析は、テール平均TDは期待値と高い確率の両方で最適な$O\left(1/t\right)$レートで収束することを示している。 加えて、我々の境界は初期誤差(bias)に対してより鋭い減衰率を示し、全てのイテレートの平均よりも改善されている。 また,正規化を組み込んだtdの変種を提案し,解析する。 分析の結果,TDの正規化バージョンは不条件特徴の問題に有用であることがわかった。

We study the finite-time behaviour of the popular temporal difference (TD) learning algorithm when combined with tail-averaging. We derive finite time bounds on the parameter error of the tail-averaged TD iterate under a step-size choice that does not require information about the eigenvalues of the matrix underlying the projected TD fixed point. Our analysis shows that tail-averaged TD converges at the optimal $O\left(1/t\right)$ rate, both in expectation and with high probability. In addition, our bounds exhibit a sharper rate of decay for the initial error (bias), which is an improvement over averaging all iterates. We also propose and analyse a variant of TD that incorporates regularisation. From analysis, we conclude that the regularised version of TD is useful for problems with ill-conditioned features.
翻訳日:2023-09-12 23:11:12 公開日:2023-09-11
# 再帰的クロスビュー: 3dアノテーションなしで3dオブジェクト検出を実現するために2d検出器のみを使用する

Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object Detection without 3D Annotations ( http://arxiv.org/abs/2211.07108v2 )

ライセンス: Link先を確認
Shun Gui and Yan Luximon(参考訳) 3Dアノテーションに大きく依存することは、3Dオブジェクト検出の現実的な応用を制限する。 本稿では,完全指向の3dバウンディングボックスを予測しながら,いかなる3dアノテーションも必要としない手法を提案する。 提案手法は,Recursive Cross-View (RCV) と呼ばれ,3次元の原理に基づいて3次元検出を複数の2次元検出タスクに変換する。 そこで我々は,Cross-Viewによるインスタンス分割と3次元境界ボックス生成を収束するまで再帰的に行う再帰的パラダイムを提案する。 具体的には、フラストラムは2D検出器を介して提案され、続いて完全な3Dボックス、クラス、スコアを出力する再帰パラダイムが提案される。 実世界のシナリオで新たなタスクに迅速に使用できることを正当化するために,屋内3d人間検出,全方向3dハンド検出,実3dセンサによるリアルタイム検出という3つの実験を行った。 RCVはこれらの実験で十分な性能を発揮する。 トレーニングを済ませば、3Dアノテーションツールとして見ることができます。 その結果、他の3D検出器の事前訓練に使用できるRCVに基づく2つの3Dラベル付きデータセット、すなわち「3D_HUMAN」と「D_HAND」を定式化した。 さらに,sun rgb-dベンチマークで推定した本手法は,全3次元教師付き学習手法と同等の性能を実現する。 RCVは3Dラベルを消費せず、ポイントクラウド上で完全な3Dボックスを生成する最初の3D検出方法である。

Heavily relying on 3D annotations limits the real-world application of 3D object detection. In this paper, we propose a method that does not demand any 3D annotation, while being able to predict full-oriented 3D bounding boxes. Our method, called Recursive Cross-View (RCV), transforms 3D detection into several 2D detection tasks, which only consume some 2D labels, based on the three-view principle. We propose a recursive paradigm, in which instance segmentation and 3D bounding box generation by Cross-View are implemented recursively until convergence. Specifically, a frustum is proposed via a 2D detector, followed by the recursive paradigm that finally outputs a full-oriented 3D box, class, and score. To justify that our method can be quickly used to new tasks in real-world scenarios, we do three experiments, namely indoor 3D human detection, full-oriented 3D hand detection, and real-time detection on a real 3D sensor. RCV achieves decent performance in these experiments. Once trained, our method can be viewed as a 3D annotation tool. Consequently, we formulate two 3D labeled dataset, namely '3D_HUMAN' and 'D_HAND', based on RCV, which could be used to pre-train other 3D detectors. Furthermore, estimated on the SUN RGB-D benchmark, our method achieves comparable performance with some full 3D supervised learning methods. RCV is the first 3D detection method that does not consume 3D labels and yields full-oriented 3D boxes on point clouds.
翻訳日:2023-09-12 23:03:51 公開日:2023-09-11
# パラメータ化ハイパーコンプレックスニューラルネットワークを用いた心電図に基づく心房細動の効率的な検出

Efficient ECG-based Atrial Fibrillation Detection via Parameterised Hypercomplex Neural Networks ( http://arxiv.org/abs/2211.02678v3 )

ライセンス: Link先を確認
Leonie Basso, Zhao Ren, Wolfgang Nejdl(参考訳) 心房細動(af)は最も一般的な心不整脈であり、脳卒中などの重篤な疾患のリスクが高い。 心電図(ECG)から自動的かつタイムリーなAFアセスメントを組み込んだウェアラブルデバイスの使用は、生命を脅かす状況を防ぐ上で有望であることが示されている。 ディープニューラルネットワークはモデル性能に優れてきたが、ウェアラブルデバイスでの使用は、モデルパフォーマンスと複雑性のトレードオフによって制限されている。 本稿では,ECGに基づくAF検出のために,パラメータ化ハイパープレプレックス(PH)層を用いた軽量畳み込みニューラルネットワーク(CNN)を提案する。 提案手法は小型CNNを訓練し、ウェアラブルデバイス上の限られたコンピューティングリソースを克服する。 モデルパラメータが大幅に少ない2つの公開ECGデータセット上で、対応する実数値CNNに匹敵する性能を示す。 PHモデルは、他の超複雑ニューラルネットワークよりも柔軟であり、任意の入力ECGリードで動作する。

Atrial fibrillation (AF) is the most common cardiac arrhythmia and associated with a high risk for serious conditions like stroke. The use of wearable devices embedded with automatic and timely AF assessment from electrocardiograms (ECGs) has shown to be promising in preventing life-threatening situations. Although deep neural networks have demonstrated superiority in model performance, their use on wearable devices is limited by the trade-off between model performance and complexity. In this work, we propose to use lightweight convolutional neural networks (CNNs) with parameterised hypercomplex (PH) layers for AF detection based on ECGs. The proposed approach trains small-scale CNNs, thus overcoming the limited computing resources on wearable devices. We show comparable performance to corresponding real-valued CNNs on two publicly available ECG datasets using significantly fewer model parameters. PH models are more flexible than other hypercomplex neural networks and can operate on any number of input ECG leads.
翻訳日:2023-09-12 23:02:21 公開日:2023-09-11
# 言語モデルにおける口頭暗記の防止はプライバシーの誤った感覚をもたらす

Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy ( http://arxiv.org/abs/2210.17546v3 )

ライセンス: Link先を確認
Daphne Ippolito, Florian Tram\`er, Milad Nasr, Chiyuan Zhang, Matthew Jagielski, Katherine Lee, Christopher A. Choquette-Choo, Nicholas Carlini(参考訳) ニューラルネットワークモデルにおけるデータ記憶の研究は、トレーニングデータを取り除き、対策の開発を支援するモデルに関連するリスク(プライバシーや著作権など)を理解するのに役立つ。 トレーニングセットのサブストリングと正確に一致するモデル生成として定義される、多くの先行作業と最近展開されたディフェンスは、"verbatim memorization"にフォーカスしている。 我々は、動詞の暗記定義があまりに制限的であり、より微妙な暗記形式を捉えることができないと主張している。 具体的には、すべての動詞の暗記を完全に防止する効率的な防御を設計、実装します。 しかし,この「完璧な」フィルタは,トレーニングデータの漏洩を防止できないことを示す。 実際、暗記された情報を抽出するために、妥当で最小限修正された「スタイル転送」プロンプト(場合によっては修正されていないオリジナルプロンプトでさえも)が容易に回避できる。 最後に、潜在的な代替定義と記憶の定義が、ニューラルネットワークモデルにとって難しいが決定的なオープン問題である理由について論じる。

Studying data memorization in neural language models helps us understand the risks (e.g., to privacy or copyright) associated with models regurgitating training data and aids in the development of countermeasures. Many prior works -- and some recently deployed defenses -- focus on "verbatim memorization", defined as a model generation that exactly matches a substring from the training set. We argue that verbatim memorization definitions are too restrictive and fail to capture more subtle forms of memorization. Specifically, we design and implement an efficient defense that perfectly prevents all verbatim memorization. And yet, we demonstrate that this "perfect" filter does not prevent the leakage of training data. Indeed, it is easily circumvented by plausible and minimally modified "style-transfer" prompts -- and in some cases even the non-modified original prompts -- to extract memorized information. We conclude by discussing potential alternative definitions and why defining memorization is a difficult yet crucial open question for neural language models.
翻訳日:2023-09-12 23:01:43 公開日:2023-09-11
# 正弦波ニューラルネットワークの理解

Understanding Sinusoidal Neural Networks ( http://arxiv.org/abs/2212.01833v2 )

ライセンス: Link先を確認
Tiago Novello(参考訳) 本研究では,サイジンを活性化関数とする正弦波MLP-多層パーセプトロンネットワークの構造と表現能力について検討する。 これらのニューラルネットワーク(ニューラルネットワーク)は、画像、符号付き距離関数、放射場などのコンピュータグラフィックスにおける共通信号の表現において基礎となっている。 この成功は主にsinusoidal MLPの滑らかさとコンパクトさの2つの重要な性質に起因する。 これらの関数は、正弦関数を持つアフィン写像の構成から生じるため、滑らかである。 この研究は、正弦波型MLPのコンパクト性を正当化するための理論的結果を提供し、これらのネットワークの定義と訓練における制御機構を提供する。 調和和として拡張することで正弦波mlpを研究することを提案する。 まず、その第1層は入力正弦波ニューロンと呼ばれる調和辞書と見なすことができる。 すると、隠れた層がアフィンマップを用いてこの辞書を結合し、シンを用いて出力を変調し、これが洞状ニューロンの特別な辞書となる。 これらの正弦波ニューロンは、入力周波数の整数線形結合として表される多数の新しい周波数を生成する高調波和として膨張する。 したがって、各隠れニューロンは同じ周波数を生成し、対応する振幅は隠れアフィンマップによって完全に決定される。 また、上界とこれらの振幅をソートする方法を提供し、その結果の近似を制御でき、対応する級数を切り離すことができる。 最後に,正弦波MLPの訓練と初期化への応用について述べる。 さらに、入力ニューロンが周期的であれば、ネットワーク全体が同じ周期で周期的になることを示す。 これらの周期ネットワークとフーリエ級数表現を関連付ける。

In this work, we investigate the structure and representation capacity of sinusoidal MLPs - multilayer perceptron networks that use sine as the activation function. These neural networks (known as neural fields) have become fundamental in representing common signals in computer graphics, such as images, signed distance functions, and radiance fields. This success can be primarily attributed to two key properties of sinusoidal MLPs: smoothness and compactness. These functions are smooth because they arise from the composition of affine maps with the sine function. This work provides theoretical results to justify the compactness property of sinusoidal MLPs and provides control mechanisms in the definition and training of these networks. We propose to study a sinusoidal MLP by expanding it as a harmonic sum. First, we observe that its first layer can be seen as a harmonic dictionary, which we call the input sinusoidal neurons. Then, a hidden layer combines this dictionary using an affine map and modulates the outputs using the sine, this results in a special dictionary of sinusoidal neurons. We prove that each of these sinusoidal neurons expands as a harmonic sum producing a large number of new frequencies expressed as integer linear combinations of the input frequencies. Thus, each hidden neuron produces the same frequencies, and the corresponding amplitudes are completely determined by the hidden affine map. We also provide an upper bound and a way of sorting these amplitudes that can control the resulting approximation, allowing us to truncate the corresponding series. Finally, we present applications for training and initialization of sinusoidal MLPs. Additionally, we show that if the input neurons are periodic, then the entire network will be periodic with the same period. We relate these periodic networks with the Fourier series representation.
翻訳日:2023-09-12 22:53:10 公開日:2023-09-11
# DWRSeg: リアルタイムセマンティックセグメンテーションのためのマルチスケールコンテキスト情報の効率的な獲得再考

DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time Semantic Segmentation ( http://arxiv.org/abs/2212.01173v2 )

ライセンス: Link先を確認
Haoran Wei, Xu Liu, Shouchun Xu, Zhongjian Dai, Yaping Dai, Xiangyang Xu(参考訳) 現在の多くの研究は、直接的にマルチレートの奥行きを拡張した畳み込みを用いて、1つの入力特徴写像から同時にマルチスケールの文脈情報をキャプチャすることで、リアルタイムセマンティックセグメンテーションにおける特徴抽出効率を向上させる。 しかし、この設計は、不合理な構造とハイパーパラメータのため、マルチスケールのコンテキスト情報へのアクセスが困難になる可能性がある。 To lower the difficulty of drawing multi-scale contextual information, we propose a highly efficient multi-scale feature extraction method, which decomposes the original single-step method into two steps, Region Residualization-Semantic Residualization.In this method, the multi-rate depth-wise dilated convolutions take a simpler role in feature extraction: performing simple semantic-based morphological filtering with one desired receptive field in the second step based on each concise feature map of region form provided by the first step, to improve their efficiency. さらに,ネットワークステージ毎に拡張率と拡張畳み込み容量を精練し,実現可能な領域形式のすべての特徴マップを十分に活用し,さらに,高レベルネットワークと低レベルネットワーク向けに,新しい拡張ワイズ残差 (dwr) モジュールと簡易反転残差 (sir) モジュールを設計し,強力なdwrセグメント (dwrseg) ネットワークを形成する。 CityscapesとCamVidデータセットの大規模な実験は、より軽量なだけでなく、精度と推論速度の間の最先端のトレードオフを達成して、我々の手法の有効性を実証している。 プレトレーニングやトレーニングのトリックを使わずに、1台のNVIDIA GeForce GTX 1080 Tiカードで319.5 FPSで設定されたCityscapesテストで72.7%のmIoUを達成した。 コードとトレーニングされたモデルは公開されている。

Many current works directly adopt multi-rate depth-wise dilated convolutions to capture multi-scale contextual information simultaneously from one input feature map, thus improving the feature extraction efficiency for real-time semantic segmentation. However, this design may lead to difficult access to multi-scale contextual information because of the unreasonable structure and hyperparameters. To lower the difficulty of drawing multi-scale contextual information, we propose a highly efficient multi-scale feature extraction method, which decomposes the original single-step method into two steps, Region Residualization-Semantic Residualization.In this method, the multi-rate depth-wise dilated convolutions take a simpler role in feature extraction: performing simple semantic-based morphological filtering with one desired receptive field in the second step based on each concise feature map of region form provided by the first step, to improve their efficiency. Moreover, the dilation rates and the capacity of dilated convolutions for each network stage are elaborated to fully utilize all the feature maps of region form that can be achieved.Accordingly, we design a novel Dilation-wise Residual (DWR) module and a Simple Inverted Residual (SIR) module for the high and low level network, respectively, and form a powerful DWR Segmentation (DWRSeg) network. Extensive experiments on the Cityscapes and CamVid datasets demonstrate the effectiveness of our method by achieving a state-of-the-art trade-off between accuracy and inference speed, in addition to being lighter weight. Without pretraining or resorting to any training trick, we achieve an mIoU of 72.7% on the Cityscapes test set at a speed of 319.5 FPS on one NVIDIA GeForce GTX 1080 Ti card, which exceeds the latest methods of a speed of 69.5 FPS and 0.8% mIoU. The code and trained models are publicly available.
翻訳日:2023-09-12 22:52:45 公開日:2023-09-11
# OCT画像における網膜浮腫病変の信頼性の検討

Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images ( http://arxiv.org/abs/2212.00330v3 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Ke Zou, Yanyu Xu, Qingquan Meng, Rick Siow Mong Goh, Yong Liu, Xinxing Xu, and Huazhu Fu(参考訳) OCT画像からの網膜浮腫病変の関節分節化のタスクにおいて, ぼやけた境界, 症状のスケール差, 背景雑音の干渉など, 複雑な病態の特徴に着目し, より信頼性の高い分節化を図った。 本稿では,信頼性評価により精度の高いセグメンテーション結果が得られる,信頼性の高いマルチスケールウェーブレットエンハンスドトランスネットワークを提案する。 具体的には,OCT画像における網膜浮腫病変の複雑な病態を学習する能力の向上を目的として,新たに設計されたウェーブレット強化特徴抽出器ネットワークとマルチスケールトランスフォーマーモジュールを統合した,新たなセグメンテーションバックボーンを開発した。 一方、セグメンテーション結果の信頼性を高めるために、主観的論理実証理論に基づく新たな不確実性セグメンテーションヘッドを導入し、対応する全体不確実性評価スコアマップを用いて最終セグメンテーション結果を生成する。 網膜浮腫病変セグメンテーションにおけるai-challenge 2018の公開データベースについて総合的な実験を行い,本手法は他の最先端セグメンテーション法に比べて高い信頼性でセグメンテーション精度を達成できることを示した。 コードは、https://github.com/LooKing9218/ReliableRESegでリリースされる。

Focusing on the complicated pathological features, such as blurred boundaries, severe scale differences between symptoms, background noise interference, etc., in the task of retinal edema lesions joint segmentation from OCT images and enabling the segmentation results more reliable. In this paper, we propose a novel reliable multi-scale wavelet-enhanced transformer network, which can provide accurate segmentation results with reliability assessment. Specifically, aiming at improving the model's ability to learn the complex pathological features of retinal edema lesions in OCT images, we develop a novel segmentation backbone that integrates a wavelet-enhanced feature extractor network and a multi-scale transformer module of our newly designed. Meanwhile, to make the segmentation results more reliable, a novel uncertainty segmentation head based on the subjective logical evidential theory is introduced to generate the final segmentation results with a corresponding overall uncertainty evaluation score map. We conduct comprehensive experiments on the public database of AI-Challenge 2018 for retinal edema lesions segmentation, and the results show that our proposed method achieves better segmentation accuracy with a high degree of reliability as compared to other state-of-the-art segmentation approaches. The code will be released on: https://github.com/LooKing9218/ReliableRESeg.
翻訳日:2023-09-12 22:52:08 公開日:2023-09-11
# MRIによるアルツハイマー病・前頭側頭型認知症の鑑別診断

Deep grading for MRI-based differential diagnosis of Alzheimer's disease and Frontotemporal dementia ( http://arxiv.org/abs/2211.14096v2 )

ライセンス: Link先を確認
Huy-Dung Nguyen, Micha\"el Cl\'ement, Vincent Planche, Boris Mansencal, Pierrick Coup\'e(参考訳) アルツハイマー病と前頭側頭性認知症は神経変性性認知症の一般的な形態である。 行動変化と認知障害は両疾患の臨床経過で見られ、その鑑別診断は医師にとって困難である。 したがって、この診断課題に特化した正確なツールが臨床実践に有用である。 しかし,現在の構造的イメージング法は主に各疾患の検出に焦点が当てられているが,その鑑別診断はまれである。 本稿では,疾患検出と鑑別診断の両面において,深層学習に基づくアプローチを提案する。 本応用には, 構造グレーディングと構造萎縮の2種類のバイオマーカーの利用を提案する。 まず,健常人,アルツハイマー病患者,前頭側頭型認知症患者の解剖学的パターンを,構造MRIを入力として局所的に判定する3D U-Netの大規模なアンサンブルをトレーニングすることを提案する。 アンサンブルの出力は2チャンネルの病気の座標マップであり、臨床医にとって容易に解釈できる3次元階調マップに変換できる。 この2チャンネルマップは、異なる分類タスクのための多層パーセプトロン分類器と結合される。 第2に,ディープラーニングフレームワークとボリュームに基づく従来の機械学習戦略を組み合わせることで,モデルの識別能力と堅牢性を向上させることを提案する。 クロスバリデーション法と外部バリデーション法の両方を併用し,3319 MRIを用いた実験により,診断法と鑑別診断法を比較検討した。

Alzheimer's disease and Frontotemporal dementia are common forms of neurodegenerative dementia. Behavioral alterations and cognitive impairments are found in the clinical courses of both diseases and their differential diagnosis is sometimes difficult for physicians. Therefore, an accurate tool dedicated to this diagnostic challenge can be valuable in clinical practice. However, current structural imaging methods mainly focus on the detection of each disease but rarely on their differential diagnosis. In this paper, we propose a deep learning based approach for both problems of disease detection and differential diagnosis. We suggest utilizing two types of biomarkers for this application: structure grading and structure atrophy. First, we propose to train a large ensemble of 3D U-Nets to locally determine the anatomical patterns of healthy people, patients with Alzheimer's disease and patients with Frontotemporal dementia using structural MRI as input. The output of the ensemble is a 2-channel disease's coordinate map able to be transformed into a 3D grading map which is easy to interpret for clinicians. This 2-channel map is coupled with a multi-layer perceptron classifier for different classification tasks. Second, we propose to combine our deep learning framework with a traditional machine learning strategy based on volume to improve the model discriminative capacity and robustness. After both cross-validation and external validation, our experiments based on 3319 MRI demonstrated competitive results of our method compared to the state-of-the-art methods for both disease detection and differential diagnosis.
翻訳日:2023-09-12 22:51:22 公開日:2023-09-11
# エッジビデオ分析のためのタスク指向通信

Task-Oriented Communication for Edge Video Analytics ( http://arxiv.org/abs/2211.14049v2 )

ライセンス: Link先を確認
Jiawei Shao, Xinjie Zhang, Jun Zhang(参考訳) 人工知能(AI)技術の開発とカメラ搭載デバイスの普及により、多くのエッジビデオ分析アプリケーションが登場し、ネットワークエッジに計算集約型AIモデルを配置するよう呼びかけている。 エッジ推論は、計算集約的なワークロードをローエンドデバイスからビデオ分析用の強力なエッジサーバに移行する有望なソリューションだが、帯域幅が限られているため、デバイスとサーバ間の通信はボトルネックのままである。 本稿では,複数のデバイスが視覚感覚データを収集し,情報をエッジサーバに送信して処理を行う,エッジビデオ解析のためのタスク指向通信フレームワークを提案する。 低レイテンシ推論を可能にするために、このフレームワークは、空間的および時間的領域におけるビデオ冗長性を排除し、エッジサーバでのビデオを再構成するのではなく、下流タスクに不可欠な最小限の情報を送信する。 具体的には、決定論的情報ボトルネック(IB)原理に基づいて、その特徴の情報性と通信コストのトレードオフを特徴付けるコンパクトなタスク関連特徴を抽出する。 連続フレームの特徴は時間的に相関するので,特徴符号化において,前の特徴を側情報として捉えてビットレートを低減するための時間エントロピーモデル(TEM)を提案する。 推測性能をさらに向上するため,サーバに空間-時空間融合モジュールを構築し,現在のフレームと前のフレームの特徴を統合して共同推論を行う。 ビデオ分析タスクに関する広範囲な実験により,提案手法がビデオデータのタスク関連情報を効果的にエンコードし,既存の手法よりも優れたレートパフォーマンストレードオフを実現することが証明された。

With the development of artificial intelligence (AI) techniques and the increasing popularity of camera-equipped devices, many edge video analytics applications are emerging, calling for the deployment of computation-intensive AI models at the network edge. Edge inference is a promising solution to move the computation-intensive workloads from low-end devices to a powerful edge server for video analytics, but the device-server communications will remain a bottleneck due to the limited bandwidth. This paper proposes a task-oriented communication framework for edge video analytics, where multiple devices collect the visual sensory data and transmit the informative features to an edge server for processing. To enable low-latency inference, this framework removes video redundancy in spatial and temporal domains and transmits minimal information that is essential for the downstream task, rather than reconstructing the videos at the edge server. Specifically, it extracts compact task-relevant features based on the deterministic information bottleneck (IB) principle, which characterizes a tradeoff between the informativeness of the features and the communication cost. As the features of consecutive frames are temporally correlated, we propose a temporal entropy model (TEM) to reduce the bitrate by taking the previous features as side information in feature encoding. To further improve the inference performance, we build a spatial-temporal fusion module at the server to integrate features of the current and previous frames for joint inference. Extensive experiments on video analytics tasks evidence that the proposed framework effectively encodes task-relevant information of video data and achieves a better rate-performance tradeoff than existing methods.
翻訳日:2023-09-12 22:50:59 公開日:2023-09-11
# モデルに基づく残留政策学習とアンテナ制御への応用

Model Based Residual Policy Learning with Applications to Antenna Control ( http://arxiv.org/abs/2211.08796v3 )

ライセンス: Link先を確認
Viktor Eriksson M\"ollerstedt, Alessio Russo, Maxime Bouton(参考訳) 非微分コントローラとルールベースのポリシーは、通信ネットワークやロボットのような実システムを制御するために広く使われている。 具体的には、これらのポリシーによりモバイルネットワーク基地局アンテナのパラメータを動的に設定し、ユーザのカバレッジとサービス品質を改善する。 アンテナ傾斜制御問題に触発されたモデルベース残留政策学習(MBRPL)を実践的強化学習(RL)法として導入する。 MBRPLは、モデルベースアプローチによる既存のポリシーを強化し、市販のRL法と比較してサンプル効率の向上と実際の環境との相互作用の減少につながる。 実験結果から,本手法は従来のRL法よりも高効率であり,実ネットワークにこれらのアルゴリズムをデプロイするための一歩であることがわかった。

Non-differentiable controllers and rule-based policies are widely used for controlling real systems such as telecommunication networks and robots. Specifically, parameters of mobile network base station antennas can be dynamically configured by these policies to improve users coverage and quality of service. Motivated by the antenna tilt control problem, we introduce Model-Based Residual Policy Learning (MBRPL), a practical reinforcement learning (RL) method. MBRPL enhances existing policies through a model-based approach, leading to improved sample efficiency and a decreased number of interactions with the actual environment when compared to off-the-shelf RL methods.To the best of our knowledge, this is the first paper that examines a model-based approach for antenna control. Experimental results reveal that our method delivers strong initial performance while improving sample efficiency over previous RL methods, which is one step towards deploying these algorithms in real networks.
翻訳日:2023-09-12 22:49:14 公開日:2023-09-11
# シャドウグループを用いた量子多体ハミルトニアンの高効率エネルギー推定

Guaranteed efficient energy estimation of quantum many-body Hamiltonians using ShadowGrouping ( http://arxiv.org/abs/2301.03385v2 )

ライセンス: Link先を確認
Alexander Gresch, Martin Kliesch(参考訳) 量子多体系のエネルギーの推定は、様々な研究分野におけるパラダイム的課題である。 特に効率的なエネルギー推定は、実用的な問題に対する量子上の優位性を達成する上で重要である。 例えば、測定の努力は変分量子アルゴリズムにとって重要なボトルネックとなる。 本研究の目的は,全測定予算から最も高い証明可能な精度が得られる単一キュービット計測による最適戦略を見つけることである。 中心的なツールとして、エネルギーの実験的推定のための新しいテール境界を確立する。 エネルギー見積もりを改善するための測定設定を特定するのに役立ちます。 このタスクはNPハード問題を構成する。 しかし、我々はこのボトルネックを回避し、シャドウグループと呼ばれる実用的で効率的な見積もり戦略を開発するためにテール境界を使用することができます。 名前の通り、影推定法とパウリ弦の群戦略を組み合わせたものである。 数値実験において,ShadowGroupingは,様々な小分子の電子状態エネルギーを,証明可能な精度と実用的な精度のベンチマークで推定する上で,最先端の手法よりも優れていることを示す。 したがって、この研究は、例えば量子多体ハミルトニアンに関連する測定ボトルネックに取り組むための有望な方法を提供する。

Estimation of the energy of quantum many-body systems is a paradigmatic task in various research fields. In particular, efficient energy estimation may be crucial in achieving a quantum advantage for a practically relevant problem. For instance, the measurement effort poses a critical bottleneck for variational quantum algorithms. We aim to find the optimal strategy with single-qubit measurements that yields the highest provable accuracy given a total measurement budget. As a central tool, we establish new tail bounds for empirical estimators of the energy. They are helpful for identifying measurement settings that improve the energy estimate the most. This task constitutes an NP-hard problem. However, we are able to circumvent this bottleneck and use the tail bounds to develop a practical, efficient estimation strategy, which we call ShadowGrouping. As the name suggests, it combines shadow estimation methods with grouping strategies for Pauli strings. In numerical experiments, we demonstrate that ShadowGrouping outperforms state-of-the-art methods in estimating the electronic ground-state energies of various small molecules, both in provable and practical accuracy benchmarks. Hence, this work provides a promising way, e.g., to tackle the measurement bottleneck associated with quantum many-body Hamiltonians.
翻訳日:2023-09-12 22:43:25 公開日:2023-09-11
# リチウムイオン電池の予測と健康管理のための物理インフォームドニューラルネットワーク

Physics-Informed Neural Networks for Prognostics and Health Management of Lithium-Ion Batteries ( http://arxiv.org/abs/2301.00776v2 )

ライセンス: Link先を確認
Pengfei Wen, Zhi-Sheng Ye, Yong Li, Shaowei Chen, Pu Xie, Shuai Zhao(参考訳) リチウムイオン(Liイオン)電池の診断・健康管理(PHM)については,劣化過程を特徴付けるために多くのモデルが確立されている。 既存の経験モデルや物理モデルは、劣化ダイナミクスに関する重要な情報を明らかにすることができる。 しかし、これらのモデルで表現される情報を融合する一般的な、柔軟な方法は存在しない。 physics-informed neural network (pinn)は、経験的または物理的動的モデルをデータ駆動モデルと融合する効率的なツールである。 様々な情報ソースをフル活用するために,PINNに基づくモデル融合方式を提案する。 半経験的半物理偏微分方程式(PDE)を開発し、リチウムイオン電池の劣化ダイナミクスをモデル化する。 ダイナミクスに関する事前の知識がほとんどない場合、データ駆動型ディープ隠れ物理モデル(deephpm)を利用して、基盤となる動的モデルを見つけます。 発見されたダイナミクス情報は、PINNフレームワークのサロゲートニューラルネットワークがマイニングしたものと融合する。 さらに、PINNのトレーニング時に複数の学習タスクのバランスをとるために、不確実性に基づく適応重み付け手法を用いる。 提案手法はLi-イオンリン酸塩/グラファイト電池のパブリックデータセット上で検証される。

For Prognostics and Health Management (PHM) of Lithium-ion (Li-ion) batteries, many models have been established to characterize their degradation process. The existing empirical or physical models can reveal important information regarding the degradation dynamics. However, there are no general and flexible methods to fuse the information represented by those models. Physics-Informed Neural Network (PINN) is an efficient tool to fuse empirical or physical dynamic models with data-driven models. To take full advantage of various information sources, we propose a model fusion scheme based on PINN. It is implemented by developing a semi-empirical semi-physical Partial Differential Equation (PDE) to model the degradation dynamics of Li-ion batteries. When there is little prior knowledge about the dynamics, we leverage the data-driven Deep Hidden Physics Model (DeepHPM) to discover the underlying governing dynamic models. The uncovered dynamics information is then fused with that mined by the surrogate neural network in the PINN framework. Moreover, an uncertainty-based adaptive weighting method is employed to balance the multiple learning tasks when training the PINN. The proposed methods are verified on a public dataset of Li-ion Phosphate (LFP)/graphite batteries.
翻訳日:2023-09-12 22:42:09 公開日:2023-09-11
# Kerrパラメトリック発振器の量子状態トモグラフィ

Quantum state tomography for Kerr parametric oscillators ( http://arxiv.org/abs/2212.14627v2 )

ライセンス: Link先を確認
Yuta Suzuki, Shiro Kawabata, Tsuyoshi Yamamoto, Shumpei Masuda(参考訳) 回路QEDアーキテクチャで実装されたカーパラメトリック発振器(KPO)は量子ビットとして動作することができる。 量子アニールと普遍量子計算へのそれらの応用は激しく研究されている。 これらのアプリケーションにとって、KPOs状態の読み出しは実用上重要である。 反射計測を用いたKPOのための状態トモグラフィー手法を開発した。 反射係数はKPOの状態に依存することが知られているが、KPOに符号化された量子ビットのトモグラフィーを、測定中にデコヒーレンスを緩和する実用的な方法で行うことができるか、その正確性は明らかではない。 反射係数は、プローブ周波数を適切に選択し、追加の単光子ドライブを導入すると、キュービットの密度行列の対角素子と1対1の対応を持つことを示す。 このように,本手法は,ブロッホ球面の軸に沿って量子ビットを読み出す新しい方法を提供し,反射計測と単一量子ゲートが状態トモグラフィを構成することができる。

Kerr parametric oscillators (KPOs) implemented in the circuit QED architecture can operate as qubits. Their applications to quantum annealing and universal quantum computation have been studied intensely. For these applications, the readout of the state of KPOs is of practical importance. We develop a scheme of state tomography for KPOs with reflection measurement. Although it is known that the reflection coefficient depends on the state of the KPO, it is unclear whether tomography of a qubit encoded into a KPO can be performed in a practical way mitigating decoherence during the measurement, and how accurate it is. We show that the reflection coefficient has a one-to-one correspondence with a diagonal element of the density matrix of the qubit when a probe frequency is properly chosen and an additional single-photon-drive is introduced. Thus, our scheme offers a novel way to readout the qubit along an axis of the Bloch sphere, and therefore the reflection measurement and single-qubit gates can constitute state tomography.
翻訳日:2023-09-12 22:41:50 公開日:2023-09-11
# ディープニューラルネットワークは2年生よりスマートか?

Are Deep Neural Networks SMARTer than Second Graders? ( http://arxiv.org/abs/2212.09993v6 )

ライセンス: Link先を確認
Anoop Cherian, Kuan-Chuan Peng, Suhas Lohit, Kevin A. Smith, Joshua B. Tenenbaum(参考訳) 最近では、高度な認知能力を必要とするタスク(例えば、囲い込み、アートの生成、チャットgptなど)を解決するためのディープニューラルネットワークの応用が増えている。 幅広いスキルを必要とする問題を解決する上で、ニューラルネットワークはどの程度一般化可能か? この質問に答えるために、ニューラルネットワークの抽象化、推論、一般化能力を評価するための、単純なマルチモーダルアルゴリズム推論タスクと関連するsmart-101データセットを提案する。 私たちのデータセットは101の独特なパズルで構成されており、それぞれのパズルは絵と質問で構成されており、それらの解には算術、代数、空間的推論などいくつかの基本的なスキルが必要です。 ディープニューラルネットワークのトレーニングに向けてデータセットをスケールするために、解アルゴリズムを維持しながら、パズルごとに完全に新しいインスタンスをプログラムで生成する。 SMART-101の性能をベンチマークするために,様々な最先端のバックボーンを用いた視覚・言語メタラーニングモデルを提案する。 実験の結果,強力な深層モデルでは教師付き環境下でのパズルに対して妥当な性能が得られたが,一般化のための解析ではランダムな精度に劣らないことがわかった。 また,最近のChatGPTや他の大規模言語モデルをSMART-101のサブセットで評価した結果,これらのモデルが合理的な推論能力を示す一方で,解答はしばしば誤りであることがわかった。

Recent times have witnessed an increasing number of applications of deep neural networks towards solving tasks that require superior cognitive abilities, e.g., playing Go, generating art, ChatGPT, etc. Such a dramatic progress raises the question: how generalizable are neural networks in solving problems that demand broad skills? To answer this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task and the associated SMART-101 dataset, for evaluating the abstraction, deduction, and generalization abilities of neural networks in solving visuo-linguistic puzzles designed specifically for children in the 6--8 age group. Our dataset consists of 101 unique puzzles; each puzzle comprises a picture and a question, and their solution needs a mix of several elementary skills, including arithmetic, algebra, and spatial reasoning, among others. To scale our dataset towards training deep neural networks, we programmatically generate entirely new instances for each puzzle, while retaining their solution algorithm. To benchmark performances on SMART-101, we propose a vision and language meta-learning model using varied state-of-the-art backbones. Our experiments reveal that while powerful deep models offer reasonable performances on puzzles in a supervised setting, they are not better than random accuracy when analyzed for generalization. We also evaluate the recent ChatGPT and other large language models on a subset of SMART-101 and find that while these models show convincing reasoning abilities, the answers are often incorrect.
翻訳日:2023-09-12 22:41:34 公開日:2023-09-11
# 半教師付き連続学習のためのソフト近接学習フレームワーク

A soft nearest-neighbor framework for continual semi-supervised learning ( http://arxiv.org/abs/2212.05102v3 )

ライセンス: Link先を確認
Zhiqi Kang, Enrico Fini, Moin Nabi, Elisa Ricci, Karteek Alahari(参考訳) 重要な進歩にもかかわらず、最先端の連続学習アプローチのパフォーマンスは、完全にラベル付けされたデータの非現実的なシナリオにかかっている。 本稿では,この課題に対処し,全てのデータサンプルがラベル付けされていないような連続的半教師付き学習へのアプローチを提案する。 このシナリオにおける主要な問題は、ラベルなしデータの表現を忘れ、ラベル付きサンプルをオーバーフィットするモデルである。 最寄りの分類器のパワーを利用して特徴空間を非線形に分割し、非パラメトリックな性質により基礎となるデータ分布を柔軟にモデル化する。 これにより、モデルは現在のタスクの強い表現を学び、以前のタスクから関連する情報を抽出することができる。 実験結果から,本手法は従来の手法よりも大きなマージンで優れており,連続的な半教師付き学習パラダイムに基づく技術が確立されていることを示す。 例えば、CIFAR-100では、少なくとも30倍の監督(アノテーションの0.8%対25%)を使用する場合でさえ、他の数を上回っています。 最後に,本手法は低解像度と高解像度の両方で有効であり,ImageNet-100のような複雑なデータセットにシームレスにスケールする。 コードはhttps://github.com/kangzhiq/NNCSLで公開されている。

Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning--a setting where not all the data samples are labeled. A primary issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled samples. We leverage the power of nearest-neighbor classifiers to nonlinearly partition the feature space and flexibly model the underlying data distribution thanks to its non-parametric nature. This enables the model to learn a strong representation for the current task, and distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a solid state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR-100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations). Finally, our method works well on both low and high resolution images and scales seamlessly to more complex datasets such as ImageNet-100. The code is publicly available on https://github.com/kangzhiq/NNCSL
翻訳日:2023-09-12 22:40:13 公開日:2023-09-11
# 欠落データインプテーションの正規化による条件付期待

Conditional expectation with regularization for missing data imputation ( http://arxiv.org/abs/2302.00911v3 )

ライセンス: Link先を確認
Mai Anh Vu, Thu Nguyen, Tu T. Do, Nhan Phan, Nitesh V. Chawla, P{\aa}l Halvorsen, Michael A. Riegler, Binh T. Nguyen(参考訳) 欠落したデータは、医学、スポーツ、金融など、さまざまな分野のデータセットで頻繁に発生する。 多くの場合、そのようなデータの適切な信頼性のある解析を可能にするために、欠落した値はしばしばインプットされ、使用法はインプットと真の値の間に低いルート平均二乗誤差(RMSE)を持つ必要がある。 さらに、いくつかの重要なアプリケーションでは、命令法がスケーラブルであり、命令法の背後にあるロジックが説明可能であるという要求もしばしばある。 これらの考察に基づき,「正規化を伴う欠落値の条件分布に基づくインプテーション」(dimv)という新しいアルゴリズムを提案する。 DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。 論文での実験で示されるように、dimvは i) 最先端の方法と比較して,インプット値のRMSEが低いこと。 (ii)高速でスケーラブルなもの 三) 回帰モデルにおける係数として説明でき、信頼性及び信頼性のある分析を可能にし、医療分野、財務分野等において理解が重要である重要な領域に好適な選択となる。 (iv) あるサンプルの欠落値に対する近似信頼領域を提供することができる。 (v) 小規模かつ大規模なデータに適したもの (vi)多くのシナリオでは、ディープラーニングアプローチとして大量のパラメータを必要としない。 (vii)命令の多行性を効果的に扱うこと、及び (viii) は、理論的な根拠が依存する通常分布した仮定に頑健である。

Missing data frequently occurs in datasets across various domains, such as medicine, sports, and finance. In many cases, to enable proper and reliable analyses of such data, the missing values are often imputed, and it is necessary that the method used has a low root mean square error (RMSE) between the imputed and the true values. In addition, for some critical applications, it is also often a requirement that the imputation method is scalable and the logic behind the imputation is explainable, which is especially difficult for complex methods that are, for example, based on deep learning. Based on these considerations, we propose a new algorithm named "conditional Distribution-based Imputation of Missing Values with Regularization" (DIMV). DIMV operates by determining the conditional distribution of a feature that has missing entries, using the information from the fully observed features as a basis. As will be illustrated via experiments in the paper, DIMV (i) gives a low RMSE for the imputed values compared to state-of-the-art methods; (ii) fast and scalable; (iii) is explainable as coefficients in a regression model, allowing reliable and trustable analysis, makes it a suitable choice for critical domains where understanding is important such as in medical fields, finance, etc; (iv) can provide an approximated confidence region for the missing values in a given sample; (v) suitable for both small and large scale data; (vi) in many scenarios, does not require a huge number of parameters as deep learning approaches; (vii) handle multicollinearity in imputation effectively; and (viii) is robust to the normally distributed assumption that its theoretical grounds rely on.
翻訳日:2023-09-12 22:33:13 公開日:2023-09-11
# quantum ridgelet transform: 量子計算によるニューラルネットワークの抽選チケット

Quantum Ridgelet Transform: Winning Lottery Ticket of Neural Networks with Quantum Computation ( http://arxiv.org/abs/2301.11936v2 )

ライセンス: Link先を確認
Hayata Yamasaki, Sathyawageeswar Subramanian, Satoshi Hayakawa, Sho Sonoda(参考訳) 量子機械学習(qml)の分野で重要な課題は、ニューラルネットワークのような機械学習の共通タスクを加速するために量子計算の応用を確立することである。 リッジレット変換はニューラルネットワークの理論研究における基本的な数学的ツールであったが、従来の古典計算による数値的実装はデータ次元$d$が増加するにつれて指数関数型ランタイム$\exp(o(d))$を必要とするため、リッジレット変換の学習タスクへの適用性は限られていた。 この問題に対処するために、線形実行時$O(D)$の量子計算において、量子状態のリッジレット変換を実装する量子リッジレット変換(QRT)を開発した。 アプリケーションとして、QMLの基本的なサブルーチンとしてQRTを使用することで、元のネットワークを大規模に最適化することなく、大きな浅層ニューラルネットワークのスパーストレーニング可能なサブネットワークを効率的に見つけることができることを示す。 このアプリケーションは、このような疎いトレーニング可能なニューラルネットワークを見つける上で、宝くじの仮説を示すための効率的な方法を発見する。 これらの結果は、よく使われる古典的ニューラルネットワークを用いた学習タスクを加速するためのQMLの道を開く。

A significant challenge in the field of quantum machine learning (QML) is to establish applications of quantum computation to accelerate common tasks in machine learning such as those for neural networks. Ridgelet transform has been a fundamental mathematical tool in the theoretical studies of neural networks, but the practical applicability of ridgelet transform to conducting learning tasks was limited since its numerical implementation by conventional classical computation requires an exponential runtime $\exp(O(D))$ as data dimension $D$ increases. To address this problem, we develop a quantum ridgelet transform (QRT), which implements the ridgelet transform of a quantum state within a linear runtime $O(D)$ of quantum computation. As an application, we also show that one can use QRT as a fundamental subroutine for QML to efficiently find a sparse trainable subnetwork of large shallow wide neural networks without conducting large-scale optimization of the original network. This application discovers an efficient way in this regime to demonstrate the lottery ticket hypothesis on finding such a sparse trainable neural network. These results open an avenue of QML for accelerating learning tasks with commonly used classical neural networks.
翻訳日:2023-09-12 22:32:29 公開日:2023-09-11
# nft促進詐欺のリスクを明らかにする

Unveiling the Risks of NFT Promotion Scams ( http://arxiv.org/abs/2301.09806v3 )

ライセンス: Link先を確認
Sayak Saha Roy, Dipanjan Das, Priyanka Bose, Christopher Kruegel, Giovanni Vigna, Shirin Nilizadeh(参考訳) nft(non-fungible tokens)という形で、アート、ビデオ、音楽などのデジタル資産を取り巻く人気と誇大宣伝が急速に高まり、2021年だけで25億ドルを突破した。 しかし、NFTエコシステムのボラティリティと技術的な理解の欠如が、様々な詐欺の拡散につながっている。 NFTの成功は、そのオンラインバイラル性に大きく依存している。 その結果、クリエイターは専用のプロモーションサービスを使用して、Twitterなどのソーシャルメディアサイトでプロジェクトへのエンゲージメントを促進している。 しかし、これらのサービスは詐欺師によってユーザーの暗号通貨資産を盗もうとする不正プロジェクトの促進にも利用されており、NTT販売のエコシステムに大きな脅威をもたらしている。 本稿では,Twitter上で439のプロモーションサービス(アカウント)を縦断調査し,約2ヶ月にわたる有償競争を通じて823のユニークなNFTプロジェクトを推進した。 調査の結果,これらのプロジェクトの36%以上がフィッシング,ラグプル,プレミント詐欺などの不正行為であったことがわかった。 また、これらのプロモーションに携わるほとんどのアカウント(不正なNFTプロジェクトを含む)は、好き嫌い、フォロワー、リツイート数を増やすことで、不正なNFTコレクションの人気を人工的に向上させるボットであることが判明した。 この操作は、実際のユーザーからかなりのエンゲージメントをもたらし、これらの詐欺に投資する。 また,NFTベースの詐欺検出において,ブロックリストやブラウザ保護ツール,ドメインホスティングサービスなど,既存のアンチ詐欺対策の欠点をいくつか挙げる。 我々はこの発見を利用して、Twitter上で382の新しい不正NFTプロジェクトを積極的に検出できる機械学習分類ツールを開発した。

The rapid growth in popularity and hype surrounding digital assets such as art, video, and music in the form of non-fungible tokens (NFTs) has made them a lucrative investment opportunity, with NFT-based sales surpassing $25B in 2021 alone. However, the volatility and general lack of technical understanding of the NFT ecosystem have led to the spread of various scams. The success of an NFT heavily depends on its online virality. As a result, creators use dedicated promotion services to drive engagement to their projects on social media websites, such as Twitter. However, these services are also utilized by scammers to promote fraudulent projects that attempt to steal users' cryptocurrency assets, thus posing a major threat to the ecosystem of NFT sales. In this paper, we conduct a longitudinal study of 439 promotion services (accounts) on Twitter that have collectively promoted 823 unique NFT projects through giveaway competitions over a period of two months. Our findings reveal that more than 36% of these projects were fraudulent, comprising of phishing, rug pull, and pre-mint scams. We also found that a majority of accounts engaging with these promotions (including those for fraudulent NFT projects) are bots that artificially inflate the popularity of the fraudulent NFT collections by increasing their likes, followers, and retweet counts. This manipulation results in significant engagement from real users, who then invest in these scams. We also identify several shortcomings in existing anti-scam measures, such as blocklists, browser protection tools, and domain hosting services, in detecting NFT-based scams. We utilized our findings to develop a machine learning classifier tool that was able to proactively detect 382 new fraudulent NFT projects on Twitter.
翻訳日:2023-09-12 22:31:44 公開日:2023-09-11
# レバレッジレビュー:バイヤーとセラーの不確実性による価格の学習

Leveraging Reviews: Learning to Price with Buyer and Seller Uncertainty ( http://arxiv.org/abs/2302.09700v2 )

ライセンス: Link先を確認
Wenshuo Guo, Nika Haghtalab, Kirthevasan Kandasamy, Ellen Vitercik(参考訳) オンラインマーケットプレースでは、顧客は単一の製品に対する数百のレビューにアクセスできます。 購入者は、服の身長、スキンケア製品用のスキンタイプ、屋外家具の場所など、自分のタイプを共有する他の顧客からのレビューを使って、優先順位を知らないかもしれない価値を見積もることが多い。 関連するレビューがほとんどない顧客は、低価格で購入することをためらうため、売り手にとって、高い価格設定と、買い手が自信を持って自分の価値を見積もることができる十分なレビューがあることの確証との間には緊張がある。 同時に、売り手は、売りたい商品の需要を評価するためにレビューを利用することができる。 本研究では、この価格問題を、販売者が一連のT$ラウンドで、有限個のタイプの購入者と相互作用するオンライン環境で検討する。 各ラウンドにおいて、売り手はまず価格を設定する。 次に買い手が到着し、同じタイプの前の買い手のレビューを調べ、その買い手の元ポストの価値を明らかにする。 レビューに基づいて、買い手は、前者のユーティリティが肯定的であると信じる正当な理由があるかどうかを判断する。 重要なことに、売り手は、価格を設定するときの買い手のタイプや、タイプに対する分配さえ知らない。 我々は、売り手が高い収入を得るために使用できる非レグレットアルゴリズムを提供する。 d$型があると、$t$ ラウンドの後、アルゴリズムは問題に依存しない$\tilde o(t^{2/3}d^{1/3})$ regretboundを達成する。 しかしながら、任意の型が現れる最小の確率 $q_{\text{min}}$ が大きければ、特に$q_{\text{min}} \in \omega(d^{-2/3}t^{-1/3})$ の場合、同じアルゴリズムは$\tilde o(t^{1/2}q_{\text{min}}^{-1/2})$ regret bound が得られる。 これらの上限を両方の条件で一致した下限で補うことで,アルゴリズムが下位項まで最適であることを示す。

In online marketplaces, customers have access to hundreds of reviews for a single product. Buyers often use reviews from other customers that share their type -- such as height for clothing, skin type for skincare products, and location for outdoor furniture -- to estimate their values, which they may not know a priori. Customers with few relevant reviews may hesitate to make a purchase except at a low price, so for the seller, there is a tension between setting high prices and ensuring that there are enough reviews so that buyers can confidently estimate their values. Simultaneously, sellers may use reviews to gauge the demand for items they wish to sell. In this work, we study this pricing problem in an online setting where the seller interacts with a set of buyers of finitely many types, one by one, over a series of $T$ rounds. At each round, the seller first sets a price. Then a buyer arrives and examines the reviews of the previous buyers with the same type, which reveal those buyers' ex-post values. Based on the reviews, the buyer decides to purchase if they have good reason to believe that their ex-ante utility is positive. Crucially, the seller does not know the buyer's type when setting the price, nor even the distribution over types. We provide a no-regret algorithm that the seller can use to obtain high revenue. When there are $d$ types, after $T$ rounds, our algorithm achieves a problem-independent $\tilde O(T^{2/3}d^{1/3})$ regret bound. However, when the smallest probability $q_{\text{min}}$ that any given type appears is large, specifically when $q_{\text{min}} \in \Omega(d^{-2/3}T^{-1/3})$, then the same algorithm achieves a $\tilde O(T^{1/2}q_{\text{min}}^{-1/2})$ regret bound. We complement these upper bounds with matching lower bounds in both regimes, showing that our algorithm is minimax optimal up to lower-order terms.
翻訳日:2023-09-12 22:23:28 公開日:2023-09-11
# グラフに基づくクラス不均衡ボット検出のための特徴空間のオーバーサンプリング戦略

Over-Sampling Strategy in Feature Space for Graphs based Class-imbalanced Bot Detection ( http://arxiv.org/abs/2302.06900v2 )

ライセンス: Link先を確認
Shuhao Shi, Kai Qiao, Jie Yang, Baojie Song, Jian Chen and Bin Yan(参考訳) オンラインソーシャルネットワーク(OSN)に多数のボットが存在することは、望ましくない社会的影響をもたらす。 グラフニューラルネットワーク(GNN)は,ユーザインタラクションを利用するボットの検出に有効である。 しかし、クラス不均衡の問題はボット検出性能に影響を及ぼす可能性がある。 そこで我々は,エッジ合成を行わずにマイノリティクラスのサンプルを生成するgnn (os-gnn) のオーバーサンプリング戦略を提案する。 まず、ノードの特徴を近傍の集約を通じて特徴空間にマッピングする。 そして、特徴空間におけるマイノリティクラスのためのサンプルを生成する。 最後に、拡張機能を使用して分類器を訓練する。 このフレームワークは汎用的で、簡単に異なるGNNアーキテクチャに拡張できる。 提案するフレームワークは,3つの実世界のボット検出ベンチマークデータセットを用いて評価し,ベースラインよりも常に優位性を示す。

The presence of a large number of bots in Online Social Networks (OSN) leads to undesirable social effects. Graph neural networks (GNNs) are effective in detecting bots as they utilize user interactions. However, class-imbalanced issues can affect bot detection performance. To address this, we propose an over-sampling strategy for GNNs (OS-GNN) that generates samples for the minority class without edge synthesis. First, node features are mapped to a feature space through neighborhood aggregation. Then, we generate samples for the minority class in the feature space. Finally, the augmented features are used to train the classifiers. This framework is general and can be easily extended into different GNN architectures. The proposed framework is evaluated using three real-world bot detection benchmark datasets, and it consistently exhibits superiority over the baselines.
翻訳日:2023-09-12 22:21:17 公開日:2023-09-11
# 不確かさを意識した肺結節分節と不確かさ領域予測

Lung Nodule Segmentation and Uncertain Region Prediction with an Uncertainty-Aware Attention Mechanism ( http://arxiv.org/abs/2303.08416v5 )

ライセンス: Link先を確認
Han Yang, Qiuli Wang, Yue Zhang, Zhulin An, Chen Liu, Xiaohong Zhang, S. Kevin Zhou(参考訳) 放射線医は様々な訓練や臨床経験を有しており、肺結節の分節アノテーションのばらつきを招き、分節不確実性をもたらす。従来手法では、学習対象として1つのアノテーションを選択したり、複数のアノテーションを含む潜伏空間を学習しようとする試みが一般的であった。 しかし、これらのアプローチは、複数のアノテーション間の合意と不一致に固有の貴重な情報を活用することができない。 本稿では,複数アノテーション間のコンセンサスと不一致を利用してセグメンテーションを改善する不確実性認識注意機構(UAAM)を提案する。 この目的のために,低信頼(LC)マスクと高信頼(HC)マスクを組み合わせたMCM(Multi-Confidence Mask)を導入する。 UAAMの後、我々はさらに3つのモジュールを含むUncertainty-Guide Multi-Confidence Segmentation Network (UGMCS-Net)を設計した。肺結節の一般的な特徴をキャプチャするFeature Extracting Module、アノテーションの結合、交叉、アノテーションセットの3つの特徴を生成するUncertainty-Aware Module、そして3つの特徴間の距離を利用して最終セグメンテーションとMCMの予測のバランスをとるIntersection-Union Constraining Moduleである。 本手法の性能を網羅的に示すため, LIDC-IDRI を用いた複雑結節検証法を提案し, UGMCS-Net の肺結節に対するセグメンテーション性能の検証を行った。 実験の結果,従来手法ではセグメント化が困難であった結節のセグメント化性能が著しく向上することがわかった。

Radiologists possess diverse training and clinical experiences, leading to variations in the segmentation annotations of lung nodules and resulting in segmentation uncertainty.Conventional methods typically select a single annotation as the learning target or attempt to learn a latent space comprising multiple annotations. However, these approaches fail to leverage the valuable information inherent in the consensus and disagreements among the multiple annotations. In this paper, we propose an Uncertainty-Aware Attention Mechanism (UAAM) that utilizes consensus and disagreements among multiple annotations to facilitate better segmentation. To this end, we introduce the Multi-Confidence Mask (MCM), which combines a Low-Confidence (LC) Mask and a High-Confidence (HC) Mask.The LC mask indicates regions with low segmentation confidence, where radiologists may have different segmentation choices. Following UAAM, we further design an Uncertainty-Guide Multi-Confidence Segmentation Network (UGMCS-Net), which contains three modules: a Feature Extracting Module that captures a general feature of a lung nodule, an Uncertainty-Aware Module that produces three features for the the annotations' union, intersection, and annotation set, and an Intersection-Union Constraining Module that uses distances between the three features to balance the predictions of final segmentation and MCM. To comprehensively demonstrate the performance of our method, we propose a Complex Nodule Validation on LIDC-IDRI, which tests UGMCS-Net's segmentation performance on lung nodules that are difficult to segment using common methods. Experimental results demonstrate that our method can significantly improve the segmentation performance on nodules that are difficult to segment using conventional methods.
翻訳日:2023-09-12 22:13:05 公開日:2023-09-11
# 二次光間相互作用を有する導波路qed

Waveguide QED with Quadratic Light-Matter Interactions ( http://arxiv.org/abs/2303.07382v2 )

ライセンス: Link先を確認
Uesli Alushi, Tom\'as Ramos, Juan Jos\'e Garc\'ia-Ripoll, Roberto Di Candia and Simone Felicetti(参考訳) 二次光-物質相互作用は非線形結合であり、量子エミッタは励起対の交換によってのみフォトニックモードやフォノニックモードと相互作用する。 原子と固体の系で実装可能なこれらの結合は、量子エミッタが局所的なボソニックモードと相互作用する空洞QEDの文脈で特徴付けられる多くの現象を引き起こす。 ここで、量子エミッタが一次元環境に閉じ込められた伝播場と相互作用する導波路qed設定における二次相互作用を考察する。 マルコフ近似の下で一般散乱理論を開発し、双光子状態の自発放出と散乱のパラダイム的例について論じる。 解析的および半解析的な結果から,周波数-絡み合った光子対の自然放出や単一光子入力へのエミッタの完全透過など,従来の導波管QEDシステムに対する根本的な違いが明らかになった。 これにより、量子情報処理における光子伝播による新たな機会が解放される。 顕著な例として、単一二次結合型エミッタが単体忠実度を持つ2光子論理ゲートを実装できることを示し、従来の導波管-QED相互作用に導かれるノーゴー定理を回避した。

Quadratic light-matter interactions are nonlinear couplings such that quantum emitters interact with photonic or phononic modes exclusively via the exchange of excitation pairs. Implementable with atomic and solid-state systems, these couplings lead to a plethora of phenomena that have been characterized in the context of cavity QED, where quantum emitters interact with localized bosonic modes. Here, we explore quadratic interactions in a waveguide QED setting, where quantum emitters interact with propagating fields confined in a one-dimensional environment. We develop a general scattering theory under the Markov approximation and discuss paradigmatic examples for spontaneous emission and scattering of biphoton states. Our analytical and semi-analytical results unveil fundamental differences with respect to conventional waveguide QED systems, such as the spontaneous emission of frequency-entangled photon pairs or the full transparency of the emitter to single-photon inputs. This unlocks new opportunities in quantum information processing with propagating photons. As a striking example, we show that a single quadratically-coupled emitter can implement a two-photon logic gate with unit fidelity, circumventing a no-go theorem derived for conventional waveguide-QED interactions.
翻訳日:2023-09-12 22:12:04 公開日:2023-09-11
# TSMixer: 時系列予測のためのオールMLPアーキテクチャ

TSMixer: An All-MLP Architecture for Time Series Forecasting ( http://arxiv.org/abs/2303.06053v5 )

ライセンス: Link先を確認
Si-An Chen, Chun-Liang Li, Nate Yoder, Sercan O. Arik, Tomas Pfister(参考訳) 現実世界の時系列データセットはしばしば複雑なダイナミクスを持つ多変量である。 この複雑さを捉えるために、リカレントやアテンションベースのシーケンシャルディープラーニングモデルのような高容量アーキテクチャが普及している。 しかし、最近の研究では、単純な単変量線形モデルは、よく使われるいくつかの学術ベンチマークにおいて、そのような深層学習モデルより優れていることが示されている。 本稿では,時系列予測のための線形モデルと,多層パーセプトロン (mlps) を積み重ねた新しいアーキテクチャであるcurrent time-series mixer (tsmixer) の機能について検討する。 TSMixerは時間次元と特徴次元の混合操作に基づいて情報を効率的に抽出する。 一般的な学術ベンチマークでは、TSMixerは特定のベンチマークの帰納バイアスを利用する専門的な最先端モデルに匹敵する。 現実の小売データセットである挑戦的で大規模なM5ベンチマークでは、TSMixerは最先端の代替モデルよりも優れたパフォーマンスを示している。 その結果,時系列予測の性能向上にクロスバリアイトと補助情報を効果的に活用することの重要性が示唆された。 我々はTSMixerの能力について様々な分析を行った。 TSMixerで使用される設計パラダイムは、ディープラーニングに基づく時系列予測のための新たな地平を開くことが期待されている。 実装はhttps://github.com/google-research/google-research/tree/master/tsmixerで利用可能である。

Real-world time-series datasets are often multivariate with complex dynamics. To capture this complexity, high capacity architectures like recurrent- or attention-based sequential deep learning models have become popular. However, recent work demonstrates that simple univariate linear models can outperform such deep learning models on several commonly used academic benchmarks. Extending them, in this paper, we investigate the capabilities of linear models for time-series forecasting and present Time-Series Mixer (TSMixer), a novel architecture designed by stacking multi-layer perceptrons (MLPs). TSMixer is based on mixing operations along both the time and feature dimensions to extract information efficiently. On popular academic benchmarks, the simple-to-implement TSMixer is comparable to specialized state-of-the-art models that leverage the inductive biases of specific benchmarks. On the challenging and large scale M5 benchmark, a real-world retail dataset, TSMixer demonstrates superior performance compared to the state-of-the-art alternatives. Our results underline the importance of efficiently utilizing cross-variate and auxiliary information for improving the performance of time series forecasting. We present various analyses to shed light into the capabilities of TSMixer. The design paradigms utilized in TSMixer are expected to open new horizons for deep learning-based time series forecasting. The implementation is available at https://github.com/google-research/google-research/tree/master/tsmixer
翻訳日:2023-09-12 22:11:42 公開日:2023-09-11
# 動的Y-KD:連続インスタンスセグメンテーションへのハイブリッドアプローチ

Dynamic Y-KD: A Hybrid Approach to Continual Instance Segmentation ( http://arxiv.org/abs/2303.06015v3 )

ライセンス: Link先を確認
Mathieu Pag\'e-Fortin, Brahim Chaib-draa(参考訳) インスタンスセグメンテーションにおけるディープラーニングモデルの成功にもかかわらず、現在の手法は継続的な学習シナリオにおける破滅的な忘れ込みに悩まされている。 本稿では,連続インスタンスセグメンテーションに対する我々の貢献が3倍になる。 まず,教師と学生のネットワーク間で共通の特徴抽出器を共有するY-knowledge蒸留(Y-KD)を提案する。 教師がY-KDの新しいデータで更新されるにつれて、新しいクラスに特化している新しいモジュールの可塑性が増大する。 第2に、Y-KDアプローチは、タスク固有のモジュールをユニークなインスタンスセグメンテーションヘッドでトレーニングする動的アーキテクチャ手法によってサポートされています。 第3に、チェックポイント平均化を、様々なクラスのパフォーマンス間のトレードオフを手作業でバランスさせるシンプルな方法として活用することで、モデル動作の制御を余分なコストなしで向上させる。 これらのコントリビューションは、動的Y-KDネットワークと呼ばれるモデルで統合されています。 単段階・複数段階の漸進的な学習シナリオについて広範囲に実験を行い,過去の手法と新しい手法を比較検討した。 例えば、最近の研究と比較すると、15-1では古いクラスで2.1% mAP、19-1では新しいクラスで7.6% mAP、そして15-5では全てのクラスで共同トレーニングによって得られたmAPの91.5%に達する。

Despite the success of deep learning models on instance segmentation, current methods still suffer from catastrophic forgetting in continual learning scenarios. In this paper, our contributions for continual instance segmentation are threefold. First, we propose the Y-knowledge distillation (Y-KD), a technique that shares a common feature extractor between the teacher and student networks. As the teacher is also updated with new data in Y-KD, the increased plasticity results in new modules that are specialized on new classes. Second, our Y-KD approach is supported by a dynamic architecture method that trains task-specific modules with a unique instance segmentation head, thereby significantly reducing forgetting. Third, we complete our approach by leveraging checkpoint averaging as a simple method to manually balance the trade-off between performance on the various sets of classes, thus increasing control over the model's behavior without any additional cost. These contributions are united in our model that we name the Dynamic Y-KD network. We perform extensive experiments on several single-step and multi-steps incremental learning scenarios, and we show that our approach outperforms previous methods both on past and new classes. For instance, compared to recent work, our method obtains +2.1% mAP on old classes in 15-1, +7.6% mAP on new classes in 19-1 and reaches 91.5% of the mAP obtained by joint-training on all classes in 15-5.
翻訳日:2023-09-12 22:11:18 公開日:2023-09-11
# SeiT: 1%の画素ストレージを用いたトークンによるストレージ効率のよいビジョントレーニング

SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel Storage ( http://arxiv.org/abs/2303.11114v2 )

ライセンス: Link先を確認
Song Park and Sanghyuk Chun and Byeongho Heo and Wonjae Kim and Sangdoo Yun(参考訳) 汎用的で画期的なビジョンモデルを実現するには数十億のイメージが必要ですし、イメージを出荷するための巨大なデータセットも必要です(例えば、laion-4bデータセットは240tbのストレージスペースが必要です)。 しかし、限られたストレージインフラで無制限のデータセットストレージを扱うのは難しい。 この問題に対処するために、ストレージ効率の高いトレーニング方法がいくつか提案されているが、スケーラビリティやパフォーマンスに重大なダメージを負うことは稀である。 本稿では,1インスタンスあたり1024トークンのみを使用する大規模データセット(例: imagenet)に対する,視覚分類器のストレージ効率の高いトレーニング戦略を提案する。 またトークン拡張とStem-Adaptorモジュールを提案し,ステム層と慎重に調整された最適化設定を最小限に抑えて画素ベースのアプローチと同じアーキテクチャを利用できるようにした。 imagenet-1kにおける実験結果から,本手法は他のストレージ効率の高いトレーニング手法よりも大きな差があることがわかった。 さらに,本手法の有効性を,ストレージ効率のよい事前学習,継続学習など他の実践シナリオで示す。 コードはhttps://github.com/naver-ai/seitで入手できる。

We need billion-scale images to achieve more generalizable and ground-breaking vision models, as well as massive dataset storage to ship the images (e.g., the LAION-4B dataset needs 240TB storage space). However, it has become challenging to deal with unlimited dataset storage with limited storage infrastructure. A number of storage-efficient training methods have been proposed to tackle the problem, but they are rarely scalable or suffer from severe damage to performance. In this paper, we propose a storage-efficient training strategy for vision classifiers for large-scale datasets (e.g., ImageNet) that only uses 1024 tokens per instance without using the raw level pixels; our token storage only needs <1% of the original JPEG-compressed raw pixels. We also propose token augmentations and a Stem-adaptor module to make our approach able to use the same architecture as pixel-based approaches with only minimal modifications on the stem layer and the carefully tuned optimization settings. Our experimental results on ImageNet-1k show that our method significantly outperforms other storage-efficient training methods with a large gap. We further show the effectiveness of our method in other practical scenarios, storage-efficient pre-training, and continual learning. Code is available at https://github.com/naver-ai/seit
翻訳日:2023-09-12 22:01:32 公開日:2023-09-11
# 深層学習を支援するコモンセンス知識と細粒度物体検出への応用

Commonsense Knowledge Assisted Deep Learning with Application to Size-Related Fine-Grained Object Detection ( http://arxiv.org/abs/2303.09026v6 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,一つの画像が同一のカテゴリのオブジェクトを含むが,異なるサイズのオブジェクトを含むシナリオに着目し,そのカテゴリラベルだけでなく,実際のサイズも認識できる軽量なアプローチを提案する。 提案手法では,深部ニューラルネットワーク(DNN)を用いた粗粒度物体検出器を用いて,精度の高い粒度検出を行う。 具体的には,dl検出器が生成する粗粒度ラベルをサイズ関連細粒度ラベルにマッピングするcommonsense knowledge inference module (ckim)を提案する。 実験の結果,アノテートされたデータ量が少なく,モデルサイズも小さく,精度の高い細粒度検出が可能となった。 私たちのコードは、https://github.com/ZJLAB-AMMI/CKIM.comで利用可能です。

In this paper, we focus on a scenario where a single image contains objects of the same category but varying sizes, and we propose a lightweight approach that can not only recognize their category labels but also their real sizes. Our approach utilizes commonsense knowledge to assist a deep neural network (DNN) based coarse-grained object detector to achieve accurate size-related fine-grained detection. Specifically, we introduce a commonsense knowledge inference module (CKIM) that maps the coarse-grained labels produced by the DL detector to size-related fine-grained labels. Experimental results demonstrate that our approach achieves accurate fine-grained detections with a reduced amount of annotated data, and smaller model size, compared with baseline methods. Our code is available at: https://github.com/ZJLAB-AMMI/CKIM.
翻訳日:2023-09-12 22:00:39 公開日:2023-09-11
# 条件付きカテゴリー拡散モデルによる確率的セグメンテーション

Stochastic Segmentation with Conditional Categorical Diffusion Models ( http://arxiv.org/abs/2303.08888v5 )

ライセンス: Link先を確認
Lukas Zbinden, Lars Doorenbos, Theodoros Pissas, Adrian Thomas Huber, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) 深層ニューラルネットワークのおかげで、セマンティックセグメンテーションは近年大きく進歩しているが、画像の内容と正確に一致する単一のセグメンテーション出力を生成するという共通の目的は、医療診断や自律運転のような安全クリティカルな領域には適さないかもしれない。 代わりに、アノテーションマップの真の分布を反映するために、複数の可能な正しいセグメンテーション写像が必要である。 この文脈では、確率的セマンティックセグメンテーション法は、画像が与えられたラベルの条件分布を予測することを学ばなければならないが、これは典型的なマルチモーダル分布、高次元出力空間、限られたアノテーションデータのために難しい。 これらの課題に対処するため,Denoising Diffusion Probabilistic Models に基づくセグメンテーションのための条件カテゴリー拡散モデル (CCDM) を提案する。 本モデルは入力画像に対して条件付けされ,異なる基底的真理のアノテーションから生じるアレエータ的不確実性を考慮した複数のセグメンテーションラベルマップを生成することができる。 実験の結果,ccdmは統計的意味セグメンテーションデータセットであるlidcで最先端のパフォーマンスを達成し,従来のセグメンテーションデータセットでは確立されたベースラインを上回った。

Semantic segmentation has made significant progress in recent years thanks to deep neural networks, but the common objective of generating a single segmentation output that accurately matches the image's content may not be suitable for safety-critical domains such as medical diagnostics and autonomous driving. Instead, multiple possible correct segmentation maps may be required to reflect the true distribution of annotation maps. In this context, stochastic semantic segmentation methods must learn to predict conditional distributions of labels given the image, but this is challenging due to the typically multimodal distributions, high-dimensional output spaces, and limited annotation data. To address these challenges, we propose a conditional categorical diffusion model (CCDM) for semantic segmentation based on Denoising Diffusion Probabilistic Models. Our model is conditioned to the input image, enabling it to generate multiple segmentation label maps that account for the aleatoric uncertainty arising from divergent ground truth annotations. Our experimental results show that CCDM achieves state-of-the-art performance on LIDC, a stochastic semantic segmentation dataset, and outperforms established baselines on the classical segmentation dataset Cityscapes.
翻訳日:2023-09-12 22:00:24 公開日:2023-09-11
# No Easy Way Out: ヘイトとハラスメントを抑えるためのExtremist Forumの非プラットフォーム化の効果

No Easy Way Out: the Effectiveness of Deplatforming an Extremist Forum to Suppress Hate and Harassment ( http://arxiv.org/abs/2304.07037v5 )

ライセンス: Link先を確認
Anh V. Vu, Alice Hutchings, Ross Anderson(参考訳) 世界中の議員や政策立案者は、オンライン上で違法で有害で望ましくない物質を抑制する選択肢を議論している。 いくつかの定量的データから,オンライン上での嫌がらせや嫌がらせを抑制するための活動コミュニティの非プラットフォーム化は,いくつかのit企業を巻き込んでも困難であることが示された。 私たちのケーススタディは、2022年末に最大かつ最長のハラスメントフォーラムであるkiwi farmsが崩壊したことです。 数ヵ月間、多くのテクノロジー企業が積極的に参加していたが、このキャンペーンはフォーラムを閉鎖し、不快なコンテンツを削除できなかった。 大衆の意識を高めながら、急激なプラットフォーム変位と交通の断片化につながった。 活動の一部はテレグラムに移され、トラフィックは主要領域から以前放棄された代替手段に移行した。 フォーラムは数週間間断続的に停止し、その後、キャンペーンの主導するコミュニティは関心を失い、トラフィックはメインドメインに戻され、ユーザーはすぐに戻って、フォーラムはオンラインに戻り、さらに接続が深まった。 フォーラムのメンバーはその後すぐにこの事件についての議論を中止し、フォーラムの活動、アクティブユーザ、スレッド、投稿、トラフィックは全て半分に削減された。 裁判所命令のないコミュニティの非プラットフォーム化は、検閲と言論の自由に関する哲学的問題、オンラインコンテンツモデレーションにおける産業の役割に関する倫理的および法的問題、民間人対政府の行動の有効性に関する実践的問題を引き起こす。 個別のサービス提供者に対して一連の裁判所命令を用いて分散したコミュニティを構築することは、検閲がキーメンテナを逮捕したり、加わったり、妨げたりすることなく、無力化できなければ、非常に効果的とは思えない。

Legislators and policymakers worldwide are debating options for suppressing illegal, harmful and undesirable material online. Drawing on several quantitative data sources, we show that deplatforming an active community to suppress online hate and harassment, even with a substantial concerted effort involving several tech firms, can be hard. Our case study is the disruption of the largest and longest-running harassment forum Kiwi Farms in late 2022, which is probably the most extensive industry effort to date. Despite the active participation of a number of tech companies over several consecutive months, this campaign failed to shut down the forum and remove its objectionable content. While briefly raising public awareness, it led to rapid platform displacement and traffic fragmentation. Part of the activity decamped to Telegram, while traffic shifted from the primary domain to previously abandoned alternatives. The forum experienced intermittent outages for several weeks, after which the community leading the campaign lost interest, traffic was directed back to the main domain, users quickly returned, and the forum was back online and became even more connected. The forum members themselves stopped discussing the incident shortly thereafter, and the net effect was that forum activity, active users, threads, posts and traffic were all cut by about half. Deplatforming a community without a court order raises philosophical issues about censorship versus free speech; ethical and legal issues about the role of industry in online content moderation; and practical issues on the efficacy of private-sector versus government action. Deplatforming a dispersed community using a series of court orders against individual service providers appears unlikely to be very effective if the censor cannot incapacitate the key maintainers, whether by arresting them, enjoining them or otherwise deterring them.
翻訳日:2023-09-12 21:51:31 公開日:2023-09-11
# DeePoint: 視覚的視点認識と方向推定

DeePoint: Visual Pointing Recognition and Direction Estimation ( http://arxiv.org/abs/2304.06977v2 )

ライセンス: Link先を確認
Shu Nakamura, Yasutomo Kawanishi, Shohei Nobuhara, Ko Nishino(参考訳) 本稿では,ポインティングの自動視覚認識と方向推定を実現する。 2つの重要な貢献に基づく最初のニューラルポインティング理解手法を提案する。 ひとつは,私たちがdpデータセットと呼ぶ,認識と方向推定を指さすための,初歩的な大規模データセットの導入です。 dpデータセットは、各フレームにアノテートされたさまざまなスタイルの33人の200万フレーム以上で構成され、タイミングと3d方向を指示する。 第二のdeepointは、関節認識のための新しいディープネットワークモデルであり、ポインティングの3次元方向推定である。 DeePointはトランスフォーマーベースのネットワークで、手だけでなく身体部分の時空間的調整を完全に活用している。 広範な実験を通じて,deepointの精度と効率を実証する。 DP DatasetとDeePointは、視覚的人間の意図を理解するための健全な基盤になると思います。

In this paper, we realize automatic visual recognition and direction estimation of pointing. We introduce the first neural pointing understanding method based on two key contributions. The first is the introduction of a first-of-its-kind large-scale dataset for pointing recognition and direction estimation, which we refer to as the DP Dataset. DP Dataset consists of more than 2 million frames of 33 people pointing in various styles annotated for each frame with pointing timings and 3D directions. The second is DeePoint, a novel deep network model for joint recognition and 3D direction estimation of pointing. DeePoint is a Transformer-based network which fully leverages the spatio-temporal coordination of the body parts, not just the hands. Through extensive experiments, we demonstrate the accuracy and efficiency of DeePoint. We believe DP Dataset and DeePoint will serve as a sound foundation for visual human intention understanding.
翻訳日:2023-09-12 21:50:57 公開日:2023-09-11
# 植物・疾患検出のクラスインクリメンタル学習:知識蒸留による枝の育成

Class-Incremental Learning of Plant and Disease Detection: Growing Branches with Knowledge Distillation ( http://arxiv.org/abs/2304.06619v2 )

ライセンス: Link先を確認
Mathieu Pag\'e Fortin(参考訳) 本稿では,新たな植物種や疾患を段階的に学習する必要のある農業分野におけるクラスインクリメンタルオブジェクト検出の課題について検討する。 より現実的でダイナミックなシナリオをシミュレートして、時間とともに新しいカテゴリを含むように、2つのパブリックデータセットを適用します。 次に,異なる形態の知識蒸留を利用して破滅的忘れを緩和する3つのクラス増分学習手法を比較した。 実験の結果,これら3つの手法はすべて破滅的な忘れ込みに悩まされていることがわかったが,動的Y-KDアプローチでは,新しいタスクを学習するために新しいブランチを成長させる動的アーキテクチャを採用し,新しいクラスと古いクラスの両方において,ほとんどの設定においてILODとFaster-ILODを上回っている。 これらの結果は農業用途における連続物体検出の課題と機会を浮き彫りにしている。 特に,植物画像の典型であるクラス内およびクラス間の大きな変動は,従来の知識に干渉することなく新たなカテゴリを学習することの難しさを悪化させるという仮説を立てた。 私たちは将来の作業を奨励するためにコードを公にリリースします。

This paper investigates the problem of class-incremental object detection for agricultural applications where a model needs to learn new plant species and diseases incrementally without forgetting the previously learned ones. We adapt two public datasets to include new categories over time, simulating a more realistic and dynamic scenario. We then compare three class-incremental learning methods that leverage different forms of knowledge distillation to mitigate catastrophic forgetting. Our experiments show that all three methods suffer from catastrophic forgetting, but the Dynamic Y-KD approach, which additionally uses a dynamic architecture that grows new branches to learn new tasks, outperforms ILOD and Faster-ILOD in most settings both on new and old classes. These results highlight the challenges and opportunities of continual object detection for agricultural applications. In particular, we hypothesize that the large intra-class and small inter-class variability that is typical of plant images exacerbate the difficulty of learning new categories without interfering with previous knowledge. We publicly release our code to encourage future work.
翻訳日:2023-09-12 21:50:46 公開日:2023-09-11
# ARNOLD: 現実的な3Dシーンにおける連続状態を用いた言語学習のベンチマーク

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes ( http://arxiv.org/abs/2304.04321v2 )

ライセンス: Link先を確認
Ran Gong, Jiangyong Huang, Yizhou Zhao, Haoran Geng, Xiaofeng Gao, Qingyang Wu, Wensi Ai, Ziheng Zhou, Demetri Terzopoulos, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang(参考訳) オブジェクトの連続状態を理解することは、現実世界のタスク学習と計画に不可欠です。 しかし、既存のタスク学習ベンチマークの多くは、複雑なタスクの学習やシミュレーション環境から現実の世界への学習方針の移譲に挑戦する、離散的な(例えばバイナリ)オブジェクト目標状態(英語版)を想定している。 さらに、状態の離散化は、動作と状態の基底に基づく人間の指示に従うロボットの能力を制限する。 これらの課題に対処するために、現実的な3Dシーンにおける連続状態を用いて言語によるタスク学習を評価するベンチマークARNOLDを提案する。 ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。 言語学習を促進するために,テンプレート生成言語記述を用いたエキスパートデモンストレーションを行う。 最新の言語条件付き政策学習モデルを用いてタスク性能を評価する。 以上の結果から,現在の言語条件操作モデルでは,新たな目標状態一般化,シーン一般化,オブジェクト一般化において大きな課題が残されている。 これらの発見は、このギャップに対処し、この分野におけるさらなる研究の可能性を強調する新しいアルゴリズムを開発する必要性を強調している。 プロジェクトウェブサイト: https://arnold-benchmark.github.io

Understanding the continuous states of objects is essential for task learning and planning in the real world. However, most existing task learning benchmarks assume discrete (e.g., binary) object goal states, which poses challenges for the learning of complex tasks and transferring learned policy from simulated environments to the real world. Furthermore, state discretization limits a robot's ability to follow human instructions based on the grounding of actions and states. To tackle these challenges, we present ARNOLD, a benchmark that evaluates language-grounded task learning with continuous states in realistic 3D scenes. ARNOLD is comprised of 8 language-conditioned tasks that involve understanding object states and learning policies for continuous goals. To promote language-instructed learning, we provide expert demonstrations with template-generated language descriptions. We assess task performance by utilizing the latest language-conditioned policy learning models. Our results indicate that current models for language-conditioned manipulations continue to experience significant challenges in novel goal-state generalizations, scene generalizations, and object generalizations. These findings highlight the need to develop new algorithms that address this gap and underscore the potential for further research in this area. Project website: https://arnold-benchmark.github.io.
翻訳日:2023-09-12 21:49:42 公開日:2023-09-11
# クラスタ化システム同定によるパーソナライズモデル学習

Learning Personalized Models with Clustered System Identification ( http://arxiv.org/abs/2304.01395v2 )

ライセンス: Link先を確認
Leonardo F. Toso, Han Wang, James Anderson(参考訳) 線形系モデルを異なる系力学から複数の軌道を観測することから学習する問題に対処する。 このフレームワークは、システムの類似性に応じて、複数のシステムが彼らのダイナミクスをクラスタに分割する、協調的なシナリオを含んでいる。 したがって、同じクラスタ内のシステムは、他のクラスタによる観測の恩恵を受けることができる。 この枠組みを考慮して,各システムがクラスタのアイデンティティを交互に推定し,そのダイナミクスを推定するアルゴリズムを提案する。 そして、これを集約して各クラスタのモデルを更新する。 軽度の仮定では,クラスタのアイデンティティを正確に推定し,クラスタ内のシステム数と逆スケールする近似的なサンプル複雑性を実現し,より効率的かつパーソナライズされたシステム識別プロセスを実現する。

We address the problem of learning linear system models from observing multiple trajectories from different system dynamics. This framework encompasses a collaborative scenario where several systems seeking to estimate their dynamics are partitioned into clusters according to their system similarity. Thus, the systems within the same cluster can benefit from the observations made by the others. Considering this framework, we present an algorithm where each system alternately estimates its cluster identity and performs an estimation of its dynamics. This is then aggregated to update the model of each cluster. We show that under mild assumptions, our algorithm correctly estimates the cluster identities and achieves an approximate sample complexity that scales inversely with the number of systems in the cluster, thus facilitating a more efficient and personalized system identification process.
翻訳日:2023-09-12 21:49:20 公開日:2023-09-11
# synbody: 3次元知覚とモデリングのための階層型ヒトモデルを用いた合成データセット

SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling ( http://arxiv.org/abs/2303.17368v2 )

ライセンス: Link先を確認
Zhitao Yang, Zhongang Cai, Haiyi Mei, Shuai Liu, Zhaoxi Chen, Weiye Xiao, Yukun Wei, Zhongfei Qing, Chen Wei, Bo Dai, Wayne Wu, Chen Qian, Dahua Lin, Ziwei Liu, Lei Yang(参考訳) 合成データは、大規模な人間のデータセットへの低コストアクセスを提供するため、3d人間研究の有望な情報源として浮上している。 人間のモデルの多様性とアノテーションの質を向上させるために,3つの魅力的な特徴を持つ新しい合成データセット,SynBodyを導入する。 1) 多様な対象を発生できる服を着たパラメトリックなヒトモデル 2) 自然に複数のタスクをサポートするために高品質な3Dアノテーションを提供する階層型人間表現 3)実世界の作業を容易にするために,現実的なデータを生成するスケーラブルなシステム。 データセットは1.2mの画像と正確な3dアノテーションで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。 このデータセットには、人間のポーズと形状推定のための2つのサブセットと、人間のニューラルレンダリングが含まれる。 SynBodyの大規模な実験は、SMPLとSMPL-Xの推定の両方を大幅に強化することを示している。 さらに、階層アノテーションの導入は、人間の神経放射場(NeRF)を調査するための貴重なトレーニングリソースを提供する。

Synthetic data has emerged as a promising source for 3D human research as it offers low-cost access to large-scale human datasets. To advance the diversity and annotation quality of human models, we introduce a new synthetic dataset, SynBody, with three appealing features: 1) a clothed parametric human model that can generate a diverse range of subjects; 2) the layered human representation that naturally offers high-quality 3D annotations to support multiple tasks; 3) a scalable system for producing realistic data to facilitate real-world tasks. The dataset comprises 1.2M images with corresponding accurate 3D annotations, covering 10,000 human body models, 1,187 actions, and various viewpoints. The dataset includes two subsets for human pose and shape estimation as well as human neural rendering. Extensive experiments on SynBody indicate that it substantially enhances both SMPL and SMPL-X estimation. Furthermore, the incorporation of layered annotations offers a valuable training resource for investigating the Human Neural Radiance Fields (NeRF).
翻訳日:2023-09-12 21:49:07 公開日:2023-09-11
# 文書理解データセットと評価(DUDE)

Document Understanding Dataset and Evaluation (DUDE) ( http://arxiv.org/abs/2305.08455v3 )

ライセンス: Link先を確認
Jordy Van Landeghem, Rub\'en Tito, {\L}ukasz Borchmann, Micha{\l} Pietruszka, Pawe{\l} J\'oziak, Rafa{\l} Powalski, Dawid Jurkiewicz, Micka\"el Coustaty, Bertrand Ackaert, Ernest Valveny, Matthew Blaschko, Sien Moens, Tomasz Stanis{\l}awek(参考訳) 私たちはDocAIコミュニティに、現在の方法論を再評価し、より実用的なベンチマークを作成するという課題を受け入れるよう呼びかけています。 Document Understanding Dataset and Evaluation (DUDE) は、視覚的にリッチなドキュメント(VRD)の理解において、中断した研究の進捗を改善しようとしている。 我々は,様々な起源と日付の多産業,多ドメイン,多ページVRDに基づく,質問の種類,回答,文書レイアウトに関する新しいデータセットを提案する。 さらに、低リソース環境下での強力な一般化と適応が望まれる現実の状況をより正確にシミュレートするマルチタスクおよびマルチドメイン評価設定を作成することで、現在の手法の境界を推し進めている。 DUDEは、コミュニティにとってより実用的で長期間続くベンチマークとして、新しい標準を設定することを目的としています。 最後に、docaiで言語、画像、レイアウトをモデル化するより効率的な方法を見つけることの重要性を説明している。

We call on the Document AI (DocAI) community to reevaluate current methodologies and embrace the challenge of creating more practically-oriented benchmarks. Document Understanding Dataset and Evaluation (DUDE) seeks to remediate the halted research progress in understanding visually-rich documents (VRDs). We present a new dataset with novelties related to types of questions, answers, and document layouts based on multi-industry, multi-domain, and multi-page VRDs of various origins, and dates. Moreover, we are pushing the boundaries of current methods by creating multi-task and multi-domain evaluation setups that more accurately simulate real-world situations where powerful generalization and adaptation under low-resource settings are desired. DUDE aims to set a new standard as a more practical, long-standing benchmark for the community, and we hope that it will lead to future extensions and contributions that address real-world challenges. Finally, our work illustrates the importance of finding more efficient ways to model language, images, and layout in DocAI.
翻訳日:2023-09-12 21:43:35 公開日:2023-09-11
# 量子秘密共有における新しい量子アドバンテージ

A New Quantum Advantage in Quantum Secret Sharing ( http://arxiv.org/abs/2305.06062v3 )

ライセンス: Link先を確認
Pahulpreet Singh, Indranil Chakrabarty(参考訳) 本稿では,一般の3量子ビット状態に対する量子秘密再構成と秘密共有における資源キャラクタリゼーションのベンチマークについて述べる。 これは、ディーラーとリコンストラクタの間の真の三部構造相関と二部構造チャネルに依存する、復元忠実性のクローズドな表現を提供することによって達成される。 2/3の古典的極限を超えた秘密再構成における量子的優位性を示す。 秘密を共有するためには、株主が個別に秘密を再構築できないことを保証する必要がある。 また、シークレット共有プロセスの古典的な制限よりも有利な点も示しています。 これにより、トリパーティイトリソース状態で得られる量子的優位性を予測できます。 さらに,本論文では,テレポーテーションとシークレット再構築の新たな相互運用性について紹介する。

In this article, we present a benchmark for resource characterization in quantum secret reconstruction and secret sharing for general three-qubit states. This is achieved by providing a closed expression for the reconstruction fidelity, which relies on the genuine tripartite correlation and the bipartite channel between the dealer and the reconstructor. We demonstrate the quantum advantage in secret reconstruction by surpassing the classical limit set at 2/3. For secret sharing, we also need to ensure that individually, the shareholders cannot reconstruct the secret. We are able to show an advantage over the classical limit for the secret sharing process as well. This helps us to predict any quantum advantage we can have with tripartite resource states. Furthermore, this article brings out new interoperability between teleportation and secret reconstruction.
翻訳日:2023-09-12 21:42:44 公開日:2023-09-11
# EarlyBIRDがバグに対処:より効率的なコード分類のためのエンコーダモデルの早期レイヤの爆発について

The EarlyBIRD Catches the Bug: On Exploiting Early Layers of Encoder Models for More Efficient Code Classification ( http://arxiv.org/abs/2305.04940v2 )

ライセンス: Link先を確認
Anastasiia Grishina and Max Hort and Leon Moonen(参考訳) 最新の自然言語処理(NLP)技術は、脆弱性検出や型推論といったソフトウェア工学のタスクに有用であることが示されている。 しかし、深層NLPモデルのトレーニングにはかなりの計算資源が必要である。 本稿では,これらのモデルにおける資源と利用可能な情報の最適利用を目的とした手法について検討する。 我々は,事前学習したトランスフォーマーモデルの初期層からコードの複合表現を構築するための汎用的手法であるearlybirdを提案する。 CodeBERTモデルにおけるこのアプローチの有効性を,合成表現を生成する12の戦略の性能と,最後のエンコーダ層のみを用いた標準手法の比較により実証的に検討した。 4つのデータセットに対する評価の結果,早期層の組み合わせにより欠陥検出性能が向上し,複数クラス分類が向上した。 より具体的には、CodeBERTの12層中3層と微調整の3.3倍のスピードアップでDevignの検出精度が平均+2向上する。 これらの結果から,早期のレイヤは同じリソースを用いてより良い結果を得ることができ,微調整や推論の際のリソース使用量を削減できることがわかった。

The use of modern Natural Language Processing (NLP) techniques has shown to be beneficial for software engineering tasks, such as vulnerability detection and type inference. However, training deep NLP models requires significant computational resources. This paper explores techniques that aim at achieving the best usage of resources and available information in these models. We propose a generic approach, EarlyBIRD, to build composite representations of code from the early layers of a pre-trained transformer model. We empirically investigate the viability of this approach on the CodeBERT model by comparing the performance of 12 strategies for creating composite representations with the standard practice of only using the last encoder layer. Our evaluation on four datasets shows that several early layer combinations yield better performance on defect detection, and some combinations improve multi-class classification. More specifically, we obtain a +2 average improvement of detection accuracy on Devign with only 3 out of 12 layers of CodeBERT and a 3.3x speed-up of fine-tuning. These findings show that early layers can be used to obtain better results using the same resources, as well as to reduce resource usage during fine-tuning and inference.
翻訳日:2023-09-12 21:42:33 公開日:2023-09-11
# 自己編集:コード生成のためのフォールトアウェアコードエディタ

Self-Edit: Fault-Aware Code Editor for Code Generation ( http://arxiv.org/abs/2305.04087v5 )

ライセンス: Link先を確認
Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。 しかし、サンプル数が限られているため、LLMは依然として精度が低い。 人間のプログラミングのプロセスにインスパイアされた自己編集手法であるSelf-Editを提案し,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を向上させる。 質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。 このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。 我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。 LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。 本手法は他の後処理法と比較して精度と効率が優れる。

Large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the process of human programming, we propose a generate-and-edit approach named Self-Edit that utilizes execution results of the generated code from LLMs to improve the code quality on the competitive programming task. We execute the generated code on the example test case provided in the question and wrap execution results into a supplementary comment. Utilizing this comment as guidance, our fault-aware code editor is employed to correct errors in the generated code. We perform extensive evaluations across two competitive programming datasets with nine different LLMs. Compared to directly generating from LLMs, our approach can improve the average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval over nine popular code generation LLMs with parameter sizes ranging from 110M to 175B. Compared to other post-processing methods, our method demonstrates superior accuracy and efficiency.
翻訳日:2023-09-12 21:41:55 公開日:2023-09-11
# ディープスパイクニューラルネットワークのためのマルチスケール進化的ニューラルネットワーク探索

Multi-scale Evolutionary Neural Architecture Search for Deep Spiking Neural Networks ( http://arxiv.org/abs/2304.10749v3 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Guobin Shen, Bing Han, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、離散的な信号処理によるエネルギー効率の優位性だけでなく、マルチスケールの生物学的可塑性を統合する自然的適合性にも大きな注目を集めている。 しかし、ほとんどのSNNは、確立されたディープニューラルネットワーク(DNN)の構造を直接採用しており、SNNのために自動的にニューラルネットワーク探索(NAS)を設計することは滅多にない。 神経モチーフのトポロジー、モジュール型地域構造、人間の脳のグローバルな横断脳領域接続は自然進化の産物であり、脳にインスパイアされたSNNアーキテクチャを設計するための完璧なリファレンスとなる。 本稿では,マイクロ,メソ,マクロの脳トポロジを進化探索空間として考慮し,SNNのためのマルチスケール進化型ニューラルネットワーク探索(MSE-NAS)を提案する。 MSE-NASは、個々のニューロンの操作、複数の回路モチーフの自己組織化の統合、脳にインスパイアされた間接的評価機能であるRepresentational Dissimilarity Matrices (RDMs)を通じて、グローバルなモチーフ間の接続を進化させる。 このトレーニング不要な適合関数は、計算消費とNASの時間を大幅に削減し、そのタスク非依存性により、検索されたSNNが複数のデータセットに優れた転送性を示すことができる。 さらに,MSE-NASはトレーニング法やノイズに対して堅牢性を示す。 提案アルゴリズムは静的データセット (CIFAR10, CIFAR100) とニューロモルフィックデータセット (CIFAR10-DVS, DVS128-Gesture) のシミュレーションステップを短縮して, 最先端 (SOTA) 性能を実現することを示した。 網羅的な分析はまた、異なるスケールでのトポロジ的進化とRDMの適合関数から導かれる顕著な性能改善と一貫した生体解釈可能性を示している。

Spiking Neural Networks (SNNs) have received considerable attention not only for their superiority in energy efficiency with discrete signal processing but also for their natural suitability to integrate multi-scale biological plasticity. However, most SNNs directly adopt the structure of the well-established Deep Neural Networks (DNNs), and rarely automatically design Neural Architecture Search (NAS) for SNNs. The neural motifs topology, modular regional structure and global cross-brain region connection of the human brain are the product of natural evolution and can serve as a perfect reference for designing brain-inspired SNN architecture. In this paper, we propose a Multi-Scale Evolutionary Neural Architecture Search (MSE-NAS) for SNN, simultaneously considering micro-, meso- and macro-scale brain topologies as the evolutionary search space. MSE-NAS evolves individual neuron operation, self-organized integration of multiple circuit motifs, and global connectivity across motifs through a brain-inspired indirect evaluation function, Representational Dissimilarity Matrices (RDMs). This training-free fitness function could greatly reduce computational consumption and NAS's time, and its task-independent property enables the searched SNNs to exhibit excellent transferability on multiple datasets. Furthermore, MSE-NAS show robustness against the training method and noise. Extensive experiments demonstrate that the proposed algorithm achieves state-of-the-art (SOTA) performance with shorter simulation steps on static datasets (CIFAR10, CIFAR100) and neuromorphic datasets (CIFAR10-DVS and DVS128-Gesture). The thorough analysis also illustrates the significant performance improvement and consistent bio-interpretability deriving from the topological evolution at different scales and the RDMs fitness function.
翻訳日:2023-09-12 21:40:31 公開日:2023-09-11
# エネルギーと力のキャリブレーションされたアレエータ型およびエピステム型不確実性を持つグラフニューラルネットワークの原子間ポテンシャルアンサンブル

Graph Neural Network Interatomic Potential Ensembles with Calibrated Aleatoric and Epistemic Uncertainty on Energy and Forces ( http://arxiv.org/abs/2305.16325v2 )

ライセンス: Link先を確認
Jonas Busk, Mikkel N. Schmidt, Ole Winther, Tejs Vegge and Peter Bj{\o}rn J{\o}rgensen(参考訳) 原子間力の反復予測と適用により、材料の構造最適化と分子動力学シミュレーションを高速化するために、不特定機械学習ポテンシャルがますます利用されている。 これらの設定では、誤った結果や誤解を招く結果を避けるために予測が信頼できないことを検出することが不可欠である。 ここでは、エネルギーと力の正確な予測をキャリブレーションされた不確実性推定で生成するために、グラフニューラルネットワークアンサンブルモデルのトレーニングと再検討のための完全なフレームワークを提案する。 提案手法は, 予測精度を損なうことなく, 既往のデータのキャリブレーションを良好に行うために, 非線形スケーリング関数を用いて, エピステミックとアレタリックの両不確実性を考慮した。 この手法は、ANI-1x (Smith et al.) とTransition1x (Schreiner et al.) の2つの困難かつ公開なデータセット上で実証され、評価される。 予測性能と不確実性校正の詳細な分析を提供する。 全ての実験において,提案手法は予測誤差が低く,不確かさのキャリブレーションが良好であった。 そこで本研究では,ML電位におけるエネルギーと力の両面において,校正されたてんかんおよびアレータリック不確実性を予測するための完全な枠組みを初めて検討した。

Inexpensive machine learning potentials are increasingly being used to speed up structural optimization and molecular dynamics simulations of materials by iteratively predicting and applying interatomic forces. In these settings, it is crucial to detect when predictions are unreliable to avoid wrong or misleading results. Here, we present a complete framework for training and recalibrating graph neural network ensemble models to produce accurate predictions of energy and forces with calibrated uncertainty estimates. The proposed method considers both epistemic and aleatoric uncertainty and the total uncertainties are recalibrated post hoc using a nonlinear scaling function to achieve good calibration on previously unseen data, without loss of predictive accuracy. The method is demonstrated and evaluated on two challenging, publicly available datasets, ANI-1x (Smith et al.) and Transition1x (Schreiner et al.), both containing diverse conformations far from equilibrium. A detailed analysis of the predictive performance and uncertainty calibration is provided. In all experiments, the proposed method achieved low prediction error and good uncertainty calibration, with predicted uncertainty correlating with expected error, on energy and forces. To the best of our knowledge, the method presented in this paper is the first to consider a complete framework for obtaining calibrated epistemic and aleatoric uncertainty predictions on both energy and forces in ML potentials.
翻訳日:2023-09-12 21:31:23 公開日:2023-09-11
# 量子計算のエネルギー消費性

Energy-Consumption Advantage of Quantum Computation ( http://arxiv.org/abs/2305.11212v2 )

ライセンス: Link先を確認
Florian Meier, Hayata Yamasaki(参考訳) コンピュータの性能測定の一環として,計算問題の解決におけるエネルギー消費が注目されている。 量子計算は、様々な計算資源の観点から古典計算よりも優れていることが知られているが、エネルギー消費におけるその利点は、エネルギーの物理的概念と有限の計算資源を持つ量子計算の複雑性のコンピュータ科学的概念を関連付ける理論的基礎が欠如しているため、分析が困難である。 このギャップを埋めるために、計算複雑性理論におけるクエリ複雑性の研究にこれまで用いられてきた計算モデルに基づいて、量子および古典計算のエネルギー消費を研究するための一般的な枠組みを導入する。 この枠組みにより、量子計算の達成可能なエネルギー消費の上限を導出する。 また,エネルギー保存則とランドウアーの原理に基づいて,古典計算のエネルギー消費の非ゼロ下限を証明する手法を開発した。 これらの一般境界を用いて、量子計算が古典的な計算よりも指数的なエネルギー消費の優位性を達成することを厳密に証明する。 さらに,この量子計算のエネルギー消費の利点を実験的に示す方法を明らかにする。 これらの結果は、エネルギー消費に基づくクエリ・複雑度設定における量子優位性の物理的意義を探求する基本的な枠組みと技術を提供し、量子計算の利点を研究する代替の方法を開く。

Energy consumption in solving computational problems has been gaining growing attention as a part of the performance measures of computers. Quantum computation is known to offer advantages over classical computation in terms of various computational resources; however, its advantage in energy consumption has been challenging to analyze due to the lack of a theoretical foundation to relate the physical notion of energy and the computer-scientific notion of complexity for quantum computation with finite computational resources. To bridge this gap, we introduce a general framework for studying the energy consumption of quantum and classical computation based on a computational model that has been conventionally used for studying query complexity in computational complexity theory. With this framework, we derive an upper bound for the achievable energy consumption of quantum computation. We also develop techniques for proving a nonzero lower bound of energy consumption of classical computation based on the energy-conservation law and Landauer's principle. With these general bounds, we rigorously prove that quantum computation achieves an exponential energy-consumption advantage over classical computation for solving a specific computational problem, Simon's problem. Furthermore, we clarify how to demonstrate this energy-consumption advantage of quantum computation in an experimental setting. These results provide a fundamental framework and techniques to explore the physical meaning of quantum advantage in the query-complexity setting based on energy consumption, opening an alternative way to study the advantages of quantum computation.
翻訳日:2023-09-12 21:28:49 公開日:2023-09-11
# netUnicornの検索:ネットワークセキュリティ問題のための汎用MLモデルを開発するデータ収集プラットフォーム

In Search of netUnicorn: A Data-Collection Platform to Develop Generalizable ML Models for Network Security Problems ( http://arxiv.org/abs/2306.08853v2 )

ライセンス: Link先を確認
Roman Beltiukov, Wenbo Guo, Arpit Gupta, Walter Willinger(参考訳) ネットワークセキュリティ問題に対する機械学習ベースのソリューションの使用による顕著な成功は、異なるネットワーク環境で異なるネットワーク動作を示す場合の有効性を維持できないMLモデルの開発によって妨げられている。 この問題は一般にMLモデルの一般化可能性問題と呼ばれる。 コミュニティはこの文脈でデータセットのトレーニングが果たす重要な役割を認識し、この問題を克服するためにデータセットのキュレーションを改善する様々な技術を開発した。 残念なことに、これらの手法は一般的にネットワークセキュリティ領域では不適当か、あるいは非生産的である。 この問題に対処するために,説明可能なMLツールを活用して,ネットワークデータ収集を反復的にガイドする拡張MLパイプラインを提案する。 データのリアリズムと品質を保証するため、この反復プロセスで新たなデータセットを内在的に収集する必要があるため、モデルの一般化性を改善するために、データ関連の問題を徐々に取り除くことを提唱します。 この能力を実現するために,従来の「時間ガラス」モデルから着想を得たデータ収集プラットフォームであるnetUnicornを開発し,その「薄腰」として実装し,多様なネットワーク環境から異なる学習問題に対するデータ収集を容易にする。 提案システムは,データ収集意図を配置機構から切り離し,高レベルの意図を再利用性,自己完結型タスクに分解する。 我々は、NetUnicornが複数のネットワーク環境から異なる学習問題に対するデータ収集を単純化し、提案した反復データ収集がモデルの一般化可能性をどのように改善するかを示す。

The remarkable success of the use of machine learning-based solutions for network security problems has been impeded by the developed ML models' inability to maintain efficacy when used in different network environments exhibiting different network behaviors. This issue is commonly referred to as the generalizability problem of ML models. The community has recognized the critical role that training datasets play in this context and has developed various techniques to improve dataset curation to overcome this problem. Unfortunately, these methods are generally ill-suited or even counterproductive in the network security domain, where they often result in unrealistic or poor-quality datasets. To address this issue, we propose an augmented ML pipeline that leverages explainable ML tools to guide the network data collection in an iterative fashion. To ensure the data's realism and quality, we require that the new datasets should be endogenously collected in this iterative process, thus advocating for a gradual removal of data-related problems to improve model generalizability. To realize this capability, we develop a data-collection platform, netUnicorn, that takes inspiration from the classic "hourglass" model and is implemented as its "thin waist" to simplify data collection for different learning problems from diverse network environments. The proposed system decouples data-collection intents from the deployment mechanisms and disaggregates these high-level intents into smaller reusable, self-contained tasks. We demonstrate how netUnicorn simplifies collecting data for different learning problems from multiple network environments and how the proposed iterative data collection improves a model's generalizability.
翻訳日:2023-09-12 21:23:51 公開日:2023-09-11
# 生存予測のためのグローバル構造整合性を有するマルチモーダル最適輸送型コアテンショントランス

Multimodal Optimal Transport-based Co-Attention Transformer with Global Structure Consistency for Survival Prediction ( http://arxiv.org/abs/2306.08330v2 )

ライセンス: Link先を確認
Yingxue Xu and Hao Chen(参考訳) 生存予測(Survival prediction)は、死のランク付けリスクを予測することを目的とした複雑な順序回帰タスクであり、一般的には、組織学とゲノムデータの統合の恩恵を受ける。 病理学とゲノム学による共同学習の進展にもかかわらず、既存の方法はまだ困難な問題に悩まされている。 1) 病理像の大きさが大きいため, ギガピクセル全体のスライド画像(wsis)を効果的に表現することは困難である。 2) 組織学における腫瘍微小環境(TME)内の相互作用は生存分析に不可欠である。 現在のアプローチは、ヒストロジーとゲノムデータの間のコアテンションを通じてこれらの相互作用をモデル化しようとするが、それらはモダリティ間の密集した局所的類似性のみに焦点をあてる。 そこで本稿では,グローバル構造一貫性を持つ多モード最適トランスポートベースコアテンショントランスフォーマティブフレームワークを提案する。このフレームワークでは,ggapixel wsiを表すために,wsiのパッチと遺伝子組込みをマッチさせるために最適なトランスポート(ot)を適用する。 さらに重要なことは、OTベースのコアテンションは、生存予測のためにTME内の構造的相互作用を効果的に捉えるグローバルな認識を提供する。 OTの計算複雑性の増大を克服するため,不均衡なミニバッチOTで元のOTを近似することにより,WSIパッチのマイクロバッチに対する堅牢かつ効率的な実装を提案する。 大規模実験により,5つのベンチマークデータセット上での手法の優位性を示した。 コードはリリースされている。

Survival prediction is a complicated ordinal regression task that aims to predict the ranking risk of death, which generally benefits from the integration of histology and genomic data. Despite the progress in joint learning from pathology and genomics, existing methods still suffer from challenging issues: 1) Due to the large size of pathological images, it is difficult to effectively represent the gigapixel whole slide images (WSIs). 2) Interactions within tumor microenvironment (TME) in histology are essential for survival analysis. Although current approaches attempt to model these interactions via co-attention between histology and genomic data, they focus on only dense local similarity across modalities, which fails to capture global consistency between potential structures, i.e. TME-related interactions of histology and co-expression of genomic data. To address these challenges, we propose a Multimodal Optimal Transport-based Co-Attention Transformer framework with global structure consistency, in which optimal transport (OT) is applied to match patches of a WSI and genes embeddings for selecting informative patches to represent the gigapixel WSI. More importantly, OT-based co-attention provides a global awareness to effectively capture structural interactions within TME for survival prediction. To overcome high computational complexity of OT, we propose a robust and efficient implementation over micro-batch of WSI patches by approximating the original OT with unbalanced mini-batch OT. Extensive experiments show the superiority of our method on five benchmark datasets compared to the state-of-the-art methods. The code is released.
翻訳日:2023-09-12 21:23:23 公開日:2023-09-11
# 視覚的質問応答生成の弱さ

Weakly Supervised Visual Question Answer Generation ( http://arxiv.org/abs/2306.06622v2 )

ライセンス: Link先を確認
Charani Alampalle, Shamanthak Hegde, Soumya Jahagirdar, Shankar Gangisetty(参考訳) 対話エージェントへの関心が高まり、視覚的質問の問合せと回答を含む双方向の人間とコンピュータのコミュニケーションがAI研究の活発な領域となっている。 したがって、視覚的質問応答対の生成は重要かつ困難な課題となる。 この問題に対処するために,与えられた入力画像と関連するキャプションに対して,関連する質問応答対を生成する弱教師付き視覚質問応答生成手法を提案する。 以前の作業の大部分は監督され、注釈付きクェリ・アンワーデータセットに依存している。 本研究では,視覚情報とキャプションから手続き的に質問応答対を合成する弱教師付き手法を提案する。 提案手法は,まず解答語のリストを抽出し,そのキャプションと解答語を用いて合成質問を生成する最寄りの質問生成を行う。 次に、関連する質問生成装置は、最も近い質問を、依存関係解析と順番木トラバースにより関連言語問題に変換し、最後に、問合せペアを最後に生成したVLBERTモデルを微調整する。 我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA法を著しく上回る結果を得た。 また, ベースラインモデルとアブレーション研究の結果も示す。

Growing interest in conversational agents promote twoway human-computer communications involving asking and answering visual questions have become an active area of research in AI. Thus, generation of visual questionanswer pair(s) becomes an important and challenging task. To address this issue, we propose a weakly-supervised visual question answer generation method that generates a relevant question-answer pairs for a given input image and associated caption. Most of the prior works are supervised and depend on the annotated question-answer datasets. In our work, we present a weakly supervised method that synthetically generates question-answer pairs procedurally from visual information and captions. The proposed method initially extracts list of answer words, then does nearest question generation that uses the caption and answer word to generate synthetic question. Next, the relevant question generator converts the nearest question to relevant language question by dependency parsing and in-order tree traversal, finally, fine-tune a ViLBERT model with the question-answer pair(s) generated at end. We perform an exhaustive experimental analysis on VQA dataset and see that our model significantly outperform SOTA methods on BLEU scores. We also show the results wrt baseline models and ablation study.
翻訳日:2023-09-12 21:22:17 公開日:2023-09-11
# 集団崩壊を伴う原子性ガス中の無選択測定誘起相転移

Post-selection-free Measurement-Induced Phase Transition in Driven Atomic Gases with Collective Decay ( http://arxiv.org/abs/2306.00841v3 )

ライセンス: Link先を確認
Gianluca Passarelli, Xhek Turkeshi, Angelo Russomanno, Procolo Lucignano, Marco Schir\`o, Rosario Fazio(参考訳) レーザー磁場により駆動される原子の観測アンサンブルの性質と集合崩壊の存在について検討した。 外部駆動の強度を変化させることで、原子雲は2つの位相を分離して測定誘起相転移を行い、エントロピーはシステムサイズに比例して拡大する。 臨界点は超放射能自然放出への移行と一致する。 我々の装置は現在の光物質相互作用デバイスで実装可能であり、特に、監視されたダイナミクスは、不完全なモニタリングであっても、選択後の測定問題から解放される。

We study the properties of a monitored ensemble of atoms driven by a laser field and in the presence of collective decay. By varying the strength of the external drive, the atomic cloud undergoes a measurement-induced phase transition separating two phases with entanglement entropy scaling sub-extensively with the system size. The critical point coincides with the transition to a superradiant spontaneous emission. Our setup is implementable in current light-matter interaction devices, and most notably, the monitored dynamics is free from the post-selection measurement problem, even in the case of imperfect monitoring.
翻訳日:2023-09-12 21:21:03 公開日:2023-09-11
# 機械学習による高解像度火星画像の解析

Analysing high resolution digital Mars images using machine learning ( http://arxiv.org/abs/2305.19958v2 )

ライセンス: Link先を確認
Mira Gerg\'acz, \'Akos Kereszturi(参考訳) 火星のエフェメラル液体の水の探索は進行中の活動である。 火星での季節的な極氷冠の後退の後、火星の表面と大気の熱伝導率が低いため、小さな水面の氷片は日陰の場所に残される可能性がある。 春の終わりから初夏にかけて、これらのパッチは直射日光に晒され、液相が現れるのに十分な速さで温まる。 このような氷パッチの空間的および時間的発生を見るためには、光学的画像の検索とチェックが必要である。 以前は、マーズ・リコネッサンス・オービター(Mars Reconnaissance Orbiter)の高解像度撮像科学実験(High Resolution Imaging Science Experiment:HIRISE)カメラで捉えた、南半球からの110枚の画像で手動による画像解析が行われた。 このうち37枚の画像が小さな氷のパッチで識別され、その明るさ、色、局所的な地形シェーディングとの強いつながりで識別できた。 本研究では,CNNを用いて,緯度帯の-40{\deg} から-60{\deg} の間において,極性氷冠の季節的後退が起こる可能性のある水面パッチによるさらなる画像を求める。 分析済みのhiriseイメージはモデルのトレーニングに使用され、各イメージを数百の断片(チャンク)に分割し、トレーニングデータセットを6240のイメージに拡張した。 38枚の新しいHiRISE画像で行われたテストでは、プログラムは一般的に小さな明るいパッチを認識することができるが、より正確な識別にはさらなる訓練が必要である。 このさらなるトレーニングは、以前のテスト実行の結果を取り入れて実施されている。 18646個のチャンクが分析され、48個のエポックが実行された。 最終的に、モデルは94%の精度で氷を認識し、画像の58%は氷のパッチが十分小さいことを示していた。 残りの画像は氷が多すぎるか、いくつかの場所でCO2氷の昇華が見られた。

The search for ephemeral liquid water on Mars is an ongoing activity. After the recession of the seasonal polar ice cap on Mars, small water ice patches may be left behind in shady places due to the low thermal conductivity of the Martian surface and atmosphere. During late spring and early summer, these patches may be exposed to direct sunlight and warm up rapidly enough for the liquid phase to emerge. To see the spatial and temporal occurrence of such ice patches, optical images should be searched for and checked. Previously a manual image analysis was conducted on 110 images from the southern hemisphere, captured by the High Resolution Imaging Science Experiment (HiRISE) camera onboard the Mars Reconnaissance Orbiter space mission. Out of these, 37 images were identified with smaller ice patches, which were distinguishable by their brightness, colour and strong connection to local topographic shading. In this study, a convolutional neural network (CNN) is applied to find further images with potential water ice patches in the latitude band between -40{\deg} and -60{\deg}, where the seasonal retreat of the polar ice cap happens. Previously analysed HiRISE images were used to train the model, where each image was split into hundreds of pieces (chunks), expanding the training dataset to 6240 images. A test run conducted on 38 new HiRISE images indicates that the program can generally recognise small bright patches, however further training might be needed for more precise identification. This further training has been conducted now, incorporating the results of the previous test run. To retrain the model, 18646 chunks were analysed and 48 additional epochs were ran. In the end the model produced a 94% accuracy in recognising ice, 58% of these images showed small enough ice patches on them. The rest of the images was covered by too much ice or showed CO2 ice sublimation in some places.
翻訳日:2023-09-12 21:20:53 公開日:2023-09-11
# デュアルリバース・ローリング・シャッター画像の自己教師型学習

Self-supervised Learning to Bring Dual Reversed Rolling Shutter Images Alive ( http://arxiv.org/abs/2305.19862v2 )

ライセンス: Link先を確認
Wei Shang, Dongwei Ren, Chaoyu Feng, Xiaotao Wang, Lei Lei, Wangmeng Zuo(参考訳) 現代の消費者向けカメラは通常ローリングシャッター(RS)機構を採用しており、ダイナミックなシーンに対してRS歪みを生じさせるシーンをスキャンすることで画像をキャプチャする。 rs歪みを補正するために、既存の手法では、高いフレームレートのグローバルシャッター(gs)画像を地上監視として収集する、完全に教師あり学習方式を採用している。 本稿では、Dual reversed RS distortions Correction (SelfDRSC) のための自己教師型学習フレームワークを提案する。 特に、二重逆RS画像の再構成のための双方向歪み補正モジュールを提案し、入力と再構成された二重逆RS画像間のサイクル整合性を高めてDRSCネットワークの訓練に自己監督的損失を展開できる。 開始と終了のRSスキャン時間に加えて、任意の中間走査時間におけるGS画像もSelfDRSCで管理できるため、学習したDRSCネットワークは高いフレームレートGSビデオを生成することができる。 さらに,生成したGS画像における境界アーチファクトの緩和を目的とした,簡易かつ効果的な自己蒸留戦略を導入する。 合成データセットにおいて、selfdrscは、完全な監視方法で訓練された最先端の手法と比較して、より良い、または同等の定量的指標を達成する。 実世界のRSのケースでは、より微細な補正テクスチャとより優れた一時的な一貫性を備えた高いフレームレートGSビデオを生成することができる。 ソースコードとトレーニングされたモデルはhttps://github.com/shangwei5/SelfDRSCで公開されている。 https://github.com/Hunter-Will/SelfDRSC-mindspore.comでHUAWEI Mindsporeの実装も提供します。

Modern consumer cameras usually employ the rolling shutter (RS) mechanism, where images are captured by scanning scenes row-by-row, yielding RS distortions for dynamic scenes. To correct RS distortions, existing methods adopt a fully supervised learning manner, where high framerate global shutter (GS) images should be collected as ground-truth supervision. In this paper, we propose a Self-supervised learning framework for Dual reversed RS distortions Correction (SelfDRSC), where a DRSC network can be learned to generate a high framerate GS video only based on dual RS images with reversed distortions. In particular, a bidirectional distortion warping module is proposed for reconstructing dual reversed RS images, and then a self-supervised loss can be deployed to train DRSC network by enhancing the cycle consistency between input and reconstructed dual reversed RS images. Besides start and end RS scanning time, GS images at arbitrary intermediate scanning time can also be supervised in SelfDRSC, thus enabling the learned DRSC network to generate a high framerate GS video. Moreover, a simple yet effective self-distillation strategy is introduced in self-supervised loss for mitigating boundary artifacts in generated GS images. On synthetic dataset, SelfDRSC achieves better or comparable quantitative metrics in comparison to state-of-the-art methods trained in the full supervision manner. On real-world RS cases, our SelfDRSC can produce high framerate GS videos with finer correction textures and better temporary consistency. The source code and trained models are made publicly available at https://github.com/shangwei5/SelfDRSC. We also provide an implementation in HUAWEI Mindspore at https://github.com/Hunter-Will/SelfDRSC-mindspore.
翻訳日:2023-09-12 21:20:14 公開日:2023-09-11
# $\alpha$-$\beta$-Factorization と Simon's Congruence のバイナリケース

$\alpha$-$\beta$-Factorization and the Binary Case of Simon's Congruence ( http://arxiv.org/abs/2306.14192v3 )

ライセンス: Link先を確認
Pamela Fleischmann, Jonas H\"ofer, Annika Huch, Dirk Nowotka(参考訳) 1991年、H'ebrardは単語の因数分解を導入し、単語の散在する要素(散在した)や部分列(サブワード)を調べる強力なツールとなった。 これに基づいて、最初のカランディカールとシュネーベレンは$k$-richnessという概念を導入し、後にBarkerらに$k$-universalityという概念を導入した。 2022年、fleischmannらは、単語とその逆のアーチ分解を交差させることで、アーチ分解の一般化を示した。 著者らは, この因子分解を, 最短欠落因子の探索にのみ用いたが, 本研究では, 新規な$\alpha$-$\beta$-factorization について検討する。 我々は、有名なsimon congruenceのk$universalワードを1$universalワードで特徴づける。 さらに,これらの結果をバイナリ単語に適用する。 この特別な場合、クラスを完全に特徴づけ、合同の指標を計算する。 最後に、三項ケースの調査を開始し、$\alpha\beta\alpha$-factorsの完全なリストを示し、それらの一貫性を特徴づける。

In 1991 H\'ebrard introduced a factorization of words that turned out to be a powerful tool for the investigation of a word's scattered factors (also known as (scattered) subwords or subsequences). Based on this, first Karandikar and Schnoebelen introduced the notion of $k$-richness and later on Barker et al. the notion of $k$-universality. In 2022 Fleischmann et al. presented a generalization of the arch factorization by intersecting the arch factorization of a word and its reverse. While the authors merely used this factorization for the investigation of shortest absent scattered factors, in this work we investigate this new $\alpha$-$\beta$-factorization as such. We characterize the famous Simon congruence of $k$-universal words in terms of $1$-universal words. Moreover, we apply these results to binary words. In this special case, we obtain a full characterization of the classes and calculate the index of the congruence. Lastly, we start investigating the ternary case, present a full list of possibilities for $\alpha\beta\alpha$-factors, and characterize their congruence.
翻訳日:2023-09-12 19:37:54 公開日:2023-09-11
# 測定に基づく量子コンピューティングにおける3ビットDeutsch-Jozsa

Three-qubit Deutsch-Jozsa in measurement-based quantum computing ( http://arxiv.org/abs/2306.13372v3 )

ライセンス: Link先を確認
M. Schwetz and R. M. Noack(参考訳) 量子アルゴリズムを定式化する代替パラダイムである測定ベース量子コンピューティング(MBQC)は、量子アルゴリズムにおける絡み合いの役割に関する理論的洞察と同様に、潜在的に柔軟で効率的な実装をもたらす。 グラフ理論のZX計算を用いて、量子回路をMBQC実装として再構成するための一般的なスキームを記述し、適用する。 2キュービットのDeutsch-Jozsaアルゴリズムを用いて手法を解析した後、3キュービットのDeutsch-Jozsaアルゴリズムの一般的なMBQC実装を符号化したZXグラフ図を導出する。 このグラフは、アルゴリズムの実行にシングルキュービットの計測を使用する11キュービットのクラスタ状態を記述する。 特に測定のための軸の選択の集合は、オラクルの任意の実現の実装に使うことができる。 さらに,アルゴリズムの等価な格子クラスタ状態も導出する。

Measurement-based quantum computing (MBQC), an alternate paradigm for formulating quantum algorithms, can lead to potentially more flexible and efficient implementations as well as to theoretical insights on the role of entanglement in a quantum algorithm. Using the graph-theoretical ZX-calculus, we describe and apply a general scheme for reformulating quantum circuits as MBQC implementations. After illustrating the method using the two-qubit Deutsch-Jozsa algorithm, we derive a ZX graph-diagram that encodes a general MBQC implementation for the three-qubit Deutsch-Jozsa algorithm. This graph describes an 11-qubit cluster state on which single-qubit measurements are used to execute the algorithm. Particular sets of choices of the axes for the measurements can be used to implement any realization of the oracle. In addition, we derive an equivalent lattice cluster state for the algorithm.
翻訳日:2023-09-12 19:36:34 公開日:2023-09-11
# 破滅的なAIリスクの概観

An Overview of Catastrophic AI Risks ( http://arxiv.org/abs/2306.12001v5 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika, Thomas Woodside(参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、ますます高度なAIシステムが破滅的なリスクをもたらす可能性を懸念する声が高まっている。 多数のリスクが別々に詳述されているが、組織的な議論と、それらを軽減する努力をより良い情報化するための潜在的な危険の例示の必要性が差し迫っている。 This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. リスクのカテゴリごとに,特定のハザードを記述し,図解的なストーリーを提示し,理想的なシナリオを想定し,これらのハザードを緩和するための実践的提案を提案する。 私たちの目標は、これらのリスクを包括的に理解し、AIが安全な方法で開発され、デプロイされることを保証するために、集団的かつ積極的な取り組みを促すことです。 最終的には、破滅的な結果の可能性を最小化しながら、この強力な技術のメリットを実現することができることを願っています。

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. For each category of risk, we describe specific hazards, present illustrative stories, envision ideal scenarios, and propose practical suggestions for mitigating these dangers. Our goal is to foster a comprehensive understanding of these risks and inspire collective and proactive efforts to ensure that AIs are developed and deployed in a safe manner. Ultimately, we hope this will allow us to realize the benefits of this powerful technology while minimizing the potential for catastrophic outcomes.
翻訳日:2023-09-12 19:36:01 公開日:2023-09-11
# Weisfeiler と Lehman Go の測定モデル: WL テストの有効性の検証

Weisfeiler and Lehman Go Measurement Modeling: Probing the Validity of the WL Test ( http://arxiv.org/abs/2307.05775v2 )

ライセンス: Link先を確認
Arjun Subramonian, Adina Williams, Maximilian Nickel, Yizhou Sun, Levent Sagun(参考訳) グラフニューラルネットワークの表現力は、通常、アーキテクチャが何対のグラフやノードを、k$-dimensional weisfeiler-lehman (k$-wl) テストによって区別できるものと非同型と区別できるかを比較することによって測定される。 本稿では,グラフ学習実践者の表現力の概念化と$k$-WLの信頼性と妥当性の体系的分析により,グラフ機械学習実践者のミスアライメントを明らかにする。 我々は,表現力の概念化と約$k$-WLの仮定を明らかにするために,実践者の調査(n = 18$)を行う。 実践者の意見とは対照的に、我々の分析(グラフ理論とベンチマーク監査から導かれる)では、$k$-WLは等尺性を保証せず、現実世界のグラフタスクとは無関係であり、一般化や信頼性を促進できない。 ベンチマークに基づく表現力の拡張的定義と測定について論じる。 グラフ機械学習の実践者にとって、表現力の理解を発達させ、透過的に伝えることが重要である。

The expressive power of graph neural networks is usually measured by comparing how many pairs of graphs or nodes an architecture can possibly distinguish as non-isomorphic to those distinguishable by the $k$-dimensional Weisfeiler-Lehman ($k$-WL) test. In this paper, we uncover misalignments between graph machine learning practitioners' conceptualizations of expressive power and $k$-WL through a systematic analysis of the reliability and validity of $k$-WL. We conduct a survey ($n = 18$) of practitioners to surface their conceptualizations of expressive power and their assumptions about $k$-WL. In contrast to practitioners' opinions, our analysis (which draws from graph theory and benchmark auditing) reveals that $k$-WL does not guarantee isometry, can be irrelevant to real-world graph tasks, and may not promote generalization or trustworthiness. We argue for extensional definitions and measurement of expressive power based on benchmarks. We further contribute guiding questions for constructing such benchmarks, which is critical for graph machine learning practitioners to develop and transparently communicate our understandings of expressive power.
翻訳日:2023-09-12 19:29:47 公開日:2023-09-11
# ゼロ次非滑らかな非凸確率最適化のための最適次元依存アルゴリズム

An Algorithm with Optimal Dimension-Dependence for Zero-Order Nonsmooth Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2307.04504v2 )

ライセンス: Link先を確認
Guy Kornowski, Ohad Shamir(参考訳) リプシッツ目標の$(\delta,\epsilon)$-定常点の生成の複雑さについて,ノイズ関数評価のみを用いて検討した。 近年の研究では、この問題を解く確率的ゼロ次アルゴリズムがいくつか提案されており、これらは全て$\Omega(d^{3/2})$の次元依存性に悩まされており、$d$は問題の次元である。 これは$d$に対して最適(数値定数まで)であり、かつ精度パラメータ$\delta,\epsilon$に関して最適であるので、Lin et al. (NeurIPS'22) によるオープンな問題を解くことができる。 さらに, 本アルゴリズムが達成した収束率は, 滑らかな目的に対して最適であり, 非凸確率ゼロ次設定においては, 滑らかな最適化と同じくらい容易であることを示す。 我々は、上記の予測における収束率と高い確率を達成するアルゴリズムを提供する。 我々の解析は、Goldstein-subdifferential setに関する単純だが強力な幾何学的補題に基づいており、これは最近の一階非滑らかな非凸最適化の進歩を活用できる。

We study the complexity of producing $(\delta,\epsilon)$-stationary points of Lipschitz objectives which are possibly neither smooth nor convex, using only noisy function evaluations. Recent works proposed several stochastic zero-order algorithms that solve this task, all of which suffer from a dimension-dependence of $\Omega(d^{3/2})$ where $d$ is the dimension of the problem, which was conjectured to be optimal. We refute this conjecture by providing a faster algorithm that has complexity $O(d\delta^{-1}\epsilon^{-3})$, which is optimal (up to numerical constants) with respect to $d$ and also optimal with respect to the accuracy parameters $\delta,\epsilon$, thus solving an open question due to Lin et al. (NeurIPS'22). Moreover, the convergence rate achieved by our algorithm is also optimal for smooth objectives, proving that in the nonconvex stochastic zero-order setting, nonsmooth optimization is as easy as smooth optimization. We provide algorithms that achieve the aforementioned convergence rate in expectation as well as with high probability. Our analysis is based on a simple yet powerful geometric lemma regarding the Goldstein-subdifferential set, which allows utilizing recent advancements in first-order nonsmooth nonconvex optimization.
翻訳日:2023-09-12 19:29:14 公開日:2023-09-11
# ClipSitu:状況認識における条件予測のためのCLIPの有効活用

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition ( http://arxiv.org/abs/2307.00586v3 )

ライセンス: Link先を確認
Debaditya Roy, Dhruv Verma, Basura Fernando(参考訳) 状況認識とは、活動動詞とアクターやオブジェクトによって演じられる意味的役割を用いて、画像内で起こっていることの構造化された要約を生成するタスクである。 このタスクでは、同じアクティビティ動詞が多様な状況の集合を記述することができ、同じアクターやオブジェクトカテゴリが、画像に表示される状況に応じて多様なセマンティックな役割を演じることができる。 したがって、状況認識モデルは、画像のコンテキストと意味的役割の視覚言語的意味を理解する必要がある。 そこで我々は,言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。 より深い多層パーセプトロン(MLP)ブロックは、CLIP画像とテキスト埋め込み機能を用いて、状況認識タスクの注目すべき結果が得られることを示し、CLIPがカプセル化した外部暗黙的視覚言語知識と現代のMLPブロック設計の表現力のおかげで、トランスフォーマーベースのモデルであるCoFormerよりも優れていた。 テキストの役割と視覚的実体の関係をモデル化するCLIPビジュアルトークンを用いた横断的アテンションベースのトランスフォーマーを設計する。 ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、ImSituデータセットを使用してトップ1の精度でセマンティックロールラベリング(値)を14.1\%の大差で、既存の最先端技術よりも優れています。 同様に、我々のClipSitu XTFは最先端のローカライゼーション性能を得る。 コードを公開する予定です。

Situation Recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or object category can play a diverse set of semantic roles depending on the situation depicted in the image. Hence a situation recognition model needs to understand the context of the image and the visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP foundational model that has learned the context of images via language descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks obtain noteworthy results for the situation recognition task by using CLIP image and text embedding features and it even outperforms the state-of-the-art CoFormer, a Transformer-based model, thanks to the external implicit visual-linguistic knowledge encapsulated by CLIP and the expressive power of modern MLP block designs. Motivated by this, we design a cross-attention-based Transformer using CLIP visual tokens that model the relation between textual roles and visual entities. Our cross-attention-based Transformer known as ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1\% on semantic role labelling (value) for top-1 accuracy using imSitu dataset. {Similarly, our ClipSitu XTF obtains state-of-the-art situation localization performance.} We will make the code publicly available.
翻訳日:2023-09-12 19:27:30 公開日:2023-09-11
# 雑音中規模量子コンピュータ上のグリーディ勾配なし適応変分量子アルゴリズム

Greedy Gradient-free Adaptive Variational Quantum Algorithms on a Noisy Intermediate Scale Quantum Computer ( http://arxiv.org/abs/2306.17159v5 )

ライセンス: Link先を確認
C\'esar Feniou, Baptiste Claudon, Muhammad Hassan, Axel Courtat, Olivier Adjoua, Yvon Maday, Jean-Philip Piquemal(参考訳) ハイブリッド量子古典型適応変分量子固有ソルバ(vqe)は、量子多体系をシミュレートする古典計算よりも優れている可能性を持っている。 しかし、現在の量子処理ユニット(QPU)への実践的な実装は、高次元のコスト関数の演算子選択と最適化のために実施される多項式スケーリング数のノイズ評価のため、非常に難しい。 そこで本研究では,GPU加速HPCシミュレータに結合した25ビット誤り軽減QPU上で適応アルゴリズムを実行する手法を提案する。 物理応用を目標とし,新たに導入されたGreedy Gradient-free Adaptive VQE (CGA-VQE) を用いて25体Isingモデルの基底状態を計算する。 GGA-VQEアルゴリズムとOverlap-ADAPT-VQEアルゴリズムを組み合わせて分子系の基底状態を近似する。 本稿では,QPUがアルゴリズムの実行に成功し,パラメータ付きユニタリ演算子の正しい選択が得られることを示す。 結果として生じるアンザッツ波動関数のQPU評価はハードウェアノイズによって汚染されるが、古典的GPU加速/ノイズレスシミュレータにおける追従可観測器の最終的な評価は、基底状態の正しい近似の回復を可能にするため、ハイブリッド量子古典可観測測定の必要性を強調している。

Hybrid quantum-classical adaptive Variational Quantum Eigensolvers (VQE) already hold the potential to outperform classical computing for simulating quantum many-body systems. However, their practical implementation on current quantum processing units (QPUs) is very challenging due to the noisy evaluation of a polynomially scaling number of observables, undertaken for operator selection and optimisation of a high-dimensional cost function. To overcome this, we propose new techniques to execute adaptive algorithms on a 25-qubit error-mitigated QPU coupled to a GPU-accelerated HPC simulator. Targeting physics applications, we compute the ground state of a 25-body Ising model using the newly introduced Greedy Gradient-free Adaptive VQE (CGA-VQE) requiring only five circuit measurements per iteration, regardless of the number of qubits and size of the operator pool. Towards chemistry, we combine the GGA-VQE and Overlap-ADAPT-VQE algorithms to approximate a molecular system ground state. We show that the QPU successfully executes the algorithms and yields the correct choice of parametrised unitary operators. While the QPU evaluation of the resulting ansatz wave-function is polluted by hardware noise, a single final evaluation of the sought-after observables on a classical GPU-accelerated/noiseless simulator allows the recovery of the correct approximation of the ground state, thus highlighting the need for hybrid quantum-classical observable measurement.
翻訳日:2023-09-12 19:26:57 公開日:2023-09-11
# 学習可能なパッチワイズマスクによる対向移動性の向上

Boosting Adversarial Transferability with Learnable Patch-wise Masks ( http://arxiv.org/abs/2306.15931v2 )

ライセンス: Link先を確認
Xingxing Wei, Shiji Zhao(参考訳) セキュリティクリティカルなアプリケーションでは、異なるモデル間の転送可能性のために、逆の例が広く注目を集めている。 対向移動性を高めるために多くの方法が提案されているが、能力と実用的需要の間には依然としてギャップがある。 本稿では、モデル固有の識別領域が、ソースモデルに過度に適合し、ターゲットモデルへの転送可能性を低減する重要な要因であると論じる。 そのため、対向摂動を計算する際に、パッチワイズマスクを用いてモデル固有領域をプルークする。 これらの領域を正確にローカライズするために,マスクの自動最適化のための学習可能なアプローチを提案する。 具体的には、本フレームワークのターゲットモデルをシミュレートし、シミュレートされたモデルのフィードバックに応じてパッチワイドマスクを調整する。 効率を改善するために、差動進化(DE)アルゴリズムを用いて特定の画像に対するパッチワイドマスクを探索する。 反復攻撃中、学習したマスクを画像に適用して、モデル固有の領域に関するパッチをドロップアウトし、勾配をより汎用的にし、対向移動性を向上させる。 提案手法はプリプロセッシング手法であり, 既存手法と統合することで, 転送性をさらに高めることができる。 ImageNetデータセットの大規模な実験により,本手法の有効性が示された。 提案手法を既存手法に組み込んでアンサンブル攻撃を行い、7つの先進的防御手法に対して平均成功率93.01%を達成し,最先端のトランスファーベース攻撃性能を効果的に向上させる。

Adversarial examples have attracted widespread attention in security-critical applications because of their transferability across different models. Although many methods have been proposed to boost adversarial transferability, a gap still exists between capabilities and practical demand. In this paper, we argue that the model-specific discriminative regions are a key factor causing overfitting to the source model, and thus reducing the transferability to the target model. For that, a patch-wise mask is utilized to prune the model-specific regions when calculating adversarial perturbations. To accurately localize these regions, we present a learnable approach to automatically optimize the mask. Specifically, we simulate the target models in our framework, and adjust the patch-wise mask according to the feedback of the simulated models. To improve the efficiency, the differential evolutionary (DE) algorithm is utilized to search for patch-wise masks for a specific image. During iterative attacks, the learned masks are applied to the image to drop out the patches related to model-specific regions, thus making the gradients more generic and improving the adversarial transferability. The proposed approach is a preprocessing method and can be integrated with existing methods to further boost the transferability. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our method. We incorporate the proposed approach with existing methods to perform ensemble attacks and achieve an average success rate of 93.01% against seven advanced defense methods, which can effectively enhance the state-of-the-art transfer-based attack performance.
翻訳日:2023-09-12 19:26:27 公開日:2023-09-11
# 確率的プログラミングから複雑性に基づくプログラミングへ

From Probabilistic Programming to Complexity-based Programming ( http://arxiv.org/abs/2307.15453v2 )

ライセンス: Link先を確認
Giovanni Sileno, Jean-Louis Dessalles(参考訳) 本稿では,CompLogという新しい計算フレームワークの主な特徴と実装について述べる。 ProbLogのような確率的プログラミングシステムにインスパイアされたCompLogは、Simplicity Theoryによって提案された推論メカニズムに基づいて、確率的推論ではなく2つのコルモゴロフ複雑性(以下、ASPプログラムを介してミニパスサーチとして実装されている)の計算に依存する。 提案システムでは,ある状況の予期せぬ確率を,後部および前部の主観的確率にそれぞれマッピングして,元ポストと前アンティーを計算できる。 この計算は、複雑性によって重み付けられた述語間の因果関係と記述関係による世界モデルとメンタルモデルの仕様に基づいている。 関連した記述を生成し、切断と否定に対する別のアプローチを提供する。

The paper presents the main characteristics and a preliminary implementation of a novel computational framework named CompLog. Inspired by probabilistic programming systems like ProbLog, CompLog builds upon the inferential mechanisms proposed by Simplicity Theory, relying on the computation of two Kolmogorov complexities (here implemented as min-path searches via ASP programs) rather than probabilistic inference. The proposed system enables users to compute ex-post and ex-ante measures of unexpectedness of a certain situation, mapping respectively to posterior and prior subjective probabilities. The computation is based on the specification of world and mental models by means of causal and descriptive relations between predicates weighted by complexity. The paper illustrates a few examples of application: generating relevant descriptions, and providing alternative approaches to disjunction and to negation.
翻訳日:2023-09-12 19:18:15 公開日:2023-09-11
# 人間のフィードバックによる強化学習のオープン問題と基本的限界

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2307.15217v2 )

ライセンス: Link先を確認
Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, J\'er\'emy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Rapha\"el Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem B{\i}y{\i}k, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell(参考訳) 人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。 RLHFは、最先端の大規模言語モデル(LLM)を微調整する中心的な手法として登場した。 この人気にもかかわらず、その欠陥を体系化する公共事業は比較的少ない。 本稿では,(1)RLHFとその関連手法のオープンな問題と基本的限界,(2)実際にRLHFを理解し,改善し,補完する技術,(3)RLHFシステムの社会的監視を改善するための監査・公開基準を提案する。 我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。

Reinforcement learning from human feedback (RLHF) is a technique for training AI systems to align with human goals. RLHF has emerged as the central method used to finetune state-of-the-art large language models (LLMs). Despite this popularity, there has been relatively little public work systematizing its flaws. In this paper, we (1) survey open problems and fundamental limitations of RLHF and related methods; (2) overview techniques to understand, improve, and complement RLHF in practice; and (3) propose auditing and disclosure standards to improve societal oversight of RLHF systems. Our work emphasizes the limitations of RLHF and highlights the importance of a multi-faceted approach to the development of safer AI systems.
翻訳日:2023-09-12 19:17:58 公開日:2023-09-11
# TextManiA: テキスト駆動マニフォールド拡張による視覚機能強化

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation ( http://arxiv.org/abs/2307.14611v3 )

ライセンス: Link先を確認
Moon Ye-Bin, Jisoo Kim, Hongyeob Kim, Kilho Son, Tae-Hyun Oh(参考訳) クラス分布に関係なく視覚的特徴空間を意味的に強化するテキスト駆動型多様体拡張法であるTextManiAを提案する。 TextManiAは、理解しやすい視覚的模倣語、すなわち属性を利用して、クラス内の意味摂動で視覚データを増強する。 この研究は、例えばBERTやGPTといった一般的な言語モデルが、視覚訓練データに関するトレーニングをしなくてもある程度視覚情報を包含する、という興味深い仮説に基づいている。 この仮説を前提として、TextManiAは、十分に確立された大言語エンコーダから得られた訓練済みのテキスト表現を、学習対象の視覚的特徴空間に転送する。 広範に分析した結果,言語エンコーダには視覚情報が含まれることが示唆された。 実験の結果,TextManiAはクラス不均衡や分布の少ないサンプルでは特に強力であることがわかった。 また、均等に分散した不足データに対するラベルミックスベースアプローチとの互換性を示す。

We propose TextManiA, a text-driven manifold augmentation method that semantically enriches visual feature spaces, regardless of class distribution. TextManiA augments visual data with intra-class semantic perturbation by exploiting easy-to-understand visually mimetic words, i.e., attributes. This work is built on an interesting hypothesis that general language models, e.g., BERT and GPT, encompass visual information to some extent, even without training on visual training data. Given the hypothesis, TextManiA transfers pre-trained text representation obtained from a well-established large language encoder to a target visual feature space being learned. Our extensive analysis hints that the language encoder indeed encompasses visual information at least useful to augment visual representation. Our experiments demonstrate that TextManiA is particularly powerful in scarce samples with class imbalance as well as even distribution. We also show compatibility with the label mix-based approaches in evenly distributed scarce data.
翻訳日:2023-09-12 19:17:46 公開日:2023-09-11
# invaert networks:モデル合成と識別可能性分析のためのデータ駆動フレームワーク

InVAErt networks: a data-driven framework for model synthesis and identifiability analysis ( http://arxiv.org/abs/2307.12586v2 )

ライセンス: Link先を確認
Guoxiang Grayson Tong, Carlos A. Sing Long, Daniele E. Schiavazzi(参考訳) 物理に基づくシステムにおける生成モデルとディープラーニングの利用は、現在エミュレーションの課題に支配されている。 しかし、データ駆動アーキテクチャによって提供される顕著な柔軟性は、この表現をモデル反転や識別可能性を含むシステム合成の他の側面に拡張することを示唆する。 invaert (invert) ネットワーク、決定論的エンコーダと逆解マップを表すデコーダ、システムの出力の確率分布をキャプチャする正規化フロー、入力と出力の間の単射性の欠如に対してコンパクトな潜在表現を学ぶように設計された変分エンコーダを用いたパラメトリック物理システムのデータ駆動解析と合成のための包括的なフレームワークであるinvaert (invert) ネットワークを紹介する。 我々は,損失関数におけるペナルティ係数の選択と潜在空間サンプリングの戦略を正式に検討した。 我々は, 線形, 非線形, 周期写像, 動的システム, 時空間PDEなど, 広範な数値例を用いて, 枠組みを検証した。

Use of generative models and deep learning for physics-based systems is currently dominated by the task of emulation. However, the remarkable flexibility offered by data-driven architectures would suggest to extend this representation to other aspects of system synthesis including model inversion and identifiability. We introduce inVAErt (pronounced "invert") networks, a comprehensive framework for data-driven analysis and synthesis of parametric physical systems which uses a deterministic encoder and decoder to represent the forward and inverse solution maps, a normalizing flow to capture the probabilistic distribution of system outputs, and a variational encoder designed to learn a compact latent representation for the lack of bijectivity between inputs and outputs. We formally investigate the selection of penalty coefficients in the loss function and strategies for latent space sampling, since we find that these significantly affect both training and testing performance. We validate our framework through extensive numerical examples, including simple linear, nonlinear, and periodic maps, dynamical systems, and spatio-temporal PDEs.
翻訳日:2023-09-12 19:17:30 公開日:2023-09-11
# ランダム化半量子行列処理

Randomized semi-quantum matrix processing ( http://arxiv.org/abs/2307.11824v2 )

ライセンス: Link先を確認
Allan Tosta, Thais de Lima Silva, Giancarlo Camilo, Leandro Aolita(参考訳) 量子コンピュータは重要な行列解析タスクを高速化する可能性がある。 量子特異値変換(QSVT、quantum singular-value transformation)は、チェビシェフ近似と一意ブロック符号化による入力行列へのコヒーレントアクセスを用いて、ターゲット行列関数を設計する形式である。 それでも、有用なエンドユーザーアプリケーションのための物理実装には、大規模なフォールトトレラント量子コンピュータが必要である。 本稿では,初期のフォールトトレラント量子ハードウェアよりも汎用行列関数のモンテカルロシミュレーションのためのハイブリッド量子古典フレームワークを提案する。 QSVTの考え方から、行列オラクル量子を維持しながらチェビシェフ多項式をランダム化する。 この方法は、選択後の必要性を取り除くアダマールテストの亜種によって補助される。 結果として、標準QSVTの完全量子の場合と同様の統計的オーバーヘッドを特徴とし、回路深さの劣化は生じない。 逆に、平均回路深さは小さくなり、ノイズの非分極化やコヒーレントエラーを明示的に示すように、ノイズ感度が同等に低下することが示された。 本手法は,量子マルコフ連鎖モンテカルロと仮想時間発展によるパーティショニング関数推定,エンドツーエンド線形系解法,基底状態エネルギー推定の4つのユースケースに適用する。 これらの場合、コストのかかるパラメータの2次高速化や近似誤差依存の除去など、平均深度に対する利点を実証する。 全体として、我々のフレームワークは、初期のフォールトトレラント量子線型代数アプリケーションへの経路を提供する。

Quantum computers have the potential to speed-up important matrix-arithmetic tasks. A prominent framework for that is the quantum singular-value transformation (QSVT) formalism, which uses Chebyshev approximations and coherent access to the input matrix via a unitary block encoding to design a target matrix function. Nonetheless, physical implementations for useful end-user applications require large-scale fault-tolerant quantum computers. Here, we present a hybrid quantum-classical framework for Monte-Carlo simulation of generic matrix functions more amenable to early fault-tolerant quantum hardware. Serving from the ideas of QSVT, we randomize over the Chebyshev polynomials while keeping the matrix oracle quantum. The method is assisted by a variant of the Hadamard test that removes the need for post-selection. As a result, it features a similar statistical overhead to the fully quantum case of standard QSVT and does not incur any circuit depth degradation. On the contrary, the average circuit depth is shown to get smaller, yielding equivalent reductions of noise sensitivity, as we explicitly show for depolarizing noise and coherent errors. We apply our technique to four specific use cases: partition-function estimation via quantum Markov-chain Monte Carlo and via imaginary-time evolution; end-to-end linear system solvers; and ground-state energy estimation. For these cases, we prove advantages on average depths, including quadratic speed-ups on costly parameters and even the removal of the approximation-error dependence. All in all, our framework provides a pathway towards early fault-tolerant quantum linear algebra applications.
翻訳日:2023-09-12 19:17:07 公開日:2023-09-11
# 財務における感情分析へのQNLPの適用

Applying QNLP to sentiment analysis in finance ( http://arxiv.org/abs/2307.11788v3 )

ライセンス: Link先を確認
Jonas Stein, Ivo Christ, Nicolas Kraus, Maximilian Balthasar Mansky, Robert M\"uller, Claudia Linnhoff-Popien(参考訳) わずかな質的な改善が大きな価値をもたらすアプリケーション領域として、金融は早期の量子優位の候補となる。 量子自然言語処理(QNLP)の急速に進歩する分野に着目し、金融における感情分析の問題に対する2つの中心的アプローチであるDisCoCatとQuantum-Enhanced Long Short-Term Memory(QLSTM)の実用性について検討する。 新たなChatGPTベースのデータ生成手法を用いることで、1000以上の現実的な文でケーススタディを行い、QLSTMはDisCoCatよりも大幅に高速にトレーニングでき、また、利用可能なソフトウェア実装の古典的な結果に近い結果が得られることを発見した。

As an application domain where the slightest qualitative improvements can yield immense value, finance is a promising candidate for early quantum advantage. Focusing on the rapidly advancing field of Quantum Natural Language Processing (QNLP), we explore the practical applicability of the two central approaches DisCoCat and Quantum-Enhanced Long Short-Term Memory (QLSTM) to the problem of sentiment analysis in finance. Utilizing a novel ChatGPT-based data generation approach, we conduct a case study with more than 1000 realistic sentences and find that QLSTMs can be trained substantially faster than DisCoCat while also achieving close to classical results for their available software implementations.
翻訳日:2023-09-12 19:16:39 公開日:2023-09-11
# PIP-Netによる医用画像分類の解釈と修正

Interpreting and Correcting Medical Image Classification with PIP-Net ( http://arxiv.org/abs/2307.10404v2 )

ライセンス: Link先を確認
Meike Nauta, Johannes H. Hegeman, Jeroen Geerdink, J\"org Schl\"otterer, Maurice van Keulen, Christin Seifert(参考訳) パートプロトタイプモデルは、説明可能な画像分類器であり、ブラックボックスAIに代わる有望な選択肢である。 本稿では,リアルタイム医用画像データの自動診断支援における解釈可能な機械学習,特にPIP-Netの適用可能性について検討する。 PIP-Netは人間の理解可能な原型画像部品を学習し,その精度と皮膚癌診断の解釈性を評価する。 PIP-Netの意思決定プロセスは,画像レベルのクラスラベルのみを提供しながら,医学的分類基準に従っていることがわかった。 PIP-Netによるプロトタイプの教師なし事前トレーニングのため、望ましくないテキストやラベリングエラーなどのデータ品質問題を容易に識別できる。 さらに,PIP-Netの推論を直接無効にすることで,人間が手動で修正できることを初めて示す。 我々は,その解釈可能性と高度なモデルデバッグの可能性から,part-prototypeモデルが医療応用に有望であると結論づける。

Part-prototype models are explainable-by-design image classifiers, and a promising alternative to black box AI. This paper explores the applicability and potential of interpretable machine learning, in particular PIP-Net, for automated diagnosis support on real-world medical imaging data. PIP-Net learns human-understandable prototypical image parts and we evaluate its accuracy and interpretability for fracture detection and skin cancer diagnosis. We find that PIP-Net's decision making process is in line with medical classification standards, while only provided with image-level class labels. Because of PIP-Net's unsupervised pretraining of prototypes, data quality problems such as undesired text in an X-ray or labelling errors can be easily identified. Additionally, we are the first to show that humans can manually correct the reasoning of PIP-Net by directly disabling undesired prototypes. We conclude that part-prototype models are promising for medical applications due to their interpretability and potential for advanced model debugging.
翻訳日:2023-09-12 19:16:24 公開日:2023-09-11
# 参照ソリューションの提案のためのDeduplicing and Ranking Solutionsプログラム

Deduplicating and Ranking Solution Programs for Suggesting Reference Solutions ( http://arxiv.org/abs/2307.07940v2 )

ライセンス: Link先を確認
Atsushi Shirafuji and Yutaka Watanobe(参考訳) 他のユーザが書いたソリューションプログラムを参照することは、プログラミング教育の学習者に役立つ。 しかし、現在のオンライン審査システムは、ユーザが参照のために提出したすべてのソリューションプログラムをリストアップするだけで、そのプログラムは、参照できる範囲を無視して、提出日時、実行時間、ユーザ評価に基づいてソートされる。 さらに、重複や重複に近いプログラムが多すぎるため、ユーザはさまざまなソリューションアプローチを参照するのに苦労している。 本稿では,学習者がより優れた解法を学ぶための様々なソリューションを参照するための動機付けとして,各プログラミング問題における共通解プログラムの非重複化とランク付けを行う手法を提案する。 多くの重複プログラムがより一般的なアプローチを採用し、一般的な参照となるという性質に着想を得て、近い重複解プログラムを取り除き、重複数に基づいてユニークなプログラムをランク付けする。 実世界のオンライン・ジャッジ・システムに提出されたソリューション・プログラムの実験では、プログラムの数は60.20%減少しているのに対し、ベースラインは重複解消後の29.59%減少している。 さらに分析の結果,トップ10のプログラムは平均29.95%のプログラムをカバーしており,ユーザは10プログラムのみを参照して29.95%のソリューションアプローチを把握できることがわかった。 提案手法は,多すぎる解を参照し,様々な解法を学ぶ動機付けを行う学習者の負担を軽減する可能性を示している。

Referring to solution programs written by other users is helpful for learners in programming education. However, current online judge systems just list all solution programs submitted by users for references, and the programs are sorted based on the submission date and time, execution time, or user rating, ignoring to what extent the programs can be helpful to be referenced. In addition, users struggle to refer to a variety of solution approaches since there are too many duplicated and near-duplicated programs. To motivate learners to refer to various solutions to learn better solution approaches, in this paper, we propose an approach to deduplicate and rank common solution programs in each programming problem. Inspired by the nature that the many-duplicated program adopts a more common approach and can be a general reference, we remove the near-duplicated solution programs and rank the unique programs based on the duplicate count. The experiments on the solution programs submitted to a real-world online judge system demonstrate that the number of programs is reduced by 60.20%, whereas the baseline only reduces by 29.59% after the deduplication, meaning that users only need to refer to 39.80% of programs on average. Furthermore, our analysis shows that top-10 ranked programs cover 29.95% of programs on average, indicating that users can grasp 29.95% of solution approaches by referring to only 10 programs. The proposed approach shows the potential of reducing the learners' burden of referring to too many solutions and motivating them to learn a variety of solution approaches.
翻訳日:2023-09-12 19:16:05 公開日:2023-09-11
# gifd:特徴領域最適化を用いた生成勾配インバージョン法

GIFD: A Generative Gradient Inversion Method with Feature Domain Optimization ( http://arxiv.org/abs/2308.04699v2 )

ライセンス: Link先を確認
Hao Fang, Bin Chen, Xuan Wang, Zhi Wang, Shu-Tao Xia(参考訳) federated learning(fl)は、複数のクライアントがローカルデータから算出した勾配を中央サーバにアップロードできるようにすることで、クライアントのプライバシを保護する有望な分散機械学習フレームワークとして最近登場した。 例えば、攻撃者は事前訓練された生成的敵ネットワーク(gan)を事前知識として利用することで、共有勾配を反転させ、flシステムに対して機密データを回復することができる。 しかし、GANモデルの潜在空間における勾配反転攻撃は、その表現能力と一般化可能性を制限する。 これらの課題に対処するために、GANモデルを分解して中間層の特徴領域を探索する \textbf{G}radient \textbf{I}nversion over \textbf{F}eature \textbf{D}omains (GIFD) を提案する。 初期潜在コードのみを最適化するのではなく、最適化されたレイヤを初期潜在スペースから出力イメージに近い中間レイヤへと段階的に変更します。 さらに、探索範囲に小さな${l_1}$ボール制約を追加することで、非現実画像生成を避けるために正規化子を設計する。 gifdをout-of-distribution(ood)設定に拡張することで、ganとflタスクのトレーニングセットが同じデータ分散に従うという仮定を弱めます。 本手法は画素レベルの再構成が可能であり,既存手法よりも優れていることを示す。 特にgifdは、異なる防御戦略設定とバッチサイズで非常に汎用性が高い。

Federated Learning (FL) has recently emerged as a promising distributed machine learning framework to preserve clients' privacy, by allowing multiple clients to upload the gradients calculated from their local data to a central server. Recent studies find that the exchanged gradients also take the risk of privacy leakage, e.g., an attacker can invert the shared gradients and recover sensitive data against an FL system by leveraging pre-trained generative adversarial networks (GAN) as prior knowledge. However, performing gradient inversion attacks in the latent space of the GAN model limits their expression ability and generalizability. To tackle these challenges, we propose \textbf{G}radient \textbf{I}nversion over \textbf{F}eature \textbf{D}omains (GIFD), which disassembles the GAN model and searches the feature domains of the intermediate layers. Instead of optimizing only over the initial latent code, we progressively change the optimized layer, from the initial latent space to intermediate layers closer to the output images. In addition, we design a regularizer to avoid unreal image generation by adding a small ${l_1}$ ball constraint to the searching range. We also extend GIFD to the out-of-distribution (OOD) setting, which weakens the assumption that the training sets of GANs and FL tasks obey the same data distribution. Extensive experiments demonstrate that our method can achieve pixel-level reconstruction and is superior to the existing methods. Notably, GIFD also shows great generalizability under different defense strategy settings and batch sizes.
翻訳日:2023-09-12 19:10:38 公開日:2023-09-11
# 任意の量子系の隠れテンソル構造

Hidden tensor structures of any quantum system ( http://arxiv.org/abs/2308.04202v3 )

ライセンス: Link先を確認
Marek Czachor(参考訳) 単一の量子系は、自動的にテンソルのような構造(モジュラー隠れ積とフォック隠れ積)を備える。 その結果、任意の量子系は単一の1次元調和振動子や無限ポテンシャル井戸のように単純なものであっても、任意の数の隠れたサブシステムに分解することができる。 結果として生じる構造は、量子計算、ベルの不等式違反、普遍量子ゲートの定式化を可能にするのに十分なリッチである。 標準の少ないアプリケーションは、位置と隠れた位置を区別する。 隠れた位置は、粒子がスピンがなく一次元であっても、隠れたスピンが伴うことができる。 隠れた自由度は多くの点でモジュラー変数と類似している。 さらに、これらの隠れた構造は、ブラント・グリーンバーグによる生成消滅作用素のマルチボゾン表現のような、いくつかのよく知られた理論構成のルーツであり、高次または分数次スクイージングの文脈で集中的に研究されていることが示されている。 事実上、文献から知られているかなり退屈な標準的な証明は、文字通り1行に単純化することができる。 一般的な構成は具体例で示される。

Any single quantum system is automatically equipped with hidden tensor-like structures (modular hidden products and Fockian hidden products). In consequence, any quantum system, even as simple as a single one-dimensional harmonic oscillator or an infinite potential well, can be decomposed into an arbitrary number of hidden subsystems. The resulting structure is rich enough to enable quantum computation, violation of Bell's inequalities, and formulation of universal quantum gates. Less standard applications involve the distinction between position and hidden position. The hidden position can be accompanied by a hidden spin, even if the particle is spinless and one-dimensional. Hidden degrees of freedom are in many respects analogous to modular variables. Moreover, it is shown that these hidden structures are at the roots of some well known theoretical constructions, such as the Brandt-Greenberg multi-boson representation of creation-annihilation operators, intensively investigated in the context of higher-order or fractional-order squeezing. In effect, certain rather tedious standard proofs known from the literature can be simplified to literally one line. The general construction is illustrated by concrete examples.
翻訳日:2023-09-12 19:09:38 公開日:2023-09-11
# SynAuG: データ不均衡問題に対する合成データのエクスプロイト

SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems ( http://arxiv.org/abs/2308.00994v2 )

ライセンス: Link先を確認
Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak, Tae-Hyun Oh(参考訳) 私たちはデータ洪水の時代に生きており、ディープニューラルネットワークはこの瞬間において重要な役割を果たす。 自然データは本質的に、データ不均衡が根本的な問題の中心にあるロングテール分布やモデルフェアネスのようないくつかの課題を呈する。 この不均衡は、偏りのある予測を生み出すディープニューラルネットワークのリスクをもたらし、潜在的に厳しい倫理的・社会的問題を引き起こす。 これらの問題に対処するために、我々は、高品質な画像の生成に先立つ最近の生成モデルを活用する。 本研究では,合成データを用いて与えられた不均衡分布を統一し,さらに,実データと合成データの領域間ギャップを考慮した簡易なポストキャリブレーションステップを提案する。 この直接的なアプローチは、cifar100-lt、imagenet100-lt、utkface、waterbirdsなどの特徴的なデータ不均衡問題に対するデータセットの印象的なパフォーマンスをもたらす。 私たちは、このアプローチがデータの不均衡問題に対する完全な解決策であると主張することはしないが、既存のデータを合成データで補完することは、データの不均衡に対処する上で効果的かつ重要なステップであると主張する。

We live in an era of data floods, and deep neural networks play a pivotal role in this moment. Natural data inherently exhibits several challenges such as long-tailed distribution and model fairness, where data imbalance is at the center of fundamental issues. This imbalance poses a risk of deep neural networks producing biased predictions, leading to potentially severe ethical and social problems. To address these problems, we leverage the recent generative models advanced in generating high-quality images. In this work, we propose SYNAuG, which utilizes synthetic data to uniformize the given imbalance distribution followed by a simple post-calibration step considering the domain gap between real and synthetic data. This straightforward approach yields impressive performance on datasets for distinctive data imbalance problems such as CIFAR100-LT, ImageNet100-LT, UTKFace, and Waterbirds, surpassing the performance of existing task-specific methods. While we do not claim that our approach serves as a complete solution to the problem of data imbalance, we argue that supplementing the existing data with synthetic data proves to be an effective and crucial step in addressing data imbalance concerns.
翻訳日:2023-09-12 19:07:52 公開日:2023-09-11
# 3Dで見たくなる変化(動画あり)

The Change You Want to See (Now in 3D) ( http://arxiv.org/abs/2308.10417v2 )

ライセンス: Link先を確認
Ragav Sachdeva, Andrew Zisserman(参考訳) この論文の目的は、異なるカメラ位置から取得した同じ3dシーンの2つの「野生の」画像と、異なる時間的インスタンスで何が変わったかを検出することである。 この問題のオープンセットの性質、視点の変化によるオクルージョン/ディクルージョン、適切なトレーニングデータセットの欠如は、ソリューションを開発する上で大きな課題となっている。 この問題に対処するために,我々は,合成データに基づいて完全にトレーニングされ,クラスに依存しない変更検出モデルを提案する。 我々のソリューションは、自己教師付き凍結埋め込みと特徴差を利用した「登録と差異」アプローチを伴い、モデルが様々な場面や領域に一般化できるようにする。 このモデルでは、2つのRGB画像を直接操作することが可能で、地平線カメラの内在性、外在性、深度マップ、点雲、追加の事前画像にアクセスする必要はない。 最後に,人間に注釈を付けた実世界のイメージペアからなる新しい評価データセットを収集し,本手法の有効性を実証する。 コード、データセット、事前トレーニングされたモデルは以下の通りである。

The goal of this paper is to detect what has changed, if anything, between two "in the wild" images of the same 3D scene acquired from different camera positions and at different temporal instances. The open-set nature of this problem, occlusions/dis-occlusions due to the shift in viewpoint, and the lack of suitable training datasets, presents substantial challenges in devising a solution. To address this problem, we contribute a change detection model that is trained entirely on synthetic data and is class-agnostic, yet it is performant out-of-the-box on real world images without requiring fine-tuning. Our solution entails a "register and difference" approach that leverages self-supervised frozen embeddings and feature differences, which allows the model to generalise to a wide variety of scenes and domains. The model is able to operate directly on two RGB images, without requiring access to ground truth camera intrinsics, extrinsics, depth maps, point clouds, or additional before-after images. Finally, we collect and release a new evaluation dataset consisting of real-world image pairs with human-annotated differences and demonstrate the efficacy of our method. The code, datasets and pre-trained model can be found at: https://github.com/ragavsachdeva/CYWS-3D
翻訳日:2023-09-12 18:58:34 公開日:2023-09-11
# 非インタラクティブ音声品質評価モデルのためのマルチタスク擬似ラベル学習

Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality Assessment Model ( http://arxiv.org/abs/2308.09262v2 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Bo-Ren Brian Bai, Chiou-Shann Fuh, Hsin-Min Wang and Yu Tsao(参考訳) 本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。 MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う。 3QUESTメトリクス、すなわち、Speech-MOS(S-MOS)、N-MOS(N-MOS)、General-MOS(G-MOS)が評価対象である。 事前学習したMOSA-Netモデルを用いて、音声品質の知覚評価(PESQ)、短時間客観的インテリジェンス(STOI)、音声歪み指数(SDI)の3つの擬似ラベルを推定する。 次に、MTQ-Netのトレーニングにマルチタスク学習を用い、教師付き損失(推定スコアとグランドトゥルースラベルとの差から)と半教師付き損失(推定スコアと擬似ラベルとの差から)を組み合わせて、ハマー損失を損失関数として利用する。 実験結果はまず,モデルをスクラッチからトレーニングし,直接知識伝達機構を用いた場合と比較して,mplの利点を示す。 次に,MTQ-Netの予測能力向上のためのHuber損失の利点を検証する。 MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。

This study proposes a multi-task pseudo-label learning (MPL)-based non-intrusive speech quality assessment model called MTQ-Net. MPL consists of two stages: obtaining pseudo-label scores from a pretrained model and performing multi-task learning. The 3QUEST metrics, namely Speech-MOS (S-MOS), Noise-MOS (N-MOS), and General-MOS (G-MOS), are the assessment targets. The pretrained MOSA-Net model is utilized to estimate three pseudo labels: perceptual evaluation of speech quality (PESQ), short-time objective intelligibility (STOI), and speech distortion index (SDI). Multi-task learning is then employed to train MTQ-Net by combining a supervised loss (derived from the difference between the estimated score and the ground-truth label) and a semi-supervised loss (derived from the difference between the estimated score and the pseudo label), where the Huber loss is employed as the loss function. Experimental results first demonstrate the advantages of MPL compared to training a model from scratch and using a direct knowledge transfer mechanism. Second, the benefit of the Huber loss for improving the predictive ability of MTQ-Net is verified. Finally, the MTQ-Net with the MPL approach exhibits higher overall predictive power compared to other SSL-based speech assessment models.
翻訳日:2023-09-12 18:58:12 公開日:2023-09-11
# scire-solver:再帰的差分を持つスコア積分型ソルバによる加速拡散モデルサンプリング

SciRE-Solver: Accelerating Diffusion Models Sampling by Score-integrand Solver with Recursive Difference ( http://arxiv.org/abs/2308.07896v3 )

ライセンス: Link先を確認
Shigui Li, Wei Chen, Delu Zeng(参考訳) 拡散モデル(DM)は、画像、オーディオ、ビデオ生成の分野で大きな進歩を遂げている。 DMの欠点の1つは、その遅い反復過程である。 最近の高速サンプリングアルゴリズムは微分方程式の観点から設計されている。 しかし、テイラー展開に基づく高階アルゴリズムでは、大規模で訓練されたニューラルネットワークの複雑さのためにスコア関数の導関数を推定することは困難になる。 この動機によって、本研究では、DMの領域におけるスコア関数の微分を計算するために、再帰差分法(RD法)を導入する。 SciRE-Solver は,RD 法とTorylor によるスコアインテグレートの拡張に基づいて,DM のサンプリングを高速化するための収束順序保証付きで提案する。 RD法の有効性をさらに検討するため,RD法と指数積分器に基づくSciREI-Solverという変種も提案する。 提案手法は,各種スコア関数評価 (NFE) の下で,離散時間および連続時間事前学習DMを用いて,既存のトレーニング不要サンプリングアルゴリズムと比較して,最先端(SOTA)FIDを実現する。 注目すべきは、小さなNFEを使用したSciRE-Solverは、1,000ドル以下のNFEを使用して、トレーニング済みモデルによって達成されたFIDを超える有望な可能性を示していることである。 例えば、SOTA値が$2.40$FIDで$100$NFE、CIFAR-10で$84$NFEで$3.15$FID、CelebA 64で$18$(50)NFEで$2.17$(2.02)FID、CelebA 64で$\times$64で$18$(50)NFEである。

Diffusion models (DMs) have made significant progress in the fields of image, audio, and video generation. One downside of DMs is their slow iterative process. Recent algorithms for fast sampling are designed from the perspective of differential equations. However, in higher-order algorithms based on Taylor expansion, estimating the derivative of the score function becomes intractable due to the complexity of large-scale, well-trained neural networks. Driven by this motivation, in this work, we introduce the recursive difference (RD) method to calculate the derivative of the score function in the realm of DMs. Based on the RD method and the truncated Taylor expansion of score-integrand, we propose SciRE-Solver with the convergence order guarantee for accelerating sampling of DMs. To further investigate the effectiveness of the RD method, we also propose a variant named SciREI-Solver based on the RD method and exponential integrator. Our proposed sampling algorithms with RD method attain state-of-the-art (SOTA) FIDs in comparison to existing training-free sampling algorithms, across both discrete-time and continuous-time pre-trained DMs, under various number of score function evaluations (NFE). Remarkably, SciRE-Solver using a small NFEs demonstrates promising potential to surpass the FID achieved by some pre-trained models in their original papers using no fewer than $1000$ NFEs. For example, we reach SOTA value of $2.40$ FID with $100$ NFE for continuous-time DM and of $3.15$ FID with $84$ NFE for discrete-time DM on CIFAR-10, as well as of $2.17$ (2.02) FID with $18$ (50) NFE for discrete-time DM on CelebA 64$\times$64.
翻訳日:2023-09-12 18:57:31 公開日:2023-09-11
# 各種環境におけるシングルライギッド・ボディ特性の適応的追跡

Adaptive Tracking of a Single-Rigid-Body Character in Various Environments ( http://arxiv.org/abs/2308.07491v2 )

ライセンス: Link先を確認
Taesoo Kwon, Taehong Gu, Jaewon Ahn, Yoonsang Lee(参考訳) DeepMimic[Peng et al. 2018]の導入以来、その後の研究は様々なシナリオでシミュレートされた動きのレパートリーの拡大に焦点を当ててきた。 本研究では,この目標に対する代替手法を提案する。この手法は,物体の単一文字のシミュレーションに基づく深層強化学習手法である。 中心運動力学モデル(CDM)を用いて、全体特性を単一の剛体(SRB)として表現し、基準運動を追跡するためのポリシーを訓練することにより、追加の学習を必要とせず、様々な未観測環境変化や制御遷移に適応可能なポリシーを得ることができる。 状態空間と行動空間の次元が減少しているため、学習プロセスはサンプル効率が良い。 最終全体運動は、シミュレートされたSRBキャラクタの状態に基づいて、物理的に妥当な方法で運動的に生成される。 SRBシミュレーションは、二次プログラミング(QP)問題として定式化され、ポリシーは、SRBキャラクタが参照動作に従うことができるアクションを出力する。 われわれは,超ポータブルノートパソコン上で30分以内に効率よくトレーニングし,不均一な地形を走ったり,箱を押したり,学習方針間の遷移など,学習中に経験されていない環境に対処できることを実証した。

Since the introduction of DeepMimic [Peng et al. 2018], subsequent research has focused on expanding the repertoire of simulated motions across various scenarios. In this study, we propose an alternative approach for this goal, a deep reinforcement learning method based on the simulation of a single-rigid-body character. Using the centroidal dynamics model (CDM) to express the full-body character as a single rigid body (SRB) and training a policy to track a reference motion, we can obtain a policy that is capable of adapting to various unobserved environmental changes and controller transitions without requiring any additional learning. Due to the reduced dimension of state and action space, the learning process is sample-efficient. The final full-body motion is kinematically generated in a physically plausible way, based on the state of the simulated SRB character. The SRB simulation is formulated as a quadratic programming (QP) problem, and the policy outputs an action that allows the SRB character to follow the reference motion. We demonstrate that our policy, efficiently trained within 30 minutes on an ultraportable laptop, has the ability to cope with environments that have not been experienced during learning, such as running on uneven terrain or pushing a box, and transitions between learned policies, without any additional learning.
翻訳日:2023-09-12 18:56:54 公開日:2023-09-11
# ヒトメッシュ回復のための分布配向拡散

Distribution-Aligned Diffusion for Human Mesh Recovery ( http://arxiv.org/abs/2308.13369v2 )

ライセンス: Link先を確認
Lin Geng Foo, Jia Gong, Hossein Rahmani, Jun Liu(参考訳) 単一のRGB画像から3Dヒューマンメッシュを復元することは、深さの曖昧さと自己排他性のために難しい作業であり、高い不確実性をもたらす。 一方、拡散モデルは最近、ノイズの入力を徐々にデノベートすることで高品質な出力を生成することに成功している。 その能力に触発されて,ヒトのメッシュ回復のための拡散ベースのアプローチを探索し,逆拡散過程としてメッシュ回復を枠組するヒューマンメッシュ拡散(hmdiff)フレームワークを提案する。 また,メッシュ分布拡散プロセスに事前分布情報を注入し,メッシュ復元作業を容易にするための事前知識を提供する分散アライメント手法(dat)を提案する。 提案手法は,広く使用されている3つのデータセットの最先端性能を実現する。 プロジェクトページ:https://gongjia0208.github.io/HMDiff/。

Recovering a 3D human mesh from a single RGB image is a challenging task due to depth ambiguity and self-occlusion, resulting in a high degree of uncertainty. Meanwhile, diffusion models have recently seen much success in generating high-quality outputs by progressively denoising noisy inputs. Inspired by their capability, we explore a diffusion-based approach for human mesh recovery, and propose a Human Mesh Diffusion (HMDiff) framework which frames mesh recovery as a reverse diffusion process. We also propose a Distribution Alignment Technique (DAT) that infuses prior distribution information into the mesh distribution diffusion process, and provides useful prior knowledge to facilitate the mesh recovery task. Our method achieves state-of-the-art performance on three widely used datasets. Project page: https://gongjia0208.github.io/HMDiff/.
翻訳日:2023-09-12 18:50:35 公開日:2023-09-11
# 微調整Llama 2 GPTモデルを用いた財務情報分析

Financial News Analytics Using Fine-Tuned Llama 2 GPT Model ( http://arxiv.org/abs/2308.13032v2 )

ライセンス: Link先を確認
Bohdan M. Pavlyshenko(参考訳) 本稿では,財務ニュースのマルチタスク解析におけるLlama 2 GPT大言語モデル(LLM)の微調整の可能性を検討する。 微調整にはPEFT/LoRAベースのアプローチが用いられた。 調査では、金融市場の観点からテキストを分析し、テキストの要点を強調し、テキストを要約し、適切な感情で名前付きエンティティを抽出する。 その結果、微調整されたllama 2モデルは、特定の応答構造を持つマルチタスクファイナンシャルニュース分析を実行でき、応答の一部が構造化テキストとなり、データの一部がjsonフォーマットでさらなる処理が可能であることが判明した。 名前付きエンティティの抽出された感情は、定量的なターゲット変数を持つ教師付き機械学習モデルにおける予測的特徴と見なすことができる。

The paper considers the possibility to fine-tune Llama 2 GPT large language model (LLM) for the multitask analysis of financial news. For fine-tuning, the PEFT/LoRA based approach was used. In the study, the model was fine-tuned for the following tasks: analysing a text from financial market perspectives, highlighting main points of a text, summarizing a text and extracting named entities with appropriate sentiments. The obtained results show that the fine-tuned Llama 2 model can perform a multitask financial news analysis with a specified structure of response, part of response can be a structured text and another part of data can have JSON format for further processing. Extracted sentiments for named entities can be considered as predictive features in supervised machine learning models with quantitative target variables.
翻訳日:2023-09-12 18:49:58 公開日:2023-09-11
# VIGC:ビジュアルインストラクション生成と修正

VIGC: Visual Instruction Generation and Correction ( http://arxiv.org/abs/2308.12714v2 )

ライセンス: Link先を確認
Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang, Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He(参考訳) 視覚エンコーダと大言語モデル(LLM)の統合により、マルチモーダル大言語モデル(MLLM)が近年進歩している。 しかし、視覚言語タスクのための高品質な指導訓練データの不足は依然として課題である。 llavaのような現在のリードパラダイムは、データを生成するのに言語のみのgpt-4に依存しており、画像の詳細を理解するのに苦しむ、注釈付き画像キャプションと検出バウンディングボックスを必要とする。 この問題に対する実用的な解決策は、多モーダル大規模言語モデル(MLLM)を使用して視覚言語タスクの命令データを生成することである。 しかし、現在アクセス可能なMLLMは、不十分な応答を生成し、誤った情報を生成する傾向があるため、LLMのそれほど強力ではないことに注意する必要がある。 本稿では,この問題を解決するために,マルチモーダル大規模言語モデルが命令チューニングデータを生成し,その品質を段階的に向上できるヴィジュアルインストラクション生成・修正(vigc)フレームワークを提案する。 具体的には、視覚インストラクション生成(VIG)が視覚言語モデルをガイドし、多様なインストラクションチューニングデータを生成する。 生成品質を確保するために、Visual Instruction Correction (VIC)は、VIGが生成したデータの不正確性を補正する反復的な更新機構を採用し、幻覚のリスクを効果的に低減する。 VIGCが生成する多様で高品質なデータを活用することで、主流モデルを微調整し、さまざまな評価に基づいてデータ品質を検証する。 実験結果から,VIGCは言語のみのデータ生成手法の欠点を補うだけでなく,ベンチマーク性能を効果的に向上することが示された。 モデル、データセット、コードはhttps://opendatalab.github.io/VIGCで公開されている。

The integration of visual encoders and large language models (LLMs) has driven recent progress in multimodal large language models (MLLMs). However, the scarcity of high-quality instruction-tuning data for vision-language tasks remains a challenge. The current leading paradigm, such as LLaVA, relies on language-only GPT-4 to generate data, which requires pre-annotated image captions and detection bounding boxes, suffering from understanding image details. A practical solution to this problem would be to utilize the available multimodal large language models (MLLMs) to generate instruction data for vision-language tasks. However, it's worth noting that the currently accessible MLLMs are not as powerful as their LLM counterparts, as they tend to produce inadequate responses and generate false information. As a solution for addressing the current issue, this paper proposes the Visual Instruction Generation and Correction (VIGC) framework that enables multimodal large language models to generate instruction-tuning data and progressively enhance its quality on-the-fly. Specifically, Visual Instruction Generation (VIG) guides the vision-language model to generate diverse instruction-tuning data. To ensure generation quality, Visual Instruction Correction (VIC) adopts an iterative update mechanism to correct any inaccuracies in data produced by VIG, effectively reducing the risk of hallucination. Leveraging the diverse, high-quality data generated by VIGC, we finetune mainstream models and validate data quality based on various evaluations. Experimental results demonstrate that VIGC not only compensates for the shortcomings of language-only data generation methods, but also effectively enhances the benchmark performance. The models, datasets, and code are available at https://opendatalab.github.io/VIGC.
翻訳日:2023-09-12 18:49:44 公開日:2023-09-11
# RGB-D動作とジェスチャー認識のための多段階分解時空間表現

Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action and Gesture Recognition ( http://arxiv.org/abs/2308.12006v2 )

ライセンス: Link先を確認
Yujun Ma, Benjia Zhou, Ruili Wang, Pichao Wang(参考訳) rgb-dアクションとジェスチャー認識は、主に複数の粒度と人間の動きのばらつきのために、人間中心のシーン理解において興味深いトピックである。 多くのRGB-Dに基づくアクションとジェスチャー認識アプローチは、複数のモード(例えばRGBと深度データ)にわたる高度に統合された時空間表現を利用することで、目覚ましい結果を示したが、それでもいくつかの課題に直面している。 まず、バニラ3d畳み込みは、異なるモードのローカルクリップ間のきめ細かい動きの違いを捉えるのを難しくする。 第二に、高度に統合された時空間モデリングの複雑な性質は最適化の困難をもたらす可能性がある。 第三に、重複した不要な情報により複雑さが増し、時空間モデリングが複雑になることがある。 以上の課題に対処するため、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized Spatio-Temporal)と呼ばれる革新的なヒューリスティックアーキテクチャを提案する。 提案したMFSTモデルでは,3次元中央差分畳畳み込みステム(CDC-Stem)モジュールと多重分解時空間ステージからなる。 cdc-stemは粒度の細かい時間知覚を豊かにし、複数の階層的時空間段階は次元非依存な高次意味プリミティブを構築する。 特に、cdc-stemモジュールは、ボトムレベル時空間的特徴をキャプチャし、次に示す時空間的要因づけステージに順次通過し、マルチスケール畳み込みトランス(msc-trans)ハイブリッドブロックおよび重み共有マルチスケールトランス(wms-trans)ブロックを介して階層的空間的および時間的特徴をキャプチャする。 これらの革新的なデザインのシームレスな統合は、rgb-dアクションとジェスチャー認識データセットの最先端のアプローチを上回る堅牢な時空間表現をもたらす。

RGB-D action and gesture recognition remain an interesting topic in human-centered scene understanding, primarily due to the multiple granularities and large variation in human motion. Although many RGB-D based action and gesture recognition approaches have demonstrated remarkable results by utilizing highly integrated spatio-temporal representations across multiple modalities (i.e., RGB and depth data), they still encounter several challenges. Firstly, vanilla 3D convolution makes it hard to capture fine-grained motion differences between local clips under different modalities. Secondly, the intricate nature of highly integrated spatio-temporal modeling can lead to optimization difficulties. Thirdly, duplicate and unnecessary information can add complexity and complicate entangled spatio-temporal modeling. To address the above issues, we propose an innovative heuristic architecture called Multi-stage Factorized Spatio-Temporal (MFST) for RGB-D action and gesture recognition. The proposed MFST model comprises a 3D Central Difference Convolution Stem (CDC-Stem) module and multiple factorized spatio-temporal stages. The CDC-Stem enriches fine-grained temporal perception, and the multiple hierarchical spatio-temporal stages construct dimension-independent higher-order semantic primitives. Specifically, the CDC-Stem module captures bottom-level spatio-temporal features and passes them successively to the following spatio-temporal factored stages to capture the hierarchical spatial and temporal features through the Multi- Scale Convolution and Transformer (MSC-Trans) hybrid block and Weight-shared Multi-Scale Transformer (WMS-Trans) block. The seamless integration of these innovative designs results in a robust spatio-temporal representation that outperforms state-of-the-art approaches on RGB-D action and gesture recognition datasets.
翻訳日:2023-09-12 18:49:00 公開日:2023-09-11
# Blending-NeRF:ニューラルラジアンス分野におけるテキスト駆動型局所編集

Blending-NeRF: Text-Driven Localized Editing in Neural Radiance Fields ( http://arxiv.org/abs/2308.11974v2 )

ライセンス: Link先を確認
Hyeonseop Song, Seokhun Choi, Hoseok Do, Chul Lee, Taehyeong Kim(参考訳) テキスト駆動による3Dオブジェクトの局所的編集は、元の3Dオブジェクトと意図された新しいオブジェクトとを局所的に混合することが特に困難である。 そこで本研究では,2つのNeRFネットワーク – 事前学習されたNeRFと編集可能なNeRF – で構成される,新しいNeRFベースモデルであるBlending-NeRFを提案する。 さらに、Blending-NeRFがテキストでローカライズされたターゲット領域を適切に編集できる新しいブレンディング操作を導入する。 事前訓練された視覚言語対応モデルであるCLIPを用いて、Blending-NeRFをガイドし、色や密度の異なる新しいオブジェクトの追加、テクスチャの修正、元のオブジェクトの一部の削除を行う。 Blending-NeRFは様々なテキストプロンプトから自然および局所的に編集された3Dオブジェクトを生成する。 私たちのプロジェクトページはhttps://seokhunchoi.github.io/blending-nerf/で閲覧できます。

Text-driven localized editing of 3D objects is particularly difficult as locally mixing the original 3D object with the intended new object and style effects without distorting the object's form is not a straightforward process. To address this issue, we propose a novel NeRF-based model, Blending-NeRF, which consists of two NeRF networks: pretrained NeRF and editable NeRF. Additionally, we introduce new blending operations that allow Blending-NeRF to properly edit target regions which are localized by text. By using a pretrained vision-language aligned model, CLIP, we guide Blending-NeRF to add new objects with varying colors and densities, modify textures, and remove parts of the original object. Our extensive experiments demonstrate that Blending-NeRF produces naturally and locally edited 3D objects from various text prompts. Our project page is available at https://seokhunchoi.github.io/Blending-NeRF/
翻訳日:2023-09-12 18:48:20 公開日:2023-09-11
# 市民AIの国際ガバナンス : 司法認定アプローチ

International Governance of Civilian AI: A Jurisdictional Certification Approach ( http://arxiv.org/abs/2308.15514v2 )

ライセンス: Link先を確認
Robert Trager, Ben Harack, Anka Reuel, Allison Carnegie, Lennart Heim, Lewis Ho, Sarah Kreps, Ranjit Lall, Owen Larter, Se\'an \'O h\'Eigeartaigh, Simon Staffell, Jos\'e Jaime Villalobos(参考訳) 本報告では,文民人工知能(AI)の国際ガバナンスアレンジメントの設計におけるトレードオフについて述べる。 このアプローチは、標準、ライセンス、責任体制のグローバルレベルへの拡張を表している。 我々は、国際監督基準に準拠した国家司法機関(企業やAIプロジェクトではない)を認定する国際AI機関(IAIO)を設立することを提案する。 国は、サプライチェーンがAIを非IAIO認定の管轄区域から具体化する商品の輸入を禁止する規制を採用することで、これらの国際標準に力を与えることができる。 これは、国際民間航空機関(icao)、国際海事機関(imo)、金融行動タスクフォース(fatf)といった既存の国際組織のモデルに借用されている。 州は、特殊ハードウェアなどのai製品インプットを非認証の管轄区域に輸出する多国間制御も採用できる。 実際、認証には輸出基準と輸出基準の両方が必要である。 国際アクターが高度なAIのリスクと最低限の基準について合意に達すると、司法認定制度は公共の安全への脅威を含む幅広い潜在的な害を軽減できる可能性がある。

This report describes trade-offs in the design of international governance arrangements for civilian artificial intelligence (AI) and presents one approach in detail. This approach represents the extension of a standards, licensing, and liability regime to the global level. We propose that states establish an International AI Organization (IAIO) to certify state jurisdictions (not firms or AI projects) for compliance with international oversight standards. States can give force to these international standards by adopting regulations prohibiting the import of goods whose supply chains embody AI from non-IAIO-certified jurisdictions. This borrows attributes from models of existing international organizations, such as the International Civilian Aviation Organization (ICAO), the International Maritime Organization (IMO), and the Financial Action Task Force (FATF). States can also adopt multilateral controls on the export of AI product inputs, such as specialized hardware, to non-certified jurisdictions. Indeed, both the import and export standards could be required for certification. As international actors reach consensus on risks of and minimum standards for advanced AI, a jurisdictional certification regime could mitigate a broad range of potential harms, including threats to public safety.
翻訳日:2023-09-12 18:39:07 公開日:2023-09-11
# ExpCLIP:意味的アライメントによるテキストと表情のブリッジ

ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment ( http://arxiv.org/abs/2308.14448v2 )

ライセンス: Link先を確認
Yicheng Zhong, Huawei Wei, Peiji Yang, Zhisheng Wang(参考訳) スタイリッシュな音声駆動顔アニメーションの目的は、特定の感情表現をカプセル化したアニメーションを作ることである。 既存の方法は、しばしば事前に確立された感情ラベルや表情テンプレートに依存し、ユーザーの意図を正確に伝達するために必要な柔軟性を制限する。 本研究では,自然言語を感情刺激として活用することにより,任意のスタイルを制御できる手法を提案する。 このテクニックは柔軟性とユーザフレンドリという両面でメリットをもたらします。 この目的を達成するために、まずテキスト表現アライメントデータセット(TEAD)を構築し、各表情を複数のプロンプト的な記述と組み合わせ、大規模言語モデル(LLM)がサポートする革新的な自動アノテーション手法を提案し、データセット構築を高速化し、手動アノテーションの大幅なコストを削減した。 これに続いて、TEADを用いてCLIPベースのモデルであるExpCLIPをトレーニングし、テキストと表情を意味的に整合したスタイルの埋め込みにエンコードする。 埋め込みはその後、表情アニメーションジェネレータに統合され、表現的で制御可能な顔アニメーションが得られる。 既存の音声駆動型顔アニメーション訓練データにおいて、表情感情の多様性が限定されていることを考慮し、アニメーション生成がスタイル制御における前代未聞の豊かさをサポートできるように、効果的な表現プロンプト増強(EPA)機構を導入する。 包括的実験により,提案手法は表現力のある顔のアニメーション生成を実現し,所望のスタイルを効果的に伝達する柔軟性の向上を図っている。

The objective of stylized speech-driven facial animation is to create animations that encapsulate specific emotional expressions. Existing methods often depend on pre-established emotional labels or facial expression templates, which may limit the necessary flexibility for accurately conveying user intent. In this research, we introduce a technique that enables the control of arbitrary styles by leveraging natural language as emotion prompts. This technique presents benefits in terms of both flexibility and user-friendliness. To realize this objective, we initially construct a Text-Expression Alignment Dataset (TEAD), wherein each facial expression is paired with several prompt-like descriptions.We propose an innovative automatic annotation method, supported by Large Language Models (LLMs), to expedite the dataset construction, thereby eliminating the substantial expense of manual annotation. Following this, we utilize TEAD to train a CLIP-based model, termed ExpCLIP, which encodes text and facial expressions into semantically aligned style embeddings. The embeddings are subsequently integrated into the facial animation generator to yield expressive and controllable facial animations. Given the limited diversity of facial emotions in existing speech-driven facial animation training data, we further introduce an effective Expression Prompt Augmentation (EPA) mechanism to enable the animation generator to support unprecedented richness in style control. Comprehensive experiments illustrate that our method accomplishes expressive facial animation generation and offers enhanced flexibility in effectively conveying the desired style.
翻訳日:2023-09-12 18:38:18 公開日:2023-09-11
# 時間的相互作用グラフ埋め込みのためのストリーミング分割と並列加速度

SPEED: Streaming Partition and Parallel Acceleration for Temporal Interaction Graph Embedding ( http://arxiv.org/abs/2308.14129v2 )

ライセンス: Link先を確認
Xi Chen, Yongxiang Liao, Yun Xiong, Yao Zhang, Siwei Zhang, Jiawei Zhang, Yiheng Sun(参考訳) 時間的相互作用グラフ(tig)は金融システムやソーシャルネットワークのような複雑な実世界のシステムをモデル化するために広く使われている。 ノードのダイナミズムと相互依存性を捉えるためには、既存のTIG埋め込みモデルはエッジを順次かつ時系列的に処理する必要がある。 しかし、この要件は並列処理を妨げ、急成長するデータボリュームをGPUに適合させるのに苦労する。 したがって、多くの大規模な時間的相互作用グラフはCPU処理に限られる。 さらに、一般的なgpuスケーリングとアクセラレーションアプローチは利用できない。 高速化のためのGPUへのTIGの大規模実装を容易にするため,時間的相互作用グラフ埋め込み(SPEED)のためのStreaming Edge PartitioningとParallel Accelerationという新たなトレーニング手法を導入する。 SPEEDは、各GPUに少ないノードを割り当てることで空間オーバーヘッド問題に対処するStreaming Edge Partitioning Component (SEP)と、異なるサブグラフの同時トレーニングを可能にするParallel Acceleration Component (PAC)で構成される。 本手法は,計算資源,計算時間,ダウンストリームタスク性能のバランスが良好である。 7つの実世界のデータセットにわたる実証的検証は、トレーニング速度を最大19.29倍に短縮する可能性を実証している。 同時に、単一GPUのリソース消費を最大69%削減できるため、数百万のノードと数十億のエッジを含む複数のGPUベースのトレーニングとアクセラレーションが可能になる。 さらに,下流タスクにおける競合性も維持する。

Temporal Interaction Graphs (TIGs) are widely employed to model intricate real-world systems such as financial systems and social networks. To capture the dynamism and interdependencies of nodes, existing TIG embedding models need to process edges sequentially and chronologically. However, this requirement prevents it from being processed in parallel and struggle to accommodate burgeoning data volumes to GPU. Consequently, many large-scale temporal interaction graphs are confined to CPU processing. Furthermore, a generalized GPU scaling and acceleration approach remains unavailable. To facilitate large-scale TIGs' implementation on GPUs for acceleration, we introduce a novel training approach namely Streaming Edge Partitioning and Parallel Acceleration for Temporal Interaction Graph Embedding (SPEED). The SPEED is comprised of a Streaming Edge Partitioning Component (SEP) which addresses space overhead issue by assigning fewer nodes to each GPU, and a Parallel Acceleration Component (PAC) which enables simultaneous training of different sub-graphs, addressing time overhead issue. Our method can achieve a good balance in computing resources, computing time, and downstream task performance. Empirical validation across 7 real-world datasets demonstrates the potential to expedite training speeds by a factor of up to 19.29x. Simultaneously, resource consumption of a single-GPU can be diminished by up to 69%, thus enabling the multiple GPU-based training and acceleration encompassing millions of nodes and billions of edges. Furthermore, our approach also maintains its competitiveness in downstream tasks.
翻訳日:2023-09-12 18:37:23 公開日:2023-09-11
# 産業人工知能のための確率的構成機械

Stochastic Configuration Machines for Industrial Artificial Intelligence ( http://arxiv.org/abs/2308.13570v5 )

ライセンス: Link先を確認
Dianhui Wang and Matthew J. Felicetti(参考訳) ニューラルネットワークが重要な役割を果たす産業人工知能(IAI)では、望ましい精度でリアルタイム予測モデルが期待されている。 iaiのニューラルネットワークは、大量の浮動小数点データを操作するために強力な高性能コンピューティングデバイスを必要とする。 本稿では,確率的構成ネットワーク(scns)に基づいて,産業用途に有用で有用な効率的なモデリングとデータサイズ削減を強調する,確率的構成マシン(scms)と呼ばれる新しいランダム化学習モデルを提案する。 SCN とランダムベクトル汎関数リンク (RVFL) ネットを二項化した実装と比較すると,SCM のモデル記憶は良好な予測性能を維持しつつ大幅に圧縮できる。 SCM学習者モデルとその学習アルゴリズムのアーキテクチャに加えて、この貢献の重要な部分として、モデルの複雑さを分析することによって、SCMの学習能力に関する理論的基盤を提供する。 いくつかのベンチマークデータセットと3つの産業応用で実験研究が行われている。 その結果,SCMは産業データ分析に大きく貢献する可能性が示唆された。

Real-time predictive modelling with desired accuracy is highly expected in industrial artificial intelligence (IAI), where neural networks play a key role. Neural networks in IAI require powerful, high-performance computing devices to operate a large number of floating point data. Based on stochastic configuration networks (SCNs), this paper proposes a new randomized learner model, termed stochastic configuration machines (SCMs), to stress effective modelling and data size saving that are useful and valuable for industrial applications. Compared to SCNs and random vector functional-link (RVFL) nets with binarized implementation, the model storage of SCMs can be significantly compressed while retaining favourable prediction performance. Besides the architecture of the SCM learner model and its learning algorithm, as an important part of this contribution, we also provide a theoretical basis on the learning capacity of SCMs by analysing the model's complexity. Experimental studies are carried out over some benchmark datasets and three industrial applications. The results demonstrate that SCM has great potential for dealing with industrial data analytics.
翻訳日:2023-09-12 18:36:33 公開日:2023-09-11
# MLLM-DataEngine:MLLMの反復的リファインメントアプローチ

MLLM-DataEngine: An Iterative Refinement Approach for MLLM ( http://arxiv.org/abs/2308.13566v2 )

ライセンス: Link先を確認
Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi Dong, Jiaqi Wang, Conghui He(参考訳) 命令データセットの構築とベンチマークにおけるMLLM(Multimodal Large Language Models)の大幅な進歩にもかかわらず、トレーニングと評価の独立により、現在のMLLMは、比較的低コストで評価結果のガイダンスの下で、さらなる能力向上を困難にしている。 本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムであるMLLM-DataEngineを提案する。 各ループイテレーションの中で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析し、次に次のトレーニングイテレーションのための適切なインクリメンタルデータセットを生成し、モデルの能力を反復的に拡張します。 ベンチマークから分離した従来のデータ収集手法と比較して、MLLM-DataEngineが生成したデータは、より優れたターゲティング、品質、正確性を示している。 そこで本研究では,各インクリメンタルデータセット内の異なる種類のデータの比率をベンチマーク結果に基づいて調整する適応型バッドケースサンプリングモジュールを提案する。 品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。 正確性のため、データ生成結果にはプロンプト設計が不可欠である。 従来の手作りプロンプトではなく,人間とgptのマルチラウンドインタラクションでプロンプトを最適化し,生成データの正確性を大幅に向上させる対話型プロンプト最適化手法を提案する。 大規模な実験を通じて、MLLM-DataEngineはMLLMの能力を目標かつ自動的に向上させることができ、人間の参加はごくわずかである。 以下に示すMLLMの一般的なソリューションになることを願っています。 MLLM-DataEngineがオープンソース化され、https://github.com/opendatalab/MLLM-DataEngineで利用可能になった。

Despite the great advance of Multimodal Large Language Models (MLLMs) in both instruction dataset building and benchmarking, the independence of training and evaluation makes current MLLMs hard to further improve their capability under the guidance of evaluation results with a relatively low human cost. In this paper, we propose MLLM-DataEngine, a novel closed-loop system that bridges data generation, model training, and evaluation. Within each loop iteration, the MLLM-DataEngine first analyze the weakness of the model based on the evaluation results, then generate a proper incremental dataset for the next training iteration and enhance the model capability iteratively. Compared with previous data collection methods which are separate from the benchmarking, the data generated by MLLM-DataEngine shows better targeting, quality, and correctness. For targeting, we propose an Adaptive Bad-case Sampling module, which adjusts the ratio of different types of data within each incremental dataset based on the benchmarking results. For quality, we resort to GPT-4 to generate high-quality data with each given data type. For correctness, prompt design is critical for the data generation results. Rather than previous hand-crafted prompt, we propose an Interactive Prompt Optimization strategy, which optimizes the prompt with the multi-round interaction between human and GPT, and improve the correctness of generated data greatly. Through extensive experiments, we find our MLLM-DataEngine could boost the MLLM capability in a targeted and automatic manner, with only a few human participation. We hope it could be a general solution for the following MLLMs building. The MLLM-DataEngine has been open-sourced and is now available at https://github.com/opendatalab/MLLM-DataEngine.
翻訳日:2023-09-12 18:36:16 公開日:2023-09-11
# グラフマッチングフィルタにおけるソリューションの多様化

Gotta match 'em all: Solution diversification in graph matching matched filters ( http://arxiv.org/abs/2308.13451v2 )

ライセンス: Link先を確認
Zhirui Li, Ben Johnson, Daniel L. Sussman, Carey E. Priebe and Vince Lyzinski(参考訳) 非常に大きな背景グラフに複数のノイズを埋め込んだテンプレートグラフを見つけるための新しい手法を提案する。 本手法は,susmanらによって提案されているグラフマッチングマッチングフィルタ手法を基礎とし,マッチングフィルタアルゴリズムにおいて,適切なノードペア類似性行列を反復的にペナルティすることにより,多様なマッチングを実現する。 さらに,マッチングフィルタアプローチのスケーラビリティを大幅に向上させるアルゴリズムの高速化を提案する。 相関したエルドス・レーニグラフの設定において,本手法の理論的正当性を示すとともに,軽度モデル条件下で複数のテンプレートを逐次発見する能力を示す。 さらに,シミュレーションモデルと実世界のデータセットを用いて,人間の脳コネクトームや大規模トランザクションの知識ベースを含む広範な実験を行い,本手法の有用性を実証した。

We present a novel approach for finding multiple noisily embedded template graphs in a very large background graph. Our method builds upon the graph-matching-matched-filter technique proposed in Sussman et al., with the discovery of multiple diverse matchings being achieved by iteratively penalizing a suitable node-pair similarity matrix in the matched filter algorithm. In addition, we propose algorithmic speed-ups that greatly enhance the scalability of our matched-filter approach. We present theoretical justification of our methodology in the setting of correlated Erdos-Renyi graphs, showing its ability to sequentially discover multiple templates under mild model conditions. We additionally demonstrate our method's utility via extensive experiments both using simulated models and real-world dataset, include human brain connectomes and a large transactional knowledge base.
翻訳日:2023-09-12 18:35:46 公開日:2023-09-11
# テキストによる映像シーンの理解:テキストによるビデオ質問回答から

Understanding Video Scenes through Text: Insights from Text-based Video Question Answering ( http://arxiv.org/abs/2309.01380v2 )

ライセンス: Link先を確認
Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar(参考訳) 研究者は視覚と言語分野を幅広く研究し、視覚とテキストの両方がシーンを効果的に理解するために重要であることを発見した。 特にビデオにおけるテキストの理解は重要な意味を持ち、シーンテキストの理解と時間的推論の両方を必要とする。 本稿では,最近導入された2つのデータセットであるNewsVideoQAとM4-ViteVQAについて検討する。 NewsVideoQAデータセットには、ニュースビデオのテキストに関連する質問応答ペアが含まれており、M4-ViteVQAには、ブログ、旅行、ショッピングといったさまざまなカテゴリの質問応答ペアが含まれている。 様々なレベルでこれらのデータセットの定式化の分析を行い、質問に答えるために必要な視覚的理解とマルチフレーム理解の度合いについて検討する。 さらに、この研究は、テキストのみのモデルであるBERT-QAの実験を含む。これは、両方のデータセットのオリジナルのメソッドと同等のパフォーマンスを示し、これらのデータセットの定式化における欠点を示している。 さらに,m4-vitevqaのトレーニングの有効性を検証し,newsvideoqaとvice-versaの評価を行い,ドメイン外トレーニングの課題と潜在的なメリットを明らかにした。

Researchers have extensively studied the field of vision and language, discovering that both visual and textual content is crucial for understanding scenes effectively. Particularly, comprehending text in videos holds great significance, requiring both scene text understanding and temporal reasoning. This paper focuses on exploring two recently introduced datasets, NewsVideoQA and M4-ViteVQA, which aim to address video question answering based on textual content. The NewsVideoQA dataset contains question-answer pairs related to the text in news videos, while M4-ViteVQA comprises question-answer pairs from diverse categories like vlogging, traveling, and shopping. We provide an analysis of the formulation of these datasets on various levels, exploring the degree of visual understanding and multi-frame comprehension required for answering the questions. Additionally, the study includes experimentation with BERT-QA, a text-only model, which demonstrates comparable performance to the original methods on both datasets, indicating the shortcomings in the formulation of these datasets. Furthermore, we also look into the domain adaptation aspect by examining the effectiveness of training on M4-ViteVQA and evaluating on NewsVideoQA and vice-versa, thereby shedding light on the challenges and potential benefits of out-of-domain training.
翻訳日:2023-09-12 18:29:48 公開日:2023-09-11
# ニューロモルフィックイベントセンシングと圧電アクチュエータを用いたナノサットの高周波高精度ポインティング

High Frequency, High Accuracy Pointing onboard Nanosats using Neuromorphic Event Sensing and Piezoelectric Actuation ( http://arxiv.org/abs/2309.01361v3 )

ライセンス: Link先を確認
Yasir Latif, Peter Anastasiou, Yonhon Ng, Zebb Prime, Tien-Fu Lu, Matthew Tetlow, Robert Mahony, Tat-Jun Chin(参考訳) 衛星が小さくなるにつれて、衛星に作用する外力によって安定したポインティングを維持する能力は低下する。 同時に、姿勢決定制御システム(ADCS)で使用される反応ホイールは、ポインティング安定性を損なう可能性のある高周波ジッタを導入している。 数万キロ離れた物体を追跡する空間領域認識(SDA)タスクでは、現在のナノサット(通常は10から100秒の範囲)で提供されるポインティング精度は不十分である。 本研究では,ニューロモルフィック事象センサ(高周波で高精度な相対姿勢推定)と圧電ステージ(能動姿勢補正)との閉ループを併用し,高度に安定なセンサ特異的なポインティングを提供する新しいペイロードを開発する。 イベントセンサは、低消費電力、非同期動作、高ダイナミックレンジの望ましい特性のために、特に宇宙用途に適している。 イベントセンサを用いて、まず基準背景星場を推定し、そこから短時間の相対的姿勢を高頻度で推定する。 圧電ステージは、イベントセンサを備えた閉じた制御ループで動作し、電流と所望の姿勢の差に基づいて姿勢補正を行う。 制御された設定の結果,市販部品を用いた試作機を用いて,新しいペイロードを最大50Hzの動作周波数で1~5秒の範囲でのポインティング精度を実現することができた。 詳細はhttps://ylatif.github.io/ultrafinestabilisationを参照。

As satellites become smaller, the ability to maintain stable pointing decreases as external forces acting on the satellite come into play. At the same time, reaction wheels used in the attitude determination and control system (ADCS) introduce high frequency jitter which can disrupt pointing stability. For space domain awareness (SDA) tasks that track objects tens of thousands of kilometres away, the pointing accuracy offered by current nanosats, typically in the range of 10 to 100 arcseconds, is not sufficient. In this work, we develop a novel payload that utilises a neuromorphic event sensor (for high frequency and highly accurate relative attitude estimation) paired in a closed loop with a piezoelectric stage (for active attitude corrections) to provide highly stable sensor-specific pointing. Event sensors are especially suited for space applications due to their desirable characteristics of low power consumption, asynchronous operation, and high dynamic range. We use the event sensor to first estimate a reference background star field from which instantaneous relative attitude is estimated at high frequency. The piezoelectric stage works in a closed control loop with the event sensor to perform attitude corrections based on the discrepancy between the current and desired attitude. Results in a controlled setting show that we can achieve a pointing accuracy in the range of 1-5 arcseconds using our novel payload at an operating frequency of up to 50Hz using a prototype built from commercial-off-the-shelf components. Further details can be found at https://ylatif.github.io/ultrafinestabilisation
翻訳日:2023-09-12 18:29:24 公開日:2023-09-11
# 成人および胎児心エコー図における多変量・データ駆動・解剖学的制約付き深層学習画像登録

Multi-scale, Data-driven and Anatomically Constrained Deep Learning Image Registration for Adult and Fetal Echocardiography ( http://arxiv.org/abs/2309.00831v2 )

ライセンス: Link先を確認
Md. Kamrul Hasan, Haobo Zhu, Guang Yang, Choon Hwai Yap(参考訳) 経時的心エコー画像登録は、心臓運動推定、心筋ひずみ評価、脳卒中容積定量などの臨床的定量化の基礎である。 過去の研究において、深層学習画像登録(DLIR)は有望な結果を示し、常に正確かつ正確であり、計算時間が少なくなっている。 動画像の解剖学的再現性と画質に重点を置くことで,堅牢なdlir性能の実現が期待できる。 また,過去には成人心エコー図に焦点が当てられており,胎児心エコー図のDLIR実装は存在しない。 胎児と成人の心エコーにおけるDLIRの3つの戦略を組み合わせた枠組みを提案する。(1)生理的心筋と左室の解剖学的トポロジーを保存するための解剖学的形状エンコード損失、(2)歪画像の良好な画像テクスチャ特性を維持するために逆向きに訓練されたデータ駆動損失、(3)データ駆動および解剖学的制約のあるアルゴリズムのマルチスケールトレーニングスキームにより精度を向上する。 以上の結果から, 良好な解剖学的トポロジーと画像テクスチャは, 形状符号化およびデータ駆動型対向損失と強く関連していることがわかった。 登録パフォーマンスの異なる側面を重複しない方法で改善し、組み合わせを正当化する。 成人の心エコー画像と胎児の心エコー画像の相違にもかかわらず、これらの戦略は成人と胎児の心エコー画像において、CAMUSアダルトエコーデータセットとプライベートマルチデマトグラフィーの心エコーデータセットを用いて優れた登録結果が得られることを示す。 当社のアプローチは,光学フローやElastixなど,従来の非DLゴールド登録手法よりも優れています。 登録の改善は、より正確で正確な心臓射出率の臨床的定量化に翻訳され、翻訳の可能性を示している。

Temporal echocardiography image registration is a basis for clinical quantifications such as cardiac motion estimation, myocardial strain assessments, and stroke volume quantifications. In past studies, deep learning image registration (DLIR) has shown promising results and is consistently accurate and precise, requiring less computational time. We propose that a greater focus on the warped moving image's anatomic plausibility and image quality can support robust DLIR performance. Further, past implementations have focused on adult echocardiography, and there is an absence of DLIR implementations for fetal echocardiography. We propose a framework that combines three strategies for DLIR in both fetal and adult echo: (1) an anatomic shape-encoded loss to preserve physiological myocardial and left ventricular anatomical topologies in warped images; (2) a data-driven loss that is trained adversarially to preserve good image texture features in warped images; and (3) a multi-scale training scheme of a data-driven and anatomically constrained algorithm to improve accuracy. Our tests show that good anatomical topology and image textures are strongly linked to shape-encoded and data-driven adversarial losses. They improve different aspects of registration performance in a non-overlapping way, justifying their combination. Despite fundamental distinctions between adult and fetal echo images, we show that these strategies can provide excellent registration results in both adult and fetal echocardiography using the publicly available CAMUS adult echo dataset and our private multi-demographic fetal echo dataset. Our approach outperforms traditional non-DL gold standard registration approaches, including Optical Flow and Elastix. Registration improvements could be translated to more accurate and precise clinical quantification of cardiac ejection fraction, demonstrating a potential for translation.
翻訳日:2023-09-12 18:28:38 公開日:2023-09-11
# any-size-diffusion:任意のサイズのhd画像の効率的なテキスト駆動合成に向けて

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images ( http://arxiv.org/abs/2308.16582v2 )

ライセンス: Link先を確認
Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu(参考訳) テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば解像度による合成問題に遭遇する。 この問題は、主にシングルスケールイメージと対応するテキスト記述のペアでトレーニングされているモデルに起因している。 さらに、無制限サイズの画像の直接訓練は、膨大な数のテキストイメージペアが必要であり、かなりの計算コストを必要とするため、実現不可能である。 これらの課題を克服するために、高メモリGPUリソースの必要性を最小限に抑えつつ、任意のサイズのよく構成された画像を効率よく生成する、Any-Size-Diffusion (ASD)という2段階のパイプラインを提案する。 具体的には、ARAD(Any Ratio Adaptability Diffusion)と呼ばれる初期ステージでは、選択された画像セットに制限範囲を限定して、テキスト条件拡散モデルを最適化し、様々な画像サイズに対応するように構成を調整する能力を向上させる。 任意のサイズの画像の作成を支援するため,Fast Seamless Tiled Diffusion (FSTD) と呼ばれる手法をさらに導入する。 この方法では、シーミングアーティファクトやメモリ過負荷を避けるため、asd出力を任意の高解像度サイズに迅速に拡大することができる。 LAION-COCO と MM-CelebA-HQ のベンチマークによる実験結果から、ASD は任意の大きさのよく構造化された画像を生成でき、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることが示された。

Stable diffusion, a generative model used in text-to-image synthesis, frequently encounters resolution-induced composition problems when generating images of varying sizes. This issue primarily stems from the model being trained on pairs of single-scale images and their corresponding text descriptions. Moreover, direct training on images of unlimited sizes is unfeasible, as it would require an immense number of text-image pairs and entail substantial computational expenses. To overcome these challenges, we propose a two-stage pipeline named Any-Size-Diffusion (ASD), designed to efficiently generate well-composed images of any size, while minimizing the need for high-memory GPU resources. Specifically, the initial stage, dubbed Any Ratio Adaptability Diffusion (ARAD), leverages a selected set of images with a restricted range of ratios to optimize the text-conditional diffusion model, thereby improving its ability to adjust composition to accommodate diverse image sizes. To support the creation of images at any desired size, we further introduce a technique called Fast Seamless Tiled Diffusion (FSTD) at the subsequent stage. This method allows for the rapid enlargement of the ASD output to any high-resolution size, avoiding seaming artifacts or memory overloads. Experimental results on the LAION-COCO and MM-CelebA-HQ benchmarks demonstrate that ASD can produce well-structured images of arbitrary sizes, cutting down the inference time by 2x compared to the traditional tiled algorithm.
翻訳日:2023-09-12 18:27:30 公開日:2023-09-11
# マルチタスク多言語機械翻訳のためのタスクベースMOE

Task-Based MoE for Multitask Multilingual Machine Translation ( http://arxiv.org/abs/2308.15772v2 )

ライセンス: Link先を確認
Hai Pham, Young Jin Kim, Subhabrata Mukherjee, David P. Woodruff, Barnabas Poczos, Hany Hassan Awadalla(参考訳) Mixture-of-experts (MoE) アーキテクチャは多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。 しかし、現在のMoE実装はタスク非依存であり、異なるタスクから全てのトークンを同じように扱う。 そこで本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共用により設計する。 実験と解析により,マルチタスク多言語機械翻訳における高密度および標準MoEモデルに対するアプローチの利点が示された。 タスク固有のアダプタでは、モデルを新しいタスクに効率的に一般化することができます。

Mixture-of-experts (MoE) architecture has been proven a powerful method for diverse tasks in training deep models in many applications. However, current MoE implementations are task agnostic, treating all tokens from different tasks in the same manner. In this work, we instead design a novel method that incorporates task information into MoE models at different granular levels with shared dynamic task-based adapters. Our experiments and analysis show the advantages of our approaches over the dense and canonical MoE models on multi-task multilingual machine translations. With task-specific adapters, our models can additionally generalize to new tasks efficiently.
翻訳日:2023-09-12 18:26:41 公開日:2023-09-11
# 量子カーネル生成におけるいくつかの適合関数と絡み合いゲート

Several fitness functions and entanglement gates in quantum kernel generation ( http://arxiv.org/abs/2309.03307v2 )

ライセンス: Link先を確認
Haiyan Wang(参考訳) 量子機械学習(QML)は、量子技術の領域における有望なフロンティアである。 量子アドバンテージの追求において、サポートベクトルマシンのための量子カーネル法が強力なアプローチとして登場した。 量子力学の基本的な概念である絡み合いは、量子コンピューティングにおいて中心的な役割を果たす。 本稿では,量子カーネル法におけるエンタングルメントゲートの必要性について検討する。 量子特徴写像回路の局所ゲートコストと非局所ゲートコストを最小化しながら、分類精度を同時に最大化する多目的遺伝的アルゴリズムの適合関数について述べる。 古典的分類器との比較を行い,絡み合いゲートの利点について考察する。 驚くべきことに、量子カーネル法における量子回路の最適構成は、非局所ゲートが大々的に抑制された以前の文献とは対照的に、絡み合いのために非局所ゲートの比例数を取り入れている。 さらに,量子サポートベクトルマシンの機能マップに必要な非局所ゲート数を決定するために,データの分離性指標を効果的に活用できることを実証する。 この洞察は、データ分析に基づくhttps://qiskit.org/のような様々な量子プログラミングパッケージにおいて、絡み合いパラメータのような適切なパラメータを選択するのに大いに役立つ。 本研究は、量子機械学習アルゴリズムの効率と精度を高めるための有用なガイダンスを提供する。

Quantum machine learning (QML) represents a promising frontier in the realm of quantum technologies. In this pursuit of quantum advantage, the quantum kernel method for support vector machine has emerged as a powerful approach. Entanglement, a fundamental concept in quantum mechanics, assumes a central role in quantum computing. In this paper, we study the necessities of entanglement gates in the quantum kernel methods. We present several fitness functions for a multi-objective genetic algorithm that simultaneously maximizes classification accuracy while minimizing both the local and non-local gate costs of the quantum feature map's circuit. We conduct comparisons with classical classifiers to gain insights into the benefits of employing entanglement gates. Surprisingly, our experiments reveal that the optimal configuration of quantum circuits for the quantum kernel method incorporates a proportional number of non-local gates for entanglement, contrary to previous literature where non-local gates were largely suppressed. Furthermore, we demonstrate that the separability indexes of data can be effectively leveraged to determine the number of non-local gates required for the quantum support vector machine's feature maps. This insight can significantly aid in selecting appropriate parameters, such as the entanglement parameter, in various quantum programming packages like https://qiskit.org/ based on data analysis. Our findings offer valuable guidance for enhancing the efficiency and accuracy of quantum machine learning algorithm
翻訳日:2023-09-12 18:19:16 公開日:2023-09-11
# 列車はまだ乗れない。 エネルギー関数によるモンテカルロ木探索による大規模言語モデルの非定常数学的推論

No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function ( http://arxiv.org/abs/2309.03224v2 )

ライセンス: Link先を確認
Haotian Xu(参考訳) 大きな言語モデル(llm)は印象的な言語理解と文脈学習能力を示し、自然言語処理(nlp)タスクや複雑な数学的推論に適している。 しかしながら、数学的推論タスクに適用する場合、LLMは解の確率が高いにもかかわらず正しい推論ステップと解を生成するのに苦労することが多い。 この制限を克服し、追加の微調整ステップなしに微調整されたllmの数学的推論能力を高めるために、モンテカルロ木探索(mcts)と軽量エネルギー関数を組み込んだ決定ステップをランク付けし、即時反応と正確な推論を可能にする手法を提案する。 具体的には,微調整 LLM を残留エネルギーモデル (Residual-EBM) に再構成し,ノイズコントラスト推定を用いてエネルギー関数のパラメータを推定する。 次に、MCTSのエネルギー関数を経路検証器として利用し、出力空間を探索し、推論経路を評価する。 GSM8kとAQUA-RATの2つの数学的推論ベンチマークに関する広範な実験を通じて、人間のフィードバックアライメントによる微調整や強化学習を必要とせずに、微調整モデルのpass@1メトリックスを大幅に改善する手法の優れた能力を実証した。

Large language models (LLMs) demonstrate impressive language understanding and contextual learning abilities, making them suitable for natural language processing (NLP) tasks and complex mathematical reasoning. However, when applied to mathematical reasoning tasks, LLMs often struggle to generate correct reasoning steps and answers despite having high probabilities for the solutions. To overcome this limitation and enhance the mathematical reasoning capabilities of fine-tuned LLMs without additional fine-tuning steps, we propose a method that incorporates Monte Carlo Tree Search (MCTS) and a lightweight energy function to rank decision steps and enable immediate reaction and precise reasoning. Specifically, we re-formulate the fine-tuned LLMs into a Residual-based Energy Model (Residual-EBM) and employ noise contrastive estimation to estimate the energy function's parameters. We then utilize MCTS with the energy function as a path verifier to search the output space and evaluate the reasoning path. Through extensive experiments on two mathematical reasoning benchmarks, GSM8k and AQUA-RAT, we demonstrate the exceptional capabilities of our method, which significantly improves the pass@1 metric of the fine-tuned model without requiring additional fine-tuning or reinforcement learning with human feedback alignment.
翻訳日:2023-09-12 18:18:56 公開日:2023-09-11
# 手術用データ生成のための非ペア画像翻訳における意味的一貫性の検討

Exploring Semantic Consistency in Unpaired Image Translation to Generate Data for Surgical Applications ( http://arxiv.org/abs/2309.03048v2 )

ライセンス: Link先を確認
Danush Kumar Venkatesh, Dominik Rivoir, Micha Pfeiffer, Fiona Kolbinger, Marius Distler, J\"urgen Weitz, Stefanie Speidel(参考訳) 手術用コンピュータビジョンアプリケーションでは,データプライバシーの懸念と専門家のアノテーションの必要性から,ラベル付きトレーニングデータの取得が困難である。 合成画像をリアルな領域に翻訳することで,大規模な注釈付きデータセットを自動生成する。 しかし、入力画像と変換画像の間の構造と意味的一貫性を維持することは、主にドメインの意味的特徴に分布的ミスマッチがある場合に、大きな課題となる。 本研究は外科的応用において適切なデータを生成するための非ペア画像変換法を実験的に検討し,意味的一貫性に着目した。 2つの難易度の高い手術用データセットと下流意味セグメンテーションタスクにおいて,様々な最先端画像翻訳モデルを広範囲に評価した。 構造相似性損失と対照的学習の単純な組み合わせは、最も有望な結果をもたらす。 定量的に,本手法により生成されたデータにより意味的一貫性が向上し,トレーニングデータとしてより効果的に利用できることを示す。

In surgical computer vision applications, obtaining labeled training data is challenging due to data-privacy concerns and the need for expert annotation. Unpaired image-to-image translation techniques have been explored to automatically generate large annotated datasets by translating synthetic images to the realistic domain. However, preserving the structure and semantic consistency between the input and translated images presents significant challenges, mainly when there is a distributional mismatch in the semantic characteristics of the domains. This study empirically investigates unpaired image translation methods for generating suitable data in surgical applications, explicitly focusing on semantic consistency. We extensively evaluate various state-of-the-art image translation models on two challenging surgical datasets and downstream semantic segmentation tasks. We find that a simple combination of structural-similarity loss and contrastive learning yields the most promising results. Quantitatively, we show that the data generated with this approach yields higher semantic consistency and can be used more effectively as training data.
翻訳日:2023-09-12 18:18:30 公開日:2023-09-11
# 深層強化学習モデルにおける望ましくない行動の低減について

On Reducing Undesirable Behavior in Deep Reinforcement Learning Models ( http://arxiv.org/abs/2309.02869v2 )

ライセンス: Link先を確認
Ophir M. Carmel, Guy Katz(参考訳) 深層強化学習(DRL)は様々な応用分野において非常に有用であることが証明されている。 しかし、成功したDRLベースのソフトウェアでさえ、非常に望ましくない振る舞いを示す。 これは、典型的には一般的な傾向を捉えるが、システムの特定の振る舞いを正確に捉えたり、排除したりできない報奨関数を最大化することに基づくdrlトレーニングである。 本稿では,DRLベースのソフトウェアにおいて,その性能を維持しつつ,望ましくない動作を大幅に削減することを目的とした新しいフレームワークを提案する。 さらに,我々のフレームワークは,このような望ましくない振る舞いの理解しやすい特徴を技術者に提供するのに役立てることができる。 我々のアプローチは、誤った状態-アクションペアから決定木分類器を抽出し、これらの木をdrlトレーニングループに統合し、エラーを発生させるたびにシステムをペナルティ化する。 我々は,本手法の概念実証実装を行い,その手法を3つの重要なケーススタディで評価する。 当社のアプローチでは、既存のフレームワークを簡単な方法で拡張することが可能で、トレーニング時間のオーバーヘッドはわずかです。 さらに、パフォーマンスに非常にわずかな打撃しかかからず、場合によっては改善されるが、望ましくない振る舞いの頻度は大幅に減少する。

Deep reinforcement learning (DRL) has proven extremely useful in a large variety of application domains. However, even successful DRL-based software can exhibit highly undesirable behavior. This is due to DRL training being based on maximizing a reward function, which typically captures general trends but cannot precisely capture, or rule out, certain behaviors of the system. In this paper, we propose a novel framework aimed at drastically reducing the undesirable behavior of DRL-based software, while maintaining its excellent performance. In addition, our framework can assist in providing engineers with a comprehensible characterization of such undesirable behavior. Under the hood, our approach is based on extracting decision tree classifiers from erroneous state-action pairs, and then integrating these trees into the DRL training loop, penalizing the system whenever it performs an error. We provide a proof-of-concept implementation of our approach, and use it to evaluate the technique on three significant case studies. We find that our approach can extend existing frameworks in a straightforward manner, and incurs only a slight overhead in training time. Further, it incurs only a very slight hit to performance, or even in some cases - improves it, while significantly reducing the frequency of undesirable behavior.
翻訳日:2023-09-12 18:17:54 公開日:2023-09-11
# GRASS:音声対セマンティックタスクの統一生成モデル

GRASS: Unified Generation Model for Speech-to-Semantic Tasks ( http://arxiv.org/abs/2309.02780v2 )

ライセンス: Link先を確認
Aobo Xia, Shuyu Lei, Yushu Yang, Xiang Guo and Hua Chai(参考訳) 本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを導入することにより,音声合成タスクの微調整手法を検討する。 大規模かつ多様なデータを用いて事前学習を行い,TTS(text-to-speech)システムを用いて命令-音声ペアを構築する。 提案手法は,エンティティ認識,音声感情分析,音声質問応答などを含む多くのベンチマークにおいて,微調整後の最先端(sota)結果が得られることを示す。 さらに,提案モデルでは,ゼロショットと少数ショットのシナリオで競合性能を実現する。 音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。

This paper explores the instruction fine-tuning technique for speech-to-semantic tasks by introducing a unified end-to-end (E2E) framework that generates target text conditioned on a task-related prompt for audio data. We pre-train the model using large and diverse data, where instruction-speech pairs are constructed via a text-to-speech (TTS) system. Extensive experiments demonstrate that our proposed model achieves state-of-the-art (SOTA) results on many benchmarks covering speech named entity recognition, speech sentiment analysis, speech question answering, and more, after fine-tuning. Furthermore, the proposed model achieves competitive performance in zero-shot and few-shot scenarios. To facilitate future work on instruction fine-tuning for speech-to-semantic tasks, we release our instruction dataset and code.
翻訳日:2023-09-12 18:17:34 公開日:2023-09-11
# NICE:CVPR 2023、ゼロショット撮影に挑戦

NICE: CVPR 2023 Challenge on Zero-shot Image Captioning ( http://arxiv.org/abs/2309.01961v3 )

ライセンス: Link先を確認
Taehoon Kim, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Mark Marsden, Alessandra Sala, Seung Hwan Kim, Bohyung Han, Kyoung Mu Lee, Honglak Lee, Kyounghoon Bae, Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu, Youngtaek Oh, Jae Won Cho, Dong-jin Kim, In So Kweon, Junmo Kim, Wooyoung Kang, Won Young Jhoo, Byungseok Roh, Jonghwan Mun, Solgil Oh, Kenan Emir Ak, Gwang-Gook Lee, Yan Xu, Mingwei Shen, Kyomin Hwang, Wonsik Shin, Kamin Lee, Wonhark Park, Dongkwan Lee, Nojun Kwak, Yujin Wang, Yimu Wang, Tiancheng Gu, Xingchang Lv, Mingmao Sun(参考訳) 本報告では,NICEプロジェクト(ゼロショット画像キャプション評価の新しいフロンティア)を紹介し,2023年の課題の結果と成果を共有する。 このプロジェクトはコンピュータビジョンのコミュニティに挑戦し、精度と公正性の両面で最先端の技術を推し進める堅牢な画像キャプションモデルを開発するよう設計されている。 この課題を通じて、画像キャプションモデルは、多くのドメインからさまざまな視覚概念を含む新しい評価データセットを用いてテストされた。 課題には具体的なトレーニングデータがなかったため、トレーニング中に見られなかった新しいタイプの画像記述に適応するためには、課題エントリが要求された。 本報告では,新たに提案したNICEデータセット,評価方法,課題結果,上位項目の技術的詳細について述べる。 この課題の結果が、様々な視覚言語タスクにおけるAIモデルの改善に寄与することを期待している。

In this report, we introduce NICE (New frontiers for zero-shot Image Captioning Evaluation) project and share the results and outcomes of 2023 challenge. This project is designed to challenge the computer vision community to develop robust image captioning models that advance the state-of-the-art both in terms of accuracy and fairness. Through the challenge, the image captioning models were tested using a new evaluation dataset that includes a large variety of visual concepts from many domains. There was no specific training data provided for the challenge, and therefore the challenge entries were required to adapt to new types of image descriptions that had not been seen during training. This report includes information on the newly proposed NICE dataset, evaluation methods, challenge results, and technical details of top-ranking entries. We expect that the outcomes of the challenge will contribute to the improvement of AI models on various vision-language tasks.
翻訳日:2023-09-12 18:17:18 公開日:2023-09-11
# 畳み込みニューラルネットワークにおけるモデル盗み攻撃に対する効率的な防御

Efficient Defense Against Model Stealing Attacks on Convolutional Neural Networks ( http://arxiv.org/abs/2309.01838v2 )

ライセンス: Link先を確認
Kacem Khaled, Mouna Dhaouadi, Felipe Gohring de Magalh\~aes and Gabriela Nicolescu(参考訳) モデル盗み攻撃は、ブラックボックスapiをクエリすることでトレーニングされたモデルを盗むことができるディープラーニングモデルにとって深刻な懸念となっている。 これは知的財産の盗難やその他のセキュリティやプライバシーのリスクにつながる可能性がある。 モデル盗み攻撃に対する現在の最先端の防御は、予測確率に摂動を加えることを示唆している。 しかし、彼らは重い計算に苦しめられ、逆境について現実的でない仮定をする。 しばしば補助モデルの訓練を必要とする。 これは時間消費とリソース集約であり、現実世界のアプリケーションにおけるこれらの防御の配置を妨げる可能性がある。 本稿では,シンプルで効率的かつ効率的な防衛方法を提案する。 出力確率を摂動するヒューリスティックなアプローチを導入する。 提案された防御は、追加の訓練なしで簡単にモデルに統合できる。 我々の防衛は、最先端の3つの盗賊攻撃に対して効果的であることを示す。 複数の視覚データセットに基づいて学習した大規模(圧縮)畳み込みニューラルネットワーク(CNN)に対するアプローチを評価する。 提案手法は,モデルの追加を必要とせず,モデルの性能に悪影響を及ぼすことなく,$\times37$高速な推論遅延で最先端の防御性能を向上する。 我々は、エッジデバイスをターゲットにした量子化cnnにも防御効果があることを検証する。

Model stealing attacks have become a serious concern for deep learning models, where an attacker can steal a trained model by querying its black-box API. This can lead to intellectual property theft and other security and privacy risks. The current state-of-the-art defenses against model stealing attacks suggest adding perturbations to the prediction probabilities. However, they suffer from heavy computations and make impracticable assumptions about the adversary. They often require the training of auxiliary models. This can be time-consuming and resource-intensive which hinders the deployment of these defenses in real-world applications. In this paper, we propose a simple yet effective and efficient defense alternative. We introduce a heuristic approach to perturb the output probabilities. The proposed defense can be easily integrated into models without additional training. We show that our defense is effective in defending against three state-of-the-art stealing attacks. We evaluate our approach on large and quantized (i.e., compressed) Convolutional Neural Networks (CNNs) trained on several vision datasets. Our technique outperforms the state-of-the-art defenses with a $\times37$ faster inference latency without requiring any additional model and with a low impact on the model's performance. We validate that our defense is also effective for quantized CNNs targeting edge devices.
翻訳日:2023-09-12 18:16:45 公開日:2023-09-11
# 不均衡研究における学際的公平性:トピック推論:選択的補間を伴う階層的トランスフォーマーベース手法

Interdisciplinary Fairness in Imbalanced Research Proposal Topic Inference: A Hierarchical Transformer-based Method with Selective Interpolation ( http://arxiv.org/abs/2309.01717v2 )

ライセンス: Link先を確認
Meng Xiao, Min Wu, Ziyue Qiao, Yanjie Fu, Zhiyuan Ning, Yi Du, Yuanchun Zhou(参考訳) 研究提案におけるトピック推論の目的は、資金提供機関が定める規律体系から最も適した学際的区分を得ることである。 機関はその後、この部門に基づいて、データベースから適切な査読専門家を見つける。 自動トピック推論は、手動のトピックフィリングによるヒューマンエラーを低減し、資金調達機関とプロジェクト申請者の知識ギャップを埋め、システム効率を向上させる。 既存の手法では、これを階層的マルチラベル分類問題としてモデル化し、生成モデルを用いて最も適切なトピック情報を反復的に推測する。 しかし、これらの手法は、学際的な研究提案と学際的でない提案の差を無視し、自動化された推論システムが学際的な提案を学際的でないとして分類し、専門家の割り当ての間に不公平を生じさせる不当な現象へと繋がる。 複雑な規律の下でこのデータ不均衡の問題にどう対処すればいいのか。 本稿では、トランスフォーマエンコーダ-デコーダアーキテクチャに基づくトピックラベル推論システムを実装した。 さらに,クロストピック確率やトピック発生確率などの非パラメトリック指標に基づいて,補間手法を用いて,非学際的提案から擬似学際的提案を作成する。 このアプローチは、モデルトレーニング中のシステムのバイアスを軽減することを目的としている。 最後に,提案手法の有効性を検証するために,実世界のデータセットについて広範な実験を行った。 実験の結果,本研究のトレーニング戦略は,トピック推論タスクで生じる不公平性を著しく軽減できることが示された。

The objective of topic inference in research proposals aims to obtain the most suitable disciplinary division from the discipline system defined by a funding agency. The agency will subsequently find appropriate peer review experts from their database based on this division. Automated topic inference can reduce human errors caused by manual topic filling, bridge the knowledge gap between funding agencies and project applicants, and improve system efficiency. Existing methods focus on modeling this as a hierarchical multi-label classification problem, using generative models to iteratively infer the most appropriate topic information. However, these methods overlook the gap in scale between interdisciplinary research proposals and non-interdisciplinary ones, leading to an unjust phenomenon where the automated inference system categorizes interdisciplinary proposals as non-interdisciplinary, causing unfairness during the expert assignment. How can we address this data imbalance issue under a complex discipline system and hence resolve this unfairness? In this paper, we implement a topic label inference system based on a Transformer encoder-decoder architecture. Furthermore, we utilize interpolation techniques to create a series of pseudo-interdisciplinary proposals from non-interdisciplinary ones during training based on non-parametric indicators such as cross-topic probabilities and topic occurrence probabilities. This approach aims to reduce the bias of the system during model training. Finally, we conduct extensive experiments on a real-world dataset to verify the effectiveness of the proposed method. The experimental results demonstrate that our training strategy can significantly mitigate the unfairness generated in the topic inference task.
翻訳日:2023-09-12 18:16:29 公開日:2023-09-11
# CSPRD:中国株式市場の金融政策検索データセット

CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market ( http://arxiv.org/abs/2309.04389v2 )

ライセンス: Link先を確認
Jinyuan Wang, Hai Zhao, Zhong Wang, Zeyang Zhu, Jinhao Xie, Yong Yu, Yongjian Fei, Yue Huang and Dawei Cheng(参考訳) 近年,PLM (pre-trained language model) の大幅な進歩が研究の焦点となり,大規模コーパスからの相対的文節の検索を目的とした高密度な文節検索のアプローチに有望な成果を上げている。 しかし、既存のデータセットのほとんどは、一般的な常識の事実的クエリでモデルをベンチマークしているが、専門的なアノテーションによる大規模で高品質なデータセットの不足のため、金融や経済学のような専門分野は未検討のままである。 本研究では,中国政策コーパスの10k以上の項目から,経験豊富な専門家がラベル付けした700以上の索引情報を提供する中国株式政策検索データセット(csprd)を導入することで,新たな課題である政策検索を提案する。 語彙,埋め込み,微調整の両エンコーダモデルを用いた実験は,提案したCSPRDの有効性を示しているが,改善の可能性も十分示唆している。 我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。

In recent years, great advances in pre-trained language models (PLMs) have sparked considerable research focus and achieved promising performance on the approach of dense passage retrieval, which aims at retrieving relative passages from massive corpus with given questions. However, most of existing datasets mainly benchmark the models with factoid queries of general commonsense, while specialised fields such as finance and economics remain unexplored due to the deficiency of large-scale and high-quality datasets with expert annotations. In this work, we propose a new task, policy retrieval, by introducing the Chinese Stock Policy Retrieval Dataset (CSPRD), which provides 700+ prospectus passages labeled by experienced experts with relevant articles from 10k+ entries in our collected Chinese policy corpus. Experiments on lexical, embedding and fine-tuned bi-encoder models show the effectiveness of our proposed CSPRD yet also suggests ample potential for improvement. Our best performing baseline achieves 56.1% MRR@10, 28.5% NDCG@10, 37.5% Recall@10 and 80.6% Precision@10 on dev set.
翻訳日:2023-09-12 18:08:33 公開日:2023-09-11
# segmentanythingは自動および定量的オルガノイド検出と解析に基づく顕微鏡画像支援

SegmentAnything helps microscopy images based automatic and quantitative organoid detection and analysis ( http://arxiv.org/abs/2309.04190v2 )

ライセンス: Link先を確認
Xiaodan Xing, Chunling Tang, Yunzhe Guo, Nicholas Kurniawan, and Guang Yang(参考訳) オルガノイド(英: organoids)は、生体内組織や臓器の構造や機能をよく表わす自己組織化した3d細胞クラスターである。 オルガノイドの形態の定量化は、臓器形成、薬物発見、毒性評価の研究に役立つ。 最近の顕微鏡技術は、オルガノイドの形態的特徴を取得する強力なツールを提供するが、手動画像解析は依然として手間と時間を要するプロセスである。 そこで本研究では,SegmentAnythingを用いた顕微鏡解析のための包括的パイプラインを提案する。 さらに, 周囲, 面積, 半径, 非湿潤性, 非循環性などの形態的特徴を導入し, オルガノイド構造を定量的かつ自動的に解析する。 提案手法の有効性を検証するため,ヒト誘導多能性幹細胞(iPSCs)由来神経上皮性オルガノイド(NE)の明視野画像の検討を行った。 自動パイプラインから得られた結果は,手動オルガノイド検出および測定と密接に一致し,オルガノイド形態解析の高速化における提案手法の有効性を示した。

Organoids are self-organized 3D cell clusters that closely mimic the architecture and function of in vivo tissues and organs. Quantification of organoid morphology helps in studying organ development, drug discovery, and toxicity assessment. Recent microscopy techniques provide a potent tool to acquire organoid morphology features, but manual image analysis remains a labor and time-intensive process. Thus, this paper proposes a comprehensive pipeline for microscopy analysis that leverages the SegmentAnything to precisely demarcate individual organoids. Additionally, we introduce a set of morphological properties, including perimeter, area, radius, non-smoothness, and non-circularity, allowing researchers to analyze the organoid structures quantitatively and automatically. To validate the effectiveness of our approach, we conducted tests on bright-field images of human induced pluripotent stem cells (iPSCs) derived neural-epithelial (NE) organoids. The results obtained from our automatic pipeline closely align with manual organoid detection and measurement, showcasing the capability of our proposed method in accelerating organoids morphology analysis.
翻訳日:2023-09-12 18:08:12 公開日:2023-09-11
# SayNav: 新しい環境での動的計画とナビゲーションのための大規模言語モデル

SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments ( http://arxiv.org/abs/2309.04077v2 )

ライセンス: Link先を確認
Abhinav Rajvanshi, Karan Sikka, Xiao Lin, Bhoram Lee, Han-Pang Chiu and Alvaro Velasquez(参考訳) 自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには、セマンティック推論と動的計画能力が不可欠である。 これらのタスクを成功させるためには、人間が持っている多くの常識知識が必要である。 我々は,Large Language Models (LLMs) からの人間の知識を活用し,未知の大規模環境における複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。 SayNavは、探索環境の3DシーングラフをLSMへの入力としてインクリメンタルに構築する新しい基盤機構を使用して、ナビゲーションのための実用的でコンテキスト的に適切な高レベルプランを生成する。 LLMの生成したプランは、事前訓練された低レベルプランナーによって実行され、各ステップを短距離のポイントゴールナビゲーションサブタスクとして扱う。 SayNavはナビゲーション中に動的にステップバイステップの指示を生成し、新たに認識された情報に基づいて将来のステップを継続的に洗練する。 エージェントが未知の環境で複数の異なるオブジェクトを効率的に探索するために膨大な量の人間知識を利用する必要がある、新しいマルチオブジェクトナビゲーションタスクでsaynavを評価する。 saynavはoracleベースのpoint-navベースラインを上回り、このタスクの理想的な設定の下で95.35%(ベースラインで56.06%)の成功率を達成し、大規模な新しい環境でオブジェクトをうまく配置するための動的プランを生成する能力を強調している。 さらに、SayNavはシミュレーションから実環境への効率的な一般化を可能にする。

Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on a new multi-object navigation task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. SayNav outperforms an oracle based Point-nav baseline, achieving a success rate of 95.35% (vs 56.06% for the baseline), under the ideal settings on this task, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments. In addition, SayNav also enables efficient generalization from simulation to real environments.
翻訳日:2023-09-12 18:07:53 公開日:2023-09-11
# DePT:パラメータ効率の良い微調整のための分解プロンプトチューニング

DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2309.05173v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル(lm)の入力に少量の訓練可能なソフト(連続)プロンプトベクトルが固定されるプロンプトチューニング(pt)は、パラメータ効率の良い微調整(peft)のための様々なタスクやモデルに対して有望な結果を示している。 PTは、トレーニング可能なパラメータが少なくて競合性能を保ち、モデルのサイズが拡大するにつれてパラメータを劇的にスケールアップしないため、他のPEFTアプローチと際立っている。 しかし、PTはソフトプロンプトトークンを導入し、入力シーケンスが長くなり、Transformerの2次複雑さによるトレーニングや推論時間、メモリ使用量に大きな影響を及ぼす。 特に大きな言語モデル(llm)では、日々の大量のクエリに直面する。 この問題に対処するために,ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された2つの低ランク行列に分解するDecomposed Prompt Tuning (DePT)を提案する。 これにより、トレーニング可能なパラメータサイズを変更することなく、バニラPTとその変種と比較して20%以上のメモリと時間コストを節約しながら、DePTのパフォーマンスが向上する。 23の自然言語処理(NLP)と視覚言語(VL)タスクに関する広範な実験を通じて、DePTはいくつかのシナリオにおいて完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示した。 さらに,モデルサイズが大きくなるにつれてdeptがより効率的になることを示す。 さらに,DePTは数ショットの学習環境においてパラメータ効率のよい伝達学習とシームレスに統合され,様々なモデルアーキテクチャやサイズへの適応性を強調している。

Prompt tuning (PT), where a small amount of trainable soft (continuous) prompt vectors is affixed to the input of language models (LM), has shown promising results across various tasks and models for parameter-efficient fine-tuning (PEFT). PT stands out from other PEFT approaches because it maintains competitive performance with fewer trainable parameters and does not drastically scale up its parameters as the model size expands. However, PT introduces additional soft prompt tokens, leading to longer input sequences, which significantly impacts training and inference time and memory usage due to the Transformer's quadratic complexity. Particularly concerning for Large Language Models (LLMs) that face heavy daily querying. To address this issue, we propose Decomposed Prompt Tuning (DePT), which decomposes the soft prompt into a shorter soft prompt and a pair of low-rank matrices that are then optimised with two different learning rates. This allows DePT to achieve better performance while saving over 20% memory and time costs compared to vanilla PT and its variants, without changing trainable parameter sizes. Through extensive experiments on 23 natural language processing (NLP) and vision-language (VL) tasks, we demonstrate that DePT outperforms state-of-the-art PEFT approaches, including the full fine-tuning baseline in some scenarios. Additionally, we empirically show that DEPT grows more efficient as the model size increases. Our further study reveals that DePT integrates seamlessly with parameter-efficient transfer learning in the few-shot learning setting and highlights its adaptability to various model architectures and sizes.
翻訳日:2023-09-12 14:18:57 公開日:2023-09-11
# 2つは1より優れている: 一般化リンクによる複数の知識ソースによる複雑な質問への回答

Two is Better Than One: Answering Complex Questions by Multiple Knowledge Sources with Generalized Links ( http://arxiv.org/abs/2309.05201v1 )

ライセンス: Link先を確認
Minhao Zhang, Yongliang Ma, Yanzeng Li, Ruoyu Zhang, Lei Zou, Ming Zhou(参考訳) 複数の知識ソースを組み込むことは、複雑な事実的疑問に答える上で有益であることが証明されている。 複数の知識ベース(KB)を利用するために、従来の研究はすべてのKBをエンティティアライメントを通じて単一のグラフにマージし、その問題を解答(QA)に還元した。 実際には、KB間の様々なリンク関係がマルチKBよりもQAで採用される可能性がある。 整合性のあるエンティティ(すなわち完全なリンク)の間の同一性に加えて、抽象概念の異なる側面や型を表現する不整合性エンティティも問題(すなわち部分的リンク)で同一に扱われる。 したがって、以前の作業におけるKB融合は全ての種類のリンクを表現できず、QAのために複数のKBを理解する能力を制限する。 本研究では,複数KB間の全リンクと部分リンクを利用して正解を導出する新しいMulti-KB-QAタスクを定式化する。 最後に,kb組込み内のすべてのリンク関係をスコアとランク候補の回答にエンコードするマルチkb-qa手法を提案する。 実験の結果,本手法は従来のKB-QAシステムよりも優れていることがわかった。

Incorporating multiple knowledge sources is proven to be beneficial for answering complex factoid questions. To utilize multiple knowledge bases (KB), previous works merge all KBs into a single graph via entity alignment and reduce the problem to question-answering (QA) over the fused KB. In reality, various link relations between KBs might be adopted in QA over multi-KBs. In addition to the identity between the alignable entities (i.e. full link), unalignable entities expressing the different aspects or types of an abstract concept may also be treated identical in a question (i.e. partial link). Hence, the KB fusion in prior works fails to represent all types of links, restricting their ability to comprehend multi-KBs for QA. In this work, we formulate the novel Multi-KB-QA task that leverages the full and partial links among multiple KBs to derive correct answers, a benchmark with diversified link and query types is also constructed to efficiently evaluate Multi-KB-QA performance. Finally, we propose a method for Multi-KB-QA that encodes all link relations in the KB embedding to score and rank candidate answers. Experiments show that our method markedly surpasses conventional KB-QA systems in Multi-KB-QA, justifying the necessity of devising this task.
翻訳日:2023-09-12 14:11:06 公開日:2023-09-11
# ベイズ核推論と最適化を用いた信頼度の高い自律ロボット探索

CARE: Confidence-rich Autonomous Robot Exploration using Bayesian Kernel Inference and Optimization ( http://arxiv.org/abs/2309.05200v1 )

ライセンス: Link先を確認
Yang Xu, Ronghao Zheng, Senlin Zhang, Meiqin Liu, Shoudong Huang(参考訳) 本稿では,未知・複雑な環境における情報に基づく自律型ロボット探索の効率化を検討する。 まず,gaussian process (gp) 回帰を用いてサロゲートモデルを学習し,制御行動の信頼度の高い相互情報 (crmi) を推定し,次に予測crmi値と予測不確実性からなる目的関数を適用し,ベイズ最適化 (bo, gp-based bo (gpbo) を行う。 CRMI値が最も高いベストアクション(探索)と高い予測分散(探索)のトレードオフを実現することができる。 GPBOの効率をさらに向上するために,ベイジアンカーネル推論と最適化(BKIO)に基づく新しい軽量情報ゲイン推定手法を提案する。 また、BKIOはCRMIを推測し、累積的後悔を伴うBOを用いた最良のアクションを生成することができるため、GPBOに匹敵する精度をはるかに高い効率で確保できる。 広範囲な数値実験と実世界の実験により, 異なる非構造環境における探索性能を損なうことなく, 提案手法の所望の効率を示す。 オープンソース実装コードもhttps://github.com/Shepherd-Gregory/BKIO-Explorationで公開しています。

In this paper, we consider improving the efficiency of information-based autonomous robot exploration in unknown and complex environments. We first utilize Gaussian process (GP) regression to learn a surrogate model to infer the confidence-rich mutual information (CRMI) of querying control actions, then adopt an objective function consisting of predicted CRMI values and prediction uncertainties to conduct Bayesian optimization (BO), i.e., GP-based BO (GPBO). The trade-off between the best action with the highest CRMI value (exploitation) and the action with high prediction variance (exploration) can be realized. To further improve the efficiency of GPBO, we propose a novel lightweight information gain inference method based on Bayesian kernel inference and optimization (BKIO), achieving an approximate logarithmic complexity without the need for training. BKIO can also infer the CRMI and generate the best action using BO with bounded cumulative regret, which ensures its comparable accuracy to GPBO with much higher efficiency. Extensive numerical and real-world experiments show the desired efficiency of our proposed methods without losing exploration performance in different unstructured, cluttered environments. We also provide our open-source implementation code at https://github.com/Shepherd-Gregory/BKIO-Exploration.
翻訳日:2023-09-12 14:10:42 公開日:2023-09-11
# ロボット支援給餌におけるシークエンシャル・アクセシション・ポリシーの学習

Learning Sequential Acquisition Policies for Robot-Assisted Feeding ( http://arxiv.org/abs/2309.05197v1 )

ライセンス: Link先を確認
Priya Sundaresan, Jiajun Wu, Dorsa Sadigh(参考訳) 食事支援ロボットは、さまざまな食材を拾い、給餌するために、様々な器具で特別な操作を行う必要がある。 これらの巧妙な低レベルスキル以外にも、補助ロボットは皿を片付け、食事を完成させるために、長い地平線を越えてこれらの戦略を順に計画する必要がある。 ロボット支援給餌の従来の方法は、それらを組み立てる手段を使わずに食品を扱うための高度に専門的なプリミティブを導入する。 一方、ロングホリゾン操作に対する既存のアプローチは、高度に専門化されたプリミティブをフレームワークに組み込む柔軟性を欠いている。 本稿では,長期食品購入のためのフレームワークであるVAPORS(Visual Action Planning OveR Sequences)を提案する。 VAPORSは、シミュレーションにおいて学習された潜在プレートダイナミクスを活用することで、ハイレベルなアクション選択のポリシーを学習する。 実世界でシーケンシャルプランを実行するために、VAPORSはアクションの実行を視覚的にパラメータ化されたプリミティブに委譲する。 我々は,ヌードル獲得とゼリー豆のバイマンスクーピングを含む複雑な実世界の買収試験に対するアプローチを検証する。 38枚のプレートで、VAPORSはベースラインよりもはるかに効率よく取得し、トッピングやソースのような現実的なプレートのバリエーションを一般化し、49人を対象に実施した調査において、利用者の嗜好に質的にアピールする。 コード、データセット、ビデオ、補足資料は、私たちのWebサイト(https://sites.google.com/view/vaporsbot)で参照できます。

A robot providing mealtime assistance must perform specialized maneuvers with various utensils in order to pick up and feed a range of food items. Beyond these dexterous low-level skills, an assistive robot must also plan these strategies in sequence over a long horizon to clear a plate and complete a meal. Previous methods in robot-assisted feeding introduce highly specialized primitives for food handling without a means to compose them together. Meanwhile, existing approaches to long-horizon manipulation lack the flexibility to embed highly specialized primitives into their frameworks. We propose Visual Action Planning OveR Sequences (VAPORS), a framework for long-horizon food acquisition. VAPORS learns a policy for high-level action selection by leveraging learned latent plate dynamics in simulation. To carry out sequential plans in the real world, VAPORS delegates action execution to visually parameterized primitives. We validate our approach on complex real-world acquisition trials involving noodle acquisition and bimanual scooping of jelly beans. Across 38 plates, VAPORS acquires much more efficiently than baselines, generalizes across realistic plate variations such as toppings and sauces, and qualitatively appeals to user feeding preferences in a survey conducted across 49 individuals. Code, datasets, videos, and supplementary materials can be found on our website: https://sites.google.com/view/vaporsbot.
翻訳日:2023-09-12 14:10:17 公開日:2023-09-11
# 言語モデルによる記述はコンテンツの多様性を減少させるか?

Does Writing with Language Models Reduce Content Diversity? ( http://arxiv.org/abs/2309.05196v1 )

ライセンス: Link先を確認
Vishakh Padmakumar, He He(参考訳) 大規模言語モデル(llm)は、モデル支援による共同執筆の急増につながった。 異なるユーザーが同じモデルからの提案を取り入れているため、コンテンツの多様性が低下するリスクがあり、公の会話における多様な視点を制限する可能性がある。 そこで,本研究では,ベースllm(gpt3),フィードバック調整されたllm(instructgpt),モデルヘルプのない書き込みという,3つの設定で議論的なエッセイを書いている。 多様性指標のセットを開発し,InstructGPTによる記述は(GPT3ではなく)統計的に有意な多様性低下をもたらすことを示した。 具体的には、異なる著者の著作物間の類似性を高め、全体的な語彙や内容の多様性を減らす。 また、この効果は、主にインストラクションGPTが共著エッセイに多様でないテキストに寄与することに起因する。 対照的に、ユーザ貢献型テキストはモデルコラボレーションの影響を受けないままである。 これは、モデル適応から人間のフィードバックへの世代品質の改善が、より均質でより多様なコンテンツのコストを伴っていることを示唆している。

Large language models (LLMs) have led to a surge in collaborative writing with model assistance. As different users incorporate suggestions from the same model, there is a risk of decreased diversity in the produced content, potentially limiting diverse perspectives in public discourse. In this work, we measure the impact of co-writing on diversity via a controlled experiment, where users write argumentative essays in three setups -- using a base LLM (GPT3), a feedback-tuned LLM (InstructGPT), and writing without model help. We develop a set of diversity metrics and find that writing with InstructGPT (but not the GPT3) results in a statistically significant reduction in diversity. Specifically, it increases the similarity between the writings of different authors and reduces the overall lexical and content diversity. We additionally find that this effect is mainly attributable to InstructGPT contributing less diverse text to co-written essays. In contrast, the user-contributed text remains unaffected by model collaboration. This suggests that the recent improvement in generation quality from adapting models to human feedback might come at the cost of more homogeneous and less diverse content.
翻訳日:2023-09-12 14:09:54 公開日:2023-09-11
# 鳥眼セグメンテーションにおける視点ロバスト性に向けて

Towards Viewpoint Robustness in Bird's Eye View Segmentation ( http://arxiv.org/abs/2309.05192v1 )

ライセンス: Link先を確認
Tzofi Klinghoffer, Jonah Philion, Wenzheng Chen, Or Litany, Zan Gojcic, Jungseock Joo, Ramesh Raskar, Sanja Fidler, Jose M. Alvarez(参考訳) 自動運転車(av)は、知覚に使用されるニューラルネットワークが、データ収集とラベル付けの繰り返しコストなしで、さまざまな種類の車両にデプロイされる場合、異なる視点で堅牢であることを要求する。 av企業は通常、さまざまなシナリオや場所からデータを収集するが、コストのためにカメラリグの設定はしない。 その結果、ほとんどの艦隊で少数のリグのバリエーションしか存在しない。 本稿では,カメラ視点の変化によるAV知覚モデルの影響について検討し,データ収集やラベル付けを繰り返すことなく車種間をスケールする方法を提案する。 鳥の目視(BEV)セグメンテーションをモチベーションタスクとして用い,既存の知覚モデルがカメラ視点の変化に対して驚くほど敏感であることを示す。 あるカメラリグのデータを使ってトレーニングすると、推測時にカメラのピッチ、ヨー、深さ、高さが小さな変化で性能が大幅に低下する。 我々は,新たなビュー合成手法を導入して,収集したデータを対象リグの視点に変換することで,追加のデータ収集やラベリングコストを必要とせずに,多様なターゲットリグに対するbevセグメンテーションモデルをトレーニングできる。 視点の変化の影響を分析するために,合成データを利用して他のギャップ(コンテンツ,ISPなど)を緩和する。 提案手法は,実データに基づいて訓練され,合成データに基づいて評価される。 将来の作業で使用するすべてのデータをリリースします。 我々の方法では、新しいリグへの展開時に失われる平均14.7%のIoUを回収することができる。

Autonomous vehicles (AV) require that neural networks used for perception be robust to different viewpoints if they are to be deployed across many types of vehicles without the repeated cost of data collection and labeling for each. AV companies typically focus on collecting data from diverse scenarios and locations, but not camera rig configurations, due to cost. As a result, only a small number of rig variations exist across most fleets. In this paper, we study how AV perception models are affected by changes in camera viewpoint and propose a way to scale them across vehicle types without repeated data collection and labeling. Using bird's eye view (BEV) segmentation as a motivating task, we find through extensive experiments that existing perception models are surprisingly sensitive to changes in camera viewpoint. When trained with data from one camera rig, small changes to pitch, yaw, depth, or height of the camera at inference time lead to large drops in performance. We introduce a technique for novel view synthesis and use it to transform collected data to the viewpoint of target rigs, allowing us to train BEV segmentation models for diverse target rigs without any additional data collection or labeling cost. To analyze the impact of viewpoint changes, we leverage synthetic data to mitigate other gaps (content, ISP, etc). Our approach is then trained on real data and evaluated on synthetic data, enabling evaluation on diverse target rigs. We release all data for use in future work. Our method is able to recover an average of 14.7% of the IoU that is otherwise lost when deploying to new rigs.
翻訳日:2023-09-12 14:09:34 公開日:2023-09-11
# 量子熱量平均に対する経路積分表現の定量的収束解析

Quantitative Convergence Analysis of Path Integral Representations for Quantum Thermal Average ( http://arxiv.org/abs/2309.05188v1 )

ライセンス: Link先を確認
Xuda Ye, Zhennan Zhou(参考訳) 量子熱平均は量子物理学の中心的な話題であり、経路積分によって表される。 計算の観点では、経路積分表現(pir)は有限次元空間で近似しなければならず、そのような近似の収束を pir の収束と呼ぶ。 本稿では,量子温度平均と連続ループのボルツマン分布を厳密に繋ぐトレース形式におけるトロッター積公式を定式化する。 我々は、標準PIRの定性的収束を証明し、連続ループPIRの明示的な収束率を得る。 これらの結果は、経路積分分子動力学のような量子熱平衡系の経路積分アプローチの理論的保証を提供する量子熱平均を近似するための様々なアプローチを示す。

The quantum thermal average is a central topic in quantum physics and can be represented by the path integrals. For the computational perspective, the path integral representation (PIR) needs to be approximated in a finite-dimensional space, and the convergence of such approximation is termed as the convergence of the PIR. In this paper, we establish the Trotter product formula in the trace form, which connects the quantum thermal average and the Boltzmann distribution of a continuous loop in a rigorous way. We prove the qualitative convergence of the standard PIR, and obtain the explicit convergence rates of the continuous loop PIR. These results showcase various approaches to approximate the quantum thermal average, which provide theoretical guarantee for the path integral approaches of quantum thermal equilibrium systems, such as the path integral molecular dynamics.
翻訳日:2023-09-12 14:09:04 公開日:2023-09-11
# HiLM-D: 自律運転のための多モーダル大規模言語モデルにおける高分解能理解に向けて

HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving ( http://arxiv.org/abs/2309.05186v1 )

ライセンス: Link先を確認
Xinpeng Ding, Jianhua Han, Hang Xu, Wei Zhang, Xiaomeng Li(参考訳) 自律運転システムは通常、複雑な設計をもたらす様々なタスクのために別々のモデルを使用する。 単一のマルチモーダル大言語モデル(MLLM)を利用して、ビデオから複数の自律運転タスク、すなわちリスクオブジェクトの局所化と意図と提案予測(ROLISP)タスクを統合する。 ROLISPは自然言語を使ってリスクオブジェクトを同時に識別し、解釈し、Ego-vehicleの意図を理解し、動作提案を提供し、タスク固有のアーキテクチャの必要性を排除する。 しかし、高分解能(HR)情報がないため、既存のMLLMは小さな物体(交通コーンなど)を見逃し、ROLISPに適用した場合は静かな物体(大型トラックなど)に過度に注目することが多い。 ROLISP タスクに HR 情報をMLLM に組み込む効率的な手法として HiLM-D (Towards High-Resolution Understanding in MLLMs for autonomous Driving) を提案する。 特に、HiLM-Dは2つの枝を統合する。 (i)低分解能推論枝は、MLLMで、低分解能ビデオを処理し、リスクオブジェクトをキャプションし、エゴ車両の意図/提案を識別する。 (II)HiLM-Dに顕著な高分解能知覚枝(HR-PB)は、視覚特有のHR特徴マップをキャプチャし、単に有能な物体よりも潜在的なリスクをすべて優先順位付けすることにより、HRイメージを取り込み、検出を強化する。 hr-pbはプラグアンドプレイモジュールとして機能し、現在のmllmにシームレスに適合します。 ROLISPベンチマークの実験では、HiLM-DがMLLMよりも顕著な優位性を示し、キャプションではBLEU-4が4.8%、検出ではmIoUが17.2%改善した。

Autonomous driving systems generally employ separate models for different tasks resulting in intricate designs. For the first time, we leverage singular multimodal large language models (MLLMs) to consolidate multiple autonomous driving tasks from videos, i.e., the Risk Object Localization and Intention and Suggestion Prediction (ROLISP) task. ROLISP uses natural language to simultaneously identify and interpret risk objects, understand ego-vehicle intentions, and provide motion suggestions, eliminating the necessity for task-specific architectures. However, lacking high-resolution (HR) information, existing MLLMs often miss small objects (e.g., traffic cones) and overly focus on salient ones (e.g., large trucks) when applied to ROLISP. We propose HiLM-D (Towards High-Resolution Understanding in MLLMs for Autonomous Driving), an efficient method to incorporate HR information into MLLMs for the ROLISP task. Especially, HiLM-D integrates two branches: (i) the low-resolution reasoning branch, can be any MLLMs, processes low-resolution videos to caption risk objects and discern ego-vehicle intentions/suggestions; (ii) the high-resolution perception branch (HR-PB), prominent to HiLM-D,, ingests HR images to enhance detection by capturing vision-specific HR feature maps and prioritizing all potential risks over merely salient objects. Our HR-PB serves as a plug-and-play module, seamlessly fitting into current MLLMs. Experiments on the ROLISP benchmark reveal HiLM-D's notable advantage over leading MLLMs, with improvements of 4.8% in BLEU-4 for captioning and 17.2% in mIoU for detection.
翻訳日:2023-09-12 14:08:52 公開日:2023-09-11
# 密度演算子の収束と離散変調CVQKDプロトコルのセキュリティ

Convergence of Density Operators and Security of Discrete Modulated CVQKD Protocols ( http://arxiv.org/abs/2309.05185v1 )

ライセンス: Link先を確認
Micael Andrade Dias and Francisco Marcos de Assis(参考訳) この通信は、混合コヒーレント状態の弱い収束に対する近似誤差をガウス熱状態に束縛する問題を扱う。 離散変調を伴うCVQKDの文脈では,2つの特定の症例に対する表現が発達する。 第一はガウス準二成分状態と基準ガウス変調(gg02)との間の距離であり、第二は星座と同じ光子数を持つ熱状態との間の距離である。 なぜなら、密度作用素の凸集合において、弱収束はトレースノルムの収束を意味し、その列が等価なガウス状態にどれだけ早く近づくかがQKDプロトコルのセキュリティに影響を及ぼす。 ここでは、L_1$距離の2つの境界を導出する。そのうちの1つは、セキュリティ証明で使用できるエネルギーテストに関連している。

This communication deals with the problem of bounding the approximation error on weak convergence of mixed coherent state towards a Gaussian thermal state. In the context of CVQKD with discrete modulation, we develop expressions for two specific cases. The first one is the distance between the Gaussian equivalent bipartite state and a reference Gaussian modulated (GG02) and the second one is for the trace distance between the constellation and a thermal state with same photon number. Since, in the convex set of density operators, weak convergence implies convergence in the trace norm, knowing how fast the sequence gets close to the equivalent Gaussian state has implication on the security of QKD Protocols. Here we derive two bounds on the $L_1$ distance, one of them related with an energy test that can be used in the security proof.
翻訳日:2023-09-12 14:08:03 公開日:2023-09-11
# 単調性を超えたデータ要約:非単調二段極大化

Data Summarization beyond Monotonicity: Non-monotone Two-Stage Submodular Maximization ( http://arxiv.org/abs/2309.05183v1 )

ライセンス: Link先を確認
Shaojie Tang(参考訳) 2段階の準モジュラー最大化問題の目的は、与えられた訓練関数を用いて基底集合を小さくすることであり、削減された基底集合上での新しい目的関数が元の基底集合に匹敵する結果をもたらすことを確実にすることである。 この問題には、データ要約を含む様々な分野の応用がある。 既存の研究はしばしば目的関数の単調性を仮定するが、我々の研究は非単調部分モジュラ函数に対応するためにこの研究の拡張を先導している。 このより一般的なケースに対して、最初の定数近似アルゴリズムを導入しました。

The objective of a two-stage submodular maximization problem is to reduce the ground set using provided training functions that are submodular, with the aim of ensuring that optimizing new objective functions over the reduced ground set yields results comparable to those obtained over the original ground set. This problem has applications in various domains including data summarization. Existing studies often assume the monotonicity of the objective function, whereas our work pioneers the extension of this research to accommodate non-monotone submodular functions. We have introduced the first constant-factor approximation algorithms for this more general case.
翻訳日:2023-09-12 14:07:37 公開日:2023-09-11
# 深層CNNの顔認証システム「Achromatopsia」が開発

Our Deep CNN Face Matchers Have Developed Achromatopsia ( http://arxiv.org/abs/2309.05180v1 )

ライセンス: Link先を確認
Aman Bhatta, Domingo Mery, Haiyu Wu, Joyce Annan, Micheal C. King and Kevin W. Bowyer(参考訳) 現代のディープcnnフェイスマッチはカラー画像を含むデータセットで訓練される。 このようなマッチングは,テスト画像のグレースケールやカラーバージョンにおいて,基本的に同じ精度で実現できることを示す。 次に,深層cnn顔照合器 ‘not seen color’' の原因を考察する。 人気のあるwebスクレイプされた顔データセットは、実際には1つ以上のグレースケールの画像で、そのアイデンティティの30から60\%を持っている。 トレーニングセットのこのグレースケール要素が達成した精度に影響を及ぼすかどうかを分析し、そうでないと結論付ける。 さらに,100\%の灰色スケールトレーニングセットであっても,色や灰色スケールのテスト画像で同等の精度が得られることを示す。 次に,webスクレイプトレーニングセットにおける個々の画像の皮膚領域が,色空間へのマッピングにおいて有意な変化を示すことを示す。 これは、少なくともWebスクラッチで、ワイルドな顔データセットでは、最先端のマーカをトレーニングするための限定的なアイデンティティ関連情報を持っていることを示唆している。 最後に,単一チャネルグレースケール画像を用いたトレーニングにより,同等の精度が得られることを検証した。

Modern deep CNN face matchers are trained on datasets containing color images. We show that such matchers achieve essentially the same accuracy on the grayscale or the color version of a set of test images. We then consider possible causes for deep CNN face matchers ``not seeing color''. Popular web-scraped face datasets actually have 30 to 60\% of their identities with one or more grayscale images. We analyze whether this grayscale element in the training set impacts the accuracy achieved, and conclude that it does not. Further, we show that even with a 100\% grayscale training set, comparable accuracy is achieved on color or grayscale test images. Then we show that the skin region of an individual's images in a web-scraped training set exhibit significant variation in their mapping to color space. This suggests that color, at least for web-scraped, in-the-wild face datasets, carries limited identity-related information for training state-of-the-art matchers. Finally, we verify that comparable accuracy is achieved from training using single-channel grayscale images, implying that a larger dataset can be used within the same memory limit, with a less computationally intensive early layer.
翻訳日:2023-09-12 14:07:04 公開日:2023-09-11
# 数の法則の探求:中国の不動産からの証拠

Exploring the Law of Numbers: Evidence from China's Real Estate ( http://arxiv.org/abs/2309.05221v1 )

ライセンス: Link先を確認
Fuqian Zhang, Zhenhua Wang(参考訳) 有名な証明である「数字は嘘をつかない」は、数値の下にある信頼性と洞察、特に経済学や金融などにおいて、未議論の重要さの概念を裏付けるものである。 最初の数字分析におけるベンフォードの法則の繁栄にもかかわらず、その範囲は数法則の解読に関して包括性を維持することができない。 本論文は,中国不動産の財務諸表を代表とし,第1桁だけでなく,他の2次元の数字(頻度と長さ)を定量的に研究することで,数法を定めている。 研究成果は、データ操作に関する単なる予約を超越し、数値の多様性と使用状況の洞察の明確化に関する議論への扉を開く。 この研究は、経済的な重要性と数値現象のより深い理解を促進する能力の両方を生んでいる。

The renowned proverb, Numbers do not lie, underscores the reliability and insight that lie beneath numbers, a concept of undisputed importance, especially in economics and finance etc. Despite the prosperity of Benford's Law in the first digit analysis, its scope fails to remain comprehensiveness when it comes to deciphering the laws of number. This paper delves into number laws by taking the financial statements of China real estate as a representative, quantitatively study not only the first digit, but also depict the other two dimensions of numbers: frequency and length. The research outcomes transcend mere reservations about data manipulation and open the door to discussions surrounding number diversity and the delineation of the usage insights. This study wields both economic significance and the capacity to foster a deeper comprehension of numerical phenomena.
翻訳日:2023-09-12 13:58:57 公開日:2023-09-11
# 連想分析による大規模言語モデルの幻覚の定量化と寄与

Quantifying and Attributing the Hallucination of Large Language Models via Association Analysis ( http://arxiv.org/abs/2309.05217v1 )

ライセンス: Link先を確認
Li Du, Yequan Wang, Xingrun Xing, Yiqun Ya, Xiang Li, Xin Jiang, Xuezhi Fang(参考訳) 様々なNLPタスクにおいて非常に優れた性能を示すが、大きな言語モデル(LLM)は幻覚の問題に悩まされ、LLMの信頼性を脅かす。 LLMの幻覚レベルを測定するために、先行研究はまず、現象の類似性に応じて幻覚を分類し、モデル出力が幻覚内容を含む割合を定量化する。 しかし、そのような幻覚率は共同創設者によって容易に歪められる。 さらに、同様の幻覚現象は異なるソースから生じる可能性があるため、このような幻覚率は幻覚の理由を反映することができなかった。 これらの問題に対処するため,我々は,llmの幻覚率とリスク因子のセットの関係性を構築する関連分析を通じて,幻覚レベル定量化と幻覚理由調査を組み合わせることを提案する。 このようにして、リスク因子のそれぞれの値の下で幻覚レベルを観察でき、リスク因子の寄与と統計的意義を調べながら、他の因子の結合効果を除外できる。 また,モデル能力の分類に従ってリスク因子を認識することにより,共通認識記憶,関係推論,指示追従の潜在的な欠陥が明らかになり,さらにllmの事前訓練および教師付き微調整過程の指導により幻覚を緩和できる可能性がある。

Although demonstrating superb performance on various NLP tasks, large language models (LLMs) still suffer from the hallucination problem, which threatens the reliability of LLMs. To measure the level of hallucination of LLMs, previous works first categorize the hallucination according to the phenomenon similarity, then quantify the proportion that model outputs contain hallucinatory contents. However, such hallucination rates could easily be distorted by confounders. Moreover, such hallucination rates could not reflect the reasons for the hallucination, as similar hallucinatory phenomena may originate from different sources. To address these issues, we propose to combine the hallucination level quantification and hallucination reason investigation through an association analysis, which builds the relationship between the hallucination rate of LLMs with a set of risk factors. In this way, we are able to observe the hallucination level under each value of each risk factor, examining the contribution and statistical significance of each risk factor, meanwhile excluding the confounding effect of other factors. Additionally, by recognizing the risk factors according to a taxonomy of model capability, we reveal a set of potential deficiencies in commonsense memorization, relational reasoning, and instruction following, which may further provide guidance for the pretraining and supervised fine-tuning process of LLMs to mitigate the hallucination.
翻訳日:2023-09-12 13:58:43 公開日:2023-09-11
# 合成データに基づく視線と頭部方向のアングル範囲とアイデンティティの類似性

Angle Range and Identity Similarity Enhanced Gaze and Head Redirection based on Synthetic data ( http://arxiv.org/abs/2309.05214v1 )

ライセンス: Link先を確認
Jiawei Qin, Xueting Wang(参考訳) 本稿では,全顔画像における視線と頭部方向の角度精度と光反応性を向上させる手法を提案する。 現在のモデルでは、大きな角度でリダイレクトを処理できないのが問題であり、この制限は主にトレーニングデータの欠如に起因する。 この問題を解決するために,実データの頭部ポーズと視線範囲を拡張するために,単眼的3次元顔再構成によるデータ拡張を行い,より広いリダイレクト範囲を扱えるようにした。 また,データ拡張に主眼を置くことに加えて,合成データを用いたトレーニングにおいても,画像品質と識別性が向上した枠組みを提案する。 実験により,高い画質を維持しつつ,特に大きな角度にリダイレクトする場合に,リダイレクト角精度でリダイレクト性能を著しく向上することが示された。

In this paper, we propose a method for improving the angular accuracy and photo-reality of gaze and head redirection in full-face images. The problem with current models is that they cannot handle redirection at large angles, and this limitation mainly comes from the lack of training data. To resolve this problem, we create data augmentation by monocular 3D face reconstruction to extend the head pose and gaze range of the real data, which allows the model to handle a wider redirection range. In addition to the main focus on data augmentation, we also propose a framework with better image quality and identity preservation of unseen subjects even training with synthetic data. Experiments show that our method significantly improves redirection performance in terms of redirection angular accuracy while maintaining high image quality, especially when redirecting to large angles.
翻訳日:2023-09-12 13:58:19 公開日:2023-09-11
# 層間トレーニングと奥行きドロップアウトによる資源制約下での連合学習に向けて

Towards Federated Learning Under Resource Constraints via Layer-wise Training and Depth Dropout ( http://arxiv.org/abs/2309.05213v1 )

ライセンス: Link先を確認
Pengfei Guo, Warren Richard Morningstar, Raviteja Vemulapalli, Karan Singhal, Vishal M. Patel, Philip Andrew Mansfield(参考訳) 多様なデータでトレーニングされた大規模機械学習モデルは、最近前例のない成功を収めている。 フェデレーション学習は、多くのクライアントに分散したドメイン固有のデータセットなど、アクセス不能なプライベートデータのトレーニングを可能にする。 しかし、クライアントが限られたリソースを持つ場合、連合学習を大規模モデルにスケールすることは困難である。 この課題は、しばしばモデルサイズと多様なデータへのアクセスのトレードオフをもたらす。 この問題を緩和し、エッジデバイス上での大規模モデルのトレーニングを容易にするために、クライアント毎のメモリ量、計算量、通信コストを同時に削減する、単純で効果的な戦略であるフェデレート層学習を導入する。 クライアントは各ラウンドで1層だけをトレーニングし、パフォーマンスの低下を最小限に抑えてリソースコストを大幅に削減します。 また、トレーニング中に凍結層をランダムにドロップする補完技術であるFederated Depth Dropoutを導入し、リソース使用量をさらに削減する。 これら2つのテクニックを結合することで、エッジデバイス上で大幅に大きなモデルを効果的にトレーニングすることができます。 具体的には,連合型自己教師付き表現学習におけるトレーニングメモリ使用量を5倍以上削減し,ダウンストリームタスクのパフォーマンスが従来の教師付き自己教師付き学習に匹敵することを示す。

Large machine learning models trained on diverse data have recently seen unprecedented success. Federated learning enables training on private data that may otherwise be inaccessible, such as domain-specific datasets decentralized across many clients. However, federated learning can be difficult to scale to large models when clients have limited resources. This challenge often results in a trade-off between model size and access to diverse data. To mitigate this issue and facilitate training of large models on edge devices, we introduce a simple yet effective strategy, Federated Layer-wise Learning, to simultaneously reduce per-client memory, computation, and communication costs. Clients train just a single layer each round, reducing resource costs considerably with minimal performance degradation. We also introduce Federated Depth Dropout, a complementary technique that randomly drops frozen layers during training, to further reduce resource usage. Coupling these two techniques enables us to effectively train significantly larger models on edge devices. Specifically, we reduce training memory usage by 5x or more in federated self-supervised representation learning and demonstrate that performance in downstream tasks is comparable to conventional federated self-supervised learning.
翻訳日:2023-09-12 13:58:05 公開日:2023-09-11
# 拡張ジョセフソン接合量子ビットシステム

Extended Josephson junction qubit system ( http://arxiv.org/abs/2309.05212v1 )

ライセンス: Link先を確認
Andrey Grankin, Alicia J. Koll\'ar, Mohammad Hafezi(参考訳) circuit quantum electrodynamics (qed) は量子計算とシミュレーションを実装するための有望なプラットフォームとして登場した。 典型的には、これらの系の接合は十分に小さいサイズであり、最低プラズマ振動のみが関係している。 ジョセフソン効果と電荷エネルギーの相互作用は、このモードを非線形にし、量子ビットの基礎を形成する。 本研究では,非無視空間範囲を有する拡張ジョセフソン接合(JJ)に基づく新しいQEDアーキテクチャを提案する。 本稿では,従来のJJとは対照的に,複数の非線形プラズモンモードをホストし,マルチキュービット相互作用系として効果的に機能することを示す。 さらに、位相モードは異なる空間プロファイルを示し、光子への周波数モメンタム選択的結合による個々のアドレッシングを可能にする。 我々のプラットフォームは量子計算、特に1つのジャンクション内における1量子と2量子のゲートの実装に潜在的な応用を持っている。 また、多モード電磁波導波路を介して相互作用する複数の拡張接合からなる構成についても検討する。 この構成は一般化されたボース・ハバード模型をシミュレートするための強力なプラットフォームとして機能し、光子を媒介とする接合間の結合は実次元と合成次元の両方の格子を作ることができる。 これにより、相互作用する多体系の位相相のような新しい量子現象の探索が可能になる。

Circuit quantum electrodynamics (QED) has emerged as a promising platform for implementing quantum computation and simulation. Typically, junctions in these systems are of a sufficiently small size, such that only the lowest plasma oscillation is relevant. The interplay between the Josephson effect and charging energy renders this mode nonlinear, forming the basis of a qubit. In this work, we introduce a novel QED architecture based on extended Josephson Junctions (JJs), which possess a non-negligible spatial extent. We present a comprehensive microscopic analysis and demonstrate that each extended junction can host multiple nonlinear plasmon modes, effectively functioning as a multi-qubit interacting system, in contrast to conventional JJs. Furthermore, the phase modes exhibit distinct spatial profiles, enabling individual addressing through frequency-momentum selective coupling to photons. Our platform has potential applications in quantum computation, specifically in implementing single- and two-qubit gates within a single junction. We also investigate a setup comprising several driven extended junctions interacting via a multimode electromagnetic waveguide. This configuration serves as a powerful platform for simulating the generalized Bose-Hubbard model, as the photon-mediated coupling between junctions can create a lattice in both real and synthetic dimensions. This allows for the exploration of novel quantum phenomena, such as topological phases of interacting many-body systems.
翻訳日:2023-09-12 13:57:41 公開日:2023-09-11
# 学習後の量子化が大規模言語モデルに与える影響の理解

Understanding the Impact of Post-Training Quantization on Large-scale Language Models ( http://arxiv.org/abs/2309.05210v1 )

ライセンス: Link先を確認
Somnath Roy(参考訳) 大規模言語モデル(llm)は急速に拡大しており、パラメータの数はchatgpt、claude、bardといった多くの商用モデルの成功の重要な要因となっている。 falconやllama2など、最近公開された商用利用用のパブリックアクセスモデルでさえ、数十億のパラメータを備えている。 このパラメータ数の大幅な増加は、デプロイメントと運用を非常にコストがかかる。 大規模ニューラルネットワークの量子化分野における目覚ましい進歩、特にLLMは、これらのモデルをコンシューマグレードのGPUにデプロイすることで、よりアクセスしやすくしている。 量子化モデルは一般に、量子化されていないベースモデルと同等のパフォーマンスレベルを示す。 しかしながら、これらの量子化モデルは、特に復号フェーズにおいて、温度、最大新しいトークン、およびtop\_kなどのハイパーパラメータにどのように反応するかを包括的に理解する際、顕著なギャップがある。 本分析により,nf4とfp4は,推論速度,メモリ消費,生成コンテンツの品質といった類似の属性を特徴とする4ビット量子化技術であることがわかった。 しかしながら、これらの量子化法は、より小さいモデルと大きなモデルの両方において、異なる温度設定で異なる挙動を示す。 一般に、異なる大きさの4ビット量子化モデルでは、非定量化モデルとは異なり、低い温度設定に対する感度が高められる。 さらに、int8量子化は推論速度が大幅に遅いのに対して、fp16モデルは全てのサイズのモデルで常に高速な推論速度が得られる。

Large language models (LLMs) are rapidly increasing in size, with the number of parameters becoming a key factor in the success of many commercial models, such as ChatGPT, Claude, and Bard. Even the recently released publicly accessible models for commercial usage, such as Falcon and Llama2, come equipped with billions of parameters. This significant increase in the number of parameters makes deployment and operation very costly. The remarkable progress in the field of quantization for large neural networks in general and LLMs in particular, has made these models more accessible by enabling them to be deployed on consumer-grade GPUs. Quantized models generally demonstrate comparable performance levels to their unquantized base counterparts. Nonetheless, there exists a notable gap in our comprehensive understanding of how these quantized models respond to hyperparameters, such as temperature, max new tokens, and top\_k, particularly during the decoding phase. The present analysis reveals that nf4 and fp4 are equally proficient 4-bit quantization techniques, characterized by similar attributes such as inference speed, memory consumption, and the quality of generated content. Nevertheless, these quantization methods exhibit distinct behaviors at varying temperature settings, both in the context of smaller and larger models. It is noteworthy that, in general, 4-bit quantized models of varying sizes exhibit heightened sensitivity to lower temperature settings, unlike their unquantized counterparts. Additionally, int8 quantization is associated with significantly slower inference speeds, whereas unquantized fp16 models consistently yield the fastest inference speeds across models of all sizes.
翻訳日:2023-09-12 13:57:19 公開日:2023-09-11
# 長短時空間アグリゲーショントランスフォーマを用いた白内障手術のための位相特異的拡張現実誘導

Phase-Specific Augmented Reality Guidance for Microscopic Cataract Surgery Using Long-Short Spatiotemporal Aggregation Transformer ( http://arxiv.org/abs/2309.05209v1 )

ライセンス: Link先を確認
Puxun Tu, Hongfei Ye, Haochen Shi, Jeff Young, Meng Xie, Peiquan Zhao, Ce Zheng, Xiaoyi Jiang, Xiaojun Chen(参考訳) 超音波白内障手術(pcs)は、眼科医の技量に大きく依存する手術用顕微鏡を用いて行う定期手術である。 既存のpcs指導システムは術中習熟度を高めるために手術用顕微鏡映像から貴重な情報を抽出するが、非相特異的な指導に苦しめられ、冗長な視覚情報に繋がる。 本研究は,手術段階に応じたar情報を提供する新しい位相特異的拡張現実(ar)誘導システムの開発に,本研究の主な貢献である。 そこで本研究では,PCSプロシージャの本来の準標準化特性を活用して,2段階の手術用顕微鏡画像認識ネットワークを提案する。 第1段階では,手術用手足領域を分割し,手足領域に着目した空間的特徴を抽出するマルチタスク学習構造を実装した。 第2段階では,局所的細粒度と大域的時間的関係をモデル化し,抽出した空間的特徴を結合して現在の外科的位相を認識する長短時空間凝集トランス(ls-sat)ネットワークを提案する。 さらに, 眼科医と密接に連携し, 辺縁楕円フィッティングや局所制限正規交叉回転計算などの手法を用いてar視覚手がかりの設計を行った。 公開および社内データセット上でのネットワーク評価を行い,その性能を関連作品と比較して比較した。 アブレーションの結果,辺縁領域に焦点をあてた空間特徴抽出器と時間特徴の組み合わせの有効性がさらに検証された。 さらに, 開発したシステムは臨床設定で評価され, 優れた精度とリアルタイム性能が得られた。 臨床応用の可能性を示すものです

Phacoemulsification cataract surgery (PCS) is a routine procedure conducted using a surgical microscope, heavily reliant on the skill of the ophthalmologist. While existing PCS guidance systems extract valuable information from surgical microscopic videos to enhance intraoperative proficiency, they suffer from non-phasespecific guidance, leading to redundant visual information. In this study, our major contribution is the development of a novel phase-specific augmented reality (AR) guidance system, which offers tailored AR information corresponding to the recognized surgical phase. Leveraging the inherent quasi-standardized nature of PCS procedures, we propose a two-stage surgical microscopic video recognition network. In the first stage, we implement a multi-task learning structure to segment the surgical limbus region and extract limbus region-focused spatial feature for each frame. In the second stage, we propose the long-short spatiotemporal aggregation transformer (LS-SAT) network to model local fine-grained and global temporal relationships, and combine the extracted spatial features to recognize the current surgical phase. Additionally, we collaborate closely with ophthalmologists to design AR visual cues by utilizing techniques such as limbus ellipse fitting and regional restricted normal cross-correlation rotation computation. We evaluated the network on publicly available and in-house datasets, with comparison results demonstrating its superior performance compared to related works. Ablation results further validated the effectiveness of the limbus region-focused spatial feature extractor and the combination of temporal features. Furthermore, the developed system was evaluated in a clinical setup, with results indicating remarkable accuracy and real-time performance. underscoring its potential for clinical applications.
翻訳日:2023-09-12 13:56:51 公開日:2023-09-11
# 光通信システムにおける量子機械学習の応用

A Review of the Applications of Quantum Machine Learning in Optical Communication Systems ( http://arxiv.org/abs/2309.05205v1 )

ライセンス: Link先を確認
Ark Modi, Alonso Viladomat Jasso, Roberto Ferrara, Christian Deppe, Janis Noetzel, Fred Fung, Maximilian Schaedler(参考訳) 光信号処理の文脈では、量子および量子に触発された機械学習アルゴリズムは、デプロイに多大な可能性がある。 アプリケーションの1つは、受信したノイズ信号の誤り訂正プロトコルである。 一部のシナリオでは、非線形および未知の誤差は、一般に実装される線形誤差訂正プロトコルをバイパスするノイズを引き起こすことがある。 これらの場合、さまざまな推定手順を通じて受信信号から送信信号を回収するために機械学習技術が使用される。 量子機械学習アルゴリズムは古典的アルゴリズムよりも有利であるので、光信号処理がこれらの利点の恩恵を受けることを期待する。 本稿では,提案する量子および量子に着想を得た機械学習アルゴリズムとその光信号処理への応用について検討する。

In the context of optical signal processing, quantum and quantum-inspired machine learning algorithms have massive potential for deployment. One of the applications is in error correction protocols for the received noisy signals. In some scenarios, non-linear and unknown errors can lead to noise that bypasses linear error correction protocols that optical receivers generally implement. In those cases, machine learning techniques are used to recover the transmitted signal from the received signal through various estimation procedures. Since quantum machine learning algorithms promise advantage over classical algorithms, we expect that optical signal processing can benefit from these advantages. In this review, we survey several proposed quantum and quantum-inspired machine learning algorithms and their applicability with current technology to optical signal processing.
翻訳日:2023-09-12 13:56:20 公開日:2023-09-11
# 人工現実から現実へ:低リソース分子発見のための大規模言語モデルからの疑似データ活用

From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery ( http://arxiv.org/abs/2309.05203v1 )

ライセンス: Link先を確認
Yuhan Chen, Nuwa Xi, Yanrui Du, Haochun Wang, Chen Jianyu, Sendong Zhao, Bing Qin(参考訳) 分子発見は多くの科学分野の基盤となり、新しい材料や革新的な医薬品の設計を加速させた。 近年のシリカ分子発見は、分子構造を記述的アノテーションで橋渡しするクロスモーダル手法の有望な成果を浮き彫りにした。 しかし、これらのクロスモーダルメソッドは、しばしばデータ不足の問題に遭遇し、パフォーマンスとアプリケーションを妨げる。 本稿では,Large Language Models (LLM) が生成する人工現実データを活用することで,低リソースの課題に対処する。 まず,質の高い疑似データを構築するための検索に基づくプロンプト戦略を導入し,この疑似データを効果的に活用するための最適な方法を検討する。 実験によると、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドよりも優れており、モデルスケールの縮小、データサイズ削減、トレーニングコストの削減、効率の向上も必要である。 さらに,疑似データ量の増加に伴い,低リソースのクロスモーダル分子の発見において,疑似データの潜在能力が著しく向上することを示す。

Molecule discovery serves as a cornerstone in numerous scientific domains, fueling the development of new materials and innovative drug designs. Recent developments of in-silico molecule discovery have highlighted the promising results of cross-modal techniques, which bridge molecular structures with their descriptive annotations. However, these cross-modal methods frequently encounter the issue of data scarcity, hampering their performance and application. In this paper, we address the low-resource challenge by utilizing artificially-real data generated by Large Language Models (LLMs). We first introduce a retrieval-based prompting strategy to construct high-quality pseudo data, then explore the optimal method to effectively leverage this pseudo data. Experiments show that using pseudo data for domain adaptation outperforms all existing methods, while also requiring a smaller model scale, reduced data size and lower training cost, highlighting its efficiency. Furthermore, our method shows a sustained improvement as the volume of pseudo data increases, revealing the great potential of pseudo data in advancing low-resource cross-modal molecule discovery.
翻訳日:2023-09-12 13:56:09 公開日:2023-09-11
# 多変量時系列分類のためのグラフコンテクストコントラスト

Graph Contextual Contrasting for Multivariate Time Series Classification ( http://arxiv.org/abs/2309.05202v1 )

ライセンス: Link先を確認
Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen(参考訳) 自己指導型学習パラダイムとしてのコントラスト学習は,多変量時間系列(MTS)分類において人気がある。 ラベルのないサンプルの異なるビューの一貫性を確保し、これらのサンプルの効果的な表現を学ぶ。 既存のコントラスト学習法は,mtsデータの摂動に対する時間パターンの保存を目的とした,時間的拡張とコントラスト手法との時間的一貫性の実現に重点を置いている。 しかし、個々のセンサの安定性と相関性を必要とする空間的一貫性を見落としている。 MTSデータは通常、複数のセンサから得られるため、MTSデータに対するコントラスト学習の全体的なパフォーマンスに空間的整合性を確保することが不可欠である。 そこで我々は,MTSデータ間の空間的整合性を考慮したグラフコンテキストコントラスト(GCC)を提案する。 具体的には,センサの安定性と相関性を保つために,ノードとエッジの強化を含むグラフ拡張を提案し,さらに,ノードレベルとグラフレベルのコントラストとグラフの対比を行い,ロバストなセンサとグローバルレベルの特徴を抽出する。 さらに,センサ毎にデータの時間的一貫性を確保するために,マルチウィンドウの時間的コントラストを導入する。 広範な実験により,提案するgccが様々なmts分類タスクにおいて最先端の性能を実現することを実証した。

Contrastive learning, as a self-supervised learning paradigm, becomes popular for Multivariate Time-Series (MTS) classification. It ensures the consistency across different views of unlabeled samples and then learns effective representations for these samples. Existing contrastive learning methods mainly focus on achieving temporal consistency with temporal augmentation and contrasting techniques, aiming to preserve temporal patterns against perturbations for MTS data. However, they overlook spatial consistency that requires the stability of individual sensors and their correlations. As MTS data typically originate from multiple sensors, ensuring spatial consistency becomes essential for the overall performance of contrastive learning on MTS data. Thus, we propose Graph Contextual Contrasting (GCC) for spatial consistency across MTS data. Specifically, we propose graph augmentations including node and edge augmentations to preserve the stability of sensors and their correlations, followed by graph contrasting with both node- and graph-level contrasting to extract robust sensor- and global-level features. We further introduce multi-window temporal contrasting to ensure temporal consistency in the data for each sensor. Extensive experiments demonstrate that our proposed GCC achieves state-of-the-art performance on various MTS classification tasks.
翻訳日:2023-09-12 13:55:47 公開日:2023-09-11
# 自己監督型単眼深度推定におけるデータ爆発の改善に向けて

Towards Better Data Exploitation In Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2309.05254v1 )

ライセンス: Link先を確認
Jinfeng Liu, Lingtong Kong, Jie Yang, Wei Liu(参考訳) 深度推定はロボット知覚システムにおいて重要な役割を果たす。 自己教師付き単眼パラダイムは、深層アノテーションへの依存からトレーニングを解放できるため、大きな注目を集めている。 近年の進歩にもかかわらず、既存の自己監督手法は利用可能なトレーニングデータを過小に活用し、その一般化能力を制限する。 本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。 具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。 さらに,ディテール強化DepthNetにエンコーダのフルスケールブランチとグリッドデコーダを導入し,ディフュージョンマップにおけるディテールの復元を強化した。 実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。 さらに,make3dおよびnyuv2データセットへの転送時の一般化性能も向上した。 私たちのコードはhttps://github.com/sauf4896/bdedepthで利用可能です。

Depth estimation plays an important role in the robotic perception system. Self-supervised monocular paradigm has gained significant attention since it can free training from the reliance on depth annotations. Despite recent advancements, existing self-supervised methods still underutilize the available training data, limiting their generalization ability. In this paper, we take two data augmentation techniques, namely Resizing-Cropping and Splitting-Permuting, to fully exploit the potential of training datasets. Specifically, the original image and the generated two augmented images are fed into the training pipeline simultaneously and we leverage them to conduct self-distillation. Additionally, we introduce the detail-enhanced DepthNet with an extra full-scale branch in the encoder and a grid decoder to enhance the restoration of fine details in depth maps. Experimental results demonstrate our method can achieve state-of-the-art performance on the KITTI benchmark, with both raw ground truth and improved ground truth. Moreover, our models also show superior generalization performance when transferring to Make3D and NYUv2 datasets. Our codes are available at https://github.com/Sauf4896/BDEdepth.
翻訳日:2023-09-12 13:50:01 公開日:2023-09-11
# 均質空間上のランダム性と対称性の間の量子タッグ

A quantum tug of war between randomness and symmetries on homogeneous spaces ( http://arxiv.org/abs/2309.05253v1 )

ライセンス: Link先を確認
Rahul Arvind, Kishor Bharti, Jun Yong Khoo, Dax Enshan Koh, Jian Feng Kong(参考訳) 量子情報における対称性とランダム性の間の相互作用を考察する。 幾何的アプローチを採用すると、状態が群$H$によって特徴づけられる対称性変換によって関連づけられた場合、状態は$H$-等価であるとみなす。 次に、同次空間 $\mathbb{U}/H$ 上のハール測度を導入し、$H$等価系の真のランダム性を特徴づける。 私たちは、量子情報における対称性を特徴づけるために均質な空間を利用する最初の例であると信じています。 これに続いて、真のランダム性の近似に関する議論が行われ、$t$-wise独立近似と$t$-designsを$\mathbb{U}/H$および$H$-equivalent状態上で定義する。 さらに、擬似ランダム性を探求し、同次空間内の擬似ランダムユニタリと状態を定義する。 最後に,本研究の実際的な実証として,均質空間における量子機械学習 ansatze の表現可能性について検討する。 我々の研究は、量子世界のランダム性と対称性の関係に関する新たな視点を提供する。

We explore the interplay between symmetry and randomness in quantum information. Adopting a geometric approach, we consider states as $H$-equivalent if related by a symmetry transformation characterized by the group $H$. We then introduce the Haar measure on the homogeneous space $\mathbb{U}/H$, characterizing true randomness for $H$-equivalent systems. While this mathematical machinery is well-studied by mathematicians, it has seen limited application in quantum information: we believe our work to be the first instance of utilizing homogeneous spaces to characterize symmetry in quantum information. This is followed by a discussion of approximations of true randomness, commencing with $t$-wise independent approximations and defining $t$-designs on $\mathbb{U}/H$ and $H$-equivalent states. Transitioning further, we explore pseudorandomness, defining pseudorandom unitaries and states within homogeneous spaces. Finally, as a practical demonstration of our findings, we study the expressibility of quantum machine learning ansatze in homogeneous spaces. Our work provides a fresh perspective on the relationship between randomness and symmetry in the quantum world.
翻訳日:2023-09-12 13:49:40 公開日:2023-09-11
# Multi3DRefer: 複数の3Dオブジェクトへのグラウンドテキスト記述

Multi3DRefer: Grounding Text Description to Multiple 3D Objects ( http://arxiv.org/abs/2309.05251v1 )

ライセンス: Link先を確認
Yiming Zhang, ZeMing Gong, Angel X. Chang(参考訳) 自然言語記述を用いた実世界の3Dシーンにおけるフレキシブルなオブジェクトのローカライズ作業を紹介する。 既存の3dビジュアルグラウンドタスクは、テキスト記述によってユニークなオブジェクトをローカライズすることに焦点を当てている。 しかし、そのような厳密な設定は、潜在的に複数のオブジェクトをローカライズすることは、現実のシナリオやロボットタスク(例えば、ビジュアルナビゲーションやオブジェクト再構成)において共通のニーズである。 この設定に対処するため、ScanReferデータセットとタスクを一般化したMulti3DReferを提案する。 我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。 また,マルチモーダル3Dシーン理解のさらなる研究を可能にするため,先行研究から新たな評価基準とベンチマーク手法を導入する。 さらに,CLIPの2D機能を活用して,オブジェクト提案をコントラスト学習でオンラインにレンダリングすることで,ScanReferベンチマークにおける技術状況よりも優れたベースラインを構築する。

We introduce the task of localizing a flexible number of objects in real-world 3D scenes using natural language descriptions. Existing 3D visual grounding tasks focus on localizing a unique object given a text description. However, such a strict setting is unnatural as localizing potentially multiple objects is a common need in real-world scenarios and robotic tasks (e.g., visual navigation and object rearrangement). To address this setting we propose Multi3DRefer, generalizing the ScanRefer dataset and task. Our dataset contains 61926 descriptions of 11609 objects, where zero, single or multiple target objects are referenced by each description. We also introduce a new evaluation metric and benchmark methods from prior work to enable further investigation of multi-modal 3D scene understanding. Furthermore, we develop a better baseline leveraging 2D features from CLIP by rendering object proposals online with contrastive learning, which outperforms the state of the art on the ScanRefer benchmark.
翻訳日:2023-09-12 13:49:19 公開日:2023-09-11
# 高調波一次元量子滴の基底状態特性とボゴリューボフモード

Ground-state Properties and Bogoliubov Modes of a Harmonically Trapped One-Dimensional Quantum Droplet ( http://arxiv.org/abs/2309.05245v1 )

ライセンス: Link先を確認
Xucong Du, Yifan Fei, Xiao-Long Chen, and Yunbo Zhang(参考訳) ハーモニックポテンシャルに閉じ込められた2成分ボース混合系における1次元量子滴の定常および励起特性について検討した。 不均質混合のエネルギー汎関数を構成することにより、対称および非対称の混合に適用されるグロス・ピタエフスキー方程式を普遍的な形式に拡張し、2つの異なる次元のないスキームの方程式は双対関係にある。 捕捉液滴のボゴリューボフ方程式は, 基底状態付近の微小密度変動を線形に算出し, 低濃度励振モードを数値的に算出し, 凝縮トラップは大きな液滴の平板構造を容易に変化し, 平均2乗半径と化学ポテンシャルを集中的に変化させることがわかった。 閉じ込められた液滴の呼吸モードは、その間に横たわる大きな粒子数に対して、弱相互作用するボース凝縮物中の励起と、自己結合性および理想的ガス限界を接続する。 励起の連続スペクトルが離散モードにどのように分割され、最終的にハーモニックトラップに取って代わられるかを明示的に示す。 2つの臨界粒子数は、捕捉された液滴の最小サイズと最大呼吸モードエネルギーによって同定され、どちらもトラップパラメータで指数関数的に減少する。

We study the stationary and excitation properties of a one-dimensional quantum droplet in the two-component Bose mixture trapped in a harmonic potential. By constructing the energy functional for the inhomogeneous mixture, we elaborate the extended the Gross-Pitaevskii equation applicable to both symmetric and asymmetric mixtures into a universal form, and the equations in two different dimensionless schemes are in a duality relation, i.e. the unique parameters left are inverse of each other. The Bogoliubov equations for the trapped droplet are obtained by linearizing the small density fluctuation around the ground state and the low-lying excitation modes are calculated numerically.It is found that the confinement trap changes easily the flat-top structure for large droplets and alters the mean square radius and the chemical potential intensively. The breathing mode of the confined droplet connects the self-bound and ideal gas limits, with the excitation in the weakly interacting Bose condensate for large particle numbers lying in between. We explicitly show how the continuum spectrum of the excitation is split into discrete modes, and finally taken over by the harmonic trap. Two critical particle numbers are identified by the minimum size of the trapped droplet and the maximum breathing mode energy, both of which are found to decrease exponentially with the trapping parameter.
翻訳日:2023-09-12 13:49:00 公開日:2023-09-11
# hat: 画像復元のためのハイブリッドアテンショントランスフォーマー

HAT: Hybrid Attention Transformer for Image Restoration ( http://arxiv.org/abs/2309.05239v1 )

ライセンス: Link先を確認
Xiangyu Chen, Xintao Wang, Wenlong Zhang, Xiangtao Kong, Yu Qiao, Jiantao Zhou, and Chao Dong(参考訳) トランスフォーマーベースの手法は、画像のスーパーレゾリューションやデノイジングなどの画像復元タスクにおいて素晴らしい性能を示している。 しかし,これらのネットワークは帰属分析により,限られた空間範囲の入力情報しか利用できないことがわかった。 これは、Transformerのポテンシャルが既存のネットワークで完全に活用されていないことを意味する。 より多くの入力画素を活性化し,復元性を向上させるために,新しいハイブリッドアテンショントランス(hat)を提案する。 チャネルアテンションとウィンドウベースの自己アテンションスキームを組み合わせて、補完的なアドバンテージを利用する。 さらに,クロスウィンドウ情報をよりよく集約するために,隣接するウィンドウ特徴間の相互作用を強化するために,重なり合うクロスアテンションモジュールを導入する。 トレーニング段階では、さらに改善のためにモデルのポテンシャルをさらに活用するために、同じタスク事前学習戦略も採用しています。 広範な実験により,提案モジュールの有効性が実証された。 さらに、SRタスクの性能を大幅に改善できることを示すため、モデルをさらにスケールアップする。 さらに,HATを,現実画像の超解像,ガウス画像の復調,画像圧縮アーティファクトの低減など,より多くの画像復元アプリケーションに拡張する。 ベンチマークと実世界のデータセットを用いた実験により、HATは定量的かつ定性的に最先端のパフォーマンスを達成することが示された。 コードとモデルはhttps://github.com/XPixelGroup/HAT.comで公開されている。

Transformer-based methods have shown impressive performance in image restoration tasks, such as image super-resolution and denoising. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for better restoration, we propose a new Hybrid Attention Transformer (HAT). It combines both channel attention and window-based self-attention schemes, thus making use of their complementary advantages. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally adopt a same-task pre-training strategy to further exploit the potential of the model for further improvement. Extensive experiments have demonstrated the effectiveness of the proposed modules. We further scale up the model to show that the performance of the SR task can be greatly improved. Besides, we extend HAT to more image restoration applications, including real-world image super-resolution, Gaussian image denoising and image compression artifacts reduction. Experiments on benchmark and real-world datasets demonstrate that our HAT achieves state-of-the-art performance both quantitatively and qualitatively. Codes and models are publicly available at https://github.com/XPixelGroup/HAT.
翻訳日:2023-09-12 13:48:33 公開日:2023-09-11
# より効果的な体系的レビューのための自然言語クエリの生成

Generating Natural Language Queries for More Effective Systematic Review Screening Prioritisation ( http://arxiv.org/abs/2309.05238v1 )

ライセンス: Link先を確認
Shuai Wang, Harrisen Scells, Martin Potthast, Bevan Koopman, Guido Zuccon(参考訳) 医学的体系的レビューにおける優先順位付けは、複雑なブールクエリによって検索された文書の集合をランク付けすることを目的としている。 目標は、最も重要なドキュメントを優先順位付けし、その後のレビューステップをより効率的に実行できるようにすることです。 現在の最先端は、bertベースのニューラルランカを使用してドキュメントをランク付けするために、レビューの最終タイトルを使用する。 しかし、最終タイトルはレビュープロセスの終了時にのみ定式化されるため、このアプローチはポストファクト情報に依存しているため、現実的ではない。 スクリーニングの時点では、BERTベースのランキングが達成する粗悪なタイトルのみが利用可能であり、最終タイトルよりもはるかに悪い。 本稿では,文書集合の検索に使用されるbooleanクエリや,chatgptやalpacaなどの命令ベース生成型大規模言語モデルによって生成されたクエリなど,優先順位付けをスクリーニングするためのクエリの代替源について検討する。 我々の最善のアプローチは、スクリーニング時に得られる情報に基づいて実用的であるだけでなく、最終タイトルと同等の効果を持つ。

Screening prioritisation in medical systematic reviews aims to rank the set of documents retrieved by complex Boolean queries. The goal is to prioritise the most important documents so that subsequent review steps can be carried out more efficiently and effectively. The current state of the art uses the final title of the review to rank documents using BERT-based neural neural rankers. However, the final title is only formulated at the end of the review process, which makes this approach impractical as it relies on ex post facto information. At the time of screening, only a rough working title is available, with which the BERT-based ranker achieves is significantly worse than the final title. In this paper, we explore alternative sources of queries for screening prioritisation, such as the Boolean query used to retrieve the set of documents to be screened, and queries generated by instruction-based generative large language models such as ChatGPT and Alpaca. Our best approach is not only practical based on the information available at screening time, but is similar in effectiveness with the final title.
翻訳日:2023-09-12 13:48:06 公開日:2023-09-11
# 単一フィルタbiphoton周波数コムにおける高次元時間周波数絡み合い

High-dimensional time-frequency entanglement in a singly-filtered biphoton frequency comb ( http://arxiv.org/abs/2309.05234v1 )

ライセンス: Link先を確認
Xiang Cheng, Kai-Chi Chang, Murat Can Sarihan, Andrew Mueller, Maria Spiropulu, Matthew D. Shaw, Boris Korzh, Andrei Faraon, Franco N. C. Wong, Jeffrey H. Shapiro, and Chee Wei Wong(参考訳) 高次元量子絡み合いは、大規模ノイズ耐性量子システム、フォールトトレラント量子コンピューティング、分散量子ネットワークを実現する高度な技術の基礎である。 最近開発されたbiphoton frequency comb(bfc)は、スペクトルおよび時間的量子モードにおける高次元量子情報処理のための強力なプラットフォームを提供する。 本稿では,Fabry-Perotキャビティを用いた信号光子のみをスペクトル形成することにより,自発的なパラメトリックダウンコンバージョンによる高次元BFCを提案する。 フランソン干渉再帰と低ジッタ検出器との時間相関により高次元エネルギー時間絡みを検証した。 単一フィルタBFCの周波数および時間的絡み合いをシュミットモード分解により定量化する。 その後,10km繊維リンク上に高次元単層フィルタBFC状態を分布させ,分布後の時間-ビン次元を少なくとも168以下とした。 高次元エンタングルメントとエンタングルメント分布の実証は、高効率量子情報処理と高容量量子ネットワークのための単一フィルタ量子周波数コムの能力を示している。

High-dimensional quantum entanglement is a cornerstone for advanced technology enabling large-scale noise-tolerant quantum systems, fault-tolerant quantum computing, and distributed quantum networks. The recently developed biphoton frequency comb (BFC) provides a powerful platform for high-dimensional quantum information processing in its spectral and temporal quantum modes. Here we propose and generate a singly-filtered high-dimensional BFC via spontaneous parametric down-conversion by spectrally shaping only the signal photons with a Fabry-Perot cavity. High-dimensional energy-time entanglement is verified through Franson-interference recurrences and temporal correlation with low-jitter detectors. Frequency- and temporal- entanglement of our singly-filtered BFC is then quantified by Schmidt mode decomposition. Subsequently, we distribute the high-dimensional singly-filtered BFC state over a 10 km fiber link with a post-distribution time-bin dimension lower bounded to be at least 168. Our demonstrations of high-dimensional entanglement and entanglement distribution show the capability of the singly-filtered quantum frequency comb for high-efficiency quantum information processing and high-capacity quantum networks.
翻訳日:2023-09-12 13:47:47 公開日:2023-09-11
# プロンプト学習による自然言語バイアスの検出

Detecting Natural Language Biases with Prompt-based Learning ( http://arxiv.org/abs/2309.05227v1 )

ライセンス: Link先を確認
Md Abdul Aowal, Maliha T Islam, Priyanka Mary Mammen, Sandesh Shetty(参考訳) このプロジェクトでは,新たに出現するプロンプトエンジニアリングの分野を探求し,lmバイアス検出の下流タスクに適用したい。 より具体的には、(1)性別、(2)人種、(3)性的指向、(4)宗教に基づく4種類の偏見を示すプロンプトを設計する方法を検討する。 私たちのプロジェクトでは、言語モデルに現れる微妙なバイアスを引き出すための、さまざまな手作業によるプロンプトを試しています。 これらのプロンプトを、BERT、RoBERTa、T5といった人気モデルに応用し、バイアスを評価する。 モデル予測が偏っているかどうかを人間の判断を用いて判断し、モデルレベルの判断を(さらなるプロンプトを通じて)活用し、モデルが自身の予測の偏りを自己診断できるかどうかを理解する。

In this project, we want to explore the newly emerging field of prompt engineering and apply it to the downstream task of detecting LM biases. More concretely, we explore how to design prompts that can indicate 4 different types of biases: (1) gender, (2) race, (3) sexual orientation, and (4) religion-based. Within our project, we experiment with different manually crafted prompts that can draw out the subtle biases that may be present in the language model. We apply these prompts to multiple variations of popular and well-recognized models: BERT, RoBERTa, and T5 to evaluate their biases. We provide a comparative analysis of these models and assess them using a two-fold method: use human judgment to decide whether model predictions are biased and utilize model-level judgment (through further prompts) to understand if a model can self-diagnose the biases of its own prediction.
翻訳日:2023-09-12 13:47:30 公開日:2023-09-11
# SparseSwin: スパース変圧器ブロック付きスイニング変圧器

SparseSwin: Swin Transformer with Sparse Transformer Block ( http://arxiv.org/abs/2309.05224v1 )

ライセンス: Link先を確認
Krisna Pinasthika, Blessius Sheldo Putra Laksono, Riyandi Banovbi Putera Irsal, Syifa Hukma Shabiyya, Novanto Yudistira(参考訳) コンピュータビジョン研究の進歩は、トランスフォーマーアーキテクチャをコンピュータビジョンタスクの最先端技術として位置づけている。 トランスフォーマーアーキテクチャの既知の欠点の1つはパラメータの多さであり、これはより複雑で非効率なアルゴリズムにつながる可能性がある。 本稿では, パラメータ数を削減し, 変圧器の効率を向上させることを目的とする。 Sparse Transformer (SparTa) Block(Sparse Transformer, SparTa)は, 使用トークン数を削減したスパーストークンコンバータを付加した改良型トランスブロックである。 Swin Tアーキテクチャ(SparseSwin)内のSparTaブロックを使用して、Swarnの機能を活用して入力をダウンサンプルし、計算する初期トークンの数を削減します。 提案されたSparseSwinモデルは、イメージNet100、CIFAR10、CIFAR100データセットでそれぞれ86.96%、97.43%、85.35%の精度で、画像分類における他の技術モデルよりも優れている。 パラメータは少ないが、この結果はトランスフォーマーの使用を最適化し、パフォーマンスを向上させるために、限られた数のトークンを持つスパーストークンコンバータを使用したトランスフォーマーアーキテクチャの可能性を強調している。

Advancements in computer vision research have put transformer architecture as the state of the art in computer vision tasks. One of the known drawbacks of the transformer architecture is the high number of parameters, this can lead to a more complex and inefficient algorithm. This paper aims to reduce the number of parameters and in turn, made the transformer more efficient. We present Sparse Transformer (SparTa) Block, a modified transformer block with an addition of a sparse token converter that reduces the number of tokens used. We use the SparTa Block inside the Swin T architecture (SparseSwin) to leverage Swin capability to downsample its input and reduce the number of initial tokens to be calculated. The proposed SparseSwin model outperforms other state of the art models in image classification with an accuracy of 86.96%, 97.43%, and 85.35% on the ImageNet100, CIFAR10, and CIFAR100 datasets respectively. Despite its fewer parameters, the result highlights the potential of a transformer architecture using a sparse token converter with a limited number of tokens to optimize the use of the transformer and improve its performance.
翻訳日:2023-09-12 13:47:13 公開日:2023-09-11
# カラーコードに基づく実用的フォールトトレラント量子コンピューティング

Facilitating Practical Fault-tolerant Quantum Computing Based on Color Codes ( http://arxiv.org/abs/2309.05222v1 )

ライセンス: Link先を確認
Jiaxuan Zhang, Yu-Chun Wu and Guo-Ping Guo(参考訳) カラーコードはフォールトトレラント量子コンピューティングにとって有望なトポロジカルコードである。 カラーコードに関する不十分な研究は、その実用化を遅らせた。 本研究では,カラーコードに基づく実用的フォールトトレラント量子コンピューティングを実現するために,いくつかの重要な課題を解決する。 まず,誤り率関連重み付き復号グラフを導入することで,標準回路レベルのノイズモデルにおける三角形色コードの閾値を0.47\%$に改善し,表面符号とのギャップを狭める。 次に,2次元アーキテクチャを持つ量子コンピュータにおいて論理演算を行う上で重要なカラーコード格子手術の回路レベル復号戦略について検討する。 最後に、三角カラーコードの状態注入プロトコルを提案し、CSSコードの他の状態注入プロトコルと比較して最適な論理誤差率を提供し、マジック状態蒸留の効率を高めるのに有用である。

Color code is a promising topological code for fault-tolerant quantum computing. Insufficient research on color code has delayed its practical application. In this work, we address several key issues to facilitate practical fault-tolerant quantum computing based on color codes. First, by introducing decoding graphs with error-rate-related weights, we improve the threshold of the triangular color code under the standard circuit-level noise model to $0.47\%$, narrowing the gap to that of the surface code. Second, we investigate the circuit-level decoding strategy of color code lattice surgery, which is crucial for performing logical operations in a quantum computer with two-dimensional architecture. Lastly, the state injection protocol of triangular color code is proposed, offering an optimal logical error rate compared to any other state injection protocol of the CSS code, which is beneficial for increasing the efficiency of magic state distillation.
翻訳日:2023-09-12 13:46:53 公開日:2023-09-11
# UniKG: 大規模知識グラフのためのベンチマークとユニバーサル埋め込み

UniKG: A Benchmark and Universal Embedding for Large-Scale Knowledge Graphs ( http://arxiv.org/abs/2309.05269v1 )

ライセンス: Link先を確認
Yide Qiu, Shaoxiang Ling, Tong Zhang, Bo Huang, Zhen Cui(参考訳) 実世界の不規則データは、通常、複数の種類のノードとエッジからなる異種グラフ(HG)として構成される。 実世界のデータから有用な知識を探求するためには、大規模な百科事典HGデータセットとそれに対応する効果的な学習方法の両方が重要であるが、十分に研究されていない。 本稿では,知識マイニングと異種グラフ表現学習を容易にするため,WikidataからUniKGという大規模HGベンチマークデータセットを構築した。 全体として、UniKGには7700万以上のマルチ属性エンティティと2000の多様なアソシエーションタイプが含まれており、既存のHGデータセットの規模を大きく上回っている。 大規模UniKGを効果的に学習するためには,2つの重要な対策が講じられる。 (i)多属性ノードの特徴記述を共通埋め込み空間に投影し、大きな受容領域におけるノードの集約を容易にする多属性エンティティのセマンティックアライメント戦略 (II) マルチホップ異方性伝播カーネルを学習するために, 新規なプラグアンドプレイ異方性伝搬モジュール(APM)を提案し, 大規模等質グラフの手法を異質グラフに拡張した。 これらの2つの戦略は,大規模HGにおけるマルチホップアグリゲーションを通じて,膨大な数のマルチアトリビュートエンティティ間の効率的な情報伝達を可能にし,その間に多アトリビュートアソシエーションを適応的にマイニングする。 我々は,UniKGデータセット上にノード分類タスクを設定し,APMを大規模同種グラフ学習手法に組み込んで構築した複数のベースライン手法を評価する。 UniKGデータセットとベースラインコードはhttps://github.com/Yide-Qiu/UniKGでリリースされています。

Irregular data in real-world are usually organized as heterogeneous graphs (HGs) consisting of multiple types of nodes and edges. To explore useful knowledge from real-world data, both the large-scale encyclopedic HG datasets and corresponding effective learning methods are crucial, but haven't been well investigated. In this paper, we construct a large-scale HG benchmark dataset named UniKG from Wikidata to facilitate knowledge mining and heterogeneous graph representation learning. Overall, UniKG contains more than 77 million multi-attribute entities and 2000 diverse association types, which significantly surpasses the scale of existing HG datasets. To perform effective learning on the large-scale UniKG, two key measures are taken, including (i) the semantic alignment strategy for multi-attribute entities, which projects the feature description of multi-attribute nodes into a common embedding space to facilitate node aggregation in a large receptive field; (ii) proposing a novel plug-and-play anisotropy propagation module (APM) to learn effective multi-hop anisotropy propagation kernels, which extends methods of large-scale homogeneous graphs to heterogeneous graphs. These two strategies enable efficient information propagation among a tremendous number of multi-attribute entities and meantimes adaptively mine multi-attribute association through the multi-hop aggregation in large-scale HGs. We set up a node classification task on our UniKG dataset, and evaluate multiple baseline methods which are constructed by embedding our APM into large-scale homogenous graph learning methods. Our UniKG dataset and the baseline codes have been released at https://github.com/Yide-Qiu/UniKG.
翻訳日:2023-09-12 13:39:47 公開日:2023-09-11
# 超暗黒環境における高忠実度超解法のための二重変調フレームワーク

Diving into Darkness: A Dual-Modulated Framework for High-Fidelity Super-Resolution in Ultra-Dark Environments ( http://arxiv.org/abs/2309.05267v1 )

ライセンス: Link先を確認
Jiaxin Gao, Ziyu Yue, Yaohua Liu, Sihan Xie, Xin Fan, Risheng Liu(参考訳) 超暗黒環境で撮影された画像に指向した超解像タスクは、実用的で挑戦的な問題であり、ほとんど注目されていない。 暗黒環境における照度の不均一さと信号対雑音比の低さにより、ディテールの欠如や色歪みなどの様々な問題が、通常の照明環境と比較して超高分解能過程において拡大される可能性がある。 そのため、従来の低照度増強法や超解像法は、個別に、あるいはカスケード的に適用しても、輝度の回復、色忠実性、複雑な詳細に制限があることが多い。 これらの課題を克服するため,本稿では,低光度超解像タスクの性質を深く解明する試みを初めて行う,デュアルモーダル学習フレームワークを提案する。 自然画像の色彩特性を生かして、不均一な照明に先行する自己規則化輝度制約を導入する。 そこで我々は,照度と色調の高次保存を実現するために,ISDM (Illuminance-Semantic Dual Modulation) コンポーネントを開発した。 さらに,単純なアップサンプリング戦略を展開する代わりに,異なるサンプリングモードを基板として結合し,アーティファクトとhalosの存在を効果的に緩和する,解像度に敏感なup-sampler(rsmu)モジュールを設計した。 包括的実験により,超低光度条件の多様かつ挑戦的な手法の適用可能性と一般化性が示され,顕著な改善(psnrでは$\uparrow$5\%,lpipsでは$\uparrow$43\%)が得られた。 特に注目すべきは、RMSEスコアの19倍の増加であり、異なる暗黒レベルにわたる我々の方法の例外的な一般化を裏付けている。 コードは論文の発行時にオンラインで入手できる。

Super-resolution tasks oriented to images captured in ultra-dark environments is a practical yet challenging problem that has received little attention. Due to uneven illumination and low signal-to-noise ratio in dark environments, a multitude of problems such as lack of detail and color distortion may be magnified in the super-resolution process compared to normal-lighting environments. Consequently, conventional low-light enhancement or super-resolution methods, whether applied individually or in a cascaded manner for such problem, often encounter limitations in recovering luminance, color fidelity, and intricate details. To conquer these issues, this paper proposes a specialized dual-modulated learning framework that, for the first time, attempts to deeply dissect the nature of the low-light super-resolution task. Leveraging natural image color characteristics, we introduce a self-regularized luminance constraint as a prior for addressing uneven lighting. Expanding on this, we develop Illuminance-Semantic Dual Modulation (ISDM) components to enhance feature-level preservation of illumination and color details. Besides, instead of deploying naive up-sampling strategies, we design the Resolution-Sensitive Merging Up-sampler (RSMU) module that brings together different sampling modalities as substrates, effectively mitigating the presence of artifacts and halos. Comprehensive experiments showcases the applicability and generalizability of our approach to diverse and challenging ultra-low-light conditions, outperforming state-of-the-art methods with a notable improvement (i.e., $\uparrow$5\% in PSNR, and $\uparrow$43\% in LPIPS). Especially noteworthy is the 19-fold increase in the RMSE score, underscoring our method's exceptional generalization across different darkness levels. The code will be available online upon publication of the paper.
翻訳日:2023-09-12 13:39:15 公開日:2023-09-11
# 条件付き独立推論による因果探索アルゴリズムのランタイム検証(拡張版)

Enabling Runtime Verification of Causal Discovery Algorithms with Automated Conditional Independence Reasoning (Extended Version) ( http://arxiv.org/abs/2309.05264v1 )

ライセンス: Link先を確認
Pingchuan Ma, Zhenlan Ji, Peisen Yao, Shuai Wang, Kui Ren(参考訳) 因果発見は、データ中の変数間の因果関係を特定するための強力な技術である。 ソフトウェア工学における様々な応用で広く使われている。 因果発見は、条件独立(CI)テストを含む。 したがって、その出力品質はCIテストのパフォーマンスに大きく依存する。 さらに、過剰なCIテストの実行時にプライバシー上の懸念が発生する。 信頼性の低いCIテストと過剰なCIテストの間には明確な性質があるにもかかわらず、この論文は両者に対処するための統一的で原則化されたアプローチを特定します。 一般的に、CIテストのアウトプットであるCIステートメントは、条件付き独立性の確立された整合性制約のセットであるPearlの公理に従う。 したがって、パールの公理に違反した場合や、パールの公理に論理的に関係している場合は過剰なCI文を検出することができる。 理論的には、どちらの問題も、パールの公理の下でCIステートメントの整合性(CIR問題と呼ばれる)を推論するものである。 信頼性とプライバシの観点から因果発見アルゴリズムの強化を目的とした,CICheckと呼ばれる実行時検証ツールを提案する。 CICheckは、CIRをSMT問題に変換する健全で決定可能な符号化方式を採用している。 CIR問題を効率的に解くために、CICheckは3つの軽量な最適化による4段階決定手順を導入し、一貫性を積極的に証明または否定し、必要であれば高価なSMTベースの推論に頼る。 cirの決定手順に基づいて、cicheckには、(信頼性を高めるために)誤ったciテストを検出するed-cicheckと、(プライバシを高めるために)過度なciテストを検出するed-cicheckの2つの変種が含まれている。 【長さ制限による短縮】

Causal discovery is a powerful technique for identifying causal relationships among variables in data. It has been widely used in various applications in software engineering. Causal discovery extensively involves conditional independence (CI) tests. Hence, its output quality highly depends on the performance of CI tests, which can often be unreliable in practice. Moreover, privacy concerns arise when excessive CI tests are performed. Despite the distinct nature between unreliable and excessive CI tests, this paper identifies a unified and principled approach to addressing both of them. Generally, CI statements, the outputs of CI tests, adhere to Pearl's axioms, which are a set of well-established integrity constraints on conditional independence. Hence, we can either detect erroneous CI statements if they violate Pearl's axioms or prune excessive CI statements if they are logically entailed by Pearl's axioms. Holistically, both problems boil down to reasoning about the consistency of CI statements under Pearl's axioms (referred to as CIR problem). We propose a runtime verification tool called CICheck, designed to harden causal discovery algorithms from reliability and privacy perspectives. CICheck employs a sound and decidable encoding scheme that translates CIR into SMT problems. To solve the CIR problem efficiently, CICheck introduces a four-stage decision procedure with three lightweight optimizations that actively prove or refute consistency, and only resort to costly SMT-based reasoning when necessary. Based on the decision procedure to CIR, CICheck includes two variants: ED-CICheck and ED-CICheck, which detect erroneous CI tests (to enhance reliability) and prune excessive CI tests (to enhance privacy), respectively. [abridged due to length limit]
翻訳日:2023-09-12 13:38:40 公開日:2023-09-11
# スパイクニューラルネットワークのための脳にインスパイアされた進化的アーキテクチャ

Brain-inspired Evolutionary Architectures for Spiking Neural Networks ( http://arxiv.org/abs/2309.05263v1 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Zhuoya Zhao, Yi Zeng(参考訳) 自然進化によって形成される人間の脳の複雑でユニークな神経ネットワークトポロジーは、同時に複数の認知機能を実行することができる。 生体ネットワーク構造の自動進化機構は、スパイクニューラルネットワーク(snn)の効率的なアーキテクチャ最適化を探求するきっかけとなる。 手動で設計した固定アーキテクチャや階層型ネットワークアーキテクチャ検索(NAS)の代わりに、脳にインスパイアされたローカルなモジュール構造とグローバルなクロスモジュール接続を組み込むことで、SNNアーキテクチャを進化させる。 局所的には、脳領域にインスパイアされたモジュールは、興奮的および抑制的な接続を持つ複数の神経モチーフから構成される;グローバル的には、長期のクロスモジュールフィードフォワードやフィードバック接続を含むモジュール間の自由接続を進化させる。 さらに,高性能,効率,消費電力の少ないSNNを用いた,数ショットの性能予測器に基づく効率的な多目的進化アルゴリズムを提案する。 静的データセット (CIFAR10, CIFAR100) とニューロモルフィックデータセット (CIFAR10-DVS, DVS128-Gesture) に関する大規模な実験により, 提案モデルがエネルギー効率を向上し, 一貫性と顕著な性能を実証した。 この研究は、SNNに適した脳にインスパイアされた神経アーキテクチャを探求するとともに、人間の脳における生物学的ニューラルネットワークの進化機構に関する予備的な洞察を提供する。

The complex and unique neural network topology of the human brain formed through natural evolution enables it to perform multiple cognitive functions simultaneously. Automated evolutionary mechanisms of biological network structure inspire us to explore efficient architectural optimization for Spiking Neural Networks (SNNs). Instead of manually designed fixed architectures or hierarchical Network Architecture Search (NAS), this paper evolves SNNs architecture by incorporating brain-inspired local modular structure and global cross-module connectivity. Locally, the brain region-inspired module consists of multiple neural motifs with excitatory and inhibitory connections; Globally, we evolve free connections among modules, including long-term cross-module feedforward and feedback connections. We further introduce an efficient multi-objective evolutionary algorithm based on a few-shot performance predictor, endowing SNNs with high performance, efficiency and low energy consumption. Extensive experiments on static datasets (CIFAR10, CIFAR100) and neuromorphic datasets (CIFAR10-DVS, DVS128-Gesture) demonstrate that our proposed model boosts energy efficiency, archiving consistent and remarkable performance. This work explores brain-inspired neural architectures suitable for SNNs and also provides preliminary insights into the evolutionary mechanisms of biological neural networks in the human brain.
翻訳日:2023-09-12 13:38:10 公開日:2023-09-11
# 自律航法実験の合理化のための水平線アノテーションツール

A horizon line annotation tool for streamlining autonomous sea navigation experiments ( http://arxiv.org/abs/2309.05262v1 )

ライセンス: Link先を確認
Yassir Zardoua, Abdelhamid El Wahabi, Mohammed Boulaala, Abdelali Astito(参考訳) 地平線(英: horizon line, または sea line)検出(hld)は、航海領域(すなわち海)の特定、障害物の検出と地理的局所化、デジタルビデオの安定化など、複数の海洋自律航行タスクにおいて重要な要素である。 最近の調査では、これらの検出器のいくつかの弱点、特にhld研究者が現在使用している最も広範なデータセットに欠ける海の状態が浮き彫りになっている。 より堅牢なHLDの実験的検証には、これらの海洋条件が欠如している広いセットを収集し、各画像に水平線の位置と向きを正しくアノテートすることが含まれる。 アノテーションタスクは、適切なツールなしで厄介です。 そこで本研究では,シーラインアノテーション処理を迅速かつ容易にするための機能付き公開アノテーションソフトウェアを提案する。 https://drive.google.com/drive/folders/1c0ZmvYDckuQCPIWfh_70P7E1A_DWlIvF? usp=共有

Horizon line (or sea line) detection (HLD) is a critical component in multiple marine autonomous navigation tasks, such as identifying the navigation area (i.e., the sea), obstacle detection and geo-localization, and digital video stabilization. A recent survey highlighted several weaknesses of such detectors, particularly on sea conditions lacking from the most extensive dataset currently used by HLD researchers. Experimental validation of more robust HLDs involves collecting an extensive set of these lacking sea conditions and annotating each collected image with the correct position and orientation of the horizon line. The annotation task is daunting without a proper tool. Therefore, we present the first public annotation software with tailored features to make the sea line annotation process fast and easy. The software is available at: https://drive.google.com/drive/folders/1c0ZmvYDckuQCPIWfh_70P7E1A_DWlIvF?usp=sharing
翻訳日:2023-09-12 13:37:44 公開日:2023-09-11
# 画像レベルラベルのみを用いたus画像からの胆嚢癌検出

Gall Bladder Cancer Detection from US Images with Only Image Level Labels ( http://arxiv.org/abs/2309.05261v1 )

ライセンス: Link先を確認
Soumen Basu, Ashish Papanai, Mayank Gupta, Pankaj Gupta, Chetan Arora(参考訳) 超音波(US)画像からの胆嚢癌(GBC)の自動検出は重要な問題であり、研究者の関心が高まっている。 しかし、これらの作品の多くは、バウンディングボックスアノテーションや追加のUSビデオなどの入手困難な情報を使っている。 本稿では,画像レベルラベルのみを用いたgbc検出に注目する。 このようなアノテーションは通常、患者の診断レポートに基づいて利用可能であり、医師からの追加のアノテーションは不要である。 しかし,本解析により,gbc検出のための標準画像分類モデルの訓練が困難であることが判明した。 これは、低いクラス間分散(通常、悪性領域は米国の画像のごく一部しか占めていない)、高いクラス内分散(アメリカのセンサーが3Dオブジェクトの2Dスライスをキャプチャしたため、大きな視点の変化につながる)、低いトレーニングデータ可用性による。 画像レベルのラベルしか持たない場合でも、オブジェクト検出(バウンディングボックス出力)として問題を定式化することは、ディープニューラルネットワーク(DNN)モデルが関心のある領域にフォーカスするのに役立つと仮定する。 トレーニングにはバウンディングボックスアノテーションが利用できないため、弱い教師付きオブジェクト検出(WSOD)として問題を提起する。 オブジェクト検出におけるトランスフォーマーモデルの成功により、WSODタスクに適した自己教師型インスタンス選択を備えたマルチインスタンス学習(MIL)を用いて、そのようなモデルであるDETRをトレーニングする。 提案手法は,SOTAトランスおよびCNNベースのWSOD法に対して,APと検出感度の改善を示す。 プロジェクトページはhttps://gbc-iitd.github.io/wsod-gbc

Automated detection of Gallbladder Cancer (GBC) from Ultrasound (US) images is an important problem, which has drawn increased interest from researchers. However, most of these works use difficult-to-acquire information such as bounding box annotations or additional US videos. In this paper, we focus on GBC detection using only image-level labels. Such annotation is usually available based on the diagnostic report of a patient, and do not require additional annotation effort from the physicians. However, our analysis reveals that it is difficult to train a standard image classification model for GBC detection. This is due to the low inter-class variance (a malignant region usually occupies only a small portion of a US image), high intra-class variance (due to the US sensor capturing a 2D slice of a 3D object leading to large viewpoint variations), and low training data availability. We posit that even when we have only the image level label, still formulating the problem as object detection (with bounding box output) helps a deep neural network (DNN) model focus on the relevant region of interest. Since no bounding box annotations is available for training, we pose the problem as weakly supervised object detection (WSOD). Motivated by the recent success of transformer models in object detection, we train one such model, DETR, using multi-instance-learning (MIL) with self-supervised instance selection to suit the WSOD task. Our proposed method demonstrates an improvement of AP and detection sensitivity over the SOTA transformer-based and CNN-based WSOD methods. Project page is at https://gbc-iitd.github.io/wsod-gbc
翻訳日:2023-09-12 13:37:26 公開日:2023-09-11
# 一般化グラフオンプロセス:ストレッチカット距離におけるグラフ周波数の収束

Generalized Graphon Process: Convergence of Graph Frequencies in Stretched Cut Distance ( http://arxiv.org/abs/2309.05260v1 )

ライセンス: Link先を確認
Xingchao Jian, Feng Ji, Wee Peng Tay(参考訳) グラフは伝統的に高密度グラフ列の極限対象として機能し、カット距離は収束の計量として機能している。 しかし、切断距離の定義の下ではスパースグラフ列は自明なグラフオンに収束し、多くの実用用途においてこの枠組みは不十分である。 本稿では,一般化グラフと拡張カット距離の概念を用いて,スパースグラフ列の収束を記述する。 具体的には、一般化されたグラフから生成されるランダムグラフプロセスを考える。 このランダムグラフ過程は拡大カット距離で一般化されたグラトンに収束する。 このランダムグラフプロセスを用いて、増大するスパースグラフをモデル化し、隣接行列の固有値の収束を証明する。 我々は実験的な検証でその結果を補足する。 その結果,スパースグラフ間の移動学習の可能性が示唆された。

Graphons have traditionally served as limit objects for dense graph sequences, with the cut distance serving as the metric for convergence. However, sparse graph sequences converge to the trivial graphon under the conventional definition of cut distance, which make this framework inadequate for many practical applications. In this paper, we utilize the concepts of generalized graphons and stretched cut distance to describe the convergence of sparse graph sequences. Specifically, we consider a random graph process generated from a generalized graphon. This random graph process converges to the generalized graphon in stretched cut distance. We use this random graph process to model the growing sparse graph, and prove the convergence of the adjacency matrices' eigenvalues. We supplement our findings with experimental validation. Our results indicate the possibility of transfer learning between sparse graphs.
翻訳日:2023-09-12 13:36:57 公開日:2023-09-11
# 物理インフォームド・アテンションに基づく地域電気自動車充電需要予測のためのグラフ学習手法

A physics-informed and attention-based graph learning approach for regional electric vehicle charging demand prediction ( http://arxiv.org/abs/2309.05259v1 )

ライセンス: Link先を確認
Haohao Qu, Haoxuan Kuang, Jun Li, Linlin You(参考訳) 電気自動車(EV)の普及に伴い、EV充電スペースの使用を最適化することで、インテリジェントな輸送システムへの負荷の増大を大幅に軽減することができる。 このような最適化を実現する基盤として,都市部におけるEV充電需要予測のための時空間的手法が必要である。 データ駆動型ディープラーニング手法によっていくつかの解決策が提案されているが、これらのパフォーマンス指向手法は、課金要求と価格の逆関係を正しく扱うために誤解に苦しむ可能性がある。 本稿では,特徴抽出のためのグラフと時間的注意機構の統合と,知識伝達のためのモデル事前学習ステップにおける物理インフォームドメタラーニングの利用を可能にする新しいアプローチを提案する。 中国深センの18,013台のEV充電杭のデータセットによる評価結果から,PAGと呼ばれる提案手法は,現状の予測性能と価格変動による充電需要の適応的変化を理解することができることを示した。

Along with the proliferation of electric vehicles (EVs), optimizing the use of EV charging space can significantly alleviate the growing load on intelligent transportation systems. As the foundation to achieve such an optimization, a spatiotemporal method for EV charging demand prediction in urban areas is required. Although several solutions have been proposed by using data-driven deep learning methods, it can be found that these performance-oriented methods may suffer from misinterpretations to correctly handle the reverse relationship between charging demands and prices. To tackle the emerging challenges of training an accurate and interpretable prediction model, this paper proposes a novel approach that enables the integration of graph and temporal attention mechanisms for feature extraction and the usage of physic-informed meta-learning in the model pre-training step for knowledge transfer. Evaluation results on a dataset of 18,013 EV charging piles in Shenzhen, China, show that the proposed approach, named PAG, can achieve state-of-the-art forecasting performance and the ability in understanding the adaptive changes in charging demands caused by price fluctuations.
翻訳日:2023-09-12 13:36:44 公開日:2023-09-11
# FusionFormer:3Dオブジェクトのための鳥の視点と時間一貫性変換器の多感覚融合

FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Objection ( http://arxiv.org/abs/2309.05257v1 )

ライセンス: Link先を確認
Chunyong Hu, Hang Zheng, Kun Li, Jianyun Xu, Weibo Mao, Maochun Luo, Lingxuan Wang, Mingxia Chen, Kaixuan Liu, Yiru Zhao, Peihan Hao, Minzhe Liu, Kaicheng Yu(参考訳) マルチセンサーモーダルフュージョンは、3dオブジェクト検出タスクにおいて強力なアドバンテージを示している。 しかし, 複数モーダルの特徴を単純なチャネル結合によって融合させる既存の手法では, 鳥の視線空間への変換機能が必要であり, Z軸に関する情報が失われ, 性能が低下する可能性がある。 この目的のためにFusionFormerを提案する。このフレームワークはトランスフォーマーを利用してマルチモーダル機能を融合し、融合したBEV機能を得る。 また,FusionFormerの入力モダリティ表現への柔軟な適応性に基づいて,カメラベース検出タスクにおける検出性能を向上させるために,フレームワークに追加可能な深度予測分岐を提案する。 さらに,より安定かつ信頼性の高い検出結果を得るために,歴史的フレームBEV機能を融合可能なトランスフォーマーに基づくプラグアンドプレイ時間融合モジュールを提案する。 本手法をnuscenesデータセット上で評価し,72.6%のマップと75.1%のndsを3dオブジェクト検出タスクで達成した。

Multi-sensor modal fusion has demonstrated strong advantages in 3D object detection tasks. However, existing methods that fuse multi-modal features through a simple channel concatenation require transformation features into bird's eye view space and may lose the information on Z-axis thus leads to inferior performance. To this end, we propose FusionFormer, an end-to-end multi-modal fusion framework that leverages transformers to fuse multi-modal features and obtain fused BEV features. And based on the flexible adaptability of FusionFormer to the input modality representation, we propose a depth prediction branch that can be added to the framework to improve detection performance in camera-based detection tasks. In addition, we propose a plug-and-play temporal fusion module based on transformers that can fuse historical frame BEV features for more stable and reliable detection results. We evaluate our method on the nuScenes dataset and achieve 72.6% mAP and 75.1% NDS for 3D object detection tasks, outperforming state-of-the-art methods.
翻訳日:2023-09-12 13:36:26 公開日:2023-09-11
# 時系列分類における事前学習の効果の検討

Examining the Effect of Pre-training on Time Series Classification ( http://arxiv.org/abs/2309.05256v1 )

ライセンス: Link先を確認
Jiashu Pu, Shiwei Zhao, Ling Cheng, Yongzhu Chang, Runze Wu, Tangjie Lv, Rongsheng Zhang(参考訳) 微調整パラダイムに続く事前訓練は、多くの分野で広く用いられているが、微調整プロセスに対する事前訓練の影響については、いまだに議論がある。 現在、テキストと画像データに基づく実験結果にはコンセンサスがない。 教師なし事前学習と微調整のパラダイムを深く掘り下げるために、我々は以前の研究を新しいモダリティ、時系列へと拡張した。 本研究では,Univariate Time Series (UTS) と Multivariate Time Series (MTS) のベンチマークから得られた150の分類データセットを徹底的に検討した。 我々の分析はいくつかの重要な結論を明らかにしている。 (i)事前学習は、データに適合するモデルよりも、データに適合しないモデルの最適化プロセスを改善するのに役立ちます。 (ii)十分な訓練時間が与えられると、予習は正規化の効果を示さない。 (iii)事前学習は、モデルに十分なデータ適合能力がある場合のみ収束をスピードアップすることができる。 (4) 事前学習データの追加は一般化を向上させるものではないが, より高速な収束など, 元のデータ量に対する事前学習の優位性を高めることができる。 (v)事前学習タスクとモデル構造の両方が与えられたデータセット上でのパラダイムの有効性を決定する一方で、モデル構造はより重要な役割を果たす。

Although the pre-training followed by fine-tuning paradigm is used extensively in many fields, there is still some controversy surrounding the impact of pre-training on the fine-tuning process. Currently, experimental findings based on text and image data lack consensus. To delve deeper into the unsupervised pre-training followed by fine-tuning paradigm, we have extended previous research to a new modality: time series. In this study, we conducted a thorough examination of 150 classification datasets derived from the Univariate Time Series (UTS) and Multivariate Time Series (MTS) benchmarks. Our analysis reveals several key conclusions. (i) Pre-training can only help improve the optimization process for models that fit the data poorly, rather than those that fit the data well. (ii) Pre-training does not exhibit the effect of regularization when given sufficient training time. (iii) Pre-training can only speed up convergence if the model has sufficient ability to fit the data. (iv) Adding more pre-training data does not improve generalization, but it can strengthen the advantage of pre-training on the original data volume, such as faster convergence. (v) While both the pre-training task and the model structure determine the effectiveness of the paradigm on a given dataset, the model structure plays a more significant role.
翻訳日:2023-09-12 13:36:05 公開日:2023-09-11
# 線形方程式系の解法:テンソルネットワークスの観点からのhhl

Solving Systems of Linear Equations: HHL from a Tensor Networks Perspective ( http://arxiv.org/abs/2309.05290v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, I\~nigo Perez Delgado, Marina Ristol Roura, Aitor Moreno Fdez. de Leceta and Sebasti\'an V. Romero(参考訳) 本稿では,HHL法に基づく線形方程式系の解法,さらに多くの状態を持つ量子ビットの一般化,適用すべきゲート数と資源量を削減するアルゴリズムを提案する。 この考え方に基づき、プロジェクションなどの非ユニタリ操作の能力を生かして、テンソルネットワーク上で量子インスパイアされたバージョンを実行する。 最後に、このアルゴリズムを用いて、外力を持つ高調波発振器、強制減衰発振器および2次元静的熱方程式微分方程式の解を求める。

We present an algorithm for solving systems of linear equations based on the HHL algorithm with a novel qudits methodology, a generalization of the qubits with more states, to reduce the number of gates to be applied and the amount of resources. Based on this idea, we will perform a quantum-inspired version on tensor networks, taking advantage of their ability to perform non-unitary operations such as projection. Finally, we will use this algorithm to obtain a solution for the harmonic oscillator with an external force, the forced damped oscillator and the 2D static heat equation differential equations.
翻訳日:2023-09-12 13:30:01 公開日:2023-09-11
# 深度画像に基づく衝突符号化のためのタスク駆動圧縮

Task-driven Compression for Collision Encoding based on Depth Images ( http://arxiv.org/abs/2309.05289v1 )

ライセンス: Link先を確認
Mihir Kulkarni, Kostas Alexis(参考訳) 本稿では,ロボットシステムの衝突予測に適した画像としての深度画像のアグレッシブ・タスク駆動圧縮のための新しい学習手法を提案する。 深度画像に表される障害物を適切に「膨らませる」ために、ロボットの大きさを考慮し、カメラフラストラム内の任意の光線に沿って衝突のない方法でロボットが通過できる距離を求める新しい3D画像処理手法を提案する。 このような奥行き画像ペアを用いて、変動オートエンコーダのアーキテクチャに従うニューラルネットワークを訓練し、元の奥行き画像内の情報を圧縮・変換し、与えられた奥行き画像の衝突情報をエンコードする潜在表現を導出する。 提案手法を従来のタスク非依存手法と比較し,超低次元潜在空間からの衝突画像予測において優れた性能を示す。 比較研究の結果,提案手法は,4050:1以上の圧縮比で従来の手法よりも遠くに細い障害物を持つ複雑なシーンから,深度画像と集束画像のタプルを符号化できることがわかった。

This paper contributes a novel learning-based method for aggressive task-driven compression of depth images and their encoding as images tailored to collision prediction for robotic systems. A novel 3D image processing methodology is proposed that accounts for the robot's size in order to appropriately "inflate" the obstacles represented in the depth image and thus obtain the distance that can be traversed by the robot in a collision-free manner along any given ray within the camera frustum. Such depth-and-collision image pairs are used to train a neural network that follows the architecture of Variational Autoencoders to compress-and-transform the information in the original depth image to derive a latent representation that encodes the collision information for the given depth image. We compare our proposed task-driven encoding method with classical task-agnostic methods and demonstrate superior performance for the task of collision image prediction from extremely low-dimensional latent spaces. A set of comparative studies show that the proposed approach is capable of encoding depth image-and-collision image tuples from complex scenes with thin obstacles at long distances better than the classical methods at compression ratios as high as 4050:1.
翻訳日:2023-09-12 13:29:52 公開日:2023-09-11
# 音源分離における特徴不均衡の解消

Addressing Feature Imbalance in Sound Source Separation ( http://arxiv.org/abs/2309.05287v1 )

ライセンス: Link先を確認
Jaechang Kim, Jeongyeon Hwang, Soheun Yi, Jaewoong Cho, Jungseul Ok(参考訳) ニューラルネットワークはしばしば機能優先の問題に悩まされ、タスクに欠落した機能が必須であるとしても、他の機能を無視しながらタスクを解決するために特定の機能に過度に依存する傾向がある。 特徴選好問題は主に分類タスクで研究されている。 しかし,高次元回帰タスク,特にソース分離において特徴優先が生じることが観察された。 ソース分離における特徴の選好を軽減するため,FEAture BAlancing by Suppressing Easy feature (FEABASE)を提案する。 このアプローチは、無視された特徴に関する隠れた情報を学習することで、効率的なデータ利用を可能にする。 我々は,空間的特徴と音色特徴との間の特徴嗜好が現れるマルチチャネル音源分離タスクにおいて,提案手法を評価する。

Neural networks often suffer from a feature preference problem, where they tend to overly rely on specific features to solve a task while disregarding other features, even if those neglected features are essential for the task. Feature preference problems have primarily been investigated in classification task. However, we observe that feature preference occurs in high-dimensional regression task, specifically, source separation. To mitigate feature preference in source separation, we propose FEAture BAlancing by Suppressing Easy feature (FEABASE). This approach enables efficient data utilization by learning hidden information about the neglected feature. We evaluate our method in a multi-channel source separation task, where feature preference between spatial feature and timbre feature appears.
翻訳日:2023-09-12 13:29:30 公開日:2023-09-11
# 何が起きているのか メールしてもらえますか? 自律走行のための軌道予測モデルへの事前学習言語エンコーダの統合

Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving ( http://arxiv.org/abs/2309.05282v1 )

ライセンス: Link先を確認
Ali Keysan, Andreas Look, Eitan Kosman, Gonca G\"ursun, J\"org Wagner, Yao Yu, Barbara Rakitsch(参考訳) 自動運転タスクでは、周囲の交通参加者の将来の行動を予測するための最初のステップがシーン理解である。 しかし、あるシーンを表現し、その特徴を抽出する方法はまだ研究の余地がある。 本研究では,トラフィックシーンをテキストベースで表現し,事前学習した言語エンコーダで処理する手法を提案する。 まず,テキストに基づく表現と古典的なラスタ化画像表現を組み合わせることで,記述的シーン埋め込みが実現することを示す。 次に、nuScenesデータセットの予測をベンチマークし、ベースラインと比較して大幅に改善したことを示す。 第3に,テキストとラスタ化画像のジョイントエンコーダが個々のエンコーダよりも優れており,両表現が相補的な強みを持っていることを確認した。

In autonomous driving tasks, scene understanding is the first step towards predicting the future behavior of the surrounding traffic participants. Yet, how to represent a given scene and extract its features are still open research questions. In this study, we propose a novel text-based representation of traffic scenes and process it with a pre-trained language encoder. First, we show that text-based representations, combined with classical rasterized image representations, lead to descriptive scene embeddings. Second, we benchmark our predictions on the nuScenes dataset and show significant improvements compared to baselines. Third, we show in an ablation study that a joint encoder of text and rasterized images outperforms the individual encoders confirming that both representations have their complementary strengths.
翻訳日:2023-09-12 13:29:18 公開日:2023-09-11
# 連続学習のためのクラスインクリメンタルグループネットワーク

Class-Incremental Grouping Network for Continual Audio-Visual Learning ( http://arxiv.org/abs/2309.05281v1 )

ライセンス: Link先を確認
Shentong Mo, Weiguo Pian, Yapeng Tian(参考訳) 連続学習は、クラス増分学習のシーケンシャルなタスクにまたがる非定常データでモデルを訓練する必要がある、という難しい問題である。 従来の手法では、画像分類における破滅的な忘れを緩和するために正規化やリハーサルベースのフレームワークを使用することに重点を置いていたが、それらは単一のモダリティに限定されており、連続的な音声視覚学習のためのコンパクトなクラス対応のクロスモーダル表現を学習することはできない。 このギャップに対処するために,カテゴリワイドなセマンティックな特徴を学習し,連続的な音声視覚学習を実現する,新しいクラスインクリメンタルグルーピングネットワーク(CIGN)を提案する。 我々のCIGNは学習可能なオーディオ視覚クラストークンとオーディオ視覚グループ化を利用して、クラス認識機能を継続的に集約する。 さらに、クラストークンの蒸留と連続的なグループ化を利用して、過去のタスクから学んだパラメータを忘れないようにし、識別的オーディオ視覚カテゴリーをキャプチャするモデルの能力を向上させる。 本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。 実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。 コードはhttps://github.com/stoneMo/CIGN.comで入手できる。

Continual learning is a challenging problem in which models need to be trained on non-stationary data across sequential tasks for class-incremental learning. While previous methods have focused on using either regularization or rehearsal-based frameworks to alleviate catastrophic forgetting in image classification, they are limited to a single modality and cannot learn compact class-aware cross-modal representations for continual audio-visual learning. To address this gap, we propose a novel class-incremental grouping network (CIGN) that can learn category-wise semantic features to achieve continual audio-visual learning. Our CIGN leverages learnable audio-visual class tokens and audio-visual grouping to continually aggregate class-aware features. Additionally, it utilizes class tokens distillation and continual grouping to prevent forgetting parameters learned from previous tasks, thereby improving the model's ability to capture discriminative audio-visual categories. We conduct extensive experiments on VGGSound-Instruments, VGGSound-100, and VGG-Sound Sources benchmarks. Our experimental results demonstrate that the CIGN achieves state-of-the-art audio-visual class-incremental learning performance. Code is available at https://github.com/stoneMo/CIGN.
翻訳日:2023-09-12 13:29:04 公開日:2023-09-11
# 対話型クラス非依存オブジェクトカウント

Interactive Class-Agnostic Object Counting ( http://arxiv.org/abs/2309.05277v1 )

ライセンス: Link先を確認
Yifeng Huang, Viresh Ranjan, and Minh Hoai(参考訳) 本稿では,対話型クラス非依存オブジェクトカウントのための新しいフレームワークを提案する。 本フレームワークは,フィードバックを収集するユーザフレンドリなビジュアライザと,それを組み込む効率的なメカニズムの2つの主要コンポーネントから構成される。 各イテレーションにおいて、現在の予測結果を示す密度マップを作成し、容易に検証可能なオブジェクト数で重複しない領域に分割する。 ユーザは、明らかなカウントエラーのある領域を選択し、その中の推定オブジェクト数の範囲を指定することで、フィードバックを提供することができる。 カウント結果を改善するために,視覚カウンタに予測カウントをユーザ特定範囲内に出力させる新しい適応損失を開発した。 有効かつ効率的な適応のために,任意の密度に基づく視覚カウンタで使用可能な改良モジュールを提案し,修正モジュール内のパラメータのみを適応中に更新する。 FSCD-LVIS と FSC-147 の2つの挑戦的クラス非依存オブジェクトカウントベンチマークを用いた実験により,複数の最先端ビジュアルカウンタの平均絶対誤差を,最小限のユーザ入力で約30%から40%削減できることを示した。 私たちのプロジェクトはhttps://yifehuang97.github.io/ICACountProjectPage/で確認できます。

We propose a novel framework for interactive class-agnostic object counting, where a human user can interactively provide feedback to improve the accuracy of a counter. Our framework consists of two main components: a user-friendly visualizer to gather feedback and an efficient mechanism to incorporate it. In each iteration, we produce a density map to show the current prediction result, and we segment it into non-overlapping regions with an easily verifiable number of objects. The user can provide feedback by selecting a region with obvious counting errors and specifying the range for the estimated number of objects within it. To improve the counting result, we develop a novel adaptation loss to force the visual counter to output the predicted count within the user-specified range. For effective and efficient adaptation, we propose a refinement module that can be used with any density-based visual counter, and only the parameters in the refinement module will be updated during adaptation. Our experiments on two challenging class-agnostic object counting benchmarks, FSCD-LVIS and FSC-147, show that our method can reduce the mean absolute error of multiple state-of-the-art visual counters by roughly 30% to 40% with minimal user input. Our project can be found at https://yifehuang97.github.io/ICACountProjectPage/.
翻訳日:2023-09-12 13:28:42 公開日:2023-09-11
# ワイヤレス符号化キャッシングシステムにおけるビームフォーミング

Beamforming in Wireless Coded-Caching Systems ( http://arxiv.org/abs/2309.05276v1 )

ライセンス: Link先を確認
Sneha Madhusudan, Charitha Madapatha, Behrooz Makki, Hao Guo, Tommy Svensson(参考訳) アクセスネットワークのキャパシティの増加は、トラフィックの集約によるトランスポートネットワークのキャパシティの問題を引き起こす。 しかし、ユーザデータ要求には空間的および時間的相関があり、潜在的に利用することができる。 そこで本研究では,ビームフォーミングと符号化キャッシュ戦略を統合した無線トランスポートネットワークアーキテクチャについて検討する。 特に,提案する設計では,複数のアンテナを有するサーバがユーザをサービスするノードをキャッシュするためにコンテンツをブロードキャストする。 従来のキャッシュメソッドは、追加のオーバーヘッドで個々のメモリに依存する制限に直面します。 そこで我々は,符号化キャッシングシステムにおけるビーム最適化のための効率的な遺伝的アルゴリズムに基づく手法を開発した。 ビームフォーミングと符号化キャッシングの利点を生かして、マルチキャストの機会、干渉緩和、ピークバックホールトラフィックの削減という観点で利益を得る。 また,提案手法の利点を評価するために,従来の非符号化キャッシュ方式との比較分析を行った。 さらに,様々なバッファリングおよび復号手法が符号化キャッシング方式の性能に与える影響について検討した。 その結果,本手法の有効性を高めるためにはビームフォーミングが有用であり,ピーク時のバックホールトラフィックが大幅に減少することが示唆された。

Increased capacity in the access network poses capacity challenges on the transport network due to the aggregated traffic. However, there are spatial and time correlation in the user data demands that could potentially be utilized. To that end, we investigate a wireless transport network architecture that integrates beamforming and coded-caching strategies. Especially, our proposed design entails a server with multiple antennas that broadcasts content to cache nodes responsible for serving users. Traditional caching methods face the limitation of relying on the individual memory with additional overhead. Hence, we develop an efficient genetic algorithm-based scheme for beam optimization in the coded-caching system. By exploiting the advantages of beamforming and coded-caching, the architecture achieves gains in terms of multicast opportunities, interference mitigation, and reduced peak backhaul traffic. A comparative analysis of this joint design with traditional, un-coded caching schemes is also conducted to assess the benefits of the proposed approach. Additionally, we examine the impact of various buffering and decoding methods on the performance of the coded-caching scheme. Our findings suggest that proper beamforming is useful in enhancing the effectiveness of the coded-caching technique, resulting in significant reduction in peak backhaul traffic.
翻訳日:2023-09-12 13:28:18 公開日:2023-09-11
# Minuteman: 会議要約における機械と人間の接合力

Minuteman: Machine and Human Joining Forces in Meeting Summarization ( http://arxiv.org/abs/2309.05272v1 )

ライセンス: Link先を確認
Franti\v{s}ek Kmje\v{c}, Ond\v{r}ej Bojar(参考訳) 多くの会議は、全員を最新に保つために会議概要を作成する必要がある。 しかし、十分な品質の分を作ることは非常に認知的に要求される。 現在我々は音声音声認識(ASR)と要約の両方に有能なモデルを持っていますが、その完全自動使用には問題があります。 ASRモデルは名前のエンティティを翻訳する際に頻繁にエラーを犯すが、要約モデルはその転写を幻覚し誤解釈する傾向がある。 我々は,効率的な半自動ミーティングミナットを可能にする新しいツール,Minutemanを提案する。 このツールは、ユーザに対してライブの書き起こしとライブミーティングのサマリーを提供し、共同で編集することができ、asrエラーの修正と不完全なサマリーポイントをリアルタイムで行うことができる。 結果として得られたアプリケーションは、メモ係の認知的負荷を緩和し、ミーティングの一部が欠席したり、焦点が合わなかったりして、簡単に追いつくことができる。 アプリケーションのさまざまな設定でいくつかのテストを実施し、概念の価値とユーザ戦略を探求します。

Many meetings require creating a meeting summary to keep everyone up to date. Creating minutes of sufficient quality is however very cognitively demanding. Although we currently possess capable models for both audio speech recognition (ASR) and summarization, their fully automatic use is still problematic. ASR models frequently commit errors when transcribing named entities while the summarization models tend to hallucinate and misinterpret the transcript. We propose a novel tool -- Minuteman -- to enable efficient semi-automatic meeting minuting. The tool provides a live transcript and a live meeting summary to the users, who can edit them in a collaborative manner, enabling correction of ASR errors and imperfect summary points in real time. The resulting application eases the cognitive load of the notetakers and allows them to easily catch up if they missed a part of the meeting due to absence or a lack of focus. We conduct several tests of the application in varied settings, exploring the worthiness of the concept and the possible user strategies.
翻訳日:2023-09-12 13:28:00 公開日:2023-09-11
# AutoFuse: 変形可能な医用画像登録のための自動核融合ネットワーク

AutoFuse: Automatic Fusion Networks for Deformable Medical Image Registration ( http://arxiv.org/abs/2309.05271v1 )

ライセンス: Link先を確認
Mingyuan Meng, Michael Fulham, Dagan Feng, Lei Bi, and Jinman Kim(参考訳) 変形可能な画像登録は、一対のイメージ間の高密度な非線形空間対応を見つけることを目的としており、腫瘍成長モニタリングや人口分析などの多くの医療タスクにとって重要なステップである。 近年、ディープニューラルネットワーク(DNN)は、エンドツーエンドの高速な登録を行う能力で広く認知されている。 しかし、DNNに基づく登録では、各画像の空間情報を探索し、この情報を融合して空間対応を特徴付ける必要がある。 これは、空間対応を特徴付ける最適な融合戦略とは何か? 既存の融合戦略(例えば、早期融合、後期融合)は、手動で定義された事前知識によって情報を融合するために実験的に設計された。 本研究では,既存の核融合戦略から脱却し,変形可能な画像登録のためのデータ駆動核融合戦略を開発する。 そこで本研究では,ネットワーク内の多数の潜在的場所に情報を融合する柔軟性を提供する自動融合ネットワーク(autofuse)を提案する。 トレーニングデータに基づいて、各潜在的なネットワークロケーションで情報をフューズする方法を制御するために、Fusion Gate (FG)モジュールも提案されている。 私たちのAutoFuseは、トレーニング中に自動的に融合戦略を最適化することができ、(ラベルなしで)教師なし登録と半教師なし登録の両方に一般化できます。 8つの公開データセットを用いた2つの周知の医療登録タスク(患者間登録および患者内登録)に関する広範な実験では、autofuseが最先端の教師なしおよび半監督済みの登録方法よりも優れていることが示されている。

Deformable image registration aims to find a dense non-linear spatial correspondence between a pair of images, which is a crucial step for many medical tasks such as tumor growth monitoring and population analysis. Recently, Deep Neural Networks (DNNs) have been widely recognized for their ability to perform fast end-to-end registration. However, DNN-based registration needs to explore the spatial information of each image and fuse this information to characterize spatial correspondence. This raises an essential question: what is the optimal fusion strategy to characterize spatial correspondence? Existing fusion strategies (e.g., early fusion, late fusion) were empirically designed to fuse information by manually defined prior knowledge, which inevitably constrains the registration performance within the limits of empirical designs. In this study, we depart from existing empirically-designed fusion strategies and develop a data-driven fusion strategy for deformable image registration. To achieve this, we propose an Automatic Fusion network (AutoFuse) that provides flexibility to fuse information at many potential locations within the network. A Fusion Gate (FG) module is also proposed to control how to fuse information at each potential network location based on training data. Our AutoFuse can automatically optimize its fusion strategy during training and can be generalizable to both unsupervised registration (without any labels) and semi-supervised registration (with weak labels provided for partial training data). Extensive experiments on two well-benchmarked medical registration tasks (inter- and intra-patient registration) with eight public datasets show that our AutoFuse outperforms state-of-the-art unsupervised and semi-supervised registration methods.
翻訳日:2023-09-12 13:27:44 公開日:2023-09-11
# CONFLATOR: Code-Mixed Language Modelingのためのスイッチングポイントに基づく回転位置符号化

CONFLATOR: Incorporating Switching Point based Rotatory Positional Encodings for Code-Mixed Language Modeling ( http://arxiv.org/abs/2309.05270v1 )

ライセンス: Link先を確認
Mohsin Ali, Kandukuri Sai Teja, Neeharika Gupta, Parth Patwa, Anubhab Chatterjee, Vinija Jain, Aman Chadha, Amitava Das(参考訳) 2つ以上の言語の混合はcode-mixing (cm) と呼ばれる。 CMは多言語社会における社会規範である。 トランスフォーマーのようなニューラル言語モデル(NLM)は多くのNLPタスクで非常に効果的である。 しかし、NLM for CMは未探索領域である。 トランスは機能的で強力であるが、非リカレントであるため、常に位置/シーケンス情報をエンコードすることはできない。 したがって、単語情報を豊かにし、位置情報を組み込むため、位置符号化を定義する。 我々は,言語が切り替えるテキスト中の接合(L1 -> L2またはL2-> L1)であるスイッチングポイント(SP)がCM言語モデル(LM)に挑戦し,モデリングプロセスにおける点の切り替えに特に重点を置いていることを仮定する。 いくつかの位置符号化機構を実験し、回転位置符号化と切替点情報とが最良の結果をもたらすことを示す。 コード混合言語のためのニューラル言語モデリングアプローチであるCONFLATORを紹介する。 CONFLATORは、ユニグラムレベルとビッグラムレベルの両方で、よりスマートな位置符号化を用いて、スイッチングポイントを強調することを学ぼうとしている。 CONFLATORは、コードミキシングされたヒンディー語と英語(ヒングリッシュ語)に基づく2つのタスクで最先端のタスクをパフォーマンスします。 (i)感情分析及び (ii)機械翻訳。

The mixing of two or more languages is called Code-Mixing (CM). CM is a social norm in multilingual societies. Neural Language Models (NLMs) like transformers have been very effective on many NLP tasks. However, NLM for CM is an under-explored area. Though transformers are capable and powerful, they cannot always encode positional/sequential information since they are non-recurrent. Therefore, to enrich word information and incorporate positional information, positional encoding is defined. We hypothesize that Switching Points (SPs), i.e., junctions in the text where the language switches (L1 -> L2 or L2-> L1), pose a challenge for CM Language Models (LMs), and hence give special emphasis to switching points in the modeling process. We experiment with several positional encoding mechanisms and show that rotatory positional encodings along with switching point information yield the best results. We introduce CONFLATOR: a neural language modeling approach for code-mixed languages. CONFLATOR tries to learn to emphasize switching points using smarter positional encoding, both at unigram and bigram levels. CONFLATOR outperforms the state-of-the-art on two tasks based on code-mixed Hindi and English (Hinglish): (i) sentiment analysis and (ii) machine translation.
翻訳日:2023-09-12 13:27:08 公開日:2023-09-11
# 顔編集のための正規化フローを用いた意味的潜時分解

Semantic Latent Decomposition with Normalizing Flows for Face Editing ( http://arxiv.org/abs/2309.05314v1 )

ライセンス: Link先を確認
Binglei Li, Zhizhong Huang, Hongming Shan, Junping Zhang(参考訳) styleganの潜在空間でのナビゲートは、顔編集に有効性を示している。 しかし、結果として得られる手法は通常、潜伏空間における異なる属性間の絡み合いによって複雑なナビゲーションの課題に直面する。 この問題に対処するため,本論文では,連続条件正規化フローを用いた元の潜在空間における意味分解を用いた新しいフレームワークであるsdflowを提案する。 具体的には、SDFlowは2つのコンポーネントを共同で最適化することで、元の潜在コードを異なる無関係変数に分解する。 (i)入力面から意味変数を推定する意味エンコーダ、及び (II) 学習した意味変数を条件としたフローベース変換モジュールにより,潜時コードをガウス分布の意味非関連変数にマッピングする。 変数間の絡み合いを解消するために,相互情報枠組みの下での絡み合い学習戦略を採用し,正確な操作制御を行う。 実験の結果,SDFlowは既存の顔編集方法よりも質的,定量的に優れていることがわかった。 ソースコードはhttps://github.com/phil329/SDFlowで公開されている。

Navigating in the latent space of StyleGAN has shown effectiveness for face editing. However, the resulting methods usually encounter challenges in complicated navigation due to the entanglement among different attributes in the latent space. To address this issue, this paper proposes a novel framework, termed SDFlow, with a semantic decomposition in original latent space using continuous conditional normalizing flows. Specifically, SDFlow decomposes the original latent code into different irrelevant variables by jointly optimizing two components: (i) a semantic encoder to estimate semantic variables from input faces and (ii) a flow-based transformation module to map the latent code into a semantic-irrelevant variable in Gaussian distribution, conditioned on the learned semantic variables. To eliminate the entanglement between variables, we employ a disentangled learning strategy under a mutual information framework, thereby providing precise manipulation controls. Experimental results demonstrate that SDFlow outperforms existing state-of-the-art face editing methods both qualitatively and quantitatively. The source code is made available at https://github.com/phil329/SDFlow.
翻訳日:2023-09-12 13:18:59 公開日:2023-09-11
# 教師なし規則に基づくメキシコ観光テキストの感性分析のためのUD適応実験

Experimenting with UD Adaptation of an Unsupervised Rule-based Approach for Sentiment Analysis of Mexican Tourist Texts ( http://arxiv.org/abs/2309.05312v1 )

ライセンス: Link先を確認
Olga Kellert, Mahmud Uz Zaman, Nicholas Hill Matlis, Carlos G\'omez-Rodr\'iguez(参考訳) 本稿では,Rest-Mex 2023(Team Olga/LyS-SALSA)の共有タスク(IberLEF 2023会議)に提出された感性分析(SA)のUniversal Dependencies (UD)適応実験の結果を要約する。 本手法は,感情辞書の単語に適用される変化規則や否定規則などの基本的な構文規則を用いて,(1)SAの解釈可能性,説明可能性,(2)データセット,言語,ドメイン間の堅牢性,(3)NLPの非専門家によるユーザビリティといった,教師なし手法の利点を生かしている。 UCRルールに基づくアプローチとは対照的に、我々は単純なヒューリスティックなルールを使って否定や修正に対処しています。 我々の結果はこれらのアプローチを大きく改善したことを示している。 偏極の別のシフト規則としてモダリティ特徴を用い,適切な感情語を識別するための単語曖昧化技術を用いて,結果の今後の改善を議論する。

This paper summarizes the results of experimenting with Universal Dependencies (UD) adaptation of an Unsupervised, Compositional and Recursive (UCR) rule-based approach for Sentiment Analysis (SA) submitted to the Shared Task at Rest-Mex 2023 (Team Olga/LyS-SALSA) (within the IberLEF 2023 conference). By using basic syntactic rules such as rules of modification and negation applied on words from sentiment dictionaries, our approach exploits some advantages of an unsupervised method for SA: (1) interpretability and explainability of SA, (2) robustness across datasets, languages and domains and (3) usability by non-experts in NLP. We compare our approach with other unsupervised approaches of SA that in contrast to our UCR rule-based approach use simple heuristic rules to deal with negation and modification. Our results show a considerable improvement over these approaches. We discuss future improvements of our results by using modality features as another shifting rule of polarity and word disambiguation techniques to identify the right sentiment words.
翻訳日:2023-09-12 13:18:42 公開日:2023-09-11
# 低リソースアフリカ名認識における言語間移動の解析

Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity Recognition ( http://arxiv.org/abs/2309.05311v1 )

ライセンス: Link先を確認
Michael Beukman, Manuel Fokam(参考訳) トランスファー学習によって、ほぼすべてのnlpタスクのパフォーマンスが大幅に向上し、下流モデルのトレーニングが容易かつ高速になった。 これはローソース言語にも拡張され、成功している。 名前付きエンティティ認識タスクの観点から,低リソース言語10言語間の言語間移動学習の特性について検討する。 具体的には、適応的な微調整と転送言語の選択がゼロショット転送性能に与える影響について検討する。 一つの言語でうまく機能するモデルは、しばしば他言語への一般化を犠牲にし、他の言語に最適な一般化を持つモデルは個々の言語のパフォーマンスに苦しむ。 さらに、ソースとターゲットデータセット間で重複するデータの量は、言語間の地理的あるいは遺伝的距離よりも、転送性能の予測因子として優れている。

Transfer learning has led to large gains in performance for nearly all NLP tasks while making downstream models easier and faster to train. This has also been extended to low-resourced languages, with some success. We investigate the properties of cross-lingual transfer learning between ten low-resourced languages, from the perspective of a named entity recognition task. We specifically investigate how much adaptive fine-tuning and the choice of transfer language affect zero-shot transfer performance. We find that models that perform well on a single language often do so at the expense of generalising to others, while models with the best generalisation to other languages suffer in individual language performance. Furthermore, the amount of data overlap between the source and target datasets is a better predictor of transfer performance than either the geographical or genetic distance between the languages.
翻訳日:2023-09-12 13:18:19 公開日:2023-09-11
# 表現力のある潜在空間を用いたロボット間移動再ターゲティングの教師なし化

Unsupervised human-to-robot motion retargeting via expressive latent space ( http://arxiv.org/abs/2309.05310v1 )

ライセンス: Link先を確認
Yashuai Yan and Esteve Valls Mascaro and Dongheui Lee(参考訳) 本稿では,ロボットがロボットの動きを正確に模倣し,動作の意味を保ちながらロボットの動きを再現する手法を提案する。 そこで本研究では,人間からロボットへ直接翻訳する深層学習手法を提案する。 提案手法では,人間対ロボットの動作データをアノテートする必要はなく,新しいロボットを採用する際の労力を削減できる。 この目的のために,まず,異なる領域(すなわち人間とロボット)のポーズを比較するクロスドメイン類似度指標を提案する。 そして,ロボット動作制御コマンドに対して,コントラスト学習による共有潜在空間の構築と潜在表現のデコードを実現する。 学習された潜在空間は、正確に動きを捉えることで表現力を示し、潜在空間での直接運動制御を可能にする。 2つの射影された人間のポーズ間の潜在空間における単純な線形補間により、相互間運動を生成する方法を紹介する。 さらに,テキスト,RGBビデオ,キープレースなどの多種多様なモダリティ入力を用いたロボット制御の総合評価を行い,すべての背景を持つユーザに対するロボット制御の容易性を高めた。 最後に,本モデルと既存の研究とを比較し,本手法の有効性を定量的かつ質的に実証し,人間とロボットのコミュニケーションを強化し,ロボットを日常生活に組み込む信頼を育む。

This paper introduces a novel approach for human-to-robot motion retargeting, enabling robots to mimic human motion with precision while preserving the semantics of the motion. For that, we propose a deep learning method for direct translation from human to robot motion. Our method does not require annotated paired human-to-robot motion data, which reduces the effort when adopting new robots. To this end, we first propose a cross-domain similarity metric to compare the poses from different domains (i.e., human and robot). Then, our method achieves the construction of a shared latent space via contrastive learning and decodes latent representations to robot motion control commands. The learned latent space exhibits expressiveness as it captures the motions precisely and allows direct motion control in the latent space. We showcase how to generate in-between motion through simple linear interpolation in the latent space between two projected human poses. Additionally, we conducted a comprehensive evaluation of robot control using diverse modality inputs, such as texts, RGB videos, and key-poses, which enhances the ease of robot control to users of all backgrounds. Finally, we compare our model with existing works and quantitatively and qualitatively demonstrate the effectiveness of our approach, enhancing natural human-robot communication and fostering trust in integrating robots into daily life.
翻訳日:2023-09-12 13:18:07 公開日:2023-09-11
# 新生児脳MRIにおける合成学習の包括的解析

Comprehensive analysis of synthetic learning applied to neonatal brain MRI segmentation ( http://arxiv.org/abs/2309.05306v1 )

ライセンス: Link先を確認
R Valabregue (ICM), F Girka (ICM), A Pron (INT), F Rousseau (LaTIM), G Auzias (INT)(参考訳) 新生児MRI画像からの脳のセグメンテーションは、脳構造の形状が大きく変化し、妊娠過程を反映する信号強度が変化するため、非常に難しい課題である。 この文脈では、画像コントラストの変化や解剖学的構造の空間的構成にロバストなセグメンテーション技術が必要であることは明らかである。 本研究は,生後26~45週間で,高画質のT1強調画像とT2強調画像が700人以上の乳児に利用可能となる,発達型ヒューマン・コネクトーム・プロジェクト(Human Connectome Project)がリリースしたデータセットをベースとした合成画像を用いたコントラスト非依存モデルである合成学習の可能性を評価する。 まず、いくつかのt2重み付きボリュームでトレーニングされた標準unetの性能を確認するとともに、これらのモデルがトレーニング領域特有の強度関連特徴を学習することを確認する。 そこで本研究では,合成学習手法を評価し,同一人物からt1強調画像とt2強調画像の両方を分割できるモデルのキャパシティを報告することにより,画像コントラストの変動に対する頑健性を確認した。 しかし,乳児の年齢が予測に及ぼす影響は明らかである。 我々は,現実的な運動アーティファクトとホワイトマターの過分別による合成トレーニングセットを充実させることにより,このモデルの性能を向上させる。 広範な視覚的評価に基づいて、実際のt2wデータでトレーニングされたモデルの優れた性能は、基礎的真理における系統的誤りによる可能性があると論じる。 そこで本研究では,実データからの学習がトレーニングセットからの体系的バイアスを再現することを示すために,基底真理の定義を2つ組み合わせたオリジナル実験を提案し,合成モデルはこの制限を回避することができる。 実験の結果, 人工学習は新生児脳MRIのセグメント化に有効であることがわかった。 当社の適応型合成学習アプローチは,大規模多地点研究や臨床応用に役立つ重要な特徴を組み合わせる。

Brain segmentation from neonatal MRI images is a very challenging task due to large changes in the shape of cerebral structures and variations in signal intensities reflecting the gestational process. In this context, there is a clear need for segmentation techniques that are robust to variations in image contrast and to the spatial configuration of anatomical structures. In this work, we evaluate the potential of synthetic learning, a contrast-independent model trained using synthetic images generated from the ground truth labels of very few subjects.We base our experiments on the dataset released by the developmental Human Connectome Project, for which high-quality T1- and T2-weighted images are available for more than 700 babies aged between 26 and 45 weeks post-conception. First, we confirm the impressive performance of a standard Unet trained on a few T2-weighted volumes, but also confirm that such models learn intensity-related features specific to the training domain. We then evaluate the synthetic learning approach and confirm its robustness to variations in image contrast by reporting the capacity of such a model to segment both T1- and T2-weighted images from the same individuals. However, we observe a clear influence of the age of the baby on the predictions. We improve the performance of this model by enriching the synthetic training set with realistic motion artifacts and over-segmentation of the white matter. Based on extensive visual assessment, we argue that the better performance of the model trained on real T2w data may be due to systematic errors in the ground truth. We propose an original experiment combining two definitions of the ground truth allowing us to show that learning from real data will reproduce any systematic bias from the training set, while synthetic models can avoid this limitation. Overall, our experiments confirm that synthetic learning is an effective solution for segmenting neonatal brain MRI. Our adapted synthetic learning approach combines key features that will be instrumental for large multi-site studies and clinical applications.
翻訳日:2023-09-12 13:17:46 公開日:2023-09-11
# 多変量時系列データのための完全連結空間時間グラフ

Fully-Connected Spatial-Temporal Graph for Multivariate Time Series Data ( http://arxiv.org/abs/2309.05305v1 )

ライセンス: Link先を確認
Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen(参考訳) 多変量時間系列(MTS)データは、様々なアプリケーション分野において重要である。 逐次的および複数ソース(複数のセンサ)特性により、MSSデータは本質的に時空間(ST)依存性を示し、タイムスタンプ間の時間的相関と各タイムスタンプ内のセンサー間の空間的相関を含む。 この情報を効果的に活用するために、グラフニューラルネットワークベースの手法(GNN)が広く採用されている。 しかし、既存のアプローチでは、空間的依存と時間的依存を別々に捉え、異なるタイムスタンプ(DEDT)における異なるsEnsors間の相関を捉えない。 このような相関関係を見渡すと、MSSデータ内のST依存の包括的モデリングが妨げられ、既存のGNNが効果的な表現を学習することを制限する。 そこで本研究では,fcグラフ構築とfcグラフ畳み込みという2つのキーコンポーネントを含む,完全連結空間-時間グラフニューラルネットワーク(fc-stgnn)と呼ばれる新しい手法を提案する。 グラフ構築のために,時間距離に基づいてすべてのタイムスタンプにセンサを接続する減衰グラフを設計し,dedt間の相関を考慮し,st依存性を完全にモデル化する。 さらに,移動プールGNN層によるFCグラフの畳み込みを考案し,ST依存性を効果的に把握し,効率的な表現を学習する。 複数のMTSデータセットに対するFC-STGNNの有効性をSOTA法と比較した。

Multivariate Time-Series (MTS) data is crucial in various application fields. With its sequential and multi-source (multiple sensors) properties, MTS data inherently exhibits Spatial-Temporal (ST) dependencies, involving temporal correlations between timestamps and spatial correlations between sensors in each timestamp. To effectively leverage this information, Graph Neural Network-based methods (GNNs) have been widely adopted. However, existing approaches separately capture spatial dependency and temporal dependency and fail to capture the correlations between Different sEnsors at Different Timestamps (DEDT). Overlooking such correlations hinders the comprehensive modelling of ST dependencies within MTS data, thus restricting existing GNNs from learning effective representations. To address this limitation, we propose a novel method called Fully-Connected Spatial-Temporal Graph Neural Network (FC-STGNN), including two key components namely FC graph construction and FC graph convolution. For graph construction, we design a decay graph to connect sensors across all timestamps based on their temporal distances, enabling us to fully model the ST dependencies by considering the correlations between DEDT. Further, we devise FC graph convolution with a moving-pooling GNN layer to effectively capture the ST dependencies for learning effective representations. Extensive experiments show the effectiveness of FC-STGNN on multiple MTS datasets compared to SOTA methods.
翻訳日:2023-09-12 13:17:11 公開日:2023-09-11
# decur:マルチモーダル自己スーパービジョンのための共通表現と一意表現の分離

DeCUR: decoupling common & unique representations for multimodal self-supervision ( http://arxiv.org/abs/2309.05300v1 )

ライセンス: Link先を確認
Yi Wang, Conrad M Albrecht, Nassim Ait Ali Braham, Chenying Liu, Zhitong Xiong, Xiao Xiang Zhu(参考訳) マルチセンサーデータの可用性が高まると、マルチモーダル自己教師付き学習への関心が高まる。 しかしながら、既存のアプローチのほとんどはモダリティ間の共通表現のみを学習し、モダリティ内トレーニングやモダリティ・ユニティ表現は無視している。 マルチモーダルな自己教師型学習のための簡易かつ効果的な方法として,Decoupling Common and Unique Representations (DeCUR)を提案する。 モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。 我々はDECURを3つの一般的なマルチモーダルシナリオ(レーダー光学、RGB標高、RGB深度)で評価し、シーン分類とセマンティックセグメンテーションにおける一貫した利点を示す。 特に、トレーニング済みのバックボーンをハイパーパラメータチューニングなしで、最先端の教師付きマルチモーダルメソッドに転送することで、簡単に改善できる。 さらに,マルチモーダルアプローチにおける共通点と特異点の解釈について,包括的説明可能性分析を行った。 コードは \url{https://github.com/zhu-xlab/decur} で入手できる。

The increasing availability of multi-sensor data sparks interest in multimodal self-supervised learning. However, most existing approaches learn only common representations across modalities while ignoring intra-modal training and modality-unique representations. We propose Decoupling Common and Unique Representations (DeCUR), a simple yet effective method for multimodal self-supervised learning. By distinguishing inter- and intra-modal embeddings, DeCUR is trained to integrate complementary information across different modalities. We evaluate DeCUR in three common multimodal scenarios (radar-optical, RGB-elevation, and RGB-depth), and demonstrate its consistent benefits on scene classification and semantic segmentation downstream tasks. Notably, we get straightforward improvements by transferring our pretrained backbones to state-of-the-art supervised multimodal methods without any hyperparameter tuning. Furthermore, we conduct a comprehensive explainability analysis to shed light on the interpretation of common and unique features in our multimodal approach. Codes are available at \url{https://github.com/zhu-xlab/DeCUR}.
翻訳日:2023-09-12 13:16:46 公開日:2023-09-11
# IBMの量子コンピュータを用いた部分ループホールフリーデバイス独立量子乱数発生装置

Partial Loopholes Free Device Independent Quantum Random Number Generator Using IBM's Quantum Computers ( http://arxiv.org/abs/2309.05299v1 )

ライセンス: Link先を確認
Abhishek Yadav, Sandeep Mishra, Anirban Pathak(参考訳) ランダム数は、様々な分野で応用される現代の計算の本質的な部分を形成する。 しかし、それらの制限のため、疑似乱数生成器(PRNG)の使用は、センシティブなアプリケーションには好ましくない。 固有ランダム性による量子システムは、真の乱数を生成するのに適した候補となり、認証も可能である。 本研究では,クラウド上で利用可能なIBM量子コンピュータを用いてデバイス独立な量子乱数を生成する手法を提案するためにCHSH不等式違反を用いた。 生成した乱数は、利用可能なIBM量子コンピュータによるCHSH不等式のテストに基づく実験により、その起源としてテストされている。 chshテストに対する各量子コンピュータの性能はプロットされ、特徴付けられる。 さらに、デバイス独立な量子乱数生成器を生成するために、可能な限り多くの抜け穴を閉じる努力がなされている。 本研究は,量子コンピュータを用いた自己テストおよび半自己テスト型乱数生成器の開発に向けた新しい方向性を提供する。

Random numbers form an intrinsic part of modern day computing with applications in a wide variety of fields. But due to their limitations, the use of pseudo random number generators (PRNGs) is certainly not desirable for sensitive applications. Quantum systems due to their intrinsic randomness form a suitable candidate for generation of true random numbers that can also be certified. In this work, the violation of CHSH inequality has been used to propose a scheme by which one can generate device independent quantum random numbers by use of IBM quantum computers that are available on the cloud. The generated random numbers have been tested for their source of origin through experiments based on the testing of CHSH inequality through available IBM quantum computers. The performance of each quantum computer against the CHSH test has been plotted and characterized. Further, efforts have been made to close as many loopholes as possible to produce device independent quantum random number generators. This study will provide new directions for the development of self-testing and semi-self-testing random number generators using quantum computers.
翻訳日:2023-09-12 13:16:26 公開日:2023-09-11
# 離散化拡散法による整数因子化

Discrete Denoising Diffusion Approach to Integer Factorization ( http://arxiv.org/abs/2309.05295v1 )

ライセンス: Link先を確認
Karlis Freivalds, Emils Ozolins, Guntis Barzdins(参考訳) 整数分解は多項式時間で解けるかどうか不明な有名な計算問題である。 ディープニューラルネットワークの台頭に伴い、それらがより迅速なファクタライゼーションを促進することができるかどうかが興味深い。 本稿では,部分的正解法において誤りを反復的に補正し,ディープニューラルネットワークと離散分音拡散を用いた因子分解手法を提案する。 この目的のために,自由度の高いカテゴリ分布を用いた新しいseq2seqニューラルネットワークアーキテクチャを開発し,逆拡散プロセスを適用し,雑音化ステップにおける不正確性に対処した。 このアプローチでは、最大56ビットの整数の係数を見つけることができる。 分析の結果, トレーニングへの投資は, 所定の成功率を達成するのに必要なサンプリングステップの指数関数的減少を招き, ビット長に応じて指数関数的な実行時間増加を抑制できることがわかった。

Integer factorization is a famous computational problem unknown whether being solvable in the polynomial time. With the rise of deep neural networks, it is interesting whether they can facilitate faster factorization. We present an approach to factorization utilizing deep neural networks and discrete denoising diffusion that works by iteratively correcting errors in a partially-correct solution. To this end, we develop a new seq2seq neural network architecture, employ relaxed categorical distribution and adapt the reverse diffusion process to cope better with inaccuracies in the denoising step. The approach is able to find factors for integers of up to 56 bits long. Our analysis indicates that investment in training leads to an exponential decrease of sampling steps required at inference to achieve a given success rate, thus counteracting an exponential run-time increase depending on the bit-length.
翻訳日:2023-09-12 13:16:13 公開日:2023-09-11
# 温熱後部における微細印刷

The fine print on tempered posteriors ( http://arxiv.org/abs/2309.05292v1 )

ライセンス: Link先を確認
Konstantinos Pitas, Julyan Arbel(参考訳) 我々は,温帯後方の詳細な調査を行い,重要かつこれまで公表されていなかった点を明らかにした。 従来の結果とは対照的に, 実モデルやデータセット, 後方ラプラス近似の厳密な制御の場合, 確率性は一般にテスト精度を向上しないことを示した。 最も寒い温度はしばしば最適である。 確率性のあるベイズ模型は、少なくともキャリブレーションの観点から改善が得られると考えることができるかもしれない。 しかし、結果が得られた場合、テスト精度が低下するコストがかかることが実証的に示される。 次に、ベイジアンモデルを用いたFrequentistメトリクスのターゲティングが、最適化の目的において温度パラメータ$\lambda$の必要性を簡単に説明する方法について論じる。 以前の研究とは対照的に、最終的にPAC-Bayesian分析により、温度$\lambda$は単に不特定な事前あるいは可能性の修正として見ることはできないことを示した。

We conduct a detailed investigation of tempered posteriors and uncover a number of crucial and previously undiscussed points. Contrary to previous results, we first show that for realistic models and datasets and the tightly controlled case of the Laplace approximation to the posterior, stochasticity does not in general improve test accuracy. The coldest temperature is often optimal. One might think that Bayesian models with some stochasticity can at least obtain improvements in terms of calibration. However, we show empirically that when gains are obtained this comes at the cost of degradation in test accuracy. We then discuss how targeting Frequentist metrics using Bayesian models provides a simple explanation of the need for a temperature parameter $\lambda$ in the optimization objective. Contrary to prior works, we finally show through a PAC-Bayesian analysis that the temperature $\lambda$ cannot be seen as simply fixing a misspecified prior or likelihood.
翻訳日:2023-09-12 13:16:00 公開日:2023-09-11
# 量子速度限界における単一量子ゲートのロバスト制御

Robust Control of Single-Qubit Gates at the Quantum Speed Limit ( http://arxiv.org/abs/2309.05360v1 )

ライセンス: Link先を確認
Xi Cao, Jiangyu Cui, Man Hong Yung, Re-Bing Wu(参考訳) 高速性と頑健性は、量子計算のための高忠実性ゲートの実装において重要であるが、実際にはそれらの間のトレードオフが必要となる。 本稿では,ロバストな時間最適制御問題を最善のバランスにするために検討する。 系のユニタリ・プロパゲータのテイラー展開に基づいて、その量子速度限界(QSL)における拡張有限次元系の最適制御として設計問題を定式化する。 次に、勾配差アルゴリズムを導入し、異なる強靭性の順序に対応する逐次QSLを求める。 単一キュービット系の数値シミュレーションにより、得られた時間最適制御パルスは、キュービット周波数とフィールドの不確実性に起因するゲート誤差(所定のロバスト性順)を効果的に抑制できることを示した。 これらの結果は、量子回路のパルスレベルコンパイルにおいてパルス長を選択するための実用的なガイドを提供する。

Fastness and robustness are both critical in the implementation of high-fidelity gates for quantum computation, but in practice, a trade-off has to be made between them. In this paper, we investigate the underlying robust time-optimal control problem so as to make the best balance. Based on the Taylor expansion of the system's unitary propagator, we formulate the design problem as the optimal control of an augmented finite-dimensional system at its quantum speed limit (QSL), where the robustness is graded by the degree of series truncation. The gradient-descent algorithm is then introduced to sequentially seek QSLs corresponding to different orders of robustness. Numerical simulations for single-qubit systems show that the obtained time-optimal control pulses can effectively suppress gate errors (to the prescribed robustness order) caused by qubit frequency and field amplitude uncertainties. These results provide a practical guide for selecting pulse lengths in the pulse-level compilation of quantum circuits.
翻訳日:2023-09-12 13:09:56 公開日:2023-09-11
# edac:covid-19検出のための音響分類モデルの効率的な展開

EDAC: Efficient Deployment of Audio Classification Models For COVID-19 Detection ( http://arxiv.org/abs/2309.05357v1 )

ライセンス: Link先を確認
Andrej Jovanovi\'c, Mario Mihaly, Lennon Donaldson(参考訳) 新型コロナウイルスの世界的な拡大は公衆衛生と世界経済に深刻な影響を及ぼした。 パンデミックの早期発生は、人口の感染状況を監視するため、安価で展開可能な事前スクリーニング手法の潜在的な利点を強調した。 さまざまな研究者が、新型コロナウイルスの検出に機械学習の手法を利用した。 このソリューションは、CTスキャンや音声信号などのさまざまな入力機能と、ディープニューラルネットワークアーキテクチャによる最先端の結果を活用する。 しかし、より大きなモデルにはより多くの計算が必要であり、エッジにデプロイする際の考慮事項である。 これに対処するために、私たちはcovid-19の検出にcough audio recordingsを使用する2つのモデルを初めて作り直しました。 ネットワークプルーニングと量子化を適用することで,モデルの予測性能を低下させることなく,これら2つのアーキテクチャを圧縮することができた。 具体的には、圧縮されたモデルファイルサイズが105.76x、19.34x、対応する1.37xと1.71xの2モデルの推論時間を削減できる。

The global spread of COVID-19 had severe consequences for public health and the world economy. The quick onset of the pandemic highlighted the potential benefits of cheap and deployable pre-screening methods to monitor the prevalence of the disease in a population. Various researchers made use of machine learning methods in an attempt to detect COVID-19. The solutions leverage various input features, such as CT scans or cough audio signals, with state-of-the-art results arising from deep neural network architectures. However, larger models require more compute; a pertinent consideration when deploying to the edge. To address this, we first recreated two models that use cough audio recordings to detect COVID-19. Through applying network pruning and quantisation, we were able to compress these two architectures without reducing the model's predictive performance. Specifically, we were able to achieve an 105.76x and an 19.34x reduction in the compressed model file size with corresponding 1.37x and 1.71x reductions in the inference times of the two models.
翻訳日:2023-09-12 13:09:40 公開日:2023-09-11
# 置換サブグループの神経学的発見

Neural Discovery of Permutation Subgroups ( http://arxiv.org/abs/2309.05352v1 )

ライセンス: Link先を確認
Pavan Karjol, Rohan Kashyap, Prathosh A P(参考訳) 我々は置換群$s_{n}$のサブグループ$h$を見つける問題を考える。 h$ が知られていると仮定される従来の $h$-invariant ネットワークとは異なり、ある種の条件を満たすため、基礎となる部分群を発見する方法を提案する。 その結果、$s_{n}$不変関数と線型変換を学習することで、$s_{k} (k \leq n)$ の任意の部分群を見つけることができた。 また,巡回群と二面体群についても同様の結果が得られた。 最後に、$S_{n}$ の他の部分群を発見するために拡張できる一般定理を提供する。 また,画像桁和と対称多項式回帰タスクの数値実験により,結果の適用性を示す。

We consider the problem of discovering subgroup $H$ of permutation group $S_{n}$. Unlike the traditional $H$-invariant networks wherein $H$ is assumed to be known, we present a method to discover the underlying subgroup, given that it satisfies certain conditions. Our results show that one could discover any subgroup of type $S_{k} (k \leq n)$ by learning an $S_{n}$-invariant function and a linear transformation. We also prove similar results for cyclic and dihedral subgroups. Finally, we provide a general theorem that can be extended to discover other subgroups of $S_{n}$. We also demonstrate the applicability of our results through numerical experiments on image-digit sum and symmetric polynomial regression tasks.
翻訳日:2023-09-12 13:09:24 公開日:2023-09-11
# 相互作用による物体の幾何学表現の学習

Learning Geometric Representations of Objects via Interaction ( http://arxiv.org/abs/2309.05346v1 )

ライセンス: Link先を確認
Alfredo Reichlin, Giovanni Luca Marchetti, Hang Yin, Anastasiia Varava, Danica Kragic(参考訳) エージェントとエージェントが相互作用する外部オブジェクトを含むシーンの観察から表現を学習する問題に対処する。 そこで本研究では,任意の自然の非構造化観測からエージェントとオブジェクトの物理的空間における位置を抽出する表現学習フレームワークを提案する。 我々のフレームワークは、エージェントが唯一の監視源として実行するアクションに依存し、オブジェクトが未知のダイナミクスを介してエージェントによって置き換えられると仮定する。 我々は,理想学習者が等尺表現を推論し,エージェントを物体から遠ざけ,その位置を正しく抽出することが保証されていることを理論的基盤として正式に証明する。 様々なシナリオにおける我々のフレームワークを実証的に評価し、最先端キーポイント抽出器のようなビジョンベースのアプローチよりも優れていることを示す。 さらに,抽出した表現によって,強化学習による下流タスクを効率的に解決できることを示す。

We address the problem of learning representations from observations of a scene involving an agent and an external object the agent interacts with. To this end, we propose a representation learning framework extracting the location in physical space of both the agent and the object from unstructured observations of arbitrary nature. Our framework relies on the actions performed by the agent as the only source of supervision, while assuming that the object is displaced by the agent via unknown dynamics. We provide a theoretical foundation and formally prove that an ideal learner is guaranteed to infer an isometric representation, disentangling the agent from the object and correctly extracting their locations. We evaluate empirically our framework on a variety of scenarios, showing that it outperforms vision-based approaches such as a state-of-the-art keypoint extractor. We moreover demonstrate how the extracted representations enable the agent to solve downstream tasks via reinforcement learning in an efficient manner.
翻訳日:2023-09-12 13:09:14 公開日:2023-09-11
# RIS支援マルチレシーバ通信のためのDRLに基づく反射強調法

A DRL-based Reflection Enhancement Method for RIS-assisted Multi-receiver Communications ( http://arxiv.org/abs/2309.05343v1 )

ライセンス: Link先を確認
Wei Wang and Peizheng Li and Angela Doufexi and Mark A Beach(参考訳) 再構成可能なインテリジェントサーフェス(RIS)アシスト無線通信システムにおいて、反射のポインティング精度と強度は、RISアレイ内の全ての要素の振幅/位相状態情報を表す「注目」に大きく依存する。 複数のシングルリフレクションプロファイルの重ね合わせにより、分散ユーザのマルチリフレクションが可能になる。 しかし、単屈折および多反射プロファイルにおける周期要素配置からの最適化課題は未検討である。 周期的単反射プロファイルの組み合わせは振幅/位相の反作用をもたらし、各反射ビームの性能に影響を及ぼす。 本稿では,重なり合うプロファイルの誤アライメントに起因する遠距離場性能劣化を,二重反射最適化のシナリオに焦点をあてる。 この問題に対処するために,我々は新しい深層強化学習(DRL)に基づく最適化手法を提案する。 ランダム探索と排他探索の比較実験により,提案手法が両選択肢を上回り,最短最適化時間を達成することを証明した。 顕著なことに,本手法は反射ピークゲインの1.2dBゲインと,ハードウェア変更を伴わない広いビームを実現している。

In reconfigurable intelligent surface (RIS)-assisted wireless communication systems, the pointing accuracy and intensity of reflections depend crucially on the 'profile,' representing the amplitude/phase state information of all elements in a RIS array. The superposition of multiple single-reflection profiles enables multi-reflection for distributed users. However, the optimization challenges from periodic element arrangements in single-reflection and multi-reflection profiles are understudied. The combination of periodical single-reflection profiles leads to amplitude/phase counteractions, affecting the performance of each reflection beam. This paper focuses on a dual-reflection optimization scenario and investigates the far-field performance deterioration caused by the misalignment of overlapped profiles. To address this issue, we introduce a novel deep reinforcement learning (DRL)-based optimization method. Comparative experiments against random and exhaustive searches demonstrate that our proposed DRL method outperforms both alternatives, achieving the shortest optimization time. Remarkably, our approach achieves a 1.2 dB gain in the reflection peak gain and a broader beam without any hardware modifications.
翻訳日:2023-09-12 13:08:59 公開日:2023-09-11
# PAg-NeRF:農業ロボットのための高速で効率的なパノプティカル3D表現を目指して

PAg-NeRF: Towards fast and efficient end-to-end panoptic 3D representations for agricultural robotics ( http://arxiv.org/abs/2309.05339v1 )

ライセンス: Link先を確認
Claus Smitt, Michael Halstead, Patrick Zimmer, Thomas L\"abe, Esra Guclu, Cyrill Stachniss, Chris McCool(参考訳) 精密なシーン理解は、農業におけるほとんどのロボット監視および介入タスクにとって重要である。 本研究では,3次元パノプティカルシーン理解が可能な新しいNeRFシステムであるPAg-NeRFを提案する。 我々の表現は、ノイズの多いロボットのオドメトリーポーズとフレーム間の不整合IDによる自動パノプティクス予測を用いて訓練される。 このノイズの多い入力にもかかわらず、我々のシステムは、一貫したインスタンスIDでシーン幾何学、フォトリアリスティックレンダリング、および3次元一貫した汎視覚表現を出力することができる。 本システムは非常に困難な園芸シナリオで評価し,そのためには,事前に計算しなければならない正確なポーズではなく,ノイズの多いロボットポーズを活用できるエンドツーエンドの訓練可能なシステムを示す。 ベースラインアプローチと比較してピーク信号とノイズ比は21.34dbから23.37dbに改善され、パンオプティカル品質は56.65%から70.08%に向上した。 さらに,提案手法はより高速であり,約12倍のパラメータでメモリ効率を保ちながら,推論時間を2倍以上向上させるように調整できる。

Precise scene understanding is key for most robot monitoring and intervention tasks in agriculture. In this work we present PAg-NeRF which is a novel NeRF-based system that enables 3D panoptic scene understanding. Our representation is trained using an image sequence with noisy robot odometry poses and automatic panoptic predictions with inconsistent IDs between frames. Despite this noisy input, our system is able to output scene geometry, photo-realistic renders and 3D consistent panoptic representations with consistent instance IDs. We evaluate this novel system in a very challenging horticultural scenario and in doing so demonstrate an end-to-end trainable system that can make use of noisy robot poses rather than precise poses that have to be pre-calculated. Compared to a baseline approach the peak signal to noise ratio is improved from 21.34dB to 23.37dB while the panoptic quality improves from 56.65% to 70.08%. Furthermore, our approach is faster and can be tuned to improve inference time by more than a factor of 2 while being memory efficient with approximately 12 times fewer parameters.
翻訳日:2023-09-12 13:08:41 公開日:2023-09-11
# 確率勾配Descent様緩和は離散最適化および推論問題におけるグラウバーダイナミクスと等価である

Stochastic Gradient Descent-like relaxation is equivalent to Glauber dynamics in discrete optimization and inference problems ( http://arxiv.org/abs/2309.05337v1 )

ライセンス: Link先を確認
Maria Chiara Angelini, Angelo Giorgio Cavaliere, Raffaele Marino, Federico Ricci-Tersenghi(参考訳) SGD(Stochastic Gradient Descent)はグラウバー力学と大きく異なるか? これは機械学習の分野で最も使われているトレーニングアルゴリズムを理解するときの基本的問題だが、今のところ回答は得られていない。 ここでは、離散最適化および推論問題において、SGDライクなアルゴリズムの力学は、ミニバッチサイズに依存する適切な温度のメトロポリスモンテカルロと非常によく似ていることを示す。 この量的マッチングは、基本的な違いがある2つのアルゴリズム(例えば、SGDは詳細なバランスを満足していない)にもかかわらず、平衡状態と非平衡状態の両方で成り立つ。 このような等価性により、モンテカルロアルゴリズムの性能と限界に関する結果を用いて、SGDのようなアルゴリズムのミニバッチサイズを最適化し、ハード推論問題における信号の回復を効率よく行うことができる。

Is Stochastic Gradient Descent (SGD) substantially different from Glauber dynamics? This is a fundamental question at the time of understanding the most used training algorithm in the field of Machine Learning, but it received no answer until now. Here we show that in discrete optimization and inference problems, the dynamics of an SGD-like algorithm resemble very closely that of Metropolis Monte Carlo with a properly chosen temperature, which depends on the mini-batch size. This quantitative matching holds both at equilibrium and in the out-of-equilibrium regime, despite the two algorithms having fundamental differences (e.g.\ SGD does not satisfy detailed balance). Such equivalence allows us to use results about performances and limits of Monte Carlo algorithms to optimize the mini-batch size in the SGD-like algorithm and make it efficient at recovering the signal in hard inference problems.
翻訳日:2023-09-12 13:08:19 公開日:2023-09-11
# MultIOD:リハーサルなしマルチヘッドインクリメンタルオブジェクト検出器

MultIOD: Rehearsal-free Multihead Incremental Object Detector ( http://arxiv.org/abs/2309.05334v1 )

ライセンス: Link先を確認
Eden Belouadah, Arnaud Dapogny, Kevin Bailly(参考訳) クラスインクリメンタルラーニング(class-incremental learning, cil)は、人工エージェントがストリームに現れる新しいクラスに対応する能力である。 エージェントがメモリや計算リソースへのアクセスを制限している進化環境では特に興味深い。 クラス増分学習の主な課題は、破滅的な忘れ、ニューラルネットワークが新しいものを学ぶ際に過去の知識を保持することができないことである。 残念ながら、ほとんどの既存のクラスインクリメンタルオブジェクト検出器は、Faster-RCNNのような2段階のアルゴリズムに適用され、過去の知識を維持するためにリハーサルメモリに依存している。 現在のベンチマークは現実的ではなく、アンカーフリーでリハーサルフリーなオブジェクト検出に注力すべきであると考えています。 本研究では,CenterNetに基づくクラスインクリメンタルオブジェクト検出器であるMultIODを提案する。 1) クラス表現を効率的に分離するマルチヘッド特徴ピラミッドとマルチヘッド検出アーキテクチャを提案し, (2) まず学習したクラスと段階的に学習したクラス間の転送学習を行い, (3) 冗長なボックスを削除するための後処理手法としてクラスワイズ非マックス抑圧を用いる。 ベルとホイッスルがなければ、2つのPascal VOCデータセット上で最先端の手法よりも優れる。

Class-Incremental learning (CIL) is the ability of artificial agents to accommodate new classes as they appear in a stream. It is particularly interesting in evolving environments where agents have limited access to memory and computational resources. The main challenge of class-incremental learning is catastrophic forgetting, the inability of neural networks to retain past knowledge when learning a new one. Unfortunately, most existing class-incremental object detectors are applied to two-stage algorithms such as Faster-RCNN and rely on rehearsal memory to retain past knowledge. We believe that the current benchmarks are not realistic, and more effort should be dedicated to anchor-free and rehearsal-free object detection. In this context, we propose MultIOD, a class-incremental object detector based on CenterNet. Our main contributions are: (1) we propose a multihead feature pyramid and multihead detection architecture to efficiently separate class representations, (2) we employ transfer learning between classes learned initially and those learned incrementally to tackle catastrophic forgetting, and (3) we use a class-wise non-max-suppression as a post-processing technique to remove redundant boxes. Without bells and whistles, our method outperforms a range of state-of-the-art methods on two Pascal VOC datasets.
翻訳日:2023-09-12 13:08:01 公開日:2023-09-11
# ディフプライバシ:拡散に基づく顔のプライバシー保護

Diff-Privacy: Diffusion-based Face Privacy Protection ( http://arxiv.org/abs/2309.05330v1 )

ライセンス: Link先を確認
Xiao He, Mingrui Zhu, Dongxin Chen, Nannan Wang and Xinbo Gao(参考訳) ai技術の普及により、個人情報の収集と誤用が広まるにつれて、プライバシ保護が最優先事項となっている。 匿名化と視覚的アイデンティティ情報隠蔽は、人間の知覚レベルでの顔画像から識別特性を除去することを目的とした2つの重要な顔プライバシー保護タスクである。 しかし、前者は機械が正しく認識できないようにするのに対して、後者は機械認識の正確性を保証する必要があるという大きな違いがある。 したがって、これらの2つのタスクを同時に完了するモデルを訓練することは困難である。 本稿では,匿名化と視覚識別情報を隠蔽するタスクを統一し,diff-privacyと呼ばれる拡散モデルに基づく新しい顔プライバシー保護手法を提案する。 具体的には,提案するマルチスケール画像反転モジュール (msi) を訓練し,原画像のsdmフォーマット条件埋め込みのセットを得る。 条件付き埋め込みをベースとした埋め込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。 顔のプライバシー保護のための枠組みの有効性を検証するため,大規模な実験を行った。

Privacy protection has become a top priority as the proliferation of AI techniques has led to widespread collection and misuse of personal data. Anonymization and visual identity information hiding are two important facial privacy protection tasks that aim to remove identification characteristics from facial images at the human perception level. However, they have a significant difference in that the former aims to prevent the machine from recognizing correctly, while the latter needs to ensure the accuracy of machine recognition. Therefore, it is difficult to train a model to complete these two tasks simultaneously. In this paper, we unify the task of anonymization and visual identity information hiding and propose a novel face privacy protection method based on diffusion models, dubbed Diff-Privacy. Specifically, we train our proposed multi-scale image inversion module (MSI) to obtain a set of SDM format conditional embeddings of the original image. Based on the conditional embeddings, we design corresponding embedding scheduling strategies and construct different energy functions during the denoising process to achieve anonymization and visual identity information hiding. Extensive experiments have been conducted to validate the effectiveness of our proposed framework in protecting facial privacy.
翻訳日:2023-09-12 13:07:35 公開日:2023-09-11
# データ同化に先立つニューラルクープマン

Neural Koopman prior for data assimilation ( http://arxiv.org/abs/2309.05317v1 )

ライセンス: Link先を確認
Anthony Frion, Lucas Drumetz, Mauro Dalla Mura, Guillaume Tochon, Abdeldjalil A\"issa El Bey(参考訳) 大規模なデータセット、計算能力、自動微分や表現型ニューラルネットワークアーキテクチャなどのツールが利用可能になるにつれて、シーケンシャルなデータは観測データからトレーニングされた動的モデルを用いて、データ駆動の方法で扱われることが多い。 ニューラルネットワークは解釈不能なブラックボックスアーキテクチャと見なされることが多いが、データや数学的知識の物理的優先順位から恩恵を受けることができる。 本稿では,長年知られているkoopman演算子理論を応用したニューラルネットワークアーキテクチャを用いて,動的システムを線形に記述可能な潜在空間に埋め込むことにより,多くの魅力ある特徴量を実現する。 データを不規則にサンプリングした時系列で取得する困難な状況においても,このようなモデルを長期連続的な再構築のためにトレーニングする手法を導入する。 自己教師付き学習の可能性も示されており、時系列補間や予測などへの応用を含む変動データ同化手法の先行として、トレーニングされた動的モデルの有望な利用を示す。

With the increasing availability of large scale datasets, computational power and tools like automatic differentiation and expressive neural network architectures, sequential data are now often treated in a data-driven way, with a dynamical model trained from the observation data. While neural networks are often seen as uninterpretable black-box architectures, they can still benefit from physical priors on the data and from mathematical knowledge. In this paper, we use a neural network architecture which leverages the long-known Koopman operator theory to embed dynamical systems in latent spaces where their dynamics can be described linearly, enabling a number of appealing features. We introduce methods that enable to train such a model for long-term continuous reconstruction, even in difficult contexts where the data comes in irregularly-sampled time series. The potential for self-supervised learning is also demonstrated, as we show the promising use of trained dynamical models as priors for variational data assimilation techniques, with applications to e.g. time series interpolation and forecasting.
翻訳日:2023-09-12 13:07:16 公開日:2023-09-11
# 長期所得最大化のためのキャリアパス勧告-強化学習アプローチ

Career Path Recommendations for Long-term Income Maximization: A Reinforcement Learning Approach ( http://arxiv.org/abs/2309.05391v1 )

ライセンス: Link先を確認
Spyros Avlonitis and Dor Lavi and Masoud Mansoury and David Graus(参考訳) 本研究は、キャリア計画プロセスを強化する強化学習アルゴリズムの可能性を探る。 オランダのランドスタッドからのデータを活用することで、オランダの雇用市場をシミュレートし、従業員の長期的な収入を最適化するための戦略を開発する。 マルコフ決定プロセス(MDP)としてキャリアプランニングを定式化し、Sarsa、Q-Learning、A2Cといった機械学習アルゴリズムを活用することにより、高収入の職業や産業でキャリアパスを推奨する最適なポリシーを学ぶ。 その結果、rlモデル、特にq-learningとsarsaは、観察されたキャリアパスと比較して平均5%の増加を達成した。 この研究は、狭い仕事のフィルタリング、環境定式化の単純化、雇用継続性やアプリケーションコストのゼロに関する仮定などの制限を認めている。 今後の研究は、収入最適化を超えて追加の目標を探求し、キャリア計画プロセスをさらに強化するためにこれらの制限に対処することができる。

This study explores the potential of reinforcement learning algorithms to enhance career planning processes. Leveraging data from Randstad The Netherlands, the study simulates the Dutch job market and develops strategies to optimize employees' long-term income. By formulating career planning as a Markov Decision Process (MDP) and utilizing machine learning algorithms such as Sarsa, Q-Learning, and A2C, we learn optimal policies that recommend career paths with high-income occupations and industries. The results demonstrate significant improvements in employees' income trajectories, with RL models, particularly Q-Learning and Sarsa, achieving an average increase of 5% compared to observed career paths. The study acknowledges limitations, including narrow job filtering, simplifications in the environment formulation, and assumptions regarding employment continuity and zero application costs. Future research can explore additional objectives beyond income optimization and address these limitations to further enhance career planning processes.
翻訳日:2023-09-12 12:59:10 公開日:2023-09-11
# 再訪したロバスト単回転平均

Robust Single Rotation Averaging Revisited ( http://arxiv.org/abs/2309.05388v1 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) そこで本研究では, 極端に大きなアウトリアーを効率的に処理できるロバストな単回転平均法を提案する。 我々のアプローチは、測地線距離の総最小二乗偏差(TLUD)コストを最小化することである。 提案手法は3つのステップからなる: まず, 各入力回転をポテンシャル初期解として考慮し, 断続したコード偏差の最小和を求める。 次に、初期解を用いて不整集合を取得し、その和を$L_2$-meanで計算する。 最後に、この推定から始めて、$SO(3)$でWeiszfeldアルゴリズムを用いて、イリヤの測地線$L_1$-meanを反復的に計算する。 広範な評価により,本手法は最大99%の外れ値に対して十分な精度の異常値が得られ,現在の技術に匹敵するロバストであることが示された。

In this work, we propose a novel method for robust single rotation averaging that can efficiently handle an extremely large fraction of outliers. Our approach is to minimize the total truncated least unsquared deviations (TLUD) cost of geodesic distances. The proposed algorithm consists of three steps: First, we consider each input rotation as a potential initial solution and choose the one that yields the least sum of truncated chordal deviations. Next, we obtain the inlier set using the initial solution and compute its chordal $L_2$-mean. Finally, starting from this estimate, we iteratively compute the geodesic $L_1$-mean of the inliers using the Weiszfeld algorithm on $SO(3)$. An extensive evaluation shows that our method is robust against up to 99% outliers given a sufficient number of accurate inliers, outperforming the current state of the art.
翻訳日:2023-09-12 12:58:52 公開日:2023-09-11
# 応用クープマン理論による空気分離ユニットのデータ駆動モデル削減と非線形モデル予測制御

Data-Driven Model Reduction and Nonlinear Model Predictive Control of an Air Separation Unit by Applied Koopman Theory ( http://arxiv.org/abs/2309.05386v1 )

ライセンス: Link先を確認
Jan C. Schulze, Danimir T. Doncevic, Nils Erwes, Alexander Mitsos(参考訳) リアルタイム能力の実現は、非線形モデル予測制御(NMPC)の産業的実装に必須の前提条件である。 データ駆動モデル還元は、複雑なデジタル双生児から低次制御モデルを得る方法を提供する。 特に、データ駆動アプローチは、特定のプロセスとそのモデルに関する知識をほとんど必要とせず、明確に定義された汎用構造のモデルを提供する。 本稿では,最近提案したクープマン理論(Schulze et al. (2022), Comput. Chem. Eng.)に基づくデータ駆動型削減戦略を適用し,空気分離ユニット(ASU)の低次制御モデルを生成する。 削減されたkoopmanモデルは、オートエンコーダと線形潜在ダイナミクスを組み合わせたもので、機械学習を用いて構築される。 さらに、縮小したクープマンモデルの固定ブロック構造に合わせて微分計算を利用するNMPC実装を提案する。 調整したNMPC実装による削減手法により、平均CPU時間でASUのリアルタイムNMPCを98%削減できる。

Achieving real-time capability is an essential prerequisite for the industrial implementation of nonlinear model predictive control (NMPC). Data-driven model reduction offers a way to obtain low-order control models from complex digital twins. In particular, data-driven approaches require little expert knowledge of the particular process and its model, and provide reduced models of a well-defined generic structure. Herein, we apply our recently proposed data-driven reduction strategy based on Koopman theory [Schulze et al. (2022), Comput. Chem. Eng.] to generate a low-order control model of an air separation unit (ASU). The reduced Koopman model combines autoencoders and linear latent dynamics and is constructed using machine learning. Further, we present an NMPC implementation that uses derivative computation tailored to the fixed block structure of reduced Koopman models. Our reduction approach with tailored NMPC implementation enables real-time NMPC of an ASU at an average CPU time decrease by 98 %.
翻訳日:2023-09-12 12:58:35 公開日:2023-09-11
# ディープラーニングテストにおけるハザード : 頻度、影響、推奨

Hazards in Deep Learning Testing: Prevalence, Impact and Recommendations ( http://arxiv.org/abs/2309.05381v1 )

ライセンス: Link先を確認
Salah Ghamizi, Maxime Cordy, Yuejun Guo, Mike Papadakis, And Yves Le Traon(参考訳) 機械学習テストに関する多くの研究は、その可能性を評価し示す実証的な研究に依存している。 しかし、この文脈において経験的な結果は実験の結果に悪影響を及ぼし、潜在的に間違った結論をもたらす可能性のある多くのパラメータに敏感である(タイプIの誤り、すなわち、ヌル仮説を誤って拒否する)。 そこで本研究では,関連する文献を調査し,実験結果に有意な影響を及ぼす可能性のある10の実証的評価ハザードを同定する。 次に,トップクラスのse会場で発表された30の影響力のある研究について,我々のハザードセットに対する感度分析を行い,その臨界性を示す。 以上の結果から,本研究で特定した10種類のハザードはすべて,関連文献などの実験的発見を無効にし,適切に処理すべきであることが示唆された。 さらに一歩進めて、危険の影響を緩和する可能性を持つ10の優れた経験的実践のポイントセットを提案する。 私たちの仕事は、ソフトウェアエンジニアリングコミュニティにおける共通の落とし穴や優れたプラクティスの認識を高めるための第一歩であり、ディープラーニングテストの分野で実証的研究に特に期待することへの貢献を願っています。

Much research on Machine Learning testing relies on empirical studies that evaluate and show their potential. However, in this context empirical results are sensitive to a number of parameters that can adversely impact the results of the experiments and potentially lead to wrong conclusions (Type I errors, i.e., incorrectly rejecting the Null Hypothesis). To this end, we survey the related literature and identify 10 commonly adopted empirical evaluation hazards that may significantly impact experimental results. We then perform a sensitivity analysis on 30 influential studies that were published in top-tier SE venues, against our hazard set and demonstrate their criticality. Our findings indicate that all 10 hazards we identify have the potential to invalidate experimental findings, such as those made by the related literature, and should be handled properly. Going a step further, we propose a point set of 10 good empirical practices that has the potential to mitigate the impact of the hazards. We believe our work forms the first step towards raising awareness of the common pitfalls and good practices within the software engineering community and hopefully contribute towards setting particular expectations for empirical research in the field of deep learning testing.
翻訳日:2023-09-12 12:58:17 公開日:2023-09-11
# 集束PV-RCNN : 局所LiDARによる知覚の強化のための集束検出を用いた新しい融合法

Collective PV-RCNN: A Novel Fusion Technique using Collective Detections for Enhanced Local LiDAR-Based Perception ( http://arxiv.org/abs/2309.05380v1 )

ライセンス: Link先を確認
Sven Teufel, J\"org Gamerdinger, Georg Volk and Oliver Bringmann(参考訳) 環境の包括的認識は自動運転車の安全な運転に不可欠である。 しかし、自律走行車の知覚能力は、閉塞、センサー範囲の制限、環境影響によって制限されている。 CP (Collective Perception) は、車両間での情報交換を可能にすることでこれらの問題を緩和することを目的としている。 CPにおける大きな課題は、交換された情報の融合である。 初期核融合アプローチの膨大な帯域幅要求と中間核融合アプローチの交換可能性問題のため、共有検出の後期核融合のみが実用的である。 現在のレイト・フュージョン・アプローチは、局所的な検出に貴重な情報を無視するので、ローカルlidarに基づく検出パイプライン内で協調車両の検出を融合する新しいフュージョン手法を提案する。 そこで,我々は PV-RCNN++ フレームワークを拡張し,集団検出を融合する PV-RCNN (CPV-RCNN) を提案する。 コードはhttps://github.com/ekut-esで入手できる。

Comprehensive perception of the environment is crucial for the safe operation of autonomous vehicles. However, the perception capabilities of autonomous vehicles are limited due to occlusions, limited sensor ranges, or environmental influences. Collective Perception (CP) aims to mitigate these problems by enabling the exchange of information between vehicles. A major challenge in CP is the fusion of the exchanged information. Due to the enormous bandwidth requirement of early fusion approaches and the interchangeability issues of intermediate fusion approaches, only the late fusion of shared detections is practical. Current late fusion approaches neglect valuable information for local detection, this is why we propose a novel fusion method to fuse the detections of cooperative vehicles within the local LiDAR-based detection pipeline. Therefore, we present Collective PV-RCNN (CPV-RCNN), which extends the PV-RCNN++ framework to fuse collective detections. Code is available at https://github.com/ekut-es
翻訳日:2023-09-12 12:57:57 公開日:2023-09-11
# 分散型動的チームの信頼を満たすためのステップ

Steps Towards Satisficing Distributed Dynamic Team Trust ( http://arxiv.org/abs/2309.05378v1 )

ライセンス: Link先を確認
Edmund R. Hunt, Chris Baber, Mehdi Sobhani, Sanja Milivojevic, Sagir Yusuf, Mirco Musolesi, Patrick Waterson, Sally Maynard(参考訳) 動的でマルチエージェントなチームに対する信頼の定義と測定は、さまざまな状況、特に防衛とセキュリティの領域において重要です。 チームメンバは、合意された目標と、共有された価値に従って作業することが信頼されるべきです。 本稿では,人間とロボットの両方が「信頼」を解釈可能かつ使用可能な方法で定義できるように,目標と価値の定義について考察する。 チームの活動の結果は、"目標"、"個人的/チーム的価値"、"法的な原則"という観点で考えることができます。 我々は、アライメントが「個人/チーム価値」のレベルで可能か、または「ゴール」と「法的原則」のレベルでのみ可能であるかを疑問視する。 我々は、人間またはロボットチームメンバーによって解釈可能な人間ロボットチームの信頼を定義するための一連のメトリクスを議論し、シミュレーションミッションの過程で「満足できる信頼」の概念を実証できる実験を考えます。

Defining and measuring trust in dynamic, multiagent teams is important in a range of contexts, particularly in defense and security domains. Team members should be trusted to work towards agreed goals and in accordance with shared values. In this paper, our concern is with the definition of goals and values such that it is possible to define 'trust' in a way that is interpretable, and hence usable, by both humans and robots. We argue that the outcome of team activity can be considered in terms of 'goal', 'individual/team values', and 'legal principles'. We question whether alignment is possible at the level of 'individual/team values', or only at the 'goal' and 'legal principles' levels. We argue for a set of metrics to define trust in human-robot teams that are interpretable by human or robot team members, and consider an experiment that could demonstrate the notion of 'satisficing trust' over the course of a simulated mission.
翻訳日:2023-09-12 12:57:41 公開日:2023-09-11
# CNNかViTか? コンボリューションレンズによる視覚変換器の再検討

CNN or ViT? Revisiting Vision Transformers Through the Lens of Convolution ( http://arxiv.org/abs/2309.05375v1 )

ライセンス: Link先を確認
Chenghao Li, Chaoning Zhang(参考訳) Vision Transformer (ViT) の成功は、幅広い画像認識タスクで広く報告されている。 CNNに対するViTのメリットは、大きなトレーニングデータセットや補助的な事前トレーニングによるところが大きい。 事前トレーニングがなければ、グローバルセルフアテンションがローカルモデリングの能力に制限があるため、小さなデータセットでのvitのパフォーマンスは制限される。 事前トレーニングせずに小さなデータセット上でvitを増加させるため、本研究は、オリジナルの自己着脱行列にウェイトマスクを適用することにより、局所的なモデリングを改善する。 自己注意行列を局所的に適応させる簡単な方法は、要素的に学習可能な重みマスク(ELM)によって実現でき、この予備結果は有望な結果を示す。 しかし、要素単位で単純な学習可能な重みマスクは、非自明な追加パラメータのオーバーヘッドを誘導するだけでなく、最適化の複雑さを増大させる。 そこで本研究では, 1つのマスクが学習可能なパラメータしか持たず, 注意機構がマスクの使用を許容する任意のvit変種において便利に使用できる, ガウス混合マスク (gmm) を提案する。 複数の小データセットに対する実験結果から,提案したガウスマスクの有効性が,VTTを無償(ほぼゼロの追加パラメータや計算コスト)で強化することを示した。 私たちのコードは、 \href{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention}{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention}で公開されます。

The success of Vision Transformer (ViT) has been widely reported on a wide range of image recognition tasks. The merit of ViT over CNN has been largely attributed to large training datasets or auxiliary pre-training. Without pre-training, the performance of ViT on small datasets is limited because the global self-attention has limited capacity in local modeling. Towards boosting ViT on small datasets without pre-training, this work improves its local modeling by applying a weight mask on the original self-attention matrix. A straightforward way to locally adapt the self-attention matrix can be realized by an element-wise learnable weight mask (ELM), for which our preliminary results show promising results. However, the element-wise simple learnable weight mask not only induces a non-trivial additional parameter overhead but also increases the optimization complexity. To this end, this work proposes a novel Gaussian mixture mask (GMM) in which one mask only has two learnable parameters and it can be conveniently used in any ViT variants whose attention mechanism allows the use of masks. Experimental results on multiple small datasets demonstrate that the effectiveness of our proposed Gaussian mask for boosting ViTs for free (almost zero additional parameter or computation cost). Our code will be publicly available at \href{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention}{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention}.
翻訳日:2023-09-12 12:57:24 公開日:2023-09-11
# 生成シフト解析によるMinecraftの定着発電機の探索

Exploring Minecraft Settlement Generators with Generative Shift Analysis ( http://arxiv.org/abs/2309.05371v1 )

ライセンス: Link先を確認
Jean-Baptiste Herv\'e, Oliver Withington, Marion Herv\'e, Laurissa Tokarchuk, Christoph Salge(参考訳) 手続き的コンテンツ生成(PCG)への関心が高まり,代替システムの評価・比較を行う手法やツールの開発がますます重要になっている。 生成パイプラインの評価には特に欠如があり、生成システムの集合が連続して、アーティファクトへの反復的な変更を行う。 既設のアーティファクトに適用した場合に生成過程が与える影響を定量化し,pcgパイプラインにおける個々のステージの影響を評価するために,生成シフトと呼ばれる新しい手法を提案する。 本稿では,マインクラフト・コンペティション(gdmc)のジェネレイティブ・デザインの一環として開発された,マインクラフト・ゲーム・マップの非常にリッチなデータセットに適用し,既存のマップに対して適切な決済を行うように設計した。 この手法を早期に検討した結果、PCG評価に適用できる有望なレンズであることが分かり、生成パイプライン評価の領域に依存しない手法である生成シフトの可能性について楽観的である。

With growing interest in Procedural Content Generation (PCG) it becomes increasingly important to develop methods and tools for evaluating and comparing alternative systems. There is a particular lack regarding the evaluation of generative pipelines, where a set of generative systems work in series to make iterative changes to an artifact. We introduce a novel method called Generative Shift for evaluating the impact of individual stages in a PCG pipeline by quantifying the impact that a generative process has when it is applied to a pre-existing artifact. We explore this technique by applying it to a very rich dataset of Minecraft game maps produced by a set of alternative settlement generators developed as part of the Generative Design in Minecraft Competition (GDMC), all of which are designed to produce appropriate settlements for a pre-existing map. While this is an early exploration of this technique we find it to be a promising lens to apply to PCG evaluation, and we are optimistic about the potential of Generative Shift to be a domain-agnostic method for evaluating generative pipelines.
翻訳日:2023-09-12 12:56:59 公開日:2023-09-11
# 双極子大S$スピンの2次元配列におけるスケーラブルスピンスクイーズ

Scalable spin squeezing in two-dimensional arrays of dipolar large-$S$ spins ( http://arxiv.org/abs/2309.05368v1 )

ライセンス: Link先を確認
Youssef Trifa, Tommaso Roscilde(参考訳) 大きな局所ヒルベルト空間を持つクウディッツの配列の量子多体状態の制御は、多くの粒子の絡み合いに対する幅広い可能性への道を開き、基本的な量子科学と潜在的メトロロジー応用の両方に興味深い。 本研究では、大スピン磁性原子(Cr、Er、Dy)の2次元モット絶縁体で実現されたスピン-スピン相互作用が、コヒーレントスピン状態で初期化された非平衡ユニタリ進化に沿ってスケーラブルなスピンスクイーズをもたらすことを理論的に示す。 集団のスクイージングダイナミクスに対する実験的に関連する摂動は二次ゼーマンシフトによって提供され、個々のスピンのスクイージングに繋がる。 スピンアレイの量子ゆらぎに対して、切り詰められた累積展開を用いることで、十分に小さな二次シフトに対して、スピンスクイージングダイナミクスは、集合スピンとスピン波変数の効果的な分離から期待される1軸回転(OAT)モデルによって生成されるものに似ていることを示す。 OATライクなスケーリングによるスピンスクイーズは、量子モンテカルロと平均場理論によって再構成されるシステムの平衡相図における2次シフトに対する長距離強磁性秩序の堅牢性によって保護される。

Controlling the quantum many-body state of arrays of qudits, possessing a large local Hilbert space, opens the path to a broad range of possibilities for many-particle entanglement, interesting both for fundamental quantum science, as well as for potential metrological applications. In this work we theoretically show that the spin-spin interactions realized in two-dimensional Mott insulators of large-spin magnetic atoms (such as Cr, Er or Dy) lead to scalable spin squeezing along the non-equilibrium unitary evolution initialized in a coherent spin state. An experimentally relevant perturbation to the collective squeezing dynamics is offered by a quadratic Zeeman shift, which leads instead to squeezing of individual spins. Making use of a truncated cumulant expansion for the quantum fluctuations of the spin array, we show that, for sufficiently small quadratic shifts, the spin squeezing dynamics is akin to that produced by the paradigmatic one-axis-twisting (OAT) model -- as expected from an effective separation between collective spin and spin-wave variables. Spin squeezing with OAT-like scaling is shown to be protected by the robustness of long-range ferromagnetic order to quadratic shifts in the equilibrium phase diagram of the system, that we reconstruct via quantum Monte Carlo and mean-field theory.
翻訳日:2023-09-12 12:56:37 公開日:2023-09-11
# ドメイン適応を用いた将来のトカマクの特徴に基づくトランスファタブル・ディスラプション予測

Feature-based Transferable Disruption Prediction for future tokamaks using domain adaptation ( http://arxiv.org/abs/2309.05361v1 )

ライセンス: Link先を確認
Chengshuo Shen, Wei Zheng, Bihao Guo, Dalong Chen, Xinkun Ai, Fengming Xue, Yu Zhong, Nengchao Wang, Biao Shen, Binjia Xiao, Yonghua Ding, Zhongyong Chen, Yuan Pan and J-TEXT team(参考訳) 将来のトカマクにおけるデータ駆動破壊予測モデルに対する高い獲得コストと大きなディスラプティブ放電需要は、ディスラプション予測研究に固有の矛盾をもたらす。 本稿では,CORALと呼ばれる領域適応アルゴリズムに基づく数個の放電のみを用いて,将来のトカマクの破壊を予測する新しい手法を示す。 これはディスラプション予測タスクにドメイン適応を適用する最初の試みである。 本稿では,将来のトカマク(ターゲットドメイン)からのデータと,既存のトカマク(ソースドメイン)からの大量のデータを組み合わせて,既存のトカマクにおける機械学習モデルをトレーニングする。 J-TEXTを既存のトカマクとして,EASTを将来のトカマクとして選択した。 将来のトカマクにおける破壊的データ不足をシミュレートするために,EASTから100個の非破壊的放電と10個の破壊的放電のみを対象領域トレーニングデータとして選択した。 我々は、教師付きコーラルと呼ばれる破壊予測タスクにもっと適するように改善した。 2つのトカマクのデータを混合して訓練したモデルと比較して、教師付きコーラルモデルは将来のトカマクの破壊予測性能を高めることができる(AUC値は0.764から0.890)。 解釈可能な分析を通じて,教師付きサンゴを用いたデータ分布の変換が,今後のトカマクとよりよく似ていることを発見した。 モデルが類似した特徴の傾向を学習したかどうかを評価するための評価手法をSHAP分析に基づいて設計する。 これは、教師付きCORALモデルが、EASTの大規模データサイズでトレーニングされたモデルとより類似していることを示している。 FTDPは、将来のトカマクから小さなデータサイズを使用して破壊を予測するために、機能を調整することで、軽量で解釈可能で、少数のデータ要求の方法を提供する。

The high acquisition cost and the significant demand for disruptive discharges for data-driven disruption prediction models in future tokamaks pose an inherent contradiction in disruption prediction research. In this paper, we demonstrated a novel approach to predict disruption in a future tokamak only using a few discharges based on a domain adaptation algorithm called CORAL. It is the first attempt at applying domain adaptation in the disruption prediction task. In this paper, this disruption prediction approach aligns a few data from the future tokamak (target domain) and a large amount of data from the existing tokamak (source domain) to train a machine learning model in the existing tokamak. To simulate the existing and future tokamak case, we selected J-TEXT as the existing tokamak and EAST as the future tokamak. To simulate the lack of disruptive data in future tokamak, we only selected 100 non-disruptive discharges and 10 disruptive discharges from EAST as the target domain training data. We have improved CORAL to make it more suitable for the disruption prediction task, called supervised CORAL. Compared to the model trained by mixing data from the two tokamaks, the supervised CORAL model can enhance the disruption prediction performance for future tokamaks (AUC value from 0.764 to 0.890). Through interpretable analysis, we discovered that using the supervised CORAL enables the transformation of data distribution to be more similar to future tokamak. An assessment method for evaluating whether a model has learned a trend of similar features is designed based on SHAP analysis. It demonstrates that the supervised CORAL model exhibits more similarities to the model trained on large data sizes of EAST. FTDP provides a light, interpretable, and few-data-required way by aligning features to predict disruption using small data sizes from the future tokamak.
翻訳日:2023-09-12 12:56:12 公開日:2023-09-11
# グラフ埋め込みに基づくノード中心性と類似度尺度を用いたリンク予測のためのパラメータ化モデル

A parameterised model for link prediction using node centrality and similarity measure based on graph embedding ( http://arxiv.org/abs/2309.05434v1 )

ライセンス: Link先を確認
Haohui Lu and Shahadat Uddin(参考訳) リンク予測はグラフ機械学習の重要な側面であり、疾患の予測、ソーシャルネットワークの推奨、薬物発見など、さまざまな応用がある。 ネットワークノード間で形成される新しいリンクを予測することを含む。 リンク予測の重要性は明らかだが、既存のモデルには重大な欠点がある。 例えば、グラフ畳み込みネットワークは、様々なデータセットのリンク予測に非常に効率的であることが証明されている。 しかし、ショートパスネットワークやエゴネットワークに適用すると厳しい制限が課せられ、性能が低下する。 これは、この研究が目指す重要な問題空間である。 本稿では,新しいリンク予測手法であるノード中心性と類似度に基づくパラメータ化モデル(ncsm)を提案する。 NCSMは、ノードの集中度と類似度を、カスタマイズされたグラフニューラルネットワーク(GNN)層におけるエッジ機能として統合し、大きなネットワークのトポロジ情報を有効に活用する。 このモデルは、トポロジ的情報を考慮した最初のパラメータ化GNNベースのリンク予測モデルを示す。 提案モデルは,数千のノードとエッジからなる5つのベンチマークグラフデータセットで評価された。 実験結果は、グラフ畳み込みネットワークや変分グラフオートエンコーダといった既存の最先端モデルよりもncsmが優れていることを強調する。 この例外的な性能は、NCSMのノード中心性の統合、類似度測定、および位相情報の効率的な利用による。

Link prediction is a key aspect of graph machine learning, with applications as diverse as disease prediction, social network recommendations, and drug discovery. It involves predicting new links that may form between network nodes. Despite the clear importance of link prediction, existing models have significant shortcomings. Graph Convolutional Networks, for instance, have been proven to be highly efficient for link prediction on a variety of datasets. However, they encounter severe limitations when applied to short-path networks and ego networks, resulting in poor performance. This presents a critical problem space that this work aims to address. In this paper, we present the Node Centrality and Similarity Based Parameterised Model (NCSM), a novel method for link prediction tasks. NCSM uniquely integrates node centrality and similarity measures as edge features in a customised Graph Neural Network (GNN) layer, effectively leveraging the topological information of large networks. This model represents the first parameterised GNN-based link prediction model that considers topological information. The proposed model was evaluated on five benchmark graph datasets, each comprising thousands of nodes and edges. Experimental results highlight NCSM's superiority over existing state-of-the-art models like Graph Convolutional Networks and Variational Graph Autoencoder, as it outperforms them across various metrics and datasets. This exceptional performance can be attributed to NCSM's innovative integration of node centrality, similarity measures, and its efficient use of topological information.
翻訳日:2023-09-12 12:51:32 公開日:2023-09-11
# ニューラルスパイクトラムによるニューロモルフィック聴覚知覚

Neuromorphic Auditory Perception by Neural Spiketrum ( http://arxiv.org/abs/2309.05430v1 )

ライセンス: Link先を確認
Huajin Tang, Pengjie Gu, Jayawan Wijekoon, MHD Anas Alsakkal, Ziming Wang, Jiangrong Shen, and Rui Yan(参考訳) ニューロモルフィックコンピューティングは、生物学的ニューラルネットワークのエネルギー効率と堅牢な学習性能を達成することを約束している。 約束された脳のような知性を実現するためには、生体神経基板のニューロモルフィックハードウェアアーキテクチャ設計とスパイクベースの符号化と学習によるハードウェア可読性アルゴリズムの課題を解決する必要がある。 本稿では、通常聴覚信号である時変アナログ信号を、計算効率のよい時変スパイクパターンに特徴付け、変換するニューラルスパイク符号化モデル「spiketrum」を提案する。 アナログ対スパイク変換で発生する情報損失を最小限に抑え、神経揺らぎとスパイク損失に対する情報ロバスト性を有する。 このモデルは、様々な聴覚知覚タスクにおけるスパイクニューラルネットワークのトレーニングを容易にする、正確に制御可能なスパイクレートを備えたスパースで効率的な符号化スキームを提供する。 さらに,本手法がスパイクベース計算の利点をフル活用することで,スパイクベース人工知能の体系的ソリューションを提供できることを示すニューロモルフィック・コクラーのプロトタイプを通じて,アルゴリズムとハードウェアの共設計について検討する。

Neuromorphic computing holds the promise to achieve the energy efficiency and robust learning performance of biological neural systems. To realize the promised brain-like intelligence, it needs to solve the challenges of the neuromorphic hardware architecture design of biological neural substrate and the hardware amicable algorithms with spike-based encoding and learning. Here we introduce a neural spike coding model termed spiketrum, to characterize and transform the time-varying analog signals, typically auditory signals, into computationally efficient spatiotemporal spike patterns. It minimizes the information loss occurring at the analog-to-spike transformation and possesses informational robustness to neural fluctuations and spike losses. The model provides a sparse and efficient coding scheme with precisely controllable spike rate that facilitates training of spiking neural networks in various auditory perception tasks. We further investigate the algorithm-hardware co-designs through a neuromorphic cochlear prototype which demonstrates that our approach can provide a systematic solution for spike-based artificial intelligence by fully exploiting its advantages with spike-based computation.
翻訳日:2023-09-12 12:51:08 公開日:2023-09-11
# 事前学習作業による業務文書情報抽出の改善

Improving Information Extraction on Business Documents with Specific Pre-Training Tasks ( http://arxiv.org/abs/2309.05429v1 )

ライセンス: Link先を確認
Thibault Douzon, Stefan Duffner, Christophe Garcia and J\'er\'emy Espinas(参考訳) トランスフォーマーベースの言語モデルは自然言語処理に関連するタスクで広く使われている。 事前トレーニングのおかげで、ビジネスドキュメントの情報抽出にうまく適応している。 しかしながら、ビジネスドキュメントの文献で提案されている事前学習タスクの多くは、あまりにも汎用的であり、複雑な構造を学ぶには不十分である。 本稿では,ビジネス文書の収集に事前学習された言語モデルであるLayoutLMを用いて,関連情報を抽出する能力をさらに向上する2つの事前学習タスクを提案する。 第1は文書の複雑なレイアウトをよりよく理解することを目的としており、第2は数値値とその桁数に焦点を当てている。 これらのタスクは、スキャンした文書のよりコンテクスト化された表現をモデルに学習させる。 さらに,複雑なエンティティを用いた情報抽出において,biesoタグをデコードする新しい後処理アルゴリズムを導入する。 提案手法は,公用(93.88点から95.50点まで)と私用(84.35点から84.84点まで)の費用レシート,請求書,購入注文からなるデータセットの抽出性能を大幅に向上させる。

Transformer-based Language Models are widely used in Natural Language Processing related tasks. Thanks to their pre-training, they have been successfully adapted to Information Extraction in business documents. However, most pre-training tasks proposed in the literature for business documents are too generic and not sufficient to learn more complex structures. In this paper, we use LayoutLM, a language model pre-trained on a collection of business documents, and introduce two new pre-training tasks that further improve its capacity to extract relevant information. The first is aimed at better understanding the complex layout of documents, and the second focuses on numeric values and their order of magnitude. These tasks force the model to learn better-contextualized representations of the scanned documents. We further introduce a new post-processing algorithm to decode BIESO tags in Information Extraction that performs better with complex entities. Our method significantly improves extraction performance on both public (from 93.88 to 95.50 F1 score) and private (from 84.35 to 84.84 F1 score) datasets composed of expense receipts, invoices, and purchase orders.
翻訳日:2023-09-12 12:50:47 公開日:2023-09-11
# SSWPのコントラスト前処理によるマルチモーダル自動韻律アノテーション

Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP ( http://arxiv.org/abs/2309.05423v1 )

ライセンス: Link先を確認
Jinzuomu Zhong, Yang Li, Hui Huang, Jie Liu, Zhiba Su, Jing Guo, Benlai Tang, Fengjie Zhu(参考訳) 表現的テキスト音声(TTS)の分野では、明示的な韻律境界は合成音声の自然性と制御性を著しく向上させる。 人間の韻律アノテーションはパフォーマンスに大きく寄与するが、労働集約的で時間のかかるプロセスであり、しばしば一貫性のない結果をもたらす。 広範囲に監視されたデータが利用できるにもかかわらず、現在のベンチマークモデルは依然としてパフォーマンスの後退に直面している。 この問題に対処するために,二段階自動アノテーションパイプラインが新規に提案されている。 特に,第1段階では,音声文と単語句読解(SSWP)ペアの対照的な事前学習を提案する。 共同テキスト音声空間から抽出した韻律空間を強化するための事前訓練手順ハンマー。 第2段階では、事前訓練されたエンコーダ、単純で効果的なテキスト音声特徴融合方式、シーケンス分類器からなるマルチモーダルな韻律アノテーションを構築する。 広範な実験により,提案手法がprosodyアノテーションの自動生成に優れ,最先端(sota)性能を実現することを実証した。 さらに,本モデルでは,異なるデータ量でテストした場合に顕著な弾力性を示す。

In the realm of expressive Text-to-Speech (TTS), explicit prosodic boundaries significantly advance the naturalness and controllability of synthesized speech. While human prosody annotation contributes a lot to the performance, it is a labor-intensive and time-consuming process, often resulting in inconsistent outcomes. Despite the availability of extensive supervised data, the current benchmark model still faces performance setbacks. To address this issue, a two-stage automatic annotation pipeline is novelly proposed in this paper. Specifically, in the first stage, we propose contrastive text-speech pretraining of Speech-Silence and Word-Punctuation (SSWP) pairs. The pretraining procedure hammers at enhancing the prosodic space extracted from joint text-speech space. In the second stage, we build a multi-modal prosody annotator, which consists of pretrained encoders, a straightforward yet effective text-speech feature fusion scheme, and a sequence classifier. Extensive experiments conclusively demonstrate that our proposed method excels at automatically generating prosody annotation and achieves state-of-the-art (SOTA) performance. Furthermore, our novel model has exhibited remarkable resilience when tested with varying amounts of data.
翻訳日:2023-09-12 12:50:28 公開日:2023-09-11
# FlowIBR: 動的シーンの効率的なニューラルイメージベースレンダリングのための事前学習

FlowIBR: Leveraging Pre-Training for Efficient Neural Image-Based Rendering of Dynamic Scenes ( http://arxiv.org/abs/2309.05418v1 )

ライセンス: Link先を確認
Marcel B\"usching, Josef Bengtson, David Nilsson, M{\aa}rten Bj\"orkman(参考訳) 本稿では,動的シーンの単眼的新規ビュー合成のための新しいアプローチを提案する。 既存の技術はすでに印象的なレンダリング品質を示していますが、事前の知識を生かさずに単一のシーン内で最適化することに重点を置いています。 この制限は、トレーニング用に利用可能な動的シーンのデータセットの欠如と、シーンダイナミクスの多様性に起因する。 筆者らのFlowIBRでは,広範に利用可能な静的シーンのコーパスを事前学習したニューラルイメージベースのレンダリング手法を,シーン毎に最適化されたシーンフローフィールドと組み合わせることで,これらの問題を回避している。 この流れ場を利用することで、カメラ線を曲げてシーンのダイナミックスに対処し、レンダリングネットワークに静的であるかのように動的シーンを提示する。 提案手法は,1つのコンシューマグレードのGPU上で,既存の手法に匹敵する結果が得られるため,シーンごとの最適化時間を桁違いに短縮する。

We introduce a novel approach for monocular novel view synthesis of dynamic scenes. Existing techniques already show impressive rendering quality but tend to focus on optimization within a single scene without leveraging prior knowledge. This limitation has been primarily attributed to the lack of datasets of dynamic scenes available for training and the diversity of scene dynamics. Our method FlowIBR circumvents these issues by integrating a neural image-based rendering method, pre-trained on a large corpus of widely available static scenes, with a per-scene optimized scene flow field. Utilizing this flow field, we bend the camera rays to counteract the scene dynamics, thereby presenting the dynamic scene as if it were static to the rendering network. The proposed method reduces per-scene optimization time by an order of magnitude, achieving comparable results to existing methods - all on a single consumer-grade GPU.
翻訳日:2023-09-12 12:49:54 公開日:2023-09-11
# マルチスケーリング貯水池計算による雑音誘起遷移の学習

Learning noise-induced transitions by multi-scaling reservoir computing ( http://arxiv.org/abs/2309.05413v1 )

ライセンス: Link先を確認
Zequn Lin, Zhaofan Lu, Zengru Di, Ying Tang(参考訳) ノイズは通常、時系列から有効な力学を抽出する逆数と見なされ、従来のデータ駆動型アプローチはノイズ効果を緩和することで力学を学習することを目的としている。 しかし、ノイズは多くの自然および工学的確率力学の基礎となる安定状態間の遷移を駆動する機能的役割を持つ。 データからそのような確率的遷移を捉えるために、リカレントニューラルネットワークの一種であるリザーバコンピューティングという機械学習モデルを活用することで、ノイズによって引き起こされる遷移を学習できることを見出した。 我々は,貯水池ダイナミクスの時間スケールを制御する重要なハイパーパラメータに着目し,ハイパーパラメータをチューニングするための簡潔なトレーニングプロトコルを開発した。 トレーニングされたモデルは、遷移時間と遷移回数の正確な統計を生成する。 このアプローチは、ホワイトノイズまたはカラーノイズの2重井戸ポテンシャル下でのビスタブルシステムを含む、幅広い種類のシステムに適用できる。 また、二重井戸ポテンシャルの非対称性、非詳細バランスによる回転力学、多安定系の遷移も認識している。 タンパク質折り畳みの実験データでは、折り畳み状態間の遷移時間を学習し、小さなデータセットから遷移統計量を予測することができる。 その結果,ノイズを捕捉する機械学習手法の有効性が示された。

Noise is usually regarded as adversarial to extract the effective dynamics from time series, such that the conventional data-driven approaches usually aim at learning the dynamics by mitigating the noisy effect. However, noise can have a functional role of driving transitions between stable states underlying many natural and engineered stochastic dynamics. To capture such stochastic transitions from data, we find that leveraging a machine learning model, reservoir computing as a type of recurrent neural network, can learn noise-induced transitions. We develop a concise training protocol for tuning hyperparameters, with a focus on a pivotal hyperparameter controlling the time scale of the reservoir dynamics. The trained model generates accurate statistics of transition time and the number of transitions. The approach is applicable to a wide class of systems, including a bistable system under a double-well potential, with either white noise or colored noise. It is also aware of the asymmetry of the double-well potential, the rotational dynamics caused by non-detailed balance, and transitions in multi-stable systems. For the experimental data of protein folding, it learns the transition time between folded states, providing a possibility of predicting transition statistics from a small dataset. The results demonstrate the capability of machine-learning methods in capturing noise-induced phenomena.
翻訳日:2023-09-12 12:49:27 公開日:2023-09-11
# 経時的MRI生成とびまん性グリオーマ成長予測のための治療対応拡散確率モデル

Treatment-aware Diffusion Probabilistic Model for Longitudinal MRI Generation and Diffuse Glioma Growth Prediction ( http://arxiv.org/abs/2309.05406v1 )

ライセンス: Link先を確認
Qinghui Liu, Elies Fuster-Garcia, Ivar Thokle Hovden, Donatas Sederevicius, Karoline Skogen, Bradley J MacIntosh, Edvard Gr{\o}dem, Till Schellhorn, Petter Brandal, Atle Bj{\o}rnerud, and Kyrre Eeg Emblem(参考訳) びまん性グリオーマ(Diffuse glioma)は、悪性脳腫瘍である。 腫瘍細胞と正常組織との複雑な相互作用、および治療によって引き起こされる変化はグリオーマ腫瘍の成長を困難にする。 本稿では,今後腫瘍のマスクやmriを生成できる新しいエンド・ツー・エンドネットワークを提案する。 本モデルは,最先端拡散確率モデルとディープセグメンテーションニューラルネットワークに基づいている。 生成拡散過程を導くための条件入力として,逐次的マルチパラメトリックmriと治療情報を含む拡散モデルを拡張した。 これにより、任意の時点における腫瘍の成長を推定できる。 グリオーマ腫瘍成長軌跡を経時的に観察し, 術後の経時的MRIデータを用いて実験を行った。 このモデルは、腫瘍マスクを備えた高品質な合成MRIの生成、時系列の腫瘍セグメンテーション、不確実性推定など、様々なタスクで有望なパフォーマンスを示している。 腫瘍増殖予測と不確実性推定を組み合わせることで、臨床意思決定に有用な情報が得られる。

Diffuse gliomas are malignant brain tumors that grow widespread through the brain. The complex interactions between neoplastic cells and normal tissue, as well as the treatment-induced changes often encountered, make glioma tumor growth modeling challenging. In this paper, we present a novel end-to-end network capable of generating future tumor masks and realistic MRIs of how the tumor will look at any future time points for different treatment plans. Our model is built upon cutting-edge diffusion probabilistic models and deep-segmentation neural networks. We extended a diffusion model to include sequential multi-parametric MRI and treatment information as conditioning input to guide the generative diffusion process. This allows us to estimate tumor growth at any given time point. We trained the model using real-world postoperative longitudinal MRI data with glioma tumor growth trajectories represented as tumor segmentation maps over time. The model has demonstrated promising performance across a range of tasks, including the generation of high-quality synthetic MRIs with tumor masks, time-series tumor segmentations, and uncertainty estimation. Combined with the treatment-aware generated MRIs, the tumor growth predictions with uncertainty estimates can provide useful information for clinical decision-making.
翻訳日:2023-09-12 12:48:45 公開日:2023-09-11
# 腹部ctにおける高速・低リソース・高精度臓器・膵管セグメンテーションのための2段階ハイブリッド監督フレームワーク

Two-Stage Hybrid Supervision Framework for Fast, Low-resource, and Accurate Organ and Pan-cancer Segmentation in Abdomen CT ( http://arxiv.org/abs/2309.05405v1 )

ライセンス: Link先を確認
Wentao Liu, Tong Tian, Weijin Xu, Lemeng Wang, Haoyuan Li, Huihua Yang(参考訳) 腹部臓器と腫瘍の分節は、臓器の定量化、手術計画、疾患診断など、多くの重要な臨床応用がある。 しかし、手作業による評価は本質的に主観的であり、熟練者間および熟練者内変動性が高い。 本稿では,腹腔内臓器および腫瘍の分節化のための自己訓練と平均教師を統合し,部分的ラベル付きデータとラベルなしデータを用いた複合指導フレームワークであるstmtを提案する。 推定時間とgpuメモリ使用量の要件を満たしながら、セグメンテーション精度を最大化するために、2段階セグメンテーションパイプラインと全ボリュームベースの入力戦略を導入する。 FLARE2023の検証実験により,提案手法は高速かつ低リソースなモデル推論だけでなく,セグメンテーション性能にも優れることを示した。 検証セットでは, dsc平均スコア89.79\%, 45.55 \%, gpuメモリタイム治療時の走行時間と面積はそれぞれ11.25s, 9627.82mbであった。

Abdominal organ and tumour segmentation has many important clinical applications, such as organ quantification, surgical planning, and disease diagnosis. However, manual assessment is inherently subjective with considerable inter- and intra-expert variability. In the paper, we propose a hybrid supervised framework, StMt, that integrates self-training and mean teacher for the segmentation of abdominal organs and tumors using partially labeled and unlabeled data. We introduce a two-stage segmentation pipeline and whole-volume-based input strategy to maximize segmentation accuracy while meeting the requirements of inference time and GPU memory usage. Experiments on the validation set of FLARE2023 demonstrate that our method achieves excellent segmentation performance as well as fast and low-resource model inference. Our method achieved an average DSC score of 89.79\% and 45.55 \% for the organs and lesions on the validation set and the average running time and area under GPU memory-time cure are 11.25s and 9627.82MB, respectively.
翻訳日:2023-09-12 12:48:24 公開日:2023-09-11
# 確率的共調整関数による物理形強化学習

Physics-informed reinforcement learning via probabilistic co-adjustment functions ( http://arxiv.org/abs/2309.05404v1 )

ライセンス: Link先を確認
Nat Wannawas, A. Aldo Faisal(参考訳) 実世界のタスクの強化学習は非常に非効率であり、広範なシミュレーションベースのモデリングがトレーニングシステムの主流となっている。 しかし、人間とロボットの相互作用やその他の現実世界の設定では、システムの個々のインスタンス(例えば、異なる人間)の違いや、シミュレーションモデルにおける必要過剰な単純化のために、すべてに対して適切な1つのモデルは存在しない。 これには2つのアプローチが必要です 1.データ集約トレーニングを必要とするデータから、個々のシステムのダイナミクスを学習するか、または、 2. 多くの場合、実現不可能なインスタンスの完全なデジタルツインを使用すること。 両手法の利点を組み合わせる新しい方法として,コクリグ調整 (CKA) とリッジ回帰調整 (RRA) の2つの手法を導入する。 本手法は,GPプリエントと統合した自己回帰AR1コクリグモデルに基づく。 これにより、単純化されたシミュレーションモデル(単純な2リンクモデルなど)を使用し、個々のインスタンス(例えば、個人の生体力学)に迅速に適応する、データとシミュレーション効率のよい方法が得られる。 CKA と RRA を用いて,純粋な GP 法と AR1 法よりもシステム全体の力学の精度の高い不確かさを定量化する。 本稿では,2リンクアームシミュレーションモデル(オフライン部)と少量のインタラクションデータ(オンザフライオンライン)から得られたCKAのみを用いて,バイオメカニカル・ヒューマン・アームの制御を学習する,解釈可能な強化学習制御の例を用いて,協調訓練の効率を実証する。 本手法は,不完全シミュレーションモデルのみが存在する実世界の複雑なシステムにおいて,強化学習手法を実装するための効率的かつ不確実性を考慮した手法である。

Reinforcement learning of real-world tasks is very data inefficient, and extensive simulation-based modelling has become the dominant approach for training systems. However, in human-robot interaction and many other real-world settings, there is no appropriate one-model-for-all due to differences in individual instances of the system (e.g. different people) or necessary oversimplifications in the simulation models. This requires two approaches: 1. either learning the individual system's dynamics approximately from data which requires data-intensive training or 2. using a complete digital twin of the instances, which may not be realisable in many cases. We introduce two approaches: co-kriging adjustments (CKA) and ridge regression adjustment (RRA) as novel ways to combine the advantages of both approaches. Our adjustment methods are based on an auto-regressive AR1 co-kriging model that we integrate with GP priors. This yield a data- and simulation-efficient way of using simplistic simulation models (e.g., simple two-link model) and rapidly adapting them to individual instances (e.g., biomechanics of individual people). Using CKA and RRA, we obtain more accurate uncertainty quantification of the entire system's dynamics than pure GP-based and AR1 methods. We demonstrate the efficiency of co-kriging adjustment with an interpretable reinforcement learning control example, learning to control a biomechanical human arm using only a two-link arm simulation model (offline part) and CKA derived from a small amount of interaction data (on-the-fly online). Our method unlocks an efficient and uncertainty-aware way to implement reinforcement learning methods in real world complex systems for which only imperfect simulation models exist.
翻訳日:2023-09-12 12:47:48 公開日:2023-09-11
# ビザンチンMLにおける一様アグリゲーション

Practical Homomorphic Aggregation for Byzantine ML ( http://arxiv.org/abs/2309.05395v1 )

ライセンス: Link先を確認
Antoine Choffrut, Rachid Guerraoui, Rafael Pinot, Renaud Sirdey, John Stephan, and Martin Zuber(参考訳) 大規模なデータ可用性のため、機械学習(ML)アルゴリズムは分散トポロジにデプロイされており、各ノードは中央サーバとモデル関連情報(例えば勾配)を交換することで、個々のデータ上でMLモデルをトレーニングする。 しかし、分散学習スキームは2つの脅威に対して特に脆弱である。 まず、Byzantineノードは誤った情報をサーバに送信することで学習をシングルハンドで破壊することができる。 このような振る舞いを緩和するための標準的なアプローチは、サーバで非線形ロバストアグリゲーションメソッドを使用することである。 第二に、サーバはノードのプライバシーを侵害することができる。 最近の攻撃は、(暗号化されていない)グラデーションを交換することで、好奇心の強いサーバがノードのデータの総量を回復できることを示している。 金の標準セキュリティプリミティブである準同型暗号(he)の使用は、非ビザンチンシナリオにおける分散学習に対するプライバシー保護ソリューションとして広く研究されてきた。 しかし、特に高次元MLモデルに対するHEの計算要求が大きいため、非線形ロバストアグリゲータに対して純粋に同型演算子を設計する試みはまだ行われていない。 本稿では,最初の完全準同型でビザンチンロバストな分散学習アルゴリズムであるsableを提案する。 SABLEは基本的に,バッチ処理に適したBGVに対して,ロバストなアグリゲータを実装可能な,新しい平文符号化方式に依存している。 さらに、この符号化方式は、セキュリティマージンが大きく、暗号文サイズが小さい最先端の同型ソートを高速化する。 画像分類タスクに関する広範囲な実験を行い,非プライベートなml性能に適合しながら,実用的な実行時間を実現することを示す。

Due to the large-scale availability of data, machine learning (ML) algorithms are being deployed in distributed topologies, where different nodes collaborate to train ML models over their individual data by exchanging model-related information (e.g., gradients) with a central server. However, distributed learning schemes are notably vulnerable to two threats. First, Byzantine nodes can single-handedly corrupt the learning by sending incorrect information to the server, e.g., erroneous gradients. The standard approach to mitigate such behavior is to use a non-linear robust aggregation method at the server. Second, the server can violate the privacy of the nodes. Recent attacks have shown that exchanging (unencrypted) gradients enables a curious server to recover the totality of the nodes' data. The use of homomorphic encryption (HE), a gold standard security primitive, has extensively been studied as a privacy-preserving solution to distributed learning in non-Byzantine scenarios. However, due to HE's large computational demand especially for high-dimensional ML models, there has not yet been any attempt to design purely homomorphic operators for non-linear robust aggregators. In this work, we present SABLE, the first completely homomorphic and Byzantine robust distributed learning algorithm. SABLE essentially relies on a novel plaintext encoding method that enables us to implement the robust aggregator over batching-friendly BGV. Moreover, this encoding scheme also accelerates state-of-the-art homomorphic sorting with larger security margins and smaller ciphertext size. We perform extensive experiments on image classification tasks and show that our algorithm achieves practical execution times while matching the ML performance of its non-private counterpart.
翻訳日:2023-09-12 12:47:17 公開日:2023-09-11
# FleschかFumbleか? 命令型言語モデルの可読性標準アライメントの評価

Flesch or Fumble? Evaluating Readability Standard Alignment of Instruction-Tuned Language Models ( http://arxiv.org/abs/2309.05454v1 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Harish Tayyar Madabushi(参考訳) flesch kincaid grade level (fkgl) やcommon european framework of reference for languages (cefr) といった可読性指標や標準は、教師や教育者が教育教材の複雑さを適切に評価するために教室で使用するために使用される。 本研究では,オープン・クローズド・ソース・インストラクション・チューニング言語モデルの多種多様なセットを選択し,ストーリー補完の記述や,教師がテキスト可読性を制御する標準ガイドプロンプトを用いて行う物語の簡易化において,その性能について検討する。 また, BLOOMZやFlanT5$-$といった他のオープンソースモデルと比較して, ChatGPTのようなグローバルに認識されているモデルは, より効果的で, より洗練されたプロンプトを必要とする可能性がある。

Readability metrics and standards such as Flesch Kincaid Grade Level (FKGL) and the Common European Framework of Reference for Languages (CEFR) exist to guide teachers and educators to properly assess the complexity of educational materials before administering them for classroom use. In this study, we select a diverse set of open and closed-source instruction-tuned language models and investigate their performances in writing story completions and simplifying narratives$-$tasks that teachers perform$-$using standard-guided prompts controlling text readability. Our extensive findings provide empirical proof of how globally recognized models like ChatGPT may be considered less effective and may require more refined prompts for these generative tasks compared to other open-sourced models such as BLOOMZ and FlanT5$-$which have shown promising results.
翻訳日:2023-09-12 12:38:44 公開日:2023-09-11
# 大規模言語モデルの推論能力の評価

Evaluating the Deductive Competence of Large Language Models ( http://arxiv.org/abs/2309.05452v1 )

ライセンス: Link先を確認
S.M. Seals and Valerie L. Shalin(参考訳) 高度に流動的な大言語モデル(LLM)の開発は、その推論と問題解決能力の評価への関心を高めている。 本研究は,認知科学文献から古典的な推論問題を解くことができる LLM が複数存在するかどうかを考察する。 試験されたLSMは、これらの問題を従来の形で解く能力に制限がある。 プレゼンテーション形式の変更とコンテンツがモデル性能を改善するかどうかを調べるためにフォローアップ実験を行った。 性能は条件によって異なるが、全体的な性能は改善されない。 さらに,人間のパフォーマンスと異なる予期せぬ方法で,プレゼンテーション形式やコンテンツとパフォーマンスが相互作用することが分かった。 総じて,llmは人間の推論性能からのみ予測される独自の推論バイアスを持つことが示唆された。

The development of highly fluent large language models (LLMs) has prompted increased interest in assessing their reasoning and problem-solving capabilities. We investigate whether several LLMs can solve a classic type of deductive reasoning problem from the cognitive science literature. The tested LLMs have limited abilities to solve these problems in their conventional form. We performed follow up experiments to investigate if changes to the presentation format and content improve model performance. We do find performance differences between conditions; however, they do not improve overall performance. Moreover, we find that performance interacts with presentation format and content in unexpected ways that differ from human performance. Overall, our results suggest that LLMs have unique reasoning biases that are only partially predicted from human reasoning performance.
翻訳日:2023-09-12 12:38:27 公開日:2023-09-11
# クロスリンガル・クロスモーダル検索のためのデュアルビュー・キュラー最適輸送

Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval ( http://arxiv.org/abs/2309.05451v1 )

ライセンス: Link先を確認
Yabing Wang, Shuhui Wang, Hao Luo, Jianfeng Dong, Fan Wang, Meng Han, Xun Wang, Meng Wang(参考訳) 現在のクロスモーダル検索の研究は英語指向であり、多くの英語指向の視覚言語コーパスが利用可能である。 非英語ラベル付きデータの限界を断ち切るために、言語間クロスモーダル検索(CCR)が注目されている。 ほとんどのCCR手法は、機械翻訳(MT)を介して擬似並列視覚言語コーパスを構築し、言語間移動を実現する。 しかし、mtからの翻訳文は、概して対応する視覚内容を記述するのに不完全である。 疑似並列データが正しく相関していると仮定すると、ネットワークはノイズ対応に過度に適合する。 そこで本研究では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。 特に,クロスリンガルとクロスモーダルの両方の視点から,サンプル対相関と最適輸送理論との信頼度を定量化し,2つの視点の学習段階に応じて輸送コストを動的にモデル化するデュアルビューカリキュラム学習を設計する。 2つの多言語画像テキストデータセットと1つのビデオテキストデータセットについて広範な実験を行い,提案手法の有効性と頑健性を示す。 また,提案手法は,言語間イメージテキストベースラインへの拡張性や,ドメイン外データに対する適度な一般化性を示す。

Current research on cross-modal retrieval is mostly English-oriented, as the availability of a large number of English-oriented human-labeled vision-language corpora. In order to break the limit of non-English labeled data, cross-lingual cross-modal retrieval (CCR) has attracted increasing attention. Most CCR methods construct pseudo-parallel vision-language corpora via Machine Translation (MT) to achieve cross-lingual transfer. However, the translated sentences from MT are generally imperfect in describing the corresponding visual contents. Improperly assuming the pseudo-parallel data are correctly correlated will make the networks overfit to the noisy correspondence. Therefore, we propose Dual-view Curricular Optimal Transport (DCOT) to learn with noisy correspondence in CCR. In particular, we quantify the confidence of the sample pair correlation with optimal transport theory from both the cross-lingual and cross-modal views, and design dual-view curriculum learning to dynamically model the transportation costs according to the learning stage of the two views. Extensive experiments are conducted on two multilingual image-text datasets and one video-text dataset, and the results demonstrate the effectiveness and robustness of the proposed method. Besides, our proposed method also shows a good expansibility to cross-lingual image-text baselines and a decent generalization on out-of-domain data.
翻訳日:2023-09-12 12:38:18 公開日:2023-09-11
# パノプティカル・ビジョン-言語的特徴

Panoptic Vision-Language Feature Fields ( http://arxiv.org/abs/2309.05448v1 )

ライセンス: Link先を確認
Haoran Chen, Kenneth Blomqvist, Francesco Milano and Roland Siegwart(参考訳) 近年,3次元オープン語彙セマンティックセグメンテーションの手法が提案されている。 このようなメソッドは、シーンをテキスト記述を使用して実行時に与えられた任意のクラスに分割することができる。 本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムについて,セマンティックセグメンテーションとインスタンスセグメンテーションを同時に行うことを提案する。 提案手法であるPVLFF(Panoptic Vision-Language Feature Fields)は,入力フレーム上の2次元インスタンスセグメントの提案から,コントラスト損失関数を用いて視覚言語特徴と階層的インスタンス特徴を共同学習する。 提案手法は,HyperSim,ScanNet,Replicaの3Dパノプティクスシステムと同等の性能を達成し,セマンティックセグメンテーションの観点から現在の3Dオープン語彙システムより優れている。 また,モデルアーキテクチャの有効性を示すために,手法を改良する。 私たちのコードはhttps://github.com/ethz-asl/autolabelで利用可能です。

Recently, methods have been proposed for 3D open-vocabulary semantic segmentation. Such methods are able to segment scenes into arbitrary classes given at run-time using their text description. In this paper, we propose to our knowledge the first algorithm for open-vocabulary panoptic segmentation, simultaneously performing both semantic and instance segmentation. Our algorithm, Panoptic Vision-Language Feature Fields (PVLFF) learns a feature field of the scene, jointly learning vision-language features and hierarchical instance features through a contrastive loss function from 2D instance segment proposals on input frames. Our method achieves comparable performance against the state-of-the-art close-set 3D panoptic systems on the HyperSim, ScanNet and Replica dataset and outperforms current 3D open-vocabulary systems in terms of semantic segmentation. We additionally ablate our method to demonstrate the effectiveness of our model architecture. Our code will be available at https://github.com/ethz-asl/autolabel.
翻訳日:2023-09-12 12:37:54 公開日:2023-09-11
# TeGit: テキスト中心タスク設計による高品質インストラクションチューニングデータの生成

TeGit: Generating High-Quality Instruction-Tuning Data with Text-Grounded Task Design ( http://arxiv.org/abs/2309.05447v1 )

ライセンス: Link先を確認
Yongrui Chen, Haiyun Jiang, Xinting Huang, Shuming Shi, Guilin Qi(参考訳) 高品質な命令チューニングデータはLLMの性能向上に不可欠である。 既存のデータ収集方法は、非現実的な手動ラベリングコストやllm生成のみに依存する幻覚によって制限される。 そこで本研究では,言語モデルを用いて高品質な指導適応データを自動的に収集し,人文テキストに基づくタスクの自動設計を行うスケーラブルな手法を提案する。 直感的には、人間の文章は、モデルがタスクの生成中に錯覚を弱めるのに役立つ。 与えられたテキストを直接応答として取る命令バックトランスレーションベースのメソッドとは異なり、ノイズをフィルタリングするためには、モデルが同時に \textit{instruction}, \textit{input}, \textit{output} を生成する必要がある。 自動および手動による評価実験の結果,データセットの品質が示された。

High-quality instruction-tuning data is critical to improving LLM capabilities. Existing data collection methods are limited by unrealistic manual labeling costs or by the hallucination of relying solely on LLM generation. To address the problems, this paper presents a scalable method to automatically collect high-quality instructional adaptation data by training language models to automatically design tasks based on human-written texts. Intuitively, human-written text helps to help the model attenuate illusions during the generation of tasks. Unlike instruction back-translation-based methods that directly take the given text as a response, we require the model to generate the \textit{instruction}, \textit{input}, and \textit{output} simultaneously to filter the noise. The results of the automated and manual evaluation experiments demonstrate the quality of our dataset.
翻訳日:2023-09-12 12:37:26 公開日:2023-09-11
# 全体PET/CT画像の自動腫瘍分割のための局所分離フレームワーク

A Localization-to-Segmentation Framework for Automatic Tumor Segmentation in Whole-Body PET/CT Images ( http://arxiv.org/abs/2309.05446v1 )

ライセンス: Link先を確認
Linghan Cai, Jianhao Huang, Zihang Zhu, Jinpeng Lu, and Yongbing Zhang(参考訳) FDGポジトロン線トモグラフィー (PET) とCT (CT) を併用した肺がんや黒色腫などのがん検出における主要な解決策と考えられる。 PET/CT画像における腫瘍の自動セグメンテーションは、医師の作業量を減らし、診断品質を向上させる。 しかし,多くの腫瘍が小さかったことと,高集積領域と腫瘍領域との類似性から,腫瘍の精密な分画が困難である。 これらの課題に対処するために, 正確な腫瘍分割のための局在化分割フレームワーク (L2SNet) を提案する。 L2SNetは、まず、病変の局所化段階における可能性のある病変を局在させ、次いで、病変の分節フェーズにおけるセグメント化結果を形成するために位置手がかりを使用する。 L2SNetのセグメンテーション性能をさらに向上するために,2つのフェーズのセグメンテーション結果を考慮した適応しきい値スキームを設計する。 MICCAI 2023 による全体 FDG-PET/CT チャレンジデータセットによる実験の結果,本手法は競争的な結果となり,予備試験セットの上位7手法にランクインした。 私たちの仕事は、https://github.com/medcai/l2snetで利用可能です。

Fluorodeoxyglucose (FDG) positron emission tomography(PET) combined with computed tomography (CT) is considered the primary solution for detecting some cancers, such as lung cancer and melanoma. Automatic segmentation of tumors in PET/CT images can help reduce doctors' workload, thereby improving diagnostic quality. However, precise tumor segmentation is challenging due to the small size of many tumors and the similarity of high-uptake normal areas to the tumor regions. To address these issues, this paper proposes a localization-to-segmentation framework (L2SNet) for precise tumor segmentation. L2SNet first localizes the possible lesions in the lesion localization phase and then uses the location cues to shape the segmentation results in the lesion segmentation phase. To further improve the segmentation performance of L2SNet, we design an adaptive threshold scheme that takes the segmentation results of the two phases into consideration. The experiments with the MICCAI 2023 Automated Lesion Segmentation in Whole-Body FDG-PET/CT challenge dataset show that our method achieved a competitive result and was ranked in the top 7 methods on the preliminary test set. Our work is available at: https://github.com/MedCAI/L2SNet.
翻訳日:2023-09-12 12:37:10 公開日:2023-09-11
# 専門家の限界への押し込み:指導チューニングのための極端パラメータ効率MoE

Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning ( http://arxiv.org/abs/2309.05444v1 )

ライセンス: Link先を確認
Ted Zadouri, Ahmet \"Ust\"un, Arash Ahmadian, Beyza Ermi\c{s}, Acyr Locatelli, Sara Hooker(参考訳) 専門家の混合 (mixed of experts, moe) は広く知られたニューラルアーキテクチャであり、特定のサブモデルのアンサンブルが、一定の計算コストで全体的なパフォーマンスを最適化する。 しかしながら、従来のMoEは、すべての専門家をメモリに格納する必要があるため、大規模に課題を提起する。 本稿では,MoEを限界まで押し上げる。 我々は,MoEアーキテクチャを軽量な専門家と一意に組み合わせることで,極めてパラメータ効率の良いMoEを提案する。我々のMoEアーキテクチャは,標準パラメータ効率の微調整法(PEFT)よりも優れており,軽量な専門家のみを更新することで完全な微調整と同等であり,11Bのパラメータモデルの1%未満である。 さらに,従来のタスク知識に依存しないため,未認識タスクに一般化する。 本研究は,厳密なパラメータ制約を受ける場合でも頑健な性能を提供する能力を示すとともに,専門家の混在したアーキテクチャの汎用性を強調する。 すべての実験で使用されるコードは、https://github.com/for-ai/parameter- efficient-moe.comで公開されています。

The Mixture of Experts (MoE) is a widely known neural architecture where an ensemble of specialized sub-models optimizes overall performance with a constant computational cost. However, conventional MoEs pose challenges at scale due to the need to store all experts in memory. In this paper, we push MoE to the limit. We propose extremely parameter-efficient MoE by uniquely combining MoE architecture with lightweight experts.Our MoE architecture outperforms standard parameter-efficient fine-tuning (PEFT) methods and is on par with full fine-tuning by only updating the lightweight experts -- less than 1% of an 11B parameters model. Furthermore, our method generalizes to unseen tasks as it does not depend on any prior task knowledge. Our research underscores the versatility of the mixture of experts architecture, showcasing its ability to deliver robust performance even when subjected to rigorous parameter constraints. Our code used in all the experiments is publicly available here: https://github.com/for-ai/parameter-efficient-moe.
翻訳日:2023-09-12 12:36:45 公開日:2023-09-11
# オックスフォード・パリ再訪におけるコンテンツベース画素検索に向けて

Towards Content-based Pixel Retrieval in Revisited Oxford and Paris ( http://arxiv.org/abs/2309.05438v1 )

ライセンス: Link先を確認
Guoyuan An, Woo Jae Kim, Saelyne Yang, Rong Li, Yuchi Huo, Sung-Eui Yoon(参考訳) 本稿では,最初の2つの画素検索ベンチマークを紹介する。 ピクセル検索は分割されたインスタンス検索である。 意味セグメンテーションがピクセルレベルに分類を拡張するように、ピクセル検索は画像検索の拡張であり、クエリオブジェクトに関連するピクセルに関する情報を提供する。 与えられたクエリのイメージ検索に加えて、真正の画像中のクエリオブジェクトを素早く識別し、相関したピクセルを示すことで偽陽性画像を除外する。 ユーザ調査の結果から,ピクセルレベルのアノテーションはユーザエクスペリエンスを著しく向上させることが示された。 セマンティックやインスタンスのセグメンテーションと比較すると、ピクセル検索は可変粒度ターゲットに対してきめ細かい認識能力を必要とする。 そこで本研究では,rxford と rparis という画像検索データセットに基づいて,proxford と prparis と呼ばれる画素検索ベンチマークを提案する。 3人の専門家が、ダブルチェックとリファインメントの2ラウンドの5,942枚の画像にラベルを付けています。 さらに,画素検索ベンチマークを用いて,画像検索,画像マッチング,検出,セグメンテーション,高密度マッチングにおけるsoma法に関する広範囲な実験と解析を行った。 以上の結果から,これらのアプローチでは画素検索作業が困難であり,既存の問題と異なることが示唆され,さらなる研究によりコンテンツベースの画素検索が進み,ユーザ検索エクスペリエンスが向上する可能性が示唆された。 データセットは \href{https://github.com/anguoyuan/Pixel_retrieval-Segmented_instance_retrieval}{this link} からダウンロードできる。

This paper introduces the first two pixel retrieval benchmarks. Pixel retrieval is segmented instance retrieval. Like semantic segmentation extends classification to the pixel level, pixel retrieval is an extension of image retrieval and offers information about which pixels are related to the query object. In addition to retrieving images for the given query, it helps users quickly identify the query object in true positive images and exclude false positive images by denoting the correlated pixels. Our user study results show pixel-level annotation can significantly improve the user experience. Compared with semantic and instance segmentation, pixel retrieval requires a fine-grained recognition capability for variable-granularity targets. To this end, we propose pixel retrieval benchmarks named PROxford and PRParis, which are based on the widely used image retrieval datasets, ROxford and RParis. Three professional annotators label 5,942 images with two rounds of double-checking and refinement. Furthermore, we conduct extensive experiments and analysis on the SOTA methods in image search, image matching, detection, segmentation, and dense matching using our pixel retrieval benchmarks. Results show that the pixel retrieval task is challenging to these approaches and distinctive from existing problems, suggesting that further research can advance the content-based pixel-retrieval and thus user search experience. The datasets can be downloaded from \href{https://github.com/anguoyuan/Pixel_retrieval-Segmented_instance_retrieval}{this link}.
翻訳日:2023-09-12 12:36:26 公開日:2023-09-11
# 3次元クラスター絡み合い状態の生成

Generation of three-dimensional cluster entangled state ( http://arxiv.org/abs/2309.05437v1 )

ライセンス: Link先を確認
Chan Roh, Geunhee Gwak, Young-Do Yoon and Young-Sik Ra(参考訳) 測定ベースの量子コンピューティングは量子計算の有望なパラダイムであり、普遍的な計算は局所的な測定によって達成される。 このアプローチのバックボーンは、クラスタ状態として知られるマルチパーティの絡み合いの準備である。 普遍性には2次元(2D)接続のクラスタ状態が必要であるが、フォールトトレランスをさらに達成するには3次元(3D)クラスタ状態が必要である。 しかし、3D接続の課題は、クラスタ状態の生成を最大2Dに制限することにある。 ここでは,連続変動型光プラットフォームにおいて3次元クラスター状態を生成する。 3次元コネクティビティを実現するために、超高速量子光の時間周波数モードの重要な利点を利用する:任意の複雑なモードベースを直接アクセスでき、必要に応じてコネクティビティを実現する。 1D, 2D, 3Dの連接性を持つクラスター状態を生成することによって, 本手法の汎用性を示す。 そこで本研究では,マルチモードガウス状態に対する量子状態トモグラフィー法を開発した。 さらに,完全な分離性とステアリングテストに加えて,無効化測定によるクラスタ状態生成の検証も行う。 最後に、トポロジカル量子計算における量子エラー検出の実証による3次元クラスタ状態の有用性を強調した。 我々の研究は、フォールトトレラントで普遍的な測定に基づく量子コンピューティングへの道を開いた。

Measurement-based quantum computing is a promising paradigm of quantum computation, where universal computing is achieved through a sequence of local measurements. The backbone of this approach is the preparation of multipartite entanglement, known as cluster states. While a cluster state with two-dimensional (2D) connectivity is required for universality, a three-dimensional (3D) cluster state is necessary for additionally achieving fault tolerance. However, the challenge of making 3D connectivity has limited cluster state generation up to 2D. Here we experimentally generate a 3D cluster state in the continuous-variable optical platform. To realize 3D connectivity, we harness a crucial advantage of time-frequency modes of ultrafast quantum light: an arbitrary complex mode basis can be accessed directly, enabling connectivity as desired. We demonstrate the versatility of our method by generating cluster states with 1D, 2D, and 3D connectivities. For their complete characterization, we develop a quantum state tomography method for multimode Gaussian states. Moreover, we verify the cluster state generation by nullifier measurements, as well as full inseparability and steering tests. Finally, we highlight the usefulness of 3D cluster state by demonstrating quantum error detection in topological quantum computation. Our work paves the way toward fault-tolerant and universal measurement-based quantum computing.
翻訳日:2023-09-12 12:36:00 公開日:2023-09-11
# より表現力のあるテンソルネットワークモデルのための量子フーリエと多項式特徴

Quantized Fourier and Polynomial Features for more Expressive Tensor Network Models ( http://arxiv.org/abs/2309.05436v1 )

ライセンス: Link先を確認
Frederiek Wesel, Kim Batselier(参考訳) カーネルマシンの文脈では、多項式とフーリエ特徴は、データを高次元空間にマッピングすることで線形モデルへの非線形拡張を提供するために一般的に使用される。 正確な大規模学習が不可能な学習問題の双対的定式化を考慮しなければ、テンソル積構造によるデータ次元におけるモデルパラメータの指数的増加は、高次元問題に対処することを禁じる。 この指数的スケーリングを回避するための可能なアプローチの1つは、モデル重みをアンダーパラメータ化テンソルネットワークに制限することで、機能に存在するテンソル構造を活用することである。 本稿では,さらにテンソル化,多項式,フーリエ特徴を定量化する。 この特徴量化に基づいて,関連するモデル重みを量子化し,量子化モデルを生成する。 同じ数のモデルパラメータに対して、結果として得られる量子化モデルは、同じ特徴から学習しながら計算コストを増すことなく、非量子化モデルに比べてvc次元により高い結合を持つことを示す。 この付加的なテンソル化が学習問題をいかに正規化するかを実験的に検証し,データ内の最も有意義な特徴を優先順位付けし,一般化能力を高めるモデルを提供するか検証した。 最後に,大規模回帰タスクに対する我々のアプローチをベンチマークし,ラップトップコンピュータで最新の結果を得た。

In the context of kernel machines, polynomial and Fourier features are commonly used to provide a nonlinear extension to linear models by mapping the data to a higher-dimensional space. Unless one considers the dual formulation of the learning problem, which renders exact large-scale learning unfeasible, the exponential increase of model parameters in the dimensionality of the data caused by their tensor-product structure prohibits to tackle high-dimensional problems. One of the possible approaches to circumvent this exponential scaling is to exploit the tensor structure present in the features by constraining the model weights to be an underparametrized tensor network. In this paper we quantize, i.e. further tensorize, polynomial and Fourier features. Based on this feature quantization we propose to quantize the associated model weights, yielding quantized models. We show that, for the same number of model parameters, the resulting quantized models have a higher bound on the VC-dimension as opposed to their non-quantized counterparts, at no additional computational cost while learning from identical features. We verify experimentally how this additional tensorization regularizes the learning problem by prioritizing the most salient features in the data and how it provides models with increased generalization capabilities. We finally benchmark our approach on large regression task, achieving state-of-the-art results on a laptop computer.
翻訳日:2023-09-12 12:35:42 公開日:2023-09-11
# 量子コンピュータ断層インジェクション攻撃の分類

Classification of Quantum Computer Fault Injection Attacks ( http://arxiv.org/abs/2309.05478v1 )

ライセンス: Link先を確認
Chuanqi Xu, Ferhat Erata, Jakub Szefer(参考訳) 量子コンピューティングへの関心が急速に高まり、これらの強力なマシンを様々な物理的攻撃から守る必要性が高まった。 量子ビットが増加し、量子コンピュータがより高い忠実度を達成すると、新しいアルゴリズムを実行し、機密性の高い知的特性を生成する能力はより有望になる。 しかしながら、セキュリティとプライバシ攻撃の観点から、コンピュータが直面する脆弱性に対する理解には、大きなギャップがあります。 潜在的な脅威の中には、量子コンピュータがあるデータセンター内の悪意あるインサイダーによって編成された攻撃が含まれており、計算の完全性を損なう可能性がある。 本稿では,量子コンピュータに対する物理攻撃の一クラスとして,フォールトインジェクション攻撃を探求する。 本研究はまず,フォールトインジェクション攻撃の領域,障害目標,量子コンピュータにおける障害顕在化を含む,フォールトインジェクション攻撃と戦略の分類を導入する。 結果として生じる分類は、存在する潜在的な脅威を強調する。 量子コンピュータの脆弱性をフォールトインジェクション攻撃に照らすことで、この研究は、この新興技術に対する堅牢なセキュリティ対策の開発に寄与する。

The rapid growth of interest in quantum computing has brought about the need to secure these powerful machines against a range of physical attacks. As qubit counts increase and quantum computers achieve higher levels of fidelity, their potential to execute novel algorithms and generate sensitive intellectual property becomes more promising. However, there is a significant gap in our understanding of the vulnerabilities these computers face in terms of security and privacy attacks. Among the potential threats are physical attacks, including those orchestrated by malicious insiders within data centers where the quantum computers are located, which could compromise the integrity of computations and resulting data. This paper presents an exploration of fault-injection attacks as one class of physical attacks on quantum computers. This work first introduces a classification of fault-injection attacks and strategies, including the domain of fault-injection attacks, the fault targets, and fault manifestations in quantum computers. The resulting classification highlights the potential threats that exist. By shedding light on the vulnerabilities of quantum computers to fault-injection attacks, this work contributes to the development of robust security measures for this emerging technology.
翻訳日:2023-09-12 12:29:37 公開日:2023-09-11
# 注意神経プロセスを用いた客観的アクティブラーニング戦略の学習

Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes ( http://arxiv.org/abs/2309.05477v1 )

ライセンス: Link先を確認
Tim Bakker, Herke van Hoof, Max Welling(参考訳) プールベースのアクティブラーニング(AL)は、機械学習モデルのデータ効率を高めるための有望な技術である。 しかし,最近のAL手法の性能はデータセットの選択やトレーニング設定に非常に敏感であり,一般応用には適さない。 この問題に対処するために、フィールドラーニングアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学習し、与えられた設定に適応させることを提案する。 本研究では,注意条件付きニューラルネットワークモデルを用いて,アクティブラーニング問題の対称性と独立性を利用した新しいlal分類法を提案する。 私たちのアプローチは,すべてのデータポイント上のエラーを等しく重み付けしないような,標準的でない目的に適応する能力を提供する,ミオピックオラクルからの学習に基づいています。 我々は神経プロセスモデルがこれらの設定において様々なベースラインを上回ることを実験的に検証した。 最後に,本モデルがデータセット変更の安定性を向上させる傾向を示すことを示す。 しかし、パフォーマンスは分類器の選択に敏感であり、明快なオラクルとのギャップを小さくし、拡張性を改善するために、より多くの作業が必要である。 我々は,lalの非標準目標に対する概念実証として,今後のlal作業の促進に資する分析とモデリングの考察を期待する。

Pool-based active learning (AL) is a promising technology for increasing data-efficiency of machine learning models. However, surveys show that performance of recent AL methods is very sensitive to the choice of dataset and training setting, making them unsuitable for general application. In order to tackle this problem, the field Learning Active Learning (LAL) suggests to learn the active learning strategy itself, allowing it to adapt to the given setting. In this work, we propose a novel LAL method for classification that exploits symmetry and independence properties of the active learning problem with an Attentive Conditional Neural Process model. Our approach is based on learning from a myopic oracle, which gives our model the ability to adapt to non-standard objectives, such as those that do not equally weight the error on all data points. We experimentally verify that our Neural Process model outperforms a variety of baselines in these settings. Finally, our experiments show that our model exhibits a tendency towards improved stability to changing datasets. However, performance is sensitive to choice of classifier and more work is necessary to reduce the performance the gap with the myopic oracle and to improve scalability. We present our work as a proof-of-concept for LAL on nonstandard objectives and hope our analysis and modelling considerations inspire future LAL work.
翻訳日:2023-09-12 12:29:18 公開日:2023-09-11
# gptモデルを用いた臨床ノートから社会決定要因と家族歴を抽出するための最小指導によるゼロショット学習

Zero-shot Learning with Minimum Instruction to Extract Social Determinants and Family History from Clinical Notes using GPT Model ( http://arxiv.org/abs/2309.05475v1 )

ライセンス: Link先を確認
Neel Jitesh Bhate, Ansh Mittal, Zhe He and Xiao Luo(参考訳) 電子健康記録の非構造化テキストに記録された人口統計、健康の社会的決定要因、家族の歴史は、この情報を構造化データでどのように活用し、医療結果を改善するかを理解するために、ますます研究されている。 GPTモデルがリリースされた後、多くの研究がGPTモデルを用いて物語臨床ノートからこれらの情報を抽出している。 既存の研究とは違って,本研究はgptモデルに最小情報を提供することで,ゼロショット学習による情報抽出に重点を置いている。 我々は, 人口統計, 各種社会的決定要因, 家族歴情報に注釈が付された非特定実世界臨床ノートを利用する。 gptモデルが原データのテキストと異なるテキストを提供する可能性があることを考慮し、従来のner評価指標とセマンティック類似性評価指標を含む2つの評価指標を探索し、性能を完全に理解する。 以上の結果から, GPT-3.5法は, 平均0.975 F1, 社会要因抽出0.615 F1, 家族歴抽出0.722 F1を達成した。 これらの結果は、モデル微調整や少数ショット学習によってさらに改善できると考えています。 また,ケーススタディを通じて,今後の研究に対処する必要があるGPTモデルの限界を明らかにした。

Demographics, Social determinants of health, and family history documented in the unstructured text within the electronic health records are increasingly being studied to understand how this information can be utilized with the structured data to improve healthcare outcomes. After the GPT models were released, many studies have applied GPT models to extract this information from the narrative clinical notes. Different from the existing work, our research focuses on investigating the zero-shot learning on extracting this information together by providing minimum information to the GPT model. We utilize de-identified real-world clinical notes annotated for demographics, various social determinants, and family history information. Given that the GPT model might provide text different from the text in the original data, we explore two sets of evaluation metrics, including the traditional NER evaluation metrics and semantic similarity evaluation metrics, to completely understand the performance. Our results show that the GPT-3.5 method achieved an average of 0.975 F1 on demographics extraction, 0.615 F1 on social determinants extraction, and 0.722 F1 on family history extraction. We believe these results can be further improved through model fine-tuning or few-shots learning. Through the case studies, we also identified the limitations of the GPT models, which need to be addressed in future research.
翻訳日:2023-09-12 12:28:55 公開日:2023-09-11
# Fano多様体の次元を機械学習する

Machine learning the dimension of a Fano variety ( http://arxiv.org/abs/2309.05473v1 )

ライセンス: Link先を確認
Tom Coates, Alexander M. Kasprzyk, Sara Veneziale(参考訳) ファノ多様体は幾何学の基本的な構成要素であり、数学的形状の「原子片」である。 ファノ多様体の分類の最近の進歩は、量子周期と呼ばれる不変量を分析することである。 これは、ファノ多様体の数値的な指紋を与える整数の列である。 ファノ多様体はその量子周期によって一意に決定されると推測される。 もしこれが事実なら、ファノ多様体の幾何学的性質を量子周期から直接回復することができるはずである。 X の量子周期は X の次元を知っていますか? ただし、これについては理論的には理解されていない。 単純なフィードフォワードニューラルネットワークが98%の精度でXの次元を決定できることを示す。 これに基づいて、ファノ多様体のクラスの量子周期に対する厳密な漸近性を確立する。 これらの漸近はXの次元をその量子周期から決定する。 その結果, 理論的な理解が不十分な状況において, 複雑な数学的データから構造を抽出できることがわかった。 また、ファノ多様体の量子周期がその多様体を決定するという予想の正の証拠を与える。

Fano varieties are basic building blocks in geometry - they are `atomic pieces' of mathematical shapes. Recent progress in the classification of Fano varieties involves analysing an invariant called the quantum period. This is a sequence of integers which gives a numerical fingerprint for a Fano variety. It is conjectured that a Fano variety is uniquely determined by its quantum period. If this is true, one should be able to recover geometric properties of a Fano variety directly from its quantum period. We apply machine learning to the question: does the quantum period of X know the dimension of X? Note that there is as yet no theoretical understanding of this. We show that a simple feed-forward neural network can determine the dimension of X with 98% accuracy. Building on this, we establish rigorous asymptotics for the quantum periods of a class of Fano varieties. These asymptotics determine the dimension of X from its quantum period. Our results demonstrate that machine learning can pick out structure from complex mathematical data in situations where we lack theoretical understanding. They also give positive evidence for the conjecture that the quantum period of a Fano variety determines that variety.
翻訳日:2023-09-12 12:28:31 公開日:2023-09-11
# LeBenchmark 2.0: フランス語の自己教師型表現のための標準化され、再現可能で拡張されたフレームワーク

LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech ( http://arxiv.org/abs/2309.05472v1 )

ライセンス: Link先を確認
Titouan Parcollet, Ha Nguyen, Solene Evain, Marcely Zanon Boito, Adrien Pupier, Salima Mdhaffar, Hang Le, Sina Alisamir, Natalia Tomashenko, Marco Dinarelli, Shucong Zhang, Alexandre Allauzen, Maximin Coavoux, Yannick Esteve, Mickael Rouvier, Jerome Goulian, Benjamin Lecouteux, Francois Portet, Solange Rossato, Fabien Ringeval, Didier Schwab, Laurent Besacier(参考訳) 自己教師付き学習(SSL)は、コンピュータビジョンや自然言語処理など、多くの異なる領域において前例のない改善がなされている。 現在のドメイン関連のタスクのほとんどは、事前トレーニングされたモデルでアプローチされているため、音声処理はSSLから大幅に恩恵を受けている。 SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介する。 最大14,000時間のヘテロジニアス音声を持つ文書化、大規模、異種コーパス、コミュニティと共有される2600万から10億の学習可能なパラメータを含むssl wav2vec 2.0モデルの10モデル、既存のベンチマークを補完する6つの下流タスクによる評価プロトコルが含まれている。 LeBenchmark 2.0はまた、凍結した下流モデルと微調整された下流モデル、タスクに依存しないモデルとタスク固有の事前訓練モデル、および大規模モデルトレーニングの炭素フットプリントに関する議論を含む、スピーチのための事前訓練されたSSLモデルに関するユニークな視点を提示する。

Self-supervised learning (SSL) is at the origin of unprecedented improvements in many different domains including computer vision and natural language processing. Speech processing drastically benefitted from SSL as most of the current domain-related tasks are now being approached with pre-trained models. This work introduces LeBenchmark 2.0 an open-source framework for assessing and building SSL-equipped French speech technologies. It includes documented, large-scale and heterogeneous corpora with up to 14,000 hours of heterogeneous speech, ten pre-trained SSL wav2vec 2.0 models containing from 26 million to one billion learnable parameters shared with the community, and an evaluation protocol made of six downstream tasks to complement existing benchmarks. LeBenchmark 2.0 also presents unique perspectives on pre-trained SSL models for speech with the investigation of frozen versus fine-tuned downstream models, task-agnostic versus task-specific pre-trained models as well as a discussion on the carbon footprint of large-scale model training.
翻訳日:2023-09-12 12:28:16 公開日:2023-09-11
# 臨界点を越えた量子多体系の不変系制御

Invariant-based control of quantum many-body systems across critical points ( http://arxiv.org/abs/2309.05469v1 )

ライセンス: Link先を確認
Hilario Espin\'os, Loris Maria Cangemi, Amikam Levy, Ricardo Puebla, Erik Torrontegui(参考訳) 量子多体系は、量子ベースの技術や基礎物理学の研究において重要な要素として出現している。 この文脈では、量子相転移における高速かつ高忠実な進化を可能にする制御プロトコルを見つけることが特に興味深い。 理想的には、このようなコントロールはシステムサイズに合わせてスケーラブルで、制御可能で不要な余分なインタラクションを必要としないべきです。 さらに、その性能は潜在的な欠陥に対して堅牢であるべきである。 ここでは,多体系の最低エネルギー部分空間における完全断熱的な進化を保証し,これら全ての要件を満たせる不変量に基づく制御手法を考案する。 このように、Kibble-Zurekのスケーリング法則は崩壊し、変更可能で、より優れたスケーリング行動へと繋がる。 本研究は, 横フィールドIsingモデルと長距離Kokuevモデルにおいて, 詳細な数値シミュレーションを行い, ノイズ制御や障害に対する堅牢性を示す。

Quantum many-body systems are emerging as key elements in the quest for quantum-based technologies and in the study of fundamental physics. In this context, finding control protocols that allow for fast and high fidelity evolutions across quantum phase transitions is of particular interest. Ideally, such controls should be scalable with the system size and not require controllable and unwanted extra interactions. In addition, its performance should be robust against potential imperfections. Here we design an invariant-based control technique that ensures perfect adiabatic-like evolution in the lowest energy subspace of the many-body system, and is able to meet all these requirements -- tuning the controllable parameter according to the analytical control results in high-fidelity evolutions operating close to the speed limit, valid for any number particles. As such, Kibble-Zurek scaling laws break down, leading to tunable and much better time scaling behavior. We illustrate our findings by means of detailed numerical simulations in the transverse-field Ising and long-range Kitaev models and demonstrate the robustness against noisy controls and disorder.
翻訳日:2023-09-12 12:27:57 公開日:2023-09-11
# 量子コンピューティングによる金属-有機系フレームワーク設計

"Toward" Metal-Organic Framework Design by Quantum Computing ( http://arxiv.org/abs/2309.05465v1 )

ライセンス: Link先を確認
Kourosh Sayar Dogahe, Tamara Sarac, Delphine De Smedt, and Koen Bertels(参考訳) この記事は、2023年のデロイット量子気候チャレンジの文脈で行われた研究を要約している。 直接空気捕獲用金属有機物フレームワークの設計に不可欠なポテンシャルエネルギー表面スキャンのハイブリッド量子古典計算法を提案する。 この課題の主な目的は、量子コンピューティングを使うことの潜在的な利点を強調することである。 モデルの性能を評価するため,様々な計算フレームワークと手法を用いて全エネルギー計算を行った。 結果は、小さなスケールで、量子コンピューティングベースのモデルの潜在的な利点を示す。 我々は,メソッドベンチマークのための古典的モデル参照を定義することを目的とした。 pisqアプローチをハイブリッド量子古典計算モデルの開発と評価に利用することの最も重要な利点が示されている。

The article summarizes the study performed in the context of the Deloitte Quantum Climate Challenge in 2023. We present a hybrid quantum-classical method for calculating Potential Energy Surface scans, which are essential for designing Metal-Organic Frameworks for Direct Air Capture applications. The primary objective of this challenge was to highlight the potential advantages of employing quantum computing. To evaluate the performance of the model, we conducted total energy calculations using various computing frameworks and methods. The results demonstrate, at a small scale, the potential advantage of quantum computing-based models. We aimed to define relevant classical computing model references for method benchmarking. The most important benefits of using the PISQ approach for hybrid quantum-classical computational model development and assessment are demonstrated.
翻訳日:2023-09-12 12:27:37 公開日:2023-09-11
# テキストは全部必要なもの: phi-1.5テクニカルレポート

Textbooks Are All You Need II: phi-1.5 technical report ( http://arxiv.org/abs/2309.05463v1 )

ライセンス: Link先を確認
Yuanzhi Li, S\'ebastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee(参考訳) 私たちは、コヒーレントな英語を生成する1000万のパラメータモデルである \textbf{TinyStories} と、Pythonのコーディング性能が最先端に近い13億のパラメータモデルである \textbf{phi-1} について、より小さなTransformerベースの言語モデルのパワーについて調査を続けている。 The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. より一般的には、 \textbf{phi-1.5} は、非常に大きな llm の特徴の多くを示しており、どちらも良い -- "ステップ・バイ・ステップ" や、幻覚や有毒で偏った世代の可能性など、基本的なイン・コンテキスト学習を行う能力 -- と悪い -- がある。 我々は,これらの緊急トピックに関するさらなる研究を促進するために,textbf{phi-1.5}をオープンソース化した。

We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.
翻訳日:2023-09-12 12:27:27 公開日:2023-09-11
# センタネルの暴露:サイバーセキュリティピアレビューでAIのパフォーマンスを評価する

Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer Review ( http://arxiv.org/abs/2309.05457v1 )

ライセンス: Link先を確認
Liang Niu, Nian Xue, Christina P\"opper(参考訳) ピアレビュー(Peer Review)は、科学コミュニティが研究の進歩を評価するために使う手法である。 サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。 本稿では,ピアレビューの聖杯に触れ,アカデミックセキュリティカンファレンスのレビューにおいて,aiのパフォーマンスに光を当てることを目的とする。 具体的には,人間のレビュー者と機械学習モデルから得られた結果を比較し,レビュー結果の予測可能性について検討する。 本研究では,コンピュータサイエンスカンファレンスやarXivプレプリントWebサイトから数千の論文を収集し,包括的データセットを構築した。 収集したデータに基づいて、ChatGPTの予測能力と、様々な分類器を持つDoc2Vecモデルに基づく2段階分類手法を評価する。 Doc2Vecを用いた評価結果の予測実験では,ChatGPTよりも精度が高く,90%以上の精度が得られた。 実験結果を分析しながら、テストされたMLモデルの潜在的な利点と限界を同定する。 我々は、自動化されたサポートアプローチの恩恵を受けることができる論文レビュープロセス内の領域を探求するとともに、最先端のAI技術では一致しない特定の側面において、人間の知性の役割を認識できるようにする。

Peer review is the method employed by the scientific community for evaluating research advancements. In the field of cybersecurity, the practice of double-blind peer review is the de-facto standard. This paper touches on the holy grail of peer reviewing and aims to shed light on the performance of AI in reviewing for academic security conferences. Specifically, we investigate the predictability of reviewing outcomes by comparing the results obtained from human reviewers and machine-learning models. To facilitate our study, we construct a comprehensive dataset by collecting thousands of papers from renowned computer science conferences and the arXiv preprint website. Based on the collected data, we evaluate the prediction capabilities of ChatGPT and a two-stage classification approach based on the Doc2Vec model with various classifiers. Our experimental evaluation of review outcome prediction using the Doc2Vec-based approach performs significantly better than the ChatGPT and achieves an accuracy of over 90%. While analyzing the experimental results, we identify the potential advantages and limitations of the tested ML models. We explore areas within the paper-reviewing process that can benefit from automated support approaches, while also recognizing the irreplaceable role of human intellect in certain aspects that cannot be matched by state-of-the-art AI techniques.
翻訳日:2023-09-12 12:27:02 公開日:2023-09-11
# 共同テキストと音声表現を用いた拡散に基づく音声合成

Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation ( http://arxiv.org/abs/2309.05455v1 )

ライセンス: Link先を確認
Anna Deichler, Shivam Mehta, Simon Alexanderson, Jonas Beskow(参考訳) 本稿では,2023年度のGenEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challengeについて述べる。 我々の解は既存の拡散に基づく運動合成モデルに基づいている。 本研究では,これらのモダリティ間の意味的結合を学習するために,音声とジェスチャーの結合埋め込みを学習するCSMP(Contrative Speech and Motion Pretraining)モジュールを提案する。 CSMPモジュールの出力は拡散に基づくジェスチャー合成モデルにおける条件付け信号として使用され、意味論的に認識された音声合成を実現する。 提案項目のうち, 人的類似度が最も高く, 発話適性が最も高かった。 このことから,本システムは意味意味を持つエージェントにおいて,人間のような協調ジェスチャーを実現するための有望なアプローチであることが示唆された。

This paper describes a system developed for the GENEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challenge 2023. Our solution builds on an existing diffusion-based motion synthesis model. We propose a contrastive speech and motion pretraining (CSMP) module, which learns a joint embedding for speech and gesture with the aim to learn a semantic coupling between these modalities. The output of the CSMP module is used as a conditioning signal in the diffusion-based gesture synthesis model in order to achieve semantically-aware co-speech gesture generation. Our entry achieved highest human-likeness and highest speech appropriateness rating among the submitted entries. This indicates that our system is a promising approach to achieve human-like co-speech gestures in agents that carry semantic meaning.
翻訳日:2023-09-12 12:26:43 公開日:2023-09-11
# 文書理解のための長距離変圧器アーキテクチャ

Long-Range Transformer Architectures for Document Understanding ( http://arxiv.org/abs/2309.05503v1 )

ライセンス: Link先を確認
Thibault Douzon, Stefan Duffner, Christophe Garcia and J\'er\'emy Espinas(参考訳) リリース以来、トランスフォーマーは自然言語理解からコンピュータビジョンまで多くの分野に革命をもたらした。 Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではない。 しかし、自己注意演算の計算複雑性は、その能力を小さな列に制限する。 本稿では,複数ページの長い文書にトランスフォーマティブモデルを適用するための複数の戦略について検討する。 DUのための2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを導入する。 これらは長い列に対するトランスフォーマーの効率的な実装に基づいている。 長距離モデルは文書全体を効果的に処理でき、文書の長さによって損なわれない。 DUに適応し、数百万のドキュメントで事前トレーニングされた古典的なトランスフォーマーであるLayoutLMと比較する。 さらに,モデル効率を損なうことなく,関連するトークンに対して自己注意を導くための2次元相対注意バイアスを提案する。 情報検索における多ページ業務文書の改善を観察し、より小さなシーケンスで少ない性能コストで処理する。 相対的な2次元注意は, 正常および長距離モデルの両方において高密度テキストに有効であることが判明した。

Since their release, Transformers have revolutionized many fields from Natural Language Understanding to Computer Vision. Document Understanding (DU) was not left behind with first Transformer based models for DU dating from late 2019. However, the computational complexity of the self-attention operation limits their capabilities to small sequences. In this paper we explore multiple strategies to apply Transformer based models to long multi-page documents. We introduce 2 new multi-modal (text + layout) long-range models for DU. They are based on efficient implementations of Transformers for long sequences. Long-range models can process whole documents at once effectively and are less impaired by the document's length. We compare them to LayoutLM, a classical Transformer adapted for DU and pre-trained on millions of documents. We further propose 2D relative attention bias to guide self-attention towards relevant tokens without harming model efficiency. We observe improvements on multi-page business documents on Information Retrieval for a small performance cost on smaller sequences. Relative 2D attention revealed to be effective on dense text for both normal and long-range models.
翻訳日:2023-09-12 12:19:15 公開日:2023-09-11
# 量子最適化による炭素排出削減のための動的価格インセンティブ

Dynamic Price Incentivization for Carbon Emission Reduction using Quantum Optimization ( http://arxiv.org/abs/2309.05502v1 )

ライセンス: Link先を確認
David Bucher, Jonas N\"u{\ss}lein, Corey O'Meara, Ivan Angelov, Benedikt Wimmer, Kumar Ghosh, Giorgio Cortiana and Claudia Linnhoff-Popien(参考訳) デマンドサイド・レスポンス(Demand Side Response, DSR)は、消費者が電気需要の管理に積極的に参加できるようにする戦略である。 高需要時のグリッドの歪みを緩和し、よりバランスよく効率的な電気資源の利用を促進することを目的としている。 電力消費パターンを調整するために消費者に個別価格インセンティブを提供するディスカウントスケジューリングを通じてDSRを実装している。 個々の顧客消費に対する割引を調整するため、ディスカウントスケジューリング問題(DSP)は大規模な組合せ最適化タスクとなる。 そこで我々は,d-wave の leap hybrid cloud を用いたハイブリッド量子コンピューティング手法を採用する。 本稿では,従来の汎用オプティマイザであるGurobiと比較して,Leapの性能が向上したことを示す。 さらに, DSP の特殊分解アルゴリズムを提案し, 例外的な解品質を維持しつつ, 問題サイズを著しく削減する。 実世界のデータに基づいて生成された合成データと実データを組み合わせて、異なるアプローチのパフォーマンスをベンチマークします。

Demand Side Response (DSR) is a strategy that enables consumers to actively participate in managing electricity demand. It aims to alleviate strain on the grid during high demand and promote a more balanced and efficient use of electricity resources. We implement DSR through discount scheduling, which involves offering discrete price incentives to consumers to adjust their electricity consumption patterns. Since we tailor the discounts to individual customers' consumption, the Discount Scheduling Problem (DSP) becomes a large combinatorial optimization task. Consequently, we adopt a hybrid quantum computing approach, using D-Wave's Leap Hybrid Cloud. We observe an indication that Leap performs better compared to Gurobi, a classical general-purpose optimizer, in our test setup. Furthermore, we propose a specialized decomposition algorithm for the DSP that significantly reduces the problem size, while maintaining an exceptional solution quality. We use a mix of synthetic data, generated based on real-world data, and real data to benchmark the performance of the different approaches.
翻訳日:2023-09-12 12:19:00 公開日:2023-09-11
# Black-Box分析: 法的テクストの細部処理における時間的GPT

Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task ( http://arxiv.org/abs/2309.05501v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Randy Goebel, Francesca Toni, Kostas Stathis, Ken Satoh(参考訳) GPT(Generative Pre-trained Transformer)モデルの進化は、様々な自然言語処理アプリケーション、特に法的テキストエンターテイメントにおいて大きな進歩をもたらした。 本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能分析を行う。 この研究は平成18年(2006年)から昭和3年(2021年)にかけてのデータを網羅し、異なる期間にわたる日本の法令における包括関係を識別するモデルの能力を探究した。 予備実験の結果から,法的テキスト処理作業におけるモデルの強みと弱み,およびモデル性能におけるパターンについて,興味深い知見が得られた。 非公開のアーキテクチャと重み付けを持つプロプライエタリなモデルでは、ブラックボックス分析が彼らの能力を評価する上で不可欠になる。 トレーニングデータ分布の影響とモデルの一般化可能性への影響について考察する。 この分析は将来の研究の基盤として機能し、GPTベースのモデルを最適化し、法的な情報抽出と応用に成功させることを目指している。

The evolution of Generative Pre-trained Transformer (GPT) models has led to significant advancements in various natural language processing applications, particularly in legal textual entailment. We present an analysis of GPT-3.5 (ChatGPT) and GPT-4 performances on COLIEE Task 4 dataset, a prominent benchmark in this domain. The study encompasses data from Heisei 18 (2006) to Reiwa 3 (2021), exploring the models' abilities to discern entailment relationships within Japanese statute law across different periods. Our preliminary experimental results unveil intriguing insights into the models' strengths and weaknesses in handling legal textual entailment tasks, as well as the patterns observed in model performance. In the context of proprietary models with undisclosed architectures and weights, black-box analysis becomes crucial for evaluating their capabilities. We discuss the influence of training data distribution and the implications on the models' generalizability. This analysis serves as a foundation for future research, aiming to optimize GPT-based models and enable their successful adoption in legal information extraction and entailment applications.
翻訳日:2023-09-12 12:18:44 公開日:2023-09-11
# NeCo@ALQAC 2023: データエンリッチメントによる低リソース言語のための法的ドメイン知識獲得

NeCo@ALQAC 2023: Legal Domain Knowledge Acquisition for Low-Resource Languages through Data Enrichment ( http://arxiv.org/abs/2309.05500v1 )

ライセンス: Link先を確認
Hai-Long Nguyen, Dieu-Quynh Nguyen, Hoang-Trung Nguyen, Thu-Trang Pham, Huu-Dong Nguyen, Thach-Anh Nguyen, Thi-Hai-Yen Vuong, Ha-Thanh Nguyen(参考訳) 近年、自然言語処理は法領域を含む様々な分野で大きな人気を集めている。 本稿では,NeCo Teamのベトナム語テキスト処理タスクに対するソリューションをALQAC 2023 (Automated Legal Question Answering Competition 2023) に提示し,データエンリッチメントによる低リソース言語に対する法的ドメイン知識獲得に着目した。 法律文書検索タスクでは,類似度ランキングと深層学習モデルを組み合わせた手法が採用されているが,第2の課題では,質問に対して関連する法的項目から回答を抽出する必要があるため,様々な質問タイプを扱うための適応的手法が提案されている。 提案手法は,法律分野,特に低リソース言語における質問応答システムの潜在的メリットと有効性を実証し,両課題において優れた結果を得る。

In recent years, natural language processing has gained significant popularity in various sectors, including the legal domain. This paper presents NeCo Team's solutions to the Vietnamese text processing tasks provided in the Automated Legal Question Answering Competition 2023 (ALQAC 2023), focusing on legal domain knowledge acquisition for low-resource languages through data enrichment. Our methods for the legal document retrieval task employ a combination of similarity ranking and deep learning models, while for the second task, which requires extracting an answer from a relevant legal article in response to a question, we propose a range of adaptive techniques to handle different question types. Our approaches achieve outstanding results on both tasks of the competition, demonstrating the potential benefits and effectiveness of question answering systems in the legal field, particularly for low-resource languages.
翻訳日:2023-09-12 12:18:22 公開日:2023-09-11
# Zero-Shot Co-Salient Object Detection Framework

Zero-Shot Co-salient Object Detection Framework ( http://arxiv.org/abs/2309.05499v1 )

ライセンス: Link先を確認
Haoke Xiao and Lv Tang and Bo Li and Zhiming Luo and Shaozi Li(参考訳) Co-salient Object Detection (CoSOD)は、人間の視覚システムの能力を再現して、画像のコレクション内の共通かつ健全なオブジェクトを認識する。 近年のディープラーニングモデルの発展にもかかわらず、これらのモデルはよく注釈付きCoSODデータセットによるトレーニングに依存している。 トレーニングフリーのゼロショットCoSODフレームワークの探索は制限されている。 本稿では,基礎となるコンピュータビジョンモデルのゼロショット転送機能からインスピレーションを得て,これらのモデルを利用した最初のゼロショットCoSODフレームワークを提案する。 これを実現するため,提案フレームワークではグループプロンプト生成(gpg)モジュールと協調マップ生成(cmp)モジュールという2つの新しいコンポーネントを導入する。 広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。 提案手法は,既存の非教師付き手法を上回り,2020年以前に開発された完全監督型手法を上回ってさえも2022年以前に開発された完全監督型手法との競争力を維持している。

Co-salient Object Detection (CoSOD) endeavors to replicate the human visual system's capacity to recognize common and salient objects within a collection of images. Despite recent advancements in deep learning models, these models still rely on training with well-annotated CoSOD datasets. The exploration of training-free zero-shot CoSOD frameworks has been limited. In this paper, taking inspiration from the zero-shot transfer capabilities of foundational computer vision models, we introduce the first zero-shot CoSOD framework that harnesses these models without any training process. To achieve this, we introduce two novel components in our proposed framework: the group prompt generation (GPG) module and the co-saliency map generation (CMP) module. We evaluate the framework's performance on widely-used datasets and observe impressive results. Our approach surpasses existing unsupervised methods and even outperforms fully supervised methods developed before 2020, while remaining competitive with some fully supervised methods developed before 2022.
翻訳日:2023-09-12 12:18:07 公開日:2023-09-11
# twitterデータを用いたパーソナリティ検出と分析

Personality Detection and Analysis using Twitter Data ( http://arxiv.org/abs/2309.05497v1 )

ライセンス: Link先を確認
Abhilash Datta, Souvic Chakraborty, Animesh Mukherjee(参考訳) パーソナリティタイプは、説明可能な形式で人間の特性に関する関連情報を保持するため、様々な分野で重要である。 彼らはしばしば特定の環境における人の行動のよい予測者であり、候補の選択からマーケティングやメンタルヘルスまで幅広い応用がある。 近年,テキストからのパーソナリティ自動検出が計算機言語学で注目されている。 ほとんどのパーソナリティ検出と分析手法は小さなデータセットに注目しており、実験的な観察は制限されることが多い。 このギャップを埋めるため、我々は、myers-briggs personality type (mbti) 予測タスクのために、1億5200万のツイートと56万のデータポイントを持つ研究コミュニティのための、最大でキュレートされたデータセットの収集とリリースにフォーカスしています。 データパターンをより良く分析し、結論を推測するために、データセットに関する広範囲な質的、定量的な研究を行いました。 興味深い分析結果が自然直感にどのように従うかを示す。 また、データセットに対するベースラインのパフォーマンスを示すために、一連のアブレーション研究も行っています。

Personality types are important in various fields as they hold relevant information about the characteristics of a human being in an explainable format. They are often good predictors of a person's behaviors in a particular environment and have applications ranging from candidate selection to marketing and mental health. Recently automatic detection of personality traits from texts has gained significant attention in computational linguistics. Most personality detection and analysis methods have focused on small datasets making their experimental observations often limited. To bridge this gap, we focus on collecting and releasing the largest automatically curated dataset for the research community which has 152 million tweets and 56 thousand data points for the Myers-Briggs personality type (MBTI) prediction task. We perform a series of extensive qualitative and quantitative studies on our dataset to analyze the data patterns in a better way and infer conclusions. We show how our intriguing analysis results often follow natural intuition. We also perform a series of ablation studies to show how the baselines perform for our dataset.
翻訳日:2023-09-12 12:17:50 公開日:2023-09-11
# crisistransformers: 危機関連ソーシャルメディアテキストのための事前学習された言語モデルと文エンコーダ

CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts ( http://arxiv.org/abs/2309.05494v1 )

ライセンス: Link先を確認
Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera(参考訳) ソーシャルメディアプラットフォームは危機コミュニケーションにおいて不可欠な役割を担っているが、危機関連ソーシャルメディアのテキストを分析することは、その非公式な性質から困難である。 BERTやRoBERTaのようなトランスフォーマーベースの事前学習モデルは、様々なNLPタスクで成功したが、危機関連のテキストには適していない。 さらに、危機関連テキストのテキスト複雑度にかかわらず、汎用文エンコーダを用いて文埋め込みを生成する。 テキスト分類、セマンティック検索、クラスタリングなどの応用の進歩は、危機関連のテキストの効果的な処理に寄与する。 この研究は、危機情報文学におけるこれらのギャップを解決するために、CrisisTransformersを紹介します。CrisisTransformersは、事前訓練された言語モデルと文エンコーダのアンサンブルで、病気の発生、自然災害、紛争などを含む30以上の危機イベントに関連するツイートから、150億以上のワードトークンの広範なコーパスで訓練された。 我々は18の危機固有の公開データセット上で既存のモデルと危機トランスフォーマーを評価する。 我々の事前訓練されたモデルは、分類タスクにおける全てのデータセットで強いベースラインを上回り、最高のパフォーマンスの文エンコーダは、文章エンコーディングタスクの17.43%の最先端を改善する。 さらに,モデル初期化が収束に与える影響について検討し,意味的に意味のある文埋め込みの生成におけるドメイン固有モデルの重要性を評価する。 すべてのモデルは公開され(https://huggingface.co/crisistransformers)、危機に関連したソーシャルメディアテキストの分析に関わるタスクのロバストなベースラインとして機能すると予想されている。

Social media platforms play an essential role in crisis communication, but analyzing crisis-related social media texts is challenging due to their informal nature. Transformer-based pre-trained models like BERT and RoBERTa have shown success in various NLP tasks, but they are not tailored for crisis-related texts. Furthermore, general-purpose sentence encoders are used to generate sentence embeddings, regardless of the textual complexities in crisis-related texts. Advances in applications like text classification, semantic search, and clustering contribute to effective processing of crisis-related texts, which is essential for emergency responders to gain a comprehensive view of a crisis event, whether historical or real-time. To address these gaps in crisis informatics literature, this study introduces CrisisTransformers, an ensemble of pre-trained language models and sentence encoders trained on an extensive corpus of over 15 billion word tokens from tweets associated with more than 30 crisis events, including disease outbreaks, natural disasters, conflicts, and other critical incidents. We evaluate existing models and CrisisTransformers on 18 crisis-specific public datasets. Our pre-trained models outperform strong baselines across all datasets in classification tasks, and our best-performing sentence encoder improves the state-of-the-art by 17.43% in sentence encoding tasks. Additionally, we investigate the impact of model initialization on convergence and evaluate the significance of domain-specific models in generating semantically meaningful sentence embeddings. All models are publicly released (https://huggingface.co/crisistransformers), with the anticipation that they will serve as a robust baseline for tasks involving the analysis of crisis-related social media texts.
翻訳日:2023-09-12 12:17:34 公開日:2023-09-11
# マヨラナ・フェルミオンによるwiedemann-franzの法則違反時のパワーロースケーリング

Majorana fermion induced power-law scaling in the violation of Wiedemann-Franz law ( http://arxiv.org/abs/2309.05492v1 )

ライセンス: Link先を確認
Ritesh Das, Colin Benjamin(参考訳) マヨラナ境界状態 (MBS) による2次元トポロジカル絶縁体におけるウィーデマン・フランツ法 (WF) の違反について, 単一粒子像におけるローレンツ比を用いて検討した。 B\"ユティカー電圧温度プローブを用いた非弾性散乱によるMBSの存在と欠如におけるローレンツ比のスケーリングについて検討した。 我々は,位相的近藤系で動作するラッティンガー液体画像の量子ドット接合に見られる結果と比較した。 我々の設定におけるロレンツ比のスケーリングは、位相緩和と運動量緩和の両方が起こる場合に限ってルッティンガー液化のスケーリングに対応するが、位相緩和のみが起こる場合ではない。 このことは、マヨラナ境界状態の存在と非弾性散乱過程のタイプの間の相互作用が、2Dトポロジカル絶縁体におけるウィーデマン・フランツ則の違反に大きな影響を与えることを示唆している。

Violation of the Wiedemann-Franz (WF) law in a 2D topological insulator due to Majorana bound states (MBS) is studied via the Lorenz ratio in the single-particle picture. We study the scaling of the Lorenz ratio in the presence and absence of MBS with inelastic scattering modeled using a B\"uttiker voltage-temperature probe. We compare our results with that seen in a quantum dot junction in the Luttinger liquid picture operating in the topological Kondo regime. We find that the scaling of the Lorenz ratio in our setup corresponds to the scaling in the Luttinger-liquid setup only when both phase and momentum relaxation occur, but not when only phase relaxation occurs. This suggests that the interplay between the presence of Majorana bound states and the type of inelastic scattering process, can have a significant impact on the violation of the Wiedemann-Franz law in 2D topological insulators.
翻訳日:2023-09-12 12:17:00 公開日:2023-09-11
# 航空画像に基づく問合せ点を用いたセマンティックセグメンテーションの学習

Learning Semantic Segmentation with Query Points Supervision on Aerial Images ( http://arxiv.org/abs/2309.05490v1 )

ライセンス: Link先を確認
Santiago Rivier, Carlos Hinojosa, Silvio Giancola, Bernard Ghanem(参考訳) セマンティクスのセグメンテーションは、高解像度衛星画像を有意義な領域に分割するリモートセンシングにおいて重要である。 近年のディープラーニングは衛星画像のセグメンテーションを大幅に改善している。 しかし、これらのメソッドのほとんどは、高画質のピクセルレベルのアノテーションを必要とする完全に教師ありの設定で訓練されている。 本研究では,完全なマスクラベルではなくクエリポイントアノテーションのみに依存する意味セグメンテーションアルゴリズムを学習するための教師あり学習アルゴリズムを提案する。 提案手法は正確なセマンティックセグメンテーションを行い,手動アノテーションに必要なコストと時間を大幅に削減することで効率を向上する。 具体的にはスーパーピクセルを生成し、クエリポイントラベルを同様の意味的意味論をグループ化するスーパーピクセルに拡張する。 次に,スーパーピクセル擬似ラベルで部分的にラベル付けされた画像を用いて,意味セグメンテーションモデルを学習する。 航空画像データセットと異なるセマンティックセグメンテーションアーキテクチャを用いて、弱教師付きトレーニングアプローチをベンチマークし、アノテーションの労力を削減しつつ、完全に教師付きトレーニングと比較して、競争性能に到達できることを示す。

Semantic segmentation is crucial in remote sensing, where high-resolution satellite images are segmented into meaningful regions. Recent advancements in deep learning have significantly improved satellite image segmentation. However, most of these methods are typically trained in fully supervised settings that require high-quality pixel-level annotations, which are expensive and time-consuming to obtain. In this work, we present a weakly supervised learning algorithm to train semantic segmentation algorithms that only rely on query point annotations instead of full mask labels. Our proposed approach performs accurate semantic segmentation and improves efficiency by significantly reducing the cost and time required for manual annotation. Specifically, we generate superpixels and extend the query point labels into those superpixels that group similar meaningful semantics. Then, we train semantic segmentation models, supervised with images partially labeled with the superpixels pseudo-labels. We benchmark our weakly supervised training approach on an aerial image dataset and different semantic segmentation architectures, showing that we can reach competitive performance compared to fully supervised training while reducing the annotation effort.
翻訳日:2023-09-12 12:16:44 公開日:2023-09-11
# 散逸結合su-schrieffer-heegerモデルの位相遷移

Topological transitions in dissipatively coupled Su-Schrieffer-Heeger models ( http://arxiv.org/abs/2309.05479v1 )

ライセンス: Link先を確認
Jayakrishnan M. P. Nair, Marlan O. Scully, Girish S. Agarwal(参考訳) 非エルミート位相現象は近年物理学者の間で大きな関心を集めている。 本稿では,消散結合したsu-schrieffer-heeger (ssh) 格子の物理,特にボソニックおよび電気的構成系について述べる。 電気回路の分野では、一連の抵抗結合型LCR回路が散逸結合型SSHモデルのトポロジーを模倣していることを示す。 さらに,非相互作用ボソニック発振器のセットを含む散逸結合型ssh格子を,他のシステム時間スケールと比較してかなり小さな寿命を持つモードの工学的貯水池に弱結合する手法を定式化した。 さらに, ボゾン振動子間のコヒーレントカップリングを活性化することにより, 位相依存的なトポロジカル遷移と皮膚効果に起因したコヒーレント相互作用強度の位相によって制御できる非相反散発結合の出現を解明する。 私たちの分析は汎用的であり、例えば、光とマイクロ波の設定を含む大規模なシステムのアプロポであり、回路実装はそれらの中で最も単純である。

Non-Hermitian topological phenomena have gained much interest among physicists in recent years. In this paper, we expound on the physics of dissipatively coupled Su-Schrieffer-Heeger (SSH) lattices, specifically in systems with bosonic and electrical constituents. In the context of electrical circuits, we demonstrate that a series of resistively coupled LCR circuits mimics the topology of a dissipatively coupled SSH model. In addition, we foreground a scheme to construct dissipatively coupled SSH lattices involving a set of non-interacting bosonic oscillators weakly coupled to engineered reservoirs of modes possessing substantially small lifetimes when compared to other system timescales. Further, by activating the coherent coupling between bosonic oscillators, we elucidate the emergence of non-reciprocal dissipative coupling which can be controlled by the phase of the coherent interaction strength precipitating in phase-dependent topological transitions and skin effect. Our analyses are generic, apropos of a large class of systems involving, for instance, optical and microwave settings, while the circuit implementation represents the most straightforward of them.
翻訳日:2023-09-12 12:16:26 公開日:2023-09-11
# ReSimAD:ソース再構成とターゲットシミュレーションによる自律走行のためのゼロショット3Dドメイン転送

ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation ( http://arxiv.org/abs/2309.05527v1 )

ライセンス: Link先を確認
Bo Zhang, Xinyu Cai, Jiakang Yuan, Donglin Yang, Jianfei Guo, Renqiu Xia, Botian Shi, Min Dou, Tao Chen, Si Liu, Junchi Yan, Yu Qiao(参考訳) センサタイプの変更や地理的状況の変化といったドメインシフトは、従来のドメイン知識に依存する広告モデルは、追加コストなしで新たなドメインに直接デプロイできないため、自律運転(autonomous driving:ad)では一般的である。 本稿では,再構成・シミュレーション・パーセプション(resimad)スキームを提案することにより,ドメインシフトを緩和する新たな視点とアプローチを提案する。 具体的には、暗黙的な再構築プロセスは、以前のドメインからの知識に基づいており、ドメイン関連の知識をドメイン不変表現である \textit{e.}, 3D シーンレベルのメッシュに変換することを目的としている。 また、上記再構成された3dメッシュ上では、複数の新規ドメインのポイントクラウドシミュレーションプロセスが条件付けされ、ターゲット領域ライクなシミュレーションサンプルが得られるため、その後の知覚プロセスのための新しいドメインデータの収集と注釈付けのコストが削減される。 実験では, Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCE, \textit{etc} など, 異なる領域の状況について検討し, ReSimAD を用いた目標領域認識の検証を行う。 その結果,本手法は,3次元事前学習を約束する領域一般化能力の向上に有効であることが示された。

Domain shifts such as sensor type changes and geographical situation variations are prevalent in Autonomous Driving (AD), which poses a challenge since AD model relying on the previous-domain knowledge can be hardly directly deployed to a new domain without additional costs. In this paper, we provide a new perspective and approach of alleviating the domain shifts, by proposing a Reconstruction-Simulation-Perception (ReSimAD) scheme. Specifically, the implicit reconstruction process is based on the knowledge from the previous old domain, aiming to convert the domain-related knowledge into domain-invariant representations, \textit{e.g.}, 3D scene-level meshes. Besides, the point clouds simulation process of multiple new domains is conditioned on the above reconstructed 3D meshes, where the target-domain-like simulation samples can be obtained, thus reducing the cost of collecting and annotating new-domain data for the subsequent perception process. For experiments, we consider different cross-domain situations such as Waymo-to-KITTI, Waymo-to-nuScenes, Waymo-to-ONCE, \textit{etc}, to verify the \textbf{zero-shot} target-domain perception using ReSimAD. Results demonstrate that our method is beneficial to boost the domain generalization ability, even promising for 3D pre-training.
翻訳日:2023-09-12 12:11:04 公開日:2023-09-11
# 6gによるフェデレーション学習の進展 - グラフベース分析による信頼型アーキテクチャ

Advancing Federated Learning in 6G: A Trusted Architecture with Graph-based Analysis ( http://arxiv.org/abs/2309.05525v1 )

ライセンス: Link先を確認
Wenxuan Ye, Chendi Qian, Xueli An, Xueqiang Yan, Georg Carle(参考訳) ネットワークアーキテクチャにネイティブAIサポートを統合することが6Gの重要な目的である。 フェデレートラーニング(FL)は潜在的なパラダイムとして登場し、中央サーバの調整の下でさまざまなデバイスにわたる分散AIモデルトレーニングを促進する。 しかし、悪意のある攻撃や、ローカルモデルの更新をスヌーピングするプライバシスヌープ、集中化の落とし穴など、いくつかの課題が6Gコンテキストでの幅広い応用を妨げる。 本研究は,DLT(Distributed Ledger Technology)とGNN(Graph Neural Network)を利用したFLをサポートするための信頼性の高いアーキテクチャを提案する。 まず,準同型暗号を用いた前処理層を組み込んで局所モデルをセキュアに集約し,個々のモデルのプライバシを保持する。 第二に、前処理層におけるクライアントとノード間の分散特性とグラフ構造を考えると、GNNは異常なローカルモデルを特定するために利用され、システムのセキュリティが向上する。 第3に、DLTは中央サーバの機能を実行する候補の1つを選択することにより、システムを分散化する。 さらに、DLTは不変かつ透明な台帳にデータ交換を記録することにより、信頼性の高いデータ管理を保証する。 新たなアーキテクチャの実現性はシミュレーションによって検証され、関連するベースラインと比較して異常なモデル検出とグローバルモデルの精度の向上が示されている。

Integrating native AI support into the network architecture is an essential objective of 6G. Federated Learning (FL) emerges as a potential paradigm, facilitating decentralized AI model training across a diverse range of devices under the coordination of a central server. However, several challenges hinder its wide application in the 6G context, such as malicious attacks and privacy snooping on local model updates, and centralization pitfalls. This work proposes a trusted architecture for supporting FL, which utilizes Distributed Ledger Technology (DLT) and Graph Neural Network (GNN), including three key features. First, a pre-processing layer employing homomorphic encryption is incorporated to securely aggregate local models, preserving the privacy of individual models. Second, given the distributed nature and graph structure between clients and nodes in the pre-processing layer, GNN is leveraged to identify abnormal local models, enhancing system security. Third, DLT is utilized to decentralize the system by selecting one of the candidates to perform the central server's functions. Additionally, DLT ensures reliable data management by recording data exchanges in an immutable and transparent ledger. The feasibility of the novel architecture is validated through simulations, demonstrating improved performance in anomalous model detection and global model accuracy compared to relevant baselines.
翻訳日:2023-09-12 12:10:39 公開日:2023-09-11
# 個別公正の再形式化

Re-formalization of Individual Fairness ( http://arxiv.org/abs/2309.05521v1 )

ライセンス: Link先を確認
Toshihiro Kamishima(参考訳) 個々人の公平性の概念は、アリストテレスのように議論されている「ケースのように扱う」という倫理的原則の形式化である。 公正を意識した機械学習の文脈で、Dworkらはまずこの概念を定式化した。 形式化において、不公平な空間における同様のデータの対は、公正な空間における同様の位置にマッピングされるべきである。 本稿では,個人が規定する統計的独立性により,個人的公正性を再形成することを提案する。 この再形式化には以下のメリットがある。 まず、私たちの形式化はDworkなどと互換性があります。 第二に、我々の形式化は、個々人の公正さと公平性の概念、等化確率または十分性、および統計パリティを組み合わせることができる。 第三に、それらの形式化は、公正な予測を行うためのプロセス前アプローチを暗黙的に仮定するが、我々の形式化はプロセス内アプローチやプロセス後アプローチに適用できる。

The notion of individual fairness is a formalization of an ethical principle, "Treating like cases alike," which has been argued such as by Aristotle. In a fairness-aware machine learning context, Dwork et al. firstly formalized the notion. In their formalization, a similar pair of data in an unfair space should be mapped to similar positions in a fair space. We propose to re-formalize individual fairness by the statistical independence conditioned by individuals. This re-formalization has the following merits. First, our formalization is compatible with that of Dwork et al. Second, our formalization enables to combine individual fairness with the fairness notion, equalized odds or sufficiency, as well as statistical parity. Third, though their formalization implicitly assumes a pre-process approach for making fair prediction, our formalization is applicable to an in-process or post-process approach.
翻訳日:2023-09-12 12:10:16 公開日:2023-09-11
# NExT-GPT: 任意のマルチモーダルLCM

NExT-GPT: Any-to-Any Multimodal LLM ( http://arxiv.org/abs/2309.05519v1 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua(参考訳) 最近、MM-LLM(Multimodal Large Language Models)は、エキサイティングな進歩を遂げているが、主に、複数のモーダルでコンテンツを生成する能力のない、入力側のマルチモーダル理解の限界に陥る。 人間は常に世界を理解し、様々なモダリティを通じて人々とコミュニケーションをとるので、あらゆるモダリティでコンテンツを受け入れ、届けることのできるMM-LLMを開発することは、人間レベルのAIにとって不可欠である。 このギャップを埋めるために,NExT-GPTという汎用的なMM-LLMシステムを提案する。 llmをマルチモーダル適応器と異なる拡散デコーダに接続し、next-gptが入力を知覚し、テキスト、画像、ビデオ、音声の任意の組み合わせで出力を生成する。 既存のよく訓練された高性能エンコーダとデコーダを活用することで、NEXT-GPTは特定の射影層の少ないパラメータ(1%)で調整される。 さらに,モダリティスイッチング命令チューニング(mosit)を導入し,複雑なクロスモーダル意味理解とコンテンツ生成を付与されたnext-gptに基づくmositの高品質データセットを手作業で収集する。 全体として、我々の研究は、普遍的なモダリティをモデル化できるAIエージェントを構築する可能性を示し、コミュニティにおけるより人間らしいAI研究への道を開いた。

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community.
翻訳日:2023-09-12 12:10:03 公開日:2023-09-11
# 時間的損失を考慮した知覚における時間的特性の爆発によるストリームベースアクティブラーニング

Stream-based Active Learning by Exploiting Temporal Properties in Perception with Temporal Predicted Loss ( http://arxiv.org/abs/2309.05517v1 )

ライセンス: Link先を確認
Sebastian Schmidt (BMW and TUM) and Stephan G\"unnemann (TUM)(参考訳) Active Learning(AL)は、ラベル付けするインスタンスをインテリジェントに選択することで、マシンラーニングモデルをトレーニングするために必要なラベル付きデータの量を削減する。 古典的なプールベースのalでは、データセンタにすべてのデータが存在する必要があるため、ディープラーニングに必要なデータ量の増加が難しくなる可能性がある。 しかし、モバイルデバイスや自動運転車のようなロボット上のALは、データセンターに到達する前に知覚センサーストリームからデータをフィルタリングすることができる。 本研究では,このような画像ストリームに対する時間的特性を活用し,新しい時間的損失予測法を提案する。 ストリームベースの設定を適切に評価するために、gta v streetとa2d2 streetsデータセットを導入し、両方とも公開しました。 実験の結果,不確実性に基づく手法では選択の多様性が著しく向上することがわかった。 知覚アプリケーションではプールベースのアプローチが一般的であるため、プールベースとストリームベースのalを比較して、tplが異なるモデルに対して最先端のプールやストリームベースのアプローチよりも優れています。 TPLは、プールベースの手法よりもはるかに高速でありながら、2.5プリセプションポイント (pp) の必要なデータが少ないことを示した。

Active learning (AL) reduces the amount of labeled data needed to train a machine learning model by intelligently choosing which instances to label. Classic pool-based AL requires all data to be present in a datacenter, which can be challenging with the increasing amounts of data needed in deep learning. However, AL on mobile devices and robots, like autonomous cars, can filter the data from perception sensor streams before reaching the datacenter. We exploited the temporal properties for such image streams in our work and proposed the novel temporal predicted loss (TPL) method. To evaluate the stream-based setting properly, we introduced the GTA V streets and the A2D2 streets dataset and made both publicly available. Our experiments showed that our approach significantly improves the diversity of the selection while being an uncertainty-based method. As pool-based approaches are more common in perception applications, we derived a concept for comparing pool-based and stream-based AL, where TPL out-performed state-of-the-art pool- or stream-based approaches for different models. TPL demonstrated a gain of 2.5 precept points (pp) less required data while being significantly faster than pool-based methods.
翻訳日:2023-09-12 12:09:35 公開日:2023-09-11
# LLMの量子化のための符号付き勾配線による軽量ラウンドリングの最適化

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs ( http://arxiv.org/abs/2309.05516v1 )

ライセンス: Link先を確認
Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv(参考訳) 言語モデル(LLM)は、言語関連タスクの実行において、その例外的な能力を証明している。 しかし、メモリとストレージの要求がかなり大きいため、デプロイメントには重大な課題が伴う。 この問題に対して、特に3ビットと4ビットの重みのみの量子化が最も有効な解の1つとして登場した。 ビット数が減少すると量子化グリッドは拡大し、上下ラウンドの重要性が強調される。 従来の研究では、乱れの追加による微調整と下向きの丸めが精度を高めることが実証されているが、これらの乱れの正確かつ限定的な境界によって、丸め値を変更する閾値のみが重要である。 そこで本研究では,重み付け作業の最適化のための簡潔かつ高効率な手法を提案する。 我々の手法はSignRoundと呼ばれ、符号付き勾配勾配を用いた軽量なブロックワイドチューニングを伴い、400ステップ以内で優れた結果が得られる。 signroundは、確立された rounding-to-nearest (rtn) のベースラインを上回り、追加の推論オーバーヘッドを導入することなく、最近のメソッドと驚くほど競合する。 ソースコードはhttps://github.com/intel/neural-compressor.comで公開される。

Large Language Models (LLMs) have proven their exceptional capabilities in performing language-related tasks. However, their deployment poses significant challenges due to their considerable memory and storage requirements. In response to this issue, weight-only quantization, particularly 3 and 4-bit weight-only quantization, has emerged as one of the most viable solutions. As the number of bits decreases, the quantization grid broadens, thus emphasizing the importance of up and down rounding. While previous studies have demonstrated that fine-tuning up and down rounding with the addition of perturbations can enhance accuracy in some scenarios, our study is driven by the precise and limited boundary of these perturbations, where only the threshold for altering the rounding value is of significance. Consequently, we propose a concise and highly effective approach for optimizing the weight rounding task. Our method, named SignRound, involves lightweight block-wise tuning using signed gradient descent, enabling us to achieve outstanding results within 400 steps. SignRound outperforms the established baseline of rounding-to-nearest (RTN) and competes impressively against recent methods, without introducing additional inference overhead. The source code will be publicly available at https://github.com/intel/neural-compressor soon.
翻訳日:2023-09-12 12:09:14 公開日:2023-09-11
# マルチstakeholder job recommenderシステム説明のための共同設計研究

A Co-design Study for Multi-Stakeholder Job Recommender System Explanations ( http://arxiv.org/abs/2309.05507v1 )

ライセンス: Link先を確認
Roan Schellingerhout, Francesco Barile, Nava Tintarev(参考訳) 近年の法律では、多くの企業、特に採用のようないわゆる「ハイリスク」領域において、eXPlainable Artificial Intelligence(XAI)の需要が大幅に増加した。 採用の中では、主に求人推薦システム(JRS)という形でAIが普及し、候補者と空席を一致させようとしており、その逆も行われている。 しかし、一般のXAI技術は、関係する個人の異なるレベルの専門知識のために、この領域では不足することが多く、説明の一般化が困難である。 異なる利害関係者タイプ(候補者、採用者、企業)の説明的嗜好を決定するため、半構造化面接ガイドを作成し、検証した。 接地理論を用いて、これらのインタビューの結果を構造的に分析し、異なる利害関係者タイプが説明の好みに強く異なることを見出した。 候補者は、潜在的なマッチを迅速に判断できる簡潔でテキスト的な説明を好むことを示した。 一方、採用マネージャはビジュアルグラフに基づく説明を好み、より技術的で包括的な概要を一目で見ることができます。 採用担当者は、試合の双方を納得させるため、より徹底した説明が望ましいと感じた。 これらの知見に基づき,3種類の利害関係者の要求を満たす説明インタフェースの設計指針について述べる。 さらに,様々な利害関係者タイプの説明選好を決定するための今後の研究を支援する,検証済み面接ガイドを提供する。

Recent legislation proposals have significantly increased the demand for eXplainable Artificial Intelligence (XAI) in many businesses, especially in so-called `high-risk' domains, such as recruitment. Within recruitment, AI has become commonplace, mainly in the form of job recommender systems (JRSs), which try to match candidates to vacancies, and vice versa. However, common XAI techniques often fall short in this domain due to the different levels and types of expertise of the individuals involved, making explanations difficult to generalize. To determine the explanation preferences of the different stakeholder types - candidates, recruiters, and companies - we created and validated a semi-structured interview guide. Using grounded theory, we structurally analyzed the results of these interviews and found that different stakeholder types indeed have strongly differing explanation preferences. Candidates indicated a preference for brief, textual explanations that allow them to quickly judge potential matches. On the other hand, hiring managers preferred visual graph-based explanations that provide a more technical and comprehensive overview at a glance. Recruiters found more exhaustive textual explanations preferable, as those provided them with more talking points to convince both parties of the match. Based on these findings, we describe guidelines on how to design an explanation interface that fulfills the requirements of all three stakeholder types. Furthermore, we provide the validated interview guide, which can assist future research in determining the explanation preferences of different stakeholder types.
翻訳日:2023-09-12 12:08:52 公開日:2023-09-11
# ワイル点生成と消滅の特異性理論

Singularity theory of Weyl-point creation and annihilation ( http://arxiv.org/abs/2309.05506v1 )

ライセンス: Link先を確認
Gy\"orgy Frank, Gerg\H{o} Pint\'er, Andr\'as P\'alyi(参考訳) ワイル点 (wp) はロバストなスペクトル縮退であり、非零位相電荷によって保護されるため、小さな摂動では分割できない。 より大きな摂動に対して、wpsは対向的に消滅し、2つの対向電荷を持つwpsが融合し、結果として生じる中性退化が消滅する。 中性変性は不安定であり、摂動の微調整が必要である。 複数のパラメータの微調整は、よりエキゾチックなWP合併につながる。 ワイル位相図の位相境界点、すなわち、ワイル点の合併が起こる制御パラメータ値は、等しい次元の多様体間の写像の特異性クラスに基づいて分類することができる。 この接続をワイル・ジョゼフソン回路(weyl-josephson circuit)で示し、4つのwpsの和合はツバメの特異点を描き、ランダムなbdgハミルトニアンでは折りたたみ線と尖点の豊かなパターンを明らかにした。 本研究では,ワイル相図の普遍的な幾何学的特徴を予測し,電子的(フォノニック,マグノニック,フォトニックなど)バンド構造モデルにおけるワイル点の生成と消滅に自然に一般化する。

Weyl points (WP) are robust spectral degeneracies, which can not be split by small perturbations, as they are protected by their non-zero topological charge. For larger perturbations, WPs can disappear via pairwise annihilation, where two oppositely charged WPs merge, and the resulting neutral degeneracy disappears. The neutral degeneracy is unstable, meaning that it requires the fine-tuning of the perturbation. Fine-tuning of more than one parameter can lead to more exotic WP mergers. In this work, we reveal and analyze a fundamental connection of the WP mergers and singularity theory: phase boundary points of Weyl phase diagrams, i.e., control parameter values where Weyl point mergers happen, can be classified according to singularity classes of maps between manifolds of equal dimension. We demonstrate this connection on a Weyl--Josephson circuit where the merger of 4 WPs draw a swallowtail singularity, and in a random BdG Hamiltonian which reveal a rich pattern of fold lines and cusp points. Our results predict universal geometrical features of Weyl phase diagrams, and generalize naturally to creation and annihilation of Weyl points in electronic (phononic, magnonic, photonic, etc) band-structure models, where Weyl phase transitions can be triggered by control parameters such as mechanical strain.
翻訳日:2023-09-12 12:08:27 公開日:2023-09-11
# 表現のみを共有する:フェデレートラーニングにおけるプライバシ-ユーティリティトレードオフの改善

Share Your Representation Only: Guaranteed Improvement of the Privacy-Utility Tradeoff in Federated Learning ( http://arxiv.org/abs/2309.05505v1 )

ライセンス: Link先を確認
Zebang Shen, Jiayuan Ye, Anmin Kang, Hamed Hassani, Reza Shokri(参考訳) 連邦学習における繰り返しパラメータ共有は、プライベートデータに関する重要な情報漏洩を引き起こし、データプライバシというその主な目的を破る。 この情報漏洩のリスクを軽減し、アートの段階的にプライベートなアルゴリズムを使用しても、無料ではない。 ランダム化されたメカニズムは、有用な表現関数でさえ学習におけるモデルの収束を防げる、特に(データの不均一性によって)分類関数上の局所モデルの間により不一致がある場合である。 本稿では,モデルのコンセンサス部分と異なるプライバシの保証を協調的に洗練させながら,個別のパーソナライゼーションに十分な自由を(解放せずに)個別に許容する表現的フェデレーション学習目標について考察する。 線形表現設定では, 対象が非凸であるのに対して, 提案する新しいアルゴリズムである \dpfedrep\ は, 線形レートで \emph{global optimal} 解を中心とするボールに収束し, ボール半径はプライバシー予算の相反に比例することを証明する。 この新たなユーティリティ分析により,$d$ が入力次元である$\sqrt{d}$ という係数によって,この問題に対する sota ユーティリティプライバシートレードオフが改善される。 提案手法をcifar10,cifar100,emnistの画像分類タスクで実証的に評価し,同じ小さなプライバシー予算の下で,以前の作業よりも大幅な性能向上を観察した。 コードは以下のリンクにある。 https://github.com/shenzebang/CENTAUR-Privacy-Federated-Representation-Learning。

Repeated parameter sharing in federated learning causes significant information leakage about private data, thus defeating its main purpose: data privacy. Mitigating the risk of this information leakage, using state of the art differentially private algorithms, also does not come for free. Randomized mechanisms can prevent convergence of models on learning even the useful representation functions, especially if there is more disagreement between local models on the classification functions (due to data heterogeneity). In this paper, we consider a representation federated learning objective that encourages various parties to collaboratively refine the consensus part of the model, with differential privacy guarantees, while separately allowing sufficient freedom for local personalization (without releasing it). We prove that in the linear representation setting, while the objective is non-convex, our proposed new algorithm \DPFEDREP\ converges to a ball centered around the \emph{global optimal} solution at a linear rate, and the radius of the ball is proportional to the reciprocal of the privacy budget. With this novel utility analysis, we improve the SOTA utility-privacy trade-off for this problem by a factor of $\sqrt{d}$, where $d$ is the input dimension. We empirically evaluate our method with the image classification task on CIFAR10, CIFAR100, and EMNIST, and observe a significant performance improvement over the prior work under the same small privacy budget. The code can be found in this link: https://github.com/shenzebang/CENTAUR-Privacy-Federated-Representation-Learning.
翻訳日:2023-09-12 12:08:02 公開日:2023-09-11
# 局所絡みの調整による多体量子状態における大域的相関のスイッチング

Switching global correlations on and off in a many-body quantum state by tuning local entanglement ( http://arxiv.org/abs/2309.05504v1 )

ライセンス: Link先を確認
Colin Benjamin, Aditya Dash(参考訳) 局所的に絡み合った量子ビットを持つ古典的1次元イジングモデルに基づく量子多体状態を考える。 このセットアップは、無限プレイヤーの量子囚人のジレンマゲームをモデル化することができ、各サイトは2つの絡み合ったプレイヤー(またはキュービット)を表す。 局所エンタングルメント $\gamma$ は 1D のイジング模型のサイトに置かれた2つのキュービットと、隣接するイジング模型のサイトの間の古典的な結合の間に置かれる。 これは、ある場所における局所的絡み合いが正確に大域的相関をキャンセルし、特定の場所における絡み合いを局所的に調整することで、強相関量子状態から非相関量子状態へ遷移し、その後相関関係のある古典状態へと遷移する人工量子多体状態を示す、という直観的な状況を指している。 言い換えれば、1次元イジング鎖の絡み合いの局所的チューニングにより、II型超伝導状態に類似した状態をシミュレートすることができる。

A quantum many-body state built on a classical 1D Ising model with locally entangled qubits is considered. This setup can model an infinite-player quantum Prisoner's dilemma game with each site representing two entangled players (or qubits). The local entanglement $\gamma$ between two qubits placed on a site in the 1D Ising model and classical coupling between adjacent sites of the Ising model has an apposite influence on qubits. It points to a counter-intuitive situation wherein local entanglement at a site can exactly cancel global correlations, signaling an artificial quantum many-body state wherein, by locally tuning the entanglement at a particular site, one can transition from a strongly correlated quantum state to an uncorrelated quantum state and then to a correlated classical state. In other words, we can simulate a state similar to a Type II superconducting state via local tuning of entanglement in a 1D Ising chain with entangled qubits.
翻訳日:2023-09-12 12:07:31 公開日:2023-09-11
# 静電容量化車両ルーティング問題に対する商用量子アニーリングソルバーの性能評価

Performance of Commercial Quantum Annealing Solvers for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2309.05564v1 )

ライセンス: Link先を確認
Salvatore Sinno, Thomas Gro{\ss}, Alan Mott, Arati Sahoo, Deepak Honnalli, Shruthi Thuravakkath, Bhavika Bhalgamiya(参考訳) 量子アニーリング(quantum annealing, qa)は、aqc(adiabatic quantum computation)プロセッサ上で動作し、組合せ最適化問題を解決するヒューリスティックな探索アルゴリズムである。 古典的ハードウェアに関する理論的研究やシミュレーションは奨励的な結果を示しているが、これらの分析はしばしば、環境干渉のない断熱的に閉じたシステムで計算が行われると仮定する。 したがって、実際の量子プラットフォームでの広範な実験的な測定がなければ、理論に基づく予測、古典的ハードウェアでのシミュレーション、あるいは限られたテストでは、現在の商業的能力を正確に評価することができない。 本研究では,cvrp (capacitated vehicle routing problem) に対する既知の解と比較して,商用量子アニーリングプラットフォームが提供する解の品質を評価した。 この研究は30時間以上にわたってQAの商用プラットフォームにアクセスし、問題の規模とその複雑さが解の精度と解を見つける時間にどのように影響するかを詳細に分析してきた。 その結果、絶対誤差は0.12から0.55であり、量子プロセッサユニット(QPU)時間は30から46マイクロ秒であることがわかった。 その結果,制約密度が大きくなると解の質は低下することがわかった。 したがって、問題の大きさ以上のモデル複雑性は重要な役割を担い、実用的な応用は制約密度を最小化する定式化を選択するべきである。

Quantum annealing (QA) is a heuristic search algorithm that can run on Adiabatic Quantum Computation (AQC) processors to solve combinatorial optimization problems. Although theoretical studies and simulations on classic hardware have shown encouraging results, these analyses often assume that the computation occurs in adiabatically closed systems without environmental interference. This is not a realistic assumption for real systems; therefore, without extensive empirical measurements on real quantum platforms, theory-based predictions, simulations on classical hardware or limited tests do not accurately assess the current commercial capabilities. This study has assessed the quality of the solution provided by a commercial quantum annealing platform compared to known solutions for the Capacitated Vehicle Routing Problem (CVRP). The study has conducted extensive analysis over more than 30 hours of access to QA commercial platforms to investigate how the size of the problem and its complexity impact the solution accuracy and the time used to find a solution. Our results have found that the absolute error is between 0.12 and 0.55, and the quantum processor unit (QPU) time is between 30 and 46 micro seconds. Our results show that as the constraint density increases, the quality of the solution degrades. Therefore, more than the problem size, the model complexity plays a critical role, and practical applications should select formulations that minimize the constraint density.
翻訳日:2023-09-12 12:01:41 公開日:2023-09-11
# 量子コンピュータのためのリアルタイム・スケーラブル・高速・高資源効率デコーダ

A real-time, scalable, fast and highly resource efficient decoder for a quantum computer ( http://arxiv.org/abs/2309.05558v1 )

ライセンス: Link先を確認
Ben Barber, Kenton M. Barnes, Tomasz Bialas, Okan Bu\u{g}dayc{\i}, Earl T. Campbell, Neil I. Gillespie, Kauser Johar, Ram Rajan, Adam W. Richardson, Luka Skoric, Canberk Topal, Mark L. Turner, Abbas B. Ziad(参考訳) 量子コンピュータは、従来のアプローチで現在難解な計算問題を解くことを約束する。 これは、量子コンピュータに必然的に存在するノイズが大規模に効率的に管理できる場合にのみ達成できる。 このプロセスの重要なコンポーネントは、システム内で発生するエラーを診断する古典的なデコーダである。 デコーダが十分に高速に動作しない場合、量子コンピュータの論理クロックレートが指数的に低下する。 さらに、デコーダは大規模システムへのスケーリングを可能にし、低温環境での運用を可能にするためにリソース効率が良い必要がある。 ここでは、両方の課題を克服するCollision Clusteringデコーダを紹介します。 私たちはfpgaとasicの両方でデコーダを実装しています。 我々は,回路レベルのノイズモデルを想定した主要な量子誤り訂正方式である表面符号の大規模インスタンス上での論理記憶実験をシミュレートする。 fpgaの復号周波数はメガヘルツを超え、例えば超伝導量子コンピュータに必要なデコーダの厳密な要求である。 881 qubit曲面コードをデコードするには、利用可能な論理計算要素の 4.5 % しか使用しない。 ASIC復号周波数は1057キュービットの表面符号のメガヘルツよりも高く、0.06 mm$^2$領域を占め、8mWの電力を消費する。 我々のデコーダは高性能かつ資源効率の両面に最適化されており、ハードウェア上での実装はフォールトトレラントな量子コンピュータの実現に有効である。

Quantum computers promise to solve computing problems that are currently intractable using traditional approaches. This can only be achieved if the noise inevitably present in quantum computers can be efficiently managed at scale. A key component in this process is a classical decoder, which diagnoses the errors occurring in the system. If the decoder does not operate fast enough, an exponential slowdown in the logical clock rate of the quantum computer occurs. Additionally, the decoder must be resource efficient to enable scaling to larger systems and potentially operate in cryogenic environments. Here we introduce the Collision Clustering decoder, which overcomes both challenges. We implement our decoder on both an FPGA and ASIC, the latter ultimately being necessary for any cost-effective scalable solution. We simulate a logical memory experiment on large instances of the leading quantum error correction scheme, the surface code, assuming a circuit-level noise model. The FPGA decoding frequency is above a megahertz, a stringent requirement on decoders needed for e.g. superconducting quantum computers. To decode an 881 qubit surface code it uses only $4.5\%$ of the available logical computation elements. The ASIC decoding frequency is also above a megahertz on a 1057 qubit surface code, and occupies 0.06 mm$^2$ area and consumes 8 mW of power. Our decoder is optimised to be both highly performant and resource efficient, while its implementation on hardware constitutes a viable path to practically realising fault-tolerant quantum computers.
翻訳日:2023-09-12 12:01:16 公開日:2023-09-11
# 事前学習型大言語モデルのネットOps能力に関する実証的研究

An Empirical Study of NetOps Capability of Pre-Trained Large Language Models ( http://arxiv.org/abs/2309.05557v1 )

ライセンス: Link先を確認
Yukai Miao, Yu Bai, Li Chen, Dan Li, Haifeng Sun, Xizheng Wang, Ziqiu Luo, Dapeng Sun, Xiuting Xu(参考訳) 大規模言語モデル(LLM)は人間の言語クエリに応答でき、ネットワークオペレーション(NetOps)における強力な潜在的なアプリケーションを示している。 大量のコモンセンス知識のおかげで、LLMは従来のモデルよりもはるかに優れた推論精度を達成し、一般化、推論、コード生成において強力な能力を持つ。 これらの能力は、自動化されたインテリジェントなNetOpsに決定的な向上をもたらす可能性がある。 しかし、LLMが様々なNetOpsタスクでどれだけうまく機能するかは、まだ解明されていない。 本研究では,NetOps の分野で選択した LLM の機能,強度,限界を体系的に評価する。 評価はNetOpsに関する5,732の質問の収集に基づいて行われ、ChatGPT、LLaMA、Falconなど26のパブリックドメイン LLM が含まれている。 また、収集したnetopsコーパスでこれらのllmのいくつかを微調整し、結果モデルを評価する。 この評価法は、一般的なドメイン LLM に対して広く採用されているベンチマークに、Chain-of-Thought Prompts と Retrieval-Augmented Generation を併用する。 その結果, GPT-4のみがNetOps認定試験に合格したのに対して, 他のLLMは精度がはるかに低いことがわかった。 しかし、LLaMA 2のようないくつかのオープンモデルは大きな可能性を秘めている。 さらに,モデルパラメータやプロンプトエンジニアリング,インストラクションの微調整などの要因の影響を評価する。 本研究は,NetOpsにおけるLCMの体系的評価に向けた最初の取り組みとして扱われる。 将来の研究のために評価コードとデータセットがリリースされる予定だ。

Large language models (LLMs) can respond to human language queries and have shown powerful potential applications in network operations (NetOps). Thanks to the large amount of commonsense knowledge inherent, LLMs achieve much better inference accuracy than traditional models and emerge with strong abilities in generalization, reasoning, and code generation. These abilities may have a crucial boost to automated and intelligent NetOps. However, it remains under-explored how well LLMs perform in various NetOps tasks. In this work, we make a systematic assessment of the capabilities, strengths, and limitations of selected LLMs in the field of NetOps. The evaluation is conducted on a collection of 5,732 questions about NetOps, encompassing 26 publicly available general-domain LLMs, including ChatGPT, LLaMA, Falcon, etc. We also finetune some of these LLMs with our collected NetOps corpus and evaluate the resulting models. The evaluation method follows the widely adopted benchmarks for general-domain LLMs, combined with Chain-of-Thought Prompts and Retrieval-Augmented Generation. The results show that only GPT-4 achieves high accuracy equivalent to passing the NetOps certification exam for humans, while all the other LLMs have much lower accuracy. However, some open models like LLaMA 2 still demonstrate significant potential. Furthermore, we evaluate the impact of factors such as model parameters, prompt engineering, instruction fine-tuning etc. This work shall be treated as the initial effort to systematic evaluation of LLMs in NetOps, and a more rigorous study is required for production use. The evaluation code and dataset will be released to benefit future research.
翻訳日:2023-09-12 12:00:53 公開日:2023-09-11
# OpenFashionCLIP: オープンソースのファッションデータによるビジョンとランゲージのコントラスト学習

OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data ( http://arxiv.org/abs/2309.05551v1 )

ライセンス: Link先を確認
Giuseppe Cartella, Alberto Baldrati, Davide Morelli, Marcella Cornia, Marco Bertini, Rita Cucchiara(参考訳) オンラインショッピングとeコマースは、顧客の要求を満たすためにスケーラブルで堅牢な機械学習ベースのソリューションを必要としている。 自動タグ付け分類とマルチモーダル検索の文脈において、先行研究は、低一般化可能な教師あり学習アプローチを定義するか、より再利用可能なCLIPベースの手法を定義する一方、クローズドソースデータによるトレーニングを行う。 本研究では,多様なドメインから派生したオープンソースファッションデータのみを取り入れた,視覚・言語間のコントラスト学習手法であるOpenFashionCLIPを提案する。 提案手法は,いくつかのタスクやベンチマークにおいて広範囲に検証され,実験結果から,領域外一般化能力と最先端手法に対する精度とリコールの両面において一貫した改善が示された。 ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/open-fashion-clip.comで公開されている。

The inexorable growth of online shopping and e-commerce demands scalable and robust machine learning-based solutions to accommodate customer requirements. In the context of automatic tagging classification and multimodal retrieval, prior works either defined a low generalizable supervised learning approach or more reusable CLIP-based techniques while, however, training on closed source data. In this work, we propose OpenFashionCLIP, a vision-and-language contrastive learning method that only adopts open-source fashion data stemming from diverse domains, and characterized by varying degrees of specificity. Our approach is extensively validated across several tasks and benchmarks, and experimental results highlight a significant out-of-domain generalization capability and consistent improvements over state-of-the-art methods both in terms of accuracy and recall. Source code and trained models are publicly available at: https://github.com/aimagelab/open-fashion-clip.
翻訳日:2023-09-12 12:00:26 公開日:2023-09-11
# 遠隔認識による説明学習

Distance-Aware eXplanation Based Learning ( http://arxiv.org/abs/2309.05548v1 )

ライセンス: Link先を確認
Misgina Tsighe Hagos, Niamh Belton, Kathleen M. Curran, Brian Mac Namee(参考訳) eXplanation Based Learning (XBL) は、インタラクティブな学習手法であり、その説明と対話することでディープラーニングモデルをトレーニングする透過的な方法を提供する。 XBLは、画像特徴のユーザアノテーションからの説明の偏りに基づいて、損失関数を拡張してモデルをペナルティ化する。 XBLの文献は主に視覚モデル説明と画像特徴アノテーションの交わりに依存している。 本稿では,学習者が学習データセットの重要な領域に集中するように訓練するカテゴリー的損失に対して,距離認識による説明損失を付加する手法を提案する。 勾配強調クラスアクティベーションマッピング(gradle-cams)のような視覚的モデル説明はアノテーションとして厳密に境界付けられておらず、それらの交点が関連する画像領域からのモデルの焦点のずれに関する完全な情報を提供しないため、距離は説明損失を計算するのに適切なアプローチである。 既存のメトリクスを用いたモデルの評価に加えて,既存のメトリクスよりもモデルの性能についてより有益な視覚的特徴属性に基づくモデル説明を評価するための解釈可能性指標を提案する。 3つの画像分類タスクにおける提案手法の性能を示す。

eXplanation Based Learning (XBL) is an interactive learning approach that provides a transparent method of training deep learning models by interacting with their explanations. XBL augments loss functions to penalize a model based on deviation of its explanations from user annotation of image features. The literature on XBL mostly depends on the intersection of visual model explanations and image feature annotations. We present a method to add a distance-aware explanation loss to categorical losses that trains a learner to focus on important regions of a training dataset. Distance is an appropriate approach for calculating explanation loss since visual model explanations such as Gradient-weighted Class Activation Mapping (Grad-CAMs) are not strictly bounded as annotations and their intersections may not provide complete information on the deviation of a model's focus from relevant image regions. In addition to assessing our model using existing metrics, we propose an interpretability metric for evaluating visual feature-attribution based model explanations that is more informative of the model's performance than existing metrics. We demonstrate performance of our proposed method on three image classification tasks.
翻訳日:2023-09-12 12:00:06 公開日:2023-09-11
# Kani: 言語モデルアプリケーションを構築するための軽量でハイハック可能なフレームワーク

Kani: A Lightweight and Highly Hackable Framework for Building Language Model Applications ( http://arxiv.org/abs/2309.05542v1 )

ライセンス: Link先を確認
Andrew Zhu, Liam Dugan, Alyssa Hwang, Chris Callison-Burch(参考訳) 言語モデルアプリケーションは、ツールの使用や検索の強化といった機能を含むように、ますます人気と複雑さを増しています。 しかし、そのようなアプリケーションのための既存のフレームワークはしばしば意見が分かれており、開発者がどのようにプロンプトをフォーマットするかを決め、カスタマイズ性と再現性に関する制限を課す。 これを解決するために、言語モデルアプリケーションを構築するための軽量でフレキシブルでモデルに依存しないオープンソースフレームワークであるkaniを紹介します。 Kaniは、モデルインターフェース、チャット管理、堅牢な関数呼び出しといった、チャットインタラクションのコアビルディングブロックをサポートすることで、開発者がさまざまな複雑な機能を実装するのに役立つ。 Kaniコア関数はすべて簡単にオーバーライド可能であり、開発者が自身のニーズに合わせて機能をカスタマイズできるようにドキュメント化されている。 これにより、研究者、趣味家、産業専門家が相互運用ときめ細かい制御を維持しつつ開発を加速する上で有用なツールとなる。

Language model applications are becoming increasingly popular and complex, often including features like tool usage and retrieval augmentation. However, existing frameworks for such applications are often opinionated, deciding for developers how their prompts ought to be formatted and imposing limitations on customizability and reproducibility. To solve this we present Kani: a lightweight, flexible, and model-agnostic open-source framework for building language model applications. Kani helps developers implement a variety of complex features by supporting the core building blocks of chat interaction: model interfacing, chat management, and robust function calling. All Kani core functions are easily overridable and well documented to empower developers to customize functionality for their own needs. Kani thus serves as a useful tool for researchers, hobbyists, and industry professionals alike to accelerate their development while retaining interoperability and fine-grained control.
翻訳日:2023-09-12 11:59:46 公開日:2023-09-11
# 量子局所テスト可能な符号のトレードオフ構成

Tradeoff Constructions for Quantum Locally Testable Codes ( http://arxiv.org/abs/2309.05541v1 )

ライセンス: Link先を確認
Adam Wills, Ting-Chun Lin, Min-Hsiu Hsieh(参考訳) 本研究では,新しいパラメータの量子ローカルテスト可能なコード(qltcs)の探索を継続し,新しいqltcを古いものにする3つの構成を提示する。 第一に、量子符号の音質をHastingsのqLDPC符号の重み付け構造(arXiv:2102.10030)で解析し、qLTCの重み付け手順を与える。 第二に、入力された量子コードの健全性と局所性の両方を保存することが知られている最初の製品構成である。 これは量子コードの次元を拡大するために利用することができ、そこでトレードオフが距離に置かれる。 最後に, AEL 距離増幅構造を qLTC の場合に初めて適用し, 将来, 高距離 qLTC を線形距離 qLTC に変換することができる。 これらの構造は、新しいパラメータを得るために、as-yet未発見の qLTC で使用することができるが、現在、ハイパースフィア製品コード arXiv:1608.05089 とヘミノビックコード arXiv:1911.03069 に応用できる。 特に、逆多対数音性、多項式距離、多項式次元を持つ唯一の既知符号は多項式局所性を持つ。 一定の局所性を持つような符号を得る。

In this work, we continue the search for quantum locally testable codes (qLTCs) of new parameters by presenting three constructions that can make new qLTCs from old. The first analyses the soundness of a quantum code under Hastings' weight reduction construction for qLDPC codes arXiv:2102.10030 to give a weight reduction procedure for qLTCs. Secondly, we exhibit the `identity product': the first product construction that is known to preserve both the soundness and locality of the inputted quantum code. This can be used to grow the dimension of a quantum code, where now the tradeoff is put onto the distance. Finally, we apply the AEL distance amplification construction to the case of qLTCs for the first time which could, in future, be used to convert high-distance qLTCs into linear distance qLTCs. These constructions can be used on as-yet undiscovered qLTCs to obtain new parameters, but we are able to apply these presently to the hypersphere product code arXiv:1608.05089 and the hemicubic code arXiv:1911.03069 to obtain many previously unknown parameters. In particular, the only previously known codes to have inverse polylogarithmic soundness, polynomial distance and polynomial dimension have polynomial locality. We obtain such codes with constant locality.
翻訳日:2023-09-12 11:59:31 公開日:2023-09-11
# PAI拡散:クラウド上でのテキスト-画像合成のためのオープン中国拡散モデルの家族の構築と実現

PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud ( http://arxiv.org/abs/2309.05534v1 )

ライセンス: Link先を確認
Chengyu Wang, Zhongjie Duan, Bingyan Liu, Xinyi Zou, Cen Chen, Kui Jia, Jun Huang(参考訳) 中国語のテキスト・ツー・イメージ合成は、大きな語彙サイズと複雑な文字関係のため、独特な課題を生んでいる。 既存の拡散モデルでは、テキスト記述から画像を生成することは約束されているが、ドメイン固有の文脈を無視することが多く、中国語を扱いにくい。 本稿では,これらの制約に対処する包括的フレームワークであるPAI-Diffusionを紹介する。 PAI-Diffusionは、一般とドメイン固有の中国の拡散モデルの両方を取り入れ、文脈に関連のある画像の生成を可能にする。 画像スタイルの微細な転送と画像編集にLoRAとControlNetを使用する可能性を探究し、画像生成の制御が強化されたユーザを力づける。 さらに、PAI-DiffusionはAlibaba CloudのMachine Learning Platform for AIとシームレスに統合され、アクセス可能でスケーラブルなソリューションを提供する。 ドメイン固有のものを含む、すべての中国の拡散モデルチェックポイント、LoRA、コントロールネットが公開されている。 ユーザフレンドリーな中国のWebUIとdiffusers-api弾性推論ツールキットもオープンソース化され、PAI-Diffusionモデルの様々な環境への展開が容易になり、中国語のテキスト・画像合成に有用なリソースとなっている。

Text-to-image synthesis for the Chinese language poses unique challenges due to its large vocabulary size, and intricate character relationships. While existing diffusion models have shown promise in generating images from textual descriptions, they often neglect domain-specific contexts and lack robustness in handling the Chinese language. This paper introduces PAI-Diffusion, a comprehensive framework that addresses these limitations. PAI-Diffusion incorporates both general and domain-specific Chinese diffusion models, enabling the generation of contextually relevant images. It explores the potential of using LoRA and ControlNet for fine-grained image style transfer and image editing, empowering users with enhanced control over image generation. Moreover, PAI-Diffusion seamlessly integrates with Alibaba Cloud's Machine Learning Platform for AI, providing accessible and scalable solutions. All the Chinese diffusion model checkpoints, LoRAs, and ControlNets, including domain-specific ones, are publicly available. A user-friendly Chinese WebUI and the diffusers-api elastic inference toolkit, also open-sourced, further facilitate the easy deployment of PAI-Diffusion models in various environments, making it a valuable resource for Chinese text-to-image synthesis.
翻訳日:2023-09-12 11:58:50 公開日:2023-09-11
# 倫理的AIにおける不確実性の意味--哲学と実践

On the meaning of uncertainty for ethical AI: philosophy and practice ( http://arxiv.org/abs/2309.05529v1 )

ライセンス: Link先を確認
Cassandra Bird, Daniel Williamson and Sabina Leonelli (University of Exeter)(参考訳) データサイエンティスト、統計学者、モデラーが開発するAIシステムに対してどのように説明責任を負うべきかは、特にAIシステムの複雑さと、データ分析の展開に起因する競合するクレームの比較と合成の難しさを考えると、議論の的かつ議論の的になっているトピックである。 本稿では,aiシステムを用いた意思決定における不透明さの低減と説明責任の高まりを,その発達を支える統計的基盤の明示的な認識と,その成果がユーザによってどのように解釈され行動されるかを決める方法を通じて解決する。 これにより,(1)フィードバックに対するモデルの応答性,(2)出力に対する不確実性の品質と意味,(3)評価に対する透明性が向上する。 このアプローチを実証するために、後信頼評価を拡張し、複雑で競合するAI構造から信念の所有への道筋を提供する。 これは、数学的推論に倫理的考察を持ち込み、統計的実践に倫理的AIを実装する重要な方法である、と我々は主張する。 我々は、2021年12月のOmicron型COVID-19の拡散について、英国政府に助言するために使用される競合モデルの文脈内でこれらのアイデアを実証する。

Whether and how data scientists, statisticians and modellers should be accountable for the AI systems they develop remains a controversial and highly debated topic, especially given the complexity of AI systems and the difficulties in comparing and synthesising competing claims arising from their deployment for data analysis. This paper proposes to address this issue by decreasing the opacity and heightening the accountability of decision making using AI systems, through the explicit acknowledgement of the statistical foundations that underpin their development and the ways in which these dictate how their results should be interpreted and acted upon by users. In turn, this enhances (1) the responsiveness of the models to feedback, (2) the quality and meaning of uncertainty on their outputs and (3) their transparency to evaluation. To exemplify this approach, we extend Posterior Belief Assessment to offer a route to belief ownership from complex and competing AI structures. We argue that this is a significant way to bring ethical considerations into mathematical reasoning, and to implement ethical AI in statistical practice. We demonstrate these ideas within the context of competing models used to advise the UK government on the spread of the Omicron variant of COVID-19 during December 2021.
翻訳日:2023-09-12 11:57:49 公開日:2023-09-11
# 複数インスタンス学習における分散サンプルの検出について

On the detection of Out-Of-Distribution samples in Multiple Instance Learning ( http://arxiv.org/abs/2309.05528v1 )

ライセンス: Link先を確認
Lo\"ic Le Bescond, Maria Vakalopoulou, Stergios Christodoulidis, Fabrice Andr\'e, Hugues Talbot(参考訳) 機械学習ソリューションを現実のシナリオに展開するには、アウト・オブ・ディストリビューション(OOD)検出の課題に対処する必要があることが多い。 古典的教師付き環境でのood検出に多大な努力がなされているが、弱い教師付き学習、特にmultiple instance learning (mil)フレームワークの文脈は未調査のままである。 本研究では,弱教師付きシナリオにおけるOOD検出性能の評価に特化して設計された新しいベンチマークを導入しながら,ポストホックなOOD検出手法をMIL設定に適用することにより,この問題に対処する。 多様な公開データセットに基づく大規模な実験は、他のものよりも明確な優位性を持つ1つの方法を明らかにしない。 DICEは全体として最高のパフォーマンスの方法として現れるが、いくつかのデータセットには重大な欠点があり、この未探索で挑戦的なトピックの複雑さを強調している。 MILフレームワーク下でのOOD検出の複雑な性質に光を当て、弱教師付き文脈で効果的に一般化できる新規で堅牢で信頼性の高い手法の開発の重要性を強調した。 論文のコードは、https://github.com/loic-lb/OOD_MIL.comで公開されている。

The deployment of machine learning solutions in real-world scenarios often involves addressing the challenge of out-of-distribution (OOD) detection. While significant efforts have been devoted to OOD detection in classical supervised settings, the context of weakly supervised learning, particularly the Multiple Instance Learning (MIL) framework, remains under-explored. In this study, we tackle this challenge by adapting post-hoc OOD detection methods to the MIL setting while introducing a novel benchmark specifically designed to assess OOD detection performance in weakly supervised scenarios. Extensive experiments based on diverse public datasets do not reveal a single method with a clear advantage over the others. Although DICE emerges as the best-performing method overall, it exhibits significant shortcomings on some datasets, emphasizing the complexity of this under-explored and challenging topic. Our findings shed light on the complex nature of OOD detection under the MIL framework, emphasizing the importance of developing novel, robust, and reliable methods that can generalize effectively in a weakly supervised context. The code for the paper is available here: https://github.com/loic-lb/OOD_MIL.
翻訳日:2023-09-12 11:57:11 公開日:2023-09-11
# 分子スピンquditsに基づく概念実証量子シミュレータ

Proof-of-concept Quantum Simulator based on Molecular Spin Qudits ( http://arxiv.org/abs/2309.05600v1 )

ライセンス: Link先を確認
Simone Chicco, Giuseppe Allodi, Alessandro Chiesa, Elena Garlatti, Christian D. Buch, Paolo Santini, Roberto De Renzi, Stergios Piligkos and Stefano Carretta(参考訳) 2レベル量子ビットの代わりに$d$レベルのquditを使用すると、量子シミュレーションから量子誤り訂正まで、多くのアプリケーションで量子論理のパワーが大幅に向上する。 分子ナノマグネットは、これらの大きな次元quditを実現する理想的なスピン系である。 実際、ハミルトニアンは非平行な程度に設計することができ、多くの低エネルギー状態のスペクトルを得ることができる。 特に、この10年間、分子ナノマグネットに基づく量子シミュレータの開発に力強い理論的、実験的、合成の努力が注がれている。 しかし、量子シミュレーションが実験的に実証されたことがないため、この驚くべきポテンシャルは事実上表現されていない。 本稿では,分子quditのアンサンブルと高周波広帯域分光計を用いた量子シミュレータの最初のプロトタイプを示す。 装置の動作性を実証するため,2種類の問題を代表して,磁化の量子トンネル法と横場イジングモデルをシミュレーションした。 これらの結果は、量子技術における分子スピンquditsの実際の利用への重要な一歩である。

The use of $d$-level qudits instead of two-level qubits can largely increase the power of quantum logic for many applications, ranging from quantum simulations to quantum error correction. Molecular Nanomagnets are ideal spin systems to realize these large-dimensional qudits. Indeed, their Hamiltonian can be engineered to an unparalleled extent and can yield a spectrum with many low-energy states. In particular, in the last decade intense theoretical, experimental and synthesis efforts have been devoted to develop quantum simulators based on Molecular Nanomagnets. However, this remarkable potential is practically unexpressed, because no quantum simulation has ever been experimentally demonstrated with these systems. Here we show the first prototype quantum simulator based on an ensemble of molecular qudits and a radiofrequency broadband spectrometer. To demonstrate the operativity of the device, we have simulated quantum tunneling of the magnetization and the transverse-field Ising model, representative of two different classes of problems. These results represent an important step towards the actual use of molecular spin qudits in quantum technologies.
翻訳日:2023-09-12 11:51:13 公開日:2023-09-11
# フェルミオン間の隣り合う相互作用によって誘導されるボース・フェルミ混合物の絶縁体相

Insulator phases of Bose-Fermi mixtures induced by next-neighbor interactions between fermions ( http://arxiv.org/abs/2309.05594v1 )

ライセンス: Link先を確認
F. G\'omez-Lozada, R. Franco, and J. Silva-Valencia(参考訳) ハードコア限界における2色フェルミオンとスカラーボソンの1次元混合について検討し,各キャリアの異なる充填系において,隣り合うフェルミオン間の相互作用がゼロ温度基底状態に与える影響に着目した。 この問題のパラメータを探索した結果,非局所相互作用はよく知られた混合・スピン選択型モット絶縁体を修飾することがわかった。また,特殊な電荷密度波の秩序を持つ3つの特異な絶縁状態の出現,ボソニック半充填用キャリアの完全外相密度,同じボソニックおよびフェルミオン充填を有する絶縁体,そしてボソニック充填が1種類のフェルミオンの密度に一致する異なるスピン選択絶縁体も見出した。 現代のコールド原子のセットアップは、これらの不規則絶縁体を観察できる理想的な実験環境に対応している。

We study a one-dimensional mixture of two-color fermions and scalar bosons at the hard-core limit, focusing on the effect that the next-neighbor interaction between fermions has on the zero-temperature ground state of the system for different fillings of each carrier. Exploring the parameters of the problem, we observed that the non-local interaction modifies the well-known mixed and spin-selective Mott insulators, and we also found the emergence of three unusual insulating states with peculiar charge density wave orderings, a fully out-of-phase density of carriers for bosonic half-filling, an insulator with the same bosonic and fermionic fillings, and a different spin-selective insulator where the bosonic filling matches the density of one kind of fermion. Modern cold-atom setups correspond to the ideal experimental setting where these incommensurable insulators can be observed.
翻訳日:2023-09-12 11:50:57 公開日:2023-09-11
# 頑健な量子制御による量子仮説テスト

Quantum hypothesis testing via robust quantum control ( http://arxiv.org/abs/2309.05592v1 )

ライセンス: Link先を確認
Han Xu, Benran Wang, Haidong Yuan and Xin Wang(参考訳) 量子仮説テストは、量子技術において重要な役割を担い、観測されたデータに基づいて量子システムに関する決定や結論を導き出す。 近年、量子制御技術が量子仮説テストにうまく応用され、環境騒音下で磁場を識別するタスクにおける誤差確率の低減が可能となった。 現実世界の物理システムでは、そのような制御は様々な不正確なチャネルに影響を及ぼす。 したがって、量子仮説テストの文脈における量子制御の堅牢性を改善することが重要である。 本研究では,信号周波数不正確性の影響を考慮せずに,最適制御手法を用いてシナリオを比較する。 並列デファスメントと自発的エミッションでは、最適制御は本質的に一定のレベルのロバスト性を示すが、不完全な信号で横デファスを行う場合、制御されていないスキームよりも高いエラー確率をもたらす可能性がある。 これらの制約を克服するために,信号ノイズに最適化したロバスト制御手法を導入し,事前定義された許容窓を超えるロバスト性を示す。 平均して、最適制御とロバスト制御は、様々なデファスメントまたは減衰率の非制御スキームよりも改善を示し、ロバスト制御は最も低いエラー確率をもたらす。

Quantum hypothesis testing plays a pivotal role in quantum technologies, making decisions or drawing conclusions about quantum systems based on observed data. Recently, quantum control techniques have been successfully applied to quantum hypothesis testing, enabling the reduction of error probabilities in the task of distinguishing magnetic fields in presence of environmental noise. In real-world physical systems, such control is prone to various channels of inaccuracies. Therefore improving the robustness of quantum control in the context of quantum hypothesis testing is crucial. In this work, we utilize optimal control methods to compare scenarios with and without accounting for the effects of signal frequency inaccuracies. For parallel dephasing and spontaneous emission, the optimal control inherently demonstrates a certain level of robustness, while in the case of transverse dephasing with an imperfect signal, it may result in a higher error probability compared to the uncontrolled scheme. To overcome these limitations, we introduce a robust control approach optimized for a range of signal noise, demonstrating superior robustness beyond the predefined tolerance window. On average, both the optimal control and robust control show improvements over the uncontrolled schemes for various dephasing or decay rates, with the robust control yielding the lowest error probability.
翻訳日:2023-09-12 11:50:37 公開日:2023-09-11
# インスタント識別能力の増強による時間的行動局在化

Temporal Action Localization with Enhanced Instant Discriminability ( http://arxiv.org/abs/2309.05590v1 )

ライセンス: Link先を確認
Dingfeng Shi, Qiong Cao, Yujie Zhong, Shan An, Jian Cheng, Haogang Zhu, Dacheng Tao(参考訳) 時間的動作検出(tad)は、すべてのアクション境界とその対応するカテゴリを未トリミングビデオで検出することを目的としている。 ビデオにおけるアクション境界の不明確さは、しばしば既存の方法によるアクション境界の不正確な予測をもたらす。 この問題を解決するために,TriDetというワンステージフレームワークを提案する。 まず,その境界付近の相対確率分布を推定し,行動境界をモデル化するトライデントヘッドを提案する。 そこで我々は,変圧器を用いた手法におけるランクロス問題(即時識別性劣化)を分析し,この問題を緩和するために,効率よくスケーラブルな粒度知覚(SGP)層を提案する。 ビデオバックボーンにおける瞬時判別可能性の限界をさらに押し上げるために,事前学習した大規模モデルの強力な表現能力を活用して,tad上での性能を検証した。 最後に、分類のための適切な時空間文脈を考慮し、局所化のための大規模モデルからリッチな空間コンテキストを組み込むために、分離された特徴ピラミッドネットワークを設計する。 実験により,階層型 tad データセットを含む複数の tad データセットにおける tridet のロバスト性と,その最先端性能が実証された。

Temporal action detection (TAD) aims to detect all action boundaries and their corresponding categories in an untrimmed video. The unclear boundaries of actions in videos often result in imprecise predictions of action boundaries by existing methods. To resolve this issue, we propose a one-stage framework named TriDet. First, we propose a Trident-head to model the action boundary via an estimated relative probability distribution around the boundary. Then, we analyze the rank-loss problem (i.e. instant discriminability deterioration) in transformer-based methods and propose an efficient scalable-granularity perception (SGP) layer to mitigate this issue. To further push the limit of instant discriminability in the video backbone, we leverage the strong representation capability of pretrained large models and investigate their performance on TAD. Last, considering the adequate spatial-temporal context for classification, we design a decoupled feature pyramid network with separate feature pyramids to incorporate rich spatial context from the large model for localization. Experimental results demonstrate the robustness of TriDet and its state-of-the-art performance on multiple TAD datasets, including hierarchical (multilabel) TAD datasets.
翻訳日:2023-09-12 11:50:15 公開日:2023-09-11
# 予測モデルの定量的分析:オンライン政治バイアスの観点から

Quantitative Analysis of Forecasting Models:In the Aspect of Online Political Bias ( http://arxiv.org/abs/2309.05589v1 )

ライセンス: Link先を確認
Srinath Sai Tripuraneni, Sadia Kamal, Arunkumar Bagavathi(参考訳) オンラインソーシャルメディアプラットフォームにおける政治的偏見の理解と緩和は、誤報やエコーチャンバー効果に対処するための重要なタスクである。 しかし,ソーシャルメディアデータセットのノイズ頻度が高いため,政治的バイアスを時間的に特徴付けることが課題となっている。 既存の研究は、政治的偏見の特徴づけに対する様々なアプローチを探求してきたが、政治的偏見を予測し、政治的会話が近い将来どのように進化するかを予測する能力は、広く研究されていない。 本稿では,ソーシャルメディア投稿を5つの異なる政治傾向カテゴリーに分類するヒューリスティックアプローチを提案する。 政治的バイアスを予測するための事前の作業が不足しているため、既存のベースラインモデルの詳細な分析を行い、政治的傾向の時系列を予測するのに最適なモデルを特定する。 このアプローチでは、既存の時系列予測モデルを、政治的イデオロギーの異なる2つのソーシャルメディアデータセット、特にTwitterとGabで活用する。 実験と分析を通じて,ソーシャルメディアプラットフォームにおける政治的バイアスを予測する上での課題と機会を明らかにしたい。 最終的に、私たちの研究は、デジタル領域における政治的偏見の負の影響を軽減するために、より効果的な戦略を開発するための道を開くことを目的としています。

Understanding and mitigating political bias in online social media platforms are crucial tasks to combat misinformation and echo chamber effects. However, characterizing political bias temporally using computational methods presents challenges due to the high frequency of noise in social media datasets. While existing research has explored various approaches to political bias characterization, the ability to forecast political bias and anticipate how political conversations might evolve in the near future has not been extensively studied. In this paper, we propose a heuristic approach to classify social media posts into five distinct political leaning categories. Since there is a lack of prior work on forecasting political bias, we conduct an in-depth analysis of existing baseline models to identify which model best fits to forecast political leaning time series. Our approach involves utilizing existing time series forecasting models on two social media datasets with different political ideologies, specifically Twitter and Gab. Through our experiments and analyses, we seek to shed light on the challenges and opportunities in forecasting political bias in social media platforms. Ultimately, our work aims to pave the way for developing more effective strategies to mitigate the negative impact of political bias in the digital realm.
翻訳日:2023-09-12 11:49:53 公開日:2023-09-11
# 不確かさを意識する:リスク認識とモデルに基づく強化学習の活発な探索

Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based Reinforcement Learning ( http://arxiv.org/abs/2309.05582v1 )

ライセンス: Link先を確認
Marin Vlastelica, Sebastian Blaes, Cristina Pineri, Georg Martius(参考訳) We introduce a simple but effective method for managing risk in model-based reinforcement learning with trajectory sampling that involves probabilistic safety constraints and balancing of optimism in the face of epistemic uncertainty and pessimism in the face of aleatoric uncertainty of an ensemble of stochastic neural networks.Various experiments indicate that the separation of uncertainties is essential to performing well with data-driven MPC approaches in uncertain and safety-critical control environments.

We introduce a simple but effective method for managing risk in model-based reinforcement learning with trajectory sampling that involves probabilistic safety constraints and balancing of optimism in the face of epistemic uncertainty and pessimism in the face of aleatoric uncertainty of an ensemble of stochastic neural networks.Various experiments indicate that the separation of uncertainties is essential to performing well with data-driven MPC approaches in uncertain and safety-critical control environments.
翻訳日:2023-09-12 11:49:32 公開日:2023-09-11
# 振動相互作用を持つ周期的に駆動されるオープン量子系:共鳴効果と振動媒介デカップリング

Periodically driven open quantum systems with vibronic interaction: Resonance effects and vibrationally mediated decoupling ( http://arxiv.org/abs/2309.05577v1 )

ライセンス: Link先を確認
Jakob B\"atge, Yu Wang, Amikam Levy, Wenjie Dou, Michael Thoss(参考訳) 周期駆動とフロッケ工学は、量子系の新しい現象を制御し、発見するための貴重なツールとして登場した。 本研究では,電子ビブロン開量子系における非平衡過程を操作するために,これらの手法を採用する。 共振機構とリミットサイクル力学と量子熱力学特性に着目して、駆動場と振動子状態の間の複雑な相互作用とその電子系への全体的な影響を説明する。 具体的には,振動モード相互作用を媒介とする現象である特定の周波数での周期駆動から電子系の効果的な分離を観察する。 さらに,Franck-Condonブロックの一部を除去するために,駆動フィールドを設計した。 これらの洞察は、効率的な電荷電流制御を約束する。 この結果は階層的な運動方程式の数値計算から得られ、さらに時間周期マスター方程式法により解析される。

Periodic driving and Floquet engineering have emerged as invaluable tools for controlling and uncovering novel phenomena in quantum systems. In this study, we adopt these methods to manipulate nonequilibrium processes within electronic-vibronic open quantum systems. Through resonance mechanisms and by focusing on the limit-cycle dynamics and quantum thermodynamic properties, we illustrate the intricate interplay between the driving field and vibronic states and its overall influence on the electronic system. Specifically, we observe an effective decoupling of the electronic system from the periodic driving at specific frequencies, a phenomenon that is mediated by the vibrational mode interaction. Additionally, we engineer the driving field to obtain a partial removal of the Franck-Condon blockade. These insights hold promise for efficient charge current control. Our results are obtained from numerically exact calculations of the hierarchical equations of motion and further analyzed by a time-periodic master equation approach.
翻訳日:2023-09-12 11:49:25 公開日:2023-09-11
# 異方性拡散ステンシル:安定性推定の単純な導出からResNet実装へ

Anisotropic Diffusion Stencils: From Simple Derivations over Stability Estimates to ResNet Implementations ( http://arxiv.org/abs/2309.05575v1 )

ライセンス: Link先を確認
Karl Schrader, Joachim Weickert, Michael Krause(参考訳) 拡散テンソルを持つ異方性拡散過程は、画像解析、物理学、工学において重要である。 しかし、それらの数値近似は散逸的アーティファクトや回転不変量からの逸脱に大きな影響を与える。 本研究では, 3 x 3 stencil 上で有限差分離散化の大きな族について検討する。 2次元の異方性拡散を4つの1次元拡散に分割して導出する。 結果として生じるステンシルクラスは1つの自由パラメータを含み、様々な既存の議論をカバーする。 Weickert et al. (2013) のフルステンシルファミリーを構成し、それらの2つのパラメータが冗長性を含んでいることを示す。 さらに,ステンシルに対応する行列のスペクトルノルムの有界性を確立する。 これはユークリッドノルムにおける明示的なスキームの安定性を保証する時間ステップサイズ制限を与える。 我々の方向分割はまた、明示的なスキームをResNetブロックに非常に自然な翻訳を可能にする。 ニューラルネットワークライブラリを使用することで、GPUの単純かつ高効率な並列実装が可能になる。

Anisotropic diffusion processes with a diffusion tensor are important in image analysis, physics, and engineering. However, their numerical approximation has a strong impact on dissipative artefacts and deviations from rotation invariance. In this work, we study a large family of finite difference discretisations on a 3 x 3 stencil. We derive it by splitting 2-D anisotropic diffusion into four 1-D diffusions. The resulting stencil class involves one free parameter and covers a wide range of existing discretisations. It comprises the full stencil family of Weickert et al. (2013) and shows that their two parameters contain redundancy. Furthermore, we establish a bound on the spectral norm of the matrix corresponding to the stencil. This gives time step size limits that guarantee stability of an explicit scheme in the Euclidean norm. Our directional splitting also allows a very natural translation of the explicit scheme into ResNet blocks. Employing neural network libraries enables simple and highly efficient parallel implementations on GPUs.
翻訳日:2023-09-12 11:49:10 公開日:2023-09-11
# uniseg: 統一されたマルチモーダルlidarセグメンテーションネットワークとopenpcsegコードベース

UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase ( http://arxiv.org/abs/2309.05573v1 )

ライセンス: Link先を確認
Youquan Liu, Runnan Chen, Xin Li, Lingdong Kong, Yuchen Yang, Zhaoyang Xia, Yeqi Bai, Xinge Zhu, Yuexin Ma, Yikang Li, Yu Qiao, Yuenan Hou(参考訳) 点-、ボクセル-、レンジビューは点雲の3つの代表形式である。 いずれも正確な3d計測を行うが、色やテクスチャ情報はない。 RGBイメージは、これらのポイントクラウドビューの自然な補完であり、それらの包括的な情報を完全に活用することで、より堅牢な認識が得られます。 本稿では,rgb画像とポイントクラウドの3つのビューの情報を活用して,セマンティックセグメンテーションとpanopticセグメンテーションを同時に実現する,ユニセグメンテーションと呼ばれる統一型マルチモーダルlidarセグメンテーションネットワークを提案する。 具体的には、まずLearnerable Cross-Modal Association (LMA) モジュールを設計し、画像のリッチなセマンティック情報を完全に活用し、校正エラーに頑健なボクセルビューとレンジビュー機能を自動的に融合する。 そして、拡張されたボクセルビューおよびレンジビュー機能をポイント空間に変換し、学習可能なクロスビューアソシエーションモジュール(lva)によりポイントクラウド機能の3つのビューをさらに適応的に融合させる。 特に、UniSegは、SemanticKITTI、nuScenes、Waymo Open Dataset(WOD)の3つの公開ベンチマークで有望な結果を達成している。 さらに、最大かつ最も包括的なアウトドアlidarセグメンテーションコードベースであるopenpcsegコードベースを構築しています。 人気のあるアウトドアlidarセグメンテーションアルゴリズムの大半を含み、再現可能な実装を提供する。 OpenPCSegのコードベースはhttps://github.com/PJLab-ADG/PCSegで公開される。

Point-, voxel-, and range-views are three representative forms of point clouds. All of them have accurate 3D measurements but lack color and texture information. RGB images are a natural complement to these point cloud views and fully utilizing the comprehensive information of them benefits more robust perceptions. In this paper, we present a unified multi-modal LiDAR segmentation network, termed UniSeg, which leverages the information of RGB images and three views of the point cloud, and accomplishes semantic segmentation and panoptic segmentation simultaneously. Specifically, we first design the Learnable cross-Modal Association (LMA) module to automatically fuse voxel-view and range-view features with image features, which fully utilize the rich semantic information of images and are robust to calibration errors. Then, the enhanced voxel-view and range-view features are transformed to the point space,where three views of point cloud features are further fused adaptively by the Learnable cross-View Association module (LVA). Notably, UniSeg achieves promising results in three public benchmarks, i.e., SemanticKITTI, nuScenes, and Waymo Open Dataset (WOD); it ranks 1st on two challenges of two benchmarks, including the LiDAR semantic segmentation challenge of nuScenes and panoptic segmentation challenges of SemanticKITTI. Besides, we construct the OpenPCSeg codebase, which is the largest and most comprehensive outdoor LiDAR segmentation codebase. It contains most of the popular outdoor LiDAR segmentation algorithms and provides reproducible implementations. The OpenPCSeg codebase will be made publicly available at https://github.com/PJLab-ADG/PCSeg.
翻訳日:2023-09-12 11:48:57 公開日:2023-09-11
# ITI-GEN:包括的テキスト・画像生成

ITI-GEN: Inclusive Text-to-Image Generation ( http://arxiv.org/abs/2309.05569v1 )

ライセンス: Link先を確認
Cheng Zhang and Xuanbai Chen and Siqi Chai and Chen Henry Wu and Dmitry Lagun and Thabo Beeler and Fernando De la Torre(参考訳) テキストから画像への生成モデルは、しばしばトレーニングデータのバイアスを反映し、未表現のグループの不平等な表現につながる。 本研究では,人書きによるプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討し,得られた画像が興味のある属性に均一に分散されることを確かめる。 残念ながら、望まれる属性を直接プロンプトで表現することは、言語的曖昧さやモデル誤表現によって、しばしば準最適結果をもたらす。 そこで,本論文では,「絵は千語に値する」という大まかに異なるアプローチを提案する。 いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。 例えば、スキントーンのカテゴリは通常テキストで指定するのが難しいが、サンプル画像で簡単に表現できる。 これらの知見に基づいて,テキストから画像へのインクルーシブ生成に容易に利用可能な参照画像を活用する新しいアプローチであるiti-genを提案する。 キーとなるアイデアは、一連のプロンプト埋め込みを学習して、すべての望ましい属性カテゴリを効果的に表現できる画像を生成することだ。 さらに重要なことは、ITI-GENはモデル微調整を必要としないため、既存のテキスト・画像モデルを拡張するのに計算効率が良いことである。 大規模な実験により、ITI-GENは最先端モデルよりも大幅に改善され、プロンプトから包括的画像を生成することが示されている。 プロジェクトページ: https://czhang0528.github.io/iti-gen。

Text-to-image generative models often reflect the biases of the training data, leading to unequal representations of underrepresented groups. This study investigates inclusive text-to-image generative models that generate images based on human-written prompts and ensure the resulting images are uniformly distributed across attributes of interest. Unfortunately, directly expressing the desired attributes in the prompt often leads to sub-optimal results due to linguistic ambiguity or model misrepresentation. Hence, this paper proposes a drastically different approach that adheres to the maxim that "a picture is worth a thousand words". We show that, for some attributes, images can represent concepts more expressively than text. For instance, categories of skin tones are typically hard to specify by text but can be easily represented by example images. Building upon these insights, we propose a novel approach, ITI-GEN, that leverages readily available reference images for Inclusive Text-to-Image GENeration. The key idea is learning a set of prompt embeddings to generate images that can effectively represent all desired attribute categories. More importantly, ITI-GEN requires no model fine-tuning, making it computationally efficient to augment existing text-to-image models. Extensive experiments demonstrate that ITI-GEN largely improves over state-of-the-art models to generate inclusive images from a prompt. Project page: https://czhang0528.github.io/iti-gen.
翻訳日:2023-09-12 11:48:21 公開日:2023-09-11
# 駆動周波数で振動する一般的なフロッケ系の長時間特性

Long-time properties of generic Floquet systems oscillate at the driving frequency ( http://arxiv.org/abs/2309.05641v1 )

ライセンス: Link先を確認
Yichen Huang(参考訳) フロッケ量子系は周期的に周期的なハミルトニアンによって制御される。 局所的な(幾何学的に)相互作用を持つ時間的独立なフロケ系の空間を考える。 この空間において、無作為な積状態から始まる測度ゼロの系を除いて、長い時間で多くの性質(観測可能量の期待値やマクロ的に大きなサブシステムの絡み合いエントロピーを含む)がハミルトン級数と同じ周波数で振動する(おそらくゼロ振幅を持つ)ことを証明している。 したがって、任意の大きさのフロケ系において、離散時間結晶の挙動は厳密に無限の時間に持続しない。

A Floquet quantum system is governed by a Hamiltonian that is periodic in time. Consider the space of piecewise time-independent Floquet systems with (geometrically) local interactions. We prove that for all but a measure zero set of systems in this space, starting from a random product state, many properties (including expectation values of observables and the entanglement entropy of a macroscopically large subsystem) at long times approximately oscillate (with possibly zero amplitude) at the same frequency as the Hamiltonian. Thus, in almost every Floquet system of arbitrarily large but finite size, discrete time-crystalline behavior does not persist to strictly infinite time.
翻訳日:2023-09-12 11:39:55 公開日:2023-09-11
# 組合せ累積的知識プロセス

Combinative Cumulative Knowledge Processes ( http://arxiv.org/abs/2309.05638v1 )

ライセンス: Link先を確認
Anna Brandenberger, Cassandra Marcussen, Elchanan Mossel, Madhu Sudan(参考訳) 本研究では,ben-eliezer,mikulincer,mossel,sudan (itcs 2023) が導入した累積的知識過程を,複数の知識単位を組み合わせて新たな知識単位が導出される場合の「指向的非循環グラフ」の設定で解析する。 このモデルの主な考慮事項は、エラー(新しいユニットが誤った場合)とローカルチェック(新しいユニットが発見されたとき、いくつかの先行する知識ユニットがチェックされる)の役割である。 上記の研究はこのモデルを定義したが、理想化され単純化された「木のような」設定、すなわち、新しい知識単位が以前に生成された知識単位にのみ依存する設定のみを分析した。 私たちの仕事の主な目標は、一般的なプロセスが安全である場合、すなわちエラーの影響が制御されている場合を理解することです。 我々は安全のために必要かつ十分な条件を提供する。 以前の研究と同様に、チェックの頻度とチェックの深さが安全性を決定する上で重要な役割を担っていることを示す。 現在の作業における重要な新しいパラメータは$\textit{combination factor}$であり、これは新しい知識単位が依存する古い知識の単位数$m$の分布である。 以上の結果から, 組み合わせ係数が小深度で補正できることが示唆された。 組み合わせ係数に対する安全性の依存は、決して自明ではない。 実際、我々の主な結果のいくつかは$\mathbb{E}\{1/M\}$で述べられているが、他のものは$\mathbb{E}\{M\}$に依存している。

We analyze Cumulative Knowledge Processes, introduced by Ben-Eliezer, Mikulincer, Mossel, and Sudan (ITCS 2023), in the setting of "directed acyclic graphs", i.e., when new units of knowledge may be derived by combining multiple previous units of knowledge. The main considerations in this model are the role of errors (when new units may be erroneous) and local checking (where a few antecedent units of knowledge are checked when a new unit of knowledge is discovered). The aforementioned work defined this model but only analyzed an idealized and simplified "tree-like" setting, i.e., a setting where new units of knowledge only depended directly on one previously generated unit of knowledge. The main goal of our work is to understand when the general process is safe, i.e., when the effect of errors remains under control. We provide some necessary and some sufficient conditions for safety. As in the earlier work, we demonstrate that the frequency of checking as well as the depth of the checks play a crucial role in determining safety. A key new parameter in the current work is the $\textit{combination factor}$ which is the distribution of the number of units $M$ of old knowledge that a new unit of knowledge depends on. Our results indicate that a large combination factor can compensate for a small depth of checking. The dependency of the safety on the combination factor is far from trivial. Indeed some of our main results are stated in terms of $\mathbb{E}\{1/M\}$ while others depend on $\mathbb{E}\{M\}$.
翻訳日:2023-09-12 11:39:40 公開日:2023-09-11
# 境界剥離:一級剥離を用いた異常検出法

Boundary Peeling: Outlier Detection Method Using One-Class Peeling ( http://arxiv.org/abs/2309.05630v1 )

ライセンス: Link先を確認
Sheikh Arafat, Na Sun, Maria L. Weese, Waldyn G. Martinez(参考訳) 教師なしの外れ値検出は、データ分析において重要なフェーズであり、研究のダイナミック領域である。 優れた異常検出アルゴリズムは、計算効率が高く、パラメータ選択のチューニングに頑健で、さまざまな基盤となるデータ分布に対して一貫した性能を持つべきである。 教師なし外乱検出アルゴリズムであるOne-Class Boundary Peelingを導入する。 ワンクラス境界剥離は、ワンクラスサポートベクターマシンによって生成される反復的かつ柔軟な境界からの平均符号付き距離を使用する。 一級境界ピーリングは堅牢なハイパーパラメータ設定を持ち、柔軟性を高めるためにアンサンブル法としてキャストすることができる。 合成データシミュレーションでは、ワンクラス境界ピーリングは、ベンチマークメソッドと比較して、アウトリーチが存在しない場合、アウトリーチが同等または優れたパフォーマンスを維持しながら、アートメソッドのすべての状態を上回ります。 ワンクラス境界ピーリングは、一般的なベンチマークデータセットを使用して正しい分類、AUC、処理時間で競合的に実行される。

Unsupervised outlier detection constitutes a crucial phase within data analysis and remains a dynamic realm of research. A good outlier detection algorithm should be computationally efficient, robust to tuning parameter selection, and perform consistently well across diverse underlying data distributions. We introduce One-Class Boundary Peeling, an unsupervised outlier detection algorithm. One-class Boundary Peeling uses the average signed distance from iteratively-peeled, flexible boundaries generated by one-class support vector machines. One-class Boundary Peeling has robust hyperparameter settings and, for increased flexibility, can be cast as an ensemble method. In synthetic data simulations One-Class Boundary Peeling outperforms all state of the art methods when no outliers are present while maintaining comparable or superior performance in the presence of outliers, as compared to benchmark methods. One-Class Boundary Peeling performs competitively in terms of correct classification, AUC, and processing time using common benchmark data sets.
翻訳日:2023-09-12 11:39:14 公開日:2023-09-11
# 人間ラベリングのための効果的なプロキシ--大規模nlp言語モデルにおけるアンサンブル不一致点

Effective Proxy for Human Labeling: Ensemble Disagreement Scores in Large Language Models for Industrial NLP ( http://arxiv.org/abs/2309.05619v1 )

ライセンス: Link先を確認
Wei Du, Laksh Advani, Yashmeet Gambhir, Daniel J Perry, Prashant Shiralkar, Zhengzheng Xing, and Aaron Colak(参考訳) 大規模言語モデル(LLM)は、多数のNLPタスクにまたがる一般化能力を示す。 業界アプリケーションでは、実世界の環境での検証のために、ラベルのない製品データに対するllmのパフォーマンスを評価することが不可欠である。 モデルエラーを評価するには、かなりのコストと時間を要する。 本稿では,kpe(keyphrase extraction)タスクの評価に基づいて,ゼロショット,少数ショット,微調整設定における言語モデルのヒューマンラベリングのプロキシとして,アンサンブル不一致スコアが有効であることを示す。 我々は、人間のラベル付き基底真理から測定した真の誤りと比較し、結果の忠実度を測定する。 他のllmをマシンラベルやシルバーラベルのソースとして使用する方法とは対照的です。 様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。

Large language models (LLMs) have demonstrated significant capability to generalize across a large number of NLP tasks. For industry applications, it is imperative to assess the performance of the LLM on unlabeled production data from time to time to validate for a real-world setting. Human labeling to assess model error requires considerable expense and time delay. Here we demonstrate that ensemble disagreement scores work well as a proxy for human labeling for language models in zero-shot, few-shot, and fine-tuned settings, per our evaluation on keyphrase extraction (KPE) task. We measure fidelity of the results by comparing to true error measured from human labeled ground truth. We contrast with the alternative of using another LLM as a source of machine labels, or silver labels. Results across various languages and domains show disagreement scores provide a better estimation of model performance with mean average error (MAE) as low as 0.4% and on average 13.8% better than using silver labels.
翻訳日:2023-09-12 11:38:58 公開日:2023-09-11
# グラフニューラルネットワークによる測地線埋め込みの学習

Learning the Geodesic Embedding with Graph Neural Networks ( http://arxiv.org/abs/2309.05613v1 )

ライセンス: Link先を確認
Bo Pang, Zhongtian Zheng, Guoping Wang, Peng-Shuai Wang(参考訳) 離散多面体面上の任意の2点間の近似測地距離を高速事前計算後の一定時間複雑性で計算する学習ベース手法であるgegnnを提案する。 以前の関連する方法は、単一のソースとすべての宛先の間の測地距離の計算に焦点を合わせ、少なくとも線形複雑性を持つか、あるいは長い事前計算時間を必要とする。 私たちのキーとなるアイデアは、グラフニューラルネットワークをトレーニングして、入力メッシュを高次元の埋め込み空間に埋め込み、対応する埋め込みベクトルと軽量復号関数を用いて一対の点間の測地距離を計算することです。 埋め込みの学習を容易にするために,局所測地情報を含む新しいグラフ畳み込みおよびグラフプールモジュールを提案する。 トレーニング後、前処理としてメッシュ毎のネットワークのフォワードパスを1つだけ要求する。 次に,行列乗算を数個必要とせず,GPU上で大規模に並列化可能なデコード関数を用いて,一対の点間の測地距離を計算する。 本手法は,シェープネット上での効率性と有効性を検証し,既存の手法よりも1桁高速で,同等かそれ以上の精度が得られることを示す。 さらに,本手法は,ノイズおよび不完全メッシュに対するロバスト性および分布外メッシュに対する強力な一般化能力を示す。 コードと事前訓練されたモデルはhttps://github.com/IntelligentGeometry/GeGnn.orgにある。

We present GeGnn, a learning-based method for computing the approximate geodesic distance between two arbitrary points on discrete polyhedra surfaces with constant time complexity after fast precomputation. Previous relevant methods either focus on computing the geodesic distance between a single source and all destinations, which has linear complexity at least or require a long precomputation time. Our key idea is to train a graph neural network to embed an input mesh into a high-dimensional embedding space and compute the geodesic distance between a pair of points using the corresponding embedding vectors and a lightweight decoding function. To facilitate the learning of the embedding, we propose novel graph convolution and graph pooling modules that incorporate local geodesic information and are verified to be much more effective than previous designs. After training, our method requires only one forward pass of the network per mesh as precomputation. Then, we can compute the geodesic distance between a pair of points using our decoding function, which requires only several matrix multiplications and can be massively parallelized on GPUs. We verify the efficiency and effectiveness of our method on ShapeNet and demonstrate that our method is faster than existing methods by orders of magnitude while achieving comparable or better accuracy. Additionally, our method exhibits robustness on noisy and incomplete meshes and strong generalization ability on out-of-distribution meshes. The code and pretrained model can be found on https://github.com/IntelligentGeometry/GeGnn.
翻訳日:2023-09-12 11:38:36 公開日:2023-09-11
# 機械学習システムにおけるプライバシサイドチャネル

Privacy Side Channels in Machine Learning Systems ( http://arxiv.org/abs/2309.05610v1 )

ライセンス: Link先を確認
Edoardo Debenedetti, Giorgio Severi, Nicholas Carlini, Christopher A. Choquette-Choo, Matthew Jagielski, Milad Nasr, Eric Wallace, Florian Tram\`er(参考訳) 機械学習(ML)におけるプライバシ保護の現在のアプローチは、モデルが真空状態にあると仮定している。実際に、MLモデルは、データフィルタリングや出力監視などのトレーニングコンポーネントを含む、大規模なシステムの一部である。 本研究では,これらのシステムレベルのコンポーネントを利用して,スタンドアロンモデルよりもはるかに高いレートでプライベート情報を抽出する攻撃について述べる。 本稿では,mlライフサイクル全体にわたる4つのサイドチャネル(データフィルタリング,入力前処理,出力後処理,クエリフィルタリング)を提案し,メンバシップ推論攻撃の強化や,ユーザテストクエリの抽出などの新たな脅威も可能にする。 例えば、差分プライベートトレーニングを適用する前にトレーニングデータを重複させると、証明可能なプライバシ保証を完全に無効にするサイドチャネルが生成される。 さらに、トレーニングセットに含まれるプライベートキーの正確な再構築を可能にするために、トレーニングデータを再生する言語モデルをブロックするシステムが利用可能であることを示す。 その結果,機械学習の総合的なエンドツーエンドプライバシ分析の必要性が示された。

Most current approaches for protecting privacy in machine learning (ML) assume that models exist in a vacuum, when in reality, ML models are part of larger systems that include components for training data filtering, output monitoring, and more. In this work, we introduce privacy side channels: attacks that exploit these system-level components to extract private information at far higher rates than is otherwise possible for standalone models. We propose four categories of side channels that span the entire ML lifecycle (training data filtering, input preprocessing, output post-processing, and query filtering) and allow for either enhanced membership inference attacks or even novel threats such as extracting users' test queries. For example, we show that deduplicating training data before applying differentially-private training creates a side-channel that completely invalidates any provable privacy guarantees. Moreover, we show that systems which block language models from regenerating training data can be exploited to allow exact reconstruction of private keys contained in the training set -- even if the model did not memorize these keys. Taken together, our results demonstrate the need for a holistic, end-to-end privacy analysis of machine learning.
翻訳日:2023-09-12 11:38:14 公開日:2023-09-11
# マルチモーダル在庫移動予測における事前学習モデルの導入

Incorporating Pre-trained Model Prompting in Multimodal Stock Volume Movement Prediction ( http://arxiv.org/abs/2309.05608v1 )

ライセンス: Link先を確認
Ruibo Chen, Zhiyuan Zhang, Yi Liu, Ruihan Bao, Keiko Harimoto, Xu Sun(参考訳) 株式関連ニュースによるマルチモーダル取引量変動の予測は、金融分野の根本的問題の一つである。 ゼロからモデルを訓練する既存のマルチモーダルワークは、金融ニュースをモデル化する際の普遍的な知識の欠如に直面している。 さらに、モデルの能力は、データセットのデータ不足のため、ドメイン関連の知識の欠如によって制限される可能性がある。 この問題に対処するために,テキストと時系列のモダリティを処理するプロンプトベースマルチモーダルストックボリューム予測モデル(promuse)を提案する。 我々は、金融ニュースの理解を深めるために、事前学習された言語モデルを使用し、テキスト情報モデリングに普遍的な知識の能力を活用するために、即興学習手法を採用する。 さらに、2つのモダリティを単純に融合すれば、単項表現に害を与えることがある。 そこで本研究では, 核融合ヘッドの横にユニモーダルヘッドを保存しながら, 新たなクロスモダリティコントラストアライメントを提案する。 大規模な実験により,提案したProMUSEは既存のベースラインを上回る性能を示した。 包括的分析は、潜在的な変種や学習メカニズムと比較して、アーキテクチャの有効性をさらに検証する。

Multimodal stock trading volume movement prediction with stock-related news is one of the fundamental problems in the financial area. Existing multimodal works that train models from scratch face the problem of lacking universal knowledge when modeling financial news. In addition, the models ability may be limited by the lack of domain-related knowledge due to insufficient data in the datasets. To handle this issue, we propose the Prompt-based MUltimodal Stock volumE prediction model (ProMUSE) to process text and time series modalities. We use pre-trained language models for better comprehension of financial news and adopt prompt learning methods to leverage their capability in universal knowledge to model textual information. Besides, simply fusing two modalities can cause harm to the unimodal representations. Thus, we propose a novel cross-modality contrastive alignment while reserving the unimodal heads beside the fusion head to mitigate this problem. Extensive experiments demonstrate that our proposed ProMUSE outperforms existing baselines. Comprehensive analyses further validate the effectiveness of our architecture compared to potential variants and learning mechanisms.
翻訳日:2023-09-12 11:37:53 公開日:2023-09-11
# メモリインジェクション:トランスフォーマティブ言語モデルにおける推論中のマルチホップ推論障害の修正

Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models ( http://arxiv.org/abs/2309.05605v1 )

ライセンス: Link先を確認
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, Andr\'e Bauer, Kyle Chard, Ian Foster(参考訳) マルチホップ推論に答えるには、様々な情報源からの情報を検索し、合成する必要がある。 大規模言語モデル(LLM)はそのような推論を一貫して行うのに苦労する。 本稿では,LLMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。 まず,シングルホッププロンプトとマルチホッププロンプトに応答して,GPT-2モデルの層間アクティベーションを分析する。 次に,提案するメカニズムにより,ユーザが推論中に重要なLCM箇所で,関連するプロンプト固有情報を「記憶」として注入する機構を提案する。 これにより、LLMは推論中に追加の関連情報を組み込めるようになり、マルチホッププロンプトの完成度が向上する。 キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。

Answering multi-hop reasoning questions requires retrieving and synthesizing information from diverse sources. Large Language Models (LLMs) struggle to perform such reasoning consistently. Here we propose an approach to pinpoint and rectify multi-hop reasoning failures through targeted memory injections on LLM attention heads. First, we analyze the per-layer activations of GPT-2 models in response to single and multi-hop prompts. We then propose a mechanism that allows users to inject pertinent prompt-specific information, which we refer to as "memories," at critical LLM locations during inference. By thus enabling the LLM to incorporate additional relevant information during inference, we enhance the quality of multi-hop prompt completions. We show empirically that a simple, efficient, and targeted memory injection into a key attention layer can often increase the probability of the desired next token in multi-hop tasks, by up to 424%.
翻訳日:2023-09-12 11:37:08 公開日:2023-09-11
# 六方晶窒化ホウ素における光アドレス単一スピンの動的特性と室温制御

Dynamical Characterization and Room-Temperature Control of an Optically Addressable Single Spin in Hexagonal Boron Nitride ( http://arxiv.org/abs/2309.05604v1 )

ライセンス: Link先を確認
Raj N. Patel, Rebecca E. K. Fishman, Tzu-Yung Huang, Jordan A. Gusdorff, David A. Fehr, David A. Hopper, S. Alex Breitweiser, Benjamin Porat, Michael E. Flatt\'e, Lee C. Bassett(参考訳) 広帯域2次元固体材料である六方晶窒化ホウ素(h-BN)は、光学的に調節可能な電子スピンのシグネチャを示す純粋な単光子エミッタをホストする。 本稿では、室温で光検出された磁気共鳴を示すh-BNの単一エミッタについて報告し、その電子構造と光力学のモデルを提案する。 光子放射相関分光法と時間領域の光学・マイクロ波実験を併用して、エミッタの電子構造の重要な特徴を確立する。 具体的には、スピンレス光学場と励起状態、準安定スピン-1/2構成、発光変調機構を含むモデルを提案する。 光およびスピンダイナミクスシミュレーションを用いて、モデルの遷移速度を制約し、定量化し、スピン読み出しのための信号対雑音比を最適化するプロトコルを設計する。 これはh-bnにおけるスピン状態の量子制御への必要ステップである。

Hexagonal boron nitride (h-BN), a wide bandgap, two-dimensional solid-state material, hosts pure single-photon emitters that have shown signatures of optically-addressable electronic spins. Here, we report on a single emitter in h-BN exhibiting optically detected magnetic resonance at room temperature, and we propose a model for its electronic structure and optical dynamics. Using photon emission correlation spectroscopy in conjunction with time-domain optical and microwave experiments, we establish key features of the emitter's electronic structure. Specifically, we propose a model that includes a spinless optical ground and excited state, a metastable spin-1/2 configuration, and an emission modulation mechanism. Using optical and spin dynamics simulations, we constrain and quantify transition rates in the model, and we design protocols that optimize the signal-to-noise ratio for spin readout. This constitutes a necessary step toward quantum control of spin states in h-BN.
翻訳日:2023-09-12 11:36:50 公開日:2023-09-11
# ロボットパークラーニング

Robot Parkour Learning ( http://arxiv.org/abs/2309.05665v1 )

ライセンス: Link先を確認
Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher Atkeson, Soeren Schwertfeger, Chelsea Finn, Hang Zhao(参考訳) Parkourは、複雑な環境でさまざまな障害物を素早く克服するロボットを必要とする、足の移動の大きな課題だ。 既存の手法は、基準動物データや複雑な報酬を用いて、多様だが盲目なロコモーションスキルまたは視覚に基づく専門的なスキルを生成することができる。 しかし、自律駐車では、ビジョンベースで多様なスキルを習得し、様々なシナリオを知覚し、対応する必要がある。 そこで本研究では,参照動作データのない単純な報酬を用いて,多様なパーキングスキルを持つ単一エンドツーエンドのパークールポリシーを学習するシステムを提案する。 本研究では, 直接衝突法にインスパイアされた強化学習手法を開発し, 高い障害物を乗り越え, 大きな障害物を乗り越え, 低障壁の下をクロールし, 薄いスリットをくぐり抜けて走るなど, パールスキルを創出する。 我々はこれらの技術を単一の視覚に基づくパーサーポリシーに抽出し、エゴセントリックな深度カメラを用いて四足歩行ロボットに転送する。 本システムでは,2つの異なる低コストロボットに,実環境に挑戦する適切な駐車スキルを自律的に選択し実行させることができることを実証する。

Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
翻訳日:2023-09-12 11:31:24 公開日:2023-09-11
# 日中ハンドオブジェクトインタラクションクリップの拡散ガイドによる再構成

Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction Clips ( http://arxiv.org/abs/2309.05663v1 )

ライセンス: Link先を確認
Yufei Ye, Poorvi Hebbar, Abhinav Gupta, Shubham Tulsiani(参考訳) 短いビデオクリップから手と物体のインタラクションを再構築するタスクに取り組む。 入力ビデオが与えられると、3d推論をビデオ毎の最適化としてキャストし、オブジェクト形状のニューラル3d表現と、時間変化の動きと手の調音を復元する。 入力ビデオは自然に3D推論を導くための多視点的手がかりを提供するが、それらは排他的および限られた視点変化のため、それ自体では不十分である。 正確な3次元化を実現するために,多視点信号に汎用データ駆動プリエントを付加し,再構成のガイドを行う。 具体的には,手の配置やカテゴリラベルに条件付けされたオブジェクトの(幾何学的)レンダリングの条件分布をモデル化する拡散ネットワークを学習し,それを利用して再構成されたシーンの新規なレンダリングをガイドする。 6つの対象カテゴリにわたるエゴセントリックビデオに対するアプローチを実証的に評価し,先行するシングルビューおよびマルチビュー手法に対する大幅な改善を観察した。 最後に,YouTubeから任意のクリップを再構成し,第1者と第3者の両方のインタラクションを示す。

We tackle the task of reconstructing hand-object interactions from short video clips. Given an input video, our approach casts 3D inference as a per-video optimization and recovers a neural 3D representation of the object shape, as well as the time-varying motion and hand articulation. While the input video naturally provides some multi-view cues to guide 3D inference, these are insufficient on their own due to occlusions and limited viewpoint variations. To obtain accurate 3D, we augment the multi-view signals with generic data-driven priors to guide reconstruction. Specifically, we learn a diffusion network to model the conditional distribution of (geometric) renderings of objects conditioned on hand configuration and category label, and leverage it as a prior to guide the novel-view renderings of the reconstructed scene. We empirically evaluate our approach on egocentric videos across 6 object categories, and observe significant improvements over prior single-view and multi-view methods. Finally, we demonstrate our system's ability to reconstruct arbitrary clips from YouTube, showing both 1st and 3rd person interactions.
翻訳日:2023-09-12 11:31:02 公開日:2023-09-11
# vihope: 形状完了による手持ち物体6dポーズ推定

ViHOPE: Visuotactile In-Hand Object 6D Pose Estimation with Shape Completion ( http://arxiv.org/abs/2309.05662v1 )

ライセンス: Link先を確認
Hongyu Li, Snehal Dikhale, Soshi Iba, Nawid Jamali(参考訳) 本稿では,視覚知覚を用いて手指物体の6次元姿勢を推定する新しいフレームワークであるvihopeについて述べる。 我々の重要な洞察は、6Dオブジェクトのポーズ推定の精度を、オブジェクトの形状を明示的に完成させることで改善できるということである。 そこで本研究では,条件付き生成逆ネットワークを用いて,容積表現に基づく手指物体の形状を完備する,新しい視認性形状完備モジュールを提案する。 このアプローチは、6次元のポーズに自発的な観察を直接回帰する以前の作業よりも改善される。 対象物体の形状を明示的に完成させ,形状完了とポーズ推定タスクを協調的に最適化することにより,6次元オブジェクトのポーズ推定精度を向上する。 合成データセット上でモデルをトレーニングし、テストし、最先端のモデルと比較する。 バイスオタクティル形状完了タスクでは、ユニオン計量のインターセクションを用いて265%の最先端を達成し、88%低いシャンファー距離を達成する。 本研究では,ビズオタクティルポーズ推定タスクにおいて,このフレームワークが35%,64%の角度誤差を減少させることを示す。 さらに, 形状を明示的に完成することから, 6次元オブジェクトの利得を推定する枠組みを緩和する。 最終的に、我々のフレームワークは、現実世界のロボットプラットフォーム上で、シミュレートから現実への移動に堅牢なモデルを生成する。

In this letter, we introduce ViHOPE, a novel framework for estimating the 6D pose of an in-hand object using visuotactile perception. Our key insight is that the accuracy of the 6D object pose estimate can be improved by explicitly completing the shape of the object. To this end, we introduce a novel visuotactile shape completion module that uses a conditional Generative Adversarial Network to complete the shape of an in-hand object based on volumetric representation. This approach improves over prior works that directly regress visuotactile observations to a 6D pose. By explicitly completing the shape of the in-hand object and jointly optimizing the shape completion and pose estimation tasks, we improve the accuracy of the 6D object pose estimate. We train and test our model on a synthetic dataset and compare it with the state-of-the-art. In the visuotactile shape completion task, we outperform the state-of-the-art by 265% using the Intersection of Union metric and achieve 88% lower Chamfer Distance. In the visuotactile pose estimation task, we present results that suggest our framework reduces position and angular errors by 35% and 64%, respectively. Furthermore, we ablate our framework to confirm the gain on the 6D object pose estimate from explicitly completing the shape. Ultimately, we show that our framework produces models that are robust to sim-to-real transfer on a real-world robot platform.
翻訳日:2023-09-12 11:30:42 公開日:2023-09-11
# 仮説探索: 言語モデルによる帰納的推論

Hypothesis Search: Inductive Reasoning with Language Models ( http://arxiv.org/abs/2309.05660v1 )

ライセンス: Link先を確認
Ruocheng Wang, Eric Zelikman, Gabriel Poesia, Yewen Pu, Nick Haber, Noah D. Goodman(参考訳) 帰納的推論は、中核的な問題解決能力である: 人間はいくつかの例から根底にある原則を特定できる。 最近の研究は、帰納的推論タスクにおける大きな言語モデル(LLM)を「文脈学習」を直接的に促すことによって評価してきた。 これは単純な帰納的タスクではうまく機能するが、抽象および推論コーパス(arc)のようなより複雑なタスクでは極めて機能しない。 本研究では,複数の抽象レベルで明示的な仮説を生成することで,LLMの帰納的推論能力を向上させることを提案する。 これらのプログラムは、観察された例に基づいて直接検証し、新しい入力に一般化することができる。 最先端のLSMによる生成の禁止コストのため、我々はプログラムに実装される仮説の集合をフィルタリングする中間段階を考える:LSMにより小さな仮説の集合にまとめるよう求めるか、あるいは人間のアノテータに仮説のサブセットを選択するよう求める。 このパイプラインの有効性をarc visual inductive reasoning benchmark, its variant 1d-arc, string transformation dataset sygus上で検証した。 ARCの40プロブレムのランダムなサブセットでは、LLMサマリーを用いた自動パイプラインが27.5%の精度を実現し、ダイレクトプロンプトベースライン(精度は12.5%)を大幅に上回った。 LLM 生成候補から選択する人の最小限の入力により、パフォーマンスは37.5%に向上する。 (また、これはフィルタリングなしでの我々のアプローチのパフォーマンスの低い境界であると主張する)。 我々のアブレーション研究は、抽象仮説生成と具体的なプログラム表現は、LLMが帰納的推論タスクを実行するのに有益であることを示している。

Inductive reasoning is a core problem-solving capacity: humans can identify underlying principles from a few examples, which can then be robustly generalized to novel scenarios. Recent work has evaluated large language models (LLMs) on inductive reasoning tasks by directly prompting them yielding "in context learning." This can work well for straightforward inductive tasks, but performs very poorly on more complex tasks such as the Abstraction and Reasoning Corpus (ARC). In this work, we propose to improve the inductive reasoning ability of LLMs by generating explicit hypotheses at multiple levels of abstraction: we prompt the LLM to propose multiple abstract hypotheses about the problem, in natural language, then implement the natural language hypotheses as concrete Python programs. These programs can be directly verified by running on the observed examples and generalized to novel inputs. Because of the prohibitive cost of generation with state-of-the-art LLMs, we consider a middle step to filter the set of hypotheses that will be implemented into programs: we either ask the LLM to summarize into a smaller set of hypotheses, or ask human annotators to select a subset of the hypotheses. We verify our pipeline's effectiveness on the ARC visual inductive reasoning benchmark, its variant 1D-ARC, and string transformation dataset SyGuS. On a random 40-problem subset of ARC, our automated pipeline using LLM summaries achieves 27.5% accuracy, significantly outperforming the direct prompting baseline (accuracy of 12.5%). With the minimal human input of selecting from LLM-generated candidates, the performance is boosted to 37.5%. (And we argue this is a lower bound on the performance of our approach without filtering.) Our ablation studies show that abstract hypothesis generation and concrete program representations are both beneficial for LLMs to perform inductive reasoning tasks.
翻訳日:2023-09-12 11:30:15 公開日:2023-09-11
# タキー深さのランダム化近似の品質について

On the quality of randomized approximations of Tukey's depth ( http://arxiv.org/abs/2309.05657v1 )

ライセンス: Link先を確認
Simon Briend and G\'abor Lugosi and Roberto Imbuzeiro Oliveira(参考訳) テューキーの深さ (tukey's depth) は多変量データに対して広く使われる中心性の尺度である。 しかし、チューキーの深さの正確な計算は高次元では難しい問題であることが知られている。 治療として、ツキーの深さのランダム化近似が提案されている。 本稿では,そのようなランダム化アルゴリズムが,Tukeyの深さの近似値を返す方法を検討する。 ログコンケーブ等方性分布からデータがサンプリングされた場合について検討する。 アルゴリズムが次元において多項式時間で動く必要がある場合、ランダム化されたアルゴリズムは最大深さ1/2$と0に近い深さを正確に近似する。 一方、任意の中間深さの点に対して、良い近似は指数複雑性を必要とする。

Tukey's depth (or halfspace depth) is a widely used measure of centrality for multivariate data. However, exact computation of Tukey's depth is known to be a hard problem in high dimensions. As a remedy, randomized approximations of Tukey's depth have been proposed. In this paper we explore when such randomized algorithms return a good approximation of Tukey's depth. We study the case when the data are sampled from a log-concave isotropic distribution. We prove that, if one requires that the algorithm runs in polynomial time in the dimension, the randomized algorithm correctly approximates the maximal depth $1/2$ and depths close to zero. On the other hand, for any point of intermediate depth, any good approximation requires exponential complexity.
翻訳日:2023-09-12 11:29:40 公開日:2023-09-11
# ダイナミックハンドオーバ: 両手で投げてキャッチする

Dynamic Handover: Throw and Catch with Bimanual Hands ( http://arxiv.org/abs/2309.05655v1 )

ライセンス: Link先を確認
Binghao Huang, Yuanpei Chen, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, Xiaolong Wang(参考訳) 人間は常にオブジェクトを投げ、キャッチします。 ロボットはそのようなダイナミックなアクションを高速で操作し、正確なコラボレーションを行い、多様なオブジェクトと対話する必要がある。 本稿では,ロボットアームに2本の指を装着したシステムを設計し,この問題を解決する。 シミュレーションではマルチエージェント強化学習を用いてシステムを訓練し,実ロボットに展開するためにsim2実数転送を行う。 sim2実数ギャップを克服するために,対象物の軌道予測モデル学習を含む複数の新しいアルゴリズム設計を提案する。 このようなモデルは、ロボットキャッチャーがオブジェクトの方向をリアルタイムで推定し、それに応じて反応するのに役立つ。 実世界のシステムにおいて,複数のオブジェクトを用いて実験を行い,複数のベースラインに対する大幅な改善を示す。 プロジェクトページは \url{https://binghao-huang.github.io/dynamic_handover/} で閲覧できます。

Humans throw and catch objects all the time. However, such a seemingly common skill introduces a lot of challenges for robots to achieve: The robots need to operate such dynamic actions at high-speed, collaborate precisely, and interact with diverse objects. In this paper, we design a system with two multi-finger hands attached to robot arms to solve this problem. We train our system using Multi-Agent Reinforcement Learning in simulation and perform Sim2Real transfer to deploy on the real robots. To overcome the Sim2Real gap, we provide multiple novel algorithm designs including learning a trajectory prediction model for the object. Such a model can help the robot catcher has a real-time estimation of where the object will be heading, and then react accordingly. We conduct our experiments with multiple objects in the real-world system, and show significant improvements over multiple baselines. Our project page is available at \url{https://binghao-huang.github.io/dynamic_handover/}.
翻訳日:2023-09-12 11:29:29 公開日:2023-09-11
# MAmmoth:ハイブリッドインストラクションチューニングによる数学一般モデルの構築

MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning ( http://arxiv.org/abs/2309.05653v1 )

ライセンス: Link先を確認
Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen(参考訳) 我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。 MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。 mathinstructは13の数学データセットから中間的な合理性を持つようにコンパイルされます。 cot (chain-of-thought) とpot (program-of-thought) のハイブリッドであり、数学における様々な分野をカバーする。 CoTとPoTのハイブリッドは、ツール使用の可能性を広げるだけでなく、異なる数学問題に対して異なる思考プロセスを可能にする。 その結果、MAmmoTHシリーズは、すべてのスケールにわたる9つの数学的推論データセットで既存のオープンソースモデルを大幅に上回り、平均精度は13%から29%向上した。 注目すべきは、私たちのMAmmoTH-7Bモデルは、最高のオープンソース7Bモデル(WizardMath)を25%上回るMATH(競合レベルのデータセット)で35%に達し、MAmmoTH-34Bモデルは、GPT-4のCoT結果よりも46%の精度でMATH上で46%の精度を達成したことです。 本研究は,多種多様な問題カバレッジの重要性と,優れた数学ジェネラリストモデルの開発におけるハイブリッド理性の利用を明らかにする。

We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
翻訳日:2023-09-12 11:29:13 公開日:2023-09-11
# 小型データセットのための効果的な2段階学習パラダイム検出器

An Effective Two-stage Training Paradigm Detector for Small Dataset ( http://arxiv.org/abs/2309.05652v1 )

ライセンス: Link先を確認
Zheng Wang, Dong Xie, Hanzhi Wang, Jiang Tian(参考訳) ラベル付きデータの限られた量から事前トレインモデルへの学習は、常に困難なタスクと見なされてきた。 本報告では,VIPriors Challenge 2023において,物体検出のための2段階トレーニングパラダイムYOLOv8検出器(TP-YOLOv8)を設計した。 まず、YOLOv8のバックボーンをマスク画像モデリング技術を用いてエンコーダとして事前訓練する。 その後、検出器は精巧な拡張で微調整される。 テスト段階では、各モデルを強化するためにテスト時間拡張(TTA)を使用し、さらに性能を高めるために重み付きボックス融合(WBF)を実装する。 良く設計された構造で、私たちのアプローチはDelftBikesテストセットの0.50から0.95までの平均精度を30.4%達成しました。

Learning from the limited amount of labeled data to the pre-train model has always been viewed as a challenging task. In this report, an effective and robust solution, the two-stage training paradigm YOLOv8 detector (TP-YOLOv8), is designed for the object detection track in VIPriors Challenge 2023. First, the backbone of YOLOv8 is pre-trained as the encoder using the masked image modeling technique. Then the detector is fine-tuned with elaborate augmentations. During the test stage, test-time augmentation (TTA) is used to enhance each model, and weighted box fusion (WBF) is implemented to further boost the performance. With the well-designed structure, our approach has achieved 30.4% average precision from 0.50 to 0.95 on the DelftBikes test set, ranking 4th on the leaderboard.
翻訳日:2023-09-12 11:28:49 公開日:2023-09-11
# 畳み込みニューラルネットワーク(CNN)を用いたエッジシステムに対する分散型サービス拒否(DDoS)攻撃検出のための新しいディープラーニングソリューション

A Novel Supervised Deep Learning Solution to Detect Distributed Denial of Service (DDoS) attacks on Edge Systems using Convolutional Neural Networks (CNN) ( http://arxiv.org/abs/2309.05646v1 )

ライセンス: Link先を確認
Vedanth Ramanathan, Krish Mahadevan and Sejal Dua(参考訳) サイバーセキュリティの攻撃はますます洗練され、個人や民間、公共セクターへの脅威が高まっている。 分散型サービス拒否(Distributed Denial of Service)攻撃は、今日のインターネットにおいて最も有害な脅威の1つであり、本質的なサービスの可用性を損なう。 このプロジェクトでは,ニューブランズウィック大学の業界公認のDDoS評価データセットを用いて,ネットワークトラフィックにおけるDDoS攻撃を検出するための,新たなディープラーニングベースのアプローチを提案する。 本研究では、畳み込みニューラルネットワーク(CNN)と一般的なディープラーニングアルゴリズムの特性を利用して、良質で悪意のあるトラフィックを分類する新しい緩和手法を構築する。 提案モデルは,パケットフローを抽出して固定長に正規化することでデータを前処理し,ノードのドロップアウト,正規化,sgmoidアクティベーション関数を制御した層を含むカスタムアーキテクチャに供給してバイナリ分類を行う。 これにより、モデルがフローを効果的に処理し、DDoS攻撃に寄与するノードを探しながら、“ノイズ”や障害をなくすことが可能になる。 本研究は,DDOS攻撃検出における提案アルゴリズムの有効性を実証し,任意のネットワーク環境においてスケーラブルでありながら,2000 年の未確認フローにおける .9883 の精度を実現した。

Cybersecurity attacks are becoming increasingly sophisticated and pose a growing threat to individuals, and private and public sectors. Distributed Denial of Service attacks are one of the most harmful of these threats in today's internet, disrupting the availability of essential services. This project presents a novel deep learning-based approach for detecting DDoS attacks in network traffic using the industry-recognized DDoS evaluation dataset from the University of New Brunswick, which contains packet captures from real-time DDoS attacks, creating a broader and more applicable model for the real world. The algorithm employed in this study exploits the properties of Convolutional Neural Networks (CNN) and common deep learning algorithms to build a novel mitigation technique that classifies benign and malicious traffic. The proposed model preprocesses the data by extracting packet flows and normalizing them to a fixed length which is fed into a custom architecture containing layers regulating node dropout, normalization, and a sigmoid activation function to out a binary classification. This allows for the model to process the flows effectively and look for the nodes that contribute to DDoS attacks while dropping the "noise" or the distractors. The results of this study demonstrate the effectiveness of the proposed algorithm in detecting DDOS attacks, achieving an accuracy of .9883 on 2000 unseen flows in network traffic, while being scalable for any network environment.
翻訳日:2023-09-12 11:28:33 公開日:2023-09-11
# CitDet: Citrus Fruit検出のためのベンチマークデータセット

CitDet: A Benchmark Dataset for Citrus Fruit Detection ( http://arxiv.org/abs/2309.05645v1 )

ライセンス: Link先を確認
Jordan A. James, Heather K. Manching, Matthew R. Mattia, Kim D. Bowman, Amanda M. Hulse-Kemp, William J. Beksi(参考訳) 本稿では,果樹園環境におけるハングロングブリング (HLB) 病による樹木の収量変化を画像解析により正確に推定する手法を提案する。 果実検出問題の解決において大きな進歩があったにもかかわらず、公開データセットの欠如は結果の複雑な直接比較である。 例えば、カンキツの検出は長い間農業研究コミュニティに関心を寄せてきたが、特にhlbによって影響を受けるカンキツの公開データセットに関わる作業が不足している。 この問題に対処するために、我々は典型的な果樹園の設定で使用する最先端のオブジェクト検出手法を強化する。 具体的には, hlbの影響を受けやすい地域に位置するかんきつ類の高分解能画像と, かんきつ類果実の良質なバウンディングボックスアノテーションを提供する。 木と地面の両方に果実をラベル付けし,果実の立地を同定し,収量推定の進歩と,果実の落葉によるHLB影響の潜在的評価に寄与する。 データセットは579の高解像度画像に含まれるフルーツインスタンスのための32,000以上のバウンディングボックスアノテーションで構成されている。 まとめると、私たちの貢献は以下のとおりです。 (i)複数の現代オブジェクト検出アルゴリズムのベースライン性能ベンチマークとともに,新しいデータセットを導入する。 (ii)木や地面の果実の位置を正確に把握し,最後には果実の位置を正確に把握する能力を示す。 (ii)この結果と収率推定の相関性を示す。

In this letter, we present a new dataset to advance the state of the art in detecting citrus fruit and accurately estimate yield on trees affected by the Huanglongbing (HLB) disease in orchard environments via imaging. Despite the fact that significant progress has been made in solving the fruit detection problem, the lack of publicly available datasets has complicated direct comparison of results. For instance, citrus detection has long been of interest in the agricultural research community, yet there is an absence of work, particularly involving public datasets of citrus affected by HLB. To address this issue, we enhance state-of-the-art object detection methods for use in typical orchard settings. Concretely, we provide high-resolution images of citrus trees located in an area known to be highly affected by HLB, along with high-quality bounding box annotations of citrus fruit. Fruit on both the trees and the ground are labeled to allow for identification of fruit location, which contributes to advancements in yield estimation and potential measure of HLB impact via fruit drop. The dataset consists of over 32,000 bounding box annotations for fruit instances contained in 579 high-resolution images. In summary, our contributions are the following: (i) we introduce a novel dataset along with baseline performance benchmarks on multiple contemporary object detection algorithms, (ii) we show the ability to accurately capture fruit location on tree or on ground, and finally (ii) we present a correlation of our results with yield estimations.
翻訳日:2023-09-12 11:28:07 公開日:2023-09-11