このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231011となっている論文です。

PDF登録状況(公開日: 20231011)

TitleAuthorsAbstract論文公表日・翻訳日
# GraphCloak: 不正なエクスプロイテーションによるグラフ構造化データ内のタスク固有の知識の保護

GraphCloak: Safeguarding Task-specific Knowledge within Graph-structured Data from Unauthorized Exploitation ( http://arxiv.org/abs/2310.07100v1 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Xun Chen, Pan Zhou, Lichao Sun, (参考訳) グラフニューラルネットワーク(GNN)が、ソーシャルネットワーク分析からタンパク質-タンパク質相互作用研究に至るまで、様々な分野で普及するにつれて、個人データの不正利用に対する懸念が高まっている。 近年の研究では、このような誤用から画像データを保護する効果的な方法として、知覚不能な毒殺攻撃が報告されている。 しかし、グラフ領域におけるこのアプローチの有効性は未解明のままである。 このギャップを埋めるために、グラフデータの不正使用に対する保護のためにGraphCloakを導入する。 グラフ指向,摂動はグラフのトポロジ的構造と記述的特徴の両方に適用される; 有効かつステルス性, クローキング手法は様々な検査を回避できると同時に, クロークされたグラフで訓練されたGNNの大幅な性能低下を招き得る; 設定が安定する; それぞれの手法は、限られた知識を持つ実用的な設定の下で一貫して有効に機能する。 難解な二段階最適化問題に対処するために, 構造的および特徴空間上の摂動を標的とした2つの誤り最小化型中毒法と, サブグラフ注入による中毒法を提案する。 これらの手法の総合的な評価は, その有効性, ステルス性, 安定性を裏付けるものである。 我々はまた、潜在的な対策を探求し、その効果を分析学的に正当化し、将来の研究への道を開く。

As Graph Neural Networks (GNNs) become increasingly prevalent in a variety of fields, from social network analysis to protein-protein interaction studies, growing concerns have emerged regarding the unauthorized utilization of personal data. Recent studies have shown that imperceptible poisoning attacks are an effective method of protecting image data from such misuse. However, the efficacy of this approach in the graph domain remains unexplored. To bridge this gap, this paper introduces GraphCloak to safeguard against the unauthorized usage of graph data. Compared with prior work, GraphCloak offers unique significant innovations: (1) graph-oriented, the perturbations are applied to both topological structures and descriptive features of the graph; (2) effective and stealthy, our cloaking method can bypass various inspections while causing a significant performance drop in GNNs trained on the cloaked graphs; and (3) stable across settings, our methods consistently perform effectively under a range of practical settings with limited knowledge. To address the intractable bi-level optimization problem, we propose two error-minimizing-based poisoning methods that target perturbations on the structural and feature space, along with a subgraph injection poisoning method. Our comprehensive evaluation of these methods underscores their effectiveness, stealthiness, and stability. We also delve into potential countermeasures and provide analytical justification for their effectiveness, paving the way for intriguing future research.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-11
# 傾斜マクロブロックを爆発するモーションベクトル-ドメインビデオステガナリシス

Motion Vector-Domain Video Steganalysis Exploiting Skipped Macroblocks ( http://arxiv.org/abs/2310.07121v1 )

ライセンス: Link先を確認
Jun Li, Minqing Zhang, Ke Niu, Yingnan Zhang, Xiaoyuan Yang, (参考訳) ビデオステガノグラフィーは、違法な情報を伝達するために使われる可能性があり、ビデオステガナリシスは、この違法行為の存在を検出する重要なツールである。 現在、すべての動きベクトル(MV)ベースのビデオステガナリシスアルゴリズムはMVに直接特徴集合を抽出しているが、ステガノグラ演算を無視することは、スキップされたマクロブロック(直接MV)など他のビデオ符号化要素の統計分布を乱す可能性がある。 本報告では,MV-based video steganography を検出するための新しい11次元特徴セットを提案する。 提案手法は再圧縮キャリブレーションによりスキップされたマクロブロックに基づいて抽出される。 具体的には、2つのコンポーネントから構成される。 1つは動きベクトル予測(MVP)差の確率分布、もう1つは分割状態伝達の確率分布である。 異なる条件における広範囲な実験により, 提案した特徴集合は, 特に低埋め込み能力において, 優れた検出精度を達成できることが証明された。 また,不一致量子化パラメータ(QP)を用いた再圧縮校正による検出性能の損失が許容範囲内にあるため,本手法は実例に適用可能である。

Video steganography has the potential to be used to convey illegal information, and video steganalysis is a vital tool to detect the presence of this illicit act. Currently, all the motion vector (MV)-based video steganalysis algorithms extract feature sets directly on the MVs, but ignoring the steganograhic operation may perturb the statistics distribution of other video encoding elements, such as the skipped macroblocks (no direct MVs). This paper proposes a novel 11-dimensional feature set to detect MV-based video steganography based on the above observation. The proposed feature is extracted based on the skipped macroblocks by recompression calibration. Specifically, the feature consists of two components. The first is the probability distribution of motion vector prediction (MVP) difference, and the second is the probability distribution of partition state transfer. Extensive experiments on different conditions demonstrate that the proposed feature set achieves good detection accuracy, especially in lower embedding capacity. In addition, the loss of detection performance caused by recompression calibration using mismatched quantization parameters (QP) is within the acceptable range, so the proposed method can be used in practical scenarios.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-11
# ObliuSky: クラウドにおけるユーザ定義スカイラインクエリ処理

ObliuSky: Oblivious User-Defined Skyline Query Processing in the Cloud ( http://arxiv.org/abs/2310.07148v1 )

ライセンス: Link先を確認
Yifeng Zheng, Weibo Wang, Songlei Wang, Zhongyun Hua, Yansong Gao, (参考訳) クラウドコンピューティングの普及は、アウトソースされたデータベースストレージと管理の人気を大いに引き起こし、アウトソースされたデータベースを保持しているクラウドは、オンデマンドでデータベースクエリを処理できる。 スカイラインクエリは,複数基準決定支援システムにおいて,その顕著な有用性から,データベース分野において重要な役割を担っている。 ユーザのニーズに合わせて、ユーザ定義のスカイラインクエリは、最近、興味深いタイプのスカイラインクエリとして登場した。 しかし、クラウドにデプロイされたユーザ定義のスカイラインクエリサービスは、アウトソースされたデータベースとスカイラインクエリがプロプライエタリ/プライバシに敏感な情報を含んでいる可能性があるため、重要なプライバシー上の懸念を引き起こす可能性がある。 本稿では,クラウド上でのユーザ定義のスカイラインクエリ処理を可能にする新しいシステムフレームワークであるObliuSkyを提案する。 ObliuSkyは、アウトソースされたデータベースの内容、ユーザ定義のスカイラインクエリ、クエリ結果に対する機密性保護を提供するだけでなく、間接的にデータ漏洩を引き起こす可能性のあるデータパターン(例えば、データベースポイントと検索アクセスパターン間のユーザ定義の優位性関係)に雲を逸脱させることによって、最先端の作業から離れている。 セキュリティ保証を正式に分析し、広範なパフォーマンス評価を行う。 その結果、ObliuSkyは最新技術よりもはるかに強力なセキュリティ保証を実現する一方で、データベースとクエリの暗号化効率に優れており、実際に手頃な価格のクエリ待ち時間を持つことがわかった。

The proliferation of cloud computing has greatly spurred the popularity of outsourced database storage and management, in which the cloud holding outsourced databases can process database queries on demand. Among others, skyline queries play an important role in the database field due to its prominent usefulness in multi-criteria decision support systems. To accommodate the tailored needs of users, user-defined skyline query has recently emerged as an intriguing advanced type of skyline query, which allows users to define custom preferences in their skyline queries (including the target attributes, preferred dominance relations, and range constraints on the target attributes). However, user-defined skyline query services, if deployed in the cloud, may raise critical privacy concerns as the outsourced databases and skyline queries may contain proprietary/privacy-sensitive information, and the cloud might even suffer from data breaches. In light of the above, this paper presents ObliuSky, a new system framework enabling oblivious user-defined skyline query processing in the cloud. ObliuSky departs from the state-of-the-art prior work by not only providing confidentiality protection for the content of the outsourced database, the user-defined skyline query, and the query results, but also making the cloud oblivious to the data patterns (e.g., user-defined dominance relations among database points and search access patterns) which may indirectly cause data leakages. We formally analyze the security guarantees and conduct extensive performance evaluations. The results show that while achieving much stronger security guarantees than the state-of-the-art prior work, ObliuSky is superior in database and query encryption efficiency, with practically affordable query latency.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-11
# My Brotherが教えてくれる: ノード注入によるソーシャルボット検出の逆攻撃

My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection ( http://arxiv.org/abs/2310.07159v1 )

ライセンス: Link先を確認
Lanjun Wang, Xinran Qiao, Yanwei Xie, Weizhi Nie, Yongdong Zhang, Anan Liu, (参考訳) Twitterなどのソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。 これに対し、このような偽ユーザーを特定するソーシャルボット検出タスクが開発された。 ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。 本研究では,ボット検出モデルを欺いたノード注入による逆攻撃手法を提案する。 特に、ターゲットボットの周囲に新たなボットが加えられた場合には、ターゲットボットも新規に注入されたボットも検出できない。 この攻撃はブラックボックス方式で行われており、被害者のモデルに関する情報はまだ不明であることを示している。 我々の知る限り、グラフノード注入によるボット検出のレジリエンスを探求する最初の研究である。 さらに,グラフ埋め込み空間から挿入されたノードを元の特徴空間に戻し,ノードの摂動を効果的に操作できる属性回復モジュールを開発した。 我々は、広く使われている2つのデータセット(Cresci-2015 と TwiBot-22)上で、ボット検出によく使われる4つのGNN構造に対して敵対攻撃を行う。 攻撃成功率は73\%を超え、新たに注入されたノードがボットとして検出される割合は、これらの2つのデータセットで13\%以下である。

Social platforms such as Twitter are under siege from a multitude of fraudulent users. In response, social bot detection tasks have been developed to identify such fake users. Due to the structure of social networks, the majority of methods are based on the graph neural network(GNN), which is susceptible to attacks. In this study, we propose a node injection-based adversarial attack method designed to deceive bot detection models. Notably, neither the target bot nor the newly injected bot can be detected when a new bot is added around the target bot. This attack operates in a black-box fashion, implying that any information related to the victim model remains unknown. To our knowledge, this is the first study exploring the resilience of bot detection through graph node injection. Furthermore, we develop an attribute recovery module to revert the injected node embedding from the graph embedding space back to the original feature space, enabling the adversary to manipulate node perturbation effectively. We conduct adversarial attacks on four commonly used GNN structures for bot detection on two widely used datasets: Cresci-2015 and TwiBot-22. The attack success rate is over 73\% and the rate of newly injected nodes being detected as bots is below 13\% on these two datasets.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-11
# コードのポリモーフィズムとコードの暗号化: 信頼性とソフトウェアコンポーネントのサイドチャネル保護

Code Polymorphism Meets Code Encryption: Confidentiality and Side-Channel Protection of Software Components ( http://arxiv.org/abs/2310.07327v1 )

ライセンス: Link先を確認
Lionel Morel, Damien Couroussé, Thomas Hiscock, (参考訳) 本稿では、実際には、標的に関する情報の抽出と潜在的な脆弱性の特定を目的とした分析フェーズと、攻撃手法を候補脆弱性に適用するエクスプロイトフェーズの2つの連続的なフェーズを、サイドチャネル分析を含む攻撃シナリオが組み合わされていることを考察する。 我々は、現実の攻撃に対して有効となるためには、保護が2つのフェーズをカバーする必要があることを主張する。 分析フェーズに対する対策として,コード暗号化の利用を検討するとともに,コード生成に依存しているため,コードポリモルフィズムの利用を考慮し,コード暗号化と組み合わせることが特に困難である。 コード暗号化はプロセッサ拡張によってサポートされ、マシン命令はCPU内でのみ復号化され、リバースエンジニアリングやメモリダンプからの有用な情報抽出が効果的に防止される。 コード多型はソフトウェアによって実装される。 プログラムの観測可能な振る舞いを定期的に変更し、攻撃者が予測できないようにすることで、サイドチャネルリアケージを悪用する可能性を減らす。 RISC-V Spikeシミュレータと修正LLVMツールチェーンに基づくプロトタイプ実装を提案する。 実験的評価では、Polyenはサイドチャネルリークを効果的に低減する。 保護された機能を評価するため、静的メモリの使用量は、コード暗号化とコード多型の共同適用に対応する5から22に増加する。 実行時間のオーバーヘッドは1.8から4.6の範囲である。

In this paper, we consider that, in practice, attack scenarios involving side-channel analysis combine two successive phases:an analysis phase, targeting the extraction of information about the target and the identification of possible vulnerabilities;and an exploitation phase, applying attack techniques on candidate vulnerabilities. We advocate that protections need to coverthese two phases in order to be effective against real-life attacks. We present PolEn, a toolchain and a processor architecturethat combine countermeasures in order to provide an effective mitigation of side-channel attacks: as a countermeasure againstthe analysis phase, our approach considers the use of code encryption; as a countermeasure against the exploitation phase,our approach considers the use of code polymorphism, because it relies on runtime code generation, and its combinationwith code encryption is particularly challenging. Code encryption is supported by a processor extension such that machineinstructions are only decrypted inside the CPU, which effectively prevents reverse engineering or any extraction of usefulinformation from memory dumps. Code polymorphism is implemented by software means. It regularly changes the observablebehaviour of the program, making it unpredictable for an attacker, hence reducing the possibility to exploit side-channelleakages. We present a prototype implementation, based on the RISC-V Spike simulator and a modified LLVM toolchain. Inour experimental evaluation, we illustrate that PolEn effectively reduces side-channel leakages. For the protected functionsevaluated, static memory use increases by a factor of 5 to 22, corresponding to the joint application of code encryption andcode polymorphism. The overhead, in terms of execution time, ranges between a factor of 1.8 and 4.6.
翻訳日:2024-03-19 02:42:56 公開日:2023-10-11
# 先進論理プログラムにおける等価性の自動検証 -- Bachelor Thesis

Automated Verification of Equivalence Properties in Advanced Logic Programs -- Bachelor Thesis ( http://arxiv.org/abs/2310.19806v1 )

ライセンス: Link先を確認
Jan Heuer(参考訳) 回答セットプログラミングを用いた産業アプリケーションの増加に伴い、特に重要なアプリケーション向けの形式的検証ツールの必要性も高まっている。 プログラム最適化プロセスでは、最適化されたサブプログラムが元のサブプログラムを置き換えることができるかどうかを自動的に検証するツールが望ましい。 形式的には、2つのプログラムの強い等価性を検証する問題に対応する。 そのため、翻訳ツールのアンセムが開発された。 2つのプログラムが強く同値であることを検証するために、古典論理の自動定理証明器と併用することができる。 現在のバージョンのアンセムでは、限定された入力言語を持つ正のプログラムの強い等価性のみが検証できる。 これは、ここで論理式を生成するアンセムで実装された翻訳$\tau^*$の結果であり、これは正のプログラムに対してのみ古典論理と一致する。 この論文はこれらの制限を克服するために国歌を拡張している。 まず、変換 $\sigma^*$ が提示され、ここでの論理式から古典論理へ変換される。 定理は、$\sigma^*$ が古典論理学のここでの論理における同値性を表現するのにどのように使用できるかを定式化する。 第二に、$\tau^*$ はプールを含むプログラムに拡張される。 別の定理は、2つのプログラムの古典論理における強同値を表現するために、$\sigma^*$ と$\tau^*$ を組み合わせる方法を示している。 拡張された$\sigma^*$ と$\tau^*$ により、否定、単純な選択、プールを含む論理プログラムの強い等価性を表現することができる。 拡張された$\tau^*$ と $\sigma^*$ の両方が、新しいバージョンのアンセムで実装されている。 アンセムの新しいバージョンが古典論理に翻訳できるプール、否定、簡単な選択規則を含む論理プログラムのいくつかの例を示す。 ちょっと...

With the increase in industrial applications using Answer Set Programming, the need for formal verification tools, particularly for critical applications, has also increased. During the program optimisation process, it would be desirable to have a tool which can automatically verify whether an optimised subprogram can replace the original subprogram. Formally this corresponds to the problem of verifying the strong equivalence of two programs. In order to do so, the translation tool anthem was developed. It can be used in conjunction with an automated theorem prover for classical logic to verify that two programs are strongly equivalent. With the current version of anthem, only the strong equivalence of positive programs with a restricted input language can be verified. This is a result of the translation $\tau^*$ implemented in anthem that produces formulas in the logic of here-and-there, which coincides with classical logic only for positive programs. This thesis extends anthem in order to overcome these limitations. First, the transformation $\sigma^*$ is presented, which transforms formulas from the logic of here-and-there to classical logic. A theorem formalises how $\sigma^*$ can be used to express equivalence in the logic of here-and-there in classical logic. Second, the translation $\tau^*$ is extended to programs containing pools. Another theorem shows how $\sigma^*$ can be combined with $\tau^*$ to express the strong equivalence of two programs in classical logic. With $\sigma^*$ and the extended $\tau^*$, it is possible to express the strong equivalence of logic programs containing negation, simple choices, and pools. Both the extended $\tau^*$ and $\sigma^*$ are implemented in a new version of anthem. Several examples of logic programs containing pools, negation, and simple choice rules, which the new version of anthem can translate to classical logic, are presented. Some a...
翻訳日:2023-11-05 13:42:38 公開日:2023-10-11
# センサフリーな感情自動検出:体系的文献レビュー

Automatic Sensor-free Affect Detection: A Systematic Literature Review ( http://arxiv.org/abs/2310.13711v1 )

ライセンス: Link先を確認
Felipe de Morais, Di\'ogines Goldoni, Tiago Kautzmann, Rodrigo da Silva, Patricia A. Jaques(参考訳) 感情やその他の感情状態は認知と学習プロセスにおいて重要な役割を果たす。 学生の感情状態を検出し適応できるコンピュータベースの学習環境(CBLE)が学習成果を高めることは確実である。 しかしながら、実際の制約は、特に大規模または長期のアプリケーションにおいて、CBLEにおけるセンサーベースの影響検出の展開に課題を引き起こすことが多い。 その結果、学生とcbleとのインタラクションのログのみに依存するセンサフリーなインフルエンサー検出が、説得力のある代替手段として出現する。 本稿ではセンサフリーな感情検出に関する包括的な文献レビューを行う。 それは、最も頻繁に識別される感情状態、センサー開発に使用される方法論と技術、cbleとデータサンプルの属性の定義、そして主要な研究トレンドに分解される。 モデルの一貫性のある性能と高度な機械学習技術の適用により、この分野の明らかな成熟度にもかかわらず、将来の研究には十分な範囲がある。 さらなる探索の潜在的領域には、センサレス検出モデルの性能向上、未表現の感情のサンプルの蓄積、追加の感情の同定などがある。 モデル開発プラクティスやメソッドを洗練する必要もあります。 これには、さまざまなデータ収集手法の精度の比較、持続時間の最適粒度の決定、アクションログと感情ラベルの共有データベースの確立、これらのモデルのソースコードの公開アクセスなどが含まれる。 将来の研究は、リアルタイム検出のためのCBLEへのモデル統合、検出された感情に基づく意味のある介入の提供、学習に対する感情の影響のより深い理解も優先すべきである。

Emotions and other affective states play a pivotal role in cognition and, consequently, the learning process. It is well-established that computer-based learning environments (CBLEs) that can detect and adapt to students' affective states can enhance learning outcomes. However, practical constraints often pose challenges to the deployment of sensor-based affect detection in CBLEs, particularly for large-scale or long-term applications. As a result, sensor-free affect detection, which exclusively relies on logs of students' interactions with CBLEs, emerges as a compelling alternative. This paper provides a comprehensive literature review on sensor-free affect detection. It delves into the most frequently identified affective states, the methodologies and techniques employed for sensor development, the defining attributes of CBLEs and data samples, as well as key research trends. Despite the field's evident maturity, demonstrated by the consistent performance of the models and the application of advanced machine learning techniques, there is ample scope for future research. Potential areas for further exploration include enhancing the performance of sensor-free detection models, amassing more samples of underrepresented emotions, and identifying additional emotions. There is also a need to refine model development practices and methods. This could involve comparing the accuracy of various data collection techniques, determining the optimal granularity of duration, establishing a shared database of action logs and emotion labels, and making the source code of these models publicly accessible. Future research should also prioritize the integration of models into CBLEs for real-time detection, the provision of meaningful interventions based on detected emotions, and a deeper understanding of the impact of emotions on learning.
翻訳日:2023-10-29 15:56:26 公開日:2023-10-11
# 関連性テストによるソフトウェア信頼性の実証:保守的ベイズ的アプローチからの考察

Demonstrating Software Reliability using Possibly Correlated Tests: Insights from a Conservative Bayesian Approach ( http://arxiv.org/abs/2208.07935v3 )

ライセンス: Link先を確認
Kizito Salako, Xingyu Zhao(参考訳) 本稿では,ソフトウェアの信頼性に関する保守的主張に対するベイズ的手法,特にソフトウェアの実行が統計的に独立ではないことを示す証拠について述べる。 我々は,実行が独立した「二重化」という非公式な概念を定式化し,その疑念を信頼性評価に取り入れる。 我々は,評価において,独立仮説が保守主義を損なう程度を明らかにする手法を開発し,その影響が重要でない条件を特定する。 これらのテクニック - 保守ベイズ推論(cbi)アプローチの新しい拡張 - は、ソフトウェアの実行当たりの失敗確率に対する保守的信頼度を与える。 原子力発電所の安全性と自動運転車(AV)の安全性の2つの応用分野の図面からわかる。 1) システムに運用試験を施す前に、評価官が保持すべき信任性 そうでなければ、このようなテストは無駄です - 望ましい運用テストの証拠は、最終的にシステムの信頼性を十分に低下させます。 2) 独立仮定は,時々,保守的主張を支持する。 3) あるシナリオでは,障害のないシステムの動作を観察することは,いくつかの障害が観測された場合よりも,システムに対する信頼度を低下させる。 4) システムの信頼性の構築は、障害に対して非常に敏感である。

This paper presents Bayesian techniques for conservative claims about software reliability, particularly when evidence suggests the software's executions are not statistically independent. We formalise informal notions of "doubting" that the executions are independent, and incorporate such doubts into reliability assessments. We develop techniques that reveal the extent to which independence assumptions can undermine conservatism in assessments, and identify conditions under which this impact is not significant. These techniques - novel extensions of conservative Bayesian inference (CBI) approaches - give conservative confidence bounds on the software's failure probability per execution. With illustrations in two application areas - nuclear power-plant safety and autonomous vehicle (AV) safety - our analyses reveals: 1) the confidence an assessor should possess before subjecting a system to operational testing. Otherwise, such testing is futile - favourable operational testing evidence will eventually decrease one's confidence in the system being sufficiently reliable; 2) the independence assumption supports conservative claims sometimes; 3) in some scenarios, observing a system operate without failure gives less confidence in the system than if some failures had been observed; 4) building confidence in a system is very sensitive to failures - each additional failure means significantly more operational testing is required, in order to support a reliability claim.
翻訳日:2023-10-24 15:04:49 公開日:2023-10-11
# アプリのレビューからユーザーのプライバシーに関する話題を掘り下げる

Mining User Privacy Concern Topics from App Reviews ( http://arxiv.org/abs/2212.09289v4 )

ライセンス: Link先を確認
Jianzhang Zhang, Jinping Hua, Yiyang Chen, Nan Niu, Chuang Liu(参考訳) コンテキスト: モバイルアプリケーション(アプリ)が私たちの社会や生活に広く普及するにつれ、さまざまな個人情報が、よりインテリジェントでカスタマイズされた機能と引き換えに、アプリによって常に要求されます。 アプリストアでのアプリレビューを通じて、プライバシーの懸念を訴えるユーザーが増えている。 目的: ユーザーレビューから効果的にプライバシー上の懸念を掘り下げる主な課題は、プライバシーに関する懸念を表すレビューが、より一般的なテーマや騒々しいコンテンツを表す多くのレビューによって過大評価されているという事実にある。 本研究では,この課題を克服するための新しい自動アプローチを提案する。 方法:本手法では,まず情報検索と文書埋め込みを用いて,アノテーションデータセットを作成するためにラベル付けされた候補プライバシレビューを教師なしに抽出する。 監視された分類器は、自動的にプライバシーレビューを識別するように訓練される。 最後に,プライバシレビューに含まれるプライバシに関するトピックを検出するために,解釈可能なトピックマイニングアルゴリズムを設計する。 結果: 実験の結果, 検索されたプライバシレビューの上位100項目中, 96.80%の平均精度を達成した。 トレーニングされたすべてのプライバシレビュー分類器は91%以上のF1値を達成でき、F1マージンが最大7.5%である最近のキーワードマッチングベースラインを上回っている。 プライバシに関するトピックをプライバシレビューから検出するために,提案アルゴリズムはLDAを含む3つの強力なトピックモデリングベースラインよりも優れたトピックコヒーレンスと多様性を実現する。 結論: 実証評価の結果, プライバシレビューを識別し, ユーザプライバシの懸念を検出するアプローチの有効性が示された。

Context: As mobile applications (Apps) widely spread over our society and life, various personal information is constantly demanded by Apps in exchange for more intelligent and customized functionality. An increasing number of users are voicing their privacy concerns through app reviews on App stores. Objective: The main challenge of effectively mining privacy concerns from user reviews lies in the fact that reviews expressing privacy concerns are overridden by a large number of reviews expressing more generic themes and noisy content. In this work, we propose a novel automated approach to overcome that challenge. Method: Our approach first employs information retrieval and document embeddings to unsupervisedly extract candidate privacy reviews that are further labeled to prepare the annotation dataset. Then, supervised classifiers are trained to automatically identify privacy reviews. Finally, we design an interpretable topic mining algorithm to detect privacy concern topics contained in the privacy reviews. Results: Experimental results show that the best performed document embedding achieves an average precision of 96.80% in the top 100 retrieved candidate privacy reviews. All of the trained privacy review classifiers can achieve an F1 value of more than 91%, outperforming the recent keywords matching baseline with the maximum F1 margin being 7.5%. For detecting privacy concern topics from privacy reviews, our proposed algorithm achieves both better topic coherence and diversity than three strong topic modeling baselines including LDA. Conclusion: Empirical evaluation results demonstrate the effectiveness of our approach in identifying privacy reviews and detecting user privacy concerns expressed in App reviews.
翻訳日:2023-10-24 13:56:45 公開日:2023-10-11
# ソフトウェア開発におけるドメイン駆動設計: 実装、挑戦、有効性に関する体系的文献レビュー

Domain-Driven Design in Software Development: A Systematic Literature Review on Implementation, Challenges, and Effectiveness ( http://arxiv.org/abs/2310.01905v2 )

ライセンス: Link先を確認
Ozan \"Ozkan, \"Onder Babur, Mark van den Brand(参考訳) コンテキスト: ドメイン駆動設計(DDD)はソフトウェアの課題に対処し、リファクタリング、再実装、導入に注目する。 複雑なビジネス問題を解決するためにドメイン知識に焦点を当てている。 Objective: This Systematic Literature Review (SLR)は、ソフトウェア開発におけるDDDの研究を分析し、アーキテクチャの問題を解決する上での有効性を評価し、課題を特定し、成果を探求する。 方法:36種類のピアレビュー研究を選択し,定量的および質的分析を行った。 結果: DDDはソフトウェアシステムを効果的に改善し、ユビキタス言語、コンテキスト境界、ドメインイベントを強調します。 マイクロサービスのdddは、システムの分解に目立った。 いくつかの研究は経験的評価を欠き、搭乗や専門知識の課題を特定した。 結論:DDDの採用は、エンジニア、アーキテクト、マネージャ、ドメインエキスパートといったステークホルダーを含むソフトウェア開発に恩恵をもたらす。 より経験的な評価と課題に関するオープンな議論が必要です。 産学と産学の連携はDDDの採用とプロジェクトにおける知識移転を促進する。

Context: Domain-Driven Design (DDD) addresses software challenges, gaining attention for refactoring, reimplementation, and adoption. It centers on domain knowledge to solve complex business problems. Objective: This Systematic Literature Review (SLR) analyzes DDD research in software development to assess its effectiveness in solving architecture problems, identify challenges, and explore outcomes. Method: We selected 36 peer-reviewed studies and conducted quantitative and qualitative analysis. Results: DDD effectively improved software systems, emphasizing Ubiquitous Language, Bounded Context, and Domain Events. DDD in microservices gained prominence for system decomposition. Some studies lacked empirical evaluations, identifying challenges in onboarding and expertise. Conclusion: Adopting DDD benefits software development, involving stakeholders like engineers, architects, managers, and domain experts. More empirical evaluations and open discussions on challenges are needed. Collaboration between academia and industry advances DDD adoption and knowledge transfer in projects.
翻訳日:2023-10-23 05:05:49 公開日:2023-10-11
# エベレスト:一時的なモチーフをマイニングするGPU加速システム

Everest: GPU-Accelerated System For Mining Temporal Motifs ( http://arxiv.org/abs/2310.02800v3 )

ライセンス: Link先を確認
Yichao Yuan, Haojie Ye, Sanketh Vedula, Wynn Kaza, Nishil Talati(参考訳) 時間モチーフマイニングは、指定された構造的および時間的制約に従う大きな入力時間グラフ内でサブグラフパターンが発生することを見つけるタスクである。 ハイパフォーマンス(金融トランザクショングラフの不正検出など)を要求するいくつかの重要なアプリケーション領域で有効性があるにもかかわらず、既存のソフトウェアの性能は商用ハードウェアプラットフォームで制限されており、何時間も動作している。 本稿では,マイニングの作業負荷(列挙とカウントの両方をサポートする)を高並列GPUアーキテクチャに効率的にマッピングするシステムであるEverestを提案する。 特に、入力時相グラフとより表現力のあるユーザ定義時相モチーフクエリ定義を使い、エベレストはgpuの高い計算スループットを利用してワークロードの実行を最適化する実行計画と実行時プリミティブを生成する。 Everestは、長時間のメモリアクセスと頻繁なスレッド分散操作を減らすために、モチーフ固有のマイニングコードを生成する。 Everestには、GPUハードウェアの利用を改善するロードバランシングを可能にする、新たな低コストランタイムメカニズムが組み込まれている。 GPUメモリに合わない大きなグラフをサポートするために、Everestは、GPU間通信を防止するエッジリストをインテリジェントに分割することで、マルチGPU実行もサポートする。 everestは、提示された最適化の実装の複雑さを、ユーザビリティを向上させるために、ターゲットとするシステムユーザから隠している。 提案した最適化により,EverestはベースラインGPU実装の性能を平均19倍に向上することを示す。

Temporal motif mining is the task of finding the occurrences of subgraph patterns within a large input temporal graph that obey the specified structural and temporal constraints. Despite its utility in several critical application domains that demand high performance (e.g., detecting fraud in financial transaction graphs), the performance of existing software is limited on commercial hardware platforms, in that it runs for tens of hours. This paper presents Everest - a system that efficiently maps the workload of mining (supports both enumeration and counting) temporal motifs to the highly parallel GPU architecture. In particular, using an input temporal graph and a more expressive user-defined temporal motif query definition compared to prior works, Everest generates an execution plan and runtime primitives that optimize the workload execution by exploiting the high compute throughput of a GPU. Everest generates motif-specific mining code to reduce long-latency memory accesses and frequent thread divergence operations. Everest incorporates novel low-cost runtime mechanisms to enable load balancing to improve GPU hardware utilization. To support large graphs that do not fit on GPU memory, Everest also supports multi-GPU execution by intelligently partitioning the edge list that prevents inter-GPU communication. Everest hides the implementation complexity of presented optimizations away from the targeted system user for better usability. Our evaluation shows that, using proposed optimizations, Everest improves the performance of a baseline GPU implementation by 19x, on average.
翻訳日:2023-10-23 04:44:23 公開日:2023-10-11
# ソフトウェア工学のための大規模言語モデル:調査とオープン問題

Large Language Models for Software Engineering: Survey and Open Problems ( http://arxiv.org/abs/2310.03533v3 )

ライセンス: Link先を確認
Angela Fan, Beliz Gokkaya, Mark Harman, Mitya Lyubarskiy, Shubho Sengupta, Shin Yoo, Jie M. Zhang(参考訳) 本稿では,ソフトウェア工学(SE)におけるLarge Language Models(LLMs)の新興領域について調査する。 また、llmをソフトウェアエンジニアが直面する技術的問題に適用するためのオープンリサーチの課題も規定している。 LLMの創発的な特性は、コーディング、設計、要求、修復、リファクタリング、パフォーマンス改善、ドキュメントと分析を含むソフトウェアエンジニアリングのアクティビティの範囲で、アプリケーションによって、斬新さと創造性をもたらします。 しかし、これらの全く同じ創発的な性質は重要な技術的課題を生じさせ、幻覚のような不正確な解を確実に除去できる技術が必要である。 本調査では,ハイブリッド技術(従来のSE+LLM)が,信頼性,効率的,効果的なLLMベースのSEの開発と展開において果たす役割を明らかにする。

This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.
翻訳日:2023-10-23 04:36:15 公開日:2023-10-11
# SparseCoder: スパースアテンションと学習トークンプルーニングによるソースコード解析の改善

SparseCoder: Advancing Source Code Analysis with Sparse Attention and Learned Token Pruning ( http://arxiv.org/abs/2310.07109v1 )

ライセンス: Link先を確認
Xueqi Yang, Mariusz Jakubowski, Kelly Kang, Haojie Yu and Tim Menzies(参考訳) ソフトウェアプロジェクトが急速に進化するにつれて、ソフトウェアアーチファクトはより複雑になり、裏にある欠陥は識別しにくくなります。 新たに登場したトランスフォーマーベースのアプローチは、驚くべきパフォーマンスを実現しているが、シーケンス長と2倍スケールする自己アテンション機構のため、長いコードシーケンスに苦しむ。 本稿では,この制限に対処するために,スパースアテンションと学習トークンプルーニング(LTP)手法を取り入れた革新的なアプローチであるSparseCoderを紹介する。 脆弱性検出のための大規模なデータセット上で実施された大規模な実験は、CodeBERTやRoBERTaと比較して、SparseCoderの有効性と効率を4次から線形に拡張した。 さらに,少なからぬ注意力を利用した変圧器と比較して,性能低下が1%未満で50%のフラップ削減を達成している。 その上で、SparseCoderは、これらの決定の背後にある理論的根拠を解明することによって、"ブラックボックス"決定を超越します。 最終決定に寄与するコードセグメントは重要度スコアで強調され、ソフトウェア工学の展望に解釈可能で透過的な分析ツールを提供する。

As software projects rapidly evolve, software artifacts become more complex and defects behind get harder to identify. The emerging Transformer-based approaches, though achieving remarkable performance, struggle with long code sequences due to their self-attention mechanism, which scales quadratically with the sequence length. This paper introduces SparseCoder, an innovative approach incorporating sparse attention and learned token pruning (LTP) method (adapted from natural language processing) to address this limitation. Extensive experiments carried out on a large-scale dataset for vulnerability detection demonstrate the effectiveness and efficiency of SparseCoder, scaling from quadratically to linearly on long code sequence analysis in comparison to CodeBERT and RoBERTa. We further achieve 50% FLOPs reduction with a negligible performance drop of less than 1% comparing to Transformer leveraging sparse attention. Moverover, SparseCoder goes beyond making "black-box" decisions by elucidating the rationale behind those decisions. Code segments that contribute to the final decision can be highlighted with importance scores, offering an interpretable, transparent analysis tool for the software engineering landscape.
翻訳日:2023-10-23 03:23:44 公開日:2023-10-11
# 自律走行システムの変成時モニタリング

Metamorphic Runtime Monitoring of Autonomous Driving Systems ( http://arxiv.org/abs/2310.07414v1 )

ライセンス: Link先を確認
Jon Ayerdi, Asier Iriarte, Pablo Valle, Ibai Roman, Miren Illarramendi, Aitor Arrieta(参考訳) 自律運転システム (Autonomous Driving Systems, ADS) は、不確実な状況下でも安全を確保しなければならない複雑なサイバー物理システム (CPS) である。 現代のADSはディープニューラルネットワーク(Deep Neural Networks, DNN)を用いることが多い。 したがって、潜在的に危険な状況を避けるためには、実行時にADSの信頼性を見積もるアプローチが必要である。 本稿では,複数の入力と対応する出力の間で保持されるシステムの特性である,メタモルフィックリレーション(mrs)に基づく広告のオンライン監視手法であるmarmotを提案する。 ドメイン固有のMRを用いて、MarMotは実行時のADSの不確実性を推定し、道路を運転するなど、ADSの異常な振る舞いを引き起こす可能性のある異常な状況を特定する。 小型のADSと2種類のトレーニング用回路,さらに2つの追加回路を用いて,5種類のMRを用いたMarMotの実証評価を行った。 本評価は,外部の異常,例えば霧,および内部異常,例えば誤ったラベル付きトレーニングデータによる欠陥dnnの同定を包含する。 その結果、MarMotは外部異常の35-65-%、内部異常の77-100-%を識別でき、SelfOracleおよびEnsembleベースのADSモニタリング手法よりも優れていることがわかった。

Autonomous Driving Systems (ADSs) are complex Cyber-Physical Systems (CPSs) that must ensure safety even in uncertain conditions. Modern ADSs often employ Deep Neural Networks (DNNs), which may not produce correct results in every possible driving scenario. Thus, an approach to estimate the confidence of an ADS at runtime is necessary to prevent potentially dangerous situations. In this paper we propose MarMot, an online monitoring approach for ADSs based on Metamorphic Relations (MRs), which are properties of a system that hold among multiple inputs and the corresponding outputs. Using domain-specific MRs, MarMot estimates the uncertainty of the ADS at runtime, allowing the identification of anomalous situations that are likely to cause a faulty behavior of the ADS, such as driving off the road. We perform an empirical assessment of MarMot with five different MRs, using a small-scale ADS, two different circuits for training, and two additional circuits for evaluation. Our evaluation encompasses the identification of both external anomalies, e.g., fog, as well as internal anomalies, e.g., faulty DNNs due to mislabeled training data. Our results show that MarMot can identify 35\% to 65\% of the external anomalies and 77\% to 100\% of the internal anomalies, outperforming both SelfOracle and Ensemble-based ADS monitoring approaches.
翻訳日:2023-10-23 03:13:06 公開日:2023-10-11
# Androidアプリのカテゴリを再検討

Revisiting Android App Categorization ( http://arxiv.org/abs/2310.07290v1 )

ライセンス: Link先を確認
Marco Alecci, Jordan Samhi, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) 多くのツールは、その方法論の一部として、Androidアプリの自動分類に依存している。 しかし、不正な分類は、マルウェア検知器が悪質なアプリを悪質であると誤って警告するなど、不正確な結果をもたらす可能性がある。 例えば、SlideIT Free Keyboardアプリは、Google Playで50万回以上ダウンロードされている。 キーボード”アプリであるにも関わらず、アプリの説明が言語サポートに重点を置いているため、誤って"言語"アプリと分類されることが多い。 したがって、Androidアプリの分類を改善して、それに依存するすべてのツールに利益をもたらす必要がある。 本稿では,既存のAndroidアプリのカテゴリ化アプローチを,新たな基盤トラスデータセットを用いて包括的に評価する。 本評価は,apkファイルから抽出したデータのみに依存するユーザに対して,アプリ記述を利用するアプローチの顕著な優位性を示すとともに,前カテゴリの改良の余地も残している。 そこで本研究では,記述に基づく手法とAPKに基づく手法の両方において,既存の手法の性能を効果的に上回る2つの革新的な手法を提案する。 最後に,新たな説明ベースのアプローチを採用することで,高性能なカテゴリ化手法を採用することで,アプリカテゴリ化に依存するツールのメリットが著しく向上し,全体のパフォーマンスが向上することを示すことができた。 これは、ソフトウェアエンジニアリングタスクの成果を改善するために、高度で効率的なアプリ分類手法を開発することの重要性を強調します。

Numerous tools rely on automatic categorization of Android apps as part of their methodology. However, incorrect categorization can lead to inaccurate outcomes, such as a malware detector wrongly flagging a benign app as malicious. One such example is the SlideIT Free Keyboard app, which has over 500000 downloads on Google Play. Despite being a "Keyboard" app, it is often wrongly categorized alongside "Language" apps due to the app's description focusing heavily on language support, resulting in incorrect analysis outcomes, including mislabeling it as a potential malware when it is actually a benign app. Hence, there is a need to improve the categorization of Android apps to benefit all the tools relying on it. In this paper, we present a comprehensive evaluation of existing Android app categorization approaches using our new ground-truth dataset. Our evaluation demonstrates the notable superiority of approaches that utilize app descriptions over those solely relying on data extracted from the APK file, while also leaving space for potential improvement in the former category. Thus, we propose two innovative approaches that effectively outperform the performance of existing methods in both description-based and APK-based methodologies. Finally, by employing our novel description-based approach, we have successfully demonstrated that adopting a higher-performing categorization method can significantly benefit tools reliant on app categorization, leading to an improvement in their overall performance. This highlights the significance of developing advanced and efficient app categorization methodologies for improved results in software engineering tasks.
翻訳日:2023-10-23 03:12:18 公開日:2023-10-11
# crashtranslator: モバイルアプリケーションの自動再生がスタックトレースから直接クラッシュする

CrashTranslator: Automatically Reproducing Mobile Application Crashes Directly from Stack Trace ( http://arxiv.org/abs/2310.07128v1 )

ライセンス: Link先を確認
Yuchao Huang, Junjie Wang, Zhe Liu, Yawen Wang, Song Wang, Chunyang Chen, Yuanzhe Hu, Qing Wang(参考訳) クラッシュレポートは、開発者がモバイルアプリケーションで遭遇した問題を知らせることができるため、ソフトウェアのメンテナンスに不可欠である。 修正する前には、開発者はクラッシュを再現する必要があります。 既存の研究では、再生ステップを記述した自然言語を用いて自動クラッシュ再生を行った。 しかし、衝突報告の無視できない部分は、クラッシュが発生した時にのみスタックトレースを含む。 このようなスタックトレースのみのクラッシュは、クラッシュが発生したときに最後のGUIページを明らかにするだけで、ステップバイステップのガイダンスがない。 開発者は、問題の理解とクラッシュの再現により多くの労力を費やす傾向にあり、既存のテクニックではこれに対処できないため、自動サポートの必要性が高まる。 本稿では,モバイルアプリケーションのクラッシュを自動的にスタックトレースから直接再現するcrashtranslatorという手法を提案する。 本手法は,事前学習された大規模言語モデルを用いて,衝突を誘発する探索ステップを予測し,不正確な予測を緩和し,探索をホリスティックにガイドする強化学習に基づく手法を設計することにより,これを実現する。 我々はCrashTranslatorを58のAndroidアプリを含む75のクラッシュレポートで評価し、61.3%のクラッシュを再現し、最先端のベースラインを109%から206%上回った。 さらに、平均再生時間は68.7秒であり、ベースラインを302%から1611%上回っている。 また,CrashTranslatorの有用性を有望な結果とともに評価した。

Crash reports are vital for software maintenance since they allow the developers to be informed of the problems encountered in the mobile application. Before fixing, developers need to reproduce the crash, which is an extremely time-consuming and tedious task. Existing studies conducted the automatic crash reproduction with the natural language described reproducing steps. Yet we find a non-neglectable portion of crash reports only contain the stack trace when the crash occurs. Such stack-trace-only crashes merely reveal the last GUI page when the crash occurs, and lack step-by-step guidance. Developers tend to spend more effort in understanding the problem and reproducing the crash, and existing techniques cannot work on this, thus calling for a greater need for automatic support. This paper proposes an approach named CrashTranslator to automatically reproduce mobile application crashes directly from the stack trace. It accomplishes this by leveraging a pre-trained Large Language Model to predict the exploration steps for triggering the crash, and designing a reinforcement learning based technique to mitigate the inaccurate prediction and guide the search holistically. We evaluate CrashTranslator on 75 crash reports involving 58 popular Android apps, and it successfully reproduces 61.3% of the crashes, outperforming the state-of-the-art baselines by 109% to 206%. Besides, the average reproducing time is 68.7 seconds, outperforming the baselines by 302% to 1611%. We also evaluate the usefulness of CrashTranslator with promising results.
翻訳日:2023-10-23 03:11:55 公開日:2023-10-11
# Google Play StoreにおけるAndroidスポーツアプリの大規模探索的研究

A Large-Scale Exploratory Study of Android Sports Apps in the Google Play Store ( http://arxiv.org/abs/2310.07921v1 )

ライセンス: Link先を確認
Bhagya Chembakottu, Heng Li, Foutse Khomh(参考訳) モバイルアプリ分析に関する先行研究は、さまざまなカテゴリのアプリを分析したり、カテゴリ内の小さなアプリに集中したりすることが多い。 これらの研究は、数百万のアプリからなるアプリストア全体に対する一般的な洞察を提供するか、あるいは少数のアプリに対して特定の洞察を提供する。 しかし、ひとつのアプリカテゴリーには数万から数十万のアプリが含まれることが多い。 例えば、AppBrainによると、Google Playアプリの"Sports"カテゴリには46,625のアプリが存在している。 このようなカテゴリを対象とするアプリの分析は、カテゴリ毎にアプリを分析することよりも、より具体的な洞察を提供することができる。 この研究は、単一のカテゴリー(スポーツカテゴリー)から多数のアプリを研究することを目的としている。 Google Play Storeで、2000以上のスポーツアプリに関する実証的研究を行った。 手動による分析,トピックモデリングによるユーザレビューの話題,ユーザ評価や感情の分析を通じてユーザの否定的な意見に寄与する側面などを通じて,これらのアプリの特徴(スポーツの種類や主な機能など)について検討する。 対象とするカテゴリのアプリ(例えばスポーツアプリ)を分析することは、異なるカテゴリのアプリを分析することよりも、多数のアプリ(例えば、数万ものアプリ)に関連がある、という結論に達した。 さらに、急速に成長し競争の激しい市場として、スポーツアプリは将来の研究に豊富な機会を提供する。例えば、ソフトウェアアプリケーションにおけるデータサイエンスや機械学習技術の統合の研究や、アプリの競争力に影響を与える要因の研究などだ。

Prior studies on mobile app analysis often analyze apps across different categories or focus on a small set of apps within a category. These studies either provide general insights for an entire app store which consists of millions of apps, or provide specific insights for a small set of apps. However, a single app category can often contain tens of thousands to hundreds of thousands of apps. For example, according to AppBrain, there are 46,625 apps in the "Sports" category of Google Play apps. Analyzing such a targeted category of apps can provide more specific insights than analyzing apps across categories while still benefiting many app developers interested in the category. This work aims to study a large number of apps from a single category (i.e., the sports category). We performed an empirical study on over two thousand sports apps in the Google Play Store. We study the characteristics of these apps (e.g., their targeted sports types and main functionalities) through manual analysis, the topics in the user review through topic modeling, as well as the aspects that contribute to the negative opinions of users through analysis of user ratings and sentiment. It is concluded that analyzing a targeted category of apps (e.g., sports apps) can provide more specific insights than analyzing apps across different categories while still being relevant for a large number (e.g., tens of thousands) of apps. Besides, as a rapid-growing and competitive market, sports apps provide rich opportunities for future research, for example, to study the integration of data science or machine learning techniques in software applications or to study the factors that influence the competitiveness of the apps.
翻訳日:2023-10-23 03:00:58 公開日:2023-10-11
# 継続的トレーニングのためのマルチバージョンハインドサイトロギング

Multiversion Hindsight Logging for Continuous Training ( http://arxiv.org/abs/2310.07898v1 )

ライセンス: Link先を確認
Rolando Garcia, Anusha Dandamudi, Gabriel Matute, Lehan Wan, Joseph Gonzalez, Joseph M. Hellerstein, Koushik Sen(参考訳) Production Machine Learningは、時間とともに複数のバージョンのモデルをホストし、多くの場合、複数のモデルバージョンが同時に実行される。 モデルパフォーマンスが期待を満たさない場合、機械学習エンジニア(mles)は、多くの以前のバージョンのコードとトレーニングデータの探索と分析を通じて問題をデバッグし、根本原因を特定し、問題を緩和する。 従来のデバッグとロギングツールは、実験的なマルチバージョンコンテキストの管理に不足することが多い。 この領域の課題に対処するためには、ロギングとログデータ管理に新しいアプローチが必要である。 FlorDBはMultiversion Hindsight Loggingを導入し、エンジニアは最新のバージョンのロギングステートメントを使用して過去のバージョンを探索することができる。 ログステートメントの伝搬は、コードベースの変更にかかわらず、過去のコードバージョンにロギングステートメントを一貫した注入を可能にする。 一度ログステートメントがコードバージョンに伝播すると、multiversionhindsight loggingの残りの課題は、以前の実行時のチェックポイントに基づいて、新しいログステートメントを効率的に再生することに関連する。 最後に、すべてのバージョンのコードとデータのMLEデバッグを支援するために、一貫性のあるユーザエクスペリエンスが必要です。 この目的のためにflordbは、履歴クエリを効率的に処理するための統一リレーショナルモデルを提示し、ログ履歴の包括的なビューを提供し、過去のコードのイテレーションの探索を簡単にする。 まとめると、FlorDBはMLEの特定のニーズに合わせた堅牢なツールを提供し、ML実験の複雑なランドスケープをナビゲートする能力を大幅に強化する。

Production Machine Learning involves hosting multiple versions of models over time, often with many model versions running at once. When model performance does not meet expectations, Machine Learning Engineers (MLEs) debug issues by exploring and analyzing numerous prior versions of code and training data to identify root causes and mitigate problems. Traditional debugging and logging tools often fall short in managing this experimental, multi-version context. To address the challenges in this domain, novel approaches are required for logging and log data management. FlorDB introduces Multiversion Hindsight Logging, which allows engineers to use the most recent version's logging statements to explore past versions, even when older versions logged different data. Log statement propagation enables consistent injection of logging statements into past code versions, regardless of changes to the codebase. Once log statements are propagated across code versions, the remaining challenges in Multiversion Hindsight Logging relate to efficiently replaying the new log statements based on checkpoints from previous runs. Finally, a coherent user experience is required to help MLEs debug across all versions of code and data. To this end, FlorDB presents a unified relational model for efficient handling of historical queries, offering a comprehensive view of the log history to simplify the exploration of past code iterations. In sum, FlorDB provides a robust tool tailored to the specific needs of MLEs, significantly enhancing their ability to navigate the intricate landscape of ML experimentation.
翻訳日:2023-10-23 03:00:34 公開日:2023-10-11
# 脆弱性緩和のための依存性プラクティス

Dependency Practices for Vulnerability Mitigation ( http://arxiv.org/abs/2310.07847v1 )

ライセンス: Link先を確認
Abbas Javan Jafari, Diego Elias Costa, Ahmad Abdellatif, Emad Shihab(参考訳) 依存関係パッケージに依存することはソフトウェア開発を加速するが、依存関係に存在する可能性のあるセキュリティ脆弱性への露出も増加させる。 開発者はどの依存関係パッケージ(およびどのバージョン)を使用するかを完全にコントロールするが、依存関係の依存関係をコントロールできない。 このような推移的な依存関係は、直接的な依存関係よりも多くなり、脆弱性に感染し、ソフトウェアプロジェクトを危険にさらす可能性がある。 このリスクを軽減するためには、プロジェクトへの脆弱性のあるコードの伝播を防ぐために、脆弱性に迅速に応答する依存関係を選択する必要がある。 このような依存関係を特定するため、npmエコシステムの450以上の脆弱性を分析し、依存パッケージが脆弱なままである理由を理解する。 依存関係を通じて感染した20万以上のnpmパッケージを特定し、9つの機能を使用して、脆弱性修正を迅速に適用し、脆弱性のさらなる伝播を防ぐパッケージを特定する予測モデルを構築します。 また,これらの機能と脆弱パッケージの応答速度との関係についても検討した。 我々は,研究成果の適用性を理解するために,実践者の調査を補完する。 開発者はこの調査結果を依存関係管理プラクティスに組み込むことで、依存関係サプライチェーンからの脆弱性の影響を軽減することができます。

Relying on dependency packages accelerates software development, but it also increases the exposure to security vulnerabilities that may be present in dependencies. While developers have full control over which dependency packages (and which version) they use, they have no control over the dependencies of their dependencies. Such transitive dependencies, which often amount to a greater number than direct dependencies, can become infected with vulnerabilities and put software projects at risk. To mitigate this risk, Practitioners need to select dependencies that respond quickly to vulnerabilities to prevent the propagation of vulnerable code to their project. To identify such dependencies, we analyze more than 450 vulnerabilities in the npm ecosystem to understand why dependent packages remain vulnerable. We identify over 200,000 npm packages that are infected through their dependencies and use 9 features to build a prediction model that identifies packages that quickly adopt the vulnerability fix and prevent further propagation of vulnerabilities. We also study the relationship between these features and the response speed of vulnerable packages. We complement our work with a practitioner survey to understand the applicability of our findings. Developers can incorporate our findings into their dependency management practices to mitigate the impact of vulnerabilities from their dependency supply chain.
翻訳日:2023-10-23 03:00:04 公開日:2023-10-11
# Prompt Engineering or Fine Tuning: 自動ソフトウェアエンジニアリングタスクにおける大規模言語モデルの実証評価

Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks ( http://arxiv.org/abs/2310.10508v1 )

ライセンス: Link先を確認
Jiho Shin, Clark Tang, Tahmineh Mohati, Maleknaz Nayebi, Song Wang, Hadi Hemmati(参考訳) 本稿では,3つの典型的なASEタスク,すなわちコード生成,コード要約,コード翻訳に対して,3つの異なるプロンプト技術(基本的プロンプト,テキスト内学習,タスク固有プロンプト)を用いて,最先端のLCM(GPT-4)の有効性を検討する。 これらのプロンプト戦略を定量的に分析した結果,プロンプトエンジニアリングgpt-4は3つのタスクすべてにおいて,微調整された小/小のllmを必ずしも上回ってはいないことが示唆された。 コメント生成において、最高のプロンプト戦略(すなわちタスク固有のプロンプト)を持つGPT-4はBLEUの平均8.33%の精度で第1級微調整モデルを上回った。 しかし、コード生成において、最初の微調整されたモデルは、BLEUで平均16.61%、28.3%の精度でGPT-4より優れている。 コード翻訳では、GPT-4と微調整されたベースラインは、異なる翻訳タスクにおいて互いに優れる。 異なるプロンプト戦略の影響を探るために,27人の大学院生と10人の業界実践者を対象に,ユーザ調査を行った。 質的な分析から,対話的プロンプトを持つ GPT-4 は,対話的プロンプトを持つ GPT-4 に対して,自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善が見られた。 さらに、参加者は改善を要求したり、より多くのコンテキストを追加したり、会話的なプロンプトとして特定の指示を与える傾向があります。 本研究は,現在,対話型プロンプトによるgpt-4は,aseタスクに対して大きな可能性を秘めているが,ループ内に人間がいない完全に自動化されたプロンプトエンジニアリングでは,さらなる研究と改善が必要であることを示唆する。

In this paper, we investigate the effectiveness of state-of-the-art LLM, i.e., GPT-4, with three different prompting engineering techniques (i.e., basic prompting, in-context learning, and task-specific prompting) against 18 fine-tuned LLMs on three typical ASE tasks, i.e., code generation, code summarization, and code translation. Our quantitative analysis of these prompting strategies suggests that prompt engineering GPT-4 cannot necessarily and significantly outperform fine-tuning smaller/older LLMs in all three tasks. For comment generation, GPT-4 with the best prompting strategy (i.e., task-specific prompt) had outperformed the first-ranked fine-tuned model by 8.33% points on average in BLEU. However, for code generation, the first-ranked fine-tuned model outperforms GPT-4 with best prompting by 16.61% and 28.3% points, on average in BLEU. For code translation, GPT-4 and fine-tuned baselines tie as they outperform each other on different translation tasks. To explore the impact of different prompting strategies, we conducted a user study with 27 graduate students and 10 industry practitioners. From our qualitative analysis, we find that the GPT-4 with conversational prompts (i.e., when a human provides feedback and instructions back and forth with a model to achieve best results) showed drastic improvement compared to GPT-4 with automatic prompting strategies. Moreover, we observe that participants tend to request improvements, add more context, or give specific instructions as conversational prompts, which goes beyond typical and generic prompting strategies. Our study suggests that, at its current state, GPT-4 with conversational prompting has great potential for ASE tasks, but fully automated prompt engineering with no human in the loop requires more study and improvement.
翻訳日:2023-10-23 02:30:50 公開日:2023-10-11
# BrainVoxGen:MRIへの超音波合成のためのディープラーニングフレームワーク

BrainVoxGen: Deep learning framework for synthesis of Ultrasound to MRI ( http://arxiv.org/abs/2310.08608v1 )

ライセンス: Link先を確認
Shubham Singh, Dr. Mrunal Bewoor, Ammar Ranapurwala, Satyam Rai, Sheetal Patil(参考訳) Pix2Pix GANモデルを用いた脳の3次元超音波画像から3次元MRIボリュームの合成を目的としたディープラーニングフレームワークを提案する。 このプロセスでは、超音波の3DボリュームをUNETジェネレータとパッチ識別器に入力し、対応するMRIの3Dボリュームを生成する。 3次元超音波画像とMRI画像のデータセットに適用した判別器とジェネレータの損失を用いてモデル性能を評価した。 以上の結果から, 合成MRI画像は期待結果と若干の類似性を示した。 データセットのサイズ、計算資源、技術的複雑さに関連する問題にもかかわらず、この手法は、さらなる研究のベースラインとなるための十分な類似性スコアを持つMRIボリュームをうまく生成した。 超音波からMRIへの変換のための深層学習に基づくボリューム合成技術の可能性を強調し、医療応用の可能性を示す。 さらなる洗練と探索は臨床的関連性を高めるために必要である。

The study presents a deep learning framework aimed at synthesizing 3D MRI volumes from three-dimensional ultrasound images of the brain utilizing the Pix2Pix GAN model. The process involves inputting a 3D volume of ultrasounds into a UNET generator and patch discriminator, generating a corresponding 3D volume of MRI. Model performance was evaluated using losses on the discriminator and generator applied to a dataset of 3D ultrasound and MRI images. The results indicate that the synthesized MRI images exhibit some similarity to the expected outcomes. Despite challenges related to dataset size, computational resources, and technical complexities, the method successfully generated MRI volume with a satisfactory similarity score meant to serve as a baseline for further research. It underscores the potential of deep learning-based volume synthesis techniques for ultrasound to MRI conversion, showcasing their viability for medical applications. Further refinement and exploration are warranted for enhanced clinical relevance.
翻訳日:2023-10-16 16:14:35 公開日:2023-10-11
# 準1次元電子ダイヤモンドネックレス鎖におけるコンパクト局在境界状態

Compact localized boundary states in a quasi-1D electronic diamond-necklace chain ( http://arxiv.org/abs/2201.02012v2 )

ライセンス: Link先を確認
S. N. Kempkes (1), P. Capiod (2,3), S. Ismaili (1), J. Mulkens (2), L. Eek (1), I. Swart (2), C. Morais Smith (1) ((1) Institute for Theoretical Physics, Utrecht University, Netherlands, (2) Debye Institute for Nanomaterials Science, Utrecht University, Netherlands, (3) Junia-ISEN, Lille, France)(参考訳) 1次元(1D)ワイヤの端に局在したゼロエネルギーモードは、フォールトトレラント量子コンピューティングの量子ビットとして大きなポテンシャルを持つ。 しかし、今日知られている全ての候補は、指数関数的にバルクに崩壊し、近くの他のゼロモードとハイブリダイズする波動関数を示しており、ブレイディング操作の使用を妨げている。 ここでは、準1Dダイヤモンドネックレス鎖が、完全に予期せぬタイプの堅牢な境界状態、すなわち、バルクに崩壊しないコンパクトな局所零エネルギーモードを示すことを示す。 このモードにアクセスするための格子幾何学を理論的に設計し、電子量子シミュレータの設定で実験的に実現する。 私たちの研究は、ハイブリッド化の欠点を伴わずに組み上げることができるロバストでコンパクトなローカライズされたゼロエネルギモードの実現のための一般的な経路を提供します。

Zero-energy modes localized at the ends of one-dimensional (1D) wires hold great potential as qubits for fault-tolerant quantum computing. However, all the candidates known to date exhibit a wave function that decays exponentially into the bulk and hybridizes with other nearby zero-modes, thus hampering their use for braiding operations. Here, we show that a quasi-1D diamond-necklace chain exhibits a completely unforeseen type of robust boundary state, namely compact localized zero-energy modes that do not decay into the bulk. We theoretically engineer a lattice geometry to access this mode, and experimentally realize it in an electronic quantum simulator setup. Our work provides a general route for the realization of robust and compact localized zero-energy modes that could potentially be braided without the drawbacks of hybridization.
翻訳日:2023-10-16 04:54:46 公開日:2023-10-11
# 線形しきい値アクティベーションを持つニューラルネットワーク:構造とアルゴリズム

Neural networks with linear threshold activations: structure and algorithms ( http://arxiv.org/abs/2111.08117v3 )

ライセンス: Link先を確認
Sammy Khalife, Hongyu Cheng, Amitabh Basu(参考訳) 本稿では,線形しきい値アクティベーション関数を有するニューラルネットワークに関する新しい結果を示す。 このようなニューラルネットワークで表現可能な関数のクラスを正確に特徴付け、クラス内で表現可能な関数を表現するのに2つの隠蔽層が必要であることを示す。 これは、修正線形ユニット(ReLU)のような他の一般的なアクティベーション機能を用いたニューラルネットワークの最近の正確な表現可能性調査の光による驚くべき結果である。 また、クラス内の任意の関数を表現するのに必要なニューラルネットワークのサイズに関する正確な境界も与えます。 最後に,これらのニューラルネットワークのグローバル最適性に対するerm(experience risk minimization)問題を解決するアルゴリズムを設計した。 アルゴリズムの実行時間は、入力次元とネットワークアーキテクチャのサイズが固定定数である場合、データサンプルのサイズで多項式となる。 このアルゴリズムは、複数の層を持つ任意のアーキテクチャで機能するという意味ではユニークであるが、以前の多項式時間のグローバル最適アルゴリズムは、非常に制限されたアーキテクチャクラスでのみ動作する。 これらの知見を用いて,ショートカット線形しきい値ネットワークと呼ぶニューラルネットワークの新たなクラスを提案する。 我々の知る限りでは、このニューラルネットワークの設計方法は文献ではこれまで研究されていない。 これらのニューラルネットワークはいくつかの望ましい理論的特性を持つことを示す。

In this article we present new results on neural networks with linear threshold activation functions. We precisely characterize the class of functions that are representable by such neural networks and show that 2 hidden layers are necessary and sufficient to represent any function representable in the class. This is a surprising result in the light of recent exact representability investigations for neural networks using other popular activation functions like rectified linear units (ReLU). We also give precise bounds on the sizes of the neural networks required to represent any function in the class. Finally, we design an algorithm to solve the empirical risk minimization (ERM) problem to global optimality for these neural networks with a fixed architecture. The algorithm's running time is polynomial in the size of the data sample, if the input dimension and the size of the network architecture are considered fixed constants. The algorithm is unique in the sense that it works for any architecture with any number of layers, whereas previous polynomial time globally optimal algorithms work only for very restricted classes of architectures. Using these insights, we propose a new class of neural networks that we call shortcut linear threshold networks. To the best of our knowledge, this way of designing neural networks has not been explored before in the literature. We show that these neural networks have several desirable theoretical properties.
翻訳日:2023-10-16 04:53:45 公開日:2023-10-11
# pnet --深層学習に基づく測光・天体計測ベイズフレームワーク

PNet -- A Deep Learning Based Photometry and Astrometry Bayesian Framework ( http://arxiv.org/abs/2106.14349v3 )

ライセンス: Link先を確認
Rui Sun, Peng Jia, Yongyang Sun, Zhimin Yang, Qiang Liu, Hongyan Wei(参考訳) 時間領域天文学は近年活発な研究分野として発展し、様々な大きさや位置を示す天体に焦点を当てている。 このような物体に対する追従観測の緊急性を考えると,検出し,その大きさや位置を決定できるアルゴリズムの開発が不可欠である。 PNetは、天体を検出し、その大きさと位置を抽出するだけでなく、測光の不確かさを推定するために設計されたエンドツーエンドのフレームワークである。 PNetには2つの重要なステップがある。 まず、恒星を検出し、その位置、等級、等級を推定する。 その後、第2フェーズにおいて、pnetは光度測定結果に関連する不確かさを推定し、光曲線分類アルゴリズムの貴重な参照となる。 我々のアルゴリズムはシミュレーションデータと実観測データの両方を用いてテストされ、PNetが一貫した信頼性のある結果を提供できることを示した。 時間領域天文学のためのデータ処理パイプラインへのpnetの統合は、応答速度の向上と、位置や大きさの異なる天体の検出能力の向上に重要な可能性を秘めている。

Time domain astronomy has emerged as a vibrant research field in recent years, focusing on celestial objects that exhibit variable magnitudes or positions. Given the urgency of conducting follow-up observations for such objects, the development of an algorithm capable of detecting them and determining their magnitudes and positions has become imperative. Leveraging the advancements in deep neural networks, we present the PNet, an end-to-end framework designed not only to detect celestial objects and extract their magnitudes and positions but also to estimate photometry uncertainty. The PNet comprises two essential steps. Firstly, it detects stars and retrieves their positions, magnitudes, and calibrated magnitudes. Subsequently, in the second phase, the PNet estimates the uncertainty associated with the photometry results, serving as a valuable reference for the light curve classification algorithm. Our algorithm has been tested using both simulated and real observation data, demonstrating the PNet's ability to deliver consistent and reliable outcomes. Integration of the PNet into data processing pipelines for time-domain astronomy holds significant potential for enhancing response speed and improving the detection capabilities for celestial objects with variable positions and magnitudes.
翻訳日:2023-10-16 04:53:06 公開日:2023-10-11
# 命題論理プログラムの逐次構成

Sequential composition of propositional logic programs ( http://arxiv.org/abs/2009.05774v7 )

ライセンス: Link先を確認
Christian Antic(参考訳) 本稿では,命題論理プログラムの逐次構成と分解について述べる。 本稿では,非循環プログラムを単一ルールプログラムに分解し,任意のプログラムに対して一般的な分解結果を提供する。 プログラムの即時結果演算子は、演算子への明示的な参照を伴わずに最小モデルを計算することができる構成によって表現できることを示す。 これは命題論理プログラムの構文と意味論の間の概念的なギャップを数学的に満足のいく方法で橋渡しする。

This paper introduces and studies the sequential composition and decomposition of propositional logic programs. We show that acyclic programs can be decomposed into single-rule programs and provide a general decomposition result for arbitrary programs. We show that the immediate consequence operator of a program can be represented via composition which allows us to compute its least model without any explicit reference to operators. This bridges the conceptual gap between the syntax and semantics of a propositional logic program in a mathematically satisfactory way.
翻訳日:2023-10-16 04:52:14 公開日:2023-10-11
# SPEC2: FPGA上のSPECtral SParsE CNN Accelerator

SPEC2: SPECtral SParsE CNN Accelerator on FPGAs ( http://arxiv.org/abs/1910.11103v2 )

ライセンス: Link先を確認
Yue Niu, Hanqing Zeng, Ajitesh Srivastava, Kartik Lakhotia, Rajgopal Kannan, Yanzhi Wang, Viktor Prasanna(参考訳) 畳み込みニューラルネットワーク(CNN)の推論を高速化するため,計算冗長性を低減するために様々な手法が提案されている。 畳み込み層の周波数領域への変換は、空間領域におけるスライディングウィンドウ操作の計算複雑性を著しく低減する。 一方、重み付け法は、密度の高い畳み込み核をスパース核に変換することによってモデルパラメータの冗長性に対処する。 本研究では,高スループットFPGAの実装を実現するために,スペクトルCNNの作成と高速化を行うSPEC2を提案する。 まず,マルチプライヤの代替方向法(ADMM)に基づく系統的プルーニングアルゴリズムを提案する。 オフラインプルーニングは、手作りのヒューリスティックを使わずに、スペクトル重みの大半をゼロに反復的に設定する。 次に,sparseカーネルへの効率的なランダムアクセスと畳み込み層における並列性の様々な次元を利用したfpga上で最適化されたパイプラインアーキテクチャを設計する。 全体として、SPEC2は計算複雑性が極端に低く、精度が無視できるような高い推論スループットを実現する。 我々は Xilinx Virtex プラットフォーム上で LeNet と VGG16 を実装して SPEC2 を実証する。 スペクトル重量の75%を刈り取った後、SPEC2はLeNetの0%の精度損失、VGG16の1%の精度損失を達成した。 得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。

To accelerate inference of Convolutional Neural Networks (CNNs), various techniques have been proposed to reduce computation redundancy. Converting convolutional layers into frequency domain significantly reduces the computation complexity of the sliding window operations in space domain. On the other hand, weight pruning techniques address the redundancy in model parameters by converting dense convolutional kernels into sparse ones. To obtain high-throughput FPGA implementation, we propose SPEC2 -- the first work to prune and accelerate spectral CNNs. First, we propose a systematic pruning algorithm based on Alternative Direction Method of Multipliers (ADMM). The offline pruning iteratively sets the majority of spectral weights to zero, without using any handcrafted heuristics. Then, we design an optimized pipeline architecture on FPGA that has efficient random access into the sparse kernels and exploits various dimensions of parallelism in convolutional layers. Overall, SPEC2 achieves high inference throughput with extremely low computation complexity and negligible accuracy degradation. We demonstrate SPEC2 by pruning and implementing LeNet and VGG16 on the Xilinx Virtex platform. After pruning 75% of the spectral weights, SPEC2 achieves 0% accuracy loss for LeNet, and <1% accuracy loss for VGG16. The resulting accelerators achieve up to 24x higher throughput, compared with the state-of-the-art FPGA implementations for VGG16.
翻訳日:2023-10-16 04:52:08 公開日:2023-10-11
# 単項代数における類比

Analogical proportions in monounary algebras ( http://arxiv.org/abs/2208.06829v3 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 本稿では、宇宙と単単項函数のみからなる単項代数の類比について研究する。 類似比例関係は、自然数によって形成される無限一項代数と、差分比例による後続関数によって特徴づけられることを示す。

This paper studies analogical proportions in monounary algebras consisting only of a universe and a single unary function. We show that the analogical proportion relation is characterized in the infinite monounary algebra formed by the natural numbers together with the successor function via difference proportions.
翻訳日:2023-10-16 04:44:39 公開日:2023-10-11
# 位相的領域壁を介する高速量子移動

Fast quantum transfer mediated by topological domain walls ( http://arxiv.org/abs/2208.00797v5 )

ライセンス: Link先を確認
Juan Zurita, Charles E. Creffield and Gloria Platero(参考訳) 1次元位相モデルにおける双方向転送プロトコルの持続時間は、通常、距離とともに指数関数的にスケールする。 本研究では,マルチドメインSSHチェーンとクロイツはしごの転送プロトコルを提案する。これは指数的依存をなくし,単一ドメインに対するプロセスを大幅に高速化し,エラーの蓄積を低減し,対称性破壊障害があってもその性能を大幅に向上させる。 また,各ドメイン壁ごとに2つのローカライズモードを持つcreutzラダーのローカライズ特性を利用して,トランスファープロトコル中に交換されるラダーに沿った2つの状態を,中間壁に位置する状態を乱すことなく選択する方法についても検討した。 これは、量子情報目的に役立つすべての接続性を持つ1dネットワークを提供する。

The duration of bidirectional transfer protocols in 1D topological models usually scales exponentially with distance. In this work, we propose transfer protocols in multidomain SSH chains and Creutz ladders that lose the exponential dependence, greatly speeding up the process with respect to their single-domain counterparts, reducing the accumulation of errors and drastically increasing their performance, even in the presence of symmetry-breaking disorder. We also investigate how to harness the localization properties of the Creutz ladder-with two localized modes per domain wall-to choose the two states along the ladder that will be swapped during the transfer protocol, without disturbing the states located in the intermediate walls between them. This provides a 1D network with all-to-all connectivity that can be helpful for quantum information purposes.
翻訳日:2023-10-16 04:44:36 公開日:2023-10-11
# DataPerf: データ中心AI開発のためのベンチマーク

DataPerf: Benchmarks for Data-Centric AI Development ( http://arxiv.org/abs/2207.10062v3 )

ライセンス: Link先を確認
Mark Mazumder, Colby Banbury, Xiaozhe Yao, Bojan Karla\v{s}, William Gaviria Rojas, Sudnya Diamos, Greg Diamos, Lynn He, Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Douwe Kiela, David Jurado, David Kanter, Rafael Mosquera, Juan Ciro, Lora Aroyo, Bilge Acun, Lingjiao Chen, Mehul Smriti Raje, Max Bartolo, Sabri Eyuboglu, Amirata Ghorbani, Emmett Goodman, Oana Inel, Tariq Kane, Christine R. Kirkpatrick, Tzu-Sheng Kuo, Jonas Mueller, Tristan Thrush, Joaquin Vanschoren, Margaret Warren, Adina Williams, Serena Yeung, Newsha Ardalani, Praveen Paritosh, Lilith Bath-Leah, Ce Zhang, James Zou, Carole-Jean Wu, Cody Coleman, Andrew Ng, Peter Mattson, Vijay Janapa Reddi(参考訳) 機械学習の研究は長い間、データセットではなくモデルにフォーカスしており、基礎となる問題の広さ、難易度、忠実性に関わらず、一般的なmlタスクに注目すべきデータセットが使用されている。 データの基本的な重要性を無視することは、現実世界のアプリケーションにおいて不正確さ、バイアス、フレジビリティを生じさせ、既存のデータセットベンチマーク間の飽和によって研究が妨げられている。 MLデータセットとデータ中心アルゴリズムを評価するための,コミュニティ主導のベンチマークスイートであるDataPerfを紹介する。 コンペティション、コンパラビリティ、再現性を通じて、データ中心のAIのイノベーションを促進することを目指している。 私たちは、MLコミュニティが単にアーキテクチャではなくデータセットを反復できるようにし、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。 dataperfの最初のイテレーションには、ビジョン、スピーチ、獲得、デバッグ、拡散促進において、幅広いデータ中心の技術、タスク、モダリティをカバーする5つのベンチマークが含まれており、コミュニティからの新たなコントリビュートベンチマークのホスティングをサポートする。 ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースで、MLCommons AssociationはDataPerfを維持して、学術と産業の長期的な利益を保証する。

Machine learning research has long focused on models rather than datasets, and prominent datasets are used for common ML tasks without regard to the breadth, difficulty, and faithfulness of the underlying problems. Neglecting the fundamental importance of data has given rise to inaccuracy, bias, and fragility in real-world applications, and research is hindered by saturation across existing dataset benchmarks. In response, we present DataPerf, a community-led benchmark suite for evaluating ML datasets and data-centric algorithms. We aim to foster innovation in data-centric AI through competition, comparability, and reproducibility. We enable the ML community to iterate on datasets, instead of just architectures, and we provide an open, online platform with multiple rounds of challenges to support this iterative development. The first iteration of DataPerf contains five benchmarks covering a wide spectrum of data-centric techniques, tasks, and modalities in vision, speech, acquisition, debugging, and diffusion prompting, and we support hosting new contributed benchmarks from the community. The benchmarks, online evaluation platform, and baseline implementations are open source, and the MLCommons Association will maintain DataPerf to ensure long-term benefits to academia and industry.
翻訳日:2023-10-16 04:44:23 公開日:2023-10-11
# 機械学習分類器のバイアス軽減:包括的調査

Bias Mitigation for Machine Learning Classifiers: A Comprehensive Survey ( http://arxiv.org/abs/2207.07068v4 )

ライセンス: Link先を確認
Max Hort, Zhenpeng Chen, Jie M. Zhang, Mark Harman, Federica Sarro(参考訳) 本稿では,機械学習(ML)モデルにおける公平性を実現するためのバイアス緩和手法を包括的に調査する。 ML分類器のバイアス軽減に関する合計341の論文を収集する。 これらの方法は、その介入手順(前処理、内処理、後処理)とそれらの適用技術に基づいて区別することができる。 本研究では,既存のバイアス緩和手法を文献上で評価する。 特に、データセット、メトリクス、ベンチマークを検討します。 収集された洞察に基づいて(例えば、最も人気のある公正度測定値は何ですか? バイアス緩和手法を評価するために、何つのデータセットが使用されているのか?)、新しいバイアス緩和手法の開発と評価において、実践者を支援することを望んでいる。

This paper provides a comprehensive survey of bias mitigation methods for achieving fairness in Machine Learning (ML) models. We collect a total of 341 publications concerning bias mitigation for ML classifiers. These methods can be distinguished based on their intervention procedure (i.e., pre-processing, in-processing, post-processing) and the technique they apply. We investigate how existing bias mitigation methods are evaluated in the literature. In particular, we consider datasets, metrics and benchmarking. Based on the gathered insights (e.g., What is the most popular fairness metric? How many datasets are used for evaluating bias mitigation methods?), we hope to support practitioners in making informed choices when developing and evaluating new bias mitigation methods.
翻訳日:2023-10-16 04:43:45 公開日:2023-10-11
# 量子プロセッサ実験室における量子重力を目指して

Towards Quantum Gravity in the Lab on Quantum Processors ( http://arxiv.org/abs/2205.14081v2 )

ライセンス: Link先を確認
Illya Shapoval, Vincent Paul Su, Wibe de Jong, Miro Urbanek, and Brian Swingle(参考訳) AdS/CFT対応におけるホログラフィック原理とその実現は、一般相対性理論と量子情報の間に予期せぬつながりをもたらした。 このことは、テーブルトップ量子計算実験において、アクセスが難しい量子重力モデルの側面を研究するための段階となった。 最近の研究は、トランバーサブルワームホールの物理によって最も自然に説明される驚くべき通信現象を実現する特別なテレポーテーションプロトコルを設計している。 本研究では,現状の量子コンピュータ上で,このプロトコルに基づく量子実験を行った。 ターゲットの量子処理ユニット(qpus)は量子イオン系モデルh1-1とibmの様々なアーキテクチャの超伝導qpu5つであり、パブリックとプレミアムのユーザアクセスがある。 これらのQPUから観測されたテレポーテーション信号を報告し、理論予測の80%に到達した。 実装の過程で直面した実験的な課題と、その研究が引き起こした量子力学に関する新たな理論的洞察について概説する。 QGLabはオープンソースのエンドツーエンドソフトウェアソリューションで、Qiskitとtket SDKによってサポートされている最先端および緊急世代のQPUに対してワームホールにインスパイアされたテレポーテーション実験の実行を容易にする。 我々の研究と成果物は、研究室における量子重力の間接的探索のためのより複雑な実験の実現に向けた初期の実践的なステップであると考えている。

The holographic principle and its realization in the AdS/CFT correspondence led to unexpected connections between general relativity and quantum information. This set the stage for studying aspects of quantum gravity models, which are otherwise difficult to access, in table-top quantum-computational experiments. Recent works have designed a special teleportation protocol that realizes a surprising communication phenomenon most naturally explained by the physics of a traversable wormhole. In this work, we have carried out quantum experiments based on this protocol on state-of-the-art quantum computers. The target quantum processing units (QPUs) included the Quantinuum's trapped-ion System Model H1-1 and five IBM superconducting QPUs of various architectures, with public and premium user access. We report the observed teleportation signals from these QPUs with the best one reaching 80% of theoretical predictions. We outline the experimental challenges we have faced in the course of implementation, as well as the new theoretical insights into quantum dynamics the work has led to. We also developed QGLab -- an open-source end-to-end software solution that facilitates conducting the wormhole-inspired teleportation experiments on state-of-the-art and emergent generations of QPUs supported by the Qiskit and tket SDKs. We consider our study and deliverables as an early practical step towards the realization of more complex experiments for the indirect probing of quantum gravity in the lab.
翻訳日:2023-10-16 04:43:07 公開日:2023-10-11
# 単純なニューラルネットワークにおける到達可能性

Reachability In Simple Neural Networks ( http://arxiv.org/abs/2203.07941v4 )

ライセンス: Link先を確認
Marco S\"alzer and Martin Lange(参考訳) 我々は、(深度)ニューラルネットワークの到達可能性問題の複雑さを調査し、有効な入力が与えられたとき、有効な出力を計算するか? この問題は一般のニューラルネットワークに対してNP完全であり、線形不等式の接続によって与えられる入力/出力次元に関する仕様である。 我々は、証明を再結合し、元の上界と下界の証明のいくつかの欠陥を修復する。 この結果から,NP-hardnessはすでに,単純な仕様とニューラルネットワークの制限されたクラスに当てはまることを示した。 1つの隠蔽層と1の出力次元と1つの負のゼロと1つの正の重みまたはバイアスを持つニューラルネットワークが与えられると、NPハードネスを確保するのに十分である。 さらに,ニューラルネットワーク検証研究の方向性について,その拡張可能性に関する詳細な議論と展望を行う。

We investigate the complexity of the reachability problem for (deep) neural networks: does it compute valid output given some valid input? It was recently claimed that the problem is NP-complete for general neural networks and specifications over the input/output dimension given by conjunctions of linear inequalities. We recapitulate the proof and repair some flaws in the original upper and lower bound proofs. Motivated by the general result, we show that NP-hardness already holds for restricted classes of simple specifications and neural networks. Allowing for a single hidden layer and an output dimension of one as well as neural networks with just one negative, zero and one positive weight or bias is sufficient to ensure NP-hardness. Additionally, we give a thorough discussion and outlook of possible extensions for this direction of research on neural network verification.
翻訳日:2023-10-16 04:42:34 公開日:2023-10-11
# スムーズネステッドシミュレーション:高次元における立方体および正方形根収束率のブリッジング

Smooth Nested Simulation: Bridging Cubic and Square Root Convergence Rates in High Dimensions ( http://arxiv.org/abs/2201.02958v6 )

ライセンス: Link先を確認
Wenjia Wang and Yanyuan Wang and Xiaowei Zhang(参考訳) ネステッドシミュレーションは、条件付き期待関数をシミュレーションによって推定する。 本稿では,条件付き期待の滑らかさを多次元条件付き変数の関数として活用するために,カーネルリッジ回帰に基づく新しい手法を提案する。 漸近解析により,条件付き期待値が十分滑らかであれば,シミュレーション予算の増加に伴う収束率の次元性の呪いを効果的に緩和できることを示した。 滑らかさは、立方根収束率(つまり、標準ネストシミュレーションの最適速度)と平方根収束率(つまり標準モンテカルロシミュレーションの標準速度)の間のギャップを橋渡しする。 ポートフォリオリスク管理と入力不確実性定量化の数値例を用いて,提案手法の性能を示す。

Nested simulation concerns estimating functionals of a conditional expectation via simulation. In this paper, we propose a new method based on kernel ridge regression to exploit the smoothness of the conditional expectation as a function of the multidimensional conditioning variable. Asymptotic analysis shows that the proposed method can effectively alleviate the curse of dimensionality on the convergence rate as the simulation budget increases, provided that the conditional expectation is sufficiently smooth. The smoothness bridges the gap between the cubic root convergence rate (that is, the optimal rate for the standard nested simulation) and the square root convergence rate (that is, the canonical rate for the standard Monte Carlo simulation). We demonstrate the performance of the proposed method via numerical examples from portfolio risk management and input uncertainty quantification.
翻訳日:2023-10-16 04:42:21 公開日:2023-10-11
# ニューラルタンジェントカーネルを用いたグラフニューラルネットワークの畳み込み・非線形・深さの解析

Analysis of Convolutions, Non-linearity and Depth in Graph Neural Networks using Neural Tangent Kernel ( http://arxiv.org/abs/2210.09809v3 )

ライセンス: Link先を確認
Mahalakshmi Sabanayagam, Pascal Esser, Debarghya Ghoshdastidar(参考訳) グラフニューラルネットワーク(gnns)の基本原理は、深度やアクティベーション関数などのネットワークアーキテクチャに適した選択と合わせて、隣接ノードを「グラフ畳み込み」を用いて集約することで、データの構造情報を活用することである。 したがって,ネットワーク性能に対する設計選択の影響を理解することが重要である。 グラフラプラシアンに基づく畳み込みは、最も広く採用されている隣接行列の対称正規化によって支配的な選択として現れる。 しかし、いくつかの実験研究では、隣接行列の行正規化がノード分類でそれを上回ることが示されている。 GNNの普及にもかかわらず、これらの畳み込みの表現力に関する厳密な理論的研究は行われていない。 同様に、非線形relu gnnsと同等の線形gnns性能の実証的観察は厳密な理論を欠いている。 本研究では,GNNアーキテクチャの異なる側面の影響を,半教師付きノード分類設定におけるグラフニューラルタンジェントカーネルを用いて理論的に解析する。 人口次数補正された確率的ブロックモデルの下では (i)線形ネットワークは、ReLUネットワークと同様に、クラス情報をキャプチャする。 (ii) 行の正規化は,下位のクラス構造を他の畳み込みよりもよく保存する。 (iii)過剰なスムーシングによりネットワークの深さで性能が低下するが、クラス情報の損失は行の正規化において最も遅い。 (iv)スキップ接続は無限の深さでもクラス情報を保持し、過度なスムーシングを除去する。 理論的な結果がCoraやCiteseerのような実際のデータセット上で数値的に検証された。

The fundamental principle of Graph Neural Networks (GNNs) is to exploit the structural information of the data by aggregating the neighboring nodes using a `graph convolution' in conjunction with a suitable choice for the network architecture, such as depth and activation functions. Therefore, understanding the influence of each of the design choice on the network performance is crucial. Convolutions based on graph Laplacian have emerged as the dominant choice with the symmetric normalization of the adjacency matrix as the most widely adopted one. However, some empirical studies show that row normalization of the adjacency matrix outperforms it in node classification. Despite the widespread use of GNNs, there is no rigorous theoretical study on the representation power of these convolutions, that could explain this behavior. Similarly, the empirical observation of the linear GNNs performance being on par with non-linear ReLU GNNs lacks rigorous theory. In this work, we theoretically analyze the influence of different aspects of the GNN architecture using the Graph Neural Tangent Kernel in a semi-supervised node classification setting. Under the population Degree Corrected Stochastic Block Model, we prove that: (i) linear networks capture the class information as good as ReLU networks; (ii) row normalization preserves the underlying class structure better than other convolutions; (iii) performance degrades with network depth due to over-smoothing, but the loss in class information is the slowest in row normalization; (iv) skip connections retain the class information even at infinite depth, thereby eliminating over-smoothing. We finally validate our theoretical findings numerically and on real datasets such as Cora and Citeseer.
翻訳日:2023-10-16 04:33:24 公開日:2023-10-11
# LLMの時代における露光効果:国家支援トロル検出のための行動ベースAIアプローチ

Exposing Influence Campaigns in the Age of LLMs: A Behavioral-Based AI Approach to Detecting State-Sponsored Trolls ( http://arxiv.org/abs/2210.08786v6 )

ライセンス: Link先を確認
Fatima Ezzeddine and Luca Luceri and Omran Ayoub and Ihab Sbeity and Gianluca Nogara and Emilio Ferrara and Silvia Giordano(参考訳) ソーシャルメディア上の影響力のあるキャンペーンで運用されている国家支援トロールの検出は、研究コミュニティにとって批判的かつ未解決の課題である。 この課題に対処するために,我々は,共有行動のシーケンスに関連づけられた行動的手がかりのみを通じてトロルアカウントを識別し,その行動と他者からのフィードバックの両方を包含する新しいaiベースのソリューションを提案する。 まず、LSTMベースの分類器を用いて、アカウントシーケンスが州が支援するトロルに属するか、またはオーガニックで合法的なユーザーに属するかを決定する。 第二に、分類されたシーケンスを用いて「ロールスコア」と呼ばれるメトリクスを計算し、口座がトロルのような振る舞いを示す程度を定量化する。 本手法の有効性を評価するため,2016年アメリカ合衆国大統領選挙におけるロシア干渉キャンペーンの文脈において,その効果を検討する。 提案手法は,AUCが99%に近いアカウントシーケンスを同定し,AUCが91%であるロシアのトロルとオーガニックユーザを正確に区別できることを示す。 既存の言語ベースの手法とは対照的に、それはより困難な振る舞いの方法に依存しており、特に不正なコンテンツを生成するためにLLMを使用する可能性が高くなると、影響キャンペーンの識別において大きなレジリエンスを確保できます。 最後に,様々な情報操作を駆動する様々なエンティティに対するソリューションの一般化可能性を評価し,今後の研究を導く有望な結果を見出した。

The detection of state-sponsored trolls operating in influence campaigns on social media is a critical and unsolved challenge for the research community, which has significant implications beyond the online realm. To address this challenge, we propose a new AI-based solution that identifies troll accounts solely through behavioral cues associated with their sequences of sharing activity, encompassing both their actions and the feedback they receive from others. Our approach does not incorporate any textual content shared and consists of two steps: First, we leverage an LSTM-based classifier to determine whether account sequences belong to a state-sponsored troll or an organic, legitimate user. Second, we employ the classified sequences to calculate a metric named the "Troll Score", quantifying the degree to which an account exhibits troll-like behavior. To assess the effectiveness of our method, we examine its performance in the context of the 2016 Russian interference campaign during the U.S. Presidential election. Our experiments yield compelling results, demonstrating that our approach can identify account sequences with an AUC close to 99% and accurately differentiate between Russian trolls and organic users with an AUC of 91%. Notably, our behavioral-based approach holds a significant advantage in the ever-evolving landscape, where textual and linguistic properties can be easily mimicked by Large Language Models (LLMs): In contrast to existing language-based techniques, it relies on more challenging-to-replicate behavioral cues, ensuring greater resilience in identifying influence campaigns, especially given the potential increase in the usage of LLMs for generating inauthentic content. Finally, we assessed the generalizability of our solution to various entities driving different information operations and found promising results that will guide future research.
翻訳日:2023-10-16 04:32:43 公開日:2023-10-11
# 比例代数

Proportional algebras ( http://arxiv.org/abs/2210.01751v4 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 類似の比率は「$a$ is to $b$ what $c$ is to $d$」の形の表現であり、それ自体が人工知能の中核であるアナロジー推論の核である。 本稿では、 4-項の類似比例関係を持つ代数として比例代数学を導入する: a:b::c:d$ は適当な公理の集合を満たす。 類似比率を保存する機能は、人工知能に実際的な関心があることが証明されており、その数学的性質を研究することは、パーセンテージを理解するために不可欠である。 したがって、比例準同型とその関連する合同と比例関手を導入し、それらが密接に関連する概念であることを示す。 より広い意味では、本論文は一般の類比論と類推論の数学的理論へのさらなる一歩である。

Analogical proportions are expressions of the form "$a$ is to $b$ what $c$ is to $d$" at the core of analogical reasoning which itself is at the core of artificial intelligence. This paper introduces proportional algebras as algebras endowed with a 4-ary analogical proportion relation $a:b::c:d$ satisfying a suitable set of axioms. Functions preserving analogical proportions have already proven to be of practical interest in artificial intelligence and studying their mathematical properties is essential for understanding proportions. We therefore introduce proportional homomorphisms and their associated congruences and proportional functors, and show that they are closely related notions. In a broader sense, this paper is a further step towards a mathematical theory of analogical proportions and analogical reasoning in general.
翻訳日:2023-10-16 04:32:12 公開日:2023-10-11
# 分離可能な状態の最適化に基づく量子ワッサースタイン距離

Quantum Wasserstein distance based on an optimization over separable states ( http://arxiv.org/abs/2209.09925v3 )

ライセンス: Link先を確認
G\'eza T\'oth, J\'ozsef Pitrik(参考訳) 我々は、カップリングの最適化が一般に二成分の量子状態ではなく二成分の分離可能な状態上で行われるように量子ワッサースタイン距離を定義し、その性質を調べる。 驚いたことに、自己距離は量子フィッシャー情報と関連している。 最適二成分分離可能な状態に対応するトランスポートマップを提案する。 量子ワッサーシュタイン距離が量子絡みの検出基準にどのように関係しているかを論じる。 我々は、量子waserstein距離から得られる分散様の量を、量子状態上の最小化を最大化に置き換えることで定義する。 我々はその結果を一般化された量子フィッシャー情報量に拡張する。

We define the quantum Wasserstein distance such that the optimization of the coupling is carried out over bipartite separable states rather than bipartite quantum states in general, and examine its properties. Surprisingly, we find that the self-distance is related to the quantum Fisher information. We present a transport map corresponding to an optimal bipartite separable state. We discuss how the quantum Wasserstein distance introduced is connected to criteria detecting quantum entanglement. We define variance-like quantities that can be obtained from the quantum Wasserstein distance by replacing the minimization over quantum states by a maximization. We extend our results to a family of generalized quantum Fisher information quantities.
翻訳日:2023-10-16 04:31:08 公開日:2023-10-11
# ごく小さなデータから学ぶ:ソフトウェアプロジェクトの健全性を予測するための景観分析の価値について

Learning from Very Little Data: On the Value of Landscape Analysis for Predicting Software Project Health ( http://arxiv.org/abs/2301.06577v2 )

ライセンス: Link先を確認
Andre Lustosa, Tim Menzies(参考訳) データが不足している場合、ソフトウェア分析は多くの間違いを犯す可能性がある。 例えば、オープンソースプロジェクトの健全性(例えば12ヶ月のクローズドプルリクエストの数)の学習予測子を考えてみましょう。 このタスクのトレーニングデータは、非常に小さい(例えば、毎月収集される5年間のデータは、たった60行のトレーニングデータである)。 このような小さなデータセットから生成されたモデルは、多くの予測エラーを引き起こす可能性がある。 これらのエラーは、より良い学習者制御パラメータを選択する {\em landscape analysis} によって処理できる。 我々のNiSNEAKツール (a)~ ハイパーパラメータの一般的なランドスケープを見つけるためにデータをクラスタ化します。 (b)-その風景の各部分からいくつかの代表を探索する。 niSNEAKは、従来の最先端ハイパーパラメータ最適化アルゴリズム(FLASH、HYPEROPT、OPTUNAなど)よりも高速かつ効果的である。 nisneakが発見したコンフィギュレーションは他のメソッドよりもはるかにエラーが少ない。 例えば、$C$=コミット数、$I$=クローズドな問題の数、$R$=クローズドなプルリクエスト数などのプロジェクトのヘルス指標では、niSNEAKの12ヶ月の予測エラーは{I=0\%, R=33\%\,C=47\%\}である。 本論文は、ニSNEAKの健康計画への応用についてのみ検討する。 とはいえ、このテクニックを幅広い問題に適用することを妨げる原則は何もありません。 他の研究者が結果を繰り返し、改善したり、反証したりするのを助けるため、我々のスクリプトとデータはGitHubでhttps://github.com/zxcv123456qwe/niSneakで入手できる。

When data is scarce, software analytics can make many mistakes. For example, consider learning predictors for open source project health (e.g. the number of closed pull requests in twelve months time). The training data for this task may be very small (e.g. five years of data, collected every month means just 60 rows of training data). The models generated from such tiny data sets can make many prediction errors. Those errors can be tamed by a {\em landscape analysis} that selects better learner control parameters. Our niSNEAK tool (a)~clusters the data to find the general landscape of the hyperparameters; then (b)~explores a few representatives from each part of that landscape. niSNEAK is both faster and more effective than prior state-of-the-art hyperparameter optimization algorithms (e.g. FLASH, HYPEROPT, OPTUNA). The configurations found by niSNEAK have far less error than other methods. For example, for project health indicators such as $C$= number of commits; $I$=number of closed issues, and $R$=number of closed pull requests, niSNEAK's 12 month prediction errors are \{I=0\%, R=33\%\,C=47\%\} Based on the above, we recommend landscape analytics (e.g. niSNEAK) especially when learning from very small data sets. This paper only explores the application of niSNEAK to project health. That said, we see nothing in principle that prevents the application of this technique to a wider range of problems. To assist other researchers in repeating, improving, or even refuting our results, all our scripts and data are available on GitHub at https://github.com/zxcv123456qwe/niSneak
翻訳日:2023-10-16 04:24:49 公開日:2023-10-11
# 1次元非エルミートモザイクモデルから非モザイクモザイクモデルへの一般マッピング:モビリティエッジとリアプノフ指数

General mapping of one-dimensional non-Hermitian mosaic models to non-mosaic counterparts: Mobility edges and Lyapunov exponents ( http://arxiv.org/abs/2301.01711v3 )

ライセンス: Link先を確認
Sheng-Lian Jiang, Yanxia Liu and Li-Jun Lang(参考訳) 一次元非エルミートモザイクモデルからそれらの非モザイクモデルへの一般写像を確立する。 このマッピングはモザイクモデルのモザイクエッジやリアプノフ指数を生じさせる可能性があり、対応する非モザイクモデルにおける局所化の臨界点や局所化状態のリアプノフ指数が既に解析的に解かれている。 この写像の妥当性を示すために、非相反ホッピングと複素準周期ポテンシャルを持つオーブリー・アンド・ル・エ様モデルと非相反ホッピングを持つガネスハン・ピクレー・ダス・サーマモデルという二つの非相反局在モデルに適用する。 モザイクモデルにおいて,モビリティエッジとリアプノフ指数の獲得に成功した。 この一般的なマッピングは、非エルミートモザイクモデルにおける移動性エッジ、リアプノフ指数、その他の重要な量のさらなる研究を触媒する可能性がある。

We establish a general mapping from one-dimensional non-Hermitian mosaic models to their non-mosaic counterparts. This mapping can give rise to mobility edges and even Lyapunov exponents in the mosaic models if critical points of localization or Lyapunov exponents of localized states in the corresponding non-mosaic models have already been analytically solved. To demonstrate the validity of this mapping, we apply it to two non-Hermitian localization models: an Aubry-Andr\'e-like model with nonreciprocal hopping and complex quasiperiodic potentials, and the Ganeshan-Pixley-Das Sarma model with nonreciprocal hopping. We successfully obtain the mobility edges and Lyapunov exponents in their mosaic models. This general mapping may catalyze further studies on mobility edges, Lyapunov exponents, and other significant quantities pertaining to localization in non-Hermitian mosaic models.
翻訳日:2023-10-16 04:24:04 公開日:2023-10-11
# 混合量子状態の幾何学的位相:干渉計測とウルマン位相の比較研究

Geometric phases of mixed quantum states: A comparative study of interferometric and Uhlmann phases ( http://arxiv.org/abs/2301.01210v3 )

ライセンス: Link先を確認
Xu-Yang Hou, Xin Wang, Zheng Zhou, Hao Guo, and Chih-Chun Chien(参考訳) 混合量子状態の2つの幾何学的位相、すなわちインターフェロメトリー相とウルマン相は、純粋な状態のベリー相の一般化である。 2つの幾何学的位相をレビューし、それらの平行移動条件を調べた後、両条件に適合する巡回過程のクラスをそれぞれ定義し、それぞれの相を蓄積する。 これらのプロセスは、2つのフェーズの公正な比較を促進する。 2段階と3段階の系の厳密な解を示し、2段階を対比する。 干渉位相は3段階の系でのみ有限温度遷移を示すが、2段階の系ではウールマン相は両方の場合で有限温度遷移を示す。 したがって、2つの幾何学的位相を有限温度位相指標として使うと、混合状態のトポロジーの豊かな物理が示される。

Two geometric phases of mixed quantum states, known as the interferometric phase and Uhlmann phase, are generalizations of the Berry phase of pure states. After reviewing the two geometric phases and examining their parallel-transport conditions, we specify a class of cyclic processes that are compatible with both conditions and therefore accumulate both phases through their definitions, respectively. Those processes then facilitate a fair comparison between the two phases. We present exact solutions of two-level and three-level systems to contrast the two phases. While the interferometric phase exhibits finite-temperature transitions only in the three-level system but not the two-level system, the Uhlmann phase shows finite-temperature transitions in both cases. Thus, using the two geometric phases as finite-temperature topological indicators demonstrates the rich physics of topology of mixed states.
翻訳日:2023-10-16 04:23:44 公開日:2023-10-11
# autothrottle: スローターゲットマイクロサービスのリソース管理のための実用的なbiレベルアプローチ

Autothrottle: A Practical Bi-Level Approach to Resource Management for SLO-Targeted Microservices ( http://arxiv.org/abs/2212.12180v4 )

ライセンス: Link先を確認
Zibo Wang, Pinghe Li, Chieh-Jan Mike Liang, Feng Wu, Francis Y. Yan(参考訳) エンドユーザーエクスペリエンスを維持しながらリソース効率を達成することは、クラウドアプリケーションオペレーターにとって非自明なことです。 クラウドアプリケーションがマイクロサービスを採用するにつれて、リソースマネージャは、エンドツーエンドのアプリケーションレイテンシとサービス単位のリソース使用という、2つの異なるレベルのシステム動作に直面します。 しかし、この2つのレベルの間の翻訳は、ユーザ要求が一括して(不均一に)エンドツーエンドのレイテンシに寄与する異種サービスを横断しているため、難しい。 レイテンシSLO(サービスレベルの目的)を備えたマイクロサービス用の双方向リソース管理フレームワークであるAutothrottleを紹介します。 アーキテクチャ上、SLOのフィードバックをサービスリソースコントロールから切り離し、パフォーマンス目標の概念を通じてそれらをブリッジします。 具体的には、アプリケーション全体の学習ベースのコントローラを使用して、サービス毎のヒューリスティックコントローラが達成するためのcpuスロットル比として表現されるパフォーマンスターゲットを定期的に設定する。 プロダクションシナリオからのワークロードトレースを備えた,3つのマイクロサービスアプリケーション上でAutothrottleを評価する。 その結果、最高性能のベースラインよりも最大26.21%、全ベースラインに対して最大93.84%のcpu節約が得られた。

Achieving resource efficiency while preserving end-user experience is non-trivial for cloud application operators. As cloud applications progressively adopt microservices, resource managers are faced with two distinct levels of system behavior: end-to-end application latency and per-service resource usage. Translating between the two levels, however, is challenging because user requests traverse heterogeneous services that collectively (but unevenly) contribute to the end-to-end latency. We present Autothrottle, a bi-level resource management framework for microservices with latency SLOs (service-level objectives). It architecturally decouples application SLO feedback from service resource control, and bridges them through the notion of performance targets. Specifically, an application-wide learning-based controller is employed to periodically set performance targets -- expressed as CPU throttle ratios -- for per-service heuristic controllers to attain. We evaluate Autothrottle on three microservice applications, with workload traces from production scenarios. Results show superior CPU savings, up to 26.21% over the best-performing baseline and up to 93.84% over all baselines.
翻訳日:2023-10-16 04:23:29 公開日:2023-10-11
# 2次元ロータモデルの変分量子力学

Variational quantum dynamics of two-dimensional rotor models ( http://arxiv.org/abs/2212.11289v2 )

ライセンス: Link先を確認
Matija Medvidovi\'c, Dries Sels(参考訳) 本稿では,連続変数量子多体系のダイナミクスをシミュレートする数値解法を提案する。 我々のアプローチは、カスタムニューラルネットワーク多体量子状態に基づいている。 本研究では,2次元量子ロータのダイナミクスに着目し,連続的に試行状態を表現し,ハミルトニアンモンテカルロに基づく最先端サンプリング手法を用いて,大規模実験的なシステムサイズをシミュレートする。 本手法は,64 (8$\times$ 8) の結合ロータを持つ2次元系において,量子クエンチ後の戻り確率や渦振動などの量にアクセスできることを示す。 本手法は, 実験とシミュレーションのギャップを橋渡しし, 未探索のシステムサイズと進化時間における連続系の正確な非平衡シミュレーションに利用できる。

We present a numerical method to simulate the dynamics of continuous-variable quantum many-body systems. Our approach is based on custom neural-network many-body quantum states. We focus on dynamics of two-dimensional quantum rotors and simulate large experimentally relevant system sizes by representing a trial state in a continuous basis and using state-of-the-art sampling approaches based on Hamiltonian Monte Carlo. We demonstrate the method can access quantities like the return probability and vorticity oscillations after a quantum quench in two-dimensional systems of up to 64 (8 $\times$ 8) coupled rotors. Our approach can be used for accurate nonequilibrium simulations of continuous systems at previously unexplored system sizes and evolution times, bridging the gap between simulation and experiment.
翻訳日:2023-10-16 04:23:12 公開日:2023-10-11
# フィンスラー幾何学による潜在距離の同定

Identifying latent distances with Finslerian geometry ( http://arxiv.org/abs/2212.10010v2 )

ライセンス: Link先を確認
Alison Pouplin, David Eklund, Carl Henrik Ek, S{\o}ren Hauberg(参考訳) リーマン幾何学は、データの基本構造を維持しながら生成モデルの潜在空間を探索するための強力なツールを提供する。 潜在空間は、データ多様体から引き戻されたリーマン計量を備えることができる。 この計量により、2つの点の間の最短曲線として定義される測地線に依存する空間を体系的にナビゲートすることができる。 生成モデルはしばしば確率的であり、データ空間、リーマン計量、測地学も確率的である。 確率的物体は、最も非現実的で、最悪の場合、操作が不可能である。 一般的な解決策は、確率的引き戻し計量をその期待値で近似することである。 しかし、この期待リーマン計量から導かれる測地線は、期待長最小曲線とは一致しない。 本研究では,引き戻し距離の期待値が明示的に最小となる別の測度を提案する。 この計量がフィンスラー計量を定義することを示し、期待されたリーマン計量と比較する。 高次元では、両方の測度が$O\left(\frac{1}{D}\right)$で収束することが証明される。 この収束は、確立された期待リーマン計量が理論上より接地されたフィンスラー計量の正確な近似であることを意味する。 これは実際的な実装に期待されるリーマン計量を使うことの正当化を提供する。

Riemannian geometry provides us with powerful tools to explore the latent space of generative models while preserving the underlying structure of the data. The latent space can be equipped it with a Riemannian metric, pulled back from the data manifold. With this metric, we can systematically navigate the space relying on geodesics defined as the shortest curves between two points. Generative models are often stochastic, causing the data space, the Riemannian metric, and the geodesics, to be stochastic as well. Stochastic objects are at best impractical, and at worst impossible, to manipulate. A common solution is to approximate the stochastic pullback metric by its expectation. But the geodesics derived from this expected Riemannian metric do not correspond to the expected length-minimising curves. In this work, we propose another metric whose geodesics explicitly minimise the expected length of the pullback metric. We show this metric defines a Finsler metric, and we compare it with the expected Riemannian metric. In high dimensions, we prove that both metrics converge to each other at a rate of $O\left(\frac{1}{D}\right)$. This convergence implies that the established expected Riemannian metric is an accurate approximation of the theoretically more grounded Finsler metric. This provides justification for using the expected Riemannian metric for practical implementations.
翻訳日:2023-10-16 04:23:00 公開日:2023-10-11
# 量子ラビモデルにおける非有界強束の同定と回転波近似の分解

Identifying unbound strong bunching and the breakdown of the Rotating Wave Approximation in the quantum Rabi model ( http://arxiv.org/abs/2211.13249v2 )

ライセンス: Link先を確認
\'Alvaro Nodar, Ruben Esteban, Unai Muniain, Michael J. Steel, Javier Aizpurua, and Miko{\l}aj K. Schmidt(参考訳) 本研究では,光キャビティに結合した2レベル系の問題のゲージ不変式を用いて,光・物質相互作用の弱い状態と超強結合状態の遷移を探究する。 我々は、この遷移を放射光の強度相関である$g^{(2)}(\tau)$を用いて探り、ラビ・ハミルトニアンが支配する系からの強い非有界な放出の束を見つける。 驚くべきことに、この効果は超強結合系だけでなく、Jaynes-Cummings Hamiltonianが反対の反結合放出を予測する弱い結合系にも見られる。 これは、高次相関はjaynes-cummingsとrabi hamiltonianの間の分岐の特に敏感なプローブであり、回転波近似の崩壊の指標であることを示唆している。 また, 弱い, 強い, 超強結合のダイナミックスの境界は, 現在受け入れられているよりもはるかにリッチであることも示唆した。

We use a recently derived gauge-invariant formulation of the problem of a two-level system coupled to an optical cavity, to explore the transition between the weak, and the ultra-strong coupling regimes of light-matter interaction. We explore this transition using the intensity correlations $g^{(2)}(\tau)$ of the emitted light, and find strong, unbounded bunching of the emission from systems governed by the Rabi Hamiltonian. Surprisingly, this effect is observed not only in the ultra-strong coupling regime, but also for weakly coupled systems, where the Jaynes-Cummings Hamiltonian would predict the opposite, antibunched emission. This suggests that the higher-order correlations are a particularly sensitive probe of the divergence between the Jaynes-Cummings and Rabi Hamiltonians, and can serve as an indicator of the breakdown of the rotating wave approximation. Our findings indicate also that the boundary between the weakly, strongly, and ultra-strongly coupled dynamics, is much richer than currently accepted.
翻訳日:2023-10-16 04:22:18 公開日:2023-10-11
# データ駆動神経科学 - データ収集とベンチマークについて

Data-Driven Network Neuroscience: On Data Collection and Benchmark ( http://arxiv.org/abs/2211.12421v3 )

ライセンス: Link先を確認
Jiaxing Xu, Yunhan Yang, David Tse Jung Huang, Sophi Shilpa Gururajapathy, Yiping Ke, Miao Qiao, Alan Wang, Haribalan Kumar, Josh McGeown, Eryn Kwon(参考訳) 本稿では,神経科学,機械学習,グラフ分析の交点における潜在的研究のための,機能的ヒト脳電顕ネットワークデータの包括的かつ高品質な収集について述べる。 解剖学的および機能的mri画像は、脳の機能的結合を理解するために用いられており、特にアルツハイマー病、パーキンソン病、自閉症などの神経変性疾患の同定に重要である。 近年、機械学習とグラフ分析を用いた脳ネットワークの形での脳の研究が、特にこれらの状態の早期発生を予測するために人気が高まっている。 グラフとして表される脳ネットワークは、従来の検査方法では捉えられないような豊富な構造と位置情報を保持している。 しかし、公開アクセス可能な脳ネットワークデータの欠如は、研究者がデータ駆動の探索を妨げている。 主な難点の1つは、複雑なドメイン固有の前処理ステップと、mri画像から脳ネットワークへのデータ変換に必要な徹底的な計算である。 我々は、公開データベースとプライベートソースから大量のMRI画像を収集し、ドメインの専門家と協力して適切な設計選択を行い、MRIイメージを前処理して脳ネットワークデータセットのコレクションを作成することで、このギャップを埋める。 データセットは6つの異なるソースから始まり、4つの脳の状態をカバーし、合計で2,702人の被験者で構成されている。 グラフデータセットを12の機械学習モデルでテストし、ベースラインを提供し、最近のグラフ解析モデルでデータ品質を検証する。 この学際分野における参入障壁を低くし、研究を促進するために、我々は脳ネットワークデータと、https://doi.org/10.17608/k6.auckland.21397377とhttps://figshare.com/s/fa33c10664ca08b022ceのコードを含む完全な前処理の詳細をリリースする。

This paper presents a comprehensive and quality collection of functional human brain \emph{network} data for potential research in the intersection of neuroscience, machine learning, and graph analytics. Anatomical and functional MRI images have been used to understand the functional connectivity of the human brain and are particularly important in identifying underlying neurodegenerative conditions such as Alzheimer's, Parkinson's, and Autism. Recently, the study of the brain in the form of brain networks using machine learning and graph analytics has become increasingly popular, especially to predict the early onset of these conditions. A brain network, represented as a graph, retains rich structural and positional information that traditional examination methods are unable to capture. However, the lack of publicly accessible brain network data prevents researchers from data-driven explorations. One of the main difficulties lies in the complicated domain-specific preprocessing steps and the exhaustive computation required to convert the data from MRI images into brain networks. We bridge this gap by collecting a large amount of MRI images from public databases and a private source, working with domain experts to make sensible design choices, and preprocessing the MRI images to produce a collection of brain network datasets. The datasets originate from 6 different sources, cover 4 brain conditions, and consist of a total of 2,702 subjects. We test our graph datasets on 12 machine learning models to provide baselines and validate the data quality on a recent graph analysis model. To lower the barrier to entry and promote the research in this interdisciplinary field, we release our brain network data and complete preprocessing details including codes at https://doi.org/10.17608/k6.auckland.21397377 and https://figshare.com/s/fa33c10664ca08b022ce.
翻訳日:2023-10-16 04:21:58 公開日:2023-10-11
# ハイゼンベルク相互作用をもつ中心スピンモデルの時間-結晶挙動

Time-crystalline behavior in central-spin models with Heisenberg interactions ( http://arxiv.org/abs/2303.00893v2 )

ライセンス: Link先を確認
Rafail Frantzeskakis, John Van Dyke, Leon Zaporski, Dorian A. Gangloff, Claire Le Gall, Mete Atat\"ure, Sophia E. Economou, Edwin Barnes(参考訳) 周期的駆動とイジング相互作用を持つ量子中央スピン系では、時間結晶挙動が予測・観測されている。 ここでは、ハイゼンベルク相互作用を伴う中心スピン系においても起こりうることを理論的に示す。 そこで,本論文では,衛星スピンよりも中心スピンに十分大きなゼーマン分割を適用するか,フロッケ周期毎に中心スピンに付加パルスを適用するか,という2つの方法を提案する。 どちらの場合においても、システムは純粋なハイゼンベルク相互作用とxxz相互作用の両方の障害の存在下でスピン磁化においてサブハーモニック応答を示す。 量子ドットやカラーセンターにおける超微細結合電子核系を含むxxz中心スピン系について検討した。

Time-crystalline behavior has been predicted and observed in quantum central-spin systems with periodic driving and Ising interactions. Here, we theoretically show that it can also arise in central-spin systems with Heisenberg interactions. We present two methods to achieve this: application of a sufficiently large Zeeman splitting on the central spin compared to the satellite spins, or else by applying additional pulses to the central spin every Floquet period. In both cases, we show that the system exhibits a subharmonic response in spin magnetizations in the presence of disorder for both pure Heisenberg and XXZ interactions. Our results pertain to any XXZ central-spin system, including hyperfine-coupled electron-nuclear systems in quantum dots or color centers.
翻訳日:2023-10-16 04:13:56 公開日:2023-10-11
# 保存法を尊重する物理モデルを学ぶ

Learning Physical Models that Can Respect Conservation Laws ( http://arxiv.org/abs/2302.11002v4 )

ライセンス: Link先を確認
Derek Hansen, Danielle C. Maddix, Shima Alizadeh, Gaurav Gupta, Michael W. Mahoney(参考訳) 科学機械学習(SciML)における最近の研究は、偏微分方程式(PDE)情報を学習プロセスに組み込むことに重点を置いている。 この研究の多くは、比較的「簡単」なPDE演算子(楕円型や放物型など)に焦点を当てており、比較的「ハード」なPDE演算子(例えば、双曲型)にはあまり重点を置いていない。 数値PDEでは、後者の問題クラスはボリューム要素のタイプや保存制約の制御を必要とするが、これは困難であることが知られている。 SciMLの約束を果たすには、両方のタイプの問題を学習プロセスにシームレスに組み込む必要がある。 そこで本稿では,保存制約を汎用的なscimlアーキテクチャに組み込むためのフレームワークprobconservを提案する。 そのためにProbConservは、保存法とベイズ更新の一体的な形式を組み合わせる。 本稿では,広く適用可能なPDEのパラメータ化ファミリであるGPME(Generalized Porous Medium Equation)を用いたProbConserv on Learningの詳細な解析を行い,PDEの質的特性について述べる。 ProbConservは、手軽なGPME変種に対して有効であり、最先端の競合とよく機能し、より難しいGPME変種に対しては、容積保存を保証しない他のアプローチよりも優れている。 probconservは、物理的保存の制約をシームレスに強制し、確率的不確実性定量化(uq)を維持し、衝撃や異論をうまく扱う。 いずれの場合も、下流タスクにおいて優れた予測性能を達成する。

Recent work in scientific machine learning (SciML) has focused on incorporating partial differential equation (PDE) information into the learning process. Much of this work has focused on relatively "easy" PDE operators (e.g., elliptic and parabolic), with less emphasis on relatively "hard" PDE operators (e.g., hyperbolic). Within numerical PDEs, the latter problem class requires control of a type of volume element or conservation constraint, which is known to be challenging. Delivering on the promise of SciML requires seamlessly incorporating both types of problems into the learning process. To address this issue, we propose ProbConserv, a framework for incorporating conservation constraints into a generic SciML architecture. To do so, ProbConserv combines the integral form of a conservation law with a Bayesian update. We provide a detailed analysis of ProbConserv on learning with the Generalized Porous Medium Equation (GPME), a widely-applicable parameterized family of PDEs that illustrates the qualitative properties of both easier and harder PDEs. ProbConserv is effective for easy GPME variants, performing well with state-of-the-art competitors; and for harder GPME variants it outperforms other approaches that do not guarantee volume conservation. ProbConserv seamlessly enforces physical conservation constraints, maintains probabilistic uncertainty quantification (UQ), and deals well with shocks and heteroscedasticities. In each case, it achieves superior predictive performance on downstream tasks.
翻訳日:2023-10-16 04:13:29 公開日:2023-10-11
# 一般化に基づく類似性

Generalization-based similarity ( http://arxiv.org/abs/2302.10096v3 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 一見遠く離れた物体間の類似性の検出と利用は、人工知能のコアであるアナロジー推論の中核にある。 本稿では、抽象代数的概念を基礎から発展させ、一般化の集合が要素の重要な性質を符号化する観察に基づいて類似性の質的概念を定式化する。 このように定義される類似性は数学的性質に訴える。 普遍代数学の基本的な概念のみを用いて第一原理から類似性の概念を構築し、その妥当性を読者に納得させることで、モデル理論型を通して自然に一階論理に組み込むことができることを示す。

Detecting and exploiting similarities between seemingly distant objects is at the core of analogical reasoning which itself is at the core of artificial intelligence. This paper develops {\em from the ground up} an abstract algebraic and {\em qualitative} notion of similarity based on the observation that sets of generalizations encode important properties of elements. We show that similarity defined in this way has appealing mathematical properties. As we construct our notion of similarity from first principles using only elementary concepts of universal algebra, to convince the reader of its plausibility, we show that it can be naturally embedded into first-order logic via model-theoretic types.
翻訳日:2023-10-16 04:12:58 公開日:2023-10-11
# 室温Rydberg原子を用いた連続広帯域マイクロ波-光変換器

Continuous wideband microwave-to-optical converter based on room-temperature Rydberg atoms ( http://arxiv.org/abs/2302.08380v2 )

ライセンス: Link先を確認
Sebastian Bor\'owka, Uliana Pylypenko, Mateusz Mazelanik, Micha{\l} Parniak(参考訳) マイクロ波と光学系の結合は、エネルギーの自然な非互換性から大きな課題となっているが、量子コンピュータの光インターコネクトから次世代量子マイクロ波センサ、検出器、コヒーレント撮像器に至るまで、潜在的な応用範囲は幅広い。 低温環境、インパルスプロトコル、狭帯域フィールドなど、特定の条件で制約されるいくつかのエンジニアリングプラットフォームが出現している。 ここでは、Rydberg原子を用いて、室温でも光およびマイクロ波光子の自然な広帯域結合を可能とし、控えめな設定を用いる。 我々は、近接周波数からのノイズ干渉を最小限に抑えるために、Rydberg原子のアンサンブルを用いて、13.9\ \mathrm{GHz}$フィールドを近赤外光信号に連続波変換する。 rydbergphotonicコンバータは、前代未聞の変換ダイナミックレンジが$57\ \mathrm{db}$、広い変換帯域幅が$16\ \mathrm{mhz}$である。 光子計数を用いて、自由空間300\ \mathrm{k}$ 熱背景放射を1.59\ \mathrm{nv}\mathrm{cm}^{-1}(\mathrm{rad}/\mathrm{s})^{-1/2}$="3.98 \ \ \mathrm{nv}\mathrm{cm}^{-1}\mathrm{hz}^{-1/2}$) で読み出し、感度を3.8\ \ \mathrm{k}$ ノイズ等価温度まで下げ、ハンベリーブラウンとtwiss干渉を観測できることを示した。

The coupling of microwave and optical systems presents an immense challenge due to the natural incompatibility of energies, but potential applications range from optical interconnects for quantum computers to next-generation quantum microwave sensors, detectors or coherent imagers. Several engineered platforms have emerged that are constrained by specific conditions, such as cryogenic environments, impulse protocols, or narrowband fields. Here we employ Rydberg atoms that allow for the natural wideband coupling of optical and microwave photons even at room temperature and with the use of a modest setup. We present continuous-wave conversion of a $13.9\ \mathrm{GHz}$ field to a near-infrared optical signal using an ensemble of Rydberg atoms via a free-space six-wave mixing process, designed to minimize noise interference from any nearby frequencies. The Rydberg photonic converter exhibits an unprecedented conversion dynamic range of $57\ \mathrm{dB}$ and a wide conversion bandwidth of $16\ \mathrm{MHz}$. Using photon counting, we demonstrate the readout of photons of free-space $300\ \mathrm{K}$ thermal background radiation at $1.59\ \mathrm{nV}\mathrm{cm}^{-1}(\mathrm{rad}/\mathrm{s})^{-1/2}$ ($3.98 \ \mathrm{nV}\mathrm{cm}^{-1}\mathrm{Hz}^{-1/2}$) with the sensitivity down to $3.8\ \mathrm{K}$ of noise-equivalent temperature, allowing us to observe Hanbury Brown and Twiss interference of microwave photons.
翻訳日:2023-10-16 04:12:48 公開日:2023-10-11
# ImageNomer: 機能的コネクティビティとオミクス分析ツールの説明と、人種の混在を識別するケーススタディ

ImageNomer: description of a functional connectivity and omics analysis tool and case study identifying a race confound ( http://arxiv.org/abs/2302.00767v2 )

ライセンス: Link先を確認
Anton Orlichenko, Grant Daly, Ziyu Zhou, Anqi Liu, Hui Shen, Hong-Wen Deng, Yu-Ping Wang(参考訳) fMRIベースの機能接続(FC)とゲノムデータを解析するためのほとんどのパッケージは、プログラム言語インタフェースで使用され、ナビゲートが容易なGUIフロントエンドが欠如している。 これは、これらの種類のデータに見られる2つの問題を悪化させる: 人口統計学と、特徴の高次元に直面した品質管理である。 その理由は、すべての相関関係、結合効果、あるいはデータセットの品質管理問題を特定するために必要なすべての視覚化を作成するために、プログラミングインターフェースを使用するのが遅すぎるためである。 この状況を改善するために、我々は、主観レベルとコホートレベルの両方の人口動態、ゲノム、画像の特徴を検査できるデータ可視化分析ツールであるImageNomerを開発した。 ソフトウェアはPythonベースで、自己完結型のDockerイメージで動作し、ブラウザベースのGUIフロントエンドを含んでいる。 フィラデルフィア・ニューロデベロップメント・コホート(PNC)データセットの達成点を予測する際に,予期せぬ競合を識別し,画像Nomerの有用性を示す。 過去に、多くの研究が、fMRIの達成に関連する特徴を特定するためにFCを使用しようと試みてきた。 ImageNomerを使えば、人種の影響を解消する可能性が明らかになる。 ImageNomer ソフトウェアにおける相関解析を用いて,WRAT ( Wide Range Achievement Test) スコアに相関したFCが,実際にレースと高い相関関係にあることを示す。 さらに, FCとSNP(ゲノム)の特徴はWRATスコアの変動の10~15倍であるが, この予測能力はレース制御時に消失することがわかった。 本研究では,ImageNomer GUIツールによるデータ探索とコンファウンド検出の利点を実証する。 さらに、この研究は、レースがFCデータに強い矛盾点であると認識し、健康な青年のfMRIおよびSNPデータに偏りのない達成に関連する特徴を見出す可能性に疑問を投げかける。

Most packages for the analysis of fMRI-based functional connectivity (FC) and genomic data are used with a programming language interface, lacking an easy-to-navigate GUI frontend. This exacerbates two problems found in these types of data: demographic confounds and quality control in the face of high dimensionality of features. The reason is that it is too slow and cumbersome to use a programming interface to create all the necessary visualizations required to identify all correlations, confounding effects, or quality control problems in a dataset. To remedy this situation, we have developed ImageNomer, a data visualization and analysis tool that allows inspection of both subject-level and cohort-level demographic, genomic, and imaging features. The software is Python-based, runs in a self-contained Docker image, and contains a browser-based GUI frontend. We demonstrate the usefulness of ImageNomer by identifying an unexpected race confound when predicting achievement scores in the Philadelphia Neurodevelopmental Cohort (PNC) dataset. In the past, many studies have attempted to use FC to identify achievement-related features in fMRI. Using ImageNomer, we find a clear potential for confounding effects of race. Using correlation analysis in the ImageNomer software, we show that FCs correlated with Wide Range Achievement Test (WRAT) score are in fact more highly correlated with race. Investigating further, we find that whereas both FC and SNP (genomic) features can account for 10-15\% of WRAT score variation, this predictive ability disappears when controlling for race. In this work, we demonstrate the advantage of our ImageNomer GUI tool in data exploration and confound detection. Additionally, this work identifies race as a strong confound in FC data and casts doubt on the possibility of finding unbiased achievement-related features in fMRI and SNP data of healthy adolescents.
翻訳日:2023-10-16 04:11:17 公開日:2023-10-11
# SGDP: ストリームグラフニューラルネットワークに基づくデータプレファー

SGDP: A Stream-Graph Neural Network Based Data Prefetcher ( http://arxiv.org/abs/2304.03864v2 )

ライセンス: Link先を確認
Yiyuan Yang, Rongshang Li, Qiquan Shi, Xijun Li, Gang Hu, Xing Li and Mingxuan Yuan(参考訳) データプリフェッチはストレージシステムの最適化とアクセス性能の向上に重要である。 従来のプリフェッチは、シーケンシャル論理ブロックアドレス(LBA)のアクセスパターンのマイニングには適しているが、現実世界のアプリケーションで一般的に見られる複雑な非シーケンスパターンは扱えない。 最先端(SOTA)学習ベースのプレフェッチは、より多くのLBAアクセスをカバーする。 しかし、LBAデルタ間の空間的相互依存性を十分に考慮していないため、性能やロバスト性が制限される。 本稿では,SGDP(Stream-Graph Neural Network-based Data Prefetcher)を提案する。 具体的には、重み付き有向グラフ構造を用いてLBAデルタストリームをモデル化し、LBAデルタ間の相互関係を表現し、データプリフェッチのためのグラフニューラルネットワークによりハイブリッド特徴を抽出する。 我々は8つの実世界のデータセットについて広範な実験を行う。 実験の結果、SGDPがSOTA法を6.21%、有効プレフェッチ率7.00%で上回り、平均3.13倍の速さで上回っていることが確認された。 さらに、SGDPを異なるストリーム構造によって異なる変種に一般化し、アプリケーションシナリオをさらに拡張し、その堅牢性を示す。 SGDPは、新しいデータプリフェッチソリューションを提供し、実験段階の商用ハイブリッドストレージシステムで検証されている。 私たちのコードと付録はhttps://github.com/yysjz1997/SGDP/で公開されています。

Data prefetching is important for storage system optimization and access performance improvement. Traditional prefetchers work well for mining access patterns of sequential logical block address (LBA) but cannot handle complex non-sequential patterns that commonly exist in real-world applications. The state-of-the-art (SOTA) learning-based prefetchers cover more LBA accesses. However, they do not adequately consider the spatial interdependencies between LBA deltas, which leads to limited performance and robustness. This paper proposes a novel Stream-Graph neural network-based Data Prefetcher (SGDP). Specifically, SGDP models LBA delta streams using a weighted directed graph structure to represent interactive relations among LBA deltas and further extracts hybrid features by graph neural networks for data prefetching. We conduct extensive experiments on eight real-world datasets. Empirical results verify that SGDP outperforms the SOTA methods in terms of the hit ratio by 6.21%, the effective prefetching ratio by 7.00%, and speeds up inference time by 3.13X on average. Besides, we generalize SGDP to different variants by different stream constructions, further expanding its application scenarios and demonstrating its robustness. SGDP offers a novel data prefetching solution and has been verified in commercial hybrid storage systems in the experimental phase. Our codes and appendix are available at https://github.com/yyysjz1997/SGDP/.
翻訳日:2023-10-16 04:04:37 公開日:2023-10-11
# SQLで大規模言語モデルをクエリする

Querying Large Language Models with SQL ( http://arxiv.org/abs/2304.00472v2 )

ライセンス: Link先を確認
Mohammed Saeed, Nicola De Cao, Paolo Papotti(参考訳) 多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。 しかし、自然言語テキストからデータを抽出してスキーマに正確に適合させ、クエリを可能にすることは難しい課題である。 事前学習された大規模言語モデル(llm)の台頭により、大量のテキスト文書から抽出された情報を保存し利用するための効果的なソリューションが現在存在する。 そこで本研究では,従来のデータベースでは取得されていない幅広いデータをカバーするためにSQLクエリを使うことを想定する。 このビジョンを定着させるために、従来のデータベースアーキテクチャに基づいたプロトタイプであるgaloisを、基礎となるllmをクエリするための新しい物理オペレータとともに紹介する。 主な考え方は、LLMからデータを取得するプロンプトでクエリプランの演算子を実行することである。 大規模なSQLクエリでは、LLMのクエリは、定性的な結果を奨励して、よく構造化された関係を返す。 予備的な実験結果により、事前学習されたLLMはデータベースシステム分野への有望な追加となり、ハイブリッドクエリ処理のための新しい方向が導入された。 しかし、LLMを利用するDBMSを構築するために対処しなければならないいくつかの研究課題を指摘します。 これらの課題のいくつかは、NLP文献からの概念を統合する必要がある一方で、DBコミュニティに新しい研究の道を提供するものもあります。

In many use-cases, information is stored in text but not available in structured data. However, extracting data from natural language text to precisely fit a schema, and thus enable querying, is a challenging task. With the rise of pre-trained Large Language Models (LLMs), there is now an effective solution to store and use information extracted from massive corpora of text documents. Thus, we envision the use of SQL queries to cover a broad range of data that is not captured by traditional databases by tapping the information in LLMs. To ground this vision, we present Galois, a prototype based on a traditional database architecture, but with new physical operators for querying the underlying LLM. The main idea is to execute some operators of the the query plan with prompts that retrieve data from the LLM. For a large class of SQL queries, querying LLMs returns well structured relations, with encouraging qualitative results. Preliminary experimental results make pre-trained LLMs a promising addition to the field of database systems, introducing a new direction for hybrid query processing. However, we pinpoint several research challenges that must be addressed to build a DBMS that exploits LLMs. While some of these challenges necessitate integrating concepts from the NLP literature, others offer novel research avenues for the DB community.
翻訳日:2023-10-16 04:03:55 公開日:2023-10-11
# 最大偏差推定のための干渉粒子ランゲヴィンアルゴリズム

Interacting Particle Langevin Algorithm for Maximum Marginal Likelihood Estimation ( http://arxiv.org/abs/2303.13429v2 )

ライセンス: Link先を確認
\"O. Deniz Akyildiz, Francesca Romana Crucinio, Mark Girolami, Tim Johnston, Sotirios Sabanis(参考訳) 潜在変数モデルのパラメータを推定するためのmmle(maximum marginal likelihood estimation)手順を実装するために相互作用する粒子系のクラスを開発した。 パラメータと潜在変数の拡張状態空間上のランジュバン拡散と見なすことのできる連続時間相互作用粒子系を定式化することでこれを達成する。 特に、この拡散の定常測度のパラメータの限界がギブズ測度の形であることは証明され、粒子の数が古典的な大域的最適化の設定において逆温度パラメータとして作用する。 特定の再スケーリングを用いて、このシステムの幾何学的エルゴディディティを証明し、離散化誤差を時間的に一様であり、粒子の数で増加しない方法で拘束する。 この離散化は、MMLEに使用できるInteracting Particle Langevin Algorithm (IPLA)と呼ばれるアルゴリズムをもたらす。 我々はさらに,問題の重要パラメータの観点から推定器の最適化誤差に対する非漸近的境界を証明し,その結果を実用シナリオをカバーする確率的勾配の場合にも拡張する。 検証可能な仮定を用いて,ロジスティック回帰の文脈におけるアルゴリズムの経験的挙動を説明する数値実験を行った。 我々の設定は、期待最大化(EM)アルゴリズムのような古典的なアプローチと比較して拡散に基づく最適化ルーチンを実装するための簡単な方法を提供する。

We develop a class of interacting particle systems for implementing a maximum marginal likelihood estimation (MMLE) procedure to estimate the parameters of a latent variable model. We achieve this by formulating a continuous-time interacting particle system which can be seen as a Langevin diffusion over an extended state space of parameters and latent variables. In particular, we prove that the parameter marginal of the stationary measure of this diffusion has the form of a Gibbs measure where number of particles acts as the inverse temperature parameter in classical settings for global optimisation. Using a particular rescaling, we then prove geometric ergodicity of this system and bound the discretisation error in a manner that is uniform in time and does not increase with the number of particles. The discretisation results in an algorithm, termed Interacting Particle Langevin Algorithm (IPLA) which can be used for MMLE. We further prove nonasymptotic bounds for the optimisation error of our estimator in terms of key parameters of the problem, and also extend this result to the case of stochastic gradients covering practical scenarios. We provide numerical experiments to illustrate the empirical behaviour of our algorithm in the context of logistic regression with verifiable assumptions. Our setting provides a straightforward way to implement a diffusion-based optimisation routine compared to more classical approaches such as the Expectation Maximisation (EM) algorithm, and allows for especially explicit nonasymptotic bounds.
翻訳日:2023-10-16 04:03:33 公開日:2023-10-11
# 量子場理論におけるマーミンの不等式

Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2303.12195v3 )

ライセンス: Link先を確認
Philipe De Fabritiis, Itzhak Roditi, Silvio Paolo Sorella(参考訳) 相対論的量子場理論の枠組みはマーミンの不等式のために考案された。 シュミア付きディラックスピノル場を用いることで、ミンコフスキー真空から | 0 \rangle$, ghz-型状態を生成するユニタリ作用素を導入することができる。 このようにして、真空中におけるメルミン作用素の期待値とGHZ型状態との関係を得ることができる。 メルミンの不等式がこれらの州で評価された場合、最大で違反されることが示される。

A relativistic Quantum Field Theory framework is devised for Mermin's inequalities. By employing smeared Dirac spinor fields, we are able to introduce unitary operators which create, out of the Minkowski vacuum $| 0 \rangle$, GHZ-type states. In this way, we are able to obtain a relation between the expectation value of Mermin's operators in the vacuum and in the GHZ-type states. We show that Mermin's inequalities turn out to be maximally violated when evaluated on these states.
翻訳日:2023-10-16 04:03:09 公開日:2023-10-11
# Query2doc: 大きな言語モデルによるクエリ拡張

Query2doc: Query Expansion with Large Language Models ( http://arxiv.org/abs/2303.07678v2 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Furu Wei(参考訳) 本稿では,sparse と dense の検索システムを改善するため,query2doc という単純なクエリ拡張手法を提案する。 提案手法はまず,大言語モデル (LLM) を数ショットで生成し,生成した擬似文書を用いてクエリを拡張する。 LLMはウェブスケールのテキストコーパスで訓練されており、知識記憶に長けている。 LLMからの擬似文書は、しばしば、不明瞭さをクエリし、レトリバーを導くのに役立つ非常に関連性の高い情報を含んでいる。 実験結果から,MS-MARCO や TREC DL などのアドホックな IR データセット上での BM25 の性能を 3% から 15% 向上させることができた。 さらに,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。

This paper introduces a simple yet effective query expansion approach, denoted as query2doc, to improve both sparse and dense retrieval systems. The proposed method first generates pseudo-documents by few-shot prompting large language models (LLMs), and then expands the query with generated pseudo-documents. LLMs are trained on web-scale text corpora and are adept at knowledge memorization. The pseudo-documents from LLMs often contain highly relevant information that can aid in query disambiguation and guide the retrievers. Experimental results demonstrate that query2doc boosts the performance of BM25 by 3% to 15% on ad-hoc IR datasets, such as MS-MARCO and TREC DL, without any model fine-tuning. Furthermore, our method also benefits state-of-the-art dense retrievers in terms of both in-domain and out-of-domain results.
翻訳日:2023-10-16 04:01:42 公開日:2023-10-11
# BertRLFuzzer: BERTと強化学習ベースのファザ

BertRLFuzzer: A BERT and Reinforcement Learning based Fuzzer ( http://arxiv.org/abs/2305.12534v2 )

ライセンス: Link先を確認
Piyush Jha, Joseph Scott, Jaya Sriram Ganeshna, Mudit Singh, Vijay Ganesh(参考訳) 本稿では,BERT と Reinforcement Learning (RL) ベースのファジィザである BertRLFuzzer を提案する。 bertrlfuzzerは次のように機能する: シード入力のセットが与えられたとき、fuzzerは文法的および攻撃的変異操作を実行し、候補攻撃ベクターを生成する。 BertRLFuzzerの重要な洞察は、ファザーを誘導するエージェントとしてBERTモデルを用いたRLを使用して、文法順守と攻撃誘発突然変異演算子を効率的に学習することである。 BertRLFuzzerの有効性を確立するために、合計で13個のブラックボックスとホワイトボックスのファザを、9つの犠牲者ウェブサイトと16KLOCのベンチマークで比較した。 攻撃開始までの時間(54%減)、新たに発見された17の新しい脆弱性、攻撃速度(攻撃ベクトルの4.4%増)において、最も近い競合ツールと比較して大きな改善が見られた。

We present a novel tool BertRLFuzzer, a BERT and Reinforcement Learning (RL) based fuzzer aimed at finding security vulnerabilities for Web applications. BertRLFuzzer works as follows: given a set of seed inputs, the fuzzer performs grammar-adhering and attack-provoking mutation operations on them to generate candidate attack vectors. The key insight of BertRLFuzzer is the use of RL with a BERT model as an agent to guide the fuzzer to efficiently learn grammar-adhering and attack-provoking mutation operators. In order to establish the efficacy of BertRLFuzzer we compare it against a total of 13 black box and white box fuzzers over a benchmark of 9 victim websites with over 16K LOC. We observed a significant improvement, relative to the nearest competing tool, in terms of time to first attack (54% less), new vulnerabilities found (17 new vulnerabilities), and attack rate (4.4% more attack vectors generated).
翻訳日:2023-10-16 03:53:55 公開日:2023-10-11
# Joint Metrics Matter: トラジェクトリ予測のためのより良い標準

Joint Metrics Matter: A Better Standard for Trajectory Forecasting ( http://arxiv.org/abs/2305.06292v2 )

ライセンス: Link先を確認
Erica Weng, Hana Hoshino, Deva Ramanan, Kris Kitani(参考訳) マルチモーダル軌道予測法は、最小平均変位誤差 (ade) やファイナル変位誤差 (fde) といった、複数の相互作用エージェントのジョイント性能を捉えない単一エージェントメトリック (マージメトリック) を用いて一般に評価される。 余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡の分散といった、不自然な予測につながる可能性がある。 その結果, 限界測度に最適化された手法は, 軌道予測研究の進歩に有害な性能を過度に最適化する。 限界メトリクスの限界に対応するため,複数エージェントメトリクス (joint metrics, jade, jfde, および衝突率) に関して,最先端(sota)軌道予測手法の包括的評価を行った。 ETH/UCYデータセットとStanford Droneデータセットから得られた定量的証拠と定性的な例による限界メトリクスとは対照的に,共同測定の重要性を示す。 我々は,SOTAトラジェクトリ予測法を適用した新たな損失関数を導入し,従来のSOTAに対して,ETH/UCYデータセット上でのJADE/JFDEの7%改善を実現した。 また,共同メトリクスの最適化は,eth/ucyデータセットの平均衝突率を16\%低下させることで証明されるように,自然と相互作用モデリングの改善につながることが示唆された。 コードは、texttt{\hyperlink{https://github.com/ericaweng/joint-metrics-matter}{github.com/ericaweng/joint-metrics-matter}}で入手できる。

Multi-modal trajectory forecasting methods commonly evaluate using single-agent metrics (marginal metrics), such as minimum Average Displacement Error (ADE) and Final Displacement Error (FDE), which fail to capture joint performance of multiple interacting agents. Only focusing on marginal metrics can lead to unnatural predictions, such as colliding trajectories or diverging trajectories for people who are clearly walking together as a group. Consequently, methods optimized for marginal metrics lead to overly-optimistic estimations of performance, which is detrimental to progress in trajectory forecasting research. In response to the limitations of marginal metrics, we present the first comprehensive evaluation of state-of-the-art (SOTA) trajectory forecasting methods with respect to multi-agent metrics (joint metrics): JADE, JFDE, and collision rate. We demonstrate the importance of joint metrics as opposed to marginal metrics with quantitative evidence and qualitative examples drawn from the ETH / UCY and Stanford Drone datasets. We introduce a new loss function incorporating joint metrics that, when applied to a SOTA trajectory forecasting method, achieves a 7\% improvement in JADE / JFDE on the ETH / UCY datasets with respect to the previous SOTA. Our results also indicate that optimizing for joint metrics naturally leads to an improvement in interaction modeling, as evidenced by a 16\% decrease in mean collision rate on the ETH / UCY datasets with respect to the previous SOTA. Code is available at \texttt{\hyperlink{https://github.com/ericaweng/joint-metrics-matter}{github.com/ericaweng/joint-metrics-matter}}.
翻訳日:2023-10-16 03:53:38 公開日:2023-10-11
# altiro3D:単一画像からのシーン表現と新しいビュー合成

altiro3D: Scene representation from single image and novel view synthesis ( http://arxiv.org/abs/2304.11161v2 )

ライセンス: Link先を確認
E. Canessa and L. Tenze(参考訳) Altiro3Dは、与えられたRGB画像やフラットビデオから現実を表現するために開発されたフリー拡張ライブラリである。 ライトフィールド(あるいはネイティブ)の画像やビデオを生成して、リアルな3D体験を得られる。 仮想画像のN個数を合成し,それらをQuiltコラージュに順次付加するために,単眼深度推定のためのMiDaSモデル,全画素をマッピングするシンプルなOpenCVおよびTeleaインペイント技術,N視点に沿った3Dプロジェクションカメラとシーン変換を扱う「ファスト」アルゴリズムを実装した。 深度の度合いを使ってピクセルを比例的に移動させ、元の画像がすべての視点の中心にあると仮定する。 altiro3D は DIBR アルゴリズムを用いて N-geometric views と等価な 'Real (slower)' カメラから中間スナップショットを計算することもできる。 計算時間を最適化するために、ピクセルとデバイスベースのルックアップテーブルを採用しています。 フリービューLCDディスプレイには、単一の画像又はフレームから生成された複数の視点及び映像を表示することができる。

We introduce altiro3D, a free extended library developed to represent reality starting from a given original RGB image or flat video. It allows to generate a light-field (or Native) image or video and get a realistic 3D experience. To synthesize N-number of virtual images and add them sequentially into a Quilt collage, we apply MiDaS models for the monocular depth estimation, simple OpenCV and Telea inpainting techniques to map all pixels, and implement a 'Fast' algorithm to handle 3D projection camera and scene transformations along N-viewpoints. We use the degree of depth to move proportionally the pixels, assuming the original image to be at the center of all the viewpoints. altiro3D can also be used with DIBR algorithm to compute intermediate snapshots from a equivalent 'Real (slower)' camera with N-geometric viewpoints, which requires to calibrate a priori several intrinsic and extrinsic camera parameters. We adopt a pixel- and device-based Lookup Table to optimize computing time. The multiple viewpoints and video generated from a single image or frame can be displayed in a free-view LCD display.
翻訳日:2023-10-16 03:51:49 公開日:2023-10-11
# 安定化符号の代数

The Algebra for Stabilizer Codes ( http://arxiv.org/abs/2304.10584v5 )

ライセンス: Link先を確認
Cole Comfort(参考訳) 奇数素数次元qudit純安定状態と有限次元シンプレクティックな$\mathbb{f}_p$-vector空間のアフィンラグランジアン部分空間の間には単射が存在する。 安定化形式論の言語において、フルランク安定化テーブルはちょうどアフィンラグランジュ部分空間の基底である。 この対応は、プロップの同型に拡張され、安定化回路の構成は、タドーによって張られるアフィン部分空間の関係合成に対応し、テンソル積は直和に対応する。 本稿では、この安定化器回路とテーブルローの対応を混合設定に拡張し、アフィン共等部分空間として安定化器符号について述べる(奇素キュート次元/キュービットCSS符号の場合のみ)。 安定化器符号のプロジェクタを分割することにより,エラー検出プロトコルとエラー訂正プロトコルをアフィン古典的な処理能力で復元することを示す。

There is a bijection between odd prime dimensional qudit pure stabilizer states modulo invertible scalars and affine Lagrangian subspaces of finite dimensional symplectic $\mathbb{F}_p$-vector spaces. In the language of the stabilizer formalism, full rank stabilizer tableaux are exactly the bases for affine Lagrangian subspaces. This correspondence extends to an isomorphism of props: the composition of stabilizer circuits corresponds to the relational composition of affine subspaces spanned by the tableaux, the tensor product corresponds to the direct sum. In this paper, we extend this correspondence between stabilizer circuits and tableaux to the mixed setting; regarding stabilizer codes as affine coisotropic subspaces (again only in odd prime qudit dimension/for qubit CSS codes). We show that by splitting the projector for a stabilizer code we recover the error detection protocol and the error correction protocol with affine classical processing power.
翻訳日:2023-10-16 03:51:27 公開日:2023-10-11
# マルチカーネルコレントロピーに基づくIMUの向き推定:勾配Descent法

Multi-kernel Correntropy-based Orientation Estimation of IMUs: Gradient Descent Methods ( http://arxiv.org/abs/2304.06548v2 )

ライセンス: Link先を確認
Shilei Li, Lijing Li, Dawei Shi, Yunjiang Lou, Ling Shi(参考訳) 本稿では,慣性測定単位 (imus) の向き推定のための計算効率の高い2つのアルゴリズム,correntropy-based gradient descent (cgd) とcorrentropy-based decoupled orientation estimation (cdoe) を提案する。 勾配降下(GD)や非結合配向推定(DOE)といった従来の手法は平均二乗誤差(MSE)基準に依存しており、外部加速度や磁気干渉に弱い。 この問題に対処するため,マルチカーネル・コレントロピー損失(MKCL)は,ノイズが重み付き分布のタイプに従う場合に,最大推定(MLE)のための最適目的関数であることを示す。 ある状況では、MKCLの推定誤差は、任意に大きな外れ値が存在する場合でも有界である。 標準的なMSEコスト関数をMKCLに置き換えることで,CGDとCDOEアルゴリズムを開発した。 提案手法の有効性を,様々な状況において既存のアルゴリズムと比較することにより評価する。 実験の結果,提案手法は従来の手法(GD, DOE)よりも優れており,特に外部加速度や磁気障害に直面する場合の方が優れていた。 さらに、新しいアルゴリズムはカルマンフィルタベースの手法よりも計算複雑性が著しく低下し、低コストのマイクロプロセッサアプリケーションに適していることを示した。

This paper presents two computationally efficient algorithms for the orientation estimation of inertial measurement units (IMUs): the correntropy-based gradient descent (CGD) and the correntropy-based decoupled orientation estimation (CDOE). Traditional methods, such as gradient descent (GD) and decoupled orientation estimation (DOE), rely on the mean squared error (MSE) criterion, making them vulnerable to external acceleration and magnetic interference. To address this issue, we demonstrate that the multi-kernel correntropy loss (MKCL) is an optimal objective function for maximum likelihood estimation (MLE) when the noise follows a type of heavy-tailed distribution. In certain situations, the estimation error of the MKCL is bounded even in the presence of arbitrarily large outliers. By replacing the standard MSE cost function with MKCL, we develop the CGD and CDOE algorithms. We evaluate the effectiveness of our proposed methods by comparing them with existing algorithms in various situations. Experimental results indicate that our proposed methods (CGD and CDOE) outperform their conventional counterparts (GD and DOE), especially when faced with external acceleration and magnetic disturbances. Furthermore, the new algorithms demonstrate significantly lower computational complexity than Kalman filter-based approaches, making them suitable for applications with low-cost microprocessors.
翻訳日:2023-10-16 03:51:10 公開日:2023-10-11
# 量子メッセージの署名方法

How to Sign Quantum Messages ( http://arxiv.org/abs/2304.06325v3 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 量子メッセージの署名は、計算の前提の下でも不可能だと考えられてきた。 本研究は、この概念に挑戦し、公衆の信頼性を保証するための最初の量子メッセージに署名する3つの革新的なアプローチを提供する。 1) 量子メッセージの署名は署名の時間に依存し,検証プロセスは署名の受信の時間に依存する,時間依存(td)署名の概念を導入する。 このプリミティブを量子ランダムオラクルモデル(qrom)で構築し、量子後セキュアな一方向関数(pq-owfs)の存在を仮定する。 2) 時間とともに進化する検証キーを利用することで, 建設におけるランダムなオラクルの必要性を解消する。 これにより、動的検証キーを持つpq-OWFのTDシグネチャが生成される。 3) 境界量子記憶モデルを考えると, 敵は量子記憶に関して制限される。 このモデルでは、量子メッセージは情報理論のセキュリティで署名できることを示す。 pq-OWFにのみ依存して、以下の目的を達成するために、TDシグネチャを利用する。 (a)敵の改ざんに抵抗する認証された量子公開鍵を含む公開鍵暗号方式を設計する。 (b)新規なtd公開鍵量子マネースキームを提案する。

Signing quantum messages has long been considered impossible even under computational assumptions. In this work, we challenge this notion and provide three innovative approaches to sign quantum messages that are the first to ensure authenticity with public verifiability. Our contributions can be summarized as follows: 1) We introduce the concept of time-dependent (TD) signatures, where the signature of a quantum message depends on the time of signing and the verification process depends on the time of the signature reception. We construct this primitive within the quantum random oracle model (QROM), assuming the existence of post-quantum secure one-way functions (pq-OWFs). 2) By utilizing verification keys that evolve over time, we eliminate the need for the random oracle in our construction. This leads to TD signatures from pq-OWFs with dynamic verification keys. 3) We then consider the bounded quantum storage model, where adversaries are limited with respect to their quantum memories. We show that quantum messages can be signed with information-theoretic security in this model. Moreover, we leverage TD signatures to achieve the following objectives, relying solely on pq-OWFs: (a) We design a public key encryption scheme featuring authenticated quantum public keys that resist adversarial tampering. (b) We present a novel TD public-key quantum money scheme.
翻訳日:2023-10-16 03:50:46 公開日:2023-10-11
# AVIDa-hIL6:抗原と抗体の相互作用を予測する免疫性アルパカ由来の大規模VHHデータセット

AVIDa-hIL6: A Large-Scale VHH Dataset Produced from an Immunized Alpaca for Predicting Antigen-Antibody Interactions ( http://arxiv.org/abs/2306.03329v2 )

ライセンス: Link先を確認
Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Jennifer N. Wei, Zelda Mariet, Poomarin Phloyphisut, Hidetoshi Shimokawa, Joseph R. Ledsam, Lucy Colwell, Akihiro Imura(参考訳) 抗体はヒト疾患の治療薬として重要な分類となっている。 治療的抗体発見を促進するために、特に機械学習の計算手法は、抗体候補とウイルスやバクテリアなどの標的抗原との特定の相互作用を予測することにかなりの関心を集めている。 しかし、既存の研究で公開されているデータセットには、小さなサイズや非結合性サンプルの欠如、正確なアミノ酸配列など、顕著な制限がある。 これらの制限を克服するため,ヒトインターロイキン6 (IL-6) タンパク質を免疫したアルパカ由来の重鎖型重鎖抗体 (VHHs) の変異ドメインにおける抗原と抗体の相互作用を予測する大規模なデータセットであるAVIDa-hIL6を開発した。 DNAシークエンシング技術による全長アミノ酸配列の同定を容易にするVHHsの単純な構造を活用することにより、AVIDa-hIL6はアミノ酸配列と573,891の抗原-VHHペアを含む。 すべての抗原-vhh対は、新規な標識法によって生成されるように、結合または非結合の信頼できるラベルを有する。 さらに、人工突然変異の導入により、AVIDa-hIL6は野生型IL-6タンパク質に加えて30の異なる変異体を含む。 この特徴は、抗原変異による抗体結合の変化を予測する機械学習モデルを開発する機会を提供する。 機械学習モデルを用いたAVIDa-hIL6のベンチマーク結果について報告する。 その結果、既存のモデルには潜在性があることが示唆されるが、未知の変異体に対する効果的な抗体を予測するためには、さらなる研究が必要である。 データセットはhttps://avida-hil6.cognanous.comで入手できる。

Antibodies have become an important class of therapeutic agents to treat human diseases. To accelerate therapeutic antibody discovery, computational methods, especially machine learning, have attracted considerable interest for predicting specific interactions between antibody candidates and target antigens such as viruses and bacteria. However, the publicly available datasets in existing works have notable limitations, such as small sizes and the lack of non-binding samples and exact amino acid sequences. To overcome these limitations, we have developed AVIDa-hIL6, a large-scale dataset for predicting antigen-antibody interactions in the variable domain of heavy chain of heavy chain antibodies (VHHs), produced from an alpaca immunized with the human interleukin-6 (IL-6) protein, as antigens. By leveraging the simple structure of VHHs, which facilitates identification of full-length amino acid sequences by DNA sequencing technology, AVIDa-hIL6 contains 573,891 antigen-VHH pairs with amino acid sequences. All the antigen-VHH pairs have reliable labels for binding or non-binding, as generated by a novel labeling method. Furthermore, via introduction of artificial mutations, AVIDa-hIL6 contains 30 different mutants in addition to wild-type IL-6 protein. This characteristic provides opportunities to develop machine learning models for predicting changes in antibody binding by antigen mutations. We report experimental benchmark results on AVIDa-hIL6 by using machine learning models. The results indicate that the existing models have potential, but further research is needed to generalize them to predict effective antibodies against unknown mutants. The dataset is available at https://avida-hil6.cognanous.com.
翻訳日:2023-10-16 03:43:42 公開日:2023-10-11
# 対称リプレイトレーニングによるブラックボックス組合せ最適化におけるサンプル効率の向上

Enhancing Sample Efficiency in Black-box Combinatorial Optimization via Symmetric Replay Training ( http://arxiv.org/abs/2306.01276v2 )

ライセンス: Link先を確認
Hyeonah Kim, Minsu Kim, Sungsoo Ahn, Jinkyoo Park(参考訳) ブラックボックス組合せ最適化(ブラックボックスCO)は、薬物発見やハードウェア設計など、様々な産業分野で頻繁に発生する。 ブラックボックスのCO問題を解くことは、ブラックボックスの機能評価の膨大な組み合わせ解空間と資源集約性のために非常に困難である。 これらの本質的複雑性は,既存の深層強化学習(drl)法の有効性に重大な制約を与える。 機能評価が限られた効率的な探索のために,本論文ではサンプル効率を向上させるための新しい汎用的手法を提案する。 対称空間における高次サンプルとその未探索領域を活用した対称リプレイトレーニングを提案する。 リプレイトレーニングでは、これらの高次サンプルの対称軌道を模倣するように訓練される。 提案手法は, 付加的なオンラインインタラクションフリーを必要とせず, 高報酬領域の探索に有用である。 実験により,本手法は分子最適化やハードウェア設計を含む実世界のタスクにおけるDRL法のサンプル効率を一貫して改善することを示した。

Black-box combinatorial optimization (black-box CO) is frequently encountered in various industrial fields, such as drug discovery or hardware design. Despite its widespread relevance, solving black-box CO problems is highly challenging due to the vast combinatorial solution space and resource-intensive nature of black-box function evaluations. These inherent complexities induce significant constraints on the efficacy of existing deep reinforcement learning (DRL) methods when applied to practical problem settings. For efficient exploration with the limited availability of function evaluations, this paper introduces a new generic method to enhance sample efficiency. We propose symmetric replay training that leverages the high-reward samples and their under-explored regions in the symmetric space. In replay training, the policy is trained to imitate the symmetric trajectories of these high-rewarded samples. The proposed method is beneficial for the exploration of highly rewarded regions without the necessity for additional online interactions - free. The experimental results show that our method consistently improves the sample efficiency of various DRL methods on real-world tasks, including molecular optimization and hardware design.
翻訳日:2023-10-16 03:42:54 公開日:2023-10-11
# 励起状態量子相転移を利用した精密磁気計測

Precision magnetometry exploiting excited state quantum phase transitions ( http://arxiv.org/abs/2306.01126v3 )

ライセンス: Link先を確認
Qian Wang, Ugo Marzolino(参考訳) 相転移における臨界挙動は精密計測の資源である。 理由は、フィッシャー情報として知られるこの関数が臨界点において超指数関数であり、同時にメトロジープロトコルのパフォーマンスを定量化するからである。 したがって、位相遷移におけるメロジカルプローブの作成により、遷移制御パラメータの測定精度が向上する。 我々は、異なる磁場で励起状態量子相転移を示すリプキン-メシュコフ-グリックモデルに焦点を当てる。 モデルスペクトル特性に基づき、フィッシャー情報の広いピークを示し、高精度磁力計の効率的なスキームを提案する。 lipkin-meshkov-glickモデルは、超伝導と核系のために初めて導入され、最近いくつかの凝縮物プラットフォームで実現された。 上記のメトロロジースキームは、リプキン-メシュコフ-グリック模型をシミュレートできるシステムの微視的性質を測定するためにも利用できる。

Critical behaviour in phase transitions is a resource for enhanced precision metrology. The reason is that the function, known as Fisher information, is superextensive at critical points, and, at the same time, quantifies performances of metrological protocols. Therefore, preparing metrological probes at phase transitions provides enhanced precision in measuring the transition control parameter. We focus on the Lipkin-Meshkov-Glick model that exhibits excited state quantum phase transitions at different magnetic fields. Resting on the model spectral properties, we show broad peaks of the Fisher information, and propose efficient schemes for precision magnetometry. The Lipkin-Meshkov-Glick model was first introduced for superconductivity and for nuclear systems, and recently realised in several condensed matter platforms. The above metrological schemes can be also exploited to measure microscopic properties of systems able to simulate the Lipkin-Meshkov-Glick model.
翻訳日:2023-10-16 03:42:37 公開日:2023-10-11
# 分散非回帰高次元ベイズ最適化における加法的制約の緩和

Relaxing the Additivity Constraints in Decentralized No-Regret High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2305.19838v2 )

ライセンス: Link先を確認
Anthony Bardou, Patrick Thiran and Thomas Begin(参考訳) ベイズ最適化(BO)は一般に、最適化の各ステップで最大化されなければならない取得関数を利用することで、ノイズの多い未知の関数の$f$を最適化するために使用される。 漸近的に最適なboアルゴリズムが低次元関数の最適化に効率的であるとしても、高次元空間への拡張は未解決の問題であり、しばしば加法構造を$f$と仮定して取り組まれる。 BOアルゴリズムは一般に、適用可能性領域を減少させる付加的構造に関する追加の制限的な仮定を導入する。 本論文の主な貢献は2つある。 (i)$f$の加法構造に関する制限的な仮定を緩和し、取得関数の最大化保証を弱めることを犠牲にして、 (II)分散BOアルゴリズムの過剰探索問題に対処する。 これらの目的のために,DumBOを提案する。DumBOは,最先端のBOアルゴリズムと非常に競合する性能を実現する,漸近的に最適な分散BOアルゴリズムである。

Bayesian Optimization (BO) is typically used to optimize an unknown function $f$ that is noisy and costly to evaluate, by exploiting an acquisition function that must be maximized at each optimization step. Even if provably asymptotically optimal BO algorithms are efficient at optimizing low-dimensional functions, scaling them to high-dimensional spaces remains an open problem, often tackled by assuming an additive structure for $f$. By doing so, BO algorithms typically introduce additional restrictive assumptions on the additive structure that reduce their applicability domain. This paper contains two main contributions: (i) we relax the restrictive assumptions on the additive structure of $f$, at the expense of weakening the maximization guarantees of the acquisition function, and (ii) we address the over-exploration problem for decentralized BO algorithms. To these ends, we propose DumBO, an asymptotically optimal decentralized BO algorithm that achieves very competitive performance against state-of-the-art BO algorithms, especially when the additive structure of $f$ comprises high-dimensional factors.
翻訳日:2023-10-16 03:42:09 公開日:2023-10-11
# スケッチによる部分微分方程式に対するモンテカルロ法とテンソルネットワーク法の組み合わせ

Combining Monte Carlo and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v6 )

ライセンス: Link先を確認
Yian Chen, Yuehaw Khoo(参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。 提案手法はモンテカルロシミュレーションを用いて解の更新を行い,最近提案するテンソルトレインスケッチ手法を用いて,サンプルから新しい解をテンソルネットワークとして再評価する。 ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を示す。 また,提案手法の有効性を示すために,収束保証と数値実験も提供する。

In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach uses Monte-Carlo simulations to update the solution and re-estimates the new solution from samples as a tensor-network using a recently proposed tensor train sketching technique. We showcase the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo. We also provide convergence guarantees and numerical experiments to demonstrate the efficacy of the proposed method.
翻訳日:2023-10-16 03:41:49 公開日:2023-10-11
# マイクロキャビティにおける励起子-ポーラリトン輸送機構

Transport regimes for exciton-polaritons in disordered microcavities ( http://arxiv.org/abs/2305.16112v2 )

ライセンス: Link先を確認
A.N. Osipov, I.V. Iorsh, A.V. Yulin and I.A. Shelykh(参考訳) 平面光学キャビティにおける光物質結合は、短距離エキシトニック障害の存在下で系の輸送機構を著しく修飾する。 共振結合励起子-光子系のマスター方程式を基礎とし、ボルン-マルコフ近似における乱れ散乱を扱いながら、それぞれ弱い障害と強い障害の限界における弾道的および拡散的輸送レジームの発生を実証する。 これら2つの状態間の交叉を規定する輸送パラメータは,光物質結合,特にラビエネルギー,励起モードとフォトニックモードの脱調を特徴付けるパラメータに強く依存している。 この理論は、不規則な有機マイクロキャビティにおける輸送に関する最近の実験データと一致している。

Light-matter coupling in a planar optical cavity substantially modifies the transport regimes in the system in presence of a short range excitonic disorder. Basing on Master equation for a resonantly coupled exciton-photon system, and treating disorder scattering in the Born-Markov approximation we demonstrate the onset of ballistic and diffusive transport regimes in the limits of weak and strong disorder respectively. We show that transport parameters governing the crossover between these two regimes strongly depend on the parameters characterizing light-matter coupling, in particular Rabi energy and detuning between excitonic and photonic modes. The presented theory agrees with recent experimental data on transport in disordered organic microcavities.
翻訳日:2023-10-16 03:41:38 公開日:2023-10-11
# 増幅ハールウェーブレットによるベル-CHSH不平等の最大違反

Maximal violation of the Bell-CHSH inequality via bumpified Haar wavelets ( http://arxiv.org/abs/2307.04611v2 )

ライセンス: Link先を確認
David Dudal, Philipe De Fabritiis, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella(参考訳) 我々は、量子場理論の文脈で、真空状態におけるベル-CHSH不等式違反を調査するための一般的な設定を考案する。 1+1)$次元ミンコフスキー時空における無質量スピノル場を用いて実験を行った。 アリスとボブのテスト関数は、まずハールウェーブレットを用いて明示的に構成され、プランクタッパーウィンドウ関数に依存する滑らか化手順によって適切なテスト関数にバンプされる。 相対論的因果関係は、アリスとボブのテスト関数をそれぞれ左と右のリンドラーウェッジに配置することを要求することによって実現される。 ベル-CHSHの不等式は、ツィレルソンの限界に近いことが報告されている。 我々はこの余分なポータルについて簡単にコメントし、以前の研究と比較して、ベル-CHSHの不等式と一般の相互作用する量子場理論を精査する。

We devise a general setup to investigate the violation of the Bell-CHSH inequality in the vacuum state in the context of Quantum Field Theory. We test the method with massless spinor fields in $(1+1)$-dimensional Minkowski space-time. Alice's and Bob's test functions are explicitly constructed, first by employing Haar wavelets which are then bumpified into proper test functions via a smoothening procedure relying on the Planck-taper window function. Relativistic causality is implemented by requiring the support of Alice's and Bob's test functions to be located in the left and right Rindler wedges, respectively. Violations of the Bell-CHSH inequality as close as desired to Tsirelson's bound are reported. We briefly comment on the extra portal, compared to earlier works, this opens to scrutinize Bell-CHSH inequalities with generic, interacting Quantum Field Theories.
翻訳日:2023-10-16 03:33:37 公開日:2023-10-11
# デュアルコム分光法による高精度・高ダイナミックレンジ光機械加速度計

High accuracy, high dynamic range optomechanical accelerometry enabled by dual comb spectroscopy ( http://arxiv.org/abs/2306.17809v2 )

ライセンス: Link先を確認
D. A. Long, J. R. Stroud, B. J. Reschovsky, Y. Bao, F. Zhou, S. M. Bresler, T. W. LeBrun, D. F. Plusquellic, J. J. Gorman(参考訳) キャビティ光学センサは極めて感度が高いが、高い精度とダイナミックレンジでキャビティ動作を尋問することは困難であることが証明されている。 ここでは,光周波数コム分光計を用いてマイクロファブリケードキャビティの光学加速度計を読み出し,24g (236 m/s$^2$) の加速でキャビティの変位,微細化,結合の迅速同時測定を行う。 この手法により, マイクロファブリケーションキャビティ光学センサの変位感度は3 fm/hz$^{1/2}$, 測定速度は100 khz, ダイナミックレンジは3.9$\times$ 10$^5$となった。 また,市販の加速度計と直接結合した光学センサの比較では,基準の不確実性によって制限される値である0.5%の一致を示した。 さらに, この手法は加速度計に限らず, 高速, ダイナミックレンジ, 感度の組み合わせが期待できる任意の光学センサに容易に適用することができる。

Cavity optomechanical sensors can offer exceptional sensitivity; however, interrogating the cavity motion with high accuracy and dynamic range has proven to be challenging. Here we employ a dual optical frequency comb spectrometer to readout a microfabricated cavity optomechanical accelerometer, allowing for rapid simultaneous measurements of the cavity's displacement, finesse, and coupling at accelerations up to 24 g (236 m/s$^2$). With this approach, we have achieved a displacement sensitivity of 3 fm/Hz$^{1/2}$, a measurement rate of 100 kHz, and a dynamic range of 3.9 $\times$ 10$^5$ which is the highest we are aware of for a microfabricated cavity optomechanical sensor. In addition, comparisons of our optomechanical sensor coupled directly to a commercial reference accelerometer show agreement at the 0.5% level, a value which is limited by the reference's reported uncertainty. Further, the methods described herein are not limited to accelerometry but rather can be readily applied to nearly any optomechanical sensor where the combination of high speed, dynamic range, and sensitivity is expected to be enabling.
翻訳日:2023-10-16 03:32:53 公開日:2023-10-11
# KITE:セマンティックマニピュレーションのためのキーポイント型ポリシー

KITE: Keypoint-Conditioned Policies for Semantic Manipulation ( http://arxiv.org/abs/2306.16605v4 )

ライセンス: Link先を確認
Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg(参考訳) 自然言語は人間とロボットに便利な共有インターフェースを提供するが、ロボットが言語コマンドを解釈し従わせることは、操作において長年の課題である。 動作指示追従ロボットを実現するための重要なステップは、ロボットが「ぬいぐるみを拾い上げる」といった高レベルな指示から「象の左耳を磨く」といったより詳細な入力まで、異なる特異性で言語を解釈する意味操作を実現することである。 そこで我々は,シーンセマンティクス(視覚的場面における異なるオブジェクトの識別)とオブジェクトセマンティクス(正確にはオブジェクトインスタンス内の異なる部分のローカライズ)の両方に対応する意味操作のための2段階のフレームワークであるKeypoints + Instructions to Execution (KITE)を提案する。 KITEは、まず2次元画像キーポイントを通して視覚シーンに入力命令を接地し、下流アクション推論のための高精度なオブジェクト中心バイアスを提供する。 KITEはRGB-Dシーンの観察を行い、学習されたキーポイント条件のスキルを実行して命令を実行する。 キーポイントの精度とパラメータ化スキルを組み合わせることで、シーンやオブジェクトのバリエーションを一般化したきめ細かい操作が可能になる。 実世界の3つの環境 – 長距離6-DoFテーブルトップ操作,意味的把握,高精度コーヒー製造タスク – において,KITEを実証した。 これらの設定では、KITEはそれぞれ75%、70%、全体の71%の成功率を達成している。 KITEは、キーポイントベースのグラウンドよりも事前訓練されたビジュアル言語モデルを選択するフレームワークや、エンドツーエンドのビジュモータコントロールを優先して省略スキルを向上する。 追加資料、データセット、コード、ビデオは、私たちのWebサイトにある。

While natural language offers a convenient shared interface for humans and robots, enabling robots to interpret and follow language commands remains a longstanding challenge in manipulation. A crucial step to realizing a performant instruction-following robot is achieving semantic manipulation, where a robot interprets language at different specificities, from high-level instructions like "Pick up the stuffed animal" to more detailed inputs like "Grab the left ear of the elephant." To tackle this, we propose Keypoints + Instructions to Execution (KITE), a two-step framework for semantic manipulation which attends to both scene semantics (distinguishing between different objects in a visual scene) and object semantics (precisely localizing different parts within an object instance). KITE first grounds an input instruction in a visual scene through 2D image keypoints, providing a highly accurate object-centric bias for downstream action inference. Provided an RGB-D scene observation, KITE then executes a learned keypoint-conditioned skill to carry out the instruction. The combined precision of keypoints and parameterized skills enables fine-grained manipulation with generalization to scene and object variations. Empirically, we demonstrate KITE in 3 real-world environments: long-horizon 6-DoF tabletop manipulation, semantic grasping, and a high-precision coffee-making task. In these settings, KITE achieves a 75%, 70%, and 71% overall success rate for instruction-following, respectively. KITE outperforms frameworks that opt for pre-trained visual language models over keypoint-based grounding, or omit skills in favor of end-to-end visuomotor control, all while being trained from fewer or comparable amounts of demonstrations. Supplementary material, datasets, code, and videos can be found on our website: http://tinyurl.com/kite-site.
翻訳日:2023-10-16 03:32:30 公開日:2023-10-11
# 生成型分類器による位相図のマッピング

Mapping out phase diagrams with generative classifiers ( http://arxiv.org/abs/2306.14894v2 )

ライセンス: Link先を確認
Julian Arnold, Frank Sch\"afer, Alan Edelman, Christoph Bruder(参考訳) 多体物理学における中心的な課題の一つは位相図の決定である。 しかしながら、フェーズ図のマッピングは一般的に、人間の直観と理解を多く必要とします。 このプロセスを自動化するために、分類タスクとしてフレーム化することができる。 通常、分類問題は、与えられたサンプルのラベルの確率を明示的にモデル化する識別分類器を用いて取り組まれる。 ここでは,物理系に基づく測定統計の確率論的モデルに基づいて,生成型分類器を用いて位相分類問題の解法が自然に適切であることを示す。 このような生成的アプローチは、統計的および量子物理学の領域に固有の概念のモデリングと、機械学習の最近の進歩から恩恵を受けている。 これは、古典平衡系や量子基底状態への応用例で示される、人間の監督がほとんどない、位相図を自律的に決定するための強力な枠組みとなる。

One of the central tasks in many-body physics is the determination of phase diagrams. However, mapping out a phase diagram generally requires a great deal of human intuition and understanding. To automate this process, one can frame it as a classification task. Typically, classification problems are tackled using discriminative classifiers that explicitly model the probability of the labels for a given sample. Here we show that phase-classification problems are naturally suitable to be solved using generative classifiers based on probabilistic models of the measurement statistics underlying the physical system. Such a generative approach benefits from modeling concepts native to the realm of statistical and quantum physics, as well as recent advances in machine learning. This leads to a powerful framework for the autonomous determination of phase diagrams with little to no human supervision that we showcase in applications to classical equilibrium systems and quantum ground states.
翻訳日:2023-10-16 03:31:21 公開日:2023-10-11
# InAs/GaAs量子ドットの機械学習と実時間フィードバック制御

Machine-Learning-Assisted and Real-Time-Feedback-Controlled Growth of InAs/GaAs Quantum Dots ( http://arxiv.org/abs/2306.12898v3 )

ライセンス: Link先を確認
Chao Shen, Wenkang Zhan, Kaiyao Xin, Manyang Li, Zhenyu Sun, Hui Cong, Chi Xu, Jian Tang, Zhaofeng Wu, Bo Xu, Zhongming Wei, Chunlai Xue, Chao Zhao, and Zhanguo Wang(参考訳) 自己集合型InAs/GaAs量子ドット(QD)は、QDレーザーや単一光子源のような様々な光電子デバイスを開発するのに非常に有用な性質を持つ。 これらの応用はこれらのドットの密度と品質に強く依存しており、高品質なエピウエハやデバイスを実現するための成長過程制御の研究を動機付けている。 特定のQD密度に対する分子線エピタキシー(MBE)におけるプロセスパラメータの確立は多次元最適化の課題であり、通常は時間と反復的な試行錯誤によって対処される。 本稿では,完全自動化・インテリジェントな任意の密度を持つQDの成長を実現するためのリアルタイムフィードバック制御手法について報告する。 我々は3D ResNet 50と呼ばれる機械学習(ML)モデルを開発し、静止画像の代わりに反射高エネルギー電子回折(RHEED)ビデオを入力として使用し、プロセス制御のための表面形態に関するリアルタイムフィードバックを提供した。 その結果,約1.5E10 cm-2から3.8E8 cm-2,最大1.4E11 cm-2まで,ほぼリアルタイムにQD密度を調整し,成長後のQDの密度を予測することができた。 従来の手法と比較すると,in situチューニング機能と信頼性に優れたアプローチでは,材料最適化プロセスが劇的に向上し,MBEの再現性が向上し,薄膜成長技術に大きな進歩をもたらす。 この研究で実証された概念と方法論は、光電子産業やマイクロエレクトロニクス産業の半導体製造に革命をもたらす様々な材料成長プロセスに適用できることを約束している。

Self-assembled InAs/GaAs quantum dots (QDs) have properties highly valuable for developing various optoelectronic devices such as QD lasers and single photon sources. The applications strongly rely on the density and quality of these dots, which has motivated studies of the growth process control to realize high-quality epi-wafers and devices. Establishing the process parameters in molecular beam epitaxy (MBE) for a specific density of QDs is a multidimensional optimization challenge, usually addressed through time-consuming and iterative trial-and-error. Here, we report a real-time feedback control method to realize the growth of QDs with arbitrary density, which is fully automated and intelligent. We developed a machine learning (ML) model named 3D ResNet 50 trained using reflection high-energy electron diffraction (RHEED) videos as input instead of static images and providing real-time feedback on surface morphologies for process control. As a result, we demonstrated that ML from previous growth could predict the post-growth density of QDs, by successfully tuning the QD densities in near-real time from 1.5E10 cm-2 down to 3.8E8 cm-2 or up to 1.4E11 cm-2. Compared to traditional methods, our approach, with in situ tuning capabilities and excellent reliability, can dramatically expedite the material optimization process and improve the reproducibility of MBE, constituting significant progress for thin film growth techniques. The concepts and methodologies proved feasible in this work are promising to be applied to a variety of material growth processes, which will revolutionize semiconductor manufacturing for optoelectronic and microelectronic industries.
翻訳日:2023-10-16 03:31:07 公開日:2023-10-11
# 有限サイズモザイクワニエスターク格子における拡張状態と局所状態の共存

Coexistence of extended and localized states in finite-sized mosaic Wannier-Stark lattices ( http://arxiv.org/abs/2306.10831v2 )

ライセンス: Link先を確認
Jun Gao, Ivan M. Khaymovich, Adrian Iovan, Xiao-Wei Wang, Govind Krishna, Ze-Sheng Xu, Emrah Tortumlu, Alexander V. Balatsky, Val Zwiller, Ali W. Elshaari(参考訳) 量子輸送と局在は凝縮物質物理学の基本的な概念である。 一次元システムでは、モビリティ・エッジの存在は障害に大きく依存していると考えられている。 近年、モザイク・ワニエ・スターク格子と呼ばれる、変調モザイクモデルにおけるモザイクモデルにおける正確なモザイクエッジの存在が議論されている。 そこで我々はシリコンフォトニクスプラットフォームを用いて,このようなモザイクフォトニック格子を実験的に実装した。 合成電場を作ることにより、有限個の導波路で拡張状態と局所状態の両方のエネルギー依存的共存を観測できる。 ワニエ・スターク・はしごは、結果として生じるポテンシャルが十分に強いときに現れ、格子の異なる空間モードによって直接探査することができる。 我々の研究は、コンパクトでロバストな構造を持つ高次元量子資源をエンコードするポテンシャルを持つ有限サイズのモザイク・ワニエ・スターク格子において、強局所化および導電性(弱い局所化)状態の共存を実験的に証明する。

Quantum transport and localization are fundamental concepts in condensed matter physics. It is commonly believed that in one-dimensional systems, the existence of mobility edges is highly dependent on disorder. Recently, there has been a debate over the existence of an exact mobility edge in a modulated mosaic model without quenched disorder, the so-called mosaic Wannier-Stark lattice. Here, we experimentally implement such disorder-free mosaic photonic lattices using a silicon photonics platform. By creating a synthetic electric field, we could observe energy-dependent coexistence of both extended and localized states in a finite number of waveguides. The Wannier-Stark ladder emerges when the resulting potential is strong enough, and can be directly probed by exciting different spatial modes of the lattice. Our studies provide the experimental proof of coexisting sets of strongly localized and conducting (though weakly localized) states in finite-sized mosaic Wannier-Stark lattices, which hold the potential to encode high-dimensional quantum resources with compact and robust structures.
翻訳日:2023-10-16 03:30:15 公開日:2023-10-11
# 傾斜格子内のボソンと相互作用する不純物に対する非エルゴードダイナミクス

Nonergodic dynamics for an impurity interacting with bosons in tilted lattice ( http://arxiv.org/abs/2306.06705v2 )

ライセンス: Link先を確認
Pedro R. Nic\'acio Falc\~ao and Jakub Zakrzewski(参考訳) 傾斜格子に局在した他の粒子の浴槽に浸漬して相互作用する単一粒子の運命について検討した。 トンネル速度に匹敵する傾き値については、力学の減速は不純物の明確な局在化を伴わずに観察される。 大きな傾きと強い相互作用では、不純物の運動はクロニッヒ・ペニーポテンシャルに類似している。 動力学は傾斜したボーソンの初期分布に依存する。 分布のような正則な密度波に対する非局在ダイナミクスを示し、傾いたボソンがランダムに分布する場合の局在を示す。

The fate of the single particle immersed in and interacting with a bath of other particles localized in a tilted lattice is investigated. For tilt values comparable to the tunneling rate a slow-down of the dynamics is observed without, however, a clear localization of the impurity. For large tilt and strong interactions the motion of the impurity resembles that in the Kronig-Penney potential. The dynamics depends on the initial distribution of tilted bosons. It shows delocalized dynamics for a regular, density wave like distribution and a localization if tilted bosons are randomly distributed.
翻訳日:2023-10-16 03:29:52 公開日:2023-10-11
# 量子クエンチを用いた長寿命偽真空の検出

Detecting a long lived false vacuum with quantum quenches ( http://arxiv.org/abs/2308.08340v3 )

ライセンス: Link先を確認
Gianluca Lagnese, Federica Maria Surace, Sid Morampudi, Frank Wilczek(参考訳) システムが代替の低エネルギー(局所的に安定)状態 -- 安定(真の真空)と準安定状態(ファルス真空) -- をサポートするかどうかを直接観察することで区別することは、状態の寿命が非常に長いが未知である場合には困難である。 ここでは,移動可能なモデルシステムにおいて,より短い時間スケールで差を診断できる物理的現象が存在することを実証する。 具体的には、傾斜量子イジングモデルにおけるクエンチに続くスペクトル密度について検討し、スペクトル密度の進化が強力な診断であることを示す。 小さな遷移気泡は大きな泡よりも一般的であり、偽の真空崩壊の臨界サイズよりもずっと小さい泡の寿命の大きさ依存性に特徴的な差が見られる。 このような振る舞いは、この種のシステムでは一般的なものになると思います。 このようなシグネチャが連続体理論に持続することを示す。 これはまた、真の真空への崩壊過程の開始のかなり前に、我々の宇宙の準安定的な偽真空の類似のシグネチャの可能性も開ける。

Distinguishing whether a system supports alternate low-energy (locally stable) states -- stable (true vacuum) versus metastable (false vacuum) -- by direct observation can be difficult when the lifetime of the state is very long but otherwise unknown. Here we demonstrate, in a tractable model system, that there are physical phenomena on much shorter time scales that can diagnose the difference. Specifically, we study the spectral density following a quench in the tilted quantum Ising model, and show that the evolution of the spectral density is a powerful diagnostic. Small transition bubbles are more common than large ones, and we see characteristic differences in the size dependence of bubble lifetimes even well below the critical size for false vacuum decay. We expect this sort of behavior to be generic in systems of this kind. We show such signatures persist in a continuum field theory. This also opens the possibility of similar signatures of the potential metastable false vacuum of our universe well before the beginning of a decay process to the true vacuum.
翻訳日:2023-10-16 03:23:01 公開日:2023-10-11
# ECPC-IDS:超代謝領域のセグメンテーションと検出のためのベンチマーク内膜癌PET/CT画像データセット

ECPC-IDS:A benchmark endometrail cancer PET/CT image dataset for evaluation of semantic segmentation and detection of hypermetabolic regions ( http://arxiv.org/abs/2308.08313v3 )

ライセンス: Link先を確認
Dechao Tang, Tianming Du, Deguo Ma, Zhiyu Ma, Hongzan Sun, Marcin Grzegorzek, Huiyan Jiang, Chen Li(参考訳) 子宮内膜癌は女性の生殖系で最も一般的な腫瘍の1つであり、卵巣癌と子宮頸癌の後死を引き起こす3番目に一般的な婦人科悪性腫瘍である。 早期診断は5年生存率を大幅に向上させる。 人工知能の開発により、コンピュータ支援診断は診断の正確性と客観性を向上し、医師の作業量を減らす上で、ますます重要な役割を担っている。 しかし, 子宮内膜癌画像データセットの欠如は, コンピュータ支援診断技術の応用を制限している。本論文では, セマンティックセグメンテーション評価用PET/CT画像データセット(ECPC-IDS)を公表する。 具体的には、セグメンテーション部はPETおよびCT画像を含み、合計7159の画像を複数のフォーマットで表示する。 ECPC-IDSにおけるセグメンテーション手法の有効性を証明するため、画像セグメンテーションタスクをテストするために、5つの古典的なディープラーニングセグメンテーション手法を選択した。 オブジェクト検出部はまた、PETおよびCT画像を含み、合計3579の画像とアノテーション情報付きXMLファイルを含む。 本研究は、深層学習に基づくセマンティックセグメンテーションとオブジェクト検出手法を用いて、ECPC-IDSにおける様々な方法の違いを実証する広範囲な実験を行う。 われわれが知る限り、このデータセットは、多数の画像を持つ子宮内膜癌の最初の公開データセットであり、画像とターゲット検出に必要な大量の情報を含んでいる。 ecpc-idsは、研究者がコンピュータ支援技術を強化する新しいアルゴリズムを探求するのに役立つ。

Endometrial cancer is one of the most common tumors in the female reproductive system and is the third most common gynecological malignancy that causes death after ovarian and cervical cancer. Early diagnosis can significantly improve the 5-year survival rate of patients. With the development of artificial intelligence, computer-assisted diagnosis plays an increasingly important role in improving the accuracy and objectivity of diagnosis, as well as reducing the workload of doctors. However, the absence of publicly available endometrial cancer image datasets restricts the application of computer-assisted diagnostic techniques.In this paper, a publicly available Endometrial Cancer PET/CT Image Dataset for Evaluation of Semantic Segmentation and Detection of Hypermetabolic Regions (ECPC-IDS) are published. Specifically, the segmentation section includes PET and CT images, with a total of 7159 images in multiple formats. In order to prove the effectiveness of segmentation methods on ECPC-IDS, five classical deep learning semantic segmentation methods are selected to test the image segmentation task. The object detection section also includes PET and CT images, with a total of 3579 images and XML files with annotation information. Six deep learning methods are selected for experiments on the detection task.This study conduct extensive experiments using deep learning-based semantic segmentation and object detection methods to demonstrate the differences between various methods on ECPC-IDS. As far as we know, this is the first publicly available dataset of endometrial cancer with a large number of multiple images, including a large amount of information required for image and target detection. ECPC-IDS can aid researchers in exploring new algorithms to enhance computer-assisted technology, benefiting both clinical doctors and patients greatly.
翻訳日:2023-10-16 03:22:43 公開日:2023-10-11
# 専門家の負荷問題:高精度かつ手作業の少ないネットワーク

Expert load matters: operating networks at high accuracy and low manual effort ( http://arxiv.org/abs/2308.05035v2 )

ライセンス: Link先を確認
Sara Sangalli, Ertunc Erdil, Ender Konukoglu(参考訳) クリティカルなアプリケーションのための人間とAIのコラボレーションシステムでは、エラーを最小限に抑えるために、ユーザーは、決定がいつ人間の専門家に委譲されるべきかを判断するために、モデルの信頼性に基づいて運用ポイントを設定する必要がある。 モデル信頼性が運用ポイントよりも低いサンプルは、専門家が手動で分析し、ミスを避ける。 モデルが正確であるサンプルに対してのみ自信を持つべきであり、専門家に委譲されるサンプルの数は最小化されるべきである。 後者の側面は、医療など、利用可能な専門家時間が限られ、費用がかかるアプリケーションにとって特に重要です。 モデル精度と専門家に委譲されたサンプル数とのトレードオフは、信頼性演算特性(COC)曲線と呼ばれるROC曲線に類似した曲線で表すことができる。 本稿では,深部ニューラルネットワークは精度と専門的負荷の両方を考慮して訓練されるべきであり,そのために,このCOC曲線の下での面積を最大化する新たな補完的損失関数を提案する。 これは、ネットワークの精度の向上と、ヒトに委譲されたサンプル数の減少を同時に促進する。 分類のための複数のコンピュータビジョンと医用画像データセットで実験を行う。 その結果,提案した損失は分類精度を向上し,専門家に委譲し,分布外サンプルの検出や,既存の損失関数と比較してパーキャリブレーション性能が向上することを示した。

In human-AI collaboration systems for critical applications, in order to ensure minimal error, users should set an operating point based on model confidence to determine when the decision should be delegated to human experts. Samples for which model confidence is lower than the operating point would be manually analysed by experts to avoid mistakes. Such systems can become truly useful only if they consider two aspects: models should be confident only for samples for which they are accurate, and the number of samples delegated to experts should be minimized. The latter aspect is especially crucial for applications where available expert time is limited and expensive, such as healthcare. The trade-off between the model accuracy and the number of samples delegated to experts can be represented by a curve that is similar to an ROC curve, which we refer to as confidence operating characteristic (COC) curve. In this paper, we argue that deep neural networks should be trained by taking into account both accuracy and expert load and, to that end, propose a new complementary loss function for classification that maximizes the area under this COC curve. This promotes simultaneously the increase in network accuracy and the reduction in number of samples delegated to humans. We perform experiments on multiple computer vision and medical image datasets for classification. Our results demonstrate that the proposed loss improves classification accuracy and delegates less number of decisions to experts, achieves better out-of-distribution samples detection and on par calibration performance compared to existing loss functions.
翻訳日:2023-10-16 03:22:12 公開日:2023-10-11
# ニューラル多項式法による解釈可能な弾塑性モデルの発見と記号回帰

Discovering interpretable elastoplasticity models via the neural polynomial method enabled symbolic regressions ( http://arxiv.org/abs/2307.13149v3 )

ライセンス: Link先を確認
Bahador Bahmani, Hyoung Suk Suh and WaiChing Sun(参考訳) 従来のニューラルネットワークの弾塑性モデルは解釈性に欠けると見なされることが多い。 本稿では,人間の専門家が解釈可能な数学モデルを返す2段階機械学習手法を提案する。 特に,教師付き学習から得られる一変量特徴写像の集合を用いて,収率曲面を表現した代理モデルを提案する。 その後、後処理ステップを使用して、単変数ニューラルネットワークマッピング関数の集合を記号回帰によって数学的形式に再解釈する。 この分割と分割のアプローチは、いくつかの重要な利点を提供する。 まず、シンボリック回帰アルゴリズムのスケーリング問題を克服できます。 実用の観点からは、異なるプログラミング言語で記述された偏微分方程式解法に対する学習モデルの可搬性を高める。 最後に, モデルの凸性や対称性などの材料特性を, 自動導出や推論によって具体的に把握することを可能にする。 数値的な例が提供され、サードパーティのバリデーションを可能にするオープンソースコードも提供されている。

Conventional neural network elastoplasticity models are often perceived as lacking interpretability. This paper introduces a two-step machine learning approach that returns mathematical models interpretable by human experts. In particular, we introduce a surrogate model where yield surfaces are expressed in terms of a set of single-variable feature mappings obtained from supervised learning. A postprocessing step is then used to re-interpret the set of single-variable neural network mapping functions into mathematical form through symbolic regression. This divide-and-conquer approach provides several important advantages. First, it enables us to overcome the scaling issue of symbolic regression algorithms. From a practical perspective, it enhances the portability of learned models for partial differential equation solvers written in different programming languages. Finally, it enables us to have a concrete understanding of the attributes of the materials, such as convexity and symmetries of models, through automated derivations and reasoning. Numerical examples have been provided, along with an open-source code to enable third party validation.
翻訳日:2023-10-16 03:21:37 公開日:2023-10-11
# 量子コンピュータにおけるスペクトル関数評価のための量子テンソルネットワークアルゴリズム

Quantum tensor networks algorithms for evaluation of spectral functions on quantum computers ( http://arxiv.org/abs/2309.15165v2 )

ライセンス: Link先を確認
Michael L. Wall, Aidan Reilly, John S. Van Dyke, Collin Broholm, Paraj Titum(参考訳) 量子多体系の静的および動的性質をシミュレートするためにテンソルネットワークから派生した量子アルゴリズムを調べる。 量子テンソルネットワーク(QTN)と呼ぶ行列積状態(MPS)の逐次的に準備された量子回路表現を用いて、量子コンピュータ上で基底および励起状態を作成し、分子ナノマグネット(MNM)に適用するアルゴリズムをパラダイム的な例として示す。 本研究では、中性子散乱実験で測定されたスペクトル相関関数を抽出する2つの方法を開発する。 (a)波動関数の重なりの計算のためのSWAPテストの一般化 b) 行列積作用素(MPO)の概念を、ユニタリの線型結合を生成するQTN設定に一般化する。 後者の手法は変換不変なスピンハーフ系に対して詳細に議論されており、SWAP法と比較してキュービットリソースの要求を減らし、他の系に一般化することができる。 我々はスピン1/2とスピン-3/2 MNMをシミュレートし、後者がCr$^{3+}_8$環の実験的モデルであることを示す。 提案手法は,MPS表現の結合次元と対数的にのみスケールする多体系の構成成分数に依存しない量子ビット要件を持ち,中間回路計測とリセットによる短期量子ハードウェアの実装をアピールする。

We investigate quantum algorithms derived from tensor networks to simulate the static and dynamic properties of quantum many-body systems. Using a sequentially prepared quantum circuit representation of a matrix product state (MPS) that we call a quantum tensor network (QTN), we demonstrate algorithms to prepare ground and excited states on a quantum computer and apply them to molecular nanomagnets (MNMs) as a paradigmatic example. In this setting, we develop two approaches for extracting the spectral correlation functions measured in neutron scattering experiments: (a) a generalization of the SWAP test for computing wavefunction overlaps and, (b) a generalization of the notion of matrix product operators (MPOs) to the QTN setting which generates a linear combination of unitaries. The latter method is discussed in detail for translationally invariant spin-half systems, where it is shown to reduce the qubit resource requirements compared with the SWAP method, and may be generalized to other systems. We demonstrate the versatility of our approaches by simulating spin-1/2 and spin-3/2 MNMs, with the latter being an experimentally relevant model of a Cr$^{3+}_8$ ring. Our approach has qubit requirements that are independent of the number of constituents of the many-body system and scale only logarithmically with the bond dimension of the MPS representation, making them appealing for implementation on near-term quantum hardware with mid-circuit measurement and reset.
翻訳日:2023-10-16 03:12:40 公開日:2023-10-11
# ホモトピー, 対称性, 非エルミートバンドトポロジー

Homotopy, Symmetry, and Non-Hermitian Band Topology ( http://arxiv.org/abs/2309.14416v2 )

ライセンス: Link先を確認
Kang Yang, Zhi Li, J. Lukas K. K\"onig, Lukas R{\o}dland, Marcus St{\aa}lhammar, Emil J. Bergholtz(参考訳) 非エルミート行列は、光学、電気、機械的なメタマテリアルを含む古典的な散逸系から波の散乱や量子多体系まで、自然の記述において普遍的である。 直線と点のギャップに基づく非エルミート系のseminal k-理論の分類は多くの物理現象の理解を深めた。 基準点と線は一般に、複数の非エルミートバンドがバンド交差とブレイドを示すかどうかを区別できない。 これを解決するために、非エルミートバンドギャップと分離ギャップの補完的な概念を考慮し、多バンドシナリオの幅広いクラスを含むことを重要視し、対称性を持つ総称バンド構造の記述を可能にする。 これらの概念により、ホモトピー理論を用いた物理的に関連するパリティ時間(\mathcal{pt}$)と擬似エルミート対称性の存在下で、ガッピング系とノーダル系の統一的かつ体系的な分類を提供する。 これは新しい脆弱な位相を明らかにし、また驚くべきことに、固有値と固有ベクトルの両方の位相から生じる新しい安定な現象を暗示する。 特に、フレームおよびブレイド位相によって記述された$\mathcal{PT}$-対称系において、アベリア位相と非アベリア位相が異なる。 対応する不変量は、バンドギャップを閉じない対称性保存摂動に頑健であり、また、節相の変形規則も予測する。 さらに、自発$\mathcal{PT}$対称性の破れは、前例のない非エルミート位相の指紋であるチャーン・オイラーの記述によってもたらされることを示した。 これらの結果は、様々な物理プラットフォームで様々な新しい位相現象を理論的、実験的に探索するための扉を開く。

Non-Hermitian matrices are ubiquitous in the description of nature ranging from classical dissipative systems, including optical, electrical, and mechanical metamaterials, to scattering of waves and open quantum many-body systems. Seminal K-theory classifications of non-Hermitian systems based on line and point gaps have deepened the understanding of many physical phenomena. However, ample systems remain beyond this description; reference points and lines are in general unable to distinguish whether multiple non-Hermitian bands exhibit band crossings and braids. To remedy this we consider the complementary notions of non-Hermitian band gaps and separation gaps that crucially include a broad class of multi-band scenarios, enabling the description of generic band structures with symmetries. With these concepts, we provide a unified and systematic classification of both gapped and nodal systems in the presence of physically relevant parity-time ($\mathcal{PT}$) and pseudo-Hermitian symmetries using homotopy theory. This uncovers new fragile phases and, remarkably, also implies new stable phenomena stemming from the topology of both eigenvalues and eigenvectors. In particular, we reveal different Abelian and non-Abelian phases in $\mathcal{PT}$-symmetric systems, described by frame and braid topology. The corresponding invariants are robust to symmetry-preserving perturbations that do not close band gaps, and they also predict the deformation rules of nodal phases. We further demonstrate that spontaneous $\mathcal{PT}$ symmetry breaking is captured by a Chern-Euler description, a fingerprint of unprecedented non-Hermitian topology. These results open the door for theoretical and experimental exploration of a rich variety of novel topological phenomena in a wide range of physical platforms.
翻訳日:2023-10-16 03:12:15 公開日:2023-10-11
# 2次元幾何学における2つの原子の収束系における放射と角の相関について

On Radial and Angular Correlations in a Confined System of Two Atoms in a Two-Dimensional Geometry ( http://arxiv.org/abs/2309.14116v2 )

ライセンス: Link先を確認
Przemys{\l}aw Ko\'scik(参考訳) 有限次元ソフトコア相互作用を持つ等方性2次元調和トラップにおける2つの原子間の基底状態相関について検討した。 本研究は、反発力の場合、波動関数は相互作用の範囲に関係なく、半径成分と角成分の積として近似できることを示した。 これにより粒子相関を半径と角の相関に分離することができ、独立して解析することができる。 しかし、各サブシステムにはシステムパラメータに強く依存する相関関係が残っている。 その結果,半径相関は角相関よりも一般的に弱いことがわかった。 また,アトラクションの場合の粒子相関についても若干の観察を行った。

We study the ground-state correlations between two atoms in an isotropic two-dimensional harmonic trap with finite-range soft-core interactions. Our study shows that in the case of repulsive forces, the wave function can be approximated as the product of the radial and angular components, regardless of the range of the interaction. This allows the separation of particle correlations into radial and angular correlations, which can be analyzed independently. However, there are still correlations in each subsystem that are strongly dependent on the system parameters. The results show that radial correlations are generally weaker than angular correlations. We have also made some observations about particle correlations in the case of attraction.
翻訳日:2023-10-16 03:11:41 公開日:2023-10-11
# フェルミオン位置空間 Schr\\odinger 方程式を用いた断熱量子計算

Adiabatic Quantum Computation with the Fermionic Position Space Schr\"odinger Equation ( http://arxiv.org/abs/2309.08101v2 )

ライセンス: Link先を確認
Kenneth S. McElvain(参考訳) フェルミオンシュル=オディンガー方程式をスピン系ハミルトニアンとして効率的なエンコーディングは、長期的な問題である。 局所ポテンシャルを持つ有限体積周期格子上のフェルミオン的位置空間 schr\"odinger 方程式の符号化について述べる。 建設の難しい部分は運動エネルギー演算子の実装であり、これは本質的にラプラシアンである。 格子上の有限差分実装は、フェルミオン交換対称性が複雑である隣接する格子サイトからの寄与を結合する。 ここで開発された2つの独立して有用な技術は、演算子フィルタリングと絡み合わせガジェットである。 作用素フィルタリングは、ヒルベルト空間の部分空間に作用する単純作用素が所望の相互作用を持つときに有用である。 部分空間の補空間の占有抑制は、演算子の望まないコントリビューションをフィルタリングする。 エンタングルメントガジェットは同じ情報を2セットのキュービットで異なる方法でエンコードする。 次に、量子ビットに作用する演算子の最も効率的な符号化を独立に選択することができる。 ここで述べられているラプラシアンの構成は、有界パウリ重みの項で$\mathcal{O}\left(An 2^D\right)$コストを持ち、$A$は同一スピンレスフェルミオンの数、$N=2^n$は各方向の格子点の数、$D$は次元の数である。 有限体積コンテキストは基底状態と第1励起状態の間のギャップを保護し、ボックスサイズに多項式時間複雑性をもたらす。

The efficient encoding of the fermionic Schr\"odinger equation as a spin system Hamiltonian is a long-term problem. I describe an encoding for the fermionic position space Schr\"odinger equation on a finite-volume periodic lattice with a local potential. The challenging part of the construction is the implementation of the kinetic energy operator, which is essentially the Laplacian. The finite difference implementation on the lattice combines contributions from neighboring lattice sites, which is complicated by fermionic exchange symmetry. Two independently useful techniques developed here are operator filtering and entanglement gadgets. Operator filtering is useful when a simple operator acting on a subspace of the full Hilbert space has a desired set of interactions. Occupation suppression of the complement of the subspace then filters away unwanted contributions of the operator. Entanglement gadgets encode the same information differently in two sets of qubits. We may then independently choose the most efficient encoding for operators acting on the qubits. The construction for the Laplacian described here has $\mathcal{O}\left(An 2^D\right)$ cost in bounded Pauli weight terms where $A$ is the number of identical spinless fermions, $N=2^n$ is the number of lattice points in each direction, and $D$ is the number of dimensions. The finite volume context protects the gap between the ground state and the first excited state, yielding polynomial time complexity with the box size.
翻訳日:2023-10-16 03:11:08 公開日:2023-10-11
# 脳コンピューターインタフェースにおける位相同期成分自己組織化

Phase Synchrony Component Self-Organization in Brain Computer Interface ( http://arxiv.org/abs/2310.03748v3 )

ライセンス: Link先を確認
Xu Niu, Na Lu, Huan Luo and Ruofan Yan(参考訳) 相同期情報は機能的脳接続の分析や脳活動の同定において重要な役割を果たす。 前処理、脳波取得チャネルの選択、位相ロック値(PLV)計算からなる広く採用されている特徴抽出パイプラインは、運動画像分類(MI)において成功している。 しかしながら、このパイプラインは手動で専門家の知識に依存しており、その利便性と適応性を異なるアプリケーションシナリオに制限している。 さらに、多くの研究では、ノイズを抑制するために中間データ非依存空間フィルタを用いており、より重要な位相同期現象の探索を妨げている。 そこで本稿では,前処理とチャネル選択の両方を自動化したデータ依存空間フィルタの適応学習を可能にする,位相同期コンポーネント自己組織化の概念を提案する。 この概念に基づいて、生の脳波信号から位相同期に基づく特徴を直接抽出し、分類を行う、最初のディープラーニングエンドツーエンドネットワークを開発した。 ネットワークはトレーニング中に最適なフィルタを学習し、ネットワークがピーク分類結果を達成すると得られる。 我々のネットワークは最先端の手法よりも優れています。 驚くべきことに、学習した最適フィルタにより、重要な位相同期現象が観察できる。 具体的には,2つの空間フィルタを用いて各試料から抽出した1対の信号間のPLVを計算することにより,各舌MIサンプルの平均PLVが0.87を超える値を得た。 この高いPLVは舌MIの同期パターンにおける画期的な発見を示す。

Phase synchrony information plays a crucial role in analyzing functional brain connectivity and identifying brain activities. A widely adopted feature extraction pipeline, composed of preprocessing, selection of EEG acquisition channels, and phase locking value (PLV) calculation, has achieved success in motor imagery classification (MI). However, this pipeline is manual and reliant on expert knowledge, limiting its convenience and adaptability to different application scenarios. Moreover, most studies have employed mediocre data-independent spatial filters to suppress noise, impeding the exploration of more significant phase synchronization phenomena. To address the issues, we propose the concept of phase synchrony component self-organization, which enables the adaptive learning of data-dependent spatial filters for automating both the preprocessing and channel selection procedures. Based on this concept, the first deep learning end-to-end network is developed, which directly extracts phase synchrony-based features from raw EEG signals and perform classification. The network learns optimal filters during training, which are obtained when the network achieves peak classification results. Extensive experiments have demonstrated that our network outperforms state-of-the-art methods. Remarkably, through the learned optimal filters, significant phase synchronization phenomena can be observed. Specifically, by calculating the PLV between a pair of signals extracted from each sample using two of the learned spatial filters, we have obtained an average PLV exceeding 0.87 across all tongue MI samples. This high PLV indicates a groundbreaking discovery in the synchrony pattern of tongue MI.
翻訳日:2023-10-16 03:03:01 公開日:2023-10-11
# 咬合下のビデオトランスフォーマー:物理と背景がロボット操作の大規模モデルに与える影響

Video Transformers under Occlusion: How Physics and Background Attributes Impact Large Models for Robotic Manipulation ( http://arxiv.org/abs/2310.02044v2 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Muhammad Zahid and Florian T. Pokorny(参考訳) トランスフォーマーアーキテクチャとデータセットサイズが拡大を続けるにつれ、モデルパフォーマンスに影響を与える特定のデータセット要因を理解する必要性が高まっている。 本稿では, 物体物理特性(色, 摩擦係数, 形状)と背景特性(静的, 動的, 背景複雑さ)が, 障害物予測タスクにおけるビデオトランスフォーマーの性能に与える影響について検討する。 物体物理学的属性と背景特性はモデルの性能にどのように影響するか? モデル一般化に最も影響を与える属性は何か? 1つのタスクで大きなトランスフォーマーモデルのパフォーマンスにデータ飽和点があるだろうか? そこで,本研究では,異なる物理と背景を持つ物体の46万の一貫した記録からなる実世界ビデオベース・プッシュ・データセットであるocclumanipを提案する。 1.4 tb, フレキシブルな時間長の1278時間の高画質映像と対象物軌跡を収集し, 時間的要件の異なるタスクに適応した。 さらに,OccluManipが提供する18のサブデータセットすべてに対して,平均96%の精度でビデオ変換を行う汎用ビデオ変換器(VOT)を提案する。 OccluManip と VOT は https://github.com/ShutongJIN/OccluManip.git でリリースされる。

As transformer architectures and dataset sizes continue to scale, the need to understand the specific dataset factors affecting model performance becomes increasingly urgent. This paper investigates how object physics attributes (color, friction coefficient, shape) and background characteristics (static, dynamic, background complexity) influence the performance of Video Transformers in trajectory prediction tasks under occlusion. Beyond mere occlusion challenges, this study aims to investigate three questions: How do object physics attributes and background characteristics influence the model performance? What kinds of attributes are most influential to the model generalization? Is there a data saturation point for large transformer model performance within a single task? To facilitate this research, we present OccluManip, a real-world video-based robot pushing dataset comprising 460,000 consistent recordings of objects with different physics and varying backgrounds. 1.4 TB and in total 1278 hours of high-quality videos of flexible temporal length along with target object trajectories are collected, accommodating tasks with different temporal requirements. Additionally, we propose Video Occlusion Transformer (VOT), a generic video-transformer-based network achieving an average 96% accuracy across all 18 sub-datasets provided in OccluManip. OccluManip and VOT will be released at: https://github.com/ShutongJIN/OccluManip.git
翻訳日:2023-10-16 03:01:55 公開日:2023-10-11
# 疑似回路圧縮における絡み合いの役割について

On the role of entanglement in qudit-based circuit compression ( http://arxiv.org/abs/2209.14584v2 )

ライセンス: Link先を確認
Xiaoqin Gao, Paul Appel, Nicolai Friis, Martin Ringbauer, Marcus Huber(参考訳) ゲートベースの普遍量子計算は、2つのタイプの演算で定式化されている: 局所的な単一量子ビットゲートは一般的に実装が容易であり、その忠実な実装は個々のシステム間の制御相互作用を必要とするため、主要な実験課題の1つである。 量子ハードウェアを活用するためには、情報を最も効率的な方法で処理することが不可欠である。 有望な道の1つは、量子情報の基本的な単位として高次元の系quditsを使い、量子ビットに絡むゲートのほんの一部をqudit-localゲートに置き換えることである。 本稿では,quditエンコーディングを用いることで,マルチキュービット回路の複雑性を大幅に低下させることができることを示す。 回路圧縮の一般的な原理を議論し,実現可能な利点の上限と下限を導出し,絡み合いと利用可能なゲート集合が果たす役割を強調する。 フォトニックおよびトラップイオン実装のための実験的スキームが提供され、両方のプラットフォームで回路性能が大幅に向上することを示す。

Gate-based universal quantum computation is formulated in terms of two types of operations: local single-qubit gates, which are typically easily implementable, and two-qubit entangling gates, whose faithful implementation remains one of the major experimental challenges since it requires controlled interactions between individual systems. To make the most of quantum hardware it is crucial to process information in the most efficient way. One promising avenue is to use higher-dimensional systems, qudits, as the fundamental units of quantum information, in order to replace a fraction of the qubit-entangling gates with qudit-local gates. Here, we show how the complexity of multi-qubit circuits can be lowered significantly by employing qudit encodings, which we quantify by considering exemplary circuits with exactly known (multi-qubit) gate complexity. We discuss general principles for circuit compression, derive upper and lower bounds on the achievable advantage, and highlight the key role played by entanglement and the available gate set. Explicit experimental schemes for photonic as well as for trapped-ion implementations are provided and demonstrate a significant expected gain in circuit performance for both platforms.
翻訳日:2023-10-15 15:38:11 公開日:2023-10-11
# ビジュアルおよびオブジェクトのジオローカライゼーション:総合的な調査

Visual and Object Geo-localization: A Comprehensive Survey ( http://arxiv.org/abs/2112.15202v2 )

ライセンス: Link先を確認
Daniel Wilson, Xiaohan Zhang, Waqas Sultani, Safwan Wshah(参考訳) ジオローカライゼーション(Geo-localization)とは、地球上の「中心」の位置を決定する過程のことであり、一般的にはGPS座標を用いている。 興味のある実体は、画像、画像のシーケンス、ビデオ、衛星画像、さらには画像内で見えるものであってもよい。 スマートフォンやインターネットによって、GPSタグ付きメディアの膨大なデータセットが急速に利用できるようになるとともに、ディープラーニングが機械学習モデルの性能向上に寄与しているため、拡張現実、ロボティクス、自動運転車、道路整備、そして3D再構築など、幅広いアプリケーションに多大な影響を与えている、視覚的および物体的地理的ローカライゼーションの分野が出現している。 本稿では,画像中の画像の取得場所(画像の局所化)と画像内の物体の局所化(オブジェクトの局所化)のいずれかを決定することにより,画像の局所化に関する総合的な調査を行う。 一般的なアルゴリズムの概要、提案されたデータセットの説明、および各フィールドの現在の状態を説明するためのパフォーマンス結果の分析を含む、詳細な研究を行う。

The concept of geo-localization refers to the process of determining where on earth some `entity' is located, typically using Global Positioning System (GPS) coordinates. The entity of interest may be an image, sequence of images, a video, satellite image, or even objects visible within the image. As massive datasets of GPS tagged media have rapidly become available due to smartphones and the internet, and deep learning has risen to enhance the performance capabilities of machine learning models, the fields of visual and object geo-localization have emerged due to its significant impact on a wide range of applications such as augmented reality, robotics, self-driving vehicles, road maintenance, and 3D reconstruction. This paper provides a comprehensive survey of geo-localization involving images, which involves either determining from where an image has been captured (Image geo-localization) or geo-locating objects within an image (Object geo-localization). We will provide an in-depth study, including a summary of popular algorithms, a description of proposed datasets, and an analysis of performance results to illustrate the current state of each field.
翻訳日:2023-10-15 15:35:58 公開日:2023-10-11
# 視覚質問応答のための事前学習モデル圧縮とデバイアス

Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering ( http://arxiv.org/abs/2210.14558v2 )

ライセンス: Link先を確認
Qingyi Si, Yuanxin Liu, Zheng Lin, Peng Fu and Weiping Wang(参考訳) 従来のVQAタスクにおける視覚言語事前学習モデル(VLP)の性能は優れているが、それでも2つの問題に悩まされている。 第二に、メモリフットプリントと計算の点で非効率である。 どちらの問題にも有望な進展があったが、既存の作業の多くは独立して対処している。 VLPのVQAタスクへの適用を容易にするため、VLP圧縮とOODロバスト性について共同研究することが不可欠であるが、まだ検討されていない。 本稿では, スパースとロバストなサブネットを探索することにより, VLPを同時に圧縮・脱バイアスできるかどうかを検討する。 この目的のために,サブネットワークを探索するためのトレーニングおよび圧縮パイプラインの設計と,異なるモダリティ固有のモジュールへのスパーシティの割り当てを体系的に検討する。 実験では,3つのvlp,2つの圧縮方法,4つのトレーニング方法,2つのデータセット,さまざまなスパーシティレベルとランダムシードを用いた。 以上の結果から, 完全VLPと競合し, OODデータセットのVQA-CP v2とVQA-VSのパラメータが少なく, 脱バイアスのSOTAよりも明らかに優れる, スパース・ロバストなサブネットワークが存在することが明らかとなった。 コードはhttps://github.com/PhoebusSi/Compress-Robust-VQAで見ることができる。

Despite the excellent performance of vision-language pre-trained models (VLPs) on conventional VQA task, they still suffer from two problems: First, VLPs tend to rely on language biases in datasets and fail to generalize to out-of-distribution (OOD) data. Second, they are inefficient in terms of memory footprint and computation. Although promising progress has been made in both problems, most existing works tackle them independently. To facilitate the application of VLP to VQA tasks, it is imperative to jointly study VLP compression and OOD robustness, which, however, has not yet been explored. This paper investigates whether a VLP can be compressed and debiased simultaneously by searching sparse and robust subnetworks. To this end, we systematically study the design of a training and compression pipeline to search the subnetworks, as well as the assignment of sparsity to different modality-specific modules. Our experiments involve 3 VLPs, 2 compression methods, 4 training methods, 2 datasets and a range of sparsity levels and random seeds. Our results show that there indeed exist sparse and robust subnetworks, which are competitive with the debiased full VLP and clearly outperform the debiasing SoTAs with fewer parameters on OOD datasets VQA-CP v2 and VQA-VS. The codes can be found at https://github.com/PhoebusSi/Compress-Robust-VQA.
翻訳日:2023-10-15 15:26:28 公開日:2023-10-11
# 1次ノルム+線形自己回帰としてのイメージ:数学的不変性を明らかにする

Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical Invariance ( http://arxiv.org/abs/2305.16319v2 )

ライセンス: Link先を確認
Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu Yuan and Zicheng Liu and Youzuo Lin(参考訳) 本稿では,FINOLA(First-Order Norm+Linear Autoregressive)と呼ばれる多様な画像に適用可能な新しい数学的特性を紹介する。 FINOLAは、遅延空間内の各画像を1次自己回帰過程として表現し、各回帰ステップはその近傍の正規化値に共有線形モデルを単純に適用する。 この興味深い性質は、個々の画像を超越する数学的不変性を明らかにする。 画像グリッドから連続座標へと拡張し、基礎となる2つの偏微分方程式の存在を明らかにする。 画像再構成と自己教師型学習の2つの異なる角度からFINOLA特性を検証する。 まず、finolaが256x256の機能マップ(画像と同じ解像度)を中央に配置し、デコーダとして3つの3x3畳み込み層のみを使用して元の画像の再構築に成功したことを実証する。 次に、簡単なマスク付き予測手法を用いて、FINOLAを自己教師型学習に活用する。 マスクのない1つのクアドラントブロックを符号化し、周囲のマスキング領域を自動回帰予測する。 驚くべきことに、この事前学習された表現は、画像分類やオブジェクト検出タスクにおいて非常に効果的である。 コードは公開される予定だ。

This paper introduces a novel mathematical property applicable to diverse images, referred to as FINOLA (First-Order Norm+Linear Autoregressive). FINOLA represents each image in the latent space as a first-order autoregressive process, in which each regression step simply applies a shared linear model on the normalized value of its immediate neighbor. This intriguing property reveals a mathematical invariance that transcends individual images. Expanding from image grids to continuous coordinates, we unveil the presence of two underlying partial differential equations. We validate the FINOLA property from two distinct angles: image reconstruction and self-supervised learning. Firstly, we demonstrate the ability of FINOLA to auto-regress up to a 256x256 feature map (the same resolution to the image) from a single vector placed at the center, successfully reconstructing the original image by only using three 3x3 convolution layers as decoder. Secondly, we leverage FINOLA for self-supervised learning by employing a simple masked prediction approach. Encoding a single unmasked quadrant block, we autoregressively predict the surrounding masked region. Remarkably, this pre-trained representation proves highly effective in image classification and object detection tasks, even when integrated into lightweight networks, all without the need for extensive fine-tuning. The code will be made publicly available.
翻訳日:2023-10-15 15:19:42 公開日:2023-10-11
# MAPConNet:メッシュとポイントコントラスト学習による自己教師型3Dポッド転送

MAPConNet: Self-supervised 3D Pose Transfer with Mesh and Point Contrastive Learning ( http://arxiv.org/abs/2304.13819v2 )

ライセンス: Link先を確認
Jiaze Sun, Zhixiang Chen, Tae-Kyun Kim(参考訳) 3次元ポーズ転送は、ソースジオメトリのポーズを、ターゲットアイデンティティを保持するターゲットジオメトリに転送することを目的とした、困難な生成タスクである。 多くの事前メソッドは、ソースとターゲットの対応を見つけるためにキーポイントアノテーションを必要とする。 現在のポーズ転送はエンドツーエンドの対応学習を可能にするが、監督のための基礎的真実として望ましい最終出力を必要とする。 グラフ畳み込みモデルでは教師なしの手法が提案されているが、これらはソースとターゲットの入力の間の基底真理対応を必要とする。 本稿では,非教師付き,半教師付き,あるいは完全な教師付き設定で,通信ラベルを使わずに訓練可能な,新しい3次元ポーズ転送フレームワークを提案する。 ポーズやアイデンティティを含むグローバルなパターンを混同するためのメッシュレベルの損失と、局所的な意味論を識別するためのポイントレベルの損失である。 提案手法は,教師付き3次元ポーズ転送において,教師なしおよび半教師付き設定において同等の結果が得られたことを定量的かつ定性的に示す。 また,本手法は複雑なトポロジを持つヒト・動物データにも適用可能である。

3D pose transfer is a challenging generation task that aims to transfer the pose of a source geometry onto a target geometry with the target identity preserved. Many prior methods require keypoint annotations to find correspondence between the source and target. Current pose transfer methods allow end-to-end correspondence learning but require the desired final output as ground truth for supervision. Unsupervised methods have been proposed for graph convolutional models but they require ground truth correspondence between the source and target inputs. We present a novel self-supervised framework for 3D pose transfer which can be trained in unsupervised, semi-supervised, or fully supervised settings without any correspondence labels. We introduce two contrastive learning constraints in the latent space: a mesh-level loss for disentangling global patterns including pose and identity, and a point-level loss for discriminating local semantics. We demonstrate quantitatively and qualitatively that our method achieves state-of-the-art results in supervised 3D pose transfer, with comparable results in unsupervised and semi-supervised settings. Our method is also generalisable to unseen human and animal data with complex topologies.
翻訳日:2023-10-15 15:18:48 公開日:2023-10-11
# NDCシーン:正規化デバイス座標空間における単分子3次元セマンティックシーン補完

NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space ( http://arxiv.org/abs/2309.14616v3 )

ライセンス: Link先を確認
Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Wanli Ouyang and Hongsheng Li(参考訳) SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑な意味や幾何学的形状を予測し、3D入力を必要としないため、近年注目されている。 本稿では,3次元空間への投影された2次元特徴のあいまいさ,3次元畳み込みのポーズあいまいさ,奥行きの異なる3次元畳み込みにおける計算の不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。 これらの問題に対処するために,デコンボリューション操作による深度次元の漸進的復元により,2次元特徴写像を世界空間に直接ではなく,正規化デバイスコーディネート(NDC)空間へ直接拡張する新しいシーンコンプリートネットワーク(NDC-Scene)を考案した。 実験の結果, 対象の3次元空間から提案する正規化デバイス座標への計算のほとんどを移動させることで, 単眼sscタスクが有効となることがわかった。 さらに,2次元特徴マップと3次元特徴マップを同時に重ね合わせて融合させる奥行き適応型デュアルデコーダの設計を行い,全体的な性能をさらに向上した。 提案手法は,屋外のセマンティックKITTIと屋内のNYUv2データセットの両方において,常に最先端の手法より優れていることを確認した。 私たちのコードはhttps://github.com/Jiawei-Yao0812/NDCSceneで公開されています。

Monocular 3D Semantic Scene Completion (SSC) has garnered significant attention in recent years due to its potential to predict complex semantics and geometry shapes from a single image, requiring no 3D inputs. In this paper, we identify several critical issues in current state-of-the-art methods, including the Feature Ambiguity of projected 2D features in the ray to the 3D space, the Pose Ambiguity of the 3D convolution, and the Computation Imbalance in the 3D convolution across different depth levels. To address these problems, we devise a novel Normalized Device Coordinates scene completion network (NDC-Scene) that directly extends the 2D feature map to a Normalized Device Coordinates (NDC) space, rather than to the world space directly, through progressive restoration of the dimension of depth with deconvolution operations. Experiment results demonstrate that transferring the majority of computation from the target 3D space to the proposed normalized device coordinates space benefits monocular SSC tasks. Additionally, we design a Depth-Adaptive Dual Decoder to simultaneously upsample and fuse the 2D and 3D feature maps, further improving overall performance. Our extensive experiments confirm that the proposed method consistently outperforms state-of-the-art methods on both outdoor SemanticKITTI and indoor NYUv2 datasets. Our code are available at https://github.com/Jiawei-Yao0812/NDCScene.
翻訳日:2023-10-15 15:08:06 公開日:2023-10-11
# rmt: 注意ネットワークが視覚トランスフォーマーに対応

RMT: Retentive Networks Meet Vision Transformers ( http://arxiv.org/abs/2309.11523v2 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He(参考訳) Transformerは自然言語処理の分野で最初に登場し、後にコンピュータビジョン領域に移行し、視覚タスクにおける優れたパフォーマンスを示す。 しかし、最近、Retentive Network(RetNet)はTransformerを置き換える可能性のあるアーキテクチャとして登場し、NLPコミュニティで広く注目を集めている。 したがって、retnetのアイデアをビジョンに移すことが視覚タスクに優れたパフォーマンスをもたらすかどうかという疑問を提起する。 これを解決するために、RetNetとTransformerを組み合わせてRTTを提案する。 retnetにインスパイアされたrmtは、視覚バックボーンに明示的な減衰を導入し、視覚モデルに空間距離に関する事前知識をもたらす。 この距離に関連する空間的事前は、各トークンが参加できるトークンの範囲を明確に制御することができる。 さらに,大域モデリングの計算コストを低減するため,画像の2つの座標軸に沿ってこのモデリングプロセスを分解する。 冗長な実験により、RTTは様々なコンピュータビジョンタスクにおいて例外的な性能を示した。 例えば、rmt は 4.5g のフロップを用いて imagenet-1k 上で 84.1% の top1-acc を達成している。 我々の知る限りでは、RTTはモデルが同じサイズで同じ戦略で訓練された場合、トップ1-accを達成しています。 さらにRTTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおいて、既存のビジョンバックボーンを著しく上回る。 私たちの仕事はまだ進行中です。

Transformer first appears in the field of natural language processing and is later migrated to the computer vision domain, where it demonstrates excellent performance in vision tasks. However, recently, Retentive Network (RetNet) has emerged as an architecture with the potential to replace Transformer, attracting widespread attention in the NLP community. Therefore, we raise the question of whether transferring RetNet's idea to vision can also bring outstanding performance to vision tasks. To address this, we combine RetNet and Transformer to propose RMT. Inspired by RetNet, RMT introduces explicit decay into the vision backbone, bringing prior knowledge related to spatial distances to the vision model. This distance-related spatial prior allows for explicit control of the range of tokens that each token can attend to. Additionally, to reduce the computational cost of global modeling, we decompose this modeling process along the two coordinate axes of the image. Abundant experiments have demonstrated that our RMT exhibits exceptional performance across various computer vision tasks. For example, RMT achieves 84.1% Top1-acc on ImageNet-1k using merely 4.5G FLOPs. To the best of our knowledge, among all models, RMT achieves the highest Top1-acc when models are of similar size and trained with the same strategy. Moreover, RMT significantly outperforms existing vision backbones in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Our work is still in progress.
翻訳日:2023-10-15 15:07:25 公開日:2023-10-11
# 対スプーフィングのためのサリエンシーに基づくビデオ要約

Saliency-based Video Summarization for Face Anti-spoofing ( http://arxiv.org/abs/2308.12364v2 )

ライセンス: Link先を確認
Usman Muhammad, Mourad Oussalah, and Jorma Laaksonen(参考訳) 顔提示アタック検出のためのデータベースの可用性が高まる中、研究者はモデルのトレーニングに数百から数千の画像を必要とするビデオベースのフェイスアンチスプーフィング手法にますます注力している。 しかし、現在、顔のスプーフィング検出を改善するためにビデオ内のフレーム数について明確なコンセンサスはない。 視覚的サリエンシ理論に着想を得て,視覚的サリエンシを利用してディープラーニングモデルの性能と効率を向上させることを目的とした,顔の反偽造検出のための映像要約手法を提案する。 特に、ソース画像のラプラシアンとウィーナーフィルタの出力の違いからサリエンシー情報を抽出し、各フレーム内の最も視覚的なサリエント領域の識別を可能にする。 その後、ソース画像がベース画像およびディテール画像に分解され、最も重要な情報の表現が強化される。 重み付けマップは、画像中の各ピクセルの重要性を示す唾液度情報に基づいて計算される。 重み付けマップを用いてベース画像とディテール画像を線形に結合することにより、映像全体を要約した単一の代表画像を生成する。 提案手法の主な貢献は、顔提示攻撃検出の性能と効率を向上させるために、データ中心のアプローチとして視覚的サリエンシをいかに活用できるかを示すことである。 画像内の最も優れた画像や領域に集中することで、より代表的で多様なトレーニングセットが作成でき、より効果的なモデルにつながる可能性がある。 提案手法の有効性を検証するために,簡単なcnn-rnn深層学習アーキテクチャを用い,5つの挑戦的対スプーフィングデータセットにおける最先端性能を実証した。

With the growing availability of databases for face presentation attack detection, researchers are increasingly focusing on video-based face anti-spoofing methods that involve hundreds to thousands of images for training the models. However, there is currently no clear consensus on the optimal number of frames in a video to improve face spoofing detection. Inspired by the visual saliency theory, we present a video summarization method for face anti-spoofing detection that aims to enhance the performance and efficiency of deep learning models by leveraging visual saliency. In particular, saliency information is extracted from the differences between the Laplacian and Wiener filter outputs of the source images, enabling identification of the most visually salient regions within each frame. Subsequently, the source images are decomposed into base and detail images, enhancing the representation of the most important information. Weighting maps are then computed based on the saliency information, indicating the importance of each pixel in the image. By linearly combining the base and detail images using the weighting maps, the method fuses the source images to create a single representative image that summarizes the entire video. The key contribution of the proposed method lies in demonstrating how visual saliency can be used as a data-centric approach to improve the performance and efficiency for face presentation attack detection. By focusing on the most salient images or regions within the images, a more representative and diverse training set can be created, potentially leading to more effective models. To validate the method's effectiveness, a simple CNN-RNN deep learning architecture was used, and the experimental results showcased state-of-the-art performance on five challenging face anti-spoofing datasets
翻訳日:2023-10-15 15:06:34 公開日:2023-10-11
# SYRAC: 合成、ランク、カウント

SYRAC: Synthesize, Rank, and Count ( http://arxiv.org/abs/2310.01662v3 )

ライセンス: Link先を確認
Adriano D'Alessandro, Ali Mahdavi-Amiri and Ghassan Hamarneh(参考訳) クラウドカウントはコンピュータビジョンにおいて重要なタスクであり、いくつかの重要な応用がある。 しかし、既存の計数法は労働集約密度マップアノテーションに依存しており、個々の歩行者の手動位置決めを必要とする。 近年、弱い学習や半教師あり学習によるアノテーションの負担軽減が試みられているが、これらのアプローチは作業負荷を大幅に削減するものではない。 本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する手法を提案する。 しかし、これらのモデルはオブジェクトの量を確実に理解するのに苦労しており、特定の量のオブジェクトで画像を生成すると、ノイズの多いアノテーションが発生する。 これを解決するために、潜伏拡散モデルを用いて、実際の画像から歩行者を除去し、弱いが信頼性の高い物体量信号でランク付けされた画像対を生成し、また、所定の数の物体で合成画像を生成し、強いがノイズの多い計数信号を提供する2種類の合成データを生成する。 本手法では,事前学習にランキング画像ペアを活用し,群集量特徴を用いたノイズ合成画像に線形層を適合させる。 教師なしの群衆数に対する最先端の成果を報告する。

Crowd counting is a critical task in computer vision, with several important applications. However, existing counting methods rely on labor-intensive density map annotations, necessitating the manual localization of each individual pedestrian. While recent efforts have attempted to alleviate the annotation burden through weakly or semi-supervised learning, these approaches fall short of significantly reducing the workload. We propose a novel approach to eliminate the annotation burden by leveraging latent diffusion models to generate synthetic data. However, these models struggle to reliably understand object quantities, leading to noisy annotations when prompted to produce images with a specific quantity of objects. To address this, we use latent diffusion models to create two types of synthetic data: one by removing pedestrians from real images, which generates ranked image pairs with a weak but reliable object quantity signal, and the other by generating synthetic images with a predetermined number of objects, offering a strong but noisy counting signal. Our method utilizes the ranking image pairs for pre-training and then fits a linear layer to the noisy synthetic images using these crowd quantity features. We report state-of-the-art results for unsupervised crowd counting.
翻訳日:2023-10-15 14:56:52 公開日:2023-10-11
# 変分損失型オートエンコーダによる教師なし構造ノイズ除去

Unsupervised Structured Noise Removal with Variational Lossy Autoencoder ( http://arxiv.org/abs/2310.07887v1 )

ライセンス: Link先を確認
Benjamin Salmon and Alexander Krull(参考訳) ほとんどの教師なしデノイジング法は、画像ノイズがピクセル非依存、すなわち空間非相関、または信号非依存、すなわち純粋加法である、という仮定に基づいている。 しかし、実際には多くの撮像装置、特に顕微鏡では、信号依存ノイズ(ポアソンショットノイズなど)と軸方向の相関ノイズ(ストライプ形状の走査やリードアウトアーティファクトなど)の組み合わせに悩まされている。 本稿では,このようなノイズをクリーンな画像やノイズモデルにアクセスせずに除去できる,教師なしの深層学習型デノイザを提案する。 自己教師技術とは異なり,マスキングやサブサンプリングによる画素除去は行わないため,利用可能な情報をすべて活用できる。 画像のノイズ成分をモデル化できるが、基礎となるクリーン信号成分を独立にモデル化できない特殊設計の自己回帰デコーダを備えた変分オートエンコーダ(vae)を実装した。 その結果、VAEのエンコーダはクリーン信号の内容のみを符号化し、撮像ノイズを除去することを学びました。 また、エンコーダの潜在変数を画像空間にマッピングする追加のデコーダを提案する。 実験の結果,提案手法は自己回帰受容場の大きさに対して頑健でありながら,既存の自己教師なし画像検出手法を上回っていることがわかった。 このプロジェクトのコードはhttps://github.com/krulllab/dvlaeにある。

Most unsupervised denoising methods are based on the assumption that imaging noise is either pixel-independent, i.e., spatially uncorrelated, or signal-independent, i.e., purely additive. However, in practice many imaging setups, especially in microscopy, suffer from a combination of signal-dependent noise (e.g. Poisson shot noise) and axis-aligned correlated noise (e.g. stripe shaped scanning or readout artifacts). In this paper, we present the first unsupervised deep learning-based denoiser that can remove this type of noise without access to any clean images or a noise model. Unlike self-supervised techniques, our method does not rely on removing pixels by masking or subsampling so can utilize all available information. We implement a Variational Autoencoder (VAE) with a specially designed autoregressive decoder capable of modelling the noise component of an image but incapable of independently modelling the underlying clean signal component. As a consequence, our VAE's encoder learns to encode only underlying clean signal content and to discard imaging noise. We also propose an additional decoder for mapping the encoder's latent variables back into image space, thereby sampling denoised images. Experimental results demonstrate that our approach surpasses existing methods for self- and unsupervised image denoising while being robust with respect to the size of the autoregressive receptive field. Code for this project can be found at https://github.com/krulllab/DVLAE.
翻訳日:2023-10-15 11:43:07 公開日:2023-10-11
# アクティブ回帰による略構造前駆体の精製機構設計

Refined Mechanism Design for Approximately Structured Priors via Active Regression ( http://arxiv.org/abs/2310.07874v1 )

ライセンス: Link先を確認
Christos Boutsikas, Petros Drineas, Marios Mertzanidis, Alexandros Psomas, Paritosh Verma(参考訳) 価格が高次元の未知の事前分布から独立して引き出される戦略的入札者に対して、多数の商品が$m$で販売される収益を最大化する販売業者の問題を考察する。 この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで知られており、発見できたとしても、様々な反直観的な性質を持つ。 本稿では,cai と daskalakis~\cite{cai2022recommender} が最近導入したモデルに従い,入札者の事前分布がトピックモデルによってよく近似できる場合を考える。 我々は、入札者と対話し、それらのタイプの低次元近似を出力する能動的学習コンポーネントと、前者の近似型に対応するための低次元モデルのロバスト化機構を担っているメカニズム設計コンポーネントを設計する。 アクティブラーニングの分野では,回帰問題に対するランダム化線形代数学(rla)の枠組みに問題を投げ込み,その研究からいくつかのブレークスルー結果をインポートし,それらを設定に適応させることができた。 機構設計の面では、基礎となる分布と関連する機構に必要とされるアクセスの種類に関する事前作業の制約的な仮定の多くを取り除く。 我々の知る限りでは、我々の研究は機構設計と回帰問題のアクティブな学習のためのrlaの間の接続を初めて定式化し、ランダム化された線形代数プリミティブを機構設計にさらなる応用するための扉を開く。

We consider the problem of a revenue-maximizing seller with a large number of items $m$ for sale to $n$ strategic bidders, whose valuations are drawn independently from high-dimensional, unknown prior distributions. It is well-known that optimal and even approximately-optimal mechanisms for this setting are notoriously difficult to characterize or compute, and, even when they can be found, are often rife with various counter-intuitive properties. In this paper, following a model introduced recently by Cai and Daskalakis~\cite{cai2022recommender}, we consider the case that bidders' prior distributions can be well-approximated by a topic model. We design an active learning component, responsible for interacting with the bidders and outputting low-dimensional approximations of their types, and a mechanism design component, responsible for robustifying mechanisms for the low-dimensional model to work for the approximate types of the former component. On the active learning front, we cast our problem in the framework of Randomized Linear Algebra (RLA) for regression problems, allowing us to import several breakthrough results from that line of research, and adapt them to our setting. On the mechanism design front, we remove many restrictive assumptions of prior work on the type of access needed to the underlying distributions and the associated mechanisms. To the best of our knowledge, our work is the first to formulate connections between mechanism design, and RLA for active learning of regression problems, opening the door for further applications of randomized linear algebra primitives to mechanism design.
翻訳日:2023-10-15 11:42:40 公開日:2023-10-11
# 伝送系実験における絡み合った2光子吸収:線形光損失による除去効果

Entangled two-photon absorption in transmission-based experiments: deleterious effects from linear optical losses ( http://arxiv.org/abs/2310.07810v1 )

ライセンス: Link先を確認
Freiman Triana-Arango, Roberto Ram\'irez-Alarc\'on and Gabriel Ramos-Ortiz(参考訳) 近年, 非線形材料中のエンタングル二光子吸収(etpa)の溶出現象を研究するために, 異なる実験手法が提案されている。 伝送方式を用いてETPAを検出する試みは、線形光学損失に関連するアーティファクトによってETPA信号を破損またはエミュレートできるため、現在妥当性が議論されている結果となっている。 本研究は,Hong-Ou-Mandel (HOM) 干渉計の特性を利用する新しい手法により,伝送型ETPA実験における線形損失問題とそれに対応するアーティファクトに対処する。 ここでは, ETPA研究における非線形媒質のモデルとしてよく用いられるRhodamine B (RhB) の解を解析する。 そして、HOM干渉計を検知装置として使用することにより、多くの報告で示された標準送電とポンプパワーのETPA実験の等価性を示す。 第2に、ETPAとは無関係な光損失のHOM干渉計による影響について、詳細な研究を行った。 1) 異なる溶媒で調製した溶液中でのRhBのキャラクタリゼーション 2) 制御線形損失機構としてのシリカナノ粒子による散乱損失を考慮した。 本研究では, ETPA信号に対する線形光損失の除去効果を明らかにするとともに, HOMインターフェログラムをセンサデバイスとして使用することにより, 損失の有無を検出できることを示す。 最後に、hom干渉計が適切に線形損失を判別することを示すと、本研究は、多くの報告された研究で採用されているものと同一の特定の実験条件下では、etpaが明確に検出されなかったことも明らかにする。

Recently different experimental schemes have been proposed to study the elusive phenomenon of entangled two-photon absorption (ETPA) in nonlinear materials. The attempts to detect ETPA using transmission-based schemes have led to results whose validity is currently under debate since the ETPA signal can be corrupted or emulated by artifacts associated with linear optical losses. The present work addresses the issue of linear losses and the corresponding artifacts in transmission-based ETPA experiments through a new approach that exploits the properties of a Hong-Ou-Mandel (HOM) interferogram. Here we analyze solutions of Rhodamine B (RhB), commonly used as a model of nonlinear medium in ETPA studies. Then, by using the HOM interferometer as a sensing device, we firstly demonstrate the equivalence of the standard transmission vs pump power ETPA experiments, presented in many reports, with our novel approach of transmission vs two-photon temporal delay. Secondly, a detailed study of the effects of optical losses, unrelated to ETPA, over the HOM interferogram is carried out by: 1) Characterizing RhB in solutions prepared with different solvents. 2) Considering scattering losses introduced by silica nanoparticles used as a controlled linear loss mechanism. Our results clearly expose the deleterious effects of linear optical losses over the ETPA signal when standard transmission experiments are employed and show how, by using the HOM interferogram as a sensing device, it is possible to detect the presence of such losses. Finally, once we showed that the HOM interferogram discriminates properly linear losses, our study also reveals that under the specific experimental conditions considered here, which are the same than those employed in many reported works, the ETPA was not unequivocally detected.
翻訳日:2023-10-15 11:42:00 公開日:2023-10-11
# 圧電MEMSプラットフォームにおける構造工学的ひずみ集中による不揮発性記憶を有する高速フォトニック結晶変調器

High-speed photonic crystal modulator with non-volatile memory via structurally-engineered strain concentration in a piezo-MEMS platform ( http://arxiv.org/abs/2310.07798v1 )

ライセンス: Link先を確認
Y. Henry Wen, David Heim, Matthew Zimmermann, Roman A. Shugayev, Mark Dong, Andrew J. Leenheer, Gerald Gilbert, Matt Eichenfield, Mikkel Heuck, Dirk R. Englund(参考訳) 量子光学や古典光学における多くの応用は、フットプリントの低い可視NIR波長をカバーするスケーラブルで高速な変調器を必要とする。 電気光学変調器(EO)の重要な特徴は、電圧当たりの伝送変化dT/dVである。 導波変調器の従来のアプローチは、高EO係数またはより長い光-物質相互作用の選択によってdT/dVを最大化しようとするが、最終的にはそれぞれ非線形材料特性と材料損失によって制限される。 光およびRF共鳴はdT/dVを改善することができるが、特に高Qフォトニック共振器において、速度とスペクトルチューニングの面での課題が導入された。 本稿では, 圧電抑制型フォトニック結晶キャビティにおいて, 両方のトレードオフを解決するためのキャビティベースのEO変調器を提案する。 提案手法は, 長さLの圧電アクチュエータと所定圧電係数のPCCへの変位に集中し, 固定材料損失下ではdT/dVがLに比例する。 第2に、連続的かつ繰り返し可能なチューニング範囲5GHz、最大非揮発性エクストラクション8GHzの「読み書き」プロトコルでプログラム可能な材料変形を用いる。 テレコムバンドのデモでは、電圧応答177MHz/Vが40GHz、電圧幅120〜120V、3dB変調帯域が3.2MHz、共振動作が2.8GHz付近で142MHz、光消光がmin(log(T)) = -25dBまで、ミッチェルソン型干渉により0.17nW/GHzとなる。 ここで提示されるひずみ増強法は、他のひずみ感受性システムの研究および制御に適用できる。

Numerous applications in quantum and classical optics require scalable, high-speed modulators that cover visible-NIR wavelengths with low footprint, drive voltage (V) and power dissipation. A critical figure of merit for electro-optic (EO) modulators is the transmission change per voltage, dT/dV. Conventional approaches in wave-guided modulators seek to maximize dT/dV by the selection of a high EO coefficient or a longer light-material interaction, but are ultimately limited by nonlinear material properties and material losses, respectively. Optical and RF resonances can improve dT/dV, but introduce added challenges in terms of speed and spectral tuning, especially for high-Q photonic cavity resonances. Here, we introduce a cavity-based EO modulator to solve both trade-offs in a piezo-strained photonic crystal cavity. Our approach concentrates the displacement of a piezo-electric actuator of length L and a given piezoelectric coefficient into the PhCC, resulting in dT/dV proportional to L under fixed material loss. Secondly, we employ a material deformation that is programmable under a "read-write" protocol with a continuous, repeatable tuning range of 5 GHz and a maximum non-volatile excursion of 8 GHz. In telecom-band demonstrations, we measure a fundamental mode linewidth = 5.4 GHz, with voltage response 177 MHz/V corresponding to 40 GHz for voltage spanning -120 to 120 V, 3dB-modulation bandwidth of 3.2 MHz broadband DC-AC, and 142 MHz for resonant operation near 2.8 GHz operation, optical extinction down to min(log(T)) = -25 dB via Michelson-type interference, and an energy consumption down to 0.17 nW/GHz. The strain-enhancement methods presented here are applicable to study and control other strain-sensitive systems.
翻訳日:2023-10-15 11:41:31 公開日:2023-10-11
# CRITERIA: 自律運転のための軌道予測モデル評価のための新しいベンチマークパラダイム

CRITERIA: a New Benchmarking Paradigm for Evaluating Trajectory Prediction Models for Autonomous Driving ( http://arxiv.org/abs/2310.07794v1 )

ライセンス: Link先を確認
Changhe Chen, Mozhgan Pourkeshavarz, Amir Rasouli(参考訳) ベンチマークは、自律運転のための軌道予測モデルを評価する一般的な方法である。 既存のベンチマークはデータセットに依存しており、cruisingのようなより一般的なシナリオや、すべてのシナリオ平均で計算される距離ベースのメトリクスに偏っている。 このような連隊に従えば、異なるシナリオをいかにうまく扱えるか、そのアウトプットがどの程度許容可能で多様かという観点から、モデルの特性について少しの洞察が得られる。 軌跡の許容性と多様性を測定するために設計された相補的な指標はいくつか存在するが、軌跡の長さなどのバイアスに悩まされている。 本稿では,新しいbenChmarking paRadIgmをCRITERIA (EvaluaTing trajEctoRy predIction Approaches) として提案する。 特に我々が提案するのは 1) 予測モデルの細粒度ランキングのための道路構造,モデル性能,データ特性に応じて,特異性の異なるレベルにおける運転シナリオを抽出する方法。 2) 現実の運転制約によって動機付けられた道路・運動適合性の構造を考慮し, 与えられたシナリオの特性と許容性を取り入れ, 多様性を測定するための新しいバイアスのない指標のセット。 3)提案するベンチマークを用いて,大規模argoverseデータセットを用いた予測モデルの代表セットを広範囲に実験した。 提案したベンチマークにより,より正確なモデルランキングを作成でき,それらの振る舞いを特徴づける手段として機能することを示す。 さらに,提案するメトリクスの計算に用いる異なる要素の寄与を強調するために,アブレーション研究を行った。

Benchmarking is a common method for evaluating trajectory prediction models for autonomous driving. Existing benchmarks rely on datasets, which are biased towards more common scenarios, such as cruising, and distance-based metrics that are computed by averaging over all scenarios. Following such a regiment provides a little insight into the properties of the models both in terms of how well they can handle different scenarios and how admissible and diverse their outputs are. There exist a number of complementary metrics designed to measure the admissibility and diversity of trajectories, however, they suffer from biases, such as length of trajectories. In this paper, we propose a new benChmarking paRadIgm for evaluaTing trajEctoRy predIction Approaches (CRITERIA). Particularly, we propose 1) a method for extracting driving scenarios at varying levels of specificity according to the structure of the roads, models' performance, and data properties for fine-grained ranking of prediction models; 2) A set of new bias-free metrics for measuring diversity, by incorporating the characteristics of a given scenario, and admissibility, by considering the structure of roads and kinematic compliancy, motivated by real-world driving constraints. 3) Using the proposed benchmark, we conduct extensive experimentation on a representative set of the prediction models using the large scale Argoverse dataset. We show that the proposed benchmark can produce a more accurate ranking of the models and serve as a means of characterizing their behavior. We further present ablation studies to highlight contributions of different elements that are used to compute the proposed metrics.
翻訳日:2023-10-15 11:40:50 公開日:2023-10-11
# スパーク機械学習モデルを用いたフライトチケット価格データの予測分析

Using Spark Machine Learning Models to Perform Predictive Analysis on Flight Ticket Pricing Data ( http://arxiv.org/abs/2310.07787v1 )

ライセンス: Link先を確認
Philip Wong, Phue Thant, Pratiksha Yadav, Ruta Antaliya, Jongwook Woo(参考訳) 本稿では,約2000万レコードまたは4.68ギガバイトからなるExpedia.comの大規模データセットを利用したr2(r-square)とRMSEを用いたフライト価格データに基づく予測性能とプロセスについて論じる。 このプロジェクトの目的は、米国中のノンストップ便の航空券料金を予測するために、現実世界で利用できる最良のモデルを決定することだ。 したがって、モデルにとって優れた一般化能力と最適化された処理時間が重要な指標となる。 機能の重要性を活用した重要なビジネス洞察を発見し、分析に使用するプロセスとツールについて論じる。 ランダムフォレスト,勾配ブーストツリー,決定木,因子化マシンの4つの回帰機械学習アルゴリズムを用いて,クロスバリデータとトレーニングバリデータを用いて性能と一般化能力を評価する。

This paper discusses predictive performance and processes undertaken on flight pricing data utilizing r2(r-square) and RMSE that leverages a large dataset, originally from Expedia.com, consisting of approximately 20 million records or 4.68 gigabytes. The project aims to determine the best models usable in the real world to predict airline ticket fares for non-stop flights across the US. Therefore, good generalization capability and optimized processing times are important measures for the model. We will discover key business insights utilizing feature importance and discuss the process and tools used for our analysis. Four regression machine learning algorithms were utilized: Random Forest, Gradient Boost Tree, Decision Tree, and Factorization Machines utilizing Cross Validator and Training Validator functions for assessing performance and generalization capability.
翻訳日:2023-10-15 11:40:24 公開日:2023-10-11
# ニューラル予測アンサンブルサンプリングによる非定常文脈バンディット学習

Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble Sampling ( http://arxiv.org/abs/2310.07786v1 )

ライセンス: Link先を確認
Zheqing Zhu, Yueyang Liu, Xu Kuang, Benjamin Van Roy(参考訳) 文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会的傾向によって、しばしば非定常性を示す。 文献では、多くの非定常文脈帯域学習アルゴリズムが提案されているが、持続的価値の情報に対する優先順位付けの欠如による過度な探索や、高次元のユーザ固有の特徴と大きなアクションセットを持つ現代のアプリケーションではスケールしない方法で設計されている。 本稿では,これらの問題に対処する新しい非定常文脈バンディットアルゴリズムを提案する。 スケーラブルでディープニューラルネットワークベースのアーキテクチャと、非定常環境において最も永続的な価値を持つ情報収集を戦略的に優先する、注意深く設計された探索メカニズムを組み合わせる。 非定常性を示す2つの実世界のレコメンデーションデータセットの実証評価を通じて、我々のアプローチが最先端のベースラインを大きく上回っていることを示す。

Real-world applications of contextual bandits often exhibit non-stationarity due to seasonality, serendipity, and evolving social trends. While a number of non-stationary contextual bandit learning algorithms have been proposed in the literature, they excessively explore due to a lack of prioritization for information of enduring value, or are designed in ways that do not scale in modern applications with high-dimensional user-specific features and large action set, or both. In this paper, we introduce a novel non-stationary contextual bandit algorithm that addresses these concerns. It combines a scalable, deep-neural-network-based architecture with a carefully designed exploration mechanism that strategically prioritizes collecting information with the most lasting value in a non-stationary environment. Through empirical evaluations on two real-world recommendation datasets, which exhibit pronounced non-stationarity, we demonstrate that our approach significantly outperforms the state-of-the-art baselines.
翻訳日:2023-10-15 11:40:10 公開日:2023-10-11
# 長いワームホールからの近似量子コード

Approximate Quantum Codes From Long Wormholes ( http://arxiv.org/abs/2310.07770v1 )

ライセンス: Link先を確認
Gregory Bentsen, Phuc Nguyen, and Brian Swingle(参考訳) 非可換項からなる量子多体ハミルトニアンのほぼ退化基底状態として生じる近似量子誤差補正符号の族について論じる。 正確な符号については、低温熱場二重状態における両側の相互情報の消滅という観点から誤差補正の条件を定式化することができる。 この相互情報が小さいことを要求して得られた近似符号に対する距離の概念を考察し、sachdev-ye-kitaev (syk) モデルと低ランクsykモデルの族についてその相互情報を評価する。 ほぼゼロ温度に外挿した後、両方の種類のモデルがフェルミオン符号を一定速度で生成し、フェルミオンの数は無限大になる。 SYK の場合、距離は$N^{1/2}$ となり、低ランクの SYK の場合、距離は一定速度を維持しながら、例えば$N^{.99}$ のような線形スケーリングに任意に近づくことができる。 また、非低エネルギー自明な状態の類似も考慮し、これらのモデルが断熱連続性という意味で自明な低エネルギー状態を持つことを示す。 量子重力の単純なモデルにおける長いワームホール幾何の出現の結果として大きな符号距離が生じたこれらの符号のホログラフィックモデルについて考察する。

We discuss families of approximate quantum error correcting codes which arise as the nearly-degenerate ground states of certain quantum many-body Hamiltonians composed of non-commuting terms. For exact codes, the conditions for error correction can be formulated in terms of the vanishing of a two-sided mutual information in a low-temperature thermofield double state. We consider a notion of distance for approximate codes obtained by demanding that this mutual information instead be small, and we evaluate this mutual information for the Sachdev-Ye-Kitaev (SYK) model and for a family of low-rank SYK models. After an extrapolation to nearly zero temperature, we find that both kinds of models produce fermionic codes with constant rate as the number, $N$, of fermions goes to infinity. For SYK, the distance scales as $N^{1/2}$, and for low-rank SYK, the distance can be arbitrarily close to linear scaling, e.g. $N^{.99}$, while maintaining a constant rate. We also consider an analog of the no low-energy trivial states property and show that these models do have trivial low-energy states in the sense of adiabatic continuity. We discuss a holographic model of these codes in which the large code distance is a consequence of the emergence of a long wormhole geometry in a simple model of quantum gravity.
翻訳日:2023-10-15 11:39:52 公開日:2023-10-11
# グラフ表現学習変数を用いた結晶核の高次サンプリング

Enhanced sampling of Crystal Nucleation with Graph Representation Learnt Variables ( http://arxiv.org/abs/2310.07927v1 )

ライセンス: Link先を確認
Ziyue Zou and Pratyush Tiwary(参考訳) 本研究では,実験結晶構造から低次元変数を導出するオートエンコーダを用いたグラフニューラルネットワークに基づく学習手法を提案する。 これらの変数は、状態から状態への遷移と信頼できる熱力学的重みを観察するために強化されたサンプリングでバイアスされる。 我々のアプローチは単純な畳み込みとプーリング手法を用いる。 本プロトコルの有効性を検証するため, 溶融状態からの各種アロトロピーおよび鉄およびグリシンのポリモルフィックの核生成を検討した。 我々のグラフ潜在変数は, 状態間の遷移を一貫して示し, 信頼可能なサンプリングの指標である実験と一致して, 正確な自由エネルギー計算を実現する。 これは、サンプリングを改善するためのグラフニューラルネットワーク変数の強みと将来性を強調するものです。 ここで示すプロトコルは、他のシステムや他のサンプリング方法にも適用できる。

In this study, we present a graph neural network-based learning approach using an autoencoder setup to derive low-dimensional variables from features observed in experimental crystal structures. These variables are then biased in enhanced sampling to observe state-to-state transitions and reliable thermodynamic weights. Our approach uses simple convolution and pooling methods. To verify the effectiveness of our protocol, we examined the nucleation of various allotropes and polymorphs of iron and glycine from their molten states. Our graph latent variables when biased in well-tempered metadynamics consistently show transitions between states and achieve accurate free energy calculations in agreement with experiments, both of which are indicators of dependable sampling. This underscores the strength and promise of our graph neural net variables for improved sampling. The protocol shown here should be applicable for other systems and with other sampling methods.
翻訳日:2023-10-15 11:32:28 公開日:2023-10-11
# マルチトリの次元自由離散レメズ不等式

A dimension-free discrete Remez inequality on multi-tori ( http://arxiv.org/abs/2310.07926v1 )

ライセンス: Link先を確認
Lars Becker, Ohad Klein, Joseph Slote, Alexander Volberg, Haonan Zhang(参考訳) 古典レメズ不等式は、このセグメントの正ルベーグ測度の任意の部分集合 $e$ 上の絶対値の最大値を通じて、あるセグメント上の次数 $d$ の多項式の絶対値の最大値を与える。 同様に、いくつかの変数において、より大きな集合上の次数$d$の多項式の絶対値の最大値は、部分集合上の多項式の絶対値の最大値によって制限される。 文学にはそのような不等式が多数あるが、寸法が大きくなるとすべてが台無しになる。 この記事は、このタイプの次元自由推定に特化しており、ここでは、サブセットはグリッドまたはグリッドの比較的スパースな部分集合である。 次元自由レメズ不等式に対するモチベーションは量子学習理論から非常に自然に生まれており、比較的少数のランダムなクエリによって大きな行列を大確率で復元する必要がある。 我々の次元自由不等式は、天文学的に多量の変数の低次多項式やquditアンサンブル上の低次量子可観測性を学ぶための時間効率とサンプル最適アルゴリズムを与える。

The classical Remez inequality bounds the maximum of the absolute value of a polynomial of degree $d$ on a segment through the maximum of its absolute value on any subset $E$ of positive Lebesgue measure of this segment. Similarly, in several variables the maximum of the absolute value of a polynomial of degree $d$ over a larger set is bounded by the maximum of the absolute value of a polynomial on a subset. There are many such inequalities in the literature, but all of them get spoiled when dimension grows. This article is devoted to the dimension free estimates of this type, where a subset is a grid or a rather sparse subset of the grid. The motivation for the dimension free Remez inequality came very naturally from the quantum learning theory, where we need to approximately restore with large probability a big matrix by a relatively small number of random queries, see \cite{VZ22}, \cite{SVZ}. Our dimension free inequality gives time-efficient and sample-optimal algorithms for learning low-degree polynomials of astronomically large number of variables as well as low-degree quantum observables on qudit ensembles, see \cite{SVZ} for those applications.
翻訳日:2023-10-15 11:32:04 公開日:2023-10-11
# ストリーミング凸コストの一階動的最適化

First-Order Dynamic Optimization for Streaming Convex Costs ( http://arxiv.org/abs/2310.07925v1 )

ライセンス: Link先を確認
M. Rostami, H. Moradian, and S. S. Kia(参考訳) 本稿では,時系列ストリーミングコスト関数を用いた凸最適化問題を解くための新しい最適化アルゴリズムを提案する。 最適解を境界付き誤差で追跡する手法を開発した。 既存の結果とは異なり、このアルゴリズムはコスト関数の一階微分を用いることでのみ実行され、時間変動コスト関数による最適化の計算効率が向上する。 本アルゴリズムを勾配降下アルゴリズムと比較し,勾配降下が時間的変動コストを伴う最適化問題に有効な解でない理由を示す。 ストリーミング時間変動コスト関数を用いた凸最適化問題としてキャストされるモデル予測制御問題の解法など,いくつかの例から結果が得られた。

This paper proposes a set of novel optimization algorithms for solving a class of convex optimization problems with time-varying streaming cost function. We develop an approach to track the optimal solution with a bounded error. Unlike the existing results, our algorithm is executed only by using the first-order derivatives of the cost function which makes it computationally efficient for optimization with time-varying cost function. We compare our algorithms to the gradient descent algorithm and show why gradient descent is not an effective solution for optimization problems with time-varying cost. Several examples including solving a model predictive control problem cast as a convex optimization problem with a streaming time-varying cost function demonstrate our results.
翻訳日:2023-10-15 11:31:15 公開日:2023-10-11
# 単一タンジェント空間の誤りを解き明かす:ロボット学習におけるリーマン幾何学の適用分析と解明

Unraveling the Single Tangent Space Fallacy: An Analysis and Clarification for Applying Riemannian Geometry in Robot Learning ( http://arxiv.org/abs/2310.07902v1 )

ライセンス: Link先を確認
No\'emie Jaquier, Leonel Rozo, Tamim Asfour(参考訳) ロボット工学の領域では、多くの下流ロボティクスタスクは、データ処理、モデリング、合成のための機械学習手法を活用する。 このデータは、剛体配向を表す四元数の単位ノルム条件や、剛性およびマニピュラ性エリプシドの正定性など、本質的に幾何学的制約を持つ変数を含むことが多い。 このような幾何学的制約を扱うには、微分幾何学から機械学習手法の定式化へのツールの組み入れが効果的に必要となる。 この文脈において、リーマン多様体はそのような幾何学的制約を扱う強力な数学的枠組みとして現れる。 しかし、最近のロボット学習への導入は、数学的に定型化された単純化(以下「単一接空間誤認」という)が特徴である。 このアプローチは単に興味のあるデータを単一の接点(ユークリッド)空間に投影するだけで、そこでは既成の学習アルゴリズムが適用される。 本稿では,このアプローチに関する様々な誤解を理論的に解明し,その欠点を実験的に証明する。 最後に、ロボット学習アプリケーションにリーマン幾何学を採用する際のベストプラクティスを促進するための貴重な洞察を提供する。

In the realm of robotics, numerous downstream robotics tasks leverage machine learning methods for processing, modeling, or synthesizing data. Often, this data comprises variables that inherently carry geometric constraints, such as the unit-norm condition of quaternions representing rigid-body orientations or the positive definiteness of stiffness and manipulability ellipsoids. Handling such geometric constraints effectively requires the incorporation of tools from differential geometry into the formulation of machine learning methods. In this context, Riemannian manifolds emerge as a powerful mathematical framework to handle such geometric constraints. Nevertheless, their recent adoption in robot learning has been largely characterized by a mathematically-flawed simplification, hereinafter referred to as the ``single tangent space fallacy". This approach involves merely projecting the data of interest onto a single tangent (Euclidean) space, over which an off-the-shelf learning algorithm is applied. This paper provides a theoretical elucidation of various misconceptions surrounding this approach and offers experimental evidence of its shortcomings. Finally, it presents valuable insights to promote best practices when employing Riemannian geometry within robot learning applications.
翻訳日:2023-10-15 11:31:03 公開日:2023-10-11
# ブール制約系ゲームの満足可能性問題と代数

Satisfiability problems and algebras of boolean constraint system games ( http://arxiv.org/abs/2310.07901v1 )

ライセンス: Link先を確認
Connor Paddock and William Slofstra(参考訳) メルミンとペレスは、満たせないが量子可観測性に満足できるブール制約系(BCS)が存在することを示した。 このことは、非局所ゲームや量子文脈性と結びついている制約系に対する量子満足性の膨大な理論につながった。 この理論では、異なる種類の量子満足代入をシステムのbcs代数の表現として理解することができる。 この理論は同期ゲームや代数の理論と密接に関連しており、すべての同期代数は BCS 代数と逆数である。 本論文の目的は、この理論におけるbcs代数の役割をさらに発展させ、いくつかの緩い端点を結びつけることである:我々は、bcs代数の合同スペクトル射影の観点での新しい提示を行い、それが標準定義と等価であることを示す。 我々は、C^*$-satisfiableであるが、戦略的に満足できない制約システムを構築する。 制約系間のある種の還元は、系の bcs 代数の間の $*$-homomorphism をもたらし、これを用いて、シェーファーの二分法定理の類似物に対する atserias, kolaitis, severini のいくつかの結果を合理化し、強化する。 特に、非超線型群が存在するか否かという問題は、$\mathcal{r}^{\mathcal{u}}$-satisfiability に対する二分法定理と関連している。

Mermin and Peres showed that there are boolean constraint systems (BCSs) which are not satisfiable, but which are satisfiable with quantum observables. This has led to a burgeoning theory of quantum satisfiability for constraint systems, connected to nonlocal games and quantum contextuality. In this theory, different types of quantum satisfying assignments can be understood as representations of the BCS algebra of the system. This theory is closely related to the theory of synchronous games and algebras, and every synchronous algebra is a BCS algebra and vice-versa. The purpose of this paper is to further develop the role of BCS algebras in this theory, and tie up some loose ends: We give a new presentation of BCS algebras in terms of joint spectral projections, and show that it is equivalent to the standard definition. We construct a constraint system which is $C^*$-satisfiable but not tracially satisfiable. We show that certain reductions between constraint systems lead to $*$-homomorphisms between the BCS algebras of the systems, and use this to streamline and strengthen several results of Atserias, Kolaitis, and Severini on analogues of Schaefer's dichotomy theorem. In particular, we show that the question of whether or not there is a non-hyperlinear group is linked to dichotomy theorems for $\mathcal{R}^{\mathcal{U}}$-satisfiability.
翻訳日:2023-10-15 11:30:26 公開日:2023-10-11
# ニューラルネットワークシミュレーション誤差最小化モデル予測制御による風乱下のasvステーション維持

ASV Station Keeping under Wind Disturbances using Neural Network Simulation Error Minimization Model Predictive Control ( http://arxiv.org/abs/2310.07892v1 )

ライセンス: Link先を確認
Jalil Chavez-Galaviz, Jianwen Li, Ajinkya Chaudhary, and Nina Mahmoudian(参考訳) ステーションキーピングは、主に制限されたスペースで使用される場合、相対的な位置がミッションに影響を及ぼす他の車両との協力や位置を維持することを要求する調査を行うために、自律表面車両(ASV)にとって不可欠な操作である。 しかし、ASVダイナミクスの正確なモデルや環境障害が必要なため、古典的なフィードバックコントローラではこの操作が困難になる可能性がある。 本研究では,ニューラルネットワークシミュレーション誤差最小化(NNSEM-MPC)を用いたモデル予測制御器を提案する。 風乱下における提案手法の性能を,ロボット・オペレーティング・システム(ROS)と多目的シミュレーション環境であるガゼボを用いて,シミュレーションにおいて他のコントローラと比較した。 2つの風速(3m/sと6m/s)と3つの風向(0$^\circ$、90$^\circ$、180$^\circ$)を組み合わせた6つの試験を行った。 シミュレーションの結果, バックステッピング制御器, スライディングモード制御器, 単純化力学 MPC (SD-MPC), ニューラル常微分方程式 MPC (NODE-MPC), 知識ベース NODE MPC (KNODE-MPC) に対して, NNSEM-MPCの利点が明らかに示された。 提案するnnsem-mpcアプローチは,6つのテスト条件のうち4つで他より優れており,残りの2つのテストケースで2番目に優れており,各テストケースで平均位置と方向誤差が少なくとも31\%,方向誤差が46\%減少している。 実行速度に関しては、提案したNSEM-MPCは、他のMPCコントローラよりも少なくとも36倍高速である。 2つの異なるASVプラットフォームでのフィールド実験により、ASVは提案した手法を効果的に利用でき、位置誤差は1.68$m、方向誤差は6.14^{\circ}$は1150$sであることがわかった。

Station keeping is an essential maneuver for Autonomous Surface Vehicles (ASVs), mainly when used in confined spaces, to carry out surveys that require the ASV to keep its position or in collaboration with other vehicles where the relative position has an impact over the mission. However, this maneuver can become challenging for classic feedback controllers due to the need for an accurate model of the ASV dynamics and the environmental disturbances. This work proposes a Model Predictive Controller using Neural Network Simulation Error Minimization (NNSEM-MPC) to accurately predict the dynamics of the ASV under wind disturbances. The performance of the proposed scheme under wind disturbances is tested and compared against other controllers in simulation, using the Robotics Operating System (ROS) and the multipurpose simulation environment Gazebo. A set of six tests were conducted by combining two wind speeds (3 m/s and 6 m/s) and three wind directions (0$^\circ$, 90$^\circ$, and 180$^\circ$). The simulation results clearly show the advantage of the NNSEM-MPC over the following methods: backstepping controller, sliding mode controller, simplified dynamics MPC (SD-MPC), neural ordinary differential equation MPC (NODE-MPC), and knowledge-based NODE MPC (KNODE-MPC). The proposed NNSEM-MPC approach performs better than the rest in 4 out of the 6 test conditions, and it is the second best in the 2 remaining test cases, reducing the mean position and heading error by at least 31\% and 46\% respectively across all the test cases. In terms of execution speed, the proposed NNSEM-MPC is at least 36\% faster than the rest of the MPC controllers. The field experiments on two different ASV platforms showed that ASVs can effectively keep the station utilizing the proposed method, with a position error as low as $1.68$ m and a heading error as low as $6.14^{\circ}$ within time windows of at least $150$s.
翻訳日:2023-10-15 11:29:59 公開日:2023-10-11
# 時系列生成のための条件付きSig-Wasserstein GAN

Conditional Sig-Wasserstein GANs for Time Series Generation ( http://arxiv.org/abs/2006.05421v2 )

ライセンス: Link先を確認
Shujian Liao, Hao Ni, Lukasz Szpruch, Magnus Wiese, Marc Sabate-Vidales and Baoren Xiao(参考訳) GAN(Generative Adversarial Network)は、高次元の確率測度からサンプルを生成することに成功している。 しかし,これらの手法は時系列データによる共同確率分布の時間的依存を捉えるのに苦慮している。 さらに、長い時系列データストリームはターゲット空間の次元を大きく増加させ、生成モデリングが不可能になる可能性がある。 これらの課題を克服するために,econometricにおける自己回帰モデルに動機づけられ,過去の情報から得られた将来の時系列の条件分布に関心を寄せる。 本稿では,Wasserstein-GANs(WGANs)を,経路のシグネチャと呼ばれる数学的に原理的かつ効率的な経路特徴抽出と統合することにより,汎用的な条件付きSig-WGANフレームワークを提案する。 パスのシグネチャは、データストリームの普遍的な記述を提供する統計のグレード化されたシーケンスであり、その期待値は時系列モデルの法則を特徴づける。 特に、時系列モデルの条件付きジョイント則を捉える条件付きSig-$W_1$メトリックを開発し、それを判別器として利用する。 署名機能空間は、高価なトレーニングの必要性を軽減するために提案された識別器の明示的な表現を可能にする。 本手法は,合成データと実験データの両方で検証を行い,類似性と予測能力の尺度において,最先端のベンチマークを一貫して著しく上回っていることを検証した。

Generative adversarial networks (GANs) have been extremely successful in generating samples, from seemingly high dimensional probability measures. However, these methods struggle to capture the temporal dependence of joint probability distributions induced by time-series data. Furthermore, long time-series data streams hugely increase the dimension of the target space, which may render generative modelling infeasible. To overcome these challenges, motivated by the autoregressive models in econometric, we are interested in the conditional distribution of future time series given the past information. We propose the generic conditional Sig-WGAN framework by integrating Wasserstein-GANs (WGANs) with mathematically principled and efficient path feature extraction called the signature of a path. The signature of a path is a graded sequence of statistics that provides a universal description for a stream of data, and its expected value characterises the law of the time-series model. In particular, we develop the conditional Sig-$W_1$ metric, that captures the conditional joint law of time series models, and use it as a discriminator. The signature feature space enables the explicit representation of the proposed discriminators which alleviates the need for expensive training. We validate our method on both synthetic and empirical dataset and observe that our method consistently and significantly outperforms state-of-the-art benchmarks with respect to measures of similarity and predictive ability.
翻訳日:2023-10-14 16:00:27 公開日:2023-10-11
# MMTSA:効率的な人間活動認識のためのマルチモーダル時間セグメント注意ネットワーク

MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human Activity Recognition ( http://arxiv.org/abs/2210.09222v2 )

ライセンス: Link先を確認
Ziqi Gao, Yuntao Wang, Jianguo Chen, Junliang Xing, Shwetak Patel, Xin Liu, Yuanchun Shi(参考訳) マルチモーダルセンサは、ヒューマンアクティビティ認識(HAR)のための正確な機械学習手法を開発するために補完的な情報を提供するが、計算負荷が大幅に増加し、効率が低下する。 本稿では、RGBカメラと慣性測定ユニット(IMU)を用いたHARのための効率的なマルチモーダルニューラルネットワークを提案し、MMTSA(Multimodal Temporal Segment Attention Network)を提案する。 MMTSAはまず、人間の活動の性質を表すグラム角場(GAF)を用いて、IMUセンサデータを時間的、構造的に保存されたグレースケールの画像に変換する。 MMTSAはデータ冗長性を低減するためにマルチモーダルスパースサンプリング法を適用した。 最後に、MTSAは効率的なマルチモーダル核融合のためのインターセグメントアテンションモジュールを採用する。 3つの確立された公開データセットを用いて,HARにおけるMTSAの有効性と効率を評価した。 その結果,従来のSOTA法に比べて,MMActデータセット上でのクロスオブジェクトF1スコアの11.13%の性能向上が得られた。 アブレーション研究と分析により,MMTSAのマルチモーダルデータを正確なHARに融合させる効果が示唆された。 エッジデバイス上での効率評価の結果,MMTSAはSOTA法よりも精度が高く,計算負荷も低く,推論遅延も低かった。

Multimodal sensors provide complementary information to develop accurate machine-learning methods for human activity recognition (HAR), but introduce significantly higher computational load, which reduces efficiency. This paper proposes an efficient multimodal neural architecture for HAR using an RGB camera and inertial measurement units (IMUs) called Multimodal Temporal Segment Attention Network (MMTSA). MMTSA first transforms IMU sensor data into a temporal and structure-preserving gray-scale image using the Gramian Angular Field (GAF), representing the inherent properties of human activities. MMTSA then applies a multimodal sparse sampling method to reduce data redundancy. Lastly, MMTSA adopts an inter-segment attention module for efficient multimodal fusion. Using three well-established public datasets, we evaluated MMTSA's effectiveness and efficiency in HAR. Results show that our method achieves superior performance improvements 11.13% of cross-subject F1-score on the MMAct dataset than the previous state-of-the-art (SOTA) methods. The ablation study and analysis suggest that MMTSA's effectiveness in fusing multimodal data for accurate HAR. The efficiency evaluation on an edge device showed that MMTSA achieved significantly better accuracy, lower computational load, and lower inference latency than SOTA methods.
翻訳日:2023-10-14 15:55:42 公開日:2023-10-11
# 進化ロボットにおける形態変化の役割 : 性能とロバストさの最大化

The Role of Morphological Variation in Evolutionary Robotics: Maximizing Performance and Robustness ( http://arxiv.org/abs/2208.02809v2 )

ライセンス: Link先を確認
Jonata Tyska Carvalho and Stefano Nolfi(参考訳) ロボットコントローラを可変条件に進化させるために使用される進化的アルゴリズムの抽出は、堅牢で現実のギャップを越えられるソリューションを得るために必要である。 しかし,進化過程に影響を及ぼす様々な形態的条件の影響を解析し,理解するための方法が未だ存在しないため,適切な変動範囲を選択することができる。 形態学的条件により,ロボットの起動状態や,騒音による動作時のセンサ読み取りの変動について述べる。 本稿では,これらの形態的変動の影響を計測し,変化の振幅,それらが導入されたモダリティ,そして進化するエージェントの性能と堅牢性との関係を解析する手法を提案する。 私たちの結果は i)進化的アルゴリズムは、非常に高い影響を持つ形態変化を許容することができる。 (ii)薬剤の作用に影響を及ぼす変動は、薬剤の初期状態又は環境に影響を及ぼす変動よりもはるかに許容される。 (iii)複数の評価による適合度尺度の精度の向上は必ずしも有用ではない。 さらに, 形態変化は, 変動条件と非変動条件の両方においてより優れた解を生成できることを示した。

Exposing an Evolutionary Algorithm that is used to evolve robot controllers to variable conditions is necessary to obtain solutions which are robust and can cross the reality gap. However, we do not yet have methods for analyzing and understanding the impact of the varying morphological conditions which impact the evolutionary process, and therefore for choosing suitable variation ranges. By morphological conditions, we refer to the starting state of the robot, and to variations in its sensor readings during operation due to noise. In this article, we introduce a method that permits us to measure the impact of these morphological variations and we analyze the relation between the amplitude of variations, the modality with which they are introduced, and the performance and robustness of evolving agents. Our results demonstrate that (i) the evolutionary algorithm can tolerate morphological variations which have a very high impact, (ii) variations affecting the actions of the agent are tolerated much better than variations affecting the initial state of the agent or of the environment, and (iii) improving the accuracy of the fitness measure through multiple evaluations is not always useful. Moreover, our results show that morphological variations permit generating solutions which perform better both in varying and non-varying conditions.
翻訳日:2023-10-14 15:54:20 公開日:2023-10-11
# 多段階適応型等角性時系列予測のための汎用的枠組み

A general framework for multi-step ahead adaptive conformal heteroscedastic time series forecasting ( http://arxiv.org/abs/2207.14219v9 )

ライセンス: Link先を確認
Martim Sousa, Ana Maria Tom\'e, Jos\'e Moreira(参考訳) 本稿では,適応型アダプティブ・アンサンブル・バッチ・マルチ入力・マルチアウトプット・コンフォーマライズ・クォンタイル回帰(aenbmimocqr)と呼ばれる新しいモデル非依存アルゴリズムを提案する。 本手法は共形予測原理に基づいているが,データ分割は必要とせず,データ交換ができない場合でも正確なカバレッジを提供する。 さらに、結果の予測間隔は、予測地平線に沿って経験的に有効であるだけでなく、不均一性を無視してはならない。 aenbmimocqrは分散シフトにロバストな設計であり、データ生成プロセスで再トレーニングや非現実的な厳密な仮定を伴わずに、その予測間隔は無制限に信頼性を維持する。 体系的な実験を通じて,本手法が実世界と合成データの両方において,他の競合手法よりも優れていることを実証する。 実験部分で使用されたコードと、AEnbMIMOCQRの使い方に関するチュートリアルは、以下のGitHubリポジトリで見ることができる。

This paper introduces a novel model-agnostic algorithm called adaptive ensemble batch multi-input multi-output conformalized quantile regression (AEnbMIMOCQR} that enables forecasters to generate multi-step ahead prediction intervals for a fixed pre-specified miscoverage rate in a distribution-free manner. Our method is grounded on conformal prediction principles, however, it does not require data splitting and provides close to exact coverage even when the data is not exchangeable. Moreover, the resulting prediction intervals, besides being empirically valid along the forecast horizon, do not neglect heteroscedasticity. AEnbMIMOCQR is designed to be robust to distribution shifts, which means that its prediction intervals remain reliable over an unlimited period of time, without entailing retraining or imposing unrealistic strict assumptions on the data-generating process. Through methodically experimentation, we demonstrate that our approach outperforms other competitive methods on both real-world and synthetic datasets. The code used in the experimental part and a tutorial on how to use AEnbMIMOCQR can be found at the following GitHub repository: https://github.com/Quilograma/AEnbMIMOCQR.
翻訳日:2023-10-14 15:54:01 公開日:2023-10-11
# 分類における参加型パーソナライゼーション

Participatory Personalization in Classification ( http://arxiv.org/abs/2302.03874v2 )

ライセンス: Link先を確認
Hailey Joren, Chirag Nagpal, Katherine Heller, Berk Ustun(参考訳) 機械学習モデルは、しばしば保護され、機密性があり、自己報告され、取得にコストがかかる情報によってパーソナライズされる。 これらのモデルは、人々の情報を使用するが、彼らの同意を助長したり、知らせたりしない。 個人は、モデルに個人情報を報告することや、そもそもパーソナライゼーションの恩恵を受けるかどうかを判断することからオプトアウトすることはできない。 我々は、個人が予測時にパーソナライズをオプトインできる、参加型システムと呼ばれる分類モデルのファミリーを導入する。 分類群属性を用いたパーソナライズのための参加型学習アルゴリズムを提案する。 臨床予測タスクにおける参加システムに関する包括的実証研究を行い,パーソナライゼーションとインプテーションの共通アプローチをベンチマークした。 その結果、参加型システムは、個人データを報告するグループ全体のパフォーマンスとデータ利用を改善しつつ、同意を容易にし、情報提供できることを示した。

Machine learning models are often personalized with information that is protected, sensitive, self-reported, or costly to acquire. These models use information about people but do not facilitate nor inform their consent. Individuals cannot opt out of reporting personal information to a model, nor tell if they benefit from personalization in the first place. We introduce a family of classification models, called participatory systems, that let individuals opt into personalization at prediction time. We present a model-agnostic algorithm to learn participatory systems for personalization with categorical group attributes. We conduct a comprehensive empirical study of participatory systems in clinical prediction tasks, benchmarking them with common approaches for personalization and imputation. Our results demonstrate that participatory systems can facilitate and inform consent while improving performance and data use across all groups who report personal data.
翻訳日:2023-10-14 15:46:17 公開日:2023-10-11
# 汎用関数近似と単一ポリシー集中性を用いたオフライン目標条件強化学習

Provably Efficient Offline Goal-Conditioned Reinforcement Learning with General Function Approximation and Single-Policy Concentrability ( http://arxiv.org/abs/2302.03770v2 )

ライセンス: Link先を確認
Hanlin Zhu, Amy Zhang(参考訳) ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。 特にオフラインのGCRLは、環境と追加のインタラクションなしでトレーニングタスクを実行するために、純粋にコンパイル済みのデータセットのみを必要とする。 オフラインGCRLはますます普及し、多くの先行研究がその実証的な成功を示しているが、効率的なオフラインGCRLアルゴリズムの理論的理解は、特に状態空間が巨大でオフラインデータセットが私たちが学ぼうとしているポリシーのみをカバーする場合、十分に確立されていない。 本稿では,既存の実験的に成功したオフラインgcrlアルゴリズムの厳密な理論的解析を行う。 このアルゴリズムは、わずかな修正の下で、目的関数の(半)強凸性の性質により一般関数近似を伴うサンプル複雑性(ここでは、学習されたポリシーの最適値として$\epsilon$が望ましい)を$\widetilde{O}(\text{poly}(1/\epsilon)$で楽しむことを証明している。 データセット(single-policy concentrability)と関数クラス(realizability)の仮定をほとんど必要としない。 さらに、このアルゴリズムは2つの非インターリーブ最適化ステップで構成されており、これは$v$-learning と policy learning と呼ばれ、minimax最適化を含まないので計算的に安定である。 また,様々な実環境において,修正アルゴリズムが従来のアルゴリズムよりも優れていることを示すことにより,この理論を実証的に検証した。 我々の知る限りでは、このアルゴリズムは一般関数近似と単一ポリシー集中性の両方で実現可能であり、ミニマックス最適化問題を解くことなく経験的に成功した最初のアルゴリズムである。

Goal-conditioned reinforcement learning (GCRL) refers to learning general-purpose skills that aim to reach diverse goals. In particular, offline GCRL only requires purely pre-collected datasets to perform training tasks without additional interactions with the environment. Although offline GCRL has become increasingly prevalent and many previous works have demonstrated its empirical success, the theoretical understanding of efficient offline GCRL algorithms is not well established, especially when the state space is huge and the offline dataset only covers the policy we aim to learn. In this paper, we provide a rigorous theoretical analysis of an existing empirically successful offline GCRL algorithm. We prove that under slight modification, this algorithm enjoys an $\widetilde{O}(\text{poly}(1/\epsilon))$ sample complexity (where $\epsilon$ is the desired suboptimality of the learned policy) with general function approximation thanks to the property of (semi-)strong convexity of the objective functions. We only require nearly minimal assumptions on the dataset (single-policy concentrability) and the function class (realizability). Moreover, this algorithm consists of two uninterleaved optimization steps, which we refer to as $V$-learning and policy learning, and is computationally stable since it does not involve minimax optimization. We also empirically validate our theory by showing that the modified algorithm outperforms the previous algorithm in various real-world environments. To the best of our knowledge, this is the first algorithm that is both provably efficient with general function approximation and single-policy concentrability, and empirically successful without requiring solving minimax optimization problems.
翻訳日:2023-10-14 15:46:02 公開日:2023-10-11
# オフラインアルゴリズムを用いたバンディットフィードバックによる組合せ型多腕バンディット問題の解法

A Framework for Adapting Offline Algorithms to Solve Combinatorial Multi-Armed Bandit Problems with Bandit Feedback ( http://arxiv.org/abs/2301.13326v2 )

ライセンス: Link先を確認
Guanyu Nie and Yididiya Y Nadew and Yanhui Zhu and Vaneet Aggarwal and Christopher John Quinn(参考訳) 本稿では,学習者が盗聴フィードバックにのみアクセスでき,報酬関数が非線形である確率的,組合せ的マルチアームバンディットの問題について検討する。 離散的オフライン近似アルゴリズムをバンドイットフィードバックのみを必要とする部分線形$\alpha$-regret 法に適用するための一般的なフレームワークを提供し,$\mathcal{o}\left(t^\frac{2}{3}\log(t)^\frac{1}{3}\right)$ 期待累積$\alpha$-regret の水平値$t$ を達成する。 このフレームワークは、関数評価において小さなエラーに対して堅牢なオフラインアルゴリズムを必要とする。 適応手順はオフライン近似アルゴリズムの明示的な知識も必要とせず、オフラインアルゴリズムはブラックボックスサブルーチンとして使うことができる。 提案フレームワークの有用性を示すために,提案フレームワークをサブモジュラー最大化の多様なアプリケーションに適用する。 実世界のデータを用いた実験において,knapsack制約による部分モジュラ最大化のための新しいCMABアルゴリズムは,逆向き設定のために開発されたフルバンド法よりも優れている。

We investigate the problem of stochastic, combinatorial multi-armed bandits where the learner only has access to bandit feedback and the reward function can be non-linear. We provide a general framework for adapting discrete offline approximation algorithms into sublinear $\alpha$-regret methods that only require bandit feedback, achieving $\mathcal{O}\left(T^\frac{2}{3}\log(T)^\frac{1}{3}\right)$ expected cumulative $\alpha$-regret dependence on the horizon $T$. The framework only requires the offline algorithms to be robust to small errors in function evaluation. The adaptation procedure does not even require explicit knowledge of the offline approximation algorithm -- the offline algorithm can be used as a black box subroutine. To demonstrate the utility of the proposed framework, the proposed framework is applied to diverse applications in submodular maximization. The new CMAB algorithms for submodular maximization with knapsack constraints outperform a full-bandit method developed for the adversarial setting in experiments with real-world data.
翻訳日:2023-10-14 15:45:28 公開日:2023-10-11
# 拡散生成モデルのための完全レシピ

A Complete Recipe for Diffusion Generative Models ( http://arxiv.org/abs/2303.01748v2 )

ライセンス: Link先を確認
Kushagra Pandey, Stephan Mandt(参考訳) スコアベース生成モデル(SGM)は、様々なタスクで例外的な合成結果を示す。 しかしながら、現在の前方拡散プロセスの設計の展望は、ほとんど未解決のままであり、しばしば物理的なヒューリスティックや仮定の単純化に依存している。 スケーラブルなベイズ後方サンプリング装置の開発から得られた知見を活かして,SGMにおける前方プロセスの定式化のための完全なレシピを提案し,所望の目標分布への収束を確保する。 当社のアプローチでは,既存のSGMをフレームワークの具体的徴候とみなすことが可能である。 本手法を基礎として,補助変数に富む拡張空間内のスコアベースモデリングに依存する位相空間ランジュバン拡散(psld)を導入する。 実験結果は,確立された画像合成ベンチマークにおいて,様々な競合するアプローチと比較して,PSLDのサンプル品質が向上し,速度品質のトレードオフが向上した。 注目すべきは、PSLDは最先端のSGM(FID: 2.10 for unconditional CIFAR-10 generation)に似たサンプル品質を実現することである。 最後に,事前学習したスコアネットワークを用いた条件合成におけるPSLDの適用性を実証し,今後の進歩に向けたSGMバックボーンとして魅力的な代替手段を提供する。 コードとモデルチェックポイントは \url{https://github.com/mandt-lab/PSLD} でアクセスできる。

Score-based Generative Models (SGMs) have demonstrated exceptional synthesis outcomes across various tasks. However, the current design landscape of the forward diffusion process remains largely untapped and often relies on physical heuristics or simplifying assumptions. Utilizing insights from the development of scalable Bayesian posterior samplers, we present a complete recipe for formulating forward processes in SGMs, ensuring convergence to the desired target distribution. Our approach reveals that several existing SGMs can be seen as specific manifestations of our framework. Building upon this method, we introduce Phase Space Langevin Diffusion (PSLD), which relies on score-based modeling within an augmented space enriched by auxiliary variables akin to physical phase space. Empirical results exhibit the superior sample quality and improved speed-quality trade-off of PSLD compared to various competing approaches on established image synthesis benchmarks. Remarkably, PSLD achieves sample quality akin to state-of-the-art SGMs (FID: 2.10 for unconditional CIFAR-10 generation). Lastly, we demonstrate the applicability of PSLD in conditional synthesis using pre-trained score networks, offering an appealing alternative as an SGM backbone for future advancements. Code and model checkpoints can be accessed at \url{https://github.com/mandt-lab/PSLD}.
翻訳日:2023-10-14 15:32:36 公開日:2023-10-11
# 多層発電機のための学習ジョイント潜在空間ebm事前モデル

Learning Joint Latent Space EBM Prior Model for Multi-layer Generator ( http://arxiv.org/abs/2306.06323v2 )

ライセンス: Link先を確認
Jiali Cui, Ying Nian Wu, Tian Han(参考訳) 本稿では,多層発電機モデル学習の基本問題について述べる。 多層ジェネレータモデルは、ジェネレータの上に先行モデルとして潜伏変数の複数のレイヤを構築し、複雑なデータ分散と階層表現の学習に役立ちます。 しかし、そのような事前モデルは通常、モデル表現性に制限のある非インフォーマティブ(条件付き)ガウス分布を仮定することで、潜在変数間の層間関係のモデル化に焦点を当てている。 この問題に対処し、より表現力のある先行モデルを学ぶために、多層ジェネレータをバックボーンとする潜在変数のすべての層にまたがるジョイント潜在空間上のエネルギーベースモデル(EBM)を提案する。 このようなジョイント潜時空間ebm事前モデルは、層毎のエネルギー項を通じて各層における層内コンテキスト関係をキャプチャし、異なる層間の潜時変数を共同で補正する。 そこで本研究では, マルコフ連鎖モンテカルロ (mcmc) による各層からの潜在変数の事前分布と後方分布をサンプリングするmle (maximum likelihood estimation) による共同学習法を開発した。 さらに,効率的な推論と学習を実現するために,コストのかかる後方mcmcサンプリングの償却に推論モデルを用いる変分訓練方式を提案する。 実験では,学習モデルが高品質な画像の生成と階層的特徴のキャプチャによって,より優れた異常検出を実現することを実証した。

This paper studies the fundamental problem of learning multi-layer generator models. The multi-layer generator model builds multiple layers of latent variables as a prior model on top of the generator, which benefits learning complex data distribution and hierarchical representations. However, such a prior model usually focuses on modeling inter-layer relations between latent variables by assuming non-informative (conditional) Gaussian distributions, which can be limited in model expressivity. To tackle this issue and learn more expressive prior models, we propose an energy-based model (EBM) on the joint latent space over all layers of latent variables with the multi-layer generator as its backbone. Such joint latent space EBM prior model captures the intra-layer contextual relations at each layer through layer-wise energy terms, and latent variables across different layers are jointly corrected. We develop a joint training scheme via maximum likelihood estimation (MLE), which involves Markov Chain Monte Carlo (MCMC) sampling for both prior and posterior distributions of the latent variables from different layers. To ensure efficient inference and learning, we further propose a variational training scheme where an inference model is used to amortize the costly posterior MCMC sampling. Our experiments demonstrate that the learned model can be expressive in generating high-quality images and capturing hierarchical features for better outlier detection.
翻訳日:2023-10-14 15:26:39 公開日:2023-10-11
# SatLM: 宣言型プロンプトを用いた満足度支援言語モデル

SatLM: Satisfiability-Aided Language Models Using Declarative Prompting ( http://arxiv.org/abs/2305.09656v3 )

ライセンス: Link先を確認
Xi Ye, Qiaochu Chen, Isil Dillig, Greg Durrett(参考訳) これまでの研究は、大規模言語モデル(LLM)におけるチェーン・オブ・シークレットとプログラム表現を組み合わせることで、効果的で透明な推論を実現してきた。 このようなアプローチは、前方推論のみを必要とするタスク(例えば、単純算術)ではうまく機能するが、より洗練された計画と探索を必要とする問題の制約にはあまり効果がない。 本稿では,LLMの推論能力を向上させるために,新しい満足度支援言語モデリング(SatLM)手法を提案する。 我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明を利用して最終解を導出する。 このアプローチには2つの大きな利点がある。 宣言的な仕様は推論ステップよりも問題記述に近いので、LCMは記述からより正確に解析することができる。 さらに、自動定理証明器に実際の推論タスクをオフロードすることにより、解析された仕様に対する回答の正しさを保証し、解法における計画誤差を回避することができる。 我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムでプログラム支援されたLMを一貫して上回ることを示す。 特にSATLMは、GSM算術推論データセットの挑戦的なサブセットでプログラム支援LMを23%上回り、SATLMはLSATおよびボードゲームQA上の新しいSoTAも達成し、各トレーニングセットでトレーニングされた以前のモデルを上回っている。

Prior work has combined chain-of-thought prompting in large language models (LLMs) with programmatic representations to perform effective and transparent reasoning. While such an approach works well for tasks that only require forward reasoning (e.g., straightforward arithmetic), it is less effective for constraint solving problems that require more sophisticated planning and search. In this paper, we propose a new satisfiability-aided language modeling (SatLM) approach for improving the reasoning capabilities of LLMs. We use an LLM to generate a declarative task specification rather than an imperative program and leverage an off-the-shelf automated theorem prover to derive the final answer. This approach has two key advantages. The declarative specification is closer to the problem description than the reasoning steps are, so the LLM can parse it out of the description more accurately. Furthermore, by offloading the actual reasoning task to an automated theorem prover, our approach can guarantee the correctness of the answer with respect to the parsed specification and avoid planning errors in the solving process. We evaluate SATLM on 8 different datasets and show that it consistently outperforms program-aided LMs in the imperative paradigm. In particular, SATLM outperforms program-aided LMs by 23% on a challenging subset of the GSM arithmetic reasoning dataset; SATLM also achieves a new SoTA on LSAT and BoardgameQA, surpassing previous models that are trained on the respective training sets.
翻訳日:2023-10-14 15:25:39 公開日:2023-10-11
# アイデンティティに基づくソーシャルメディアバイオグラフィーにおける自己表現の社会的次元の測定

Measuring Social Dimensions of Self-Presentation in Social Media Biographies with an Identity-based Approach ( http://arxiv.org/abs/2305.09548v2 )

ライセンス: Link先を確認
Navid Madani, Rabiraj Bandyopadhyay, Briony Swire-Thompson, Michael Miller Yoder and Kenneth Joseph(参考訳) Twitter、Instagram、Tiktokなどのソーシャルメディアユーザーは、プロフィールの説明、またはバイオ、ユーザープロフィールのフィールドを使って、自分自身を世界に提示する。 社会的文脈が一つのアイデンティティを採用することを奨励する「オフライン」の世界とは対照的に、プロファイル記述はユーザーが複数の、時には矛盾する社会的アイデンティティを使って自己を示すことを奨励する自由テキスト分野である。 社会学者、社会心理学者、社会言語学者、そしてますます計算される社会科学者は、個々の社会的アイデンティティの意味を推定する大規模な手法を開発してきたが、ソーシャルメディアのバイオロジーに存在する社会的アイデンティティのコレクションから社会的意味が現れる方法にはほとんど取り組んでいない。 本研究は,twitter biosで表現される意味の社会的次元を測定する3つの新しいアイデンティティに基づく手法を提案し,評価する。 これらのモデルは 合理的な基準よりも 1) 一つの伝記の中でどのアイデンティティが共起しやすいかを予測すること。 2)Twitter上での社会意味の健全な次元に沿ったソーシャルメディア全体の認識の定量化。 提案手法は,低品質ニュースサイトと高質ニュースサイトからTwitter上でのURLの共有と,党派・宗教・年齢・性別の次元に沿った自己表現がどのように関連しているかをよりよく理解するために,モデル出力を用いて計算社会科学環境で有効性を示す。

Social media users on sites like Twitter, Instagram, and Tiktok use the profile description, or bio, field of user profiles to present themselves to the world. In contrast to the ``offline'' world, where social context often encourages us to adopt a single identity, the profile description is a free-text field in which users are encouraged to present the self using multiple, sometimes conflicting, social identities. While sociologists, social psychologists, sociolinguists, and increasingly computational social scientists, have developed a large and growing array of methods to estimate the meaning of individual social identities, little work has attended to the ways in which social meanings emerge from the collections of social identities present in social media bios. The present work proposes and evaluate three novel, identity-based methods to measure the social dimensions of meaning expressed in Twitter bios. We show that these models outperform reasonable baselines with respect to 1) predicting which sets of identities are more likely to co-occur within a single biography and 2) quantifying perceptions of entire social media biographies along salient dimensions of social meaning on Twitter, in particular partisanship. We demonstrate the utility of our method in a computational social science setting by using model outputs to better understand how self presentation along dimensions of partisanship, religion, age, and gender are related to the sharing of URLs on Twitter from low versus high quality news sites.
翻訳日:2023-10-14 15:25:12 公開日:2023-10-11
# 神経常微分方程式の一般化境界とディープ残差ネットワーク

Generalization bounds for neural ordinary differential equations and deep residual networks ( http://arxiv.org/abs/2305.06648v2 )

ライセンス: Link先を確認
Pierre Marion(参考訳) ニューラル常微分方程式(Neural ordinary differential equations,neural ODEs)は、連続深層学習モデルの一般的なファミリーである。 本研究では、時間依存型ニューラルODEを含む連続時間パラメータを持つパラメータ化ODEの大規模なファミリーを考える。 このクラスに対する一般化は、リプシッツに基づく議論によって導かれる。 ニューラルodeとディープ残差ネットワークの類似性を利用することで、特にディープ残差ネットワークのクラスに束縛された一般化を実現する。 境界は、連続する重み行列間の差の大きさを含む。 この量がニューラルネットワークの一般化能力にどのように影響するかを数値的に示す。

Neural ordinary differential equations (neural ODEs) are a popular family of continuous-depth deep learning models. In this work, we consider a large family of parameterized ODEs with continuous-in-time parameters, which include time-dependent neural ODEs. We derive a generalization bound for this class by a Lipschitz-based argument. By leveraging the analogy between neural ODEs and deep residual networks, our approach yields in particular a generalization bound for a class of deep residual networks. The bound involves the magnitude of the difference between successive weight matrices. We illustrate numerically how this quantity affects the generalization capability of neural networks.
翻訳日:2023-10-14 15:24:19 公開日:2023-10-11
# 都市ビブランシーにおける時空間性差

Spatiotemporal gender differences in urban vibrancy ( http://arxiv.org/abs/2304.12840v2 )

ライセンス: Link先を確認
Thomas Collins and Riccardo Di Clemente and Mario Guti\'errez-Roig and Federico Botta(参考訳) 都市活力は都市部における人間のダイナミックな活動である。 都市の特徴や人間との交流の機会によって異なる場合もあるが、都市住民の社会環境や社会環境によっても異なる可能性がある。 異なる人口集団がどのように都市を経験するかの不均一性は、住民の嗜好、アクセシビリティと機会、大規模な移動行動の違いにより、性別分離を引き起こす可能性がある。 しかし、伝統的な研究は、都市の活力と都市の特徴との関係、異性間の違い、都市における人種差別にどのように影響するかについて、高頻度で理解できていない。 以上の結果から,(1)都会の活力には男女差があり,(2)「関心の点」と交通ネットワークの相違がみられ,(3)各都市に肯定的・否定的な「空間的流出」が存在することが示唆された。 そこで我々は,携帯電話のほぼユビキタスな利用を生かしたコールディテールデータを用いた定量的手法を用いて,イタリア7都市における空間行動の高周波観測を行う。 都会の特徴から直接的効果と「スパイルオーバー」効果の空間モデルによる男女差の比較を行った。 私たちの結果は、都市における不平等と将来の都市をより公平にする方法についての理解を深めます。

Urban vibrancy is the dynamic activity of humans in urban locations. It can vary with urban features and the opportunities for human interactions, but it might also differ according to the underlying social conditions of city inhabitants across and within social surroundings. Such heterogeneity in how different demographic groups may experience cities has the potential to cause gender segregation because of differences in the preferences of inhabitants, their accessibility and opportunities, and large-scale mobility behaviours. However, traditional studies have failed to capture fully a high-frequency understanding of how urban vibrancy is linked to urban features, how this might differ for different genders, and how this might affect segregation in cities. Our results show that (1) there are differences between males and females in terms of urban vibrancy, (2) the differences relate to `Points of Interest` as well as transportation networks, and (3) that there are both positive and negative `spatial spillovers` existing across each city. To do this, we use a quantitative approach using Call Detail Record data--taking advantage of the near-ubiquitous use of mobile phones--to gain high-frequency observations of spatial behaviours across the seven most prominent cities of Italy. We use a spatial model comparison approach of the direct and `spillover` effects from urban features on male-female differences. Our results increase our understanding of inequality in cities and how we can make future cities fairer.
翻訳日:2023-10-14 15:23:30 公開日:2023-10-11
# アウト・オブ・ディストリビューション・ジェネリザビリティを持つ大規模視覚言語モデルの蒸留

Distilling Large Vision-Language Model with Out-of-Distribution Generalizability ( http://arxiv.org/abs/2307.03135v3 )

ライセンス: Link先を確認
Xuanlin Li, Yunhao Fang, Minghua Liu, Zhan Ling, Zhuowen Tu, Hao Su(参考訳) 大きなビジョン言語モデルは優れた性能を達成しているが、そのサイズと計算要件により、リソースに制約のあるデバイスや時間に敏感なタスクへのデプロイは現実的ではない。 モデル蒸留は、より大きなモデルの性能を維持する、より小さくより高速なモデルを作成するプロセスであり、ソリューションに向けた有望な方向である。 本稿では,大規模教師の視覚モデルから軽度学生モデルへの視覚表現の蒸留について,小規模または中規模データセットを用いて検討する。 本研究は,従来モデル蒸留の文献では見過ごされてきた課題であるオープン・ボキャブラリー・アウト・オブ・ディストリビューション(ood)の一般化に焦点を当てたものである。 1) 教師の視覚表現空間を模倣し, 教師との視覚・言語連携を慎重に促進すること, (2) 教師の言語表現を情報的かつ細かな意味的属性で豊かにすることで, 異なるラベルを効果的に区別することである。 我々は,いくつかの指標を提案し,その手法を検討するために広範囲な実験を行う。 その結果,オープン・ボカブラリー・アウト・オブ・ディストリビューション分類におけるゼロショットと少数ショットの学生成績が有意に改善し,提案手法の有効性が示された。 Poster: https://xuanlinli17.github.io/pdfs/iccv23_large_vlm_distillation_poster.pdf Code: https://github.com/xuanlinli17/large_vlm_distillation_ood

Large vision-language models have achieved outstanding performance, but their size and computational requirements make their deployment on resource-constrained devices and time-sensitive tasks impractical. Model distillation, the process of creating smaller, faster models that maintain the performance of larger models, is a promising direction towards the solution. This paper investigates the distillation of visual representations in large teacher vision-language models into lightweight student models using a small- or mid-scale dataset. Notably, this study focuses on open-vocabulary out-of-distribution (OOD) generalization, a challenging problem that has been overlooked in previous model distillation literature. We propose two principles from vision and language modality perspectives to enhance student's OOD generalization: (1) by better imitating teacher's visual representation space, and carefully promoting better coherence in vision-language alignment with the teacher; (2) by enriching the teacher's language representations with informative and finegrained semantic attributes to effectively distinguish between different labels. We propose several metrics and conduct extensive experiments to investigate their techniques. The results demonstrate significant improvements in zero-shot and few-shot student performance on open-vocabulary out-of-distribution classification, highlighting the effectiveness of our proposed approaches. Poster: https://xuanlinli17.github.io/pdfs/iccv23_large_vlm_distillation_poster.pdf Code: https://github.com/xuanlinli17/large_vlm_distillation_ood
翻訳日:2023-10-14 15:13:24 公開日:2023-10-11
# GIO: トレーニングデータセット選択のための勾配情報最適化

GIO: Gradient Information Optimization for Training Dataset Selection ( http://arxiv.org/abs/2306.11670v2 )

ライセンス: Link先を確認
Dante Everaert, Christopher Potts(参考訳) 利用可能な列車の例のサブセット上でモデルのトレーニングを行うことは、その例が可変品質であることや、パフォーマンスを犠牲にすることなく、少ない例でトレーニングしたいという理由から、しばしば有利である。 本稿では、このデータ選択問題に対するスケーラブルでタスクに依存しないアプローチであるグラディエント情報最適化(GIO)を提案する。 GIOは自然で情報理論的な目的から始まり、実際は難解である。 私たちの貢献は、目的のシンプルな緩和と高効率な実装によって、高度にスケーラブルにできることを示すことです。 機械翻訳,綴り修正,画像認識を用いた実験において,gioが極めて小さな列車セットで優れた結果をもたらすことを示す。 これらの結果は、GIO自体の異なる表現モデルとハイパーパラメータに対して堅牢である。 GIOはタスクとドメインに依存しないため、新しいデータセットやドメインに最初から適用することができる。

It is often advantageous to train models on a subset of the available train examples, because the examples are of variable quality or because one would like to train with fewer examples, without sacrificing performance. We present Gradient Information Optimization (GIO), a scalable, task-agnostic approach to this data selection problem that requires only a small set of (unlabeled) examples representing a target distribution. GIO begins from a natural, information-theoretic objective that is intractable in practice. Our contribution is in showing that it can be made highly scalable through a simple relaxation of the objective and a highly efficient implementation. In experiments with machine translation, spelling correction, and image recognition, we show that GIO delivers outstanding results with very small train sets. These findings are robust to different representation models and hyperparameters for GIO itself. GIO is task- and domain-agnostic and can be applied out-of-the-box to new datasets and domains.
翻訳日:2023-10-14 15:12:04 公開日:2023-10-11
# ディープニューラルネットワークアーキテクチャの非同期進化

Asynchronous Evolution of Deep Neural Network Architectures ( http://arxiv.org/abs/2308.04102v2 )

ライセンス: Link先を確認
Jason Liang, Hormoz Shahrzad, Risto Miikkulainen(参考訳) 多くの進化的アルゴリズム(EA)は、候補の並列評価を利用する。 しかし、評価時間が著しく異なる場合、多くのワーカノード(例えば、\計算クライアント)は、その時間の大部分をアイドル状態にし、次の世代が作られるのを待ちます。 ディープニューラルネットワークのアーキテクチャとハイパーパラメータを最適化するeasのクラスである evolutionary neural architecture search (enas) は、この問題に特に脆弱である。 本稿では,ENASと協調して動作する汎用非同期評価戦略(AES)を提案する。 aesは最大$k$のキューを保持して、評価のために労働者に送信し、$m<<k$の個人が評価されるとすぐに次の世代に進むことでスループットを向上させる。 M$の適切な値は、多様性と効率のバランスをとって実験的に決定される。 AESの汎用性とパワーを示すために、8行のソートネットワーク設計(評価時間に制限のある単一ポピュレーション最適化タスク)で最初に評価され、2倍以上のスピードアップを実現した。 次に、14倍のスピードアップが観測された11ビットマルチプレクサ設計(拡張変数を持つ単一集団探索タスク)で評価した。 その後、イメージキャプション(マルチポピュレーションのオープンエンド最適化タスク)のためにENASにスケールアップされ、2倍以上のスピードアップを実現した。 すべての問題において、aesはenasのような長く可変な評価時間を持つ複雑なシステムの進化を並列化する有望な方法であることが示唆された。

Many evolutionary algorithms (EAs) take advantage of parallel evaluation of candidates. However, if evaluation times vary significantly, many worker nodes (i.e.,\ compute clients) are idle much of the time, waiting for the next generation to be created. Evolutionary neural architecture search (ENAS), a class of EAs that optimizes the architecture and hyperparameters of deep neural networks, is particularly vulnerable to this issue. This paper proposes a generic asynchronous evaluation strategy (AES) that is then adapted to work with ENAS. AES increases throughput by maintaining a queue of up to $K$ individuals ready to be sent to the workers for evaluation and proceeding to the next generation as soon as $M<<K$ individuals have been evaluated. A suitable value for $M$ is determined experimentally, balancing diversity and efficiency. To showcase the generality and power of AES, it was first evaluated in eight-line sorting network design (a single-population optimization task with limited evaluation-time variability), achieving an over two-fold speedup. Next, it was evaluated in 11-bit multiplexer design (a single-population discovery task with extended variability), where a 14-fold speedup was observed. It was then scaled up to ENAS for image captioning (a multi-population open-ended-optimization task), resulting in an over two-fold speedup. In all problems, a multifold performance improvement was observed, suggesting that AES is a promising method for parallelizing the evolution of complex systems with long and variable evaluation times, such as those in ENAS.
翻訳日:2023-10-14 15:03:06 公開日:2023-10-11
# 医学オンコロジーノートからの推測による大規模言語モデルのゼロショット能力の探索

Exploring zero-shot capability of large language models in inferences from medical oncology notes ( http://arxiv.org/abs/2308.03853v2 )

ライセンス: Link先を確認
Madhumita Sushil, Vanessa E. Kennedy, Divneet Mandair, Brenda Y. Miao, Travis Zack, Atul J. Butte(参考訳) 腫瘍学における医療と観察の研究は、患者の疾患の進行と治療の歴史を徹底的に理解する必要がある。 彼らの重要な役割にもかかわらず、現在のオンコロジー情報表現やアノテーションスキーマはこれらのノートに記録されている情報の多様性を完全にカプセル化していない。 大規模言語モデル(LLM)は、近年、様々な医学的自然言語処理タスクにおいて顕著な性能を示したが、現在、包括的な注釈付けオンコロジーデータセットが不足しているため、複雑なオンコロジーノートのレトリックによる抽出と推論におけるLLMの広範な評価がまだ検討されている。 症例の特徴,腫瘍の特徴,検査,治療,時間的特徴を包含して,テキストオンコロジー情報を注釈する詳細なスキーマを開発した。 カリフォルニア大学サンフランシスコ校の40個の乳腺・膵癌進展ノートのコーパスを用いて,最近リリースされた3つのLCM(GPT-4, GPT-3.5-turbo, FLAN-UL2)の能力を評価し,臨床経過ノートの2項目から詳細な腫瘍学的履歴をゼロショット抽出した。 チームは9028のエンティティ、9986の修飾子、5312の関連に注釈を付けました。 gpt-4 モデルでは、平均 bleu スコア 0.68、平均 rouge スコア 0.71、複雑なタスクにおける平均精度 67% という全体的な性能が示されていた。 特に腫瘍の特徴や薬剤抽出に優れており、がんによる症状を推察する高度なタスクや今後の医薬品の考慮において優れた性能を示した。 GPT-4は、臨床研究、複雑な人口管理、質の高い患者ケアの文書化に必要ながん進展ノートから重要な事実を抽出するために既に使用することができる。

Both medical care and observational studies in oncology require a thorough understanding of a patient's disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 40 de-identified breast and pancreatic cancer progress notes at University of California, San Francisco, we applied this schema to assess the abilities of three recently-released LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to perform zero-shot extraction of detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 9028 entities, 9986 modifiers, and 5312 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.68, an average ROUGE score of 0.71, and an average accuracy of 67% on complex tasks (expert manual evaluation on subset). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in advanced tasks of inferring symptoms due to cancer and considerations of future medications. GPT-4 may already be usable to extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.
翻訳日:2023-10-14 15:02:38 公開日:2023-10-11
# MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods ( http://arxiv.org/abs/2309.10966v5 )

ライセンス: Link先を確認
Mara Finkelstein, Subhajit Naskar, Mehdi Mirzazadeh, Apurva Shah, and Markus Freitag(参考訳) 自然言語生成(nlg)タスクのデコード手法に関する最近の研究は、モデル確率が必ずしも人間の好みと一致するとは限らないため、マップデコードが最適ではないことを示した。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。 これらの復号法は最先端の性能を実現するが、計算コストは極めて高い。 本研究では,これらの復号法から得られた品質向上を,推定時に効率的な復号アルゴリズムを用いて蒸留するmbr微調整とqe微調整を提案する。 ニューラルネットワーク翻訳(nmt)の標準的nlgタスクを用いて,自己学習においても,これらの微調整手法がベースモデルを大幅に上回っていることを示す。 さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。 これらの知見は, 復号時の最大効率を維持しつつ, 人間が収集したデータと同等かそれ以上か, モデル品質の改善を達成するために, 単言語データを活用する新しい方法を提案する。

Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
翻訳日:2023-10-14 14:52:54 公開日:2023-10-11
# DeepSpeed4Science Initiative: 高度なAIシステム技術による大規模科学的発見の実現

DeepSpeed4Science Initiative: Enabling Large-Scale Scientific Discovery through Sophisticated AI System Technologies ( http://arxiv.org/abs/2310.04610v2 )

ライセンス: Link先を確認
Shuaiwen Leon Song, Bonnie Kruft, Minjia Zhang, Conglong Li, Shiyang Chen, Chengming Zhang, Masahiro Tanaka, Xiaoxia Wu, Jeff Rasley, Ammar Ahmad Awan, Connor Holmes, Martin Cai, Adam Ghanem, Zhongzhu Zhou, Yuxiong He, Pete Luferenko, Divya Kumar, Jonathan Weyn, Ruixiong Zhang, Sylwester Klocek, Volodymyr Vragov, Mohammed AlQuraishi, Gustaf Ahdritz, Christina Floristean, Cristina Negri, Rao Kotamarthi, Venkatram Vishwanath, Arvind Ramanathan, Sam Foreman, Kyle Hippe, Troy Arcomano, Romit Maulik, Maxim Zvyagin, Alexander Brace, Bin Zhang, Cindy Orozco Bohorquez, Austin Clyde, Bharat Kale, Danilo Perez-Rivera, Heng Ma, Carla M. Mann, Michael Irvin, J. Gregory Pauloski, Logan Ward, Valerie Hayot, Murali Emani, Zhen Xie, Diangen Lin, Maulik Shukla, Ian Foster, James J. Davis, Michael E. Papka, Thomas Brettin, Prasanna Balaprakash, Gina Tourassi, John Gounley, Heidi Hanson, Thomas E Potok, Massimiliano Lupo Pasini, Kate Evans, Dan Lu, Dalton Lunga, Junqi Yin, Sajal Dash, Feiyi Wang, Mallikarjun Shankar, Isaac Lyngaas, Xiao Wang, Guojing Cong, Pei Zhang, Ming Fan, Siyan Liu, Adolfy Hoisie, Shinjae Yoo, Yihui Ren, William Tang, Kyle Felker, Alexey Svyatkovskiy, Hang Liu, Ashwin Aji, Angela Dalton, Michael Schulte, Karl Schulz, Yuntian Deng, Weili Nie, Josh Romero, Christian Dallago, Arash Vahdat, Chaowei Xiao, Thomas Gibbs, Anima Anandkumar, Rick Stevens(参考訳) 今後10年間で、ディープラーニングは自然科学に革命をもたらし、自然発生をモデル化し予測する能力を高めます。 これは新しい科学探査の時代を象徴し、医薬品開発から再生可能エネルギーまで幅広い分野に大きな進歩をもたらした。 このコールに答えるために、私たちはDeepSpeed4Scienceイニシアチブ(Deepspeed4Science Initiative、deepspeed4science.ai)を紹介します。このイニシアチブは、AIシステム技術革新を通じてユニークな機能を構築することを目的としています。 DeepSpeedの現在の技術柱(トレーニング、推論、圧縮)をベース技術イネーブラーとして活用することにより、DeepSpeed4Scienceは、汎用的な大規模言語モデル(LLM)の加速に使用される一般的な技術的アプローチを越えて、科学的発見を加速するように設計された、新たなAIシステムのセットを作成する。 本稿では,構造生物学研究における2つの重要なシステム課題に対処するために,DeepSpeed4Scienceで行った初期の成果を紹介する。

In the upcoming decade, deep learning may revolutionize the natural sciences, enhancing our capacity to model and predict natural occurrences. This could herald a new era of scientific exploration, bringing significant advancements across sectors from drug development to renewable energy. To answer this call, we present DeepSpeed4Science initiative (deepspeed4science.ai) which aims to build unique capabilities through AI system technology innovations to help domain experts to unlock today's biggest science mysteries. By leveraging DeepSpeed's current technology pillars (training, inference and compression) as base technology enablers, DeepSpeed4Science will create a new set of AI system technologies tailored for accelerating scientific discoveries by addressing their unique complexity beyond the common technical approaches used for accelerating generic large language models (LLMs). In this paper, we showcase the early progress we made with DeepSpeed4Science in addressing two of the critical system challenges in structural biology research.
翻訳日:2023-10-14 14:45:28 公開日:2023-10-11
# 微分制約ニューラルネットワークの訓練について

On Training Derivative-Constrained Neural Networks ( http://arxiv.org/abs/2310.01649v2 )

ライセンス: Link先を確認
KaiChieh Lo, Daniel Huang(参考訳) 本稿では、ニューラルネットワーク(NN)の入力に対する予測の(部分的)微分が、微分制約(DC)NNとして追加の訓練信号として使用される設定について述べる。 この状況は自然科学の物理学的な設定でよく見られる。 直流NNのトレーニングを改善するための統合RELU(IRELU)アクティベーション機能を提案する。 また,DCトレーニングの安定化を支援するため,非正規化やラベル再スケーリングも検討した。 我々は,量子化学やSciML(SciML)タスクなど,物理インフォームドセッティングの手法を評価する。 ireluアクティベーションと非正規化とラベルリスケーリングを組み合わせた既存のアーキテクチャは、デリバティブ制約によって提供されるトレーニング信号をうまく組み込むことができる。

We refer to the setting where the (partial) derivatives of a neural network's (NN's) predictions with respect to its inputs are used as additional training signal as a derivative-constrained (DC) NN. This situation is common in physics-informed settings in the natural sciences. We propose an integrated RELU (IReLU) activation function to improve training of DC NNs. We also investigate denormalization and label rescaling to help stabilize DC training. We evaluate our methods on physics-informed settings including quantum chemistry and Scientific Machine Learning (SciML) tasks. We demonstrate that existing architectures with IReLU activations combined with denormalization and label rescaling better incorporate training signal provided by derivative constraints.
翻訳日:2023-10-14 14:43:02 公開日:2023-10-11
# 熱純量子状態を用いた半定義型量子プログラミング

Quantum Semidefinite Programming with Thermal Pure Quantum States ( http://arxiv.org/abs/2310.07774v1 )

ライセンス: Link先を確認
Oscar Watts, Yuta Kikuchi, Luuk Coopmans(参考訳) semidefinite program (sdps) は、組合せ最適化、運用研究、量子情報科学における応用を含む凸最適化問題の特定のクラスである。 Brand\~{a}o と Svore のセミナル研究は、行列乗法重み付けアルゴリズムの ``quantization'' が、量子コンピュータをギブス状態サンプリング器として使用することにより、古典的アルゴリズムよりも2次高速にSDPの近似解を提供することを示した。 この量子アルゴリズムの修正を提案し,gibbs状態サンプリング器を熱純量子(tpq)状態の合成に置き換えることで,同様の高速化が得られることを示す。 提案手法では,問題の大きさが大きくなるにつれて問題依存誤差が増大するが,ギブス状態の浄化を回避し,多数のアシラ量子ビットを節約できる可能性がある。 さらに, 一致した場合, 資源をさらに削減し, 計算ボトルネックをギブス状態から基底状態エネルギー推定にシフトさせるスペクトル条件を同定する。 古典的状態ベクトルシミュレーションを用いて、ハミルトン学習問題の特定の場合におけるアルゴリズムの効率性を検証する。 我々は、最大$n=2^{10}$変数の大きさの2次元スピンレスハバードおよび1次元ハイゼンベルクxxzモデルの近似解を得ることができる。 Hubbard モデルでは,Toffoli ゲートの数や qubit の数など,アルゴリズムのリソース要件を推定する。

Semidefinite programs (SDPs) are a particular class of convex optimization problems with applications in combinatorial optimization, operational research, and quantum information science. Seminal work by Brand\~{a}o and Svore shows that a ``quantization'' of the matrix multiplicative-weight algorithm can provide approximate solutions to SDPs quadratically faster than the best classical algorithms by using a quantum computer as a Gibbs-state sampler. We propose a modification of this quantum algorithm and show that a similar speedup can be obtained by replacing the Gibbs-state sampler with the preparation of thermal pure quantum (TPQ) states. While our methodology incurs an additional problem-dependent error, which decreases as the problem size grows, it avoids the preparation of purified Gibbs states, potentially saving a number of ancilla qubits. In addition, we identify a spectral condition which, when met, reduces the resources further, and shifts the computational bottleneck from Gibbs state preparation to ground-state energy estimation. With classical state-vector simulations, we verify the efficiency of the algorithm for particular cases of Hamiltonian learning problems. We are able to obtain approximate solutions for two-dimensional spinless Hubbard and one-dimensional Heisenberg XXZ models for sizes of up to $N=2^{10}$ variables. For the Hubbard model, we provide an estimate of the resource requirements of our algorithm, including the number of Toffoli gates and the number of qubits.
翻訳日:2023-10-14 14:34:38 公開日:2023-10-11
# drivingdiffusion:潜在拡散モデルを用いたレイアウト誘導型マルチビュー駆動シーンビデオ生成

DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model ( http://arxiv.org/abs/2310.07771v1 )

ライセンス: Link先を確認
Xiaofan Li, Yifu Zhang and Xiaoqing Ye(参考訳) 強力で統一された鳥眼ビュー(BEV)表現に基づく自律運転の普及に伴い、高精度なアノテーションを備えた高品質で大規模な多視点ビデオデータへの需要が緊急に要求される。 しかし,このような大規模マルチビューデータは,収集コストやアノテーションコストがかかるため入手が困難である。 この問題を軽減するために,3次元レイアウトで制御されるリアルなマルチビュー映像を生成するための空間的時間的一貫した拡散フレームワーク DrivingDiffusion を提案する。 マルチビュービデオを3Dレイアウトで合成するには3つの課題がある。 1)クロスビュー整合性と 2) クロスフレームの一貫性? 3) 生成されたインスタンスの品質を保証するには? drivingdiffusionは、マルチビュー・シングルフレーム画像生成ステップ、複数のカメラで共有されるシングルビュービデオ生成ステップ、長いビデオ生成を処理できるポストプロセッシングをカスケードすることで、問題を解決します。 マルチビューモデルでは、隣接カメラ間の情報交換により、マルチビュー画像の一貫性が確保される。 時間モデルでは,第1のフレームのマルチビュー画像から,後続のフレーム生成に注意を要する情報を主に問い合わせる。 また,生成されたインスタンスの品質を効果的に向上するために,ローカルプロンプトを導入する。 ポストプロセッシングでは,後続フレームのクロスビュー一貫性をさらに高め,時間的スライディングウインドウアルゴリズムを用いて映像長を延ばす。 これ以上の費用がかからなければ、われわれのモデルは複雑な都会のシーンで大規模なリアルなマルチカメラ運転ビデオを生成でき、下流の運転タスクを加速できる。 コードは公開される予定だ。

With the increasing popularity of autonomous driving based on the powerful and unified bird's-eye-view (BEV) representation, a demand for high-quality and large-scale multi-view video data with accurate annotation is urgently required. However, such large-scale multi-view data is hard to obtain due to expensive collection and annotation costs. To alleviate the problem, we propose a spatial-temporal consistent diffusion framework DrivingDiffusion, to generate realistic multi-view videos controlled by 3D layout. There are three challenges when synthesizing multi-view videos given a 3D layout: How to keep 1) cross-view consistency and 2) cross-frame consistency? 3) How to guarantee the quality of the generated instances? Our DrivingDiffusion solves the problem by cascading the multi-view single-frame image generation step, the single-view video generation step shared by multiple cameras, and post-processing that can handle long video generation. In the multi-view model, the consistency of multi-view images is ensured by information exchange between adjacent cameras. In the temporal model, we mainly query the information that needs attention in subsequent frame generation from the multi-view images of the first frame. We also introduce the local prompt to effectively improve the quality of generated instances. In post-processing, we further enhance the cross-view consistency of subsequent frames and extend the video length by employing temporal sliding window algorithm. Without any extra cost, our model can generate large-scale realistic multi-camera driving videos in complex urban scenes, fueling the downstream driving tasks. The code will be made publicly available.
翻訳日:2023-10-14 14:34:09 公開日:2023-10-11
# 直交重み付きディープネットワークにおける特徴学習と一般化

Feature Learning and Generalization in Deep Networks with Orthogonal Weights ( http://arxiv.org/abs/2310.07765v1 )

ライセンス: Link先を確認
Hannah Day, Yonatan Kahn, Daniel A. Roberts(参考訳) 独立ガウス分布から初期化された重み付き完全連結深層ニューラルネットワークは臨界性に調整することができ、ネットワークを伝播する信号の指数関数的成長や減衰を防ぐことができる。 しかし、これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示しており、深さに匹敵する幅のネットワークのトレーニングを損なう可能性がある。 直交行列のアンサンブルから初期化したタン・アクティベーションと重みを持つ長方形ネットワークは、深さに依存しない事前活性化変動に対応し、逆幅の先頭方向を示す。 さらに, 初期化時には, ガウス初期化の場合のように成長せずに成長するのではなく, トレーニング中の可観測物の進化を制御し, 逆幅の順に, ニューラルタンジェントカーネル(NTK)とその子孫を含む全ての相関体が, 深さ$\sim 20$で飽和することを示した。 この構造は、全体のノイズを低減しつつ、有限幅特徴学習を保ち、一般化とトレーニング速度の両方を改善していると推測する。 mnist と cifar-10 の分類タスクにおいて,全バッチ勾配降下下で訓練された深部非線形直交ネットワークの優れた性能に対して,ntk の実験的測定を関連付けることで,実験的な正当性を示す。

Fully-connected deep neural networks with weights initialized from independent Gaussian distributions can be tuned to criticality, which prevents the exponential growth or decay of signals propagating through the network. However, such networks still exhibit fluctuations that grow linearly with the depth of the network, which may impair the training of networks with width comparable to depth. We show analytically that rectangular networks with tanh activations and weights initialized from the ensemble of orthogonal matrices have corresponding preactivation fluctuations which are independent of depth, to leading order in inverse width. Moreover, we demonstrate numerically that, at initialization, all correlators involving the neural tangent kernel (NTK) and its descendants at leading order in inverse width -- which govern the evolution of observables during training -- saturate at a depth of $\sim 20$, rather than growing without bound as in the case of Gaussian initializations. We speculate that this structure preserves finite-width feature learning while reducing overall noise, thus improving both generalization and training speed. We provide some experimental justification by relating empirical measurements of the NTK to the superior performance of deep nonlinear orthogonal networks trained under full-batch gradient descent on the MNIST and CIFAR-10 classification tasks.
翻訳日:2023-10-14 14:33:42 公開日:2023-10-11
# ランダムデータプロジェクタによる自己教師付き表現学習

Self-supervised Representation Learning From Random Data Projectors ( http://arxiv.org/abs/2310.07756v1 )

ライセンス: Link先を確認
Yi Sui, Tongzi Wu, Jesse C. Cresswell, Ga Wu, George Stein, Xiao Shi Huang, Xiaochen Zhang, Maksims Volkovs(参考訳) 自己教師付き表現学習(ssrl)は、人工的に設計されたデータ拡張の下での変換不変性仮定を活用し、かなり進歩した。 拡張ベースのSSRLアルゴリズムは、コンピュータビジョンと自然言語処理のパフォーマンスの境界を押し上げるが、それらはしばしば他のデータモダリティに直接適用されず、アプリケーション固有のデータ拡張制約と矛盾する可能性がある。 本稿では、拡張やマスキングに依存しないため、任意のデータモダリティやネットワークアーキテクチャに適用可能なSSRLアプローチを提案する。 具体的には,ランダムなデータ投影を再構成することで,高品質なデータ表現を学習できることを示す。 提案手法は多種多様なモダリティと実世界の応用にまたがる幅広い表現学習タスクに対して評価する。 複数の最先端SSRLベースラインを上回っていることを示す。 その適用性と強い経験的結果から、ランダム性からの学習は注目に値する実りある研究方向であり、さらなる研究が必要であると論じる。

Self-supervised representation learning~(SSRL) has advanced considerably by exploiting the transformation invariance assumption under artificially designed data augmentations. While augmentation-based SSRL algorithms push the boundaries of performance in computer vision and natural language processing, they are often not directly applicable to other data modalities, and can conflict with application-specific data augmentation constraints. This paper presents an SSRL approach that can be applied to any data modality and network architecture because it does not rely on augmentations or masking. Specifically, we show that high-quality data representations can be learned by reconstructing random data projections. We evaluate the proposed approach on a wide range of representation learning tasks that span diverse modalities and real-world applications. We show that it outperforms multiple state-of-the-art SSRL baselines. Due to its wide applicability and strong empirical results, we argue that learning from randomness is a fruitful research direction worthy of attention and further study.
翻訳日:2023-10-14 14:33:15 公開日:2023-10-11
# OpenLEAF: オープンドメインのインターリーブ画像-テキスト生成と評価

OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation ( http://arxiv.org/abs/2310.07749v1 )

ライセンス: Link先を確認
Jie An, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Lijuan Wang, Jiebo Luo(参考訳) 本研究ではオープンドメインインターリーブ画像テキスト生成という課題について検討し,入力クエリに従ってインターリーブ画像と画像を生成する。 本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。 OpenLEAFでは、LLMはテキスト記述を生成し、T2Iモデルをコーディネートし、画像を生成する視覚的プロンプトを生成し、グローバルコンテキストをT2Iモデルに組み込む。 このグローバルコンテキストは、インターリーブ世代における画像の実体とスタイルを改善します。 まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。 構築した評価セットのlmm評価によれば,提案手法は質問応答,ストーリーテリング,グラフィカルストーリー書き換え,webページ/ポスト生成タスクなど,さまざまなドメインやアプリケーションに対して高品質な画像テキストコンテンツを生成することができる。 また,人間評価を用いたLMM評価手法の有効性を検証した。 提案するフレームワーク,ベンチマーク,LMM評価が,興味深いインターリーブ画像テキスト生成タスクの確立に役立つことを期待する。

This work investigates a challenging task named open-domain interleaved image-text generation, which generates interleaved texts and images following an input query. We propose a new interleaved generation framework based on prompting large-language models (LLMs) and pre-trained text-to-image (T2I) models, namely OpenLEAF. In OpenLEAF, the LLM generates textual descriptions, coordinates T2I models, creates visual prompts for generating images, and incorporates global contexts into the T2I models. This global context improves the entity and style consistencies of images in the interleaved generation. For model assessment, we first propose to use large multi-modal models (LMMs) to evaluate the entity and style consistencies of open-domain interleaved image-text sequences. According to the LMM evaluation on our constructed evaluation set, the proposed interleaved generation framework can generate high-quality image-text content for various domains and applications, such as how-to question answering, storytelling, graphical story rewriting, and webpage/poster generation tasks. Moreover, we validate the effectiveness of the proposed LMM evaluation technique with human assessment. We hope our proposed framework, benchmark, and LMM evaluation could help establish the intriguing interleaved image-text generation task.
翻訳日:2023-10-14 14:32:59 公開日:2023-10-11
# オフライン強化学習における説明責任--コーパスによる決定の説明

Accountability in Offline Reinforcement Learning: Explaining Decisions with a Corpus of Examples ( http://arxiv.org/abs/2310.07747v1 )

ライセンス: Link先を確認
Hao Sun, Alihan H\"uy\"uk, Daniel Jarrett, Mihaela van der Schaar(参考訳) 意思決定システムにおけるオフラインデータを用いた透明で解釈可能なコントローラの学習は、実世界のシステムにおけるアプリケーションのリスクを低減できる可能性から、重要な研究領域である。 しかし、医療などの責任に敏感な環境では、決定責任は最重要視されているが、文献では適切に扱われていない。 本稿では、オフラインデータセットを決定コーパスとして利用し、コーパスサブセットと呼ばれるサンプルの調整された選択に基づいて説明責任制御を行うAOC(Accountable Offline Controller)を提案する。 ABCはローデータシナリオで効果的に動作し、厳密にオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。 シミュレーションおよび実世界の医療シナリオにおけるABCのパフォーマンスを評価し,説明責任を維持しつつ高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。 キーワード:解釈可能な強化学習、説明可能な強化学習、強化学習透明性、オフライン強化学習、バッチ制御。

Learning transparent, interpretable controllers with offline data in decision-making systems is an essential area of research due to its potential to reduce the risk of applications in real-world systems. However, in responsibility-sensitive settings such as healthcare, decision accountability is of paramount importance, yet has not been adequately addressed by the literature. This paper introduces the Accountable Offline Controller (AOC) that employs the offline dataset as the Decision Corpus and performs accountable control based on a tailored selection of examples, referred to as the Corpus Subset. ABC operates effectively in low-data scenarios, can be extended to the strictly offline imitation setting, and displays qualities of both conservation and adaptability. We assess ABC's performance in both simulated and real-world healthcare scenarios, emphasizing its capability to manage offline control tasks with high levels of performance while maintaining accountability. Keywords: Interpretable Reinforcement Learning, Explainable Reinforcement Learning, Reinforcement Learning Transparency, Offline Reinforcement Learning, Batched Control.
翻訳日:2023-10-14 14:32:33 公開日:2023-10-11
# 自律サイバーオペレーションのための深層強化学習:調査

Deep Reinforcement Learning for Autonomous Cyber Operations: A Survey ( http://arxiv.org/abs/2310.07745v1 )

ライセンス: Link先を確認
Gregory Palmer, Chris Parry, Daniel J.B. Harrold, Chris Willis(参考訳) 近年のサイバー攻撃の急増により、ネットワークを悪意ある行為者から守るための原則的な方法の必要性が高まっている。 深層強化学習(DRL)はこれらの攻撃を緩和するための有望なアプローチである。 しかし、DRLはサイバー防御の可能性をかなり示しているが、DRLが大規模に自律型サイバー操作(ACO)に適用されるまでには、多くの課題が克服されなければならない。 原理的手法は,高次元状態空間,大規模マルチ離散行動空間,対人学習といった学習環境において必要となる。 最近の研究は、これらの問題を個別に解決することに成功していると報告している。 また、リアルタイム戦略ゲームのために3つすべてを解決するための素晴らしいエンジニアリング努力も行われている。 しかし、完全なACO問題にDRLを適用することは未解決の課題である。 本稿では、DRLに関する文献を調査し、理想化されたACO-DRLエージェントを概念化する。 提供します。 ) ACO問題を定義するドメインプロパティの要約。 ) drl アプローチのベンチマークに使用するドメインが aco に匹敵する範囲の包括的評価(iii) DRLを学習者に対して次元性の呪いに直面する領域に拡張するための最先端アプローチの概要,および, iv。 ) acoの立場から、敵対的環境におけるエージェントの利用可能性を制限するための現在の方法に関する調査と批判。 我々は、ACOに携わる研究者や実践者に、今後の方向性を動機付けることを望んでいる。

The rapid increase in the number of cyber-attacks in recent years raises the need for principled methods for defending networks against malicious actors. Deep reinforcement learning (DRL) has emerged as a promising approach for mitigating these attacks. However, while DRL has shown much potential for cyber-defence, numerous challenges must be overcome before DRL can be applied to autonomous cyber-operations (ACO) at scale. Principled methods are required for environments that confront learners with very high-dimensional state spaces, large multi-discrete action spaces, and adversarial learning. Recent works have reported success in solving these problems individually. There have also been impressive engineering efforts towards solving all three for real-time strategy games. However, applying DRL to the full ACO problem remains an open challenge. Here, we survey the relevant DRL literature and conceptualize an idealised ACO-DRL agent. We provide: i.) A summary of the domain properties that define the ACO problem; ii.) A comprehensive evaluation of the extent to which domains used for benchmarking DRL approaches are comparable to ACO; iii.) An overview of state-of-the-art approaches for scaling DRL to domains that confront learners with the curse of dimensionality, and; iv.) A survey and critique of current methods for limiting the exploitability of agents within adversarial settings from the perspective of ACO. We conclude with open research questions that we hope will motivate future directions for researchers and practitioners working on ACO.
翻訳日:2023-10-14 14:32:15 公開日:2023-10-11
# PointHR: 3Dポイントクラウドセグメンテーションのための高解像度アーキテクチャを探る

PointHR: Exploring High-Resolution Architectures for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2310.07743v1 )

ライセンス: Link先を確認
Haibo Qiu, Baosheng Yu, Yixin Chen, Dacheng Tao(参考訳) ポイントクラウドをまず低解像度表現にエンコードし、その後高分解能予測をデコードするエンコーダ-デコーダフレームワークを利用して、ポイントクラウドセグメンテーションにおいて重要な進歩がなされている。 画像密度予測における高分解能アーキテクチャの成功に触発され,学習プロセス全体を通して常に高分解能表現を維持している。 そこで本稿では,3dポイントクラウドセグメンテーションのための高分解能アーキテクチャについて検討する。 具体的には,特徴抽出のためのknnベースのシーケンス演算子と,異なる解像度を効率的に通信するための差分再サンプリング演算子を含む,pointhrという統一パイプラインを用いて高分解能アーキテクチャを一般化する。 さらに,シーケンス演算子と再サンプリング演算子のインデックスを事前に計算することにより,高分解能アーキテクチャのオンザフライ計算を回避することを提案する。 これにより、高い競争力を持つ高解像度アーキテクチャを提供しながら、十分な設計のポイントクラウドブロックのメリットを、追加の労力なしで実現しています。 S3DISおよびScanNetV2データセットを用いて,これらのアーキテクチャを高密度点雲解析のために評価する。 ソースコードは \url{https://github.com/haibo-qiu/pointhr} で入手できる。

Significant progress has been made recently in point cloud segmentation utilizing an encoder-decoder framework, which initially encodes point clouds into low-resolution representations and subsequently decodes high-resolution predictions. Inspired by the success of high-resolution architectures in image dense prediction, which always maintains a high-resolution representation throughout the entire learning process, we consider it also highly important for 3D dense point cloud analysis. Therefore, in this paper, we explore high-resolution architectures for 3D point cloud segmentation. Specifically, we generalize high-resolution architectures using a unified pipeline named PointHR, which includes a knn-based sequence operator for feature extraction and a differential resampling operator to efficiently communicate different resolutions. Additionally, we propose to avoid numerous on-the-fly computations of high-resolution architectures by pre-computing the indices for both sequence and resampling operators. By doing so, we deliver highly competitive high-resolution architectures while capitalizing on the benefits of well-designed point cloud blocks without additional effort. To evaluate these architectures for dense point cloud analysis, we conduct thorough experiments using S3DIS and ScanNetV2 datasets, where the proposed PointHR outperforms recent state-of-the-art methods without any bells and whistles. The source code is available at \url{https://github.com/haibo-qiu/PointHR}.
翻訳日:2023-10-14 14:31:53 公開日:2023-10-11
# 多言語と.NETによる適応的およびゲーミフィケーション学習パス NET Interactive

Adaptive and Gamified Learning Paths with Polyglot and .NET Interactive ( http://arxiv.org/abs/2310.07314v1 )

ライセンス: Link先を確認
Tommaso Martorella, Antonio Bucchiarone(参考訳) デジタル時代は教育者の役割を変えつつあり、教育システム全体のパラダイムシフトを推進している。 教室内外の一般教育や専門教育への需要の高まりが、この増加傾向の中心となっている。 現代的で異質な学習環境において、ワンサイズフィットのアプローチは根本的な欠陥があることが証明されている。 適応性による個人化は、個々のポテンシャルを育み、アクセシビリティのニーズと神経多様性に対処するために不可欠である。 これらの様々な側面を考慮に入れた学習フレームワークを形式化し、適応的でゲーミフィケーションされた学習体験を設計、利用するためのオープンでコンテンツに依存しない拡張可能なプラットフォームを定義し、実装することを目指している。

The digital age is changing the role of educators and pushing for a paradigm shift in the education system as a whole. Growing demand for general and specialized education inside and outside classrooms is at the heart of this rising trend. In modern, heterogeneous learning environments, the one-size-fits-all approach is proven to be fundamentally flawed. Individualization through adaptivity is, therefore, crucial to nurture individual potential and address accessibility needs and neurodiversity. By formalizing a learning framework that takes into account all these different aspects, we aim to define and implement an open, content-agnostic, and extensible platform to design and consume adaptive and gamified learning experiences.
翻訳日:2023-10-14 14:31:05 公開日:2023-10-11
# ユーモアの一般的なメカニズム:意味的重複を再構成する

A general mechanism of humor: reformulating the semantic overlap ( http://arxiv.org/abs/2310.07803v1 )

ライセンス: Link先を確認
Javier Mart\'inez(参考訳) 本稿では,言語コミュニケーションに限らず,一般適用性のユーモアの認知メカニズムを提案する。 これはラスキンのスクリプトの重なりという概念に反し、矛盾解決理論の枠組みに準拠しているが、データ集合間の抽象的な対応である制約の概念に基づいている。 この考え方では、スクリプト重なりはより抽象的に説明された現象、制約重なりの結果である。 見過ごされた議論の重要な概念は、オーバートとカバートという2つの重なり合う制約を特徴づけるために導入された。 彼らの入力と出力は、直接発話で符号化されるのではなく、それらによって暗示され、それらの重複は通信された発話のレベルにおいて別の重複をもたらし、不一致が露呈する。 我々の仮説は、そのような制約の発声が、聞き手が発話を解釈する推論過程の認知的効果であると仮定する。 我々はこの仮定を、人間の思考の本質として、ホフスタッターの類推論に基づく。 このモデルにおける「発話」の任意の種類の「刺激」を代用することにより、非言語コミュニケーション(スラップスティック、漫画)に適用し易いメカニズムを得るとともに、ユーモアを運ぶのに必要なコミュニケーション行為に必要な条件と十分な条件を記述する。

This article proposes a cognitive mechanism of humour of general applicability, not restricted to verbal communication. It is indebted to Raskin's concept of script overlap, and conforms to the incongruity-resolution theoretical framework, but it is built on the notion of constraint, an abstract correspondence between sets of data. Under this view, script overlap is an outcome of a more abstractly described phenomenon, constraint overlap. The important concept of the overlooked argument is introduced to characterise the two overlapping constraints -- overt and covert. Their inputs and outputs are not directly encoded in utterances, but implicated by them, and their overlap results in another overlap at the level of the communicated utterances, that the incongruity reveals. Our hypothesis assumes as a given that the evocation of such constraints is a cognitive effect of the inferential process by which a hearer interprets utterances. We base this assumption on Hofstadter's theory of analogy-making as the essence of human thought. By substituting "stimuli" of any kind for "utterances" in this model, we obtain a mechanism as easily applicable to non-verbal communication -- slapstick, cartoons -- and we propose it describes the necessary and sufficient conditions for a communicative act in any modality to carry humour.
翻訳日:2023-10-14 14:25:50 公開日:2023-10-11
# 理解とワークロードのトレードオフに関する情報ボトルネック

An Information Bottleneck Characterization of the Understanding-Workload Tradeoff ( http://arxiv.org/abs/2310.07802v1 )

ライセンス: Link先を確認
Lindsay Sanneman, Mycal Tucker, and Julie Shah(参考訳) 人工知能(AI)の最近の進歩は、AIシステムの人間の理解を支援するために、説明可能なAI(XAI)の必要性を強調している。 精神労働負荷や人的理解などの説明効果に影響を与える人的要因の考察は、効果的なXAI設計の中心である。 XAIの既存の作業は、さまざまなタイプの説明によって引き起こされる理解と作業負荷のトレードオフを示している。 抽象化(関連する問題機能の手作りのグループ)を通じて複雑な概念を説明することで、このワークロードを理解するトレードオフを効果的に解決し、バランスをとることが示されています。 本稿では,情報量と複雑性を最大化する抽象化を自動的に生成する情報理論アプローチとして,Information Bottleneck法による作業負荷のバランスを特徴付ける。 特に,作業負荷と複雑性,および人体実験による理解と情報提供の相互関係を実証的に確立する。 この人的要因と情報理論的概念との実証的なリンクは、ユーザがカスタマイズしたXAI設計を可能にするワークロードのトレードオフの重要な数学的特徴を提供する。

Recent advances in artificial intelligence (AI) have underscored the need for explainable AI (XAI) to support human understanding of AI systems. Consideration of human factors that impact explanation efficacy, such as mental workload and human understanding, is central to effective XAI design. Existing work in XAI has demonstrated a tradeoff between understanding and workload induced by different types of explanations. Explaining complex concepts through abstractions (hand-crafted groupings of related problem features) has been shown to effectively address and balance this workload-understanding tradeoff. In this work, we characterize the workload-understanding balance via the Information Bottleneck method: an information-theoretic approach which automatically generates abstractions that maximize informativeness and minimize complexity. In particular, we establish empirical connections between workload and complexity and between understanding and informativeness through human-subject experiments. This empirical link between human factors and information-theoretic concepts provides an important mathematical characterization of the workload-understanding tradeoff which enables user-tailored XAI design.
翻訳日:2023-10-14 14:25:29 公開日:2023-10-11
# 少数学習のための説明可能な注意

Explainable Attention for Few-shot Learning and Beyond ( http://arxiv.org/abs/2310.07800v1 )

ライセンス: Link先を確認
Bahareh Nikpour, Narges Armanfard(参考訳) 注意のメカニズムは、入力データの突出部を識別することで学習モデルの強化に有望な可能性を示している。 これは、データ収集とラベリングの課題のため、トレーニングサンプルが限られているシナリオで特に有用である。 人間の認識プロセスからインスピレーションを得て、AIベースラインのパフォーマンスが人間の知覚に似て、入力データセット全体ではなく、生データの不可欠なセグメントに露出すれば、より正確で信頼性の高いものになると仮定する。 しかし、これらの情報的データセグメントを選択するタスクは、ハードアテンション発見と呼ばれ、非常に難しい課題である。 トレーニングサンプルが少ない状況では、利用可能な限られたサンプルから効果的に学習できない多くのトレーニングパラメータのために、既存の研究はそのような重要な領域を見つけるのに苦労している。 本研究では,少数の学習シナリオに特化しながら,説明可能な注意喚起を実現するための新しい実践的枠組みである fewxat を提案する。 提案手法では, 深層強化学習を用いて, 難読化の概念を導入し, 生の入力データに直接影響し, 人間の理解に解釈可能なプロセスをレンダリングする。 様々なベンチマークデータセットの広範な実験を通じて,提案手法の有効性を実証する。

Attention mechanisms have exhibited promising potential in enhancing learning models by identifying salient portions of input data. This is particularly valuable in scenarios where limited training samples are accessible due to challenges in data collection and labeling. Drawing inspiration from human recognition processes, we posit that an AI baseline's performance could be more accurate and dependable if it is exposed to essential segments of raw data rather than the entire input dataset, akin to human perception. However, the task of selecting these informative data segments, referred to as hard attention finding, presents a formidable challenge. In situations with few training samples, existing studies struggle to locate such informative regions due to the large number of training parameters that cannot be effectively learned from the available limited samples. In this study, we introduce a novel and practical framework for achieving explainable hard attention finding, specifically tailored for few-shot learning scenarios, called FewXAT. Our approach employs deep reinforcement learning to implement the concept of hard attention, directly impacting raw input data and thus rendering the process interpretable for human understanding. Through extensive experimentation across various benchmark datasets, we demonstrate the efficacy of our proposed method.
翻訳日:2023-10-14 14:25:12 公開日:2023-10-11
# emrデータセット間のデータ分散シフトを橋渡しするトランスファーラーニングに基づく予測パラダイム

A Transfer-Learning-Based Prognosis Prediction Paradigm that Bridges Data Distribution Shift across EMR Datasets ( http://arxiv.org/abs/2310.07799v1 )

ライセンス: Link先を確認
Zhongji Zhang, Yuhang Wang, Yinghao Zhu, Xinyu Ma, Tianlong Wang, Chaohe Zhang, Yasha Wang, Liantao Ma(参考訳) 新興疾患に関する情報が限られているため、症状の認識や認識が困難であるため、臨床介入の窓は無視できる。 適切な診断とパーソナライズされた治療計画の策定を支援するために,効果的な予後モデルが期待されている。 しかしながら、疾患の初期段階では、データ収集と臨床経験の制限と、プライバシや倫理上の懸念により、参照のためのデータ可用性が制限され、データラベルさえ正しくマークすることが困難になる可能性がある。 さらに、異なる疾患の電子カルテ(EMR)データや同一疾患の異なるソースの電子カルテ(EMR)データは、深刻なクロスデータセットの特徴的不整合の問題があり、深層学習モデルの効率を大幅に損なう可能性がある。 本稿では、ソースデータセットからターゲットデータセットへの遷移モデルを構築するための転送学習手法を紹介する。 異なる領域で発生する特徴の分布シフトを制限することにより、下流タスクにのみ相対するドメイン不変な特徴をキャプチャし、様々なタスク領域にまたがる統一ドメイン不変エンコーダを育成し、より優れた特徴表現を実現する。 いくつかの目標タスクの実験結果から,提案モデルが競合するベースライン法より優れ,特に限られたデータ量を扱う場合のトレーニング収束率が高いことが示された。 新たに発生したパンデミックやその他の病気について,より正確な予測を行うための手法の有効性を,数多くの経験から証明した。

Due to the limited information about emerging diseases, symptoms are hard to be noticed and recognized, so that the window for clinical intervention could be ignored. An effective prognostic model is expected to assist doctors in making right diagnosis and designing personalized treatment plan, so to promptly prevent unfavorable outcomes. However, in the early stage of a disease, limited data collection and clinical experiences, plus the concern out of privacy and ethics, may result in restricted data availability for reference, to the extent that even data labels are difficult to mark correctly. In addition, Electronic Medical Record (EMR) data of different diseases or of different sources of the same disease can prove to be having serious cross-dataset feature misalignment problems, greatly mutilating the efficiency of deep learning models. This article introduces a transfer learning method to build a transition model from source dataset to target dataset. By way of constraining the distribution shift of features generated in disparate domains, domain-invariant features that are exclusively relative to downstream tasks are captured, so to cultivate a unified domain-invariant encoder across various task domains to achieve better feature representation. Experimental results of several target tasks demonstrate that our proposed model outperforms competing baseline methods and has higher rate of training convergence, especially in dealing with limited data amount. A multitude of experiences have proven the efficacy of our method to provide more accurate predictions concerning newly emergent pandemics and other diseases.
翻訳日:2023-10-14 14:24:50 公開日:2023-10-11
# 量子状態学習のための量子逐次散乱モデル

Quantum sequential scattering model for quantum state learning ( http://arxiv.org/abs/2310.07797v1 )

ライセンス: Link先を確認
Mingrui Jing, Geng Liu, Hongbin Ren, Xin Wang(参考訳) 学習確率分布は古典的学習理論において重要な枠組みである。 量子状態学習(quantum state learning)は、量子機械学習理論の探求を促した。 しかし、次元が増加するにつれて、従来の量子ニューラルネットワークアプローチによる高次元未知量子状態の学習は、訓練可能性の問題のために依然として困難である。 本研究では,古典的拡散モデルに着想を得た量子シーケンシャル散乱モデル(QSSM)を考案し,この拡張性を克服する。 我々のモデルの訓練は、多項式スケールのシュミット位を有する高次元ターゲット状態の大規模なクラスに対して、消滅する勾配問題を効果的に回避することができる。 理論解析と数値実験により,本モデルが物理的およびアルゴリズム的に有意義な量子状態の学習に有効であることを示すとともに,従来の学習速度と学習精度のアプローチを上回る性能を示す。 我々の研究は、対象状態における量子状態の性質である絡み合いの増加は、より大きなスケールドモデルを必要とすることを示しており、モデルの学習性能と効率を低下させる可能性がある。

Learning probability distribution is an essential framework in classical learning theory. As a counterpart, quantum state learning has spurred the exploration of quantum machine learning theory. However, as dimensionality increases, learning a high-dimensional unknown quantum state via conventional quantum neural network approaches remains challenging due to trainability issues. In this work, we devise the quantum sequential scattering model (QSSM), inspired by the classical diffusion model, to overcome this scalability issue. Training of our model could effectively circumvent the vanishing gradient problem to a large class of high-dimensional target states possessing polynomial-scaled Schmidt ranks. Theoretical analysis and numerical experiments provide evidence for our model's effectiveness in learning both physical and algorithmic meaningful quantum states and show an out-performance beating the conventional approaches in training speed and learning accuracy. Our work has indicated that an increasing entanglement, a property of quantum states, in the target states, necessitates a larger scaled model, which could reduce our model's learning performance and efficiency.
翻訳日:2023-10-14 14:24:24 公開日:2023-10-11
# 有効細粒度エンティティタイピングのためのオントロジエンリッチメント

Ontology Enrichment for Effective Fine-grained Entity Typing ( http://arxiv.org/abs/2310.07795v1 )

ライセンス: Link先を確認
Siru Ouyang, Jiaxin Huang, Pranav Pillai, Yunyi Zhang, Yu Zhang, Jiawei Han(参考訳) きめ細かいエンティティタイピング(FET)は、コンテキスト情報に基づいてエンティティの参照に対して、特定のエンティティタイプをきめ細かいレベルで識別するタスクである。 FETの従来の方法には、時間と費用がかかる広範囲な人的アノテーションが必要である。 近年、弱い教師付きまたはゼロショットのアプローチが研究されている。 オントロジーのみを提供するゼロショットFETの設定について検討する。 しかし、既存のオントロジー構造のほとんどは、豊富なサポート情報がなく、曖昧な関係をも含んでいて、FETを導くのに効果がない。 最近開発された言語モデルは、様々なnlpタスクにおいて有望であるが、タスク固有のオントロジーとの相互作用が欠如しているため、ゼロショットfetの課題に直面する可能性がある。 そこで本研究では,(1)オントロジー構造の各ノードを2種類の追加情報で強化するonefetを提案し,(2)エンタテインメントモデルと対照的なトピックとインスタンスベースの拡張トレーニングサンプルを訓練することにより,エンタテインメントモデルを活用した粗細型付けアルゴリズムを開発した。 提案実験により,OnEFETは人間のアノテーションを使わずに高品質なエンティティ型付けを実現し,既存のゼロショット法を大きなマージンで上回り,教師付き手法に匹敵する結果を得た。

Fine-grained entity typing (FET) is the task of identifying specific entity types at a fine-grained level for entity mentions based on their contextual information. Conventional methods for FET require extensive human annotation, which is time-consuming and costly. Recent studies have been developing weakly supervised or zero-shot approaches. We study the setting of zero-shot FET where only an ontology is provided. However, most existing ontology structures lack rich supporting information and even contain ambiguous relations, making them ineffective in guiding FET. Recently developed language models, though promising in various few-shot and zero-shot NLP tasks, may face challenges in zero-shot FET due to their lack of interaction with task-specific ontology. In this study, we propose OnEFET, where we (1) enrich each node in the ontology structure with two types of extra information: instance information for training sample augmentation and topic information to relate types to contexts, and (2) develop a coarse-to-fine typing algorithm that exploits the enriched information by training an entailment model with contrasting topics and instance-based augmented training samples. Our experiments show that OnEFET achieves high-quality fine-grained entity typing without human annotation, outperforming existing zero-shot methods by a large margin and rivaling supervised methods.
翻訳日:2023-10-14 14:24:07 公開日:2023-10-11
# GenTKG: 時間的知識グラフによる生成予測

GenTKG: Generative Forecasting on Temporal Knowledge Graph ( http://arxiv.org/abs/2310.07793v1 )

ライセンス: Link先を確認
Ruotong Liao, Xu Jia, Yunpu Ma, Volker Tresp(参考訳) 大規模言語モデル(llms)の急速な進歩は、時間的知識グラフ(tkg)ドメインに対する関心を燃やしている。 事前学習したLLMが構造化された時間的関係データを理解でき、時間的関係予測の基礎モデルとして置き換えられるかどうかには疑問が残る。 したがって、時間的知識予測を生成的設定に導入する。 しかし、複雑な時間グラフデータ構造とLLMが扱える逐次自然表現との間の巨大な亀裂や、tKGの巨大なデータサイズとLLMを微調整する重い計算コストとの間には課題が生じる。 これらの課題に対処するために、時間的論理ルールに基づく検索戦略と軽量パラメータ効率制御を組み合わせた、GenTKGと呼ばれるtKG上で生成予測を行う新しい検索拡張生成フレームワークを提案する。 大規模な実験により、GenTKGは低計算資源下での時間的関係予測の従来の手法より優れていることが示された。 GenTKGはまた、再トレーニングすることなく、目に見えないデータセットのパフォーマンスを超越した、顕著な転送性を強調している。 本研究は, tKG領域におけるLLMの潜在可能性を明らかにし, tKGの生成予測のための新たなフロンティアを開く。

The rapid advancements in large language models (LLMs) have ignited interest in the temporal knowledge graph (tKG) domain, where conventional carefully designed embedding-based and rule-based models dominate. The question remains open of whether pre-trained LLMs can understand structured temporal relational data and replace them as the foundation model for temporal relational forecasting. Therefore, we bring temporal knowledge forecasting into the generative setting. However, challenges occur in the huge chasms between complex temporal graph data structure and sequential natural expressions LLMs can handle, and between the enormous data sizes of tKGs and heavy computation costs of finetuning LLMs. To address these challenges, we propose a novel retrieval augmented generation framework that performs generative forecasting on tKGs named GenTKG, which combines a temporal logical rule-based retrieval strategy and lightweight parameter-efficient instruction tuning. Extensive experiments have shown that GenTKG outperforms conventional methods of temporal relational forecasting under low computation resources. GenTKG also highlights remarkable transferability with exceeding performance on unseen datasets without re-training. Our work reveals the huge potential of LLMs in the tKG domain and opens a new frontier for generative forecasting on tKGs.
翻訳日:2023-10-14 14:23:37 公開日:2023-10-11
# 集中畳み込みによる無関係画素の除去による事前学習CNNの推論遅延とエネルギー効率向上のための自動アプローチ

An automated approach for improving the inference latency and energy efficiency of pretrained CNNs by removing irrelevant pixels with focused convolutions ( http://arxiv.org/abs/2310.07782v1 )

ライセンス: Link先を確認
Caleb Tung, Nicholas Eliopoulos, Purvish Jajal, Gowri Ramshankar, Chen-Yun Yang, Nicholas Synovic, Xuecen Zhang, Vipin Chaudhary, George K. Thiruvathukal, Yung-Hsiang Lu(参考訳) コンピュータビジョンは、しばしば高精度畳み込みニューラルネットワーク(cnns)を使用するが、これらのディープラーニングモデルは、常にエネルギーと計算要件の増大と関連している。 よりエネルギー効率の良いcnnを作成するには、しばしばコストがかかるモデルトレーニングが必要である。 本稿では,事前学習したCNNを再学習せずにエネルギー効率を高めるための,新しい自動化手法を提案する。 事前学習されたcnnが与えられると、前のレイヤからのアクティベーションをフィルタリングするしきい値層を挿入して、無関係な画像の領域を識別します。 修正された集中畳み込み操作は、様々なトレーニング済みCNNにおいて、推論レイテンシ(25%まで)とエネルギーコスト(最大22%まで)を削減し、精度をほとんど、あるいは全く損なわない。

Computer vision often uses highly accurate Convolutional Neural Networks (CNNs), but these deep learning models are associated with ever-increasing energy and computation requirements. Producing more energy-efficient CNNs often requires model training which can be cost-prohibitive. We propose a novel, automated method to make a pretrained CNN more energy-efficient without re-training. Given a pretrained CNN, we insert a threshold layer that filters activations from the preceding layers to identify regions of the image that are irrelevant, i.e. can be ignored by the following layers while maintaining accuracy. Our modified focused convolution operation saves inference latency (by up to 25%) and energy costs (by up to 22%) on various popular pretrained CNNs, with little to no loss in accuracy.
翻訳日:2023-10-14 14:23:15 公開日:2023-10-11
# 3D TransUNet:ビジョントランスフォーマーによる医用画像セグメンテーションの促進

3D TransUNet: Advancing Medical Image Segmentation through Vision Transformers ( http://arxiv.org/abs/2310.07781v1 )

ライセンス: Link先を確認
Jieneng Chen, Jieru Mei, Xianhang Li, Yongyi Lu, Qihang Yu, Qingyue Wei, Xiangde Luo, Yutong Xie, Ehsan Adeli, Yan Wang, Matthew Lungren, Lei Xing, Le Lu, Alan Yuille, Yuyin Zhou(参考訳) 医療画像のセグメンテーションは、疾患診断と治療計画のための医療システムの発展に重要な役割を担っている。 U-Netとして知られるU字型アーキテクチャは、様々な医療画像セグメンテーションタスクで高い成功を収めている。 しかし、U-Netの畳み込みに基づく操作は本質的に、長距離依存を効果的にモデル化する能力を制限している。 これらの制限に対処するため、研究者はTransformerを代替アーキテクチャとして、グローバルな自己認識メカニズムで有名にした。 このネットワークはTransformersの自己アテンションを利用してU-Netのローカライズされた情報をグローバルなコンテキストで補完するものだ。 本稿では,最先端のnnU-Netアーキテクチャに基づいて2次元トランスUNetアーキテクチャを3次元ネットワークに拡張し,エンコーダとデコーダの両方の設計におけるトランスフォーマーの可能性について検討する。 2つの重要な要素を紹介します 1) 畳み込みニューラルネットワーク(CNN)の特徴マップから画像パッチをトークン化し、グローバルコンテキストの抽出を可能にするトランスフォーマーエンコーダ。 2)候補提案とu-net特徴の相互接続を利用して候補領域を適応的に洗練するトランスデコーダ。 我々の調査は、異なる医療タスクが異なるアーキテクチャ設計の恩恵を受けていることを示している。 トランスコーダは、臓器間の関係が重要であるマルチオルガンセグメンテーションにおいて優れている。 一方、Transformerデコーダは、腫瘍のセグメンテーションのような、小さくて困難なセグメンテーションターゲットを扱うのに有用である。 広範な実験により、トランスフォーマベースのエンコーダとデコーダをu字型医用画像セグメンテーションアーキテクチャに統合する大きな可能性を示す。 transunetは様々な医療分野の競合を上回っている。

Medical image segmentation plays a crucial role in advancing healthcare systems for disease diagnosis and treatment planning. The u-shaped architecture, popularly known as U-Net, has proven highly successful for various medical image segmentation tasks. However, U-Net's convolution-based operations inherently limit its ability to model long-range dependencies effectively. To address these limitations, researchers have turned to Transformers, renowned for their global self-attention mechanisms, as alternative architectures. One popular network is our previous TransUNet, which leverages Transformers' self-attention to complement U-Net's localized information with the global context. In this paper, we extend the 2D TransUNet architecture to a 3D network by building upon the state-of-the-art nnU-Net architecture, and fully exploring Transformers' potential in both the encoder and decoder design. We introduce two key components: 1) A Transformer encoder that tokenizes image patches from a convolution neural network (CNN) feature map, enabling the extraction of global contexts, and 2) A Transformer decoder that adaptively refines candidate regions by utilizing cross-attention between candidate proposals and U-Net features. Our investigations reveal that different medical tasks benefit from distinct architectural designs. The Transformer encoder excels in multi-organ segmentation, where the relationship among organs is crucial. On the other hand, the Transformer decoder proves more beneficial for dealing with small and challenging segmented targets such as tumor segmentation. Extensive experiments showcase the significant potential of integrating a Transformer-based encoder and decoder into the u-shaped medical image segmentation architecture. TransUNet outperforms competitors in various medical applications.
翻訳日:2023-10-14 14:22:58 公開日:2023-10-11
# ランダム化平滑化のロバスト性向上:2つのコスト効果アプローチ

Promoting Robustness of Randomized Smoothing: Two Cost-Effective Approaches ( http://arxiv.org/abs/2310.07780v1 )

ライセンス: Link先を確認
Linbo Liu, Trong Nghia Hoang, Lam M. Nguyen, Tsui-Wei Weng(参考訳) ランダムなスムージングは、スムーズなニューラルネットワーク分類器で証明可能なロバスト性を保証するために、最近、対向ロバストネスの分野で注目を集めている。 しかし、既存の研究によると、バニラランダム化平滑化は通常、ロバスト性性能が良くなく、結果として生じる平滑化分類器のロバスト性を高めるために、ベース分類器に(再)訓練技術を必要とする。 本研究では,無作為化平滑化のロバスト性を高めるための2つのコスト効率の高い手法を提案する。 最初のアプローチでは、ランダムな平滑化のための逆トレーニングとロバストネス認証の最大化を組み合わせた、新しい堅牢なトレーニング手法AdvMacerを導入している。 本稿では,ランダム化スムースな分類器のロバスト性はSOTAベースラインに比べて向上し,MACERベースラインよりも3倍高速であることを示す。 第2のアプローチでは、モデルアンサンブル構築に基づくロバスト性証明を大幅に改善する後処理手法であるEsbRSを導入する。 先行研究で研究されていないモデルアンサンブルの異なる側面を探索し,理論解析に基づいてアンサンブルのロバスト性をさらに向上させる新しい設計手法を提案する。

Randomized smoothing has recently attracted attentions in the field of adversarial robustness to provide provable robustness guarantees on smoothed neural network classifiers. However, existing works show that vanilla randomized smoothing usually does not provide good robustness performance and often requires (re)training techniques on the base classifier in order to boost the robustness of the resulting smoothed classifier. In this work, we propose two cost-effective approaches to boost the robustness of randomized smoothing while preserving its clean performance. The first approach introduces a new robust training method AdvMacerwhich combines adversarial training and robustness certification maximization for randomized smoothing. We show that AdvMacer can improve the robustness performance of randomized smoothing classifiers compared to SOTA baselines, while being 3x faster to train than MACER baseline. The second approach introduces a post-processing method EsbRS which greatly improves the robustness certificate based on building model ensembles. We explore different aspects of model ensembles that has not been studied by prior works and propose a novel design methodology to further improve robustness of the ensemble based on our theoretical analysis.
翻訳日:2023-10-14 14:22:27 公開日:2023-10-11
# コピー対応潜在アライメントを用いた非自己回帰テキスト編集

Non-autoregressive Text Editing with Copy-aware Latent Alignments ( http://arxiv.org/abs/2310.07821v1 )

ライセンス: Link先を確認
Yu Zhang, Yue Zhang, Leyang Cui, Guohong Fu(参考訳) 最近の研究では、テキスト編集の分野でseq2seqからseq2editへのパラダイムシフトが見られ、前者による遅い自己回帰的推論問題に対処することを目的としている。 有望な結果にもかかわらず、Seq2Editアプローチは、生成の柔軟性や他の言語への一般化の難しさなど、いくつかの課題に直面している。 本研究では,CTCアライメントによる編集プロセスのモデル化により,上記の問題を回避するための非自己回帰テキスト編集手法を提案する。 編集空間にコピー操作を導入してCTCに重要な拡張を行い、編集におけるテキスト重複の管理をより効率的にする。 提案手法が既存のseq2editモデルを大幅に上回り,4\times$速度アップのseq2seqと同等あるいはそれ以上の結果が得られることを示した。 さらに、ドイツ語とロシア語に優れた一般化性を示す。 In-deepth Analysisでは,様々なシナリオ下での頑健さと,流動的で柔軟な出力を生成する手法の強みを明らかにしている。

Recent work has witnessed a paradigm shift from Seq2Seq to Seq2Edit in the field of text editing, with the aim of addressing the slow autoregressive inference problem posed by the former. Despite promising results, Seq2Edit approaches still face several challenges such as inflexibility in generation and difficulty in generalizing to other languages. In this work, we propose a novel non-autoregressive text editing method to circumvent the above issues, by modeling the edit process with latent CTC alignments. We make a crucial extension to CTC by introducing the copy operation into the edit space, thus enabling more efficient management of textual overlap in editing. We conduct extensive experiments on GEC and sentence fusion tasks, showing that our proposed method significantly outperforms existing Seq2Edit models and achieves similar or even better results than Seq2Seq with over $4\times$ speedup. Moreover, it demonstrates good generalizability on German and Russian. In-depth analyses reveal the strengths of our method in terms of the robustness under various scenarios and generating fluent and flexible outputs.
翻訳日:2023-10-14 14:15:40 公開日:2023-10-11
# 大型言語モデルはゼロショット時系列予測器である

Large Language Models Are Zero-Shot Time Series Forecasters ( http://arxiv.org/abs/2310.07820v1 )

ライセンス: Link先を確認
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson(参考訳) 時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。 このアプローチにより,GPT-3 や LLaMA-2 のような大規模言語モデル(LLM)は,ダウンストリームタスクでトレーニングされた目的構築された時系列モデルに匹敵する,あるいはそれ以上の性能で驚くほどゼロショット・エクスポレート・時系列を生成できることがわかった。 そこで本研究では,時系列データを効果的にトークン化し,トークン上の離散分布を連続値上の高柔軟性密度に変換する手法を提案する。 時系列におけるllmの成功は,多様分布を自然に表現する能力と,単純さのバイアス,および季節傾向の繰り返しなど,多くの時系列で有望な特徴と一致する反復性に起因している。 また,LLMが非数値テキストを通さずに自然に欠落したデータを処理し,テキスト側情報を適応し,予測を説明するための質問に答える方法を示す。 モデルサイズの増加は一般的に時系列のパフォーマンスを向上させるが、GPT-4は数値のトークン化の仕方や不確かさの校正によってGPT-3よりも悪化し、RLHFのようなアライメント介入の結果である可能性が示唆された。

By encoding time series as a string of numerical digits, we can frame time series forecasting as next-token prediction in text. Developing this approach, we find that large language models (LLMs) such as GPT-3 and LLaMA-2 can surprisingly zero-shot extrapolate time series at a level comparable to or exceeding the performance of purpose-built time series models trained on the downstream tasks. To facilitate this performance, we propose procedures for effectively tokenizing time series data and converting discrete distributions over tokens into highly flexible densities over continuous values. We argue the success of LLMs for time series stems from their ability to naturally represent multimodal distributions, in conjunction with biases for simplicity, and repetition, which align with the salient features in many time series, such as repeated seasonal trends. We also show how LLMs can naturally handle missing data without imputation through non-numerical text, accommodate textual side information, and answer questions to help explain predictions. While we find that increasing model size generally improves performance on time series, we show GPT-4 can perform worse than GPT-3 because of how it tokenizes numbers, and poor uncertainty calibration, which is likely the result of alignment interventions such as RLHF.
翻訳日:2023-10-14 14:15:20 公開日:2023-10-11
# 忠実さ測定可能なマスキング言語モデル

Faithfulness Measurable Masked Language Models ( http://arxiv.org/abs/2310.07819v1 )

ライセンス: Link先を確認
Andreas Madsen, Siva Reddy, Sarath Chandar(参考訳) NLPモデルを説明するための一般的なアプローチは、予測にどのトークンが重要であるかを表現する重要な尺度を使用することである。 残念ながら、そのような説明はしばしば説得力があるにもかかわらず間違っている。 したがって、彼らの誠実さを測ることが不可欠である。 そのようなメトリックの1つは、トークンが本当に重要である場合、それらをマスキングすると、モデルパフォーマンスが悪化する。 しかしトークンマスキングでは分散の問題が発生し、既存のソリューションは計算コストが高く、プロキシモデルを採用している。 さらに、他のメトリクスはスコープが非常に限られています。 本研究では,これらの課題に対処する本質的な忠実度測定モデルを提案する。 これはマスキングを取り入れた新しい微調整手法によって実現され、マスクトークンが設計によって流通する。 これは、モデルに依存しないが実際に適用できない既存のアプローチとは異なる。 我々は,様々なタスクに適用し,統計的分布テストを用いて検証することにより,アプローチの汎用性を示す。 また,マスキングは流通中であるため,マスキングを自身で使用する重要度尺度がより忠実になるので,モデルがより説明可能になる。

A common approach to explain NLP models, is to use importance measures that express which tokens are important for a prediction. Unfortunately, such explanations are often wrong despite being persuasive. Therefore, it is essential to measure their faithfulness. One such metric is if tokens are truly important, then masking them should result in worse model performance. However, token masking introduces out-of-distribution issues and existing solutions are computationally expensive and employ proxy-models. Furthermore, other metrics are very limited in scope. In this work, we propose an inherently faithfulness measurable model that addresses these challenges. This is achieved by using a novel fine-tuning method that incorporates masking, such that masking tokens become in-distribution by design. This differs from existing approaches, which are completely model-agnostic but are inapplicable in practice. We demonstrate the generality of our approach by applying it to various tasks and validate it using statistical in-distribution tests. Additionally, because masking is in-distribution, importance measures which themselves use masking become more faithful, thus our model becomes more explainable.
翻訳日:2023-10-14 14:14:53 公開日:2023-10-11
# 大規模言語モデルにおけるアナロジー同定と文構造符号化の関係の探索

Exploring the Relationship between Analogy Identification and Sentence Structure Encoding in Large Language Models ( http://arxiv.org/abs/2310.07818v1 )

ライセンス: Link先を確認
Thilini Wijesiriwardene, Ruwan Wickramarachchi, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das(参考訳) アナロジーの同定は、人間の認知と言語能力において重要な役割を果たす。 過去10年間、'a is to b as c is to d という形で単語の類似性に関する広範な研究が行われてきた。 しかし、「」は、類似の意味を伝える文や文集など、長い文を含むアナロジーへの関心が高まっている。 現在のNLP研究コミュニティは、そのような類似を識別するLarge Language Models (LLMs) の能力を評価しているが、これらの能力の根底にある理由はより深い調査である。 さらに,LLMが言語の構文的構造と意味的構造の両方をエンコードする能力は,その利用が急増する中で大きな注目を集めている。 本研究では,複数のLLMの文類似を識別する能力と,構文構造と意味構造を符号化する能力の関係について検討する。 分析の結果,LLMの類似認識能力は,文の構文的・意味的構造を符号化する能力と正の相関が認められた。 特に,構文構造をよりよく捉えたllmは,文の類似性を識別する能力も高いことが判明した。

Identifying analogies plays a pivotal role in human cognition and language proficiency. In the last decade, there has been extensive research on word analogies in the form of ``A is to B as C is to D.'' However, there is a growing interest in analogies that involve longer text, such as sentences and collections of sentences, which convey analogous meanings. While the current NLP research community evaluates the ability of Large Language Models (LLMs) to identify such analogies, the underlying reasons behind these abilities warrant deeper investigation. Furthermore, the capability of LLMs to encode both syntactic and semantic structures of language within their embeddings has garnered significant attention with the surge in their utilization. In this work, we examine the relationship between the abilities of multiple LLMs to identify sentence analogies, and their capacity to encode syntactic and semantic structures. Through our analysis, we find that analogy identification ability of LLMs is positively correlated with their ability to encode syntactic and semantic structures of sentences. Specifically, we find that the LLMs which capture syntactic structures better, also have higher abilities in identifying sentence analogies.
翻訳日:2023-10-14 14:14:37 公開日:2023-10-11
# セマンティック指標としての言語モデル

Language Models As Semantic Indexers ( http://arxiv.org/abs/2310.07815v1 )

ライセンス: Link先を確認
Bowen Jin, Hansi Zeng, Guoyin Wang, Xiusi Chen, Tianxin Wei, Ruirui Li, Zhengyang Wang, Zheng Li, Yang Li, Hanqing Lu, Suhang Wang, Jiawei Han, Xianfeng Tang(参考訳) セマンティック識別子 (ID) は情報検索において重要な概念であり、ID内の文書やアイテムなどのオブジェクトの意味を保存することを目的としている。 従来の研究では、2段階のパイプラインを使用してセマンティックIDを学習し、まず既製のテキストエンコーダを使用して埋め込みを取得し、次に埋め込みに基づいてIDを導出する。 しかし、各ステップは潜在的な情報損失をもたらし、通常、テキストエンコーダが生成する潜伏空間における埋め込みの分布と、セマンティックインデックス作成に必要な予測分布との間には、固有のミスマッチがある。 しかし、セマンティックIDが離散的かつシーケンシャルな構造であり、セマンティックな管理が不十分であることを考えると、文書の意味表現とその階層構造を同時に学習できる手法を設計するのは簡単ではない。 本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習する自己教師型フレームワークLMINDEXERを紹介する。 逐次離散IDの課題は、逐次学習とコントラスト学習を併用して、ニューラルネットワークの逐次離散表現を生成するセマンティックインデクサを導入することで解決される。 意味的監督の欠如に対応して,自己教師付き文書再構築目標を用いてモデルを訓練することを提案する。 learn semantic indexerは、レコメンデーションや検索など、さまざまな下流タスクを容易にする。 LMINDEXERは,各ドメインの5つのデータセットに対して,推奨,製品検索,文書検索を含む3つのタスクについて実験を行った。

Semantic identifier (ID) is an important concept in information retrieval that aims to preserve the semantics of objects such as documents and items inside their IDs. Previous studies typically adopt a two-stage pipeline to learn semantic IDs by first procuring embeddings using off-the-shelf text encoders and then deriving IDs based on the embeddings. However, each step introduces potential information loss and there is usually an inherent mismatch between the distribution of embeddings within the latent space produced by text encoders and the anticipated distribution required for semantic indexing. Nevertheless, it is non-trivial to design a method that can learn the document's semantic representations and its hierarchical structure simultaneously, given that semantic IDs are discrete and sequentially structured, and the semantic supervision is deficient. In this paper, we introduce LMINDEXER, a self-supervised framework to learn semantic IDs with a generative language model. We tackle the challenge of sequential discrete ID by introducing a semantic indexer capable of generating neural sequential discrete representations with progressive training and contrastive learning. In response to the semantic supervision deficiency, we propose to train the model with a self-supervised document reconstruction objective. The learned semantic indexer can facilitate various downstream tasks, such as recommendation and retrieval. We conduct experiments on three tasks including recommendation, product search, and document retrieval on five datasets from various domains, where LMINDEXER outperforms competitive baselines significantly and consistently.
翻訳日:2023-10-14 14:14:18 公開日:2023-10-11
# 非構造生成モデルからの探索可能なメッシュ変形部分空間

Explorable Mesh Deformation Subspaces from Unstructured Generative Models ( http://arxiv.org/abs/2310.07814v1 )

ライセンス: Link先を確認
Arman Maesumi, Paul Guerrero, Vladimir G. Kim, Matthew Fisher, Siddhartha Chaudhuri, Noam Aigerman, Daniel Ritchie(参考訳) 3d形状のバリエーションを探ることは、従来の3dモデリングツールの時間を要するプロセスである。 3d形状の深い生成モデルは、入力形状のセットから生じる潜在的なバリエーションを探索するために、原則として使用できる連続的な潜在空間を特徴とすることが多い。 潜在空間は高次元で可視化が困難であり、入力形状と関係のない形状を含み、それらを通る線形経路は、しばしば準最適形状遷移をもたらす。 さらに、生成モデルの訓練に用いられる元の高品質メッシュのバリエーションを、低品質の出力幾何ではなく、探究できるのが理想的である。 本稿では,ナビゲーションが容易な2次元探索空間から事前学習された生成モデルの部分空間へのマッピングを構築することにより,所定のランドマーク形状のバリエーションを探索する手法を提案する。 まず、入力されるランドマークの集合にまたがるマッピングの方法を説明し、それらの間のスムーズなバリエーションを示す。 次に, この部分空間の変形を変形場に変換し, それらの変形をランドマーク形状の高品質メッシュに伝達する方法を示す。 提案手法は, 様々な形状カテゴリーに対して, 視覚的かつ容易な2次元探索空間を作成できることを示し, 特に3次元形状の変形空間の学習に関する先行研究と比較した。

Exploring variations of 3D shapes is a time-consuming process in traditional 3D modeling tools. Deep generative models of 3D shapes often feature continuous latent spaces that can, in principle, be used to explore potential variations starting from a set of input shapes. In practice, doing so can be problematic: latent spaces are high dimensional and hard to visualize, contain shapes that are not relevant to the input shapes, and linear paths through them often lead to sub-optimal shape transitions. Furthermore, one would ideally be able to explore variations in the original high-quality meshes used to train the generative model, not its lower-quality output geometry. In this paper, we present a method to explore variations among a given set of landmark shapes by constructing a mapping from an easily-navigable 2D exploration space to a subspace of a pre-trained generative model. We first describe how to find a mapping that spans the set of input landmark shapes and exhibits smooth variations between them. We then show how to turn the variations in this subspace into deformation fields, to transfer those variations to high-quality meshes for the landmark shapes. Our results show that our method can produce visually-pleasing and easily-navigable 2D exploration spaces for several different shape categories, especially as compared to prior work on learning deformation spaces for 3D shapes.
翻訳日:2023-10-14 14:13:44 公開日:2023-10-11
# オンラインrl in linearly $q^\pi$-realizable mdps if you learn what to ignore. (英語)

Online RL in Linearly $q^\pi$-Realizable MDPs Is as Easy as in Linear MDPs If You Learn What to Ignore ( http://arxiv.org/abs/2310.07811v1 )

ライセンス: Link先を確認
Gell\'ert Weisz and Andr\'as Gy\"orgy and Csaba Szepesv\'ari(参考訳) オンライン強化学習 (rl) は, 線形$q^\pi$-実現可能性仮定の下でのマルコフ決定過程 (mdps) において, 全てのポリシーの動作値が状態動作特徴の線形関数として表現できると仮定する。 このクラスは線型 MDP よりも一般であることが知られており、遷移核と報酬関数は特徴ベクトルの線型函数であると仮定される。 最初の貢献として、2つのクラスの違いは、すべてのアクションがほぼ等しい値を持つ線形$q^\pi$-実現可能なmdpにおける状態の存在を示し、これらの状態における任意に固定されたポリシーに従うことで、問題を線形mdpに変換する。 この結果をもとに,線形に$q^\pi$-realizable MDPを学習する新しい学習アルゴリズムを考案し,その問題に隠れた線形MDP上で,どの状態をスキップすべきかを同時に学習し,別の学習アルゴリズムを実行する。 このメソッドは、$\text{polylog}(H, d)/\epsilon^2$ と MDP との相互作用の後、$\epsilon$-optimal policy を返す。 誤特定の場合、サンプルの複雑さは、誤特定エラーによって優雅に劣化することが示される。

We consider online reinforcement learning (RL) in episodic Markov decision processes (MDPs) under the linear $q^\pi$-realizability assumption, where it is assumed that the action-values of all policies can be expressed as linear functions of state-action features. This class is known to be more general than linear MDPs, where the transition kernel and the reward function are assumed to be linear functions of the feature vectors. As our first contribution, we show that the difference between the two classes is the presence of states in linearly $q^\pi$-realizable MDPs where for any policy, all the actions have approximately equal values, and skipping over these states by following an arbitrarily fixed policy in those states transforms the problem to a linear MDP. Based on this observation, we derive a novel (computationally inefficient) learning algorithm for linearly $q^\pi$-realizable MDPs that simultaneously learns what states should be skipped over and runs another learning algorithm on the linear MDP hidden in the problem. The method returns an $\epsilon$-optimal policy after $\text{polylog}(H, d)/\epsilon^2$ interactions with the MDP, where $H$ is the time horizon and $d$ is the dimension of the feature vectors, giving the first polynomial-sample-complexity online RL algorithm for this setting. The results are proved for the misspecified case, where the sample complexity is shown to degrade gracefully with the misspecification error.
翻訳日:2023-10-14 14:13:23 公開日:2023-10-11
# FedSym: フェデレートラーニングのアルゴリズムをベンチマークするためのエントロピーのパワーを解放する

FedSym: Unleashing the Power of Entropy for Benchmarking the Algorithms for Federated Learning ( http://arxiv.org/abs/2310.07807v1 )

ライセンス: Link先を確認
Ensiye Kiyamousavi, Boris Kraychev, Ivan Koychev(参考訳) Federated Learning(FL)は、独立した学習者がデータをプライベートに処理する分散機械学習アプローチである。 その目標は、複数のラウンドでローカルモデルを集約し、再トレーニングすることで、堅牢で正確なモデルを作ることだ。 しかし、FLはデータ不均一性とモデル集約の有効性に関する課題に直面している。 実世界のデータをシミュレートするために、研究者は、集中型学習に指定されたデータセットを、異なるデータ多様性を持つ分散機械学習に適したサブデータセットのグループに変換するデータパーティショニングの方法を使用する。 本稿では,現在普及しているデータ分割手法を調査し,その主な欠点を可視化する。データ多様性における精度の欠如,不確実性指標の欠如,flアルゴリズムへの漸進的挑戦の欠如である。 この問題を解決するために,エントロピーと対称性を利用して,段階的困難を伴う「最も困難」かつ制御可能なデータ分布を構築する手法を提案する。 学習エージェント間のデータの不均一性を測定するためのメトリクスと、データセットを正確なデータ多様性で分割する変換技術を導入する。 比較研究を通じて,既存のflデータ分割手法よりも優れた手法を示し,モデル集約アルゴリズムへの挑戦の可能性を示す。 実験結果から,本手法はfl戦略に徐々に挑戦し,feedsym分布を訓練したモデルがより異なることが示唆された。

Federated learning (FL) is a decentralized machine learning approach where independent learners process data privately. Its goal is to create a robust and accurate model by aggregating and retraining local models over multiple rounds. However, FL faces challenges regarding data heterogeneity and model aggregation effectiveness. In order to simulate real-world data, researchers use methods for data partitioning that transform a dataset designated for centralized learning into a group of sub-datasets suitable for distributed machine learning with different data heterogeneity. In this paper, we study the currently popular data partitioning techniques and visualize their main disadvantages: the lack of precision in the data diversity, which leads to unreliable heterogeneity indexes, and the inability to incrementally challenge the FL algorithms. To resolve this problem, we propose a method that leverages entropy and symmetry to construct 'the most challenging' and controllable data distributions with gradual difficulty. We introduce a metric to measure data heterogeneity among the learning agents and a transformation technique that divides any dataset into splits with precise data diversity. Through a comparative study, we demonstrate the superiority of our method over existing FL data partitioning approaches, showcasing its potential to challenge model aggregation algorithms. Experimental results indicate that our approach gradually challenges the FL strategies, and the models trained on FedSym distributions are more distinct.
翻訳日:2023-10-14 14:12:49 公開日:2023-10-11
# 個々人のイノベーションの役割を仲介する組織的コミットメントに対するテクノストレスの効果の検討

Investigating the Effect of Technostress on the Perceived Organizational Commitment by Mediating Role of Individual Innovation ( http://arxiv.org/abs/2310.07806v1 )

ライセンス: Link先を確認
Hassan Hessari, Fatemeh Daneshmandi, Tahmineh Nategh(参考訳) 目的: テクノロジは組織の運命を形成する上で,肯定的かつ否定的に重要な役割を果たします。 その有害な結果の1つは破壊的なストレスの一形態である"Technostress"の出現である。 本稿では,技術革新のレンズを通して,技術革新が知覚的組織コミットメント(POC)に与える影響について検討する。 目標は、組織マネージャに価値ある洞察を提供することで、チーム内の技術的障害の悪影響を効果的に軽減できるようにすることです。 設計・方法論・応用: イランのエンジニアリングコンサルティング会社で実施したアンケート調査を,モーガンの表に従って147人が参加した。 調査の結果,(1)技術がPOCと個人的イノベーションの両方に大きく負の影響を及ぼすという,3つの重要な洞察が得られた。 2) 個人の革新はPOCに肯定的かつ著しく影響を及ぼす。 3) 個々のイノベーションは,テクノストレスとpocの仲介役として機能し,組織的コミットメントに対するテクノストレスの否定的な影響を緩和する。 研究の意味: この研究は、マネージャが積極的にテクノストレス関連の課題に取り組み、組織内の個々のイノベーションを促進することの重要性を強調している。 これらの取り組みは、従業員間の組織的コミットメントの強化に不可欠である。 独創性/価値: この研究は、テクノストレスと認識される組織のコミットメントの関係における個人的イノベーションの役割を仲介することによって、この分野に多大な貢献をする。 エンジニアリング組織における技術と従業員の密接な関係を考えると、本研究は、このセクターが直面する特定の課題に光を当て、職場におけるテクノストレス効果の理解を深める。

Purpose: Technology plays a pivotal role in shaping the fate of organizations, both positively and negatively. One of its detrimental consequences is the emergence of "Technostress," a form of destructive stress. This paper investigates the impact of technostress on Perceived Organizational Commitment (POC) through the lens of individual innovation. The objective is to provide valuable insights for organizational managers, enabling them to effectively mitigate the adverse effects of technostress within their teams. Design/Methodology/Approach: This study utilized a questionnaire survey conducted within an Engineering Consulting Company in Iran, with 147 individuals participating, selected according to Morgan's table. Findings: The research findings revealed three crucial insights: (1) Technostress significantly and negatively influences both POC and individual innovation. (2) Individual innovation positively and significantly impacts POC. (3) Individual innovation acts as a mediator between technostress and POC, alleviating the negative impact of technostress on organizational commitment. Research Implications: The study underscores the importance for managers to proactively address technostress-related challenges and promote individual innovation within their organizations. These efforts are vital in enhancing organizational commitment among employees. Originality/Value: This research makes a significant contribution to the field by illuminating the mediating role of individual innovation in the relationship between technostress and perceived organizational commitment. Given the close association of employees in engineering organizations with technology, this study sheds light on the specific challenges faced by this sector, thereby enhancing our understanding of technostress effects in the workplace.
翻訳日:2023-10-14 14:12:27 公開日:2023-10-11
# 位相確率橋による生成モデリング

Generative Modeling with Phase Stochastic Bridges ( http://arxiv.org/abs/2310.07805v1 )

ライセンス: Link先を確認
Tianrong Chen, Jiatao Gu, Laurent Dinh, Evangelos A. Theodorou, Josh Susskind, Shuangfei Zhai(参考訳) 拡散モデル(DM)は連続入力のための最先端の生成モデルを表す。 DMは入力空間(e, position space)に確率微分方程式(SDE)を構築し、ニューラルネットワークを用いてそれを反転させる。 本研究では, 位相空間を, 位置と速度の両方を包含する拡張空間として定義する, \textbf{phase space dynamics} を基礎とする新しい生成的モデリングフレームワークを提案する。 確率的最適制御からの洞察を活用し、効率的なサンプリングを可能にする位相空間における経路測度を構築する。 DMとは対照的に、我々のフレームワークは動的伝播の初期段階で現実的なデータポイントを生成する能力を示している。 } この早期予測は、軌道に沿って追加の速度情報を利用することで、効率的なデータ生成のステージを設定する。 標準画像生成ベンチマークでは, 少数の機能評価(NFE)において, ベースラインよりも良好な性能が得られた。 さらに,効率的なサンプリング技術を備えた拡散モデルの性能に匹敵し,新しいツール生成モデルとしての可能性を強調した。

Diffusion models (DMs) represent state-of-the-art generative models for continuous inputs. DMs work by constructing a Stochastic Differential Equation (SDE) in the input space (ie, position space), and using a neural network to reverse it. In this work, we introduce a novel generative modeling framework grounded in \textbf{phase space dynamics}, where a phase space is defined as {an augmented space encompassing both position and velocity.} Leveraging insights from Stochastic Optimal Control, we construct a path measure in the phase space that enables efficient sampling. {In contrast to DMs, our framework demonstrates the capability to generate realistic data points at an early stage of dynamics propagation.} This early prediction sets the stage for efficient data generation by leveraging additional velocity information along the trajectory. On standard image generation benchmarks, our model yields favorable performance over baselines in the regime of small Number of Function Evaluations (NFEs). Furthermore, our approach rivals the performance of diffusion models equipped with efficient sampling techniques, underscoring its potential as a new tool generative modeling.
翻訳日:2023-10-14 14:12:02 公開日:2023-10-11
# 指数メカニズムによるプライベート高次元モデル選択の計算複雑性について

On the Computational Complexity of Private High-dimensional Model Selection via the Exponential Mechanism ( http://arxiv.org/abs/2310.07852v1 )

ライセンス: Link先を確認
Saptarshi Roy, Ambuj Tewari(参考訳) 微分プライバシーの枠組みの下では,高次元スパース線形回帰モデルにおけるモデル選択の問題を考える。 特に、微分プライベートなベストサブセット選択の問題を検討し、その実用性保証について検討する。 最善のモデルを選択するためのよく知られた指数関数的メカニズムを採用し、ある限界条件下では、その強いモデル回復特性を確立する。 しかし、指数的機構の指数的探索空間は深刻な計算ボトルネックを引き起こす。 この課題を克服するために、サンプリングステップのためのMetropolis-Hastingsアルゴリズムを提案し、問題パラメータ$n,p$および$s$の定常分布に対する多項式混合時間を確立する。 さらに,metropolis-hastingsランダムウォークの最終推定のための近似微分プライバシーを,その混合特性を用いて確立する。 最後に, 主結果の理論的知見を反映する数値シミュレーションも実施する。

We consider the problem of model selection in a high-dimensional sparse linear regression model under the differential privacy framework. In particular, we consider the problem of differentially private best subset selection and study its utility guarantee. We adopt the well-known exponential mechanism for selecting the best model, and under a certain margin condition, we establish its strong model recovery property. However, the exponential search space of the exponential mechanism poses a serious computational bottleneck. To overcome this challenge, we propose a Metropolis-Hastings algorithm for the sampling step and establish its polynomial mixing time to its stationary distribution in the problem parameters $n,p$, and $s$. Furthermore, we also establish approximate differential privacy for the final estimates of the Metropolis-Hastings random walk using its mixing property. Finally, we also perform some illustrative simulations that echo the theoretical findings of our main results.
翻訳日:2023-10-14 14:05:42 公開日:2023-10-11
# テキスト分類のための大規模言語モデルを用いた合成データ生成:可能性と限界

Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations ( http://arxiv.org/abs/2310.07849v1 )

ライセンス: Link先を確認
Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin(参考訳) 高品質なトレーニングデータの収集とキュレーションは、優れたパフォーマンスを持つテキスト分類モデルを開発する上で重要であるが、しばしばかなりのコストと時間投資に関係している。 研究者は最近、代替アプローチとして大規模な言語モデル(LLM)を使用して合成データセットを生成する方法を模索している。 しかし, モデル学習支援におけるLLM生成合成データの有効性は, 異なる分類課題間で不一致である。 本研究は,LLM合成データの有効性を適度に評価する要因を理解するため,これらの合成データに基づいてトレーニングされたモデルの性能が,分類の主観性とどう異なるかを検討する。 その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づくモデルの性能と負の相関関係があることが示唆された。 我々は、合成データ生成にLLMを活用する可能性と限界について、我々の研究の意義について論じる。

The collection and curation of high-quality training data is crucial for developing text classification models with superior performance, but it is often associated with significant costs and time investment. Researchers have recently explored using large language models (LLMs) to generate synthetic datasets as an alternative approach. However, the effectiveness of the LLM-generated synthetic data in supporting model training is inconsistent across different classification tasks. To better understand factors that moderate the effectiveness of the LLM-generated synthetic data, in this study, we look into how the performance of models trained on these synthetic data may vary with the subjectivity of classification. Our results indicate that subjectivity, at both the task level and instance level, is negatively associated with the performance of the model trained on synthetic data. We conclude by discussing the implications of our work on the potential and limitations of leveraging LLM for synthetic data generation.
翻訳日:2023-10-14 14:05:28 公開日:2023-10-11
# 知識グラフの自動構築によるサンスクリットにおける質問応答フレームワーク

Framework for Question-Answering in Sanskrit through Automated Construction of Knowledge Graphs ( http://arxiv.org/abs/2310.07848v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar and Arnab Bhattacharya(参考訳) サンスクリット (sa\d{m}sk\d{r}ta) は世界最大かつ最も多様な文学の1つである。 しかし、その知識を抽出することは、言語の複雑さや標準自然言語処理ツールの妥当性など、さまざまな理由から難しい課題である。 本稿では,sa\d{m}sk\d{r}ta テキストから,特定の種類の関係性に関する知識グラフを構築することの問題点を論じる。 sa\d{m}sk\d{r}taに自然言語質問応答システムを構築し,知識グラフを用いて事実的疑問に答える。 我々は、システム全体のフレームワークを設計し、このシステムの人間関係に関する2つのインスタンスをmah\=abh\=arata と r\=am\=aya\d{n}a と、bh\=avaprak\=a\'sa nigha\d{n}\d{t}u の同義関係に関する1つのインスタンスを実装した。 事実的質問の約50%がシステムによって正しく答えられることを示す。 より重要なことは、各ステップでシステムの欠点を詳細に分析し、考えられる方法について議論することです。

Sanskrit (sa\d{m}sk\d{r}ta) enjoys one of the largest and most varied literature in the whole world. Extracting the knowledge from it, however, is a challenging task due to multiple reasons including complexity of the language and paucity of standard natural language processing tools. In this paper, we target the problem of building knowledge graphs for particular types of relationships from sa\d{m}sk\d{r}ta texts. We build a natural language question-answering system in sa\d{m}sk\d{r}ta that uses the knowledge graph to answer factoid questions. We design a framework for the overall system and implement two separate instances of the system on human relationships from mah\=abh\=arata and r\=am\=aya\d{n}a, and one instance on synonymous relationships from bh\=avaprak\=a\'sa nigha\d{n}\d{t}u, a technical text from \=ayurveda. We show that about 50% of the factoid questions can be answered correctly by the system. More importantly, we analyse the shortcomings of the system in detail for each step, and discuss the possible ways forward.
翻訳日:2023-10-14 14:05:13 公開日:2023-10-11
# 有限領域上の知識伝達の基本限界に向けて

Towards the Fundamental Limits of Knowledge Transfer over Finite Domains ( http://arxiv.org/abs/2310.07838v1 )

ライセンス: Link先を確認
Qingyue Zhao and Banghua Zhu(参考訳) 教師からのサンプル$n$ から、ラベル$\mathcal a$ よりも入力空間$\mathcal s$ の確率的学生分類器への知識伝達の統計的効率を特徴付ける。 3つの段階の特権情報が転送を加速することを示す。 第1段階では、ハードラベルを持つサンプルのみが知られており、最大確率推定器が最小値$\sqrt{{|{\mathcal s}||{\mathcal a}|}/{n}}$に達する。 第2のレベルは、サンプルラベルの教師の確率も備えており、これは${{|{\mathcal s}||{\mathcal a}|}/{n}}$ の収束率を下げる結果となる。 しかし、この第2のデータ取得プロトコルでは、クロスエントロピー損失の単純適応が最小化され、漸近的に偏りが生じる。 この制限を克服し、二乗誤差ロジット損失の新たな経験的変種を用いて基本限界を達成する。 第3レベルはさらに、サンプル入力毎に与えられた${\mathcal a}$のソフトラベル(完全ロジット)を学生に供給し、それによって学生は${|{\mathcal s}|}/{n}$の$|{\mathcal a}|$を享受することができる。 最後のケースでは、Kulback-Leibler分散最小化器が最適である。 数値シミュレーションは4人の学習者を区別し、我々の理論を裏付ける。

We characterize the statistical efficiency of knowledge transfer through $n$ samples from a teacher to a probabilistic student classifier with input space $\mathcal S$ over labels $\mathcal A$. We show that privileged information at three progressive levels accelerates the transfer. At the first level, only samples with hard labels are known, via which the maximum likelihood estimator attains the minimax rate $\sqrt{{|{\mathcal S}||{\mathcal A}|}/{n}}$. The second level has the teacher probabilities of sampled labels available in addition, which turns out to boost the convergence rate lower bound to ${{|{\mathcal S}||{\mathcal A}|}/{n}}$. However, under this second data acquisition protocol, minimizing a naive adaptation of the cross-entropy loss results in an asymptotically biased student. We overcome this limitation and achieve the fundamental limit by using a novel empirical variant of the squared error logit loss. The third level further equips the student with the soft labels (complete logits) on ${\mathcal A}$ given every sampled input, thereby provably enables the student to enjoy a rate ${|{\mathcal S}|}/{n}$ free of $|{\mathcal A}|$. We find any Kullback-Leibler divergence minimizer to be optimal in the last case. Numerical simulations distinguish the four learners and corroborate our theory.
翻訳日:2023-10-14 14:04:48 公開日:2023-10-11
# 言語モデルにおける特徴空間の測定

Measuring Feature Sparsity in Language Models ( http://arxiv.org/abs/2310.07837v1 )

ライセンス: Link先を確認
Mingyang Deng, Lucas Tao, Joe Benton(参考訳) 近年の研究では、入力テキストの特徴に対応するベクトルの疎線形結合として言語モデルのアクティベーションをモデル化できることが提案されている。 この仮定の下で、これらの作品はスパースコーディングを用いて特徴の方向を再構築することを目的としている。 我々は,これらの疎い符号化手法の成功を評価する指標を開発し,線形性および疎性仮定の有効性を検証する。 我々は,合成スパース線形活性化におけるスパース性のレベルを予測し,スパース線形データと他の分布を区別できることを示す。 私たちはメトリクスを使って、いくつかの言語モデルのスパーシティのレベルを測定します。 言語モデルのアクティベーションは、制御データセットよりもはるかに高い精度で、特徴の疎線形結合によって正確にモデル化できることを示す。 また,モデルアクティベーションが第1層と最終層で最もスパース的であることも示している。

Recent works have proposed that activations in language models can be modelled as sparse linear combinations of vectors corresponding to features of input text. Under this assumption, these works aimed to reconstruct feature directions using sparse coding. We develop metrics to assess the success of these sparse coding techniques and test the validity of the linearity and sparsity assumptions. We show our metrics can predict the level of sparsity on synthetic sparse linear activations, and can distinguish between sparse linear data and several other distributions. We use our metrics to measure levels of sparsity in several language models. We find evidence that language model activations can be accurately modelled by sparse linear combinations of features, significantly more so than control datasets. We also show that model activations appear to be sparsest in the first and final layers.
翻訳日:2023-10-14 14:04:20 公開日:2023-10-11
# いつ、なぜ、そしていくらだ? 改良による適応学習率スケジューリング

When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement ( http://arxiv.org/abs/2310.07831v1 )

ライセンス: Link先を確認
Aaron Defazio and Ashok Cutkosky and Harsh Mehta and Konstantin Mishchenko(参考訳) 実際には学習率のスケジュールは理論によって推奨されるものとほとんど似ていない。 我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。 我々の重要な技術的貢献は、幅広い最適化アルゴリズム(SGDを含む)の学習率スケジュールの洗練された分析である。 平均イテレートの収束を研究するほとんどの先行研究とは対照的に、ほとんどの人が実際に使っているのは最後のイテレートである。 最低ケース解析のみを考慮すると、我々の理論は、最良の選択は線形減衰スケジュールである、と予測する: 実際には、ステップサイズを1 - t/T$に比例的に設定する一般的な選択であり、$t$は現在の反復であり、$T$はステップの総数である。 この最悪のケース分析を超えて、観測された勾配ノルムを用いて、特定のタスクに洗練されたスケジュールを導出する。 これらの洗練されたスケジュールは、トレーニング終了近くで学習率ウォームアップと迅速な学習率アニーリングを示す。 oursは、これらのプロパティを自動生成する最初の体系的アプローチです。 これまでに最も包括的な学習スケジュールの評価を行い,10の多様な深層学習問題,一連のLLM,ロジスティック回帰問題に対して評価を行った。 概して、線形遅延スケジュールは、コサインアニールを含む一般的なデフォルトスケジュールと一致または性能が良く、スケジュール改善手法が更なる改善をもたらすことを検証した。

Learning rate schedules used in practice bear little resemblance to those recommended by theory. We close much of this theory/practice gap, and as a consequence are able to derive new problem-adaptive learning rate schedules. Our key technical contribution is a refined analysis of learning rate schedules for a wide class of optimization algorithms (including SGD). In contrast to most prior works that study the convergence of the average iterate, we study the last iterate, which is what most people use in practice. When considering only worst-case analysis, our theory predicts that the best choice is the linear decay schedule: a popular choice in practice that sets the stepsize proportionally to $1 - t/T$, where $t$ is the current iteration and $T$ is the total number of steps. To go beyond this worst-case analysis, we use the observed gradient norms to derive schedules refined for any particular task. These refined schedules exhibit learning rate warm-up and rapid learning rate annealing near the end of training. Ours is the first systematic approach to automatically yield both of these properties. We perform the most comprehensive evaluation of learning rate schedules to date, evaluating across 10 diverse deep learning problems, a series of LLMs, and a suite of logistic regression problems. We validate that overall, the linear-decay schedule matches or outperforms all commonly used default schedules including cosine annealing, and that our schedule refinement method gives further improvements.
翻訳日:2023-10-14 14:04:08 公開日:2023-10-11
# 合成データは大きな言語モデルをより効率的にするか?

Does Synthetic Data Make Large Language Models More Efficient? ( http://arxiv.org/abs/2310.07830v1 )

ライセンス: Link先を確認
Sia Gholami, Marwan Omar(参考訳) 自然言語処理(NLP)は、ディープラーニング手法の出現とともに、変革的な変化を遂げた。 研究者が継続的に直面する課題の1つは、これらのモデルを駆動する高品質な注釈付きデータセットの不足である。 本稿では,NLPにおける合成データ生成のニュアンスについて,テンプレートベースの質問生成に焦点をあてて検討する。 データ拡張可能性や構造化品種の導入など,そのメリットを評価することで,オーバーフィットのリスクや事前定義されたテンプレートによる制約といった,固有の制限に対して,これらのメリットを調整します。 経験的評価から, テンプレートに基づく合成データが現代の変圧器モデルの性能に与える影響を実証する。 我々は、合成データと実世界のデータの微妙なバランスと、モデルトレーニングパイプラインに合成データを統合する将来の軌道を強調した。 本研究の目的は,NLP実践者が合成データの潜在能力を活用し,多様なアプリケーションにおいて最適なモデル性能を確保することである。

Natural Language Processing (NLP) has undergone transformative changes with the advent of deep learning methodologies. One challenge persistently confronting researchers is the scarcity of high-quality, annotated datasets that drive these models. This paper explores the nuances of synthetic data generation in NLP, with a focal point on template-based question generation. By assessing its advantages, including data augmentation potential and the introduction of structured variety, we juxtapose these benefits against inherent limitations, such as the risk of overfitting and the constraints posed by pre-defined templates. Drawing from empirical evaluations, we demonstrate the impact of template-based synthetic data on the performance of modern transformer models. We conclude by emphasizing the delicate balance required between synthetic and real-world data, and the future trajectories of integrating synthetic data in model training pipelines. The findings aim to guide NLP practitioners in harnessing synthetic data's potential, ensuring optimal model performance in diverse applications.
翻訳日:2023-10-14 14:03:45 公開日:2023-10-11
# antarlekhaka: 多タスク自然言語アノテーションのための包括的なツール

Antarlekhaka: A Comprehensive Tool for Multi-task Natural Language Annotation ( http://arxiv.org/abs/2310.07826v1 )

ライセンス: Link先を確認
Hrishikesh Terdalkar (1) and Arnab Bhattacharya (1) ((1) Indian Institute of Technology Kanpur)(参考訳) 低リソース言語のための自然言語処理(NLP)技術の進歩の大きな障害の1つは、機械学習モデルのトレーニングとテストのための注釈付きデータセットの欠如である。 本稿では,NLPに関連するタスクの包括的セットを手動でアノテーションするAntarlekhakaを提案する。 このツールはUnicode互換で、言語に依存しない、Webデプロイ可能で、複数の同時アノテータによる分散アノテーションをサポートする。 アノテーションタスクの8つのカテゴリに対して,ユーザフレンドリなインターフェースを備える。 これらにより、かなり大きなNLPタスクセットのアノテーションが可能になる。 タスクカテゴリには、他のツールでは処理されない2つの言語的タスク、すなわち文境界の検出と、詩の形をしたテキストにとって重要なタスクである標準語順の決定が含まれる。 本稿では,小文単位に基づく逐次アノテーションの考え方を提案する。アノテーションは1つのテキスト単位に関する複数のタスクを,次の単位に進む前に実行する。 提案手法であるマルチタスクアノテーションの研究応用についても述べる。 Antarlekhakaは客観的評価において他のアノテーションツールよりも優れている。 また、サンスクリット語とベンガル語という2つの異なる言語での2つの実生活のアノテーションタスクにも使用されている。 このツールはhttps://github.com/antarlekhaka/codeで入手できる。

One of the primary obstacles in the advancement of Natural Language Processing (NLP) technologies for low-resource languages is the lack of annotated datasets for training and testing machine learning models. In this paper, we present Antarlekhaka, a tool for manual annotation of a comprehensive set of tasks relevant to NLP. The tool is Unicode-compatible, language-agnostic, Web-deployable and supports distributed annotation by multiple simultaneous annotators. The system sports user-friendly interfaces for 8 categories of annotation tasks. These, in turn, enable the annotation of a considerably larger set of NLP tasks. The task categories include two linguistic tasks not handled by any other tool, namely, sentence boundary detection and deciding canonical word order, which are important tasks for text that is in the form of poetry. We propose the idea of sequential annotation based on small text units, where an annotator performs several tasks related to a single text unit before proceeding to the next unit. The research applications of the proposed mode of multi-task annotation are also discussed. Antarlekhaka outperforms other annotation tools in objective evaluation. It has been also used for two real-life annotation tasks on two different languages, namely, Sanskrit and Bengali. The tool is available at https://github.com/Antarlekhaka/code.
翻訳日:2023-10-14 14:03:30 公開日:2023-10-11
# 測定ベース量子回路の確率誤差除去

Probabilistic error cancellation for measurement-based quantum circuits ( http://arxiv.org/abs/2310.07825v1 )

ライセンス: Link先を確認
Riddhi S. Gupta, Ewout van den Berg, Maika Takita, Kristan Temme, and Abhinav Kandala(参考訳) PEC(Probabilistic error cancel)は、量子回路のアンサンブルから期待値の誤差緩和推定を生成する手法である。 本研究では,単位回路から動的回路へのpecの適用を,中回路計測や古典的制御(フェードフォワード)クリフォード演算などの計測に基づく動作に拡張する。 本手法は,超伝導プロセッサにおける非局所測定クロストークを考慮に入れながら,スパースなパウリ・リンドブラッドノイズモデルから計測に基づく操作まで拡張する。 我々の緩和および監視実験は、本研究で開発されたプロトコルの性能の全体像を提供する。 これらの機能は、短期の動的回路アプリケーションの探索において重要なツールとなるだろう。

Probabilistic error cancellation (PEC) is a technique that generates error-mitigated estimates of expectation values from ensembles of quantum circuits. In this work we extend the application of PEC from unitary-only circuits to dynamic circuits with measurement-based operations, such as mid-circuit measurements and classically-controlled (feedforward) Clifford operations. Our approach extends the sparse Pauli-Lindblad noise model to measurement-based operations while accounting for non-local measurement crosstalk in superconducting processors. Our mitigation and monitoring experiments provide a holistic view for the performance of the protocols developed in this work. These capabilities will be a crucial tool in the exploration of near-term dynamic circuit applications.
翻訳日:2023-10-14 14:03:13 公開日:2023-10-11
# SFQに基づくスパイクニューラルネットワークのためのオンチップ学習型ニューロン回路

An On-Chip Trainable Neuron Circuit for SFQ-Based Spiking Neural Networks ( http://arxiv.org/abs/2310.07824v1 )

ライセンス: Link先を確認
Beyza Zeynep Ucpinar, Mustafa Altay Karamuftuoglu, Sasan Razmkhah, Massoud Pedram(参考訳) オンチップトレーニング可能なニューロン回路を提案する。 提案回路は,スパイクニューラルネットワーク(SNN)のトレーニングのためのバイオインスパイクに基づく時間依存データ計算に適合する。 ニューロンの閾値は、所望のアプリケーション固有のスパイク発生率に応じて増大または減少することができる。 このメカニズムは柔軟な設計とスケーラブルな回路構造を提供します。 異なる動作シナリオで学習可能なニューロン構造を示す。 回路はMIT LL SFQ5eeの製造プロセス用に設計・最適化されている。 全パラメータのマージン値は25\%以上で、16入力ニューロンのスループットは3GHzである。

We present an on-chip trainable neuron circuit. Our proposed circuit suits bio-inspired spike-based time-dependent data computation for training spiking neural networks (SNN). The thresholds of neurons can be increased or decreased depending on the desired application-specific spike generation rate. This mechanism provides us with a flexible design and scalable circuit structure. We demonstrate the trainable neuron structure under different operating scenarios. The circuits are designed and optimized for the MIT LL SFQ5ee fabrication process. Margin values for all parameters are above 25\% with a 3GHz throughput for a 16-input neuron.
翻訳日:2023-10-14 14:03:01 公開日:2023-10-11
# 拡散生成モデルのための効率的な積分器

Efficient Integrators for Diffusion Generative Models ( http://arxiv.org/abs/2310.07894v1 )

ライセンス: Link先を確認
Kushagra Pandey, Maja Rudolph, Stephan Mandt(参考訳) 拡散モデルは、推論時に遅いサンプル生成に苦しむ。 したがって、より広い拡散モデルに対する高速決定論的・統計的サンプリングのための原理的枠組みの開発は有望な方向である。 本稿では,事前学習したモデルのサンプル生成を高速化する2つの補完的フレームワークを提案する。 共役積分器はDDIMを一般化し、逆拡散力学をサンプリングのためにより可換な空間にマッピングする。 対照的に、分子動力学でよく用いられる分割型積分器は、データと補助変数を含む数値更新を巧みに交互に交互に行い、数値シミュレーション誤差を低減する。 実験的および理論的にこれらの手法を広範囲に研究し,拡張空間における拡散モデルの性能を最もよく報告するハイブリッド手法を提案する。 cifar-10 上の位相空間ランジュバン拡散 [pandey & mandt, 2023] に適用すると、決定論的および確率的サンプリングは、100 個のネットワーク関数評価 (nfe) でそれぞれ 2.57 と 2.63 に対して、fid スコアが 2.11 と 2.36 となる。 私たちのコードとモデルチェックポイントは、 \url{https://github.com/mandt-lab/PSLD}で公開されます。

Diffusion models suffer from slow sample generation at inference time. Therefore, developing a principled framework for fast deterministic/stochastic sampling for a broader class of diffusion models is a promising direction. We propose two complementary frameworks for accelerating sample generation in pre-trained models: Conjugate Integrators and Splitting Integrators. Conjugate integrators generalize DDIM, mapping the reverse diffusion dynamics to a more amenable space for sampling. In contrast, splitting-based integrators, commonly used in molecular dynamics, reduce the numerical simulation error by cleverly alternating between numerical updates involving the data and auxiliary variables. After extensively studying these methods empirically and theoretically, we present a hybrid method that leads to the best-reported performance for diffusion models in augmented spaces. Applied to Phase Space Langevin Diffusion [Pandey & Mandt, 2023] on CIFAR-10, our deterministic and stochastic samplers achieve FID scores of 2.11 and 2.36 in only 100 network function evaluations (NFE) as compared to 2.57 and 2.63 for the best-performing baselines, respectively. Our code and model checkpoints will be made publicly available at \url{https://github.com/mandt-lab/PSLD}.
翻訳日:2023-10-14 13:55:28 公開日:2023-10-11
# DeePref:コンテンツ配信ネットワークにおけるビデオプレフェッチのための深層強化学習

DeePref: Deep Reinforcement Learning For Video Prefetching In Content Delivery Networks ( http://arxiv.org/abs/2310.07881v1 )

ライセンス: Link先を確認
Nawras Alkassab, Chin-Tser Huang, Tania Lorido Botran(参考訳) コンテンツ配信ネットワークは、インターネットトラフィックの大部分を担い、インターネット上の主要なIPトラフィックとしてのビデオコンテンツの需要の増加は、キャッシュとプリフェッチ最適化アルゴリズムの重要性を強調している。 Prefetchingは、要求者がアクセス時間を短縮し、ユーザ側のQuality of Experienceを改善するために要求する前に、キャッシュでデータを利用できるようにすることを目的としている。 プリフェッチはオペレーティングシステム、コンパイラ命令、インメモリキャッシュ、ローカルストレージシステム、高速ネットワーク、クラウドシステムでよく研究されている。 従来のプリフェッチテクニックは特定のアクセスパターンにうまく適応しているが、突然の変動やワークロードのランダム化に適応できない。 本稿では,ユーザアクセスパターンの変化に対処し,時間とともに自動的に適応する強化学習について検討する。 そこで本研究では,コンテンツ配信ネットワークにおけるオンラインビデオコンテンツプリフェッチのための深層強化学習エージェントdeeprefを提案する。 DeePrefはエッジネットワーク上に実装されたプレファーであり、ハードウェア設計、オペレーティングシステム、アプリケーションには依存しない。 実世界のデータセットを用いたDeePref DRQNは,映像コンテンツの人気をビルディングブロックとして利用し,静的あるいは動的にプリフェッチ決定を行うベースラインアプローチと比較して,前処理精度が17%向上し,前処理カバレッジが平均で28%増加した。 また,あるエッジネットワークから別のエッジネットワークへ,未知の分布からの未確認ユーザ要求が観測される統計モデルの移行学習の可能性についても検討した。 転校学習の観点では,プリフェッチ精度の向上とプリフェッチカバレッジの増加は,それぞれ[30%$,10%$]である。 ソースコードはGithubで公開されます。

Content Delivery Networks carry the majority of Internet traffic, and the increasing demand for video content as a major IP traffic across the Internet highlights the importance of caching and prefetching optimization algorithms. Prefetching aims to make data available in the cache before the requester places its request to reduce access time and improve the Quality of Experience on the user side. Prefetching is well investigated in operating systems, compiler instructions, in-memory cache, local storage systems, high-speed networks, and cloud systems. Traditional prefetching techniques are well adapted to a particular access pattern, but fail to adapt to sudden variations or randomization in workloads. This paper explores the use of reinforcement learning to tackle the changes in user access patterns and automatically adapt over time. To this end, we propose, DeePref, a Deep Reinforcement Learning agent for online video content prefetching in Content Delivery Networks. DeePref is a prefetcher implemented on edge networks and is agnostic to hardware design, operating systems, and applications. Our results show that DeePref DRQN, using a real-world dataset, achieves a 17% increase in prefetching accuracy and a 28% increase in prefetching coverage on average compared to baseline approaches that use video content popularity as a building block to statically or dynamically make prefetching decisions. We also study the possibility of transfer learning of statistical models from one edge network into another, where unseen user requests from unknown distribution are observed. In terms of transfer learning, the increase in prefetching accuracy and prefetching coverage are [$30%$, $10%$], respectively. Our source code will be available on Github.
翻訳日:2023-10-14 13:55:03 公開日:2023-10-11
# tablib: コンテキスト付き627mテーブルのデータセット

TabLib: A Dataset of 627M Tables with Context ( http://arxiv.org/abs/2310.07875v1 )

ライセンス: Link先を確認
Gus Eggert, Kevin Huo, Mike Biven, and Justin Waugh(参考訳) テキストと画像のモダリティのための現代のaiシステムのパフォーマンスにおいて、大規模で多様なデータセットが重要な役割を果たすことはよく知られている。 しかし、テキストや画像に匹敵する大きさと多様性の表データのためのデータセットは存在しない。 そこで、69 TiBの合計6億2700万のテーブルと、867Bのコンテキストトークンからなる"TabLib'"を提示する。 TabLibは、GitHubとCommon CrawlからソースされたCSV、HTML、SQLite、PDF、Excelなど、多数のファイルフォーマットから抽出された。 tablibのサイズと多様性はテーブルモダリティにおいて、pillやlaionのようなテキストや画像の基本データセットの当初の約束を思い起こさせるような大きな期待をもたらす。

It is well-established that large, diverse datasets play a pivotal role in the performance of modern AI systems for text and image modalities. However, there are no datasets for tabular data of comparable size and diversity to those available for text and images. Thus we present "TabLib'', a compilation of 627 million tables totaling 69 TiB, along with 867B tokens of context. TabLib was extracted from numerous file formats, including CSV, HTML, SQLite, PDF, Excel, and others, sourced from GitHub and Common Crawl. The size and diversity of TabLib offer considerable promise in the table modality, reminiscent of the original promise of foundational datasets for text and images, such as The Pile and LAION.
翻訳日:2023-10-14 13:54:36 公開日:2023-10-11
# マルチモーダル電子健康記録の階層的事前学習

Hierarchical Pretraining on Multimodal Electronic Health Records ( http://arxiv.org/abs/2310.07871v1 )

ライセンス: Link先を確認
Xiaochen Wang, Junyu Luo, Jiaqi Wang, Ziyi Yin, Suhan Cui, Yuan Zhong, Yaqing Wang, Fenglong Ma(参考訳) プレトレーニングは自然言語処理(NLP)において強力な手法であることが証明され、様々なNLP下流タスクで顕著な成功を収めた。 しかし、医療分野では、電子健康記録(EHR)に関する既存の事前訓練モデルでは、EHRデータの階層的な性質を捉えることができず、単一の事前訓練モデルを使用して下流の様々なタスクにまたがる一般化能力を制限している。 そこで本研究では,階層的マルチモーダルEHRデータに特化して設計されたMEDHMPという,新規で汎用的で統一的な事前学習フレームワークを提案する。 提案したMEDHMPの有効性は,3つのレベルにまたがる8つの下流タスクの実験結果を通じて実証された。 18の基準との比較は、我々のアプローチの有効性をさらに強調する。

Pretraining has proven to be a powerful technique in natural language processing (NLP), exhibiting remarkable success in various NLP downstream tasks. However, in the medical domain, existing pretrained models on electronic health records (EHR) fail to capture the hierarchical nature of EHR data, limiting their generalization capability across diverse downstream tasks using a single pretrained model. To tackle this challenge, this paper introduces a novel, general, and unified pretraining framework called MEDHMP, specifically designed for hierarchically multimodal EHR data. The effectiveness of the proposed MEDHMP is demonstrated through experimental results on eight downstream tasks spanning three levels. Comparisons against eighteen baselines further highlight the efficacy of our approach.
翻訳日:2023-10-14 13:54:24 公開日:2023-10-11
# 量子LDPC符号に対するバイダーマンのアルゴリズム

Viderman's algorithm for quantum LDPC codes ( http://arxiv.org/abs/2310.07868v1 )

ライセンス: Link先を確認
Anirudh Krishna, Inbal Livni Navon, Mary Wootters(参考訳) 量子誤り訂正符号のクラスであるLDPC符号は、スケーラブルな量子回路の青写真と見なされている。 これらのコードを使用するには、効率的な復号アルゴリズムが必要である。 古典的な設定では、Vidermanのアルゴリズム(Viderman, TOCT 2013)を含む複数の効率的な復号アルゴリズムが利用可能である。 古典的LDPC符号に対するビダーマンのアルゴリズムは、エラー集合を含むことが保証される小さなエンベロープ$L$を識別することにより、エラー訂正問題を消去補正の問題に本質的に還元する。 我々の主な成果は、バイダーマンのアルゴリズムを量子LDPC符号、すなわちハイパーグラフ製品符号(Tillich, Z\'emor, IEEE T-IT, 2013)に一般化することである。 これは、定数レートの量子LDPC符号に対して最大$\Omega(D)$エラーを修正できる最初の消去変換アルゴリズムである。 その意味では、既存の復号アルゴリズム、特に小さなセット・フリップアルゴリズム(leverrier, tillich, z\'emor, focs, 2015)とは根本的に異なる。 さらに,一部のパラメータでは,デコードアルゴリズムは既存のアルゴリズムのデコード半径を改善する。 我々は、量子ldpc符号に対する線形時間消去復号アルゴリズムが未だ存在していないので、復号アルゴリズム全体の最終的な実行時間は線形ではないことに注意する。

Quantum low-density parity-check (LDPC) codes, a class of quantum error correcting codes, are considered a blueprint for scalable quantum circuits. To use these codes, one needs efficient decoding algorithms. In the classical setting, there are multiple efficient decoding algorithms available, including Viderman's algorithm (Viderman, TOCT 2013). Viderman's algorithm for classical LDPC codes essentially reduces the error-correction problem to that of erasure-correction, by identifying a small envelope $L$ that is guaranteed to contain the error set. Our main result is a generalization of Viderman's algorithm to quantum LDPC codes, namely hypergraph product codes (Tillich, Z\'emor, IEEE T-IT, 2013). This is the first erasure-conversion algorithm that can correct up to $\Omega(D)$ errors for constant-rate quantum LDPC codes, where $D$ is the distance of the code. In that sense, it is also fundamentally different from existing decoding algorithms, in particular from the small-set-flip algorithm (Leverrier, Tillich, Z\'emor, FOCS, 2015). Moreover, in some parameter regimes, our decoding algorithm improves on the decoding radius of existing algorithms. We note that we do not yet have linear-time erasure-decoding algorithms for quantum LDPC codes, and thus the final running time of the whole decoding algorithm is not linear; however, we view our linear-time envelope-finding algorithm as an important first step.
翻訳日:2023-10-14 13:54:11 公開日:2023-10-11
# 安価な会話アルゴリズム

Cheap Talking Algorithms ( http://arxiv.org/abs/2310.07867v1 )

ライセンス: Link先を確認
Daniele Condorelli, Massimiliano Furlan(参考訳) 我々は、crawford and sobel (1982) game of strategic information transmission をプレイする独立強化学習アルゴリズムの挙動をシミュレートする。 送信機と受信機が協調してゲームの最適均衡に近い戦略に収束することを示す。 したがって、エージェント間の関心の衝突の度合いを考えると、ナッシュ均衡によって予測される最大の範囲で通信が行われる。 この結論はハイパーパラメータやゲームの代替仕様に対して堅牢であることが示されている。 本稿では,情報伝達ゲームにおける平衡選択の理論,計算機科学におけるアルゴリズム間の新たなコミュニケーション,人工知能エージェントによる市場における共謀の経済性について論じる。

We simulate behaviour of independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We show that a sender and a receiver training together converge to strategies close to the exante optimal equilibrium of the game. Hence, communication takes place to the largest extent predicted by Nash equilibrium given the degree of conflict of interest between agents. The conclusion is shown to be robust to alternative specifications of the hyperparameters and of the game. We discuss implications for theories of equilibrium selection in information transmission games, for work on emerging communication among algorithms in computer science and for the economics of collusions in markets populated by artificially intelligent agents.
翻訳日:2023-10-14 13:53:41 公開日:2023-10-11
# トラップイオン量子シミュレータとグローバルドライブの相互作用グラフ工学

Interaction graph engineering in trapped-ion quantum simulators with global drives ( http://arxiv.org/abs/2310.07859v1 )

ライセンス: Link先を確認
Antonis Kyprianidis, A. J. Rasmusson, Philip Richerme(参考訳) トラップイオン量子シミュレータは、地球規模のエンタングリング操作を用いて相互作用するスピン格子系の物理学を研究する長い歴史を実証してきた。 ここでは,全球駆動場のみを用いて実現可能な効果的なスピンスピン-スピン相互作用のクラスを広げ,限定することを目指す。 相互作用グラフの新たなカテゴリは, イオン結晶の各振動モードへの結合を調整したり, トラップ電位を特定の不調和項を含むように形成することによって, 完全あるいはほぼ完全な理論的忠実さで達成できることがわかった。 また、グローバルに駆動されたフィールドのみを用いて、所望の相互作用グラフがアクセス可能であるかどうかを厳密なテストで判断する。 これらのツールは、閉じ込められたイオン量子シミュレータの範囲を広げ、物質科学や量子化学のオープンな問題にもっと容易に対処できるようにします。

Trapped-ion quantum simulators have demonstrated a long history of studying the physics of interacting spin-lattice systems using globally addressed entangling operations. Here, we seek to broaden and delimit the classes of effective spin-spin interactions achievable using exclusively global driving fields. We find that new categories of interaction graphs become achievable with perfect or near-perfect theoretical fidelity by tailoring the coupling to each vibrational mode of the ion crystal, or by shaping the trapping potential to include specific anharmonic terms. We also derive a rigorous test to determine whether a desired interaction graph is accessible using only globally driven fields. These tools broaden the reach of trapped-ion quantum simulators so that they may more easily address open questions in materials science and quantum chemistry.
翻訳日:2023-10-14 13:53:23 公開日:2023-10-11
# QArchSearch: スケーラブルな量子アーキテクチャ検索パッケージ

QArchSearch: A Scalable Quantum Architecture Search Package ( http://arxiv.org/abs/2310.07858v1 )

ライセンス: Link先を確認
Ankit Kulshrestha, Danylo Lykov, Ilya Safro, Yuri Alexeev(参考訳) 現在の量子コンピューティングの時代は、高い計算効率を約束するいくつかのアルゴリズムを生み出した。 アルゴリズムは理論上は健全であり、指数関数的なスピードアップを提供することができるが、入力量子状態に適用される適切なユニタリ変換を実現するために適切な量子回路を設計する方法についてのガイダンスはほとんどない。 本稿では,タスクと入力量子状態の最適なモデルを見つけるための,原則的かつ自動化されたアプローチを提供するバックエンドとして,‘texttt{QArchSearch}’という,AIベースの量子アーキテクチャ検索パッケージを提案する。 探索パッケージは,大規模量子回路への探索を効率的に拡張でき,異なる量子アプリケーションに対してより複雑なモデルを探索できることを示す。 \texttt{QArchSearch} は、Polarisスーパーコンピュータ上で実証されたCPUとGPUの2レベル並列化スキームを用いて、高性能コンピューティングシステム上で大規模かつ高効率で動作する。

The current era of quantum computing has yielded several algorithms that promise high computational efficiency. While the algorithms are sound in theory and can provide potentially exponential speedup, there is little guidance on how to design proper quantum circuits to realize the appropriate unitary transformation to be applied to the input quantum state. In this paper, we present \texttt{QArchSearch}, an AI based quantum architecture search package with the \texttt{QTensor} library as a backend that provides a principled and automated approach to finding the best model given a task and input quantum state. We show that the search package is able to efficiently scale the search to large quantum circuits and enables the exploration of more complex models for different quantum applications. \texttt{QArchSearch} runs at scale and high efficiency on high-performance computing systems using a two-level parallelization scheme on both CPUs and GPUs, which has been demonstrated on the Polaris supercomputer.
翻訳日:2023-10-14 13:52:59 公開日:2023-10-11
# ニューラルテストoracle生成のための評価指標の評価

Assessing Evaluation Metrics for Neural Test Oracle Generation ( http://arxiv.org/abs/2310.07856v1 )

ライセンス: Link先を確認
Jiho Shin, Hadi Hemmati, Moshi Wei, Song Wang(参考訳) 本研究では,既存のoracle generation studies と chatgpt を見直し,nlg ベースとテスト適度なメトリクスの両方でパフォーマンスの現況を実証的に調査する。 具体的には、分析のために5つのnlgベースと2つのテスト適性メトリクスで4つの最先端テストoracleジェネレーションモデルをトレーニングし、実行します。 これら2つの異なるメトリクスセット間の2つの異なる相関分析を適用する。 意外なことに,NLGベースの指標とテスト精度の指標との間に有意な相関はみられなかった。 例えば、ChatGPTのプロジェクトであるActivemq-artemisのオーラクルは、調査したNOGのうち、全てのNLGベースのメトリクスで最高性能を示したが、調査したNOGと比較してテスト精度の指標が減少しているプロジェクトが最も多い。 私たちはさらに質的分析を行い、観察の背後にある理由を調査しました。高いnlgベースのメトリクスを持つが、低いテスト適性メトリクスは、oracleのパラメータ内に複雑または複数の連鎖したメソッド呼び出しを持つ傾向があり、モデルが完全に生成することを困難にし、テスト適性メトリクスに影響を与えることが分かりました。 一方、低NLGベースの測定値であるが高いテスト精度の測定値を持つオラクルは、異なるアサーションタイプや、基底真実のものと同じような機能を持つ別のメソッドを呼ぶ必要がある。 全体として、本研究は、NLGとテスト精度の両指標による広範な性能評価により、テストオラクル生成に関する先行研究を補完し、将来のソフトウェアテスト生成におけるディープラーニングアプリケーションのより良い評価のためのガイドラインを提供する。

In this work, we revisit existing oracle generation studies plus ChatGPT to empirically investigate the current standing of their performance in both NLG-based and test adequacy metrics. Specifically, we train and run four state-of-the-art test oracle generation models on five NLG-based and two test adequacy metrics for our analysis. We apply two different correlation analyses between these two different sets of metrics. Surprisingly, we found no significant correlation between the NLG-based metrics and test adequacy metrics. For instance, oracles generated from ChatGPT on the project activemq-artemis had the highest performance on all the NLG-based metrics among the studied NOGs, however, it had the most number of projects with a decrease in test adequacy metrics compared to all the studied NOGs. We further conduct a qualitative analysis to explore the reasons behind our observations, we found that oracles with high NLG-based metrics but low test adequacy metrics tend to have complex or multiple chained method invocations within the oracle's parameters, making it hard for the model to generate completely, affecting the test adequacy metrics. On the other hand, oracles with low NLG-based metrics but high test adequacy metrics tend to have to call different assertion types or a different method that functions similarly to the ones in the ground truth. Overall, this work complements prior studies on test oracle generation with an extensive performance evaluation with both NLG and test adequacy metrics and provides guidelines for better assessment of deep learning applications in software test generation in the future.
翻訳日:2023-10-14 13:52:20 公開日:2023-10-11
# CrIBo: クロスイメージなオブジェクトレベルブートストラップによる自己監督型学習

CrIBo: Self-Supervised Learning via Cross-Image Object-Level Bootstrapping ( http://arxiv.org/abs/2310.07855v1 )

ライセンス: Link先を確認
Tim Lebailly, Thomas Stegm\"uller, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars(参考訳) 自己教師付き表現学習における近接探索の活用は、対象中心の画像に対して有益であることが証明されている。 しかし、このアプローチはシーン中心のデータセットに適用した場合の制限に直面し、画像内の複数のオブジェクトは、グローバル表現の中で暗黙的にのみキャプチャされる。 このようなグローバルなブートストラッピングは、オブジェクト表現の望ましくない絡み合いにつながる可能性がある。 さらに、オブジェクト中心のデータセットでさえ、よりきめ細かいブートストラップアプローチの恩恵を受けている。 これらの課題に対応するために,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ方式を提案する。 CrIBoは、トレーニングを通じてオブジェクトレベルに近い隣人のブートストラップを採用することで、テスト時に最も近い隣人の検索を活用することで、コンテキスト内学習の特に強力で適切な候補として現れる。 CrIBoは、より標準的な下流セグメンテーションタスクにおいて高い競争力を持ちながら、後者のタスクで最先端のパフォーマンスを示す。 私たちのコードと事前訓練されたモデルは、受け入れ次第公開されます。

Leveraging nearest neighbor retrieval for self-supervised representation learning has proven beneficial with object-centric images. However, this approach faces limitations when applied to scene-centric datasets, where multiple objects within an image are only implicitly captured in the global representation. Such global bootstrapping can lead to undesirable entanglement of object representations. Furthermore, even object-centric datasets stand to benefit from a finer-grained bootstrapping approach. In response to these challenges, we introduce a novel Cross-Image Object-Level Bootstrapping method tailored to enhance dense visual representation learning. By employing object-level nearest neighbor bootstrapping throughout the training, CrIBo emerges as a notably strong and adequate candidate for in-context learning, leveraging nearest neighbor retrieval at test time. CrIBo shows state-of-the-art performance on the latter task while being highly competitive in more standard downstream segmentation tasks. Our code and pretrained models will be publicly available upon acceptance.
翻訳日:2023-10-14 13:51:45 公開日:2023-10-11
# RoboCLIP:ロボット政策を学ぶには十分

RoboCLIP: One Demonstration is Enough to Learn Robot Policies ( http://arxiv.org/abs/2310.07899v1 )

ライセンス: Link先を確認
Sumedh A Sontakke, Jesse Zhang, S\'ebastien M. R. Arnold, Karl Pertsch, Erdem B{\i}y{\i}k, Dorsa Sadigh, Chelsea Finn, Laurent Itti(参考訳) リワード仕様は強化学習において非常に難しい問題であり、堅牢な報酬関数を設計するために広範な専門家の監督を必要とする。 シミュレーション学習(IL)手法は、専門家によるデモンストレーションを利用してこれらの問題を回避しようとするが、通常は多くのドメイン内の専門家によるデモンストレーションを必要とする。 本稿では,ビデオ・アンド・ランゲージ・モデル(VLM)の分野での進歩に触発されて,ビデオデモや手動報酬関数設計なしで報酬を生成するタスクのテキスト記述という形で,単一のデモンストレーション(大規模なデータ要求を克服する)を用いたオンライン模倣学習手法であるRoboCLIPを提案する。 さらに、RoboCLIPは、人間による報酬生成タスクの解決、同じデモンストレーションとデプロイメントドメインの必要性回避といった、ドメイン外のデモも利用することができる。 RoboCLIPは、報酬生成のための微調整なしで事前訓練されたVLMを使用する。 roboclipで訓練された強化学習エージェントは、下流のロボット操作タスクで競合する模倣学習方法よりも2-3倍高いゼロショット性能を示す。

Reward specification is a notoriously difficult problem in reinforcement learning, requiring extensive expert supervision to design robust reward functions. Imitation learning (IL) methods attempt to circumvent these problems by utilizing expert demonstrations but typically require a large number of in-domain expert demonstrations. Inspired by advances in the field of Video-and-Language Models (VLMs), we present RoboCLIP, an online imitation learning method that uses a single demonstration (overcoming the large data requirement) in the form of a video demonstration or a textual description of the task to generate rewards without manual reward function design. Additionally, RoboCLIP can also utilize out-of-domain demonstrations, like videos of humans solving the task for reward generation, circumventing the need to have the same demonstration and deployment domains. RoboCLIP utilizes pretrained VLMs without any finetuning for reward generation. Reinforcement learning agents trained with RoboCLIP rewards demonstrate 2-3 times higher zero-shot performance than competing imitation learning methods on downstream robot manipulation tasks, doing so using only one video/text demonstration.
翻訳日:2023-10-14 13:45:21 公開日:2023-10-11
# NoMaD: ナビゲーションと探索のためのゴールマズード拡散政策

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration ( http://arxiv.org/abs/2310.07896v1 )

ライセンス: Link先を確認
Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine(参考訳) 不慣れな環境でのナビゲーションのためのロボット学習は、タスク指向のナビゲーション(ロボットが配置した目標に到達する)とタスクに依存しない探索(新しい設定で目標を探す)の両方のポリシーを提供する必要がある。 通常、これらの役割は別のモデルで扱われる。例えば、サブゴールの提案、計画、または別々のナビゲーション戦略を使用する。 本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統一拡散ポリシを訓練する方法について述べる。 この統一ポリシーは,生成モデルからの部分的提案を用いるアプローチや潜在変数モデルに基づく事前メソッドと比較して,視覚的に指示された目標を新規環境にナビゲートした場合の全体的なパフォーマンスが向上することを示す。 我々は,複数の地上ロボットのデータに基づいて訓練された大規模トランスフォーマーベースのポリシーを用いて,目標条件と目標に依存しないナビゲーションを柔軟に扱う拡散モデルデコーダを用いて,本手法をインスタンス化する。 実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見知らぬ環境下での効果的なナビゲーションを示し,現状よりも小さなモデルを用いているにも関わらず,性能と衝突率の大幅な向上を示した。 さらなるビデオ、コード、事前トレーニングされたモデルチェックポイントについては、https://general-navigation-models.github.io/nomad/を参照してください。

Robotic learning for navigation in unfamiliar environments needs to provide policies for both task-oriented navigation (i.e., reaching a goal that the robot has located), and task-agnostic exploration (i.e., searching for a goal in a novel setting). Typically, these roles are handled by separate models, for example by using subgoal proposals, planning, or separate navigation strategies. In this paper, we describe how we can train a single unified diffusion policy to handle both goal-directed navigation and goal-agnostic exploration, with the latter providing the ability to search novel environments, and the former providing the ability to reach a user-specified goal once it has been located. We show that this unified policy results in better overall performance when navigating to visually indicated goals in novel environments, as compared to approaches that use subgoal proposals from generative models, or prior methods based on latent variable models. We instantiate our method by using a large-scale Transformer-based policy trained on data from multiple ground robots, with a diffusion model decoder to flexibly handle both goal-conditioned and goal-agnostic navigation. Our experiments, conducted on a real-world mobile robot platform, show effective navigation in unseen environments in comparison with five alternative methods, and demonstrate significant improvements in performance and lower collision rates, despite utilizing smaller models than state-of-the-art approaches. For more videos, code, and pre-trained model checkpoints, see https://general-navigation-models.github.io/nomad/
翻訳日:2023-10-14 13:44:58 公開日:2023-10-11
# CNNの分類とHMMの時系列解析を組み合わせたGI領域内精密局在化

Precise localization within the GI tract by combining classification of CNNs and time-series analysis of HMMs ( http://arxiv.org/abs/2310.07895v1 )

ライセンス: Link先を確認
Julia Werner, Christoph Gerum, Moritz Reiber, J\"org Nick, and Oliver Bringmann(参考訳) 本稿では,隠れマルコフモデル(HMM)の時系列解析特性と分類するための畳み込みニューラルネットワーク(CNN)の組み合わせを探索することにより,ビデオカプセル内視鏡(VCE)研究から得られた画像の胃腸領域を効率的に分類する方法を提案する。 時系列分析により,cnn出力の誤りを識別し,修正できることが実証された。 我々のアプローチは、ロードアイランド(ri)の胃腸疾患データセットで98.04.%の正確性を達成している。 これにより、約1Mのパラメータしか必要とせず、消化管(GI)内の正確な位置決めが可能となり、低消費電力デバイスに適した方法が提供される。

This paper presents a method to efficiently classify the gastroenterologic section of images derived from Video Capsule Endoscopy (VCE) studies by exploring the combination of a Convolutional Neural Network (CNN) for classification with the time-series analysis properties of a Hidden Markov Model (HMM). It is demonstrated that successive time-series analysis identifies and corrects errors in the CNN output. Our approach achieves an accuracy of $98.04\%$ on the Rhode Island (RI) Gastroenterology dataset. This allows for precise localization within the gastrointestinal (GI) tract while requiring only approximately 1M parameters and thus, provides a method suitable for low power devices
翻訳日:2023-10-14 13:44:33 公開日:2023-10-11
# 2層ニューラルネットワークにおける1ステップの非線形特徴学習の一理論

A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks ( http://arxiv.org/abs/2310.07891v1 )

ライセンス: Link先を確認
Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban(参考訳) 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つと考えられている。 特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配降下の1ステップと第2層の尾根回帰が特徴学習につながることが知られている。 しかし、一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報しか持たず、非線形成分の学習は不可能である。 サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。 さらに,更新されたニューラルネットワークの大規模かつ大規模サンプルトレーニングとテストエラーが,これらのスパイクによって完全に特徴付けられることを証明した。 損失の改善を正確に分析することにより,これらの非線形特徴が学習を促進できることを実証する。

Feature learning is thought to be one of the fundamental reasons for the success of deep neural networks. It is rigorously known that in two-layer fully-connected neural networks under certain conditions, one step of gradient descent on the first layer followed by ridge regression on the second layer can lead to feature learning; characterized by the appearance of a separated rank-one component -- spike -- in the spectrum of the feature matrix. However, with a constant gradient descent step size, this spike only carries information from the linear component of the target function and therefore learning non-linear components is impossible. We show that with a learning rate that grows with the sample size, such training in fact introduces multiple rank-one components, each corresponding to a specific polynomial feature. We further prove that the limiting large-dimensional and large sample training and test errors of the updated neural networks are fully characterized by these spikes. By precisely analyzing the improvement in the loss, we demonstrate that these non-linear features can enhance learning.
翻訳日:2023-10-14 13:44:19 公開日:2023-10-11
# LangNav: ナビゲーションの知覚表現としての言語

LangNav: Language as a Perceptual Representation for Navigation ( http://arxiv.org/abs/2310.07889v1 )

ライセンス: Link先を確認
Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim(参考訳) 視覚・言語ナビゲーションにおける知覚表現としての言語の利用について検討する。 提案手法では,画像キャプションや物体検出などの市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを自然言語記述に変換する。 次に、事前学習した言語モデルを微調整して、現在のビューと軌道履歴に基づいて、ナビゲーション命令を最も満たすアクションを選択する。 事前学習された視覚モデルから連続的な視覚的特徴を直接扱えるように事前学習された言語モデルを適用する標準設定とは対照的に、我々のアプローチは知覚表現として(離散的な)言語を使用する。 R2Rビジョン・アンド・ランゲージナビゲーションベンチマークにおける言語ベースのナビゲーション(LangNav)アプローチのユースケースとして,より小さな言語モデルを微調整する大規模言語モデル(GPT-4)から合成軌跡を生成すること,シミュレーション環境(ALFRED)で学んだポリシーを実環境(R2R)に転送するシミュレート・トゥ・リアルトランスファーについて検討する。 本手法は,数個のゴールドトラジェクトリ(10-100)しか利用できない設定において,視覚的特徴に依存する強いベースラインを改善し,ナビゲーションタスクの知覚表現として言語を使用する可能性を示す。

We explore the use of language as a perceptual representation for vision-and-language navigation. Our approach uses off-the-shelf vision systems (for image captioning and object detection) to convert an agent's egocentric panoramic view at each time step into natural language descriptions. We then finetune a pretrained language model to select an action, based on the current view and the trajectory history, that would best fulfill the navigation instructions. In contrast to the standard setup which adapts a pretrained language model to work directly with continuous visual features from pretrained vision models, our approach instead uses (discrete) language as the perceptual representation. We explore two use cases of our language-based navigation (LangNav) approach on the R2R vision-and-language navigation benchmark: generating synthetic trajectories from a prompted large language model (GPT-4) with which to finetune a smaller language model; and sim-to-real transfer where we transfer a policy learned on a simulated environment (ALFRED) to a real-world environment (R2R). Our approach is found to improve upon strong baselines that rely on visual features in settings where only a few gold trajectories (10-100) are available, demonstrating the potential of using language as a perceptual representation for navigation tasks.
翻訳日:2023-10-14 13:44:02 公開日:2023-10-11
# 低資源地域における人口健康調査における移動形態の有効性

Viability of Mobile Forms for Population Health Surveys in Low Resource Areas ( http://arxiv.org/abs/2310.07888v1 )

ライセンス: Link先を確認
Alexander Davis, Aidan Chen, Milton Chen, James Davis(参考訳) 人口健康調査は、低資源コミュニティに限られた資源を効果的に割り当てる重要なツールである。 このような環境では、調査は地元住民がペンと紙で行うことが多い。 このように収集されたデータは集計や分析が困難である。 フィリピンでは,移動形態がより有効で効率的な調査方法であるかどうかを評価するために,一連のインタビューと実験を行った。 最初にパイロットインタビューを行い、地元測量士の60%が紙よりもモバイルフォームを好むことがわかった。 そして、簡単に使えるモバイルフォームを生成でき、オフラインで作業でき、質問を完了するための時間などの重要なメトリクスを追跡できるソフトウェアを構築しました。 フィリピンの3か所で調査を行い,33人の調査員が266人の被験者から健康調査回答を収集した。 モバイルフォームを数回使用しただけで,モバイルフォームが好まれる割合は76%に増加した。 その結果,我々の移動形態は,低資源環境下で大規模人口健康調査を行うための有効な方法であることが示された。

Population health surveys are an important tool to effectively allocate limited resources in low resource communities. In such an environment, surveys are often done by local population with pen and paper. Data thus collected is difficult to tabulate and analyze. We conducted a series of interviews and experiments in the Philippines to assess if mobile forms can be a viable and more efficient survey method. We first conducted pilot interviews and found 60% of the local surveyors actually preferred mobile forms over paper. We then built a software that can generate mobile forms that are easy to use, capable of working offline, and able to track key metrics such as time to complete questions. Our mobile form was field tested in three locations in the Philippines with 33 surveyors collecting health survey responses from 266 subjects. The percentage of surveyors preferring mobile forms increased to 76% after just using the form a few times. The results demonstrate our mobile form is a viable method to conduct large scale population health surveys in a low resource environment.
翻訳日:2023-10-14 13:43:35 公開日:2023-10-11
# カメラタンパ検出における特徴タイプとその貢献度の検討

A Survey of Feature Types and Their Contributions for Camera Tampering Detection ( http://arxiv.org/abs/2310.07886v1 )

ライセンス: Link先を確認
Pranav Mantini and Shishir K. Shah(参考訳) カメラタンパー検出は、ビデオを分析して監視カメラの無許可かつ意図しない変更を検出する能力である。 カメラの改ざんは自然現象によって起こりうるし、故意に監視を妨害する可能性がある。 我々は,変化検出問題として改ざん検出を行い,特徴型を重視した既存文献のレビューを行う。 時系列解析問題としてタンパリング検出を定式化し,様々な特徴型のロバスト性と能力について検討する。 我々は,実世界の監視ビデオ上で10個の特徴を計算し,時系列解析を用いて予測可能性と改ざん検出能力を確認する。 最後に,各特徴型を用いて様々な時系列モデルの性能を定量化し,改ざんを検知する。

Camera tamper detection is the ability to detect unauthorized and unintentional alterations in surveillance cameras by analyzing the video. Camera tampering can occur due to natural events or it can be caused intentionally to disrupt surveillance. We cast tampering detection as a change detection problem, and perform a review of the existing literature with emphasis on feature types. We formulate tampering detection as a time series analysis problem, and design experiments to study the robustness and capability of various feature types. We compute ten features on real-world surveillance video and apply time series analysis to ascertain their predictability, and their capability to detect tampering. Finally, we quantify the performance of various time series models using each feature type to detect tampering.
翻訳日:2023-10-14 13:43:22 公開日:2023-10-11
# 複雑集団に触発された局所的誤り信号を用いたリーダ追従型ニューラルネットワーク

Leader-Follower Neural Networks with Local Error Signals Inspired by Complex Collectives ( http://arxiv.org/abs/2310.07885v1 )

ライセンス: Link先を確認
Chenzhong Yin, Mingxi Cheng, Xiongye Xiao, Xinghe Chen, Shahin Nazarian, Andrei Irimia and Paul Bogdan(参考訳) 不均一で資源に制限された情報処理ユニット(魚のグループ、鳥の群れ、ニューロンのネットワークなど)を持つネットワークの集団行動は、高い自己組織化と複雑さを示す。 これらの創発的特性は、特定の個人がリーダーシップのような行動を示し、グループの集団活動に影響を与える単純な相互作用ルールから生じる。 これらの集合の複雑さに感化されて、自然の集合集合集合の規則に着想を得たニューラルネットワーク(NN)アーキテクチャを提案する。 このnn構造は、1つ以上の情報処理ユニット(ニューロン、フィルタ、レイヤ、あるいはレイヤブロックなど)を包含するワーカーを含む。 労働者はリーダーまたはフォロワーであり、ローカルエラー信号を活用して、バックプロパゲーション(BP)とグローバルロスを任意に取り入れることで、リーダ・フォロワーニューラルネットワーク(LFNN)をトレーニングします。 作業者の行動を調査し,広範な実験を通じてLFNNを評価する。 ローカルエラー信号で訓練したLFNNは、MNISTやCIFAR-10の従来のBPフリーアルゴリズムよりも大幅にエラー率を低くし、BP対応ベースラインを超えています。 ImageNetの場合、LFNN-lは優れたスケーラビリティを示し、従来のBPフリーアルゴリズムよりも大幅に性能が向上する。

The collective behavior of a network with heterogeneous, resource-limited information processing units (e.g., group of fish, flock of birds, or network of neurons) demonstrates high self-organization and complexity. These emergent properties arise from simple interaction rules where certain individuals can exhibit leadership-like behavior and influence the collective activity of the group. Motivated by the intricacy of these collectives, we propose a neural network (NN) architecture inspired by the rules observed in nature's collective ensembles. This NN structure contains workers that encompass one or more information processing units (e.g., neurons, filters, layers, or blocks of layers). Workers are either leaders or followers, and we train a leader-follower neural network (LFNN) by leveraging local error signals and optionally incorporating backpropagation (BP) and global loss. We investigate worker behavior and evaluate LFNNs through extensive experimentation. Our LFNNs trained with local error signals achieve significantly lower error rates than previous BP-free algorithms on MNIST and CIFAR-10 and even surpass BP-enabled baselines. In the case of ImageNet, our LFNN-l demonstrates superior scalability and outperforms previous BP-free algorithms by a significant margin.
翻訳日:2023-10-14 13:43:10 公開日:2023-10-11
# 機械学習のライフサイクルに沿った説明可能なAIの数千の顔:産業的現実と研究の現状

The Thousand Faces of Explainable AI Along the Machine Learning Life Cycle: Industrial Reality and Current State of Research ( http://arxiv.org/abs/2310.07882v1 )

ライセンス: Link先を確認
Thomas Decker, Ralf Gross, Alexander Koebler, Michael Lebacher, Ronald Schnitzer, and Stefan H. Weber(参考訳) 本稿では、産業界に焦点をあてた説明可能な人工知能(XAI)の実践的妥当性について検討し、学術的なXAI研究の現状に関連付ける。 本研究は,現在の産業実践における機械学習(ml)ライフサイクルにおけるxaiの役割と適用可能性,今後の展望に関する広範囲にわたるインタビューに基づいている。 インタビューは、さまざまな産業分野の様々な役割と主要なステークホルダーの間で行われた。 その上で、関連文献の簡潔なレビューを提供することで、XAI研究の現状を概観する。 これにより,調査対象者の意見と学術研究の現状を包括的に概観することができる。 インタビュー結果と現在の研究アプローチを比較することで,いくつかの相違点が明らかになった。 多くの異なるXAIアプローチが存在するが、そのほとんどはモデル評価フェーズとデータサイエンティストを中心にしている。 その他の段階の多目的能力は現在十分に探索されていないか、実践者の間では人気がない。 また,既存の手法やフレームワークを用いた不透明なaiモデルの非熟練ユーザによる解釈と理解を可能にするために,さらなる努力が必要であることも確認した。

In this paper, we investigate the practical relevance of explainable artificial intelligence (XAI) with a special focus on the producing industries and relate them to the current state of academic XAI research. Our findings are based on an extensive series of interviews regarding the role and applicability of XAI along the Machine Learning (ML) lifecycle in current industrial practice and its expected relevance in the future. The interviews were conducted among a great variety of roles and key stakeholders from different industry sectors. On top of that, we outline the state of XAI research by providing a concise review of the relevant literature. This enables us to provide an encompassing overview covering the opinions of the surveyed persons as well as the current state of academic research. By comparing our interview results with the current research approaches we reveal several discrepancies. While a multitude of different XAI approaches exists, most of them are centered around the model evaluation phase and data scientists. Their versatile capabilities for other stages are currently either not sufficiently explored or not popular among practitioners. In line with existing work, our findings also confirm that more efforts are needed to enable also non-expert users' interpretation and understanding of opaque AI models with existing methods and frameworks.
翻訳日:2023-10-14 13:42:47 公開日:2023-10-11
# D2プルーニング:データプルーニングにおける多様性と困難さのバランスのためのメッセージパッシング

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning ( http://arxiv.org/abs/2310.07931v1 )

ライセンス: Link先を確認
Adyasha Maharana, Prateek Yadav, Mohit Bansal(参考訳) 分析理論は、高品質なデータが固定データ予算でトレーニングされたモデルにおけるテストエラーの低減につながることを示唆している。 さらに、データセットが冗長性から取り除かれた場合、モデルをパフォーマンスを損なうことなく、低い計算予算でトレーニングすることができる。 coreset selection(またはdata pruning)は、トレーニングデータのサブセットを選択して、このサブセットでトレーニングされたモデルのパフォーマンスを最大化することを目的としている。 1) コアセットにおけるデータ多様性を最大化するための幾何学に基づくデータ選択と, (2) トレーニングダイナミクスに基づいてサンプルに難易度スコアを割り当てる関数である。 データ多様性の最適化は、より簡単なサンプルに偏ったコアセットにつながるが、難易度ランキングによる選択は、ディープラーニングモデルのトレーニングに必要な簡単なサンプルを省略する。 これは、データの多様性と重要度スコアが、コアセットの選択時に共同で考慮する必要がある2つの相補的な要因であることを示している。 我々は、データセットを非指向グラフとして表現し、このデータセットグラフ上で前後のメッセージを転送してコアセット選択を行う新しいプルーニングアルゴリズムD2プルーニングを提案する。 d2 pruningは、隣り合う例の難易度をデータセットグラフに組み込むことで、各例の難易度スコアを更新する。 そして、これらの更新困難度スコアをグラフベースのサンプリング手法に向け、データセット空間の多様性と難易度の両方をカプセル化するコアセットを選択する。 我々は,様々な視覚および言語データセット上での教師付きおよび自己教師付きバージョンの評価を行った。 その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を改善し、最大70%のプルーニングレートが得られた。 さらに,大規模マルチモーダルデータセットのフィルタリングにd2プルーニングを使用すると,データセットの多様性が向上し,事前学習モデルの一般化が向上することが分かった。

Analytical theories suggest that higher-quality data can lead to lower test errors in models trained on a fixed data budget. Moreover, a model can be trained on a lower compute budget without compromising performance if a dataset can be stripped of its redundancies. Coreset selection (or data pruning) seeks to select a subset of the training data so as to maximize the performance of models trained on this subset, also referred to as coreset. There are two dominant approaches: (1) geometry-based data selection for maximizing data diversity in the coreset, and (2) functions that assign difficulty scores to samples based on training dynamics. Optimizing for data diversity leads to a coreset that is biased towards easier samples, whereas, selection by difficulty ranking omits easy samples that are necessary for the training of deep learning models. This demonstrates that data diversity and importance scores are two complementary factors that need to be jointly considered during coreset selection. We represent a dataset as an undirected graph and propose a novel pruning algorithm, D2 Pruning, that uses forward and reverse message passing over this dataset graph for coreset selection. D2 Pruning updates the difficulty scores of each example by incorporating the difficulty of its neighboring examples in the dataset graph. Then, these updated difficulty scores direct a graph-based sampling method to select a coreset that encapsulates both diverse and difficult regions of the dataset space. We evaluate supervised and self-supervised versions of our method on various vision and language datasets. Results show that D2 Pruning improves coreset selection over previous state-of-the-art methods for up to 70% pruning rates. Additionally, we find that using D2 Pruning for filtering large multimodal datasets leads to increased diversity in the dataset and improved generalization of pretrained models.
翻訳日:2023-10-14 13:33:51 公開日:2023-10-11
# バイリンガル言語モデルの言語間構造プライミングと事前学習ダイナミクス

Crosslingual Structural Priming and the Pre-Training Dynamics of Bilingual Language Models ( http://arxiv.org/abs/2310.07929v1 )

ライセンス: Link先を確認
Catherine Arnett, Tyler A. Chang, James A. Michaelov, Benjamin K. Bergen(参考訳) 多言語言語モデルは、言語間で抽象的な文法表現を共有しているだろうか? sinclair et al. (2022) に続いて, モデル出力に対する因果効果を伴う抽象文法表現のテストに構造的プライミングを用いる。 本手法をオランダ英語バイリンガル環境に拡張し,事前学習中のオランダ英語モデルを評価する。 その結果,第2言語に曝露した直後から言語間構造的プライミング効果が出現し,100万個未満のデータが得られた。 本稿では,データ汚染,低リソース転送,多言語モデルにおける抽象文法表現の出現について論じる。

Do multilingual language models share abstract grammatical representations across languages, and if so, when do these develop? Following Sinclair et al. (2022), we use structural priming to test for abstract grammatical representations with causal effects on model outputs. We extend the approach to a Dutch-English bilingual setting, and we evaluate a Dutch-English language model during pre-training. We find that crosslingual structural priming effects emerge early after exposure to the second language, with less than 1M tokens of data in that language. We discuss implications for data contamination, low-resource transfer, and how abstract grammatical representations emerge in multilingual models.
翻訳日:2023-10-14 13:33:22 公開日:2023-10-11
# 思考連鎖をもつ変圧器の表現力

The Expresssive Power of Transformers with Chain of Thought ( http://arxiv.org/abs/2310.07923v1 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) 最近の理論研究では、グラフ内の2つのノードが接続されているかどうかの確認や有限状態マシンのシミュレートなど、驚くほど単純な推論の問題が特定されている。 しかし、実際には、トランスフォーマーの推論は「思考の連鎖」または「スクラッチパッド」、すなわち答えの前に中間トークン列の生成と条件を使用することによって改善することができる。 このような中間生成はデコーダのみのトランスフォーマーの計算能力を根本的に拡張するのでしょうか? 答えはイエスであるが、増加量は中間世代の量に大きく依存する。 例えば、対数的な数の復号ステップ(w.r.t. 入力長)を持つ復号器デコーダが標準変圧器の限界をわずかに押し上げるのに対して、線形数の復号器デコーダは、すべての正規言語を認識する明確な新しい能力(標準的な複雑性予想の下で)を付加する。 また, 線形ステップは, トランスフォーマーデコーダを文脈に敏感な言語に保持し, 多項式ステップは多項式時間可解問題のクラスを正確に認識する。 本研究の結果は, トランスフォーマーの思考チェーンの長さが, その推論能力に与える影響を理解するための, 微妙な枠組みを提供する。

Recent theoretical work has identified surprisingly simple reasoning problems, such as checking if two nodes in a graph are connected or simulating finite-state machines, that are provably unsolvable by standard transformers that answer immediately after reading their input. However, in practice, transformers' reasoning can be improved by allowing them to use a "chain of thought" or "scratchpad", i.e., generate and condition on a sequence of intermediate tokens before answering. Motivated by this, we ask: Does such intermediate generation fundamentally extend the computational power of a decoder-only transformer? We show that the answer is yes, but the amount of increase depends crucially on the amount of intermediate generation. For instance, we find that transformer decoders with a logarithmic number of decoding steps (w.r.t. the input length) push the limits of standard transformers only slightly, while a linear number of decoding steps adds a clear new ability (under standard complexity conjectures): recognizing all regular languages. Our results also imply that linear steps keep transformer decoders within context-sensitive languages, and polynomial steps make them recognize exactly the class of polynomial-time solvable problems -- the first exact characterization of a type of transformers in terms of standard complexity classes. Together, our results provide a nuanced framework for understanding how the length of a transformer's chain of thought or scratchpad impacts its reasoning power.
翻訳日:2023-10-14 13:33:09 公開日:2023-10-11
# 文脈化政策回復:適応的模倣学習による医学的決定のモデル化と解釈

Contextualized Policy Recovery: Modeling and Interpreting Medical Decisions with Adaptive Imitation Learning ( http://arxiv.org/abs/2310.07918v1 )

ライセンス: Link先を確認
Jannik Deuschel, Caleb N. Ellington, Benjamin J. Lengerich, Yingtao Luo, Pascal Friederich, Eric P. Xing(参考訳) 解釈可能な政策学習は、観察された行動から理解可能な決定方針を推定することを目指すが、既存のモデルは正確性と解釈可能性の間のトレードオフを強制することによって不足する。 このトレードオフは、人間の意思決定プロセスのデータ駆動解釈を制限する。 例えば、バイアスや準最適プラクティスの医学的決定を監査するには、複雑な振る舞いの簡潔な記述を提供する決定プロセスのモデルが必要です。 基本的に、既存のアプローチは、人間の決定が動的であり、文脈情報とともに劇的に変化する場合、基本的な決定プロセスが普遍的なポリシーとして表されるため、このトレードオフによって負担される。 そこで本研究では,複雑な意思決定過程を,複雑な意思決定方針がコンテキスト固有の方針から構成されるマルチタスク学習問題としてモデル化する,文脈化ポリシリカバリ(cpr)を提案する。 CPRは、コンテキスト固有のポリシーを線形観測対アクションマッピングとしてモデル化し、コンテキストが新しい観測で更新されるにつれて、新しい決定モデル$\textit{on-demand}$を生成する。 CPRは完全にオフラインで部分的に監視可能な決定環境と互換性があり、繰り返し発生するブラックボックスモデルや解釈可能な決定モデルを統合するように調整できる。 我々は、シミュレーションおよび実データの研究を通じてCPRを評価し、集中治療室における抗生物質処方の予測(+22\%=AUROC vs. 以前のSOTA)とアルツハイマー病患者のMRI処方の予測(+7.7\%=AUROC vs. 以前のSOTA)の正準的タスクにおける最先端のパフォーマンスを達成した。 この予測性能の改善により、CPRはポリシー学習のための解釈可能なメソッドとブラックボックスメソッドの精度ギャップを埋め、コンテキスト固有の決定モデルの高分解能な探索と分析を可能にする。

Interpretable policy learning seeks to estimate intelligible decision policies from observed actions; however, existing models fall short by forcing a tradeoff between accuracy and interpretability. This tradeoff limits data-driven interpretations of human decision-making process. e.g. to audit medical decisions for biases and suboptimal practices, we require models of decision processes which provide concise descriptions of complex behaviors. Fundamentally, existing approaches are burdened by this tradeoff because they represent the underlying decision process as a universal policy, when in fact human decisions are dynamic and can change drastically with contextual information. Thus, we propose Contextualized Policy Recovery (CPR), which re-frames the problem of modeling complex decision processes as a multi-task learning problem in which complex decision policies are comprised of context-specific policies. CPR models each context-specific policy as a linear observation-to-action mapping, and generates new decision models $\textit{on-demand}$ as contexts are updated with new observations. CPR is compatible with fully offline and partially observable decision environments, and can be tailored to incorporate any recurrent black-box model or interpretable decision model. We assess CPR through studies on simulated and real data, achieving state-of-the-art performance on the canonical tasks of predicting antibiotic prescription in intensive care units ($+22\%$ AUROC vs. previous SOTA) and predicting MRI prescription for Alzheimer's patients ($+7.7\%$ AUROC vs. previous SOTA). With this improvement in predictive performance, CPR closes the accuracy gap between interpretable and black-box methods for policy learning, allowing high-resolution exploration and analysis of context-specific decision models.
翻訳日:2023-10-14 13:32:41 公開日:2023-10-11
# 不均衡データにおける機械学習技術の現状と将来動向

A Review of Machine Learning Techniques in Imbalanced Data and Future Trends ( http://arxiv.org/abs/2310.07917v1 )

ライセンス: Link先を確認
Elaheh Jafarigol, Theodore Trafalis(参考訳) 20年以上にわたって、データマイニングと機械学習分野の研究者の間で、まれな事象の検出は難しい課題だった。 現実の問題は、研究者にデータ処理とアルゴリズムアプローチをナビゲートし、さらに改善させ、不均衡学習のための効率的で効率的な方法を実現するよう促す。 本稿では,技術やアプリケーションの観点から不均衡学習における様々なアプローチを詳細に検討するために,アーカイブジャーナルやカンファレンス論文から258のピアレビュー論文を収集・レビューした。 本研究は,様々な領域における不均衡データ問題に対処するための手法の構造化レビューを行い,大規模不均衡データを用いた機械学習の幅広い分野に参入したい学界や産業の研究者のためのガイドラインを作成することを目的とする。

For over two decades, detecting rare events has been a challenging task among researchers in the data mining and machine learning domain. Real-life problems inspire researchers to navigate and further improve data processing and algorithmic approaches to achieve effective and computationally efficient methods for imbalanced learning. In this paper, we have collected and reviewed 258 peer-reviewed papers from archival journals and conference papers in an attempt to provide an in-depth review of various approaches in imbalanced learning from technical and application perspectives. This work aims to provide a structured review of methods used to address the problem of imbalanced data in various domains and create a general guideline for researchers in academia or industry who want to dive into the broad field of machine learning using large-scale imbalanced data.
翻訳日:2023-10-14 13:32:05 公開日:2023-10-11
# 動的外観粒子ニューラル放射場

Dynamic Appearance Particle Neural Radiance Field ( http://arxiv.org/abs/2310.07916v1 )

ライセンス: Link先を確認
Ancheng Lin, Jun Li(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3Dシーンをモデル化する大きな可能性を示している。 動的NeRFは、典型的には変形場を用いて、時間変化要素をキャプチャすることでこのモデルを拡張する。 既存の動的nerfは、光放射と変形場の両方に同様のオイラー表現を用いる。 これは外見と動きを密結合させ、物理的解釈を欠いている。 本研究では,動的3次元シーンにおける視覚的要素の運動をモデル化するための粒子ベース表現を導入し,DAP-NeRF(Dynamic Outearance Particle Neural Radiance Field)を提案する。 DAP-NeRFは静的場と動的場の重ね合わせからなる。 動的場は、シーン内の小さな動的要素の視覚情報を伝達し、モーションモデルを備えた「外見粒子」の集合として定量化される。 粒子の静的場、視覚特徴、運動モデルを含む全ての構成要素は、シーンに関する事前の幾何学的知識なしに単眼ビデオから学習される。 粒子モデルのための効率的な計算フレームワークを開発する。 また,動きモデリングを評価するための新しいデータセットを構築した。 実験結果から, DAP-NeRFは外見だけでなく, 3次元動的シーンにおける身体的に意味のある動きを捉えるのに有効であることがわかった。

Neural Radiance Fields (NeRFs) have shown great potential in modelling 3D scenes. Dynamic NeRFs extend this model by capturing time-varying elements, typically using deformation fields. The existing dynamic NeRFs employ a similar Eulerian representation for both light radiance and deformation fields. This leads to a close coupling of appearance and motion and lacks a physical interpretation. In this work, we propose Dynamic Appearance Particle Neural Radiance Field (DAP-NeRF), which introduces particle-based representation to model the motions of visual elements in a dynamic 3D scene. DAP-NeRF consists of superposition of a static field and a dynamic field. The dynamic field is quantised as a collection of {\em appearance particles}, which carries the visual information of a small dynamic element in the scene and is equipped with a motion model. All components, including the static field, the visual features and motion models of the particles, are learned from monocular videos without any prior geometric knowledge of the scene. We develop an efficient computational framework for the particle-based model. We also construct a new dataset to evaluate motion modelling. Experimental results show that DAP-NeRF is an effective technique to capture not only the appearance but also the physically meaningful motions in a 3D dynamic scene.
翻訳日:2023-10-14 13:31:50 公開日:2023-10-11
# 壊れたネットに魚をタグ付けする: オンラインのプライバシーと著作権を保護する責任あるウェブフレームワーク

Tag Your Fish in the Broken Net: A Responsible Web Framework for Protecting Online Privacy and Copyright ( http://arxiv.org/abs/2310.07915v1 )

ライセンス: Link先を確認
Dawen Zhang, Boming Xia, Yue Liu, Xiwei Xu, Thong Hoang, Zhenchang Xing, Mark Staples, Qinghua Lu, Liming Zhu(参考訳) ユビキタスな情報ソースであるWorld Wide Webは、無数の個人にとって主要なリソースであり、世界中のインターネットユーザーから大量のデータを収集している。 しかし、このオンラインデータは、ウェブクローリング、検索エンジンインデックス、特にAIモデルトレーニングなどのアクティビティにスクラップされ、インデックス付けされ、利用され、しばしば、コントリビュータの本来の意図から逸脱する。 Generative AIの台頭は、データのプライバシーと著作権侵害に関する懸念を浮き彫りにした。 ウェブの現在のフレームワークは、同意の撤回やデータ著作権請求といった重要な行動を促進するには不十分です。 クローラーアクセス制限のような自発的な手段を提供している企業もあるが、個々のユーザーにはアクセスできないことが多い。 オンライン利用者に権利行使の権限を与え、企業が規制に従えるようにするために、オンラインデータに対するユーザ制御の同意タグ付けフレームワークを導入する。 HTTPとHTMLの拡張性と分散台帳技術の分散化された性質を活用する。 このフレームワークでは、ユーザーは送信時にオンラインデータをタグ付けすることができ、その後、データホルダーからデータに対する同意の取り下げを追跡し、要求することができる。 概念実証システムを実装し、フレームワークの実現可能性を示す。 この研究は、現代のインターネットにおけるユーザの同意、プライバシー、著作権の強化に寄与する大きな可能性を秘めており、より責任があり、ユーザー中心のwebエコシステムを構築するための将来の洞察の土台を築いている。

The World Wide Web, a ubiquitous source of information, serves as a primary resource for countless individuals, amassing a vast amount of data from global internet users. However, this online data, when scraped, indexed, and utilized for activities like web crawling, search engine indexing, and, notably, AI model training, often diverges from the original intent of its contributors. The ascent of Generative AI has accentuated concerns surrounding data privacy and copyright infringement. Regrettably, the web's current framework falls short in facilitating pivotal actions like consent withdrawal or data copyright claims. While some companies offer voluntary measures, such as crawler access restrictions, these often remain inaccessible to individual users. To empower online users to exercise their rights and enable companies to adhere to regulations, this paper introduces a user-controlled consent tagging framework for online data. It leverages the extensibility of HTTP and HTML in conjunction with the decentralized nature of distributed ledger technology. With this framework, users have the ability to tag their online data at the time of transmission, and subsequently, they can track and request the withdrawal of consent for their data from the data holders. A proof-of-concept system is implemented, demonstrating the feasibility of the framework. This work holds significant potential for contributing to the reinforcement of user consent, privacy, and copyright on the modern internet and lays the groundwork for future insights into creating a more responsible and user-centric web ecosystem.
翻訳日:2023-10-14 13:31:32 公開日:2023-10-11
# 多数に対する落とし穴1:パラメータ効率の高いマルチヘッドアテンションのためのアテンションヘッド埋め込みの活用

Pit One Against Many: Leveraging Attention-head Embeddings for Parameter-efficient Multi-head Attention ( http://arxiv.org/abs/2310.07911v1 )

ライセンス: Link先を確認
Huiyin Xue and Nikolaos Aletras(参考訳) 事前訓練された言語モデルのスケーリングは、様々な自然言語処理タスクにおいて大きなパフォーマンス向上をもたらすが、メモリ要求の大幅なコストが伴う。 トランスフォーマーにおける位置埋め込みに着想を得て,マルチヘッドアテンション(mha)機構のメモリフットプリントを単純化し,低減することを目的としている。 本論文では,一つの共有投影行列と複数の頭部埋め込み(mhe)のみを用いた代替モジュールを提案する。 いくつかの下流タスクにおいて,バニラMHAに対する高い予測性能保持比を達成しつつ,MHEの注意は,他の注意機構と比較してはるかにメモリ効率が高いことを実証的に実証した。 mheの注意力は、シングルヘッドの注意力と比較すると、追加のパラメータ($3nd$、$n$はアテンションヘッドの数、$d$はヘッド埋め込みのサイズ)を必要とせず、mhaは$(3n^2-3n)d^2-3nd$の追加パラメータを必要とする。

Scaling pre-trained language models has resulted in large performance gains in various natural language processing tasks but comes with a large cost in memory requirements. Inspired by the position embeddings in transformers, we aim to simplify and reduce the memory footprint of the multi-head attention (MHA) mechanism. We propose an alternative module that uses only a single shared projection matrix and multiple head embeddings (MHE), i.e. one per head. We empirically demonstrate that our MHE attention is substantially more memory efficient compared to alternative attention mechanisms while achieving high predictive performance retention ratio to vanilla MHA on several downstream tasks. MHE attention only requires a negligible fraction of additional parameters ($3nd$, where $n$ is the number of attention heads and $d$ the size of the head embeddings) compared to a single-head attention, while MHA requires $(3n^2-3n)d^2-3nd$ additional parameters.
翻訳日:2023-10-14 13:31:07 公開日:2023-10-11
# リカレントネットワークは低次元振動パターンを認識する

Recurrent networks recognize patterns with low-dimensional oscillations ( http://arxiv.org/abs/2310.07908v1 )

ライセンス: Link先を確認
Keith T. Murray(参考訳) 本研究では,セットカードゲームに触発された単純なタスクで訓練されたリカレントニューラルネットワーク(recurrent neural network, rnn)を解釈することにより,新たなパターン認識機構を提案する。 有限状態オートマトン(fsa)における遷移に類似した方法で、訓練されたrnnを低次元リミットサイクルにおける位相シフトによるパターン認識と解釈した。 さらに、訓練されたrnnのダイナミクスを再現する単純な振動モデルを作成して、この解釈を検証した。 パターン認識が可能な動的メカニズムの可能性を示唆するだけでなく,FSAの神経学的実装の可能性も示唆した。 中でもこの研究は,ディープラーニングモデルの解釈可能性向上に寄与している。

This study proposes a novel dynamical mechanism for pattern recognition discovered by interpreting a recurrent neural network (RNN) trained on a simple task inspired by the SET card game. We interpreted the trained RNN as recognizing patterns via phase shifts in a low-dimensional limit cycle in a manner analogous to transitions in a finite state automaton (FSA). We further validated this interpretation by handcrafting a simple oscillatory model that reproduces the dynamics of the trained RNN. Our findings not only suggest of a potential dynamical mechanism capable of pattern recognition, but also suggest of a potential neural implementation of FSA. Above all, this work contributes to the growing discourse on deep learning model interpretability.
翻訳日:2023-10-14 13:30:44 公開日:2023-10-11
# AutoRepo: マルチモーダルLCMに基づく自動構築レポートのための汎用フレームワーク

AutoRepo: A general framework for multi-modal LLM-based automated construction reporting ( http://arxiv.org/abs/2310.07944v1 )

ライセンス: Link先を確認
Hongxu Pu, Xincong Yang, Jing Li, Runhao Guo, Heng Li(参考訳) 建設プロジェクトの安全性、品質、タイムリーな完成を確保することが重要であり、これらの目標に向けて建設検査が重要な手段となっている。 それにもかかわらず、現在の検査における手動のアプローチは、しばしば非効率性や不十分な情報管理をもたらす。 このような方法は、総体的かつ徹底的な評価を提供するには足りず、結果として規制の監督と潜在的な安全性の危険が増す。 そこで本稿では,建設検査レポートの自動生成のためのautorepoという新しいフレームワークを提案する。 無人車両は効率的に工事検査を行い、現場情報を収集し、マルチモーダル大言語モデル(LLM)を利用して検査報告を自動生成する。 このフレームワークは実世界の建設現場で適用され、検査プロセスを迅速化し、リソース割り当てを大幅に削減し、高品質で規制に準拠した標準準拠の検査レポートを作成する可能性を実証した。 本研究は, より効率的で安全な建設管理パラダイムに向けて, 建設検査の実践を革新させる上で, マルチモーダルな大規模言語モデルの潜在可能性を示すものである。

Ensuring the safety, quality, and timely completion of construction projects is paramount, with construction inspections serving as a vital instrument towards these goals. Nevertheless, the predominantly manual approach of present-day inspections frequently results in inefficiencies and inadequate information management. Such methods often fall short of providing holistic, exhaustive assessments, consequently engendering regulatory oversights and potential safety hazards. To address this issue, this paper presents a novel framework named AutoRepo for automated generation of construction inspection reports. The unmanned vehicles efficiently perform construction inspections and collect scene information, while the multimodal large language models (LLMs) are leveraged to automatically generate the inspection reports. The framework was applied and tested on a real-world construction site, demonstrating its potential to expedite the inspection process, significantly reduce resource allocation, and produce high-quality, regulatory standard-compliant inspection reports. This research thus underscores the immense potential of multimodal large language models in revolutionizing construction inspection practices, signaling a significant leap forward towards a more efficient and safer construction management paradigm.
翻訳日:2023-10-14 13:23:17 公開日:2023-10-11
# 移動脳画像における皮質分類のための畳み込みネットワーク適応

A Convolutional Network Adaptation for Cortical Classification During Mobile Brain Imaging ( http://arxiv.org/abs/2310.07941v1 )

ライセンス: Link先を確認
Benjamin Cichy, Jamie Lukos, Mohammad Alam, J. Cortney Bradford, Nicholas Wymbs(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、コンピュータ可読フォーマットで人間の生理的シグナルを分類することを目的として、脳-コンピュータインターフェース(BCI)技術でますます利用されるようになった。 現在、BCIにおけるDNNの使用法を理解することは有望であるが、動的に自由な状況から神経イベントを解読する経験はほとんどない。 eegnetの改良版を使って、被験者がトレッドミルを歩きながら、体重の40%に相当するラックサックを持ちながら、脳波(eeg)信号から認知事象を分類することを目標とした。 歩行中の被験者は同時にオッドボール目標検出タスクを実行し、p300イベント関連電位(erp)を抽出し、dnn分類対象とした。 基礎となるEEGNetは、以前報告されたP300結果と同等のパフォーマンスで、偶然よりもはるかに高いレベルに達することがわかりました。 運動が最小限である標準着座状態に対して,歩行や歩行に類似した分類を施し,騒音に対して頑健な性能を示した。 EEGNetモデル(以下CN-EEGNetと略す)に付加的なアーキテクチャ探索とチューニングを加えることで、これまでに報告されたP300タスクの技量レベルと同様、95%以上の分類精度を達成した。 我々の知る限り、これらの結果はデュアルタスク歩行中の認知神経状態の分類のためのDNNの最初の文書化実装である。 要求される物理的タスクの間、進行中の認知状態の分類は、複雑な環境でのbciの有用性を確立する。

Deep neural networks (DNN) have become increasingly utilized in brain-computer interface (BCI) technologies with the outset goal of classifying human physiological signals in computer-readable format. While our present understanding of DNN usage for BCI is promising, we have little experience in deciphering neural events from dynamic freely-mobile situations. Using an improved version of EEGNet, our goal was to classify cognitive events from electroencephalography (EEG) signals while subjects simultaneously walked on a treadmill, sometimes while carrying a rucksack equivalent to 40% of their body weight. Walking subjects simultaneously performed a visual oddball target detection task, eliciting the P300 event-related potential (ERP), which then served as the DNN classification target. We found the base EEGNet to reach classification levels well above chance, with similar performance to previously reported P300 results. We found performance to be robust to noise, with classification similar for walking and loaded walking, with respect to standard seated condition with minimal movement. With additional architectural search and tuning to the EEGNet model (termed Cog-Neuro, herein; CN-EEGNet), we reached classification accuracy of greater than 95%, similar to previously reported state of the art levels in seated P300 tasks. To our knowledge, these results are the first documented implementation of a DNN for the classification of cognitive neural state during dual-task walking. The classification of one's ongoing cognitive state during a demanding physical task establishes the utility for BCI in complex environments.
翻訳日:2023-10-14 13:22:58 公開日:2023-10-11
# コスト駆動ハードウェアソフトウェアによる機械学習パイプラインの最適化

Cost-Driven Hardware-Software Co-Optimization of Machine Learning Pipelines ( http://arxiv.org/abs/2310.07940v1 )

ライセンス: Link先を確認
Ravit Sharma, Wojciech Romaszkan, Feiqian Zhu, Puneet Gupta(参考訳) 研究者たちは長年、スマートセンサーや家、都市など、モノのインターネットの普及によって実現される未来のビジョンを説いてきた。 このようなデバイスにインテリジェンスを埋め込むと、ディープニューラルネットワークが使われるようになる。 しかし、彼らのストレージと処理の要件は、安価な市販のプラットフォームでは禁じられている。 これらの要件を克服するには、広く適用可能なスマートデバイスを実現する必要がある。 モデルをより小さく、より効率的にする方法が数多く開発されているが、特定のシナリオに最も適したモデルがどれであるかを理解していない。 さらに重要なことは、エッジプラットフォームでは、コストとユーザエクスペリエンスから分離してこれらの選択を分析できないことです。 本研究では,メモリ,センサ,プロセッサなどのシステムコンポーネントと量子化,モデルスケーリング,マルチモダリティがどのように相互作用するかを概観する。 我々は、コスト、レイテンシ、ユーザエクスペリエンスの観点から、このハードウェア/ソフトウェア共同設計を行い、最もコストがかかるプラットフォームで最適なシステム設計とモデル展開のためのガイドラインを策定する。 我々は20ドルのesp-eyeボードを用いたエンド・ツー・エンドの生体認証システムを用いて,このアプローチを実証する。

Researchers have long touted a vision of the future enabled by a proliferation of internet-of-things devices, including smart sensors, homes, and cities. Increasingly, embedding intelligence in such devices involves the use of deep neural networks. However, their storage and processing requirements make them prohibitive for cheap, off-the-shelf platforms. Overcoming those requirements is necessary for enabling widely-applicable smart devices. While many ways of making models smaller and more efficient have been developed, there is a lack of understanding of which ones are best suited for particular scenarios. More importantly for edge platforms, those choices cannot be analyzed in isolation from cost and user experience. In this work, we holistically explore how quantization, model scaling, and multi-modality interact with system components such as memory, sensors, and processors. We perform this hardware/software co-design from the cost, latency, and user-experience perspective, and develop a set of guidelines for optimal system design and model deployment for the most cost-constrained platforms. We demonstrate our approach using an end-to-end, on-device, biometric user authentication system using a $20 ESP-EYE board.
翻訳日:2023-10-14 13:22:31 公開日:2023-10-11
# Co-NavGPT:大規模言語モデルを用いた複数ロボット協調視覚セマンティックナビゲーション

Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models ( http://arxiv.org/abs/2310.07937v1 )

ライセンス: Link先を確認
Bangguo Yu, Hamidreza Kasaei, Ming Cao(参考訳) 高度な人間とロボットのインタラクションタスクでは、未知の環境をナビゲートする自律ロボットにとって視覚的ターゲットナビゲーションが不可欠である。 過去に多くのアプローチが開発されてきたが、ほとんどは単一ロボットの操作用に設計されており、環境の複雑さにより効率と堅牢性が低下することが多い。 さらに、マルチロボットコラボレーションのための学習ポリシーはリソース集約的である。 このような課題に対処するため,我々は多ロボット協調視覚目標ナビゲーションのためのグローバルプランナとして大規模言語モデル(LLM)を統合する革新的なフレームワークであるCo-NavGPTを提案する。 Co-NavGPTは、探索された環境データをプロンプトにエンコードし、LLMのシーン理解を強化する。 その後、探索フロンティアを各ロボットに割り当て、効率的な目標探索を行う。 Habitat-Matterport 3D(HM3D)の実験結果は、Co-NavGPTが学習プロセスなしで既存のモデルよりも成功率と効率を上回り、マルチロボット協調領域におけるLLMの膨大な可能性を示している。 補足ビデオ、プロンプト、コードは以下のリンクからアクセスできる。 \href{https://sites.google.com/view/co-navgpt}{https://sites.google.com/view/co-navgpt}。

In advanced human-robot interaction tasks, visual target navigation is crucial for autonomous robots navigating unknown environments. While numerous approaches have been developed in the past, most are designed for single-robot operations, which often suffer from reduced efficiency and robustness due to environmental complexities. Furthermore, learning policies for multi-robot collaboration are resource-intensive. To address these challenges, we propose Co-NavGPT, an innovative framework that integrates Large Language Models (LLMs) as a global planner for multi-robot cooperative visual target navigation. Co-NavGPT encodes the explored environment data into prompts, enhancing LLMs' scene comprehension. It then assigns exploration frontiers to each robot for efficient target search. Experimental results on Habitat-Matterport 3D (HM3D) demonstrate that Co-NavGPT surpasses existing models in success rates and efficiency without any learning process, demonstrating the vast potential of LLMs in multi-robot collaboration domains. The supplementary video, prompts, and code can be accessed via the following link: \href{https://sites.google.com/view/co-navgpt}{https://sites.google.com/view/co-navgpt}.
翻訳日:2023-10-14 13:22:14 公開日:2023-10-11
# あなたはどうしたの? ロボット学習のための視覚表現アライメントに向けて

What Matters to You? Towards Visual Representation Alignment for Robot Learning ( http://arxiv.org/abs/2310.07932v1 )

ライセンス: Link先を確認
Ran Tian, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy(参考訳) 人々のサービスを利用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。 ロボットはRGB画像のような生の知覚入力に頼るので、報酬は必然的に視覚表現を使用する。 近年、事前訓練された視覚モデルからの表現を使うことに興奮している。しかし、ロボット工学におけるこれらの作業の鍵となるのは微調整であり、一般的には動的予測や時間的サイクル一貫性の強制といったプロキシタスクを通じて行われる。 しかし、これらすべてのプロキシタスクは、人間にとって重要なものに対する入力をバイパスし、スプリアス相関を悪化させ、最終的にユーザーの好みに合致しないロボットの行動に繋がる。 本研究は,ロボットが視覚表現をエンドユーザーと整合させ,タスクの重要事項を分断するために,人間のフィードバックを活用することを提案する。 本稿では、優先型学習と最適輸送のレンズを用いて、視覚的表現アライメント問題と視覚的報酬学習問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。 X-磁気学およびロボット操作の実験において、RAPLの報酬は、高いサンプル効率で、常に好ましいロボット行動を生成し、ロボットとは異なる実施形態から視覚表現が学習された場合に、強いゼロショットの一般化を示す。

When operating in service of people, robots need to optimize rewards aligned with end-user preferences. Since robots will rely on raw perceptual inputs like RGB images, their rewards will inevitably use visual representations. Recently there has been excitement in using representations from pre-trained visual models, but key to making these work in robotics is fine-tuning, which is typically done via proxy tasks like dynamics prediction or enforcing temporal cycle-consistency. However, all these proxy tasks bypass the human's input on what matters to them, exacerbating spurious correlations and ultimately leading to robot behaviors that are misaligned with user preferences. In this work, we propose that robots should leverage human feedback to align their visual representations with the end-user and disentangle what matters for the task. We propose Representation-Aligned Preference-based Learning (RAPL), a method for solving the visual representation alignment problem and visual reward learning problem through the lens of preference-based learning and optimal transport. Across experiments in X-MAGICAL and in robotic manipulation, we find that RAPL's reward consistently generates preferred robot behaviors with high sample efficiency, and shows strong zero-shot generalization when the visual representation is learned from a different embodiment than the robot's.
翻訳日:2023-10-14 13:21:55 公開日:2023-10-11
# ディラック粒子の固有量子干渉と絡み合いの解明

Revealing inherent quantum interference and entanglement of a Dirac particle ( http://arxiv.org/abs/2211.12779v3 )

ライセンス: Link先を確認
Wen Ning, Ri-Hua Zheng, Yan Xia, Kai Xu, Hekang Li, Dongning Zheng, Heng Fan, Fan Wu, Zhen-Biao Yang and Shi-Biao Zheng(参考訳) もともと相対論的量子力学で予測されていたが、ジッターベヴェーグングはいくつかの古典系にも現れる可能性があり、ジッターベヴェーグングのディラック粒子が古典的アナログを伴わずにより基本的で普遍的な干渉行動によって引き起こされるかどうかという重要な問題に繋がる。 位相空間におけるそのような干渉パターンは、zitterbewegung の下にあるが、その非古典性は位相空間準確率分布のネガティビティとそれに伴う擬スピン・モーメントの絡み合いによって現れる。 この発見をシミュレーションとオンチップ実験により確認し、超伝導量子ビットと量子化されたマイクロ波場がそれぞれディラック粒子の内部自由度と外部自由度をエミュレートする。 測定された準確率の負性は数値シミュレーションとよく一致する。 基本的な重要性に加えて、実証された非古典的効果は量子技術において有用である。

Although originally predicted in relativistic quantum mechanics, Zitterbewegung can also appear in some classical systems, which leads to the important question of whether Zitterbewegung of Dirac particles is underlain by a more fundamental and universal interference behavior without classical analogs. We here reveal such an interference pattern in phase space, which underlies but goes beyond Zitterbewegung, and whose nonclassicality is manifested by the negativity of the phase space quasiprobability distribution, and the associated pseudospin-momentum entanglement. We confirm this discovery by numerical simulation and an on-chip experiment, where a superconducting qubit and a quantized microwave field respectively emulate the internal and external degrees of freedom of a Dirac particle. The measured quasiprobability negativities agree well with the numerical simulation. Besides being of fundamental importance, the demonstrated nonclassical effects are useful in quantum technology.
翻訳日:2023-10-14 03:11:14 公開日:2023-10-11
# レッドフィールド方程式の時間依存正則化

A time-dependent regularization of the Redfield equation ( http://arxiv.org/abs/2211.04400v3 )

ライセンス: Link先を確認
Antonio D'Abbruzzo, Vasco Cavina, Vittorio Giovannetti(参考訳) レッドフィールド方程式の新たな正則化をコサコフスキー行列を最も近い正の半定義近傍に置き換えた。 既存のほとんどのアプローチとは異なり、この手順はコサコフスキ行列の時間依存性を保ち、完全な正の可分量子過程をもたらすことができる。 完全可解な3次元オープンシステムのダイナミクスを基準として,部分的世俗的マスター方程式や普遍的リンドブラッド方程式のような他の手法と比較して,過渡的進化において,我々のアプローチがより良く機能することを示す。 初期状態から独立に異なる正規化スキームの比較を行うため、Choi-Jamiolkowski同型に基づく新しい定量的アプローチを導入する。

We introduce a new regularization of the Redfield equation based on a replacement of the Kossakowski matrix with its closest positive semidefinite neighbor. Unlike most of the existing approaches, this procedure is capable of retaining the time dependence of the Kossakowski matrix, leading to a completely positive divisible quantum process. Using the dynamics of an exactly-solvable three-level open system as a reference, we show that our approach performs better during the transient evolution, if compared to other approaches like the partial secular master equation or the universal Lindblad equation. To make the comparison between different regularization schemes independent from the initial states, we introduce a new quantitative approach based on the Choi-Jamiolkowski isomorphism.
翻訳日:2023-10-14 03:10:57 公開日:2023-10-11
# 雑音測定による量子力学の最適プロトコル

Optimal protocols for quantum metrology with noisy measurements ( http://arxiv.org/abs/2210.11393v3 )

ライセンス: Link先を確認
Sisi Zhou, Spyridon Michalakis, Tuvia Gefen(参考訳) 測定ノイズは量子力学における主要なノイズ源である。 本稿では,量子センサ状態に対して量子制御を適用する前処理プロトコルについて検討し,推定精度を最大化することを目的とした。 測定ノイズ下での量子センサの最終的な精度限界を決定する量子前処理最適化フィッシャー情報を定義し、最適な前処理プロトコルを徹底的に検討する。 まず, 単項制御が純粋状態に対して最適であることを証明し, いくつかの実用的ケースにおいて最適制御の解析解を導出する誤差可観測形式論を用いて, 両凸最適化として前処理最適化問題を定式化する。 そして,従来の混合状態(固有値が未知パラメータを符号化する)に対して,粗粒度制御が最適であり,ユニタリ制御が最適であることを示す。 最後に、ノイズ測定が各プローブに独立に作用するマルチプローブシステムでは、幅広い量子状態と測定のための大域制御を用いてノイズのない精度限界を漸近的に回復できることを実証する。 ラムゼイ干渉法と温度測定への応用や最適制御の明示的な回路構成について述べる。

Measurement noise is a major source of noise in quantum metrology. Here, we explore preprocessing protocols that apply quantum controls to the quantum sensor state prior to the final noisy measurement (but after the unknown parameter has been imparted), aiming to maximize the estimation precision. We define the quantum preprocessing-optimized Fisher information, which determines the ultimate precision limit for quantum sensors under measurement noise, and conduct a thorough investigation into optimal preprocessing protocols. First, we formulate the preprocessing optimization problem as a biconvex optimization using the error observable formalism, based on which we prove that unitary controls are optimal for pure states and derive analytical solutions of the optimal controls in several practically relevant cases. Then we prove that for classically mixed states (whose eigenvalues encode the unknown parameter) under commuting-operator measurements, coarse-graining controls are optimal, while unitary controls are suboptimal in certain cases. Finally, we demonstrate that in multi-probe systems where noisy measurements act independently on each probe, the noiseless precision limit can be asymptotically recovered using global controls for a wide range of quantum states and measurements. Applications to noisy Ramsey interferometry and thermometry are presented, as well as explicit circuit constructions of optimal controls.
翻訳日:2023-10-14 03:10:45 公開日:2023-10-11
# 絡み合った量子ビットのシミュレーションのための最小通信コスト

The minimal communication cost for simulating entangled qubits ( http://arxiv.org/abs/2207.12457v2 )

ライセンス: Link先を確認
Martin J. Renner, Marco T\'ulio Quintino(参考訳) 局所射影測度の統計を一般化するために必要な古典的コミュニケーションの量、$|\Psi_{AB}>=\sqrt{p}\ |00>+\sqrt{1-p}\ |11>$(1/2\leq p \leq 1$)を解析する。 古典的三重対を通信することで、すべての絡み合った量子ビット対上の局所射影測定を完璧にシミュレートする古典的プロトコルを構築する。 さらに、$\frac{2p(1-p)}{2p-1} \log{\left(\frac{p}{1-p}\right)}+2(1-p)\leq1$, almost $0.835 \leq p \leq 1$ とすると、単一の通信のみを必要とする古典的なプロトコルが提示される。 後者のモデルでは、平均的な通信コストがゼロに近づくような完全な古典的シミュレーションさえ可能で、エンタグルメントの度合いがゼロに近づく(p \to 1$)。 これは、弱絡みの量子ビット対をシミュレートする通信コストが最大絡みの通信コストよりも厳密に小さいことを証明している。

We analyze the amount of classical communication required to reproduce the statistics of local projective measurements on a general pair of entangled qubits, $|\Psi_{AB}>=\sqrt{p}\ |00>+\sqrt{1-p}\ |11>$ (with $1/2\leq p \leq 1$). We construct a classical protocol that perfectly simulates local projective measurements on all entangled qubit pairs by communicating one classical trit. Additionally, when $\frac{2p(1-p)}{2p-1} \log{\left(\frac{p}{1-p}\right)}+2(1-p)\leq1$, approximately $0.835 \leq p \leq 1$, we present a classical protocol that requires only a single bit of communication. The latter model even allows a perfect classical simulation with an average communication cost that approaches zero in the limit where the degree of entanglement approaches zero ($p \to 1$). This proves that the communication cost for simulating weakly entangled qubit pairs is strictly smaller than for the maximally entangled one.
翻訳日:2023-10-14 03:10:08 公開日:2023-10-11
# 普遍ゲート集合のスケーラブルランダム化ベンチマークの実証

Demonstrating scalable randomized benchmarking of universal gate sets ( http://arxiv.org/abs/2207.07272v3 )

ライセンス: Link先を確認
Jordan Hines, Marie Lu, Ravi K. Naik, Akel Hashim, Jean-Loup Ville, Brad Mitchell, John Mark Kriekebaum, David I. Santiago, Stefan Seritan, Erik Nielsen, Robin Blume-Kohout, Kevin Young, Irfan Siddiqi, Birgitta Whaley, and Timothy Proctor(参考訳) ランダム化ベンチマーク(RB)プロトコルは、量子ゲートの性能を評価する最も広く使われている手法である。 しかし、既存のRB法は多くの量子ビットにスケールしないか、普遍ゲートセットをベンチマークできない。 本稿では、ランダム化ミラー回路と呼ばれる一連の回路を用いて、多くの普遍的かつ連続的なパラメータ化ゲートセットのスケーラブルRB技術を紹介し、実証する。 本手法は,絡み合うクリフォードゲートと任意の単一キュービットゲートの集合を含むゲートセットと,パウリ軸に関する制御された回転を含むゲートセットに適用することができる。 我々は,制御されたSゲートを含むゲートセットとその逆数を含む4つの量子テストベッド上の普遍ゲートセットをベンチマークするために,本手法を用いて,非クリフォードゲートの挿入による観測誤差率の影響について検討する。 最後に,27量子ビットibm qプロセッサを用いた実験により,この手法が多くの量子ビットに拡張できることを実証する。 我々は,この27量子ビットデバイスにおけるクロストークの影響を定量化するため,ランダム多ビット回路層におけるゲート毎の総誤差の約2/3に寄与することが判明した。

Randomized benchmarking (RB) protocols are the most widely used methods for assessing the performance of quantum gates. However, the existing RB methods either do not scale to many qubits or cannot benchmark a universal gate set. Here, we introduce and demonstrate a technique for scalable RB of many universal and continuously parameterized gate sets, using a class of circuits called randomized mirror circuits. Our technique can be applied to a gate set containing an entangling Clifford gate and the set of arbitrary single-qubit gates, as well as gate sets containing controlled rotations about the Pauli axes. We use our technique to benchmark universal gate sets on four qubits of the Advanced Quantum Testbed, including a gate set containing a controlled-S gate and its inverse, and we investigate how the observed error rate is impacted by the inclusion of non-Clifford gates. Finally, we demonstrate that our technique scales to many qubits with experiments on a 27-qubit IBM Q processor. We use our technique to quantify the impact of crosstalk on this 27-qubit device, and we find that it contributes approximately 2/3 of the total error per gate in random many-qubit circuit layers.
翻訳日:2023-10-14 03:09:24 公開日:2023-10-11
# 量子回路のロバスト性に及ぼすハミルトニアンの整流子特性の影響

Influence of the Commutator Properties of Hamiltonians on the Robustness of Quantum Circuits ( http://arxiv.org/abs/2307.08404v3 )

ライセンス: Link先を確認
Vladyslav Bivziuk, Vitalii Slynko(参考訳) 我々は、量子コンピューティングで使用される量子回路のコヒーレント制御誤差の新しい推定を証明した。 これらの推定は基本的にハミルトニアンの可換特性を考慮し、可換計算の式に基づいている。

We have proved new estimates for the coherent control errors of quantum circuits used in quantum computing. These estimates essentially take into account the commutator properties of the Hamiltonians and are based on the formulas of the commutator calculus.
翻訳日:2023-10-14 03:03:11 公開日:2023-10-11
# 運動句による人間の動作と行動意味論のギャップの橋渡し

Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases ( http://arxiv.org/abs/2310.04189v2 )

ライセンス: Link先を確認
Xinpeng Liu, Yong-Lu Li, Ailing Zeng, Zizheng Zhou, Yang You, Cewu Lu(参考訳) 動作理解の目的は、動作意味論と動作意味論の間の信頼できるマッピングを確立することであるが、多対多の問題である。 抽象的なアクションセマンティクス(つまりウォーキングフォワード)は知覚的に多様な動き(腕を上げて歩くか振り回す)によって伝達され、動きはその文脈や意図によって異なるセマンティクスを運ぶことができる。 これにより、両者のエレガントなマッピングが困難になる。 以前の試みでは信頼性の低いダイレクトマッピングパラダイムを採用していた。 また、現在の自動メトリクスは、動作とアクションセマンティクスの一貫性の信頼できる評価を提供していない。 この2つのモード間の大きなギャップとして,これらの問題の根源を同定する。 このギャップを緩和するため,我々は,人間の運動の客観的キネマティックな事実を,適切な抽象化,解釈性,一般性特性で捉えるキネマティックフレーズ(kp)を提案する。 KPを仲介者として利用することで,運動知識ベースを統一し,動作理解システムを構築することができる。 一方、KPは主観バイアスのない動作やテキスト記述から自動的に変換することができ、新しい自動運動生成ベンチマークとしてKPG(Kinematic Prompt Generation)を刺激する。 広範な実験において,本手法は他の手法よりも優れていることを示す。 私たちのコードとデータはhttps://foruck.github.io/KP.comで公開されます。

The goal of motion understanding is to establish a reliable mapping between motion and action semantics, while it is a challenging many-to-many problem. An abstract action semantic (i.e., walk forwards) could be conveyed by perceptually diverse motions (walk with arms up or swinging), while a motion could carry different semantics w.r.t. its context and intention. This makes an elegant mapping between them difficult. Previous attempts adopted direct-mapping paradigms with limited reliability. Also, current automatic metrics fail to provide reliable assessments of the consistency between motions and action semantics. We identify the source of these problems as the significant gap between the two modalities. To alleviate this gap, we propose Kinematic Phrases (KP) that take the objective kinematic facts of human motion with proper abstraction, interpretability, and generality characteristics. Based on KP as a mediator, we can unify a motion knowledge base and build a motion understanding system. Meanwhile, KP can be automatically converted from motions and to text descriptions with no subjective bias, inspiring Kinematic Prompt Generation (KPG) as a novel automatic motion generation benchmark. In extensive experiments, our approach shows superiority over other methods. Our code and data would be made publicly available at https://foruck.github.io/KP.
翻訳日:2023-10-14 02:52:17 公開日:2023-10-11
# 適応的視覚シーン理解:インクリメンタルシーングラフ生成

Adaptive Visual Scene Understanding: Incremental Scene Graph Generation ( http://arxiv.org/abs/2310.01636v2 )

ライセンス: Link先を確認
Naitik Khandelwal, Xiao Liu and Mengmi Zhang(参考訳) シーングラフ生成(SGG)は、画像を分析し、オブジェクトとその関係に関する意味のある情報を抽出する。 視覚世界のダイナミックな性質を考えると、AIシステムは新しいオブジェクトを検出し、既存のオブジェクトとの新たな関係を確立することが重要である。 SGGにおける連続学習手法の欠如に対処するため,3つの学習シナリオと8つの評価指標とともにCSEGGデータセットを包括的に導入した。 本研究は,既存のSGG手法の継続学習性能が,既存オブジェクトの保持や,新しいオブジェクトを学習する際の関連性について検討する。 さらに、連続物体検出が未知物体上の既知の関係を分類する際の一般化をいかに促進するかについても検討する。 本研究では,古典的な2段階SGG法と最新のトランスフォーマーベースSGG法を連続学習環境でベンチマークし,解析し,CSEGG問題に対する貴重な知見を得る。 私たちはこの新たな研究分野を探求するために研究コミュニティを招待します。

Scene graph generation (SGG) involves analyzing images to extract meaningful information about objects and their relationships. Given the dynamic nature of the visual world, it becomes crucial for AI systems to detect new objects and establish their new relationships with existing objects. To address the lack of continual learning methodologies in SGG, we introduce the comprehensive Continual ScenE Graph Generation (CSEGG) dataset along with 3 learning scenarios and 8 evaluation metrics. Our research investigates the continual learning performances of existing SGG methods on the retention of previous object entities and relationships as they learn new ones. Moreover, we also explore how continual object detection enhances generalization in classifying known relationships on unknown objects. We conduct extensive experiments benchmarking and analyzing the classical two-stage SGG methods and the most recent transformer-based SGG methods in continual learning settings, and gain valuable insights into the CSEGG problem. We invite the research community to explore this emerging field of study.
翻訳日:2023-10-14 02:51:53 公開日:2023-10-11
# 2DEGにおける背景電位推定のための機械学習手法

Machine Learning Methods for Background Potential Estimation in 2DEGs ( http://arxiv.org/abs/2310.07089v1 )

ライセンス: Link先を確認
Carlo da Cunha and Nobuyuki Aoki and David Ferry and Kevin Vora and Yu Zhang(参考訳) 量子効果デバイスや材料の世界では、2次元電子ガス(2DEG)が変換技術を約束する基本構造である。 しかしながら、2DEGにおける不純物や欠陥の存在は、キャリアの移動性、導電性、量子コヒーレンス時間に影響を与える、重大な課題を引き起こす。 これを解決するために、走査ゲート顕微鏡(SGM)のパワーを活用し、SGMデータから2DEGの背景電位を推定するために3つの異なる機械学習技術を用いる。 データ制約にもかかわらず、この文脈における進化的探索アルゴリズムの有効性を強調し、欠陥解析に対する新しいアプローチを提供する。 この研究は、2DEGの理解を深めるだけでなく、量子コンピューティングやナノエレクトロニクスに影響を及ぼす量子物質の探索における機械学習の可能性も強調している。

In the realm of quantum-effect devices and materials, two-dimensional electron gases (2DEGs) stand as fundamental structures that promise transformative technologies. However, the presence of impurities and defects in 2DEGs poses substantial challenges, impacting carrier mobility, conductivity, and quantum coherence time. To address this, we harness the power of scanning gate microscopy (SGM) and employ three distinct machine learning techniques to estimate the background potential of 2DEGs from SGM data: image-to-image translation using generative adversarial neural networks, cellular neural network, and evolutionary search. Our findings, despite data constraints, highlight the effectiveness of an evolutionary search algorithm in this context, offering a novel approach for defect analysis. This work not only advances our understanding of 2DEGs but also underscores the potential of machine learning in probing quantum materials, with implications for quantum computing and nanoelectronics.
翻訳日:2023-10-14 02:46:40 公開日:2023-10-11
# ニューラル・ガレルキンスキームによるハミルトンおよびその他の量の保存のための非線形埋め込み

Nonlinear embeddings for conserving Hamiltonians and other quantities with Neural Galerkin schemes ( http://arxiv.org/abs/2310.07485v1 )

ライセンス: Link先を確認
Paul Schwerdtner, Philipp Schulze, Jules Berman, Benjamin Peherstorfer(参考訳) この研究は、偏微分方程式の解場がディープネットワークのような非線形パラメトリゼーションと近似されるとき、ハミルトン、質量、運動量などの量の保存に焦点を当てる。 提案手法は,非線形パラメトリゼーションの逐次学習のためのdirac-frenkel変分原理に基づくニューラルガレルキンスキームに基づいている。 まず, パラメータの非線形依存は, 解場の線形な量でさえパラメータ内で非線形となることを示し, 時間内での離散化が困難であることから, 連続的に保存する量に制約を加えるだけでは不十分であることを示す。 代わりに,非線形パラメトリ化解体の多様体への明示的な埋め込みを各時間ステップで計算し,量保存を保証するニューラルガレルキンスキームを提案する。 埋め込みは、標準の明示的および暗黙的な時間統合スキームと組み合わせることができる。 数値実験により,提案手法が機械精度まで保存できることが示されている。

This work focuses on the conservation of quantities such as Hamiltonians, mass, and momentum when solution fields of partial differential equations are approximated with nonlinear parametrizations such as deep networks. The proposed approach builds on Neural Galerkin schemes that are based on the Dirac--Frenkel variational principle to train nonlinear parametrizations sequentially in time. We first show that only adding constraints that aim to conserve quantities in continuous time can be insufficient because the nonlinear dependence on the parameters implies that even quantities that are linear in the solution fields become nonlinear in the parameters and thus are challenging to discretize in time. Instead, we propose Neural Galerkin schemes that compute at each time step an explicit embedding onto the manifold of nonlinearly parametrized solution fields to guarantee conservation of quantities. The embeddings can be combined with standard explicit and implicit time integration schemes. Numerical experiments demonstrate that the proposed approach conserves quantities up to machine precision.
翻訳日:2023-10-14 02:34:38 公開日:2023-10-11
# 流体力学格子型セルセルオートマトンのための完全量子アルゴリズム

A Fully Quantum Algorithm for Hydrodynamic Lattice Gas Cellular Automata ( http://arxiv.org/abs/2310.07362v1 )

ライセンス: Link先を確認
Niccolo Fonio, Pierre Sagaut, Giuseppe Di Molfetta(参考訳) 格子ガスセルラーオートマタ (LGCA) は、多くの物理現象のシミュレーションに広く知られ応用されている計算モデルである。 彼らの実装には、システムのサイズと時間ステップの数に対して線形にスケールするリソースとオペレーションの量が必要です。 本稿では,空間複雑性の指数関数的な優位性とシステムサイズに依存しない量子演算を提示しつつ,lgcaをシミュレートできる量子ポインター型量子アルゴリズムを提案する。 2体, 3体, 4体衝突を考慮したFHP格子ガス自動機の衝突回路を提案する。 これらは、より多くの衝突を伴うlgcaの量子回路を見つける手順を示唆する2つの手法で実装されている。 また,1つのセルに関する情報を抽出する位相推定アルゴリズムを提案する。 量子LGCAに関連する不変量を特定するための一般的な手法も提案されている。

Lattice Gas Cellular Automata (LGCA) are a computational model widely known and applied for the simulation of many physical phenomena. Their implementation requires an amount of resources and operations which scale linearly versus the system size and number of time steps. We propose a quantum-pointers-based quantum algorithm able to simulate LGCA while exhibiting an exponential advantage in space complexity and a number of quantum operations independent from the system size. We propose a collision circuit for the FHP lattice-gas automata considering the 2-, 3-, and 4-body collisions. These are implemented with two methodologies that suggest the procedure for finding quantum circuits for LGCA with more collisions. We also propose a phase estimation algorithm to retrieve information about a single cell, whose application can be expanded for implementing other collisions. A general methodology to identify the invariants associated to quantum LGCA is also proposed.
翻訳日:2023-10-14 02:34:20 公開日:2023-10-11
# 変圧器診断のための1dcnn-attentionを用いたマルチチャネル連続データクロストラクション

Multichannel consecutive data cross-extraction with 1DCNN-attention for diagnosis of power transformer ( http://arxiv.org/abs/2310.07323v1 )

ライセンス: Link先を確認
Wei Zheng, Guogang Zhang, Chenchen Zhao, Qianqian Zhu(参考訳) 電力変圧器はグリッドインフラストラクチャにおいて重要な役割を担っており、その診断は安定した運転を維持する上で最重要である。 しかし,近年の変圧器診断法は,多チャンネル連続データの深い特徴抽出を怠り,離散的溶存ガス分析に焦点をあてている。 未利用シーケンシャルデータは、変圧器条件を反映する重要な時間情報を含む。 そこで本論文では,本特性を総合的に活用し,変圧器の状態を評価するために,マルチチャネル連続データクロストラクション(mcdc)の構造を提案する。 さらに, 変圧器診断のシナリオにおいて, 1次元畳み込みニューラルネットワーク(1DCNN-アテンション)機構を導入し, 簡易な空間複雑性を考慮し, より効率的なソリューションを提供する。 最後に,実際の電力変圧器の運用事例から収集したデータセット上で行った実験において,mcdcの有効性と,他のアルゴリズムと比較して優れた一般化能力が検証された。 さらに、1dcnnアテンションの安定性も向上している。

Power transformer plays a critical role in grid infrastructure, and its diagnosis is paramount for maintaining stable operation. However, the current methods for transformer diagnosis focus on discrete dissolved gas analysis, neglecting deep feature extraction of multichannel consecutive data. The unutilized sequential data contains the significant temporal information reflecting the transformer condition. In light of this, the structure of multichannel consecutive data cross-extraction (MCDC) is proposed in this article in order to comprehensively exploit the intrinsic characteristic and evaluate the states of transformer. Moreover, for the better accommodation in scenario of transformer diagnosis, one dimensional convolution neural network attention (1DCNN-attention) mechanism is introduced and offers a more efficient solution given the simplified spatial complexity. Finally, the effectiveness of MCDC and the superior generalization ability, compared with other algorithms, are validated in experiments conducted on a dataset collected from real operation cases of power transformer. Additionally, the better stability of 1DCNN-attention has also been certified.
翻訳日:2023-10-14 02:34:05 公開日:2023-10-11
# ビザンチン耐性分散多腕バンディット

Byzantine-Resilient Decentralized Multi-Armed Bandits ( http://arxiv.org/abs/2310.07320v1 )

ライセンス: Link先を確認
Jingxuan Zhu, Alec Koppel, Alvaro Velasquez, Ji Liu(参考訳) 分散協調多腕バンディット(mab)では、各エージェントは異なる報酬の流れを観察し、他者と情報を交換し、後悔を最小限に抑えるために一連の武器を選択する。 協調設定のエージェントは、アッパー信頼境界(UCB)のようなMABメソッドを実行する単一のエージェントを独立して上回ることができる。 本研究では,未知のエージェントがビザンチン,すなわち報酬平均見積や信頼セットという形で任意に間違った情報を伝達できるような場合,このような有害な振る舞いを回復する方法について検討する。 このフレームワークは、コンピュータネットワークにおける攻撃者をモデル化したり、攻撃的コンテンツの扇動者をレコメンダシステムや金融市場のマニピュレータにモデル化したりすることができる。 我々の重要な貢献は、エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合させる、完全に分散化された高信頼境界(UCB)アルゴリズムの開発である。 このトランザクションステップにより、従来の単一エージェントucb1アルゴリズムよりも、各正規エージェントのパフォーマンスが損なわれず、さらに重要なこととして、すべての正規エージェントの累積後悔は、非協力的なケースよりも厳格に良い。 時変隣接グラフの拡張とミニマックス下限は、達成可能な後悔の上にさらに確立される。 実験は、実際にこのフレームワークのメリットを裏付けるものだ。

In decentralized cooperative multi-armed bandits (MAB), each agent observes a distinct stream of rewards, and seeks to exchange information with others to select a sequence of arms so as to minimize its regret. Agents in the cooperative setting can outperform a single agent running a MAB method such as Upper-Confidence Bound (UCB) independently. In this work, we study how to recover such salient behavior when an unknown fraction of the agents can be Byzantine, that is, communicate arbitrarily wrong information in the form of reward mean-estimates or confidence sets. This framework can be used to model attackers in computer networks, instigators of offensive content into recommender systems, or manipulators of financial markets. Our key contribution is the development of a fully decentralized resilient upper confidence bound (UCB) algorithm that fuses an information mixing step among agents with a truncation of inconsistent and extreme values. This truncation step enables us to establish that the performance of each normal agent is no worse than the classic single-agent UCB1 algorithm in terms of regret, and more importantly, the cumulative regret of all normal agents is strictly better than the non-cooperative case, provided that each agent has at least 3f+1 neighbors where f is the maximum possible Byzantine agents in each agent's neighborhood. Extensions to time-varying neighbor graphs, and minimax lower bounds are further established on the achievable regret. Experiments corroborate the merits of this framework in practice.
翻訳日:2023-10-14 02:33:47 公開日:2023-10-11
# 対称性強化多体分離性遷移

Symmetry-enforced many-body separability transitions ( http://arxiv.org/abs/2310.07286v1 )

ライセンス: Link先を確認
Yu-Hsueh Chen and Tarun Grover(参考訳) 我々は、分離性の観点から対称性を持つ量子多体混合状態、すなわち、混合状態が短距離エンタングルド(SRE)対称純粋状態のアンサンブルとして表現できるかどうかを研究する。 種々の状態において、混合状態は対称sre純状態の凸和として表現可能であり、他方の状態においてはそのような表現は実現不可能である。 まず, 離散対称性の自発的破断を示すハミルトニアンのギブス状態について論じ, 関連する熱相転移は対称性強化分離性遷移と考えることができると主張した。 次に,局所的デコヒーレンスを受ける様々な次元のクラスター状態について検討し,異なる混合状態相と関連する分離性相転移を同定し,最近議論された「平均SPT順序」に対する別の視点を提供する。 また, 脱コヒーレントp+ip超伝導体について検討し, 脱コヒーレンスがフェルミオンパリティを明示的に破壊すると, 非キラル状態の凸和として混合状態が表現され, 脱コヒーレンスを保ったフェルミオンパリティは非ゼロしきい値で相転移し, フェミオンパリティの自発的破壊に対応する。 最後に,最近発見された良質なldpc符号のようなnlt(低エネルギー自明な状態)特性を満たすシステムについて簡単に議論し,gibbs状態が温度調整された分離性遷移を示すと主張する。

We study quantum many-body mixed states with a symmetry from the perspective of separability, i.e., whether a mixed state can be expressed as an ensemble of short-range entangled (SRE) symmetric pure states. We provide evidence for 'symmetry-enforced separability transitions' in a variety of states, where in one regime the mixed state is expressible as a convex sum of symmetric SRE pure states, while in the other regime, such a representation is not feasible. We first discuss Gibbs state of Hamiltonians that exhibit spontaneous breaking of a discrete symmetry, and argue that the associated thermal phase transition can be thought of as a symmetry-enforced separability transition. Next, we study cluster states in various dimensions subjected to local decoherence, and identify several distinct mixed-state phases and associated separability phase transitions, which also provides an alternate perspective on recently discussed 'average SPT order'. We also study decohered p+ip superconductors, and find that if the decoherence breaks the fermion parity explicitly, then the resulting mixed state can be expressed as a convex sum of non-chiral states, while a fermion-parity preserving decoherence results in a phase transition at a non-zero threshold that corresponds to spontaneous breaking of fermion parity. Finally, we briefly discuss systems that satisfy NLTS (no low-energy trivial state) property, such as the recently discovered good LDPC codes, and argue that the Gibbs state of such systems exhibits a temperature-tuned separability transition.
翻訳日:2023-10-14 02:33:22 公開日:2023-10-11
# 深部ReLUネットワークと高次有限要素法II:チェビシェフエミュレーション

Deep ReLU networks and high-order finite element methods II: Chebyshev emulation ( http://arxiv.org/abs/2310.07261v1 )

ライセンス: Link先を確認
Joost A. A. Opschoor and Christoph Schwab(参考訳) 深いReLUニューラルネットワーク(NN)のソボレフノルムにおける表現率と安定性は、任意の有限分割上の連続的多項式関数に対してNNを定義するパラメータの個数$\mathcal{T}$の有界区間$(a,b)$に対処する。 チェビシェフ多項式展開係数を用いて近似関数を符号化するReLU NNサロゲートの新しい構成法を開発した。 チェビシェフ係数は、逆高速フーリエ変換を用いてクレンショー-カーティス点の関数の値から容易に計算できる。 モノミアル(Opschoor, Petersen, Schwab, 2020)のReLU NNエミュレーションに基づく構造よりも優れた表現率と安定性のバウンドが得られた。 すべてのエミュレーション境界は、インターバルの(任意)パーティション、ターゲットエミュレーション精度、およびパーティションの各要素における多項式次数の観点から明示的である。 ReLU NNエミュレーション誤差推定は、様々な関数とノルムのクラスに対して提供され、数値解析でよく見られる。 特に、点特異点を持つ解析関数に対する指数的ReLUエミュレーション率境界を示し、Chebfun近似と構成的ReLU NNエミュレーションのインターフェースを開発する。

Expression rates and stability in Sobolev norms of deep ReLU neural networks (NNs) in terms of the number of parameters defining the NN for continuous, piecewise polynomial functions, on arbitrary, finite partitions $\mathcal{T}$ of a bounded interval $(a,b)$ are addressed. Novel constructions of ReLU NN surrogates encoding the approximated functions in terms of Chebyshev polynomial expansion coefficients are developed. Chebyshev coefficients can be computed easily from the values of the function in the Clenshaw--Curtis points using the inverse fast Fourier transform. Bounds on expression rates and stability that are superior to those of constructions based on ReLU NN emulations of monomials considered in [Opschoor, Petersen, Schwab, 2020] are obtained. All emulation bounds are explicit in terms of the (arbitrary) partition of the interval, the target emulation accuracy and the polynomial degree in each element of the partition. ReLU NN emulation error estimates are provided for various classes of functions and norms, commonly encountered in numerical analysis. In particular, we show exponential ReLU emulation rate bounds for analytic functions with point singularities and develop an interface between Chebfun approximations and constructive ReLU NN emulations.
翻訳日:2023-10-14 02:32:50 公開日:2023-10-11
# CacheGen: 言語モデルアプリケーションのための高速なコンテキストローディング

CacheGen: Fast Context Loading for Language Model Applications ( http://arxiv.org/abs/2310.07240v1 )

ライセンス: Link先を確認
Yuhan Liu, Hanchen Li, Kuntai Du, Jiayi Yao, Yihua Cheng, Yuyang Huang, Shan Lu, Michael Maire, Henry Hoffmann, Ari Holtzman, Ganesh Ananthanarayanan, Junchen Jiang(参考訳) 大きな言語モデル(LLM)がより複雑なタスクをこなすにつれて、その入力はドメイン知識やユーザ固有の会話履歴を必要とする質問に応答するために長いコンテキストを組み込む。 しかし、長いコンテキストを使用すると、全てのコンテキストがLLMにフェッチされ処理されるまで何も生成できないため、応答性のあるLLMシステムにとって課題となる。 既存のシステムは、コンテキスト処理の計算遅延のみを最適化する(例えば、テキストコンテキストの中間のキー値特徴をキャッシュする)が、しばしばコンテキストフェッチのネットワーク遅延(例えば、キー値特徴がテキストコンテキストよりも桁違いに大きな帯域幅を消費する)を引き起こす。 本稿では,LLMのフェッチと処理の遅延を最小限に抑えるためにCacheGenを提案する。 CacheGenは、KV機能をよりコンパクトなビットストリーム表現に圧縮する新しいエンコーダを通じて、長いコンテキストのキー値(KV)機能を送信するのに必要な帯域幅を削減する。 エンコーダは適応量子化と調整された算術コーダを組み合わせて、トークン間の局所性のようなKV特徴の分布特性を利用する。 さらに、CacheGenは、圧縮KV機能または生テキストとしてコンテキストをいつロードするかを決定するコントローラを使用して、コンテキストのフェッチと処理の全体的な遅延を最小化し、KV機能としてロードされた場合、適切な圧縮レベルを選択する。 さまざまなサイズの3つのモデルと異なるコンテキスト長の3つのデータセットでCacheGenをテストする。 長いコンテキストを扱う最近の手法と比較して、CacheGenは帯域幅を3.7-4.3xに減らし、フェッチと処理の合計遅延を2.7-3xに減らした。

As large language models (LLMs) take on more complex tasks, their inputs incorporate longer contexts to respond to questions that require domain knowledge or user-specific conversational histories. Yet, using long contexts poses a challenge for responsive LLM systems, as nothing can be generated until all the contexts are fetched to and processed by the LLM. Existing systems optimize only the computation delay in context processing (e.g., by caching intermediate key-value features of the text context) but often cause longer network delays in context fetching (e.g., key-value features consume orders of magnitude larger bandwidth than the text context). This paper presents CacheGen to minimize the delays in fetching and processing contexts for LLMs. CacheGen reduces the bandwidth needed for transmitting long contexts' key-value (KV) features through a novel encoder that compresses KV features into more compact bitstream representations. The encoder combines adaptive quantization with a tailored arithmetic coder, taking advantage of the KV features' distributional properties, such as locality across tokens. Furthermore, CacheGen minimizes the total delay in fetching and processing a context by using a controller that determines when to load the context as compressed KV features or raw text and picks the appropriate compression level if loaded as KV features. We test CacheGen on three models of various sizes and three datasets of different context lengths. Compared to recent methods that handle long contexts, CacheGen reduces bandwidth usage by 3.7-4.3x and the total delay in fetching and processing contexts by 2.7-3x while maintaining similar LLM performance on various tasks as loading the text contexts.
翻訳日:2023-10-14 02:32:25 公開日:2023-10-11
# LDPCコードによるエラーフロー性能向上のための強化学習

Boosting Learning for LDPC Codes to Improve the Error-Floor Performance ( http://arxiv.org/abs/2310.07194v1 )

ライセンス: Link先を確認
Hee-Youl Kwak, Dae-Young Yun, Yongjune Kim, Sang-Hyo Kim, Jong-Seon No(参考訳) 低密度パリティチェック (LDPC) 符号は, 高い誤り訂正能力と単純な復号処理により通信システムにおいて商業化されている。 しかし、LDPC符号のエラーフロア現象は、誤り率を一定レベルで急速に低下させる現象であり、非常に低いエラー率を達成することや、超高信頼性を必要とするシナリオにおけるLDPC符号の適用が困難となる。 本研究では,誤り床に対して頑健なニューラルミンサム(nms)デコーダを最適化するためのトレーニング手法を提案する。 まず,アンサンブルネットワークの強化学習技術を活用することで,デコードネットワークを2つのネットワークに分割し,第1のネットワークで失敗した誤りコードワードを専門とするポストネットワークを訓練する。 第二に,学習における勾配問題に対処するため,前ブロックを再訓練しながら,一ブロックの重みを局所的に訓練するブロックワイドトレーニングスケジュールを導入する。 最後に,不満足なチェックノードに異なる重みを割り当てることで,少ない重みでエラーフローを効果的に低減できることを示す。 これらのトレーニング手法を標準LDPC符号に適用することにより、他の復号法と比較して最高のエラーフロア性能が得られる。 提案したNMSデコーダは、追加モジュールを使わずに新しいトレーニング手法によってのみ最適化され、ハードウェアコストを伴わずに現在のLDPCデコーダに実装できる。 ソースコードはhttps://github.com/ghy1228/ldpc_error_floorで入手できる。

Low-density parity-check (LDPC) codes have been successfully commercialized in communication systems due to their strong error correction ability and simple decoding process. However, the error-floor phenomenon of LDPC codes, in which the error rate stops decreasing rapidly at a certain level, poses challenges in achieving extremely low error rates and the application of LDPC codes in scenarios demanding ultra high reliability. In this work, we propose training methods to optimize neural min-sum (NMS) decoders that are robust to the error-floor. Firstly, by leveraging the boosting learning technique of ensemble networks, we divide the decoding network into two networks and train the post network to be specialized for uncorrected codewords that failed in the first network. Secondly, to address the vanishing gradient issue in training, we introduce a block-wise training schedule that locally trains a block of weights while retraining the preceding block. Lastly, we show that assigning different weights to unsatisfied check nodes effectively lowers the error-floor with a minimal number of weights. By applying these training methods to standard LDPC codes, we achieve the best error-floor performance compared to other decoding methods. The proposed NMS decoder, optimized solely through novel training methods without additional modules, can be implemented into current LDPC decoders without incurring extra hardware costs. The source code is available at https://github.com/ghy1228/LDPC_Error_Floor.
翻訳日:2023-10-14 02:31:52 公開日:2023-10-11
# LLark: 音楽のためのマルチモーダル基礎モデル

LLark: A Multimodal Foundation Model for Music ( http://arxiv.org/abs/2310.07160v1 )

ライセンス: Link先を確認
Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner(参考訳) 音楽は独特で複雑な構造を持ち、熟練した人間と既存のaiシステムの両方にとって理解が難しい。 音楽理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。 さまざまなオープンソース音楽データセットのアノテーションを増補し、それらを統一的な命令調整形式に変換するデータセット作成プロセスについて詳述する。 LLarkのためのマルチモーダルアーキテクチャを提案し、事前学習された言語モデルと事前学習された音楽生成モデルを統合する。 3種類のタスク(音楽理解、キャプション、推論)の評価において、我々のモデルは音楽理解のためのゼロショット一般化において既存のベースラインと一致し、また、人間はキャプションや推論タスクにおいてモデルの応答と高い一致を示す。 LLarkは、オープンソースの音楽データとモデルから完全にトレーニングされています。 追加の結果とオーディオのサンプルはhttps://bit.ly/llarkで、ソースコードはhttps://github.com/spotify-research/llarkで利用可能です。

Music has a unique and complex structure which is challenging for both expert humans and existing AI systems to understand, and presents unique challenges relative to other forms of audio. We present LLark, an instruction-tuned multimodal model for music understanding. We detail our process for dataset creation, which involves augmenting the annotations of diverse open-source music datasets and converting them to a unified instruction-tuning format. We propose a multimodal architecture for LLark, integrating a pretrained generative model for music with a pretrained language model. In evaluations on three types of tasks (music understanding, captioning, and reasoning), we show that our model matches or outperforms existing baselines in zero-shot generalization for music understanding, and that humans show a high degree of agreement with the model's responses in captioning and reasoning tasks. LLark is trained entirely from open-source music data and models, and we make our training code available along with the release of this paper. Additional results and audio examples are at https://bit.ly/llark, and our source code is available at https://github.com/spotify-research/llark .
翻訳日:2023-10-14 02:31:04 公開日:2023-10-11
# 2次元イジングスピングラスの量子遷移:2つのギャップの物語

The Quantum Transition of the Two-Dimensional Ising Spin Glass: A Tale of Two Gaps ( http://arxiv.org/abs/2310.07486v1 )

ライセンス: Link先を確認
Massimo Bernaschi, Isidoro Gonz\'alez-Adalid Pemart\'in, V\'ictor Mart\'in-Mayor and Giorgio Parisi(参考訳) 量子アニーラー(quantum annealers)はスピングラスと呼ばれる非常に難しい計算問題を解決するための商用デバイスである。 金属のアニーリングと同様に、量子アニーラーは鉄の金属をゆっくりと冷却し、可能な限り低い温度で横磁場をゆっくりと除去することで良い解を求める。 磁場除去は量子ゆらぎを減少させるが、乱れた位相(大体では)をスピングラス位相(小体では)から切り離す臨界点をシステムに横切るように強制する。 この相転移の完全な理解はまだ欠けている。 議論の的となる問題は、基底状態と第一励起状態とを分けるエネルギーギャップの閉ざしに関するものである。 古典的コンピュータと比較して指数的なスピードアップを達成するという全ての期待は、ギャップがqspinsの数と代数的に閉まるという仮定に依拠するが、再正規化群計算は閉包が指数関数であると予測する。 ここでは,この議論を極端な数値シミュレーションによって解決し,両者が真理の一部を把握していることを見いだす。 臨界点におけるギャップの閉じは確かに超代数的であるが、励起の対称性を制限すれば代数的である。 この対称性の制限は(少なくとも名目上は)実験的に達成可能であるので、量子アニーリングパラダイムには依然として希望がある。

Quantum annealers are commercial devices aiming to solve very hard computational problems named spin glasses. Just like in metallurgic annealing one slowly cools a ferrous metal, quantum annealers seek good solutions by slowly removing the transverse magnetic field at the lowest possible temperature. The field removal diminishes quantum fluctuations but forces the system to traverse the critical point that separates the disordered phase (at large fields) from the spin-glass phase (at small fields). A full understanding of this phase transition is still missing. A debated, crucial question regards the closing of the energy gap separating the ground state from the first excited state. All hopes of achieving an exponential speed-up, as compared to classical computers, rest on the assumption that the gap will close algebraically with the number of qspins, but renormalization group calculations predict that the closing will be instead exponential. Here we solve this debate through extreme-scale numerical simulations, finding that both parties grasped parts of the truth. While the closing of the gap at the critical point is indeed super-algebraic, it remains algebraic if one restricts the symmetry of possible excitations. Since this symmetry restriction is experimentally achievable (at least nominally), there is still hope for the Quantum Annealing paradigm.
翻訳日:2023-10-14 02:24:34 公開日:2023-10-11
# 超流動性と固体:(5,5)カーボンナノチューブによる無摩擦物質輸送

Superfluidity meets the solid-state: frictionless mass-transport through a (5,5) carbon-nanotube ( http://arxiv.org/abs/2310.07476v1 )

ライセンス: Link先を確認
Alberto Ambrosetti, Pier Luigi Silvestrelli and Luca Salasnich(参考訳) 超流動性(superfluidity)は、非常に低温で^4$heまたは希薄な原子ガスのような超流動によるメソスコピック粒子の摩擦のない運動を伴うよく特性化された量子現象である。 ランドーが示したように、超流体の基本的な励起スペクトルから生じるエネルギー-運動量保存の不適合性は、超流体と運動するメソスコピック粒子の間の量子散乱を臨界速度閾値以下に抑える。 ここでは、he原子が狭い(5,5)炭素ナノチューブ(cnt)を通り抜けるとき、摩擦のない運動も標準の超流動がなければ起こると予測する。 Heと相互作用するプラズモンとフォノンモードの準線形分散のため、(5,5)CNTは超流動の固体類似体を具現化し、これによりランダウの超流動性の基準を容易に伝達することができる。 その結果、ランダウの方程式はより広範な一般性を獲得し、これまでの記述が純粋に古典的である他のナノスケール摩擦現象にも適用することができる。

Superfluidity is a well-characterized quantum phenomenon which entails frictionless-motion of mesoscopic particles through a superfluid, such as $^4$He or dilute atomic-gases at very low temperatures. As shown by Landau, the incompatibility between energy- and momentum-conservation, which ultimately stems from the spectrum of the elementary excitations of the superfluid, forbids quantum-scattering between the superfluid and the moving mesoscopic particle, below a critical speed-threshold. Here we predict that frictionless-motion can also occur in the absence of a standard superfluid, i.e. when a He atom travels through a narrow (5,5) carbon-nanotube (CNT). Due to the quasi-linear dispersion of the plasmon and phonon modes that could interact with He, the (5,5) CNT embodies a solid-state analog of the superfluid, thereby enabling straightforward transfer of Landau's criterion of superfluidity. As a result, Landau's equations acquire broader generality, and may be applicable to other nanoscale friction phenomena, whose description has been so far purely classical.
翻訳日:2023-10-14 02:24:12 公開日:2023-10-11
# 深層学習による低重力グリオーマのバイオマーカー状態の予測と病理組織学的特徴の解明

Deep Learning Predicts Biomarker Status and Discovers Related Histomorphology Characteristics for Low-Grade Glioma ( http://arxiv.org/abs/2310.07464v1 )

ライセンス: Link先を確認
Zijie Fang, Yihan Liu, Yifeng Wang, Xiangyang Zhang, Yang Chen, Changjing Cai, Yiyang Lin, Ying Han, Zhi Wang, Shan Zeng, Hong Shen, Jun Tan, Yongbing Zhang(参考訳) 低次グリオーマ(LGG)の診断と治療にはバイオマーカー検出が不可欠である。 しかし、現在のlggバイオマーカー検出法は、プロが結果を分析するために必要となる高価な複雑な分子遺伝検査に依存しており、レート内変異が報告されることが多い。 これらの課題を克服するために,本研究では,マルチインスタンスラーニング(MIL)フレームワークに基づく解釈可能な深層学習パイプライン,マルチバイオマーカーヒストモルフォロジー発見者(Multi-Beholder)モデルを提案し,ヘマトキシリンとエオシンを含有した全スライド画像とスライドレベルのバイオマーカーステータスラベルのみを用いて,LGG内の5つのバイオマーカーの状態を予測する。 具体的には、一級分類をMILフレームワークに組み込むことで、スライドレベルのラベルを大いに補完し、バイオマーカー予測性能を向上させるインスタンスレベルの正確な擬似ラベルを実現する。 Multi-Beholderは5つのLGGバイオマーカー(AUROC=0.6469-0.9735)に対して、人種や走査プロトコルの異なる2つのコホート(n=607)において優れた予測性能と一般化性を示す。 さらに, バイオマーカーの状態と組織形態特性の定量的, 定性的な相関を見出すことができる。 我々のパイプラインはバイオマーカー予測の新しいアプローチを提供するだけでなく、LGG患者に対する分子治療の適用性を高めるだけでなく、分子機能とLGGの進行の新たなメカニズムの発見を促進する。

Biomarker detection is an indispensable part in the diagnosis and treatment of low-grade glioma (LGG). However, current LGG biomarker detection methods rely on expensive and complex molecular genetic testing, for which professionals are required to analyze the results, and intra-rater variability is often reported. To overcome these challenges, we propose an interpretable deep learning pipeline, a Multi-Biomarker Histomorphology Discoverer (Multi-Beholder) model based on the multiple instance learning (MIL) framework, to predict the status of five biomarkers in LGG using only hematoxylin and eosin-stained whole slide images and slide-level biomarker status labels. Specifically, by incorporating the one-class classification into the MIL framework, accurate instance pseudo-labeling is realized for instance-level supervision, which greatly complements the slide-level labels and improves the biomarker prediction performance. Multi-Beholder demonstrates superior prediction performance and generalizability for five LGG biomarkers (AUROC=0.6469-0.9735) in two cohorts (n=607) with diverse races and scanning protocols. Moreover, the excellent interpretability of Multi-Beholder allows for discovering the quantitative and qualitative correlations between biomarker status and histomorphology characteristics. Our pipeline not only provides a novel approach for biomarker prediction, enhancing the applicability of molecular treatments for LGG patients but also facilitates the discovery of new mechanisms in molecular functionality and LGG progression.
翻訳日:2023-10-14 02:23:50 公開日:2023-10-11
# ニュートリノと$B^0$-$\overline{B^0}=振動からの幾何学量子力学の一般化に関する制約

Constraints on a Generalization of Geometric Quantum Mechanics from Neutrino and $B^0$-$\overline{B^0}$ Oscillations ( http://arxiv.org/abs/2310.07457v1 )

ライセンス: Link先を確認
Nabin Bhatta, Djordje Minic, Tatsu Takeuchi(参考訳) Nambu Quantum Mechanics - Physで提案されている。 Lett! B536, 305 (2002) は正準量子力学の変形であり、エネルギー固有状態時間の「位相」が発展する多様体を変形させる。 この一般化は、標準量子力学からの偏差の度合いを定量化する2つの変形パラメータを導入することにより、振動と干渉現象に影響を与える。 本稿では,ベルの大気ニュートリノ振動データと$B^0$-$\overline{B^0}$発振データを用いて,これらのパラメータを制約する。 驚くべきことに、大気ニュートリノからのバウンドはベルからのバウンドよりも強い。 nambu量子力学の様々な特徴についても論じる。

Nambu Quantum Mechanics, proposed in Phys. Lett. B536, 305 (2002), is a deformation of canonical Quantum Mechanics in which the manifold over which the "phase" of an energy eigenstate time evolves is modified. This generalization affects oscillation and interference phenomena through the introduction of two deformation parameters that quantify the extent of deviation from canonical Quantum Mechanics. In this paper, we constrain these parameters utilizing atmospheric neutrino oscillation data, and $B^0$-$\overline{B^0}$ oscillation data from Belle. Surprisingly, the bound from atmospheric neutrinos is stronger than the bound from Belle. Various features of Nambu Quantum Mechanics are also discussed.
翻訳日:2023-10-14 02:23:18 公開日:2023-10-11
# 雑音中規模量子コンピュータ上での2量子ビット擬似テレパシーゲームの実装

Implementing 2-qubit pseudo-telepathy games on noisy intermediate scale quantum computers ( http://arxiv.org/abs/2310.07441v1 )

ライセンス: Link先を確認
Colm Kelleher, Mohammad Roomy, Fr\'ed\'eric Holweck(参考訳) 量子文脈性の証明のようなマーミンペールは、古典的にはそのような保証が存在しない場合に、保証された量子戦略を非局所ゲームに提供することが知られている。 量子擬似テレパシー(quantum pseudo-telepathy)とも呼ばれるこの現象は、いわゆるメルミンマジック四角形ゲームにおいて研究されている。 本稿では,量子コンピュータ上での2つの実装方法の詳細をレビューし,2-qubit Pauli 群の幾何学に基づく新たな Doily ゲームを提案する。 IBM Quantum Experienceでプレイすると、これらのゲームの量子性はほとんど明らかになるが、利用可能な量子マシンに固有のノイズは、古典的でない側面の完全なデモンストレーションを妨げている。

It is known that Mermin-Peres like proofs of quantum contextuality can furnish non-local games with a guaranteed quantum strategy, when classically no such guarantee can exist. This phenomenon, also called quantum pseudo-telepathy, has been studied in the case of the so-called Mermin Magic square game. In this paper we review in detail two different ways of implementing on a quantum computer such a game and propose a new Doily game based on the geometry of 2-qubit Pauli group. We show that the quantumness of these games are almost revealed when we play them on the IBM Quantum Experience, however the inherent noise in the available quantum machines prevents a full demonstration of the non-classical aspects.
翻訳日:2023-10-14 02:23:04 公開日:2023-10-11
# 異なる空間スケールの気象地図を用いたパリにおけるヘイズ発生予測のための分岐型深層畳み込みネットワーク

A Branched Deep Convolutional Network for Forecasting the Occurrence of Hazes in Paris using Meteorological Maps with Different Characteristic Spatial Scales ( http://arxiv.org/abs/2310.07437v1 )

ライセンス: Link先を確認
Chien Wang(参考訳) 低可視性イベントやヘイズの発生を予測するために,ディープラーニングプラットフォームが開発された。 様々な気象・水文変数の多次元日次地域地図を入力特徴として、表面視認性観測を目標として訓練する。 異なる入力特徴の空間情報を訓練用として保存するため,パリ・ハゼの場合の2つの分岐アーキテクチャが最近開発された。 これらの新しいアーキテクチャはネットワークのパフォーマンスを改善し、トレーニングや検証に使われていない2021年と2022年のデータを使用して、検証とブラインド予測の両方で合理的なスコアを生み出した。

A deep learning platform has been developed to forecast the occurrence of the low visibility events or hazes. It is trained by using multi-decadal daily regional maps of various meteorological and hydrological variables as input features and surface visibility observations as the targets. To better preserve the characteristic spatial information of different input features for training, two branched architectures have recently been developed for the case of Paris hazes. These new architectures have improved the performance of the network, producing reasonable scores in both validation and a blind forecasting evaluation using the data of 2021 and 2022 that have not been used in the training and validation.
翻訳日:2023-10-14 02:22:51 公開日:2023-10-11
# ランダム化ルンゲ・クッタ・ニストローム

Randomized Runge-Kutta-Nystr\"om ( http://arxiv.org/abs/2310.07399v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee and Tore Selland Kleppe(参考訳) 5/2-および7/2-次$l^2$-accurate randomized runge-kutta-nystr\"om法を用いて,非可逆性マルコフ鎖モンテカルロ鎖と不調整速度ランジュバン鎖を含む種々の非可逆マルコフ鎖モンテカルロ鎖のハミルトニアンフローを近似する。 量的 5/2-次$l^2$-accuracy upper bound は、ポテンシャルエネルギー関数の勾配とヘッセン・リプシッツの仮定の下で与えられる。 対応するマルコフ連鎖のより優れた複雑性は ' well-behaved', high-dimensional target distributions の選択に対して数値的に証明される。

We present 5/2- and 7/2-order $L^2$-accurate randomized Runge-Kutta-Nystr\"om methods to approximate the Hamiltonian flow underlying various non-reversible Markov chain Monte Carlo chains including unadjusted Hamiltonian Monte Carlo and unadjusted kinetic Langevin chains. Quantitative 5/2-order $L^2$-accuracy upper bounds are provided under gradient and Hessian Lipschitz assumptions on the potential energy function. The superior complexity of the corresponding Markov chains is numerically demonstrated for a selection of `well-behaved', high-dimensional target distributions.
翻訳日:2023-10-14 02:22:19 公開日:2023-10-11
# ベイズ最適化を用いたロボット超音波制御器の深部カーネルと画質推定

Deep Kernel and Image Quality Estimators for Optimizing Robotic Ultrasound Controller using Bayesian Optimization ( http://arxiv.org/abs/2310.07392v1 )

ライセンス: Link先を確認
Deepak Raina, SH Chandrashekhara, Richard Voyles, Juan Wachs, Subir Kumar Saha(参考訳) 超音波は、専門家のソノグラフィーが取得した画像に基づいて超音波プローブを手動で操作する必要がある、一般的に用いられる医用画像モダリティである。 自律型ロボット超音波(a-rus)は、超音波撮影者の作業負荷を減らすため、この手作業の代替手段として魅力的である。 A-RUSの鍵となる課題は、異なる患者にまたがる関心領域の超音波画像品質を最適化することである。 これは解剖学、誤差源の認識、正確なプローブの位置、向き、圧力の知識を必要とする。 ロボット化されたプローブコントローラに関連するパラメータを最適化しながら、サンプル効率が重要である。 サンプル効率最適化フレームワークであるベイズ最適化(BO)が最近,プローブの2次元運動の最適化に応用されている。 それでもプローブの高次元制御における試料効率の向上にはさらなる改良が必要である。 本稿では,ニューラルネットワークを用いてboの低次元カーネル(deep kernel (dk))を学習することにより,この問題を克服することを目的とする。 dkのニューラルネットワークは、手順中に取得したプローブおよび画像データを用いて訓練される。 深部畳み込みニューラルネットワークを用いてBOにリアルタイムフィードバックを提供する2つの画像品質推定器を提案する。 これら2つのフィードバック関数を3つの膀胱ファントムで検証した。 ロボット化プローブの6次元制御のための試料効率は50%以上向上した。 さらに,boにおけるこのパフォーマンス向上は,特定のトレーニングデータセットとは無関係であり,患者間の適応性を示している。

Ultrasound is a commonly used medical imaging modality that requires expert sonographers to manually maneuver the ultrasound probe based on the acquired image. Autonomous Robotic Ultrasound (A-RUS) is an appealing alternative to this manual procedure in order to reduce sonographers' workload. The key challenge to A-RUS is optimizing the ultrasound image quality for the region of interest across different patients. This requires knowledge of anatomy, recognition of error sources and precise probe position, orientation and pressure. Sample efficiency is important while optimizing these parameters associated with the robotized probe controller. Bayesian Optimization (BO), a sample-efficient optimization framework, has recently been applied to optimize the 2D motion of the probe. Nevertheless, further improvements are needed to improve the sample efficiency for high-dimensional control of the probe. We aim to overcome this problem by using a neural network to learn a low-dimensional kernel in BO, termed as Deep Kernel (DK). The neural network of DK is trained using probe and image data acquired during the procedure. The two image quality estimators are proposed that use a deep convolution neural network and provide real-time feedback to the BO. We validated our framework using these two feedback functions on three urinary bladder phantoms. We obtained over 50% increase in sample efficiency for 6D control of the robotized probe. Furthermore, our results indicate that this performance enhancement in BO is independent of the specific training dataset, demonstrating inter-patient adaptability.
翻訳日:2023-10-14 02:22:07 公開日:2023-10-11
# サギタリウスa*超大質量ブラックホール近傍のフレアの軌道偏光トモグラフィ

Orbital Polarimetric Tomography of a Flare Near the Sagittarius A* Supermassive Black Hole ( http://arxiv.org/abs/2310.07687v1 )

ライセンス: Link先を確認
Aviad Levis, Andrew A. Chael, Katherine L. Bouman, Maciek Wielgus, Pratul P. Srinivasan(参考訳) 銀河系の中心にある超大質量ブラックホールであるサギタリウスA$^*$と、その降着円盤の間の相互作用は、時折X線、赤外線、ラジオで見られる高エネルギーフレアを発生させる。 観測されたフレアの1つのメカニズムは、降着円盤の中に現れ、事象の地平線に近いコンパクトな明るい領域の形成である。 これらのフレアを理解することはブラックホールの降着過程の窓となる。 洗練されたシミュレーションはこれらのフレアの形成を予測するが、その構造は観測によってはまだ復元されていない。 ここでは、2017年4月11日に観測されたALMA光曲線から回収された軌道上の発光フレアの3次元3次元再構成を示す。 回復の結果, 事象地平線の約6倍の距離のコンパクトな明るい領域が得られた。 さらに,低傾斜軌道面における時計回りの回転がEHTとGRAVITYの先行研究と一致していることを示す。 この放出構造を回復するために,ニューラルネットワークによる3D表現(創発的人工知能による3D再構成)とブラックホールの重力モデルを統合することにより,高度に不規則なトモグラフィー問題を解く。 回収された3d構造は,モデル仮定に従えば対象的かつ時として敏感であるが,物理的動機づけのある選択の下では,結果が安定しており,シミュレーションデータではアプローチが成功していることがわかった。 将来的には、この手法がブラックホールやプラズマ力学のメカニズムに光を当てることのできる、より豊富な時系列データの収集を分析できるだろうと予測している。

The interaction between the supermassive black hole at the center of the Milky Way, Sagittarius A$^*$, and its accretion disk, occasionally produces high energy flares seen in X-ray, infrared and radio. One mechanism for observed flares is the formation of compact bright regions that appear within the accretion disk and close to the event horizon. Understanding these flares can provide a window into black hole accretion processes. Although sophisticated simulations predict the formation of these flares, their structure has yet to be recovered by observations. Here we show the first three-dimensional (3D) reconstruction of an emission flare in orbit recovered from ALMA light curves observed on April 11, 2017. Our recovery results show compact bright regions at a distance of roughly 6 times the event horizon. Moreover, our recovery suggests a clockwise rotation in a low-inclination orbital plane, a result consistent with prior studies by EHT and GRAVITY collaborations. To recover this emission structure we solve a highly ill-posed tomography problem by integrating a neural 3D representation (an emergent artificial intelligence approach for 3D reconstruction) with a gravitational model for black holes. Although the recovered 3D structure is subject, and sometimes sensitive, to the model assumptions, under physically motivated choices we find that our results are stable and our approach is successful on simulated data. We anticipate that in the future, this approach could be used to analyze a richer collection of time-series data that could shed light on the mechanisms governing black hole and plasma dynamics.
翻訳日:2023-10-14 02:12:36 公開日:2023-10-11
# 視聴覚セルフスーパービジョンによる深部映像インペインティング

Deep Video Inpainting Guided by Audio-Visual Self-Supervision ( http://arxiv.org/abs/2310.07663v1 )

ライセンス: Link先を確認
Kyuyeon Kim, Junsik Jung, Woo Jae Kim, Sung-Eui Yoon(参考訳) 人間は、視聴覚イベントの事前知識に基づいて、聴覚情報からシーンを簡単に想像することができる。 本稿では,深層学習モデルにおける人間の本能を模倣し,映像の画質向上を図る。 先行知識を実装するために,まず聴覚情報と視覚情報との対応を学習する音声視覚ネットワークを訓練する。 そして、映像塗布ネットワークに先行する音声視覚対応の知識を伝えるガイドとして、オーディオ視覚ネットワークが使用される。 この事前知識は、音声視覚的注意損失と音声視覚的疑似クラス整合性損失という2つの新しい損失を通じて伝達される。 これら2つの損失は、インペインティング結果の同期音声への高い対応を奨励することにより、インペインティングのパフォーマンスをさらに向上させる。 実験により,提案手法がより広い領域の映像シーンを復元できることを示すとともに,映像中の聴覚物体が部分的に盲目した場合に特に有効であることを示す。

Humans can easily imagine a scene from auditory information based on their prior knowledge of audio-visual events. In this paper, we mimic this innate human ability in deep learning models to improve the quality of video inpainting. To implement the prior knowledge, we first train the audio-visual network, which learns the correspondence between auditory and visual information. Then, the audio-visual network is employed as a guider that conveys the prior knowledge of audio-visual correspondence to the video inpainting network. This prior knowledge is transferred through our proposed two novel losses: audio-visual attention loss and audio-visual pseudo-class consistency loss. These two losses further improve the performance of the video inpainting by encouraging the inpainting result to have a high correspondence to its synchronized audio. Experimental results demonstrate that our proposed method can restore a wider domain of video scenes and is particularly effective when the sounding object in the scene is partially blinded.
翻訳日:2023-10-14 02:12:09 公開日:2023-10-11
# 第1回pathloss radio map prediction challenge

The First Pathloss Radio Map Prediction Challenge ( http://arxiv.org/abs/2310.07658v1 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Fabian Jaensch, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) 最近提案されたパスロス電波地図予測手法について,研究の促進と公正な比較を図るため,ICASSP 2023 First Pathloss Radio Map Prediction Challengeをローンチした。 本稿では,パスロス予測問題,提供されたデータセット,課題タスク,課題評価手法について概説する。 最後に,課題の結果について述べる。

To foster research and facilitate fair comparisons among recently proposed pathloss radio map prediction methods, we have launched the ICASSP 2023 First Pathloss Radio Map Prediction Challenge. In this short overview paper, we briefly describe the pathloss prediction problem, the provided datasets, the challenge task and the challenge evaluation methodology. Finally, we present the results of the challenge.
翻訳日:2023-10-14 02:11:52 公開日:2023-10-11
# 脳波および末梢生理信号からの多変量多変量感情認識

Hypercomplex Multimodal Emotion Recognition from EEG and Peripheral Physiological Signals ( http://arxiv.org/abs/2310.07648v1 )

ライセンス: Link先を確認
Eleonora Lopez, Eleonora Chiarantano, Eleonora Grassucci, and Danilo Comminiello(参考訳) 生理的信号からのマルチモーダル感情認識は、行動反応と異なり、自由に制御できないため、より信頼性の高い情報を提供するため、注目を集めている。 既存のディープラーニングベースの手法は、ニューラルネットワークの学習能力を十分に活用せず、単一のモダリティアプローチを採用することが多いが、人間の感情は本質的にマルチモーダルな方法で表現されている。 本稿では,パラメータ化ハイパーコンプレックス乗算を含む新しい融合モジュールを備えたハイパーコンプレックス・マルチモーダルネットワークを提案する。 実際、超複素領域で操作することで、演算はより効果的な融合ステップのために、学習された特徴次元間の潜在関係をモデル化できる代数的規則に従う。 我々は電子脳波(EEG)と周辺生理学的信号から価値と覚醒値の分類を行い,MHNOB-HCIがマルチモーダル・オブ・ザ・アーティカル・ネットワークを超越したデータベースを用いた。 私たちの作業のコードはhttps://github.com/ispamm/MHyEEG.comで無料で公開されています。

Multimodal emotion recognition from physiological signals is receiving an increasing amount of attention due to the impossibility to control them at will unlike behavioral reactions, thus providing more reliable information. Existing deep learning-based methods still rely on extracted handcrafted features, not taking full advantage of the learning ability of neural networks, and often adopt a single-modality approach, while human emotions are inherently expressed in a multimodal way. In this paper, we propose a hypercomplex multimodal network equipped with a novel fusion module comprising parameterized hypercomplex multiplications. Indeed, by operating in a hypercomplex domain the operations follow algebraic rules which allow to model latent relations among learned feature dimensions for a more effective fusion step. We perform classification of valence and arousal from electroencephalogram (EEG) and peripheral physiological signals, employing the publicly available database MAHNOB-HCI surpassing a multimodal state-of-the-art network. The code of our work is freely available at https://github.com/ispamm/MHyEEG.
翻訳日:2023-10-14 02:11:45 公開日:2023-10-11
# 超低温原子交換反応における量子干渉と絡み合い

Quantum interference and entanglement in ultracold atom-exchange reactions ( http://arxiv.org/abs/2310.07620v1 )

ライセンス: Link先を確認
Yi-Xiang Liu, Lingbang Zhu, Jeshurun Luke, J. J. Arfor Houwman, Mark C. Babin, Ming-Guang Hu, Kang-Kuen Ni(参考訳) コヒーレント重ね合わせと絡み合いは量子力学の目印であるが、それらは脆弱であり、環境によって容易に摂動できる。 選択された物理的システムはコヒーレンスを維持し、よく制御された相互作用を用いて絡み合いを生成することができる。 結合が割れて形成される化学反応は、非常にダイナミックな量子過程である。 基本的な問題は、コヒーレンスを化学反応で保存し、絡み合った生成物を生成することができるかどうかである。 ここでは、2KRb$\rightarrow$ K$_2$ + Rb$_2$反応を500 nKで研究し、核スピンの自由度に焦点をあてる。 我々はkrbの初期核スピンを絡み合った状態で準備し、反応後の核スピン波動関数における保存されたコヒーレンスを特徴付ける。 データは反応の終了時の完全なコヒーレンスと一致している。 このことは、エンタングルメントが反応物内で準備され、その後に別個のエンタングルド分子を生成する化学反応が生じることを示唆している。 また,反応生成物の状態分布の制御を,反応剤を意図的に脱コヒートすることで行う。

Coherent superpositions and entanglement are hallmarks of quantum mechanics, but they are fragile and can easily be perturbed by their environment. Selected isolated physical systems can maintain coherence and generate entanglement using well-controlled interactions. Chemical reactions, where bonds break and form, are highly dynamic quantum processes. A fundamental question is whether coherence can be preserved in chemical reactions and then harnessed to generate entangled products. Here we investigate this question by studying the 2KRb $\rightarrow$ K$_2$ + Rb$_2$ reaction at 500 nK, focusing on the the nuclear spin degrees of freedom. We prepare the initial nuclear spins in KRb in an entangled state and characterize the preserved coherence in nuclear spin wavefunction after the reaction. The data are consistent with full coherence at the end of the reaction. This suggests that entanglement can be prepared within the reactants, followed by a chemical reaction that produces separate, entangled molecules. We additionally demonstrate control of the reaction product state distribution by deliberately decohering the reactants.
翻訳日:2023-10-14 02:11:26 公開日:2023-10-11
# 熱力学極限における横場イジングモデルのハイブリッド量子古典アルゴリズム

Hybrid quantum-classical algorithm for the transverse-field Ising model in the thermodynamic limit ( http://arxiv.org/abs/2310.07600v1 )

ライセンス: Link先を確認
Sumeet, M. H\"ormann, K.P. Schmidt(参考訳) 量子多体系を熱力学的極限で扱うためのハイブリッド量子古典的アプローチについて述べる。 これは数値連結クラスター展開(nlce)と変分量子固有解法(vqe)を組み合わせたものである。 ここでは、VQEアルゴリズムがNLCE内のクラスタソルバとして使用される。 1次元チェーンと2次元正方格子上の強磁性横場イジングモデルに対するハイブリッド量子古典アルゴリズム(nlce$+$vqe)をテストする。 各開クラスター上の基底状態エネルギーの計算は、VQEに対するハミルトン変分アンサッツの修正を必要とする。 1つの大きな発見は、NLCE$+$VQEの従来のNLCEへの収束は、少なくとも$N/2$の層が、$N$サイトを持つ各クラスタのVQEアンサッツに使用されるときの熱力学的限界をもたらす。 提案手法は, 相関量子多体系と, 既存の量子計算デバイス上で探索されたハイブリッドアルゴリズムとの相互関係を示すものである。

We describe a hybrid quantum-classical approach to treat quantum many-body systems in the thermodynamic limit. This is done by combining numerical linked-cluster expansions (NLCE) with the variational quantum eigensolver (VQE). Here, the VQE algorithm is used as a cluster solver within the NLCE. We test our hybrid quantum-classical algorithm (NLCE$+$VQE) for the ferromagnetic transverse-field Ising model on the one-dimensional chain and the two-dimensional square lattice. The calculation of ground-state energies on each open cluster demands a modified Hamiltonian variational ansatz for the VQE. One major finding is convergence of NLCE$+$VQE to the conventional NLCE result in the thermodynamic limit when at least $N/2$ layers are used in the VQE ansatz for each cluster with $N$ sites. Our approach demonstrates the fruitful connection of techniques known from correlated quantum many-body systems with hybrid algorithms explored on existing quantum-computing devices.
翻訳日:2023-10-14 02:11:10 公開日:2023-10-11
# 拡張ハードコアボソニック・ハサノ・ネルソン模型における多体絡み合いとスペクトルクラスター

Many-body entanglement and spectral clusters in the extended hard-core bosonic Hatano-Nelson model ( http://arxiv.org/abs/2310.07599v1 )

ライセンス: Link先を確認
Chao-Ze Lu and Gaoyong Sun(参考訳) 拡張ボソニック・ハサノ・ネルソン模型のハードコア限界における多体絡み合いとスペクトルについて検討した。 まず、量子エンタングルメントエントロピーが基底状態と第1励起状態の両方の相転移を記述できることを示す。 基底状態の相転移は中心電荷 $c=1$ で二階である。 第一励起状態の位相遷移は1次$\mathcal{PT}$遷移である一方で、絡み合いエントロピーの突然の変化に伴う。 第2に、全てのエネルギースペクトルクラスターが強い隣り合う相互作用において楕円を形成することを示し、普遍的なスケーリング法則を確立する。 主軸と小軸の長さは、最も近い隣り合う相互作用に関して権力法則に従うことが示されている。 最後に、各クラスターの最も外側の楕円環上のエネルギーレベルの数の正確な表現を求める。

We study the many-body entanglement and spectra of the extended bosonic Hatano-Nelson model in the hard-core limit. We first show the quantum entanglement entropy can describe phase transitions for both the ground state and the first excited state. The phase transition of the ground state is second-order with the central charge $c=1$. While the phase transition of the first excited state is the first-order $\mathcal{PT}$ transition associated with a sudden change of the entanglement entropy. Secondly, we show that all energy spectral clusters would form ellipses in strong nearest-neighbor interactions, for which we establish a universal scaling law. The lengths of the major and minor axes are shown to obey power laws with respect to the nearest-neighbor interaction. Finally, we derive exact expressions for the numbers of energy levels on the outermost elliptic ring of each clusters.
翻訳日:2023-10-14 02:10:52 公開日:2023-10-11
# 潜在MDPの予見的側面情報

Prospective Side Information for Latent MDPs ( http://arxiv.org/abs/2310.07596v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Yonathan Efroni, Shie Mannor, Constantine Caramanis(参考訳) 多くのインタラクティブな意思決定設定では、まだ修正されていない情報が潜んでいる。 例えば、ユーザの好みなどのユーザに関する完全な情報が与えられない対話システムを考える。 このような環境では、インタラクション中にユーザのアイデンティティが変化しないため、潜在情報が各エピソードを通じて固定される。 このタイプの環境は、部分的に観測されたマルコフ決定プロセス(POMDP)の特別な例である潜在マルコフ決定プロセス(LMDP)としてモデル化することができる。 以前の研究では、lmdpクラスの潜在コンテキストの数で指数関数的に下限を設定した。 このことは、どの自然の仮定がLMDPの準最適政策を効率的に学習できるのかという疑問を提起する。 本研究は,エージェントが各エピソードの開始時の潜伏状況に関する情報を付加的・弱露呈する際の,予測側情報を用いたLMDPのクラスについて検討する。 驚くべきことに、この問題は部分的に観測された環境向けに設計された現代の設定やアルゴリズムでは捉えられていない。 すると、任意のサンプル効率アルゴリズムは、標準の$\Omega(K^{2/3})$-regretとは対照的に、少なくとも$\Omega(K^{2/3})$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。

In many interactive decision-making settings, there is latent and unobserved information that remains fixed. Consider, for example, a dialogue system, where complete information about a user, such as the user's preferences, is not given. In such an environment, the latent information remains fixed throughout each episode, since the identity of the user does not change during an interaction. This type of environment can be modeled as a Latent Markov Decision Process (LMDP), a special instance of Partially Observed Markov Decision Processes (POMDPs). Previous work established exponential lower bounds in the number of latent contexts for the LMDP class. This puts forward a question: under which natural assumptions a near-optimal policy of an LMDP can be efficiently learned? In this work, we study the class of LMDPs with {\em prospective side information}, when an agent receives additional, weakly revealing, information on the latent context at the beginning of each episode. We show that, surprisingly, this problem is not captured by contemporary settings and algorithms designed for partially observed environments. We then establish that any sample efficient algorithm must suffer at least $\Omega(K^{2/3})$-regret, as opposed to standard $\Omega(\sqrt{K})$ lower bounds, and design an algorithm with a matching upper bound.
翻訳日:2023-10-14 02:10:40 公開日:2023-10-11
# グリーンセマンティック通信のためのトランスフォーマー:エネルギーの削減、セマンティックスの改善

Transformers for Green Semantic Communication: Less Energy, More Semantics ( http://arxiv.org/abs/2310.07592v1 )

ライセンス: Link先を確認
Shubhabrata Mukherjee, Cory Beard, and Sejun Song (School of Science and Engineering, University of Missouri-Kansas City, Kansas City, MO, USA)(参考訳) セマンティックコミュニケーションは、個々のシンボルやビットに注目するのではなく、有意義で効果的な情報を伝達することを目的としている。 しかし、セマンティックコミュニケーションは、セマンティック情報損失と実用的なエネルギー消費の合同効果をベンチマークするために普遍的なメトリクスを必要とするため、大きな課題を生んでいる。 本研究では,「エネルギー最適化セマンティックロス(EOSL)」と呼ばれる新たな多目的損失関数を提案し,セマンティック情報損失とエネルギー消費のバランスをとることの課題に対処する。 CPUやGPUのエネルギー使用を含むトランスフォーマーモデルに関する総合的な実験を通じて、EOSLベースのエンコーダモデルの選択は最大90%のエネルギーを節約し、この実験では推論中の意味的類似性性能を44倍改善することを示した。 この研究は、エネルギー効率のよいニューラルネットワークの選択と、よりグリーンなセマンティック通信アーキテクチャの開発の道を開く。

Semantic communication aims to transmit meaningful and effective information rather than focusing on individual symbols or bits, resulting in benefits like reduced latency, bandwidth usage, and higher throughput compared to traditional communication. However, semantic communication poses significant challenges due to the need for universal metrics for benchmarking the joint effects of semantic information loss and practical energy consumption. This research presents a novel multi-objective loss function named "Energy-Optimized Semantic Loss" (EOSL), addressing the challenge of balancing semantic information loss and energy consumption. Through comprehensive experiments on transformer models, including CPU and GPU energy usage, it is demonstrated that EOSL-based encoder model selection can save up to 90\% of energy while achieving a 44\% improvement in semantic similarity performance during inference in this experiment. This work paves the way for energy-efficient neural network selection and the development of greener semantic communication architectures.
翻訳日:2023-10-14 02:10:17 公開日:2023-10-11
# 2022年フランス大統領選挙におけるTwitterハッシュタグのトレンド分析

Analyzing Trendy Twitter Hashtags in the 2022 French Election ( http://arxiv.org/abs/2310.07576v1 )

ライセンス: Link先を確認
Aamir Mandviwalla, Lake Yin, Boleslaw K. Szymanski(参考訳) ソーシャルメディアユーザーの将来の活動を予測するために訓練された回帰は、正確な予測のために豊富な機能を必要とする。 このような特徴を生成するために多くの先進的なモデルが存在するが、膨大なデータセット上で実行する場合、計算の時間的複雑さはしばしば禁止される。 いくつかの研究は、単純なセマンティックネットワーク機能は複雑な計算を必要とせずに回帰に使えるほどリッチであることを示した。 機械学習タスクのユーザレベル機能として意味ネットワークを利用する手法を提案する。 2022年のフランス大統領選挙に関する370万ツイートのコーパスから、1037のtwitterハッシュタグのセマンティックネットワークを用いて実験を行った。 ハッシュタグはノードであり、重み付けされたエッジは、両方のハッシュタグと対話するTwitterユーザ数を反映したハッシュタグを接続する。 グラフは最大スパンニングツリーに変換され、最も人気のあるハッシュタグをルートノードとして、ハッシュタグ間の階層を構成する。 次に、このツリーに基づいて各ユーザにベクター機能を提供する。 セマンティック機能の有用性を検証するために,怒り,楽しみ,嫌悪感などの6つの感情で各ユーザの反応率を予測する回帰実験を行った。 セマンティクス機能は回帰でうまく機能し、ほとんどの感情は$r^2$が0.5を超える。 これらの結果から,ビッグデータ上でのソーシャルメディア応答のさらなる予測実験において,当社のセマンティック機能は有用であると考えられる。

Regressions trained to predict the future activity of social media users need rich features for accurate predictions. Many advanced models exist to generate such features; however, the time complexities of their computations are often prohibitive when they run on enormous data-sets. Some studies have shown that simple semantic network features can be rich enough to use for regressions without requiring complex computations. We propose a method for using semantic networks as user-level features for machine learning tasks. We conducted an experiment using a semantic network of 1037 Twitter hashtags from a corpus of 3.7 million tweets related to the 2022 French presidential election. A bipartite graph is formed where hashtags are nodes and weighted edges connect the hashtags reflecting the number of Twitter users that interacted with both hashtags. The graph is then transformed into a maximum-spanning tree with the most popular hashtag as its root node to construct a hierarchy amongst the hashtags. We then provide a vector feature for each user based on this tree. To validate the usefulness of our semantic feature we performed a regression experiment to predict the response rate of each user with six emotions like anger, enjoyment, or disgust. Our semantic feature performs well with the regression with most emotions having $R^2$ above 0.5. These results suggest that our semantic feature could be considered for use in further experiments predicting social media response on big data-sets.
翻訳日:2023-10-14 02:09:57 公開日:2023-10-11
# VDT:マスクモデリングによる汎用ビデオ拡散変換器

VDT: General-purpose Video Diffusion Transformers via Mask Modeling ( http://arxiv.org/abs/2305.13311v2 )

ライセンス: Link先を確認
Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo, Mingyu Ding(参考訳) ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。 トランスに継承された豊富な空間的時間的表現を活用するために、モジュール化された時間的および空間的アテンションモジュールを備えたトランスフォーマーブロックを特徴とする。 また,このモデルとシームレスに統合し,多様な映像生成シナリオに対応する,空間的・時空間的マスクモデリング機構を提案する。 VDTにはいくつかの魅力的なメリットがある。 1)時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトの物理と力学をシミュレートする。 2) トークン空間における単純な結合といった柔軟な条件情報を容易にし、トークンの長さとモダリティを効果的に統一する。 3)提案する空間・時空間マスクモデリング機構と組み合わせることで,無条件生成,映像予測,補間,アニメーション,コンプリートなど,さまざまなタスクを活用する汎用ビデオディフューザとなる。 自律運転、自然天候、ヒューマンアクション、物理学に基づくシミュレーションなど、様々なシナリオにまたがるこれらのタスクに関する広範囲な実験は、vdtの有効性を示している。 さらに,モデルがマスクモデリング機構を用いて条件情報を扱う方法に関する総合的研究を行い,今後の研究や分野の進展に寄与すると考えている。 プロジェクトページ: https:VDT-2023.github.io

This work introduces Video Diffusion Transformer (VDT), which pioneers the use of transformers in diffusion-based video generation. It features transformer blocks with modularized temporal and spatial attention modules to leverage the rich spatial-temporal representation inherited in transformers. We also propose a unified spatial-temporal mask modeling mechanism, seamlessly integrated with the model, to cater to diverse video generation scenarios. VDT offers several appealing benefits. 1) It excels at capturing temporal dependencies to produce temporally consistent video frames and even simulate the physics and dynamics of 3D objects over time. 2) It facilitates flexible conditioning information, \eg, simple concatenation in the token space, effectively unifying different token lengths and modalities. 3) Pairing with our proposed spatial-temporal mask modeling mechanism, it becomes a general-purpose video diffuser for harnessing a range of tasks, including unconditional generation, video prediction, interpolation, animation, and completion, etc. Extensive experiments on these tasks spanning various scenarios, including autonomous driving, natural weather, human action, and physics-based simulation, demonstrate the effectiveness of VDT. Additionally, we present comprehensive studies on how \model handles conditioning information with the mask modeling mechanism, which we believe will benefit future research and advance the field. Project page: https:VDT-2023.github.io
翻訳日:2023-10-13 22:54:07 公開日:2023-10-11
# LEO:人間のビデオ合成のための生成遅延画像アニメーター

LEO: Generative Latent Image Animator for Human Video Synthesis ( http://arxiv.org/abs/2305.03989v2 )

ライセンス: Link先を確認
Yaohui Wang, Xin Ma, Xinyuan Chen, Antitza Dantcheva, Bo Dai, Yu Qiao(参考訳) 時空間コヒーレンシーは、高品質なビデオ、特に豊かなグローバルな変形と局所的な変形を含む人間のビデオの合成において大きな課題である。 この課題を解決するために、従来のアプローチは、外観と動きを表現することを目的とした生成プロセスにおける異なる特徴に頼ってきた。 しかし、このような絡み合いを保証する厳密なメカニズムが欠如しているため、外見からの移動の分離は困難であり、空間的歪みや時空間の揺らぎが時空間のコヒーレンシーを損なう結果となった。 そこで本研究では,人間の映像合成のための新しいフレームワークであるLEOを提案し,時空間コヒーレンシに着目した。 私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。 我々はこのアイデアを,流れに基づく画像アニメーターと潜在運動拡散モデル(lmdm)を用いて実装する。 前者はフローマップの空間と運動符号の空間を橋渡しし、ワープ・アンド・インパントな方法でビデオフレームを合成する。 LMDMは、トレーニングデータの前の動きを、モーションコードのシーケンスを合成することによって捉える。 大規模な定量的および定性的分析により、LEOは、TaichiHD、FaceForensics、CelebV-HQといったデータセット上の以前の手法よりも、人間のビデオのコヒーレントな合成を著しく改善することが示された。 加えて、LEOにおける外見と動きの効果的な切り離しにより、無限長の人間のビデオ合成とコンテンツ保存ビデオ編集という2つの追加タスクが可能になる。

Spatio-temporal coherency is a major challenge in synthesizing high quality videos, particularly in synthesizing human videos that contain rich global and local deformations. To resolve this challenge, previous approaches have resorted to different features in the generation process aimed at representing appearance and motion. However, in the absence of strict mechanisms to guarantee such disentanglement, a separation of motion from appearance has remained challenging, resulting in spatial distortions and temporal jittering that break the spatio-temporal coherency. Motivated by this, we here propose LEO, a novel framework for human video synthesis, placing emphasis on spatio-temporal coherency. Our key idea is to represent motion as a sequence of flow maps in the generation process, which inherently isolate motion from appearance. We implement this idea via a flow-based image animator and a Latent Motion Diffusion Model (LMDM). The former bridges a space of motion codes with the space of flow maps, and synthesizes video frames in a warp-and-inpaint manner. LMDM learns to capture motion prior in the training data by synthesizing sequences of motion codes. Extensive quantitative and qualitative analysis suggests that LEO significantly improves coherent synthesis of human videos over previous methods on the datasets TaichiHD, FaceForensics and CelebV-HQ. In addition, the effective disentanglement of appearance and motion in LEO allows for two additional tasks, namely infinite-length human video synthesis, as well as content-preserving video editing.
翻訳日:2023-10-13 22:53:25 公開日:2023-10-11
# 点雲上の自己教師あり表現学習のためのpoint2vec

Point2Vec for Self-Supervised Representation Learning on Point Clouds ( http://arxiv.org/abs/2303.16570v2 )

ライセンス: Link先を確認
Karim Abou Zeid and Jonas Schult and Alexander Hermans and Bastian Leibe(参考訳) 近年,自己教師型学習フレームワークであるData2vecは,マスマスキング学習者のアプローチを用いて,様々なモダリティのパフォーマンス向上を図っている。 しかし、そのようなフレームワークが3Dポイントクラウドのユニークな課題に一般化するかどうかはまだ明らかではない。 この質問に答えるために、data2vecをpoint cloudドメインに拡張し、いくつかのダウンストリームタスクの結果を奨励する結果を報告します。 詳細な分析により,位置情報の漏洩により,マスキングが重かった場合でも学生の全体像が明らかとなり,データ2vecを阻害し,ポイントクラウドの強い表現を学習できることが判明した。 我々は、この3D特有の欠点に、ポイントクラウド上でData2vecのような事前学習の可能性を解放するPoint2vecを提案する。 実験の結果, ModelNet40 や ScanObjectNN では, 形状分類や少数ショット学習において他の自己指導手法よりも優れており, 形状分割における競合的な結果が得られている。 これらの結果から,学習された表現は強く伝達可能であることが示唆され,ポイントクラウド表現の自己教師型学習の有望な方向として2vecが強調された。

Recently, the self-supervised learning framework data2vec has shown inspiring performance for various modalities using a masked student-teacher approach. However, it remains open whether such a framework generalizes to the unique challenges of 3D point clouds. To answer this question, we extend data2vec to the point cloud domain and report encouraging results on several downstream tasks. In an in-depth analysis, we discover that the leakage of positional information reveals the overall object shape to the student even under heavy masking and thus hampers data2vec to learn strong representations for point clouds. We address this 3D-specific shortcoming by proposing point2vec, which unleashes the full potential of data2vec-like pre-training on point clouds. Our experiments show that point2vec outperforms other self-supervised methods on shape classification and few-shot learning on ModelNet40 and ScanObjectNN, while achieving competitive results on part segmentation on ShapeNetParts. These results suggest that the learned representations are strong and transferable, highlighting point2vec as a promising direction for self-supervised learning of point cloud representations.
翻訳日:2023-10-13 22:52:57 公開日:2023-10-11
# FateZero:ゼロショットテキストベースのビデオ編集のための注意喚起

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing ( http://arxiv.org/abs/2303.09535v3 )

ライセンス: Link先を確認
Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, Qifeng Chen(参考訳) 拡散に基づく生成モデルは、テキストベースの画像生成において顕著な成功を収めた。 しかし、生成の進行に膨大なランダム性があるため、実際のビジュアルコンテンツ編集、特にビデオにそのようなモデルを適用することは依然として困難である。 本稿では,実世界ビデオにおけるゼロショットテキストベースの編集手法であるfatezeroを提案する。 ビデオの編集を一貫して行うために,事前学習したモデルに基づく手法を提案する。 まず,直感的なDDIMインバージョンとは対照的に,本手法はインバージョン中の中間注目マップを捕捉し,構造情報と動作情報の両方を効果的に保持する。 これらのマップは、同期中に生成するのではなく、編集プロセスで直接融合される。 さらにソースビデオのセマンティックリークを最小限に抑えるため、ソースプロンプトからのクロスアテンション特徴から得られるブレンディングマスクと自己アテンションを融合する。 さらに,フレームの整合性を確保するために空間的時間的注意を導入することで,UNetの自己注意機構を改良した。 しかし,本手法は,訓練されたテキスト対画像モデルから,ゼロショットのテキスト駆動ビデオスタイルとローカル属性編集の能力を示す最初の手法である。 また,テキスト対ビデオモデルに基づくゼロショット形状認識編集能力も向上した。 広範な実験により,過去の作品よりも優れた時間的一貫性と編集能力が実証された。

The diffusion-based generative models have achieved remarkable success in text-based image generation. However, since it contains enormous randomness in generation progress, it is still challenging to apply such models for real-world visual content editing, especially in videos. In this paper, we propose FateZero, a zero-shot text-based editing method on real-world videos without per-prompt training or use-specific mask. To edit videos consistently, we propose several techniques based on the pre-trained models. Firstly, in contrast to the straightforward DDIM inversion technique, our approach captures intermediate attention maps during inversion, which effectively retain both structural and motion information. These maps are directly fused in the editing process rather than generated during denoising. To further minimize semantic leakage of the source video, we then fuse self-attentions with a blending mask obtained by cross-attention features from the source prompt. Furthermore, we have implemented a reform of the self-attention mechanism in denoising UNet by introducing spatial-temporal attention to ensure frame consistency. Yet succinct, our method is the first one to show the ability of zero-shot text-driven video style and local attribute editing from the trained text-to-image model. We also have a better zero-shot shape-aware editing ability based on the text-to-video model. Extensive experiments demonstrate our superior temporal consistency and editing capability than previous works.
翻訳日:2023-10-13 22:52:33 公開日:2023-10-11
# 動的トークンハルティングによるトランスフォーマーを用いた3次元物体検出

Efficient Transformer-based 3D Object Detection with Dynamic Token Halting ( http://arxiv.org/abs/2303.05078v2 )

ライセンス: Link先を確認
Mao Ye, Gregory P. Meyer, Yuning Chai, Qiang Liu(参考訳) 効率と正確さのバランスは、ディープラーニングモデルのデプロイにおいて長年の課題である。 このトレードオフは、自動運転車のようなリアルタイム安全クリティカルシステムにとってさらに重要である。 本稿では,様々な層でトークンを動的に停止させることにより,トランスベース3次元物体検出を高速化する効果的な手法を提案する。 トークンの停止は微分不可能な操作であるが,本手法は等価な微分可能フォワードパスを活用することで,エンドツーエンドの学習を可能にする。 さらに,本フレームワークでは,停止トークンを再利用して,簡単なトークンリサイクル機構を通じてモデルの予測を通知する。 提案手法は,従来の手法と比較して効率と精度のParetoフロンティアを大幅に改善する。 トークンの停止とモデルキャパシティの増大により、Waymo Open Datasetでのモデルのレイテンシを増大させることなく、ベースラインモデルのパフォーマンスを改善することができます。

Balancing efficiency and accuracy is a long-standing problem for deploying deep learning models. The trade-off is even more important for real-time safety-critical systems like autonomous vehicles. In this paper, we propose an effective approach for accelerating transformer-based 3D object detectors by dynamically halting tokens at different layers depending on their contribution to the detection task. Although halting a token is a non-differentiable operation, our method allows for differentiable end-to-end learning by leveraging an equivalent differentiable forward-pass. Furthermore, our framework allows halted tokens to be reused to inform the model's predictions through a straightforward token recycling mechanism. Our method significantly improves the Pareto frontier of efficiency versus accuracy when compared with the existing approaches. By halting tokens and increasing model capacity, we are able to improve the baseline model's performance without increasing the model's latency on the Waymo Open Dataset.
翻訳日:2023-10-13 22:52:09 公開日:2023-10-11
# DiM: 生成モデルにデータセットを蒸留する

DiM: Distilling Dataset into Generative Model ( http://arxiv.org/abs/2303.04707v2 )

ライセンス: Link先を確認
Kai Wang, Jianyang Gu, Daquan Zhou, Zheng Zhu, Wei Jiang and Yang You(参考訳) データセット蒸留は、大規模データセットから小規模で有益なデータセットを合成することで、ネットワークトレーニングコストを削減します。 最近のデータセット蒸留アルゴリズムの成功にもかかわらず、3つの欠点は広い適用範囲を制限している。 私)。 合成画像は大きな建築では性能が悪く i)。 蒸留比が変わると再最適化する必要があります iii)。 限られた多様性は 蒸留比が大きい場合に 性能を制限します 本稿では,大列車集合 \textbf{i}nto 生成型 \textbf{m}odels の情報を dim と呼ぶ新しい蒸留スキームを提案する。 具体的には、ターゲットデータセットの情報を保存するために生成モデルを使用することを学ぶ。 蒸留段階では,実画像と生成画像のモデルプールによって予測されるロジットの差を最小限に抑える。 展開段階では、生成モデルはハエのランダムノイズから様々なトレーニングサンプルを合成する。 単純で効果的な設計のため、訓練されたDiMは、追加のコストなしで異なる蒸留比と大きな建築に直接適用することができる。 4つのデータセットにまたがって提案したDiMを検証する。 私たちの知る限りでは、resnet-18で75.1\%、cifar-10のクラスで10イメージでconvnet-3で72.6\%といった単純なアーキテクチャよりも、複雑なアーキテクチャで高い精度を達成するのは初めてです。 さらに、SVHNデータセット上のクラス毎のイメージが1と10である場合、DiMは10\%$\sim$ 22\%で、従来のメソッドよりも優れています。

Dataset distillation reduces the network training cost by synthesizing small and informative datasets from large-scale ones. Despite the success of the recent dataset distillation algorithms, three drawbacks still limit their wider application: i). the synthetic images perform poorly on large architectures; ii). they need to be re-optimized when the distillation ratio changes; iii). the limited diversity restricts the performance when the distillation ratio is large. In this paper, we propose a novel distillation scheme to \textbf{D}istill information of large train sets \textbf{i}nto generative \textbf{M}odels, named DiM. Specifically, DiM learns to use a generative model to store the information of the target dataset. During the distillation phase, we minimize the differences in logits predicted by a models pool between real and generated images. At the deployment stage, the generative model synthesizes various training samples from random noises on the fly. Due to the simple yet effective designs, the trained DiM can be directly applied to different distillation ratios and large architectures without extra cost. We validate the proposed DiM across 4 datasets and achieve state-of-the-art results on all of them. To the best of our knowledge, we are the first to achieve higher accuracy on complex architectures than simple ones, such as 75.1\% with ResNet-18 and 72.6\% with ConvNet-3 on ten images per class of CIFAR-10. Besides, DiM outperforms previous methods with 10\% $\sim$ 22\% when images per class are 1 and 10 on the SVHN dataset.
翻訳日:2023-10-13 22:51:55 公開日:2023-10-11
# GRAM-HD: 生成放射マニフォールドを用いた高分解能3次元画像生成

GRAM-HD: 3D-Consistent Image Generation at High Resolution with Generative Radiance Manifolds ( http://arxiv.org/abs/2206.07255v2 )

ライセンス: Link先を確認
Jianfeng Xiang, Jiaolong Yang, Yu Deng, Xin Tong(参考訳) 近年の研究では、構造化されていない単一画像コレクションで訓練された3次元GANが、新規なインスタンスのマルチビュー画像を生成することが示されている。 これを実現するための鍵となる基盤は、3次元放射フィールドジェネレータとボリュームレンダリングプロセスである。 しかし、既存の手法では、ニューラルボリュームレンダリングの計算コストが高いため、高解像度の画像(例えば256X256)を生成できないか、異なるビューで3D一貫性を損なうイメージ空間のアップサンプリングに2D CNNに依存するかのいずれかである。 本稿では,ボリュームレンダリングのように厳密な3D一貫性を維持しつつ,高解像度画像(最大1024×1024)を生成できる新しい3D対応GANを提案する。 私たちのモチベーションは、3d空間で直接超解像を達成し、3dの一貫性を保つことです。 我々は、最近の生成放射率多様体(GRAM)アプローチで定義された2次元放射率多様体の集合に2次元畳み込みを適用し、高分解能なGAN訓練に専用損失関数を適用することで、従来より厳しい計算コストを回避する。 FFHQとAFHQv2データセットを用いた実験により,既存の手法よりも優れた高品質な3D一貫性のある結果が得られることが示された。 従来の2D画像生成と3D一貫性のあるフリービュー生成のギャップを埋めるための大きな一歩だ。

Recent works have shown that 3D-aware GANs trained on unstructured single image collections can generate multiview images of novel instances. The key underpinnings to achieve this are a 3D radiance field generator and a volume rendering process. However, existing methods either cannot generate high-resolution images (e.g., up to 256X256) due to the high computation cost of neural volume rendering, or rely on 2D CNNs for image-space upsampling which jeopardizes the 3D consistency across different views. This paper proposes a novel 3D-aware GAN that can generate high resolution images (up to 1024X1024) while keeping strict 3D consistency as in volume rendering. Our motivation is to achieve super-resolution directly in the 3D space to preserve 3D consistency. We avoid the otherwise prohibitively-expensive computation cost by applying 2D convolutions on a set of 2D radiance manifolds defined in the recent generative radiance manifold (GRAM) approach, and apply dedicated loss functions for effective GAN training at high resolution. Experiments on FFHQ and AFHQv2 datasets show that our method can produce high-quality 3D-consistent results that significantly outperform existing methods. It makes a significant step towards closing the gap between traditional 2D image generation and 3D-consistent free-view generation.
翻訳日:2023-10-13 22:51:30 公開日:2023-10-11
# 記述対象検出:フレキシブル表現によるオブジェクト検出の解放

Described Object Detection: Liberating Object Detection with Flexible Expressions ( http://arxiv.org/abs/2307.12813v2 )

ライセンス: Link先を確認
Chi Xie, Zhao Zhang, Yixuan Wu, Feng Zhu, Rui Zhao, Shuang Liang(参考訳) 言語情報に基づくオブジェクトの検出は、OVD(Open-Vocabulary Object Detection)やREC(Referring Expression Comprehension)を含む一般的なタスクである。 本稿では,カテゴリ名をOVDのフレキシブル言語表現に拡張し,既存のオブジェクトのみを根拠とするRECの制限を克服することで,より実践的なDOD(Description Object Detection)へと前進させる。 記述検出データセット(d^3$)を構築することで,dodの研究基盤を確立する。 このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。 従来のSOTA法を$D^3$で評価することにより、現在のREC、OVD、二機能的手法を失敗するトラブルメーカーを見つけ出す。 RECメソッドは信頼性スコア、負のインスタンスの拒絶、マルチターゲットシナリオに苦しむ一方、OVDメソッドは長く複雑な記述を伴う制約に直面している。 最近の2機能的手法は,RECタスクとOVDタスクの分離したトレーニング手順と推論戦略のため,DODではうまく機能しない。 上記の知見に基づいて、トレーニングデータを再構築し、バイナリ分類サブタスクを導入し、既存の手法よりも優れたREC手法を大幅に改善するベースラインを提案する。 データとコードはhttps://github.com/shikras/d-cubeで入手できる。

Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.
翻訳日:2023-10-13 22:43:19 公開日:2023-10-11
# momentdiff: ランダムからリアルへの生成的ビデオモーメント検索

MomentDiff: Generative Video Moment Retrieval from Random to Real ( http://arxiv.org/abs/2307.02869v2 )

ライセンス: Link先を確認
Pandeng Li, Chen-Wei Xie, Hongtao Xie, Liming Zhao, Lei Zhang, Yun Zheng, Deli Zhao, Yongdong Zhang(参考訳) ビデオモーメント検索は、与えられた言語記述に対応する未トリミングビデオ内の特定の時間的セグメントを識別するための効率的で一般化されたソリューションを追求する。 この目的を達成するために、momentdiffと呼ばれる生成拡散ベースのフレームワークを提供し、ランダムブラウジングから漸進的ローカライゼーションまでの典型的な人間の検索プロセスをシミュレートする。 具体的には、まず実空間をランダムノイズに拡散させ、テキストとビデオの類似性のガイダンスを用いてランダムノイズを元の空間に分解する。 これにより、モデルは任意のランダムな場所から実際のモーメントへのマッピングを学習でき、ランダムな初期化からセグメントを見つけることができる。 トレーニングが完了すると、MomentDiffはランダムな時間セグメントを初期推定としてサンプリングし、それらを反復的に洗練して正確な時間境界を生成する。 識別作業(例えば学習可能な提案やクエリに基づく)とは異なり、ランダムな初期化スパンを持つmomentdiffはデータセットからの時間的位置バイアスに抵抗する可能性がある。 時間的位置バイアスの影響を評価するために,Charades-STA-Len と Charades-STA-Mom という2つの反バイアスデータセットを提案する。 実験の結果,提案手法は3つのベンチマークで常に最先端手法を上回っており,提案するアンチバイアスデータセットの一般化とロバスト性が向上していることがわかった。 コード、モデル、アンチバイアス評価データセットはhttps://github.com/IMCCretrieval/MomentDiffで入手できる。

Video moment retrieval pursues an efficient and generalized solution to identify the specific temporal segments within an untrimmed video that correspond to a given language description. To achieve this goal, we provide a generative diffusion-based framework called MomentDiff, which simulates a typical human retrieval process from random browsing to gradual localization. Specifically, we first diffuse the real span to random noise, and learn to denoise the random noise to the original span with the guidance of similarity between text and video. This allows the model to learn a mapping from arbitrary random locations to real moments, enabling the ability to locate segments from random initialization. Once trained, MomentDiff could sample random temporal segments as initial guesses and iteratively refine them to generate an accurate temporal boundary. Different from discriminative works (e.g., based on learnable proposals or queries), MomentDiff with random initialized spans could resist the temporal location biases from datasets. To evaluate the influence of the temporal location biases, we propose two anti-bias datasets with location distribution shifts, named Charades-STA-Len and Charades-STA-Mom. The experimental results demonstrate that our efficient framework consistently outperforms state-of-the-art methods on three public benchmarks, and exhibits better generalization and robustness on the proposed anti-bias datasets. The code, model, and anti-bias evaluation datasets are available at https://github.com/IMCCretrieval/MomentDiff.
翻訳日:2023-10-13 22:42:04 公開日:2023-10-11
# lranet:低ランク近似ネットワークを用いた高精度かつ効率的なシーンテキスト検出

LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation Network ( http://arxiv.org/abs/2306.15142v4 )

ライセンス: Link先を確認
Yuchen Su, Zhineng Chen, Zhiwen Shao, Yuning Du, Zhilong Ji, Jinfeng Bai, Yong Zhou, Yu-Gang Jiang(参考訳) 近年,テキストローカライズのためのパラメータ化テキスト形状を予測する回帰法が,シーンテキスト検出において人気を博している。 しかし、既存のパラメータ化テキスト形状法は、テキスト固有の形状情報の利用を無視するため、任意の形状のテキストのモデリングに制限がある。 さらに、パイプライン全体の時間消費がほとんど見過ごされ、全体的な予測速度が最適を下回っている。 この問題に対処するために,まず,低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。 データ無関係なパラメータ化を用いる他の形状表現法とは異なり、本手法では特異値分解を用いてラベル付きテキスト輪郭から学習した数個の固有ベクトルを用いてテキスト形状を再構成する。 異なるテキスト輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。 次に,速度加速のための2重割当て方式を提案する。 推論速度を加速するためにスパース割り当てブランチを採用し、一方、密度の高い割り当てブランチを介してトレーニングするための十分な教師付き信号を提供する。 これらの設計に基づいて、LRANetと呼ばれる正確で効率的な任意の形状のテキスト検出器を実装した。 大規模な実験はいくつかの挑戦的なベンチマークで行われ、最先端の手法と比較してLRANetの精度と効率が優れていることを示した。 コードはまもなくリリースされる。

Recently, regression-based methods, which predict parameterized text shapes for text localization, have gained popularity in scene text detection. However, the existing parameterized text shape methods still have limitations in modeling arbitrary-shaped texts due to ignoring the utilization of text-specific shape information. Moreover, the time consumption of the entire pipeline has been largely overlooked, leading to a suboptimal overall inference speed. To address these issues, we first propose a novel parameterized text shape method based on low-rank approximation. Unlike other shape representation methods that employ data-irrelevant parameterization, our approach utilizes singular value decomposition and reconstructs the text shape using a few eigenvectors learned from labeled text contours. By exploring the shape correlation among different text contours, our method achieves consistency, compactness, simplicity, and robustness in shape representation. Next, we propose a dual assignment scheme for speed acceleration. It adopts a sparse assignment branch to accelerate the inference speed, and meanwhile, provides ample supervised signals for training through a dense assignment branch. Building upon these designs, we implement an accurate and efficient arbitrary-shaped text detector named LRANet. Extensive experiments are conducted on several challenging benchmarks, demonstrating the superior accuracy and efficiency of LRANet compared to state-of-the-art methods. Code will be released soon.
翻訳日:2023-10-13 22:41:20 公開日:2023-10-11
# デカップリング拡散モデル:画像からゼロ、ノイズまで

Decoupled Diffusion Models: Image to Zero and Zero to Noise ( http://arxiv.org/abs/2306.13720v5 )

ライセンス: Link先を確認
Yuhang Huang and Liang Zheng and Zheng Qin and Xinwang Liu and Kai Xu(参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。 本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。 特に, ito拡散過程に基づくddm (decoupled diffusion models) と呼ばれる新しい拡散パラダイムを提案し, 雑音経路を標準ワイナー過程で制御しながら, 画像分布を明示的な遷移確率で近似する。 拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。 我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。 さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。 実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。 また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。

Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
翻訳日:2023-10-13 22:40:56 公開日:2023-10-11
# APRIL-GAN: CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD

APRIL-GAN: A Zero-/Few-Shot Anomaly Classification and Segmentation Method for CVPR 2023 VAND Workshop Challenge Tracks 1&2: 1st Place on Zero-shot AD and 4th Place on Few-shot AD ( http://arxiv.org/abs/2305.17382v3 )

ライセンス: Link先を確認
Xuhai Chen, Yue Han, Jiangning Zhang(参考訳) 本報告では,視覚異常と新奇性検出(vand)2023チャレンジのゼロ/フェーショットトラックの解法を簡潔に紹介する。 産業用視覚検査では、通常の参照画像がなければ、あるいはわずか数個の参照画像で、多数のカテゴリに迅速に適応できる単一のモデルを構築することが、有望な研究方向である。 これは主に製品タイプが多種多様であるためである。 ゼロショットトラックでは、余分な線形層を追加してCLIPモデルに基づく解を提案する。 これらのレイヤーは画像特徴をジョイント埋め込み空間にマッピングするために使用され、テキスト特徴と比較して異常マップを生成することができる。 さらに、参照画像が利用可能である場合には、複数のメモリバンクを使用して、それらの特徴を格納し、テストフェーズにおけるテスト画像の特徴と比較する。 この課題において,本手法はゼロショットトラックにおいて,特にセグメンテーションに優れ,F1スコアは第2ランクの参加者よりも0.0489向上した。 さらに,全参加チームの中ではF1のスコアが0.8687で,第4位を総合的に確保した。

In this technical report, we briefly introduce our solution for the Zero/Few-shot Track of the Visual Anomaly and Novelty Detection (VAND) 2023 Challenge. For industrial visual inspection, building a single model that can be rapidly adapted to numerous categories without or with only a few normal reference images is a promising research direction. This is primarily because of the vast variety of the product types. For the zero-shot track, we propose a solution based on the CLIP model by adding extra linear layers. These layers are used to map the image features to the joint embedding space, so that they can compare with the text features to generate the anomaly maps. Besides, when the reference images are available, we utilize multiple memory banks to store their features and compare them with the features of the test images during the testing phase. In this challenge, our method achieved first place in the zero-shot track, especially excelling in segmentation with an impressive F1 score improvement of 0.0489 over the second-ranked participant. Furthermore, in the few-shot track, we secured the fourth position overall, with our classification F1 score of 0.8687 ranking first among all participating teams.
翻訳日:2023-10-13 22:40:13 公開日:2023-10-11
# 高次元および普遍的一貫したkサンプル試験

High-dimensional and universally consistent k-sample tests ( http://arxiv.org/abs/1910.08883v4 )

ライセンス: Link先を確認
Sambit Panda, Cencheng Shen, Ronan Perry, Jelle Zorn, Antoine Lutz, Carey E. Priebe, Joshua T. Vogelstein(参考訳) kサンプルテスト問題は、同じ分布からそれぞれ$k$のデータポイントのグループが引き出されるかどうかを決定することである。 生体医学におけるk-サンプルテストの標準的な方法は多変量分散分析(manova)である。 さらに、独立性テストとk-サンプルテストは密接な関係にあり、距離相関(dcorr)やヒルベルト・シュミット独立性基準(hsic)のような普遍的に一貫した高次元独立性テストは、理論的および経験的性質を享受している。 本稿では,独立テストが一貫したkサンプルテストを実現し,エネルギーや最大平均離散性(MMD)などのkサンプル統計値がDcorrと同値であることを証明する。 非パラメトリック独立試験の実験的評価により、ガウス分布シナリオにおいても、一般的なMANOVA試験よりも一般的に優れた性能を示した。 評価にはいくつかの人気のある独立統計が含まれ、総合的なシミュレーションを扱った。 さらに、テストアプローチはマルチウェイおよびマルチレベルテストの実行に拡張され、シミュレーションされた研究や、属性セットの実際のfMRI脳スキャンで実証された。

The k-sample testing problem involves determining whether $k$ groups of data points are each drawn from the same distribution. The standard method for k-sample testing in biomedicine is Multivariate analysis of variance (MANOVA), despite that it depends on strong, and often unsuitable, parametric assumptions. Moreover, independence testing and k-sample testing are closely related, and several universally consistent high-dimensional independence tests such as distance correlation (Dcorr) and Hilbert-Schmidt-Independence-Criterion (Hsic) enjoy solid theoretical and empirical properties. In this paper, we prove that independence tests achieve universally consistent k-sample testing and that k-sample statistics such as Energy and Maximum Mean Discrepancy (MMD) are precisely equivalent to Dcorr. An empirical evaluation of nonparametric independence tests showed that they generally perform better than the popular MANOVA test, even in Gaussian distributed scenarios. The evaluation included several popular independence statistics and covered a comprehensive set of simulations. Additionally, the testing approach was extended to perform multiway and multilevel tests, which were demonstrated in a simulated study as well as a real-world fMRI brain scans with a set of attributes.
翻訳日:2023-10-13 17:48:44 公開日:2023-10-11
# 潜在目標モデルを用いたオープンワールドナビゲーションの迅速な探索

Rapid Exploration for Open-World Navigation with Latent Goal Models ( http://arxiv.org/abs/2104.05859v5 )

ライセンス: Link先を確認
Dhruv Shah, Benjamin Eysenbach, Gregory Kahn, Nicholas Rhinehart, Sergey Levine(参考訳) 多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。 本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習潜在変数モデルである。 情報ボトルネックを使って 学習した政策を定式化し (i)目標のコンパクトな視覚的表現 (ii)一般化能力の向上、及び (iii)探査の可能な目標をサンプリングするメカニズム。 事前経験の大規模なオフラインデータセットでトレーニングされたこのモデルは、タスクに依存しない邪魔者に堅牢な視覚目標の表現を取得する。 オープンワールド探索のシナリオにおいて,移動型地上ロボットの手法を実演する。 最大80m離れた目標の画像から、これまでの障害物や気象条件の中でさえも、目標を20分以内で探索・発見するために、その表現を活用している。 実験のビデオや、https://sites.google.com/view/recon-robot.comで使われている実世界のデータセットに関する情報は、プロジェクトのwebサイトをご覧ください。

We describe a robotic learning system for autonomous exploration and navigation in diverse, open-world environments. At the core of our method is a learned latent variable model of distances and actions, along with a non-parametric topological memory of images. We use an information bottleneck to regularize the learned policy, giving us (i) a compact visual representation of goals, (ii) improved generalization capabilities, and (iii) a mechanism for sampling feasible goals for exploration. Trained on a large offline dataset of prior experience, the model acquires a representation of visual goals that is robust to task-irrelevant distractors. We demonstrate our method on a mobile ground robot in open-world exploration scenarios. Given an image of a goal that is up to 80 meters away, our method leverages its representation to explore and discover the goal in under 20 minutes, even amidst previously-unseen obstacles and weather conditions. Please check out the project website for videos of our experiments and information about the real-world dataset used at https://sites.google.com/view/recon-robot.
翻訳日:2023-10-13 17:32:29 公開日:2023-10-11
# ipd:クラスタ代表による大規模データのためのインクリメンタルプロトタイプベースのdbscan

IPD:An Incremental Prototype based DBSCAN for large-scale data with cluster representatives ( http://arxiv.org/abs/2202.07870v2 )

ライセンス: Link先を確認
Jayasree Saha, Jayanta Mukherjee(参考訳) DBSCANは、クラスタの任意の形状を識別する基本的な密度ベースのクラスタリング技術である。 しかし、ビッグデータを扱う間は不可能になる。 一方,非処理データポイントを最寄りのセントロイドにラベル付けできるため,データセット内のパターンを検出するためには,セントロイドベースのクラスタリングが重要である。 しかし、非球面クラスターは検出できない。 大規模なデータの場合、すべてのサンプルのラベルを保存して計算することは不可能である。 これらは、情報が必要なときに行うことができる。 クラスタリングはクラスタの代表を識別するツールとして機能し、最も近い代表のクラスタラベルを割り当てることでクエリを提供する。 本稿では,大規模データに対して任意の形状のクラスタを識別するインクリメンタルプロトタイプベースDBSCAN (IPD) アルゴリズムを提案する。 さらに、クラスタごとに一連の代表者を選択する。

DBSCAN is a fundamental density-based clustering technique that identifies any arbitrary shape of the clusters. However, it becomes infeasible while handling big data. On the other hand, centroid-based clustering is important for detecting patterns in a dataset since unprocessed data points can be labeled to their nearest centroid. However, it can not detect non-spherical clusters. For a large data, it is not feasible to store and compute labels of every samples. These can be done as and when the information is required. The purpose can be accomplished when clustering act as a tool to identify cluster representatives and query is served by assigning cluster labels of nearest representative. In this paper, we propose an Incremental Prototype-based DBSCAN (IPD) algorithm which is designed to identify arbitrary-shaped clusters for large-scale data. Additionally, it chooses a set of representatives for each cluster.
翻訳日:2023-10-13 17:13:21 公開日:2023-10-11
# 知識ベースとしての言語モデル強化のためのナレッジブルサリエントスパンマスク

Knowledgeable Salient Span Mask for Enhancing Language Models as Knowledge Base ( http://arxiv.org/abs/2204.07994v2 )

ライセンス: Link先を確認
Cunxiang Wang, Fuli Luo, Yanyang Li, Runxin Xu, Fei Huang and Yue Zhang(参考訳) BERTのような事前訓練された言語モデル(PLM)は、様々な下流のNLPタスクで大きく進歩している。 しかしながら、モデルにクローゼスタイルのテストを求めることで、最近の研究では、PLMは構造化されていないテキストから知識を得るのに不足していることがわかった。 知識検索におけるplmの内部挙動を理解するために,まず,構造化されていないテキストに対する知識バーリング(k-b)トークンと知識フリー(k-f)トークンを定義し,専門家にサンプルのラベル付けを依頼する。 そして, PLM は K-B トークンに対して誤った予測をし, 自己保持モジュール内のトークンへの注意を少なくする傾向にある。 これらの観測に基づいて、モデルが構造化されていないテキストからより知識を学習するのに役立つ2つのソリューションを開発する。 知識集約型タスク実験は,提案手法の有効性を示す。 最高の知識を得るためには、私たちは継続的事前学習において知識の完全な自己監督学習を探求する最初の人です。

Pre-trained language models (PLMs) like BERT have made significant progress in various downstream NLP tasks. However, by asking models to do cloze-style tests, recent work finds that PLMs are short in acquiring knowledge from unstructured text. To understand the internal behaviour of PLMs in retrieving knowledge, we first define knowledge-baring (K-B) tokens and knowledge-free (K-F) tokens for unstructured text and ask professional annotators to label some samples manually. Then, we find that PLMs are more likely to give wrong predictions on K-B tokens and attend less attention to those tokens inside the self-attention module. Based on these observations, we develop two solutions to help the model learn more knowledge from unstructured text in a fully self-supervised manner. Experiments on knowledge-intensive tasks show the effectiveness of the proposed methods. To our best knowledge, we are the first to explore fully self-supervised learning of knowledge in continual pre-training.
翻訳日:2023-10-13 17:02:56 公開日:2023-10-11
# 月次複数ステップ先予測のための伝達学習を用いたディープラーニングモデルの性能

Performance of Deep Learning models with transfer learning for multiple-step-ahead forecasts in monthly time series ( http://arxiv.org/abs/2203.11196v2 )

ライセンス: Link先を確認
Mart\'in Sol\'is and Luis-Alexander Calvo-Valverde (Tecnol\'ogico de Costa Rica)(参考訳) ディープラーニングと転送学習モデルは時系列予測を生成するために使用されているが、そのパフォーマンス予測が月次時系列でより明らかであることを示す証拠は少ない。 本研究の目的は,Deep Learningモデルと転送学習を比較し,月次予測に使用する他の従来手法とを比較し,時系列の予測を生成するためのDeep Learning and Transfer Learningの適合性に関する3つの疑問に答えることである。 実験にはM4とM3のタイムシリーズが使用された。 以上の結果から,TN,LSTM,CNNに基づく移動学習モデルが従来の手法の性能予測を上回る傾向が示唆された。 一方、目標時系列を直接訓練したTCNとLSTMは、いくつかの予測地平線に対する従来の手法と類似または優れた性能を得た。

Deep Learning and transfer learning models are being used to generate time series forecasts; however, there is scarce evidence about their performance prediction that it is more evident for monthly time series. The purpose of this paper is to compare Deep Learning models with transfer learning and without transfer learning and other traditional methods used for monthly forecasts to answer three questions about the suitability of Deep Learning and Transfer Learning to generate predictions of time series. Time series of M4 and M3 competitions were used for the experiments. The results suggest that deep learning models based on TCN, LSTM, and CNN with transfer learning tend to surpass the performance prediction of other traditional methods. On the other hand, TCN and LSTM, trained directly on the target time series, got similar or better performance than traditional methods for some forecast horizons.
翻訳日:2023-10-13 17:01:23 公開日:2023-10-11
# 確率論的ロバストなリコース:アルゴリズムリコースにおけるコストとロバスト性の間のトレードオフのナビゲート

Probabilistically Robust Recourse: Navigating the Trade-offs between Costs and Robustness in Algorithmic Recourse ( http://arxiv.org/abs/2203.06768v4 )

ライセンス: Link先を確認
Martin Pawelczyk and Teresa Datta and Johannes van-den-Heuvel and Gjergji Kasneci and Himabindu Lakkaraju(参考訳) 機械学習モデルが、現実世界の設定で一連の決定を下すためにますます採用されているため、これらのモデルの予測によって悪影響(例えばローン拒否)を受けた個人にリコースの手段が提供されることを保証することが重要になる。 影響を受ける個人のためのレコースを構築するためのいくつかのアプローチが提案されているが、これらの手法によって出力されるレコースは、低コスト(即ち、実装の容易さ)を達成するか、小さな摂動(すなわち、リコースのノイズの多い実装)に頑健になるかのいずれかである。 さらに、先程のアプローチは、上記のトレードオフをナビゲートするいかなるエージェンシーもエンドユーザに提供しない。 本稿では,ユーザがリコースコスト対ロバスト性トレードオフを効果的に管理できる最初のアルゴリズムフレームワークを提案することで,上記の課題を解決する。 より具体的には、我々のフレームワーク Probabilistically ROBust rEcourse (\texttt{PROBE}) は、リコースに小さな変更を加えると、リコースが無効になる確率(リコース無効化率)をユーザが選択できるようにします。 そこで本研究では,達成された(反感)と所望のリコース無効化率のギャップを同時に最小化し,リコースコストを最小化し,得られたリコースが肯定的なモデル予測を達成することを保証する,新たな目的関数を提案する。 基礎となるモデル(線形モデル、ツリーベースモデルなど)の任意のインスタンスw.r.t.の異なるクラスに対応する帰納無効率を特徴付けるための新しい理論的結果を開発し、これらの結果を利用して効率的に目的を最適化する。 複数の実世界データセットを用いた実験評価により,提案手法の有効性が示された。

As machine learning models are increasingly being employed to make consequential decisions in real-world settings, it becomes critical to ensure that individuals who are adversely impacted (e.g., loan denied) by the predictions of these models are provided with a means for recourse. While several approaches have been proposed to construct recourses for affected individuals, the recourses output by these methods either achieve low costs (i.e., ease-of-implementation) or robustness to small perturbations (i.e., noisy implementations of recourses), but not both due to the inherent trade-offs between the recourse costs and robustness. Furthermore, prior approaches do not provide end users with any agency over navigating the aforementioned trade-offs. In this work, we address the above challenges by proposing the first algorithmic framework which enables users to effectively manage the recourse cost vs. robustness trade-offs. More specifically, our framework Probabilistically ROBust rEcourse (\texttt{PROBE}) lets users choose the probability with which a recourse could get invalidated (recourse invalidation rate) if small changes are made to the recourse i.e., the recourse is implemented somewhat noisily. To this end, we propose a novel objective function which simultaneously minimizes the gap between the achieved (resulting) and desired recourse invalidation rates, minimizes recourse costs, and also ensures that the resulting recourse achieves a positive model prediction. We develop novel theoretical results to characterize the recourse invalidation rates corresponding to any given instance w.r.t. different classes of underlying models (e.g., linear models, tree based models etc.), and leverage these results to efficiently optimize the proposed objective. Experimental evaluation with multiple real world datasets demonstrates the efficacy of the proposed framework.
翻訳日:2023-10-13 17:00:22 公開日:2023-10-11
# EXACT: 正確さのトレーニング方法

EXACT: How to Train Your Accuracy ( http://arxiv.org/abs/2205.09615v4 )

ライセンス: Link先を確認
Ivan Karpukhin, Stanislav Dereka, Sergey Kolesnikov(参考訳) 分類は通常、正確性の観点から評価される。 しかし、精度は不連続であり、勾配法による直接最適化はできない。 一般的な方法は、クロスエントロピー、ヒンジ損失、その他の代理損失を最小限に抑え、最適以下の結果をもたらす。 本稿では,モデルの出力に確率性を導入し,予測精度,すなわち確率モデルの精度を最適化することで,新しい最適化手法を提案する。 線形モデルと深部画像分類に関する広範な実験により,提案手法は広く用いられている分類損失の強力な代替手段であることが示された。

Classification tasks are usually evaluated in terms of accuracy. However, accuracy is discontinuous and cannot be directly optimized using gradient ascent. Popular methods minimize cross-entropy, hinge loss, or other surrogate losses, which can lead to suboptimal results. In this paper, we propose a new optimization framework by introducing stochasticity to a model's output and optimizing expected accuracy, i.e. accuracy of the stochastic model. Extensive experiments on linear models and deep image classification show that the proposed optimization method is a powerful alternative to widely used classification losses.
翻訳日:2023-10-13 16:51:19 公開日:2023-10-11
# 説明の正当性、権限、民主的な義務

Legitimacy, Authority, and Democratic Duties of Explanation ( http://arxiv.org/abs/2208.08628v4 )

ライセンス: Link先を確認
Seth Lazar(参考訳) 秘密化され、複雑化され、精査できない計算システムは、既存の権力関係を強化し、新しいものを作成するために使われており、特にそれらは統治するために使われている。 道徳的に許容される新しい、または新しく強い権力関係は、手続き的正当性と適切な権威の基準を満たさなければならない。 これは個人の自由、関係性平等、集団的自己決定の民主的価値を守り、実現する必要がある。 特に正当で適切な権限を有する権限を統治するためには、広報要件を満たさなければならない: 統治された共同体の有能なメンバーは、彼らが正当かつ適切な権威をもって統治されていると判断できなければならない。 権力者が自らの意思決定を政治コミュニティのメンバーに説明できる場合のみ、広報要件を満たすことができる。 少なくともいくつかの説明義務は民主的な義務である。 本稿はまず,先進的な議論を提起し,まず不透明な計算システムに適用し,これらの民主的価値を満たすためにどのような説明が必要なのかを明確化する。

Increasingly secret, complex and inscrutable computational systems are being used to intensify existing power relations and to create new ones; in particular, they are being used to govern. To be all-things-considered morally permissible new, or newly intense, power relations must meet standards of procedural legitimacy and proper authority. This is necessary for them to protect and realise democratic values of individual liberty, relational equality, and collective self-determination. For governing power in particular to be legitimate and have proper authority, it must meet a publicity requirement: reasonably competent members of the governed community must be able to determine that they are being governed legitimately and with proper authority. The publicity requirement can be satisfied only if the powerful can explain their decision-making to members of their political community. At least some duties of explanation are therefore democratic duties. This paper first sets out the foregoing argument, then applies it to opaque computational systems, and clarifies precisely what kinds of explanations are necessary to fulfil these democratic values.
翻訳日:2023-10-13 16:41:45 公開日:2023-10-11
# 多段階適応型等角性時系列予測のための汎用的枠組み

A general framework for multi-step ahead adaptive conformal heteroscedastic time series forecasting ( http://arxiv.org/abs/2207.14219v8 )

ライセンス: Link先を確認
Martim Sousa, Ana Maria Tom\'e, Jos\'e Moreira(参考訳) 本稿では,適応型アダプティブ・アンサンブル・バッチ・マルチ入力・マルチアウトプット・コンフォーマライズ・クォンタイル回帰(aenbmimocqr)と呼ばれる新しいモデル非依存アルゴリズムを提案する。 本手法は共形予測原理に基づいているが,データ分割は必要とせず,データ交換ができない場合でも正確なカバレッジを提供する。 さらに、結果の予測間隔は、予測地平線に沿って経験的に有効であるだけでなく、不均一性を無視してはならない。 aenbmimocqrは分散シフトにロバストな設計であり、データ生成プロセスで再トレーニングや非現実的な厳密な仮定を伴わずに、その予測間隔は無制限に信頼性を維持する。 体系的な実験を通じて,本手法が実世界と合成データの両方において,他の競合手法よりも優れていることを実証する。 実験部分で使用されたコードと、AEnbMIMOCQRの使い方に関するチュートリアルは、以下のGitHubリポジトリで見ることができる。

This paper introduces a novel model-agnostic algorithm called adaptive ensemble batch multi-input multi-output conformalized quantile regression (AEnbMIMOCQR} that enables forecasters to generate multi-step ahead prediction intervals for a fixed pre-specified miscoverage rate in a distribution-free manner. Our method is grounded on conformal prediction principles, however, it does not require data splitting and provides close to exact coverage even when the data is not exchangeable. Moreover, the resulting prediction intervals, besides being empirically valid along the forecast horizon, do not neglect heteroscedasticity. AEnbMIMOCQR is designed to be robust to distribution shifts, which means that its prediction intervals remain reliable over an unlimited period of time, without entailing retraining or imposing unrealistic strict assumptions on the data-generating process. Through methodically experimentation, we demonstrate that our approach outperforms other competitive methods on both real-world and synthetic datasets. The code used in the experimental part and a tutorial on how to use AEnbMIMOCQR can be found at the following GitHub repository: https://github.com/Quilograma/AEnbMIMOCQR.
翻訳日:2023-10-13 16:29:53 公開日:2023-10-11
# 行動可能な説明と忘れられる権利とのトレードオフについて

On the Trade-Off between Actionable Explanations and the Right to be Forgotten ( http://arxiv.org/abs/2208.14137v3 )

ライセンス: Link先を確認
Martin Pawelczyk and Tobias Leemann and Asia Biega and Gjergji Kasneci(参考訳) 機械学習(ML)モデルがハイテイクなアプリケーションにますます導入されているため、政策立案者はより厳格なデータ保護規制(GDPR、CCPAなど)を提案している。 重要な原則の1つは「忘れられる権利」であり、ユーザーがデータを削除する権利を与える。 もうひとつの重要な原則は、アルゴリズムリコースとしても知られる、実行可能な説明の権利であり、ユーザーは不利な決定をリバースすることができる。 現在、これら2つの原則を同時に運用できるかどうかは不明である。 そこで本研究では,データ削除要求の文脈において,リコース無効化の問題を紹介し,検討する。 より具体的には、一般的な最先端アルゴリズムの挙動を理論的かつ実証的に分析し、少数のデータ削除要求(例:1または2)が予測モデルの更新を保証した場合、これらのアルゴリズムによって生成されたリコースが無効になることを示す。 微分可能なモデルの設定のために、重要なトレーニングポイントの最小サブセットを識別するためのフレームワークを提案し、削除されると無効化されたリコースの比率を最大化する。 当社のフレームワークを使用することで、トレーニングセットから最大2つのデータインスタンスを削除することで、ポピュラーな最先端アルゴリズムが出力するリコースの最大95%を無効化できることを実証的に示します。 したがって、本研究は、「忘れられる権利」という文脈における「実行可能な説明の権利」の適合性に関する根本的な疑問を提起するとともに、帰納的堅牢性の決定要因に関する構成的洞察を与える。

As machine learning (ML) models are increasingly being deployed in high-stakes applications, policymakers have suggested tighter data protection regulations (e.g., GDPR, CCPA). One key principle is the "right to be forgotten" which gives users the right to have their data deleted. Another key principle is the right to an actionable explanation, also known as algorithmic recourse, allowing users to reverse unfavorable decisions. To date, it is unknown whether these two principles can be operationalized simultaneously. Therefore, we introduce and study the problem of recourse invalidation in the context of data deletion requests. More specifically, we theoretically and empirically analyze the behavior of popular state-of-the-art algorithms and demonstrate that the recourses generated by these algorithms are likely to be invalidated if a small number of data deletion requests (e.g., 1 or 2) warrant updates of the predictive model. For the setting of differentiable models, we suggest a framework to identify a minimal subset of critical training points which, when removed, maximize the fraction of invalidated recourses. Using our framework, we empirically show that the removal of as little as 2 data instances from the training set can invalidate up to 95 percent of all recourses output by popular state-of-the-art algorithms. Thus, our work raises fundamental questions about the compatibility of "the right to an actionable explanation" in the context of the "right to be forgotten", while also providing constructive insights on the determining factors of recourse robustness.
翻訳日:2023-10-13 16:19:21 公開日:2023-10-11
# オープンエンド学習のための拡張的トポロジーエージェント

Augmentative Topology Agents For Open-Ended Learning ( http://arxiv.org/abs/2210.11442v2 )

ライセンス: Link先を確認
Muhammad Umair Nasir, Michael Beukman, Steven James and Christopher Wesley Cleghorn(参考訳) 本研究では,エージェントとますます困難な環境を同時に進化させる手法を導入することで,オープンディビジョン学習の課題に取り組む。 固定されたニューラルネットワークトポロジを使ってエージェントを最適化する従来のオープンディビジョンのアプローチとは異なり、エージェントのコントローラがより難しい環境に遭遇することで、一般化がより複雑になることを想定している。 我々の方法であるAugmentative Topology EPOET (ATEP)は、エージェントが時間とともに自身のニューラルネットワーク構造を進化させ、複雑さとキャパシティを必要に応じて追加することにより、EPOETアルゴリズムを拡張した。 実験の結果、ATEPは固定トポロジーベースラインよりも多くの環境を解決できる一般エージェントとなることが示された。 また,環境間でエージェントを伝達する機構を調査し,種ベースのアプローチがエージェントの性能と一般化をさらに向上させることを確認した。

In this work, we tackle the problem of open-ended learning by introducing a method that simultaneously evolves agents and increasingly challenging environments. Unlike previous open-ended approaches that optimize agents using a fixed neural network topology, we hypothesize that generalization can be improved by allowing agents' controllers to become more complex as they encounter more difficult environments. Our method, Augmentative Topology EPOET (ATEP), extends the Enhanced Paired Open-Ended Trailblazer (EPOET) algorithm by allowing agents to evolve their own neural network structures over time, adding complexity and capacity as necessary. Empirical results demonstrate that ATEP results in general agents capable of solving more environments than a fixed-topology baseline. We also investigate mechanisms for transferring agents between environments and find that a species-based approach further improves the performance and generalization of agents.
翻訳日:2023-10-13 15:57:39 公開日:2023-10-11
# Edge Video Analytics: アプリケーション、システム、実装技術に関する調査

Edge Video Analytics: A Survey on Applications, Systems and Enabling Techniques ( http://arxiv.org/abs/2211.15751v3 )

ライセンス: Link先を確認
Renjie Xu, Saiedeh Razavi and Rong Zheng(参考訳) ビデオは、デジタル情報のグローバルな爆発の鍵を握る存在であり、人間社会に多大な利益をもたらす。 政府や企業は、例えば、警察、緊急管理、交通制御、セキュリティ監視など、様々な用途に無数のカメラを配備しており、いずれもビデオ分析(VA)によって促進されている。 この傾向は、オブジェクト分類、検出、追跡のためのより正確なモデルを可能にするディープラーニング(DL)の急速な進歩によって引き起こされる。 一方、インターネットに接続されたデバイスの普及に伴い、大量のデータが毎日生成され、クラウドを圧倒する。 ワークロードとサービスをネットワークコアからネットワークエッジに移行する、新たなパラダイムであるエッジコンピューティングは、有望なソリューションとして広く認識されている。 新たな交差点であるedge video analytics(eva)は、広く注目を集め始めている。 それにもかかわらず、この話題に関する調査はごくわずかである。 EVAの基本概念(定義、アーキテクチャなど)はこの領域の急速な発展のために完全には解明されなかった。 これらのギャップを埋めるために、EVAに関する最近の取り組みを包括的に調査する。 本稿では,まずエッジコンピューティングの基礎を概観し,続いてvaの概要について述べる。 次にEVAシステムとその実現技術について述べる。 さらに,EVAシステムの開発において,今後の研究者を支援するためのフレームワークやデータセットも紹介する。 最後に,既存の課題と今後の研究方向性について考察する。 この調査は、読者がVAとエッジコンピューティングの関係を理解し、EVAに関する新しいアイデアを喚起するのに役立ちます。

Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. The basic concepts of EVA (e.g., definition, architectures) were not fully elucidated due to the rapid development of this domain. To fill these gaps, we provide a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. EVA systems and their enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
翻訳日:2023-10-13 15:36:37 公開日:2023-10-11
# ヒト視覚セグメンテーションにおける不確かさの測定

Measuring uncertainty in human visual segmentation ( http://arxiv.org/abs/2301.07807v3 )

ライセンス: Link先を確認
Jonathan Vacher, Claire Launay, Pascal Mamassian, Ruben Coen-Cagli(参考訳) 視覚刺激を特徴群と視覚対象群に分割することは視覚機能の中心である。 古典的な心理学的手法は人間の知覚的セグメンテーションの多くの規則を明らかにするのに役立ち、機械学習の最近の進歩は成功したアルゴリズムを生み出した。 しかし、知覚的セグメンテーションマップを計測し、モデルを定量的に比較するためのよく制御されたパラダイムが欠如しているため、人間のセグメンテーションの計算論理はいまだに不明である。 本稿では,画像が与えられた場合,複数の画素ベースの同値判定を計測し,下層のセグメンテーションマップをモデルベースで再構成する手法を提案する。 再建はいくつかの実験的な操作に対して堅牢であり、個々の参加者の多様性を捉えている。 自然画像と複合テクスチャのヒトセグメンテーションにおけるアプローチの有効性を実証する。 画像の不確実性は測定された人間の変動に影響を及ぼし、被験者が異なる視覚的特徴の量に影響を及ぼすことを示す。 任意の推定セグメンテーションアルゴリズムを挿入して再構成を行うことができるため、我々のパラダイムは知覚理論の定量的テストとセグメンテーションアルゴリズムの新しいベンチマークを提供する。

Segmenting visual stimuli into distinct groups of features and visual objects is central to visual function. Classical psychophysical methods have helped uncover many rules of human perceptual segmentation, and recent progress in machine learning has produced successful algorithms. Yet, the computational logic of human segmentation remains unclear, partially because we lack well-controlled paradigms to measure perceptual segmentation maps and compare models quantitatively. Here we propose a new, integrated approach: given an image, we measure multiple pixel-based same--different judgments and perform model--based reconstruction of the underlying segmentation map. The reconstruction is robust to several experimental manipulations and captures the variability of individual participants. We demonstrate the validity of the approach on human segmentation of natural images and composite textures. We show that image uncertainty affects measured human variability, and it influences how participants weigh different visual features. Because any putative segmentation algorithm can be inserted to perform the reconstruction, our paradigm affords quantitative tests of theories of perception as well as new benchmarks for segmentation algorithms.
翻訳日:2023-10-13 15:18:28 公開日:2023-10-11
# 多言語意味パーサのためのアクティブラーニング

Active Learning for Multilingual Semantic Parser ( http://arxiv.org/abs/2301.12920v4 )

ライセンス: Link先を確認
Zhuang Li, Gholamreza Haffari(参考訳) 現在のマルチ言語セマンティックパーシング(MSP)データセットは、既存のデータセットの発話をリソース豊富な言語からターゲット言語に翻訳することで、ほぼすべて収集される。 しかし、手作業による翻訳はコストがかかる。 そこで本研究では,MSP (AL-MSP) のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。 また,より語彙的な選択によって論理形式構造を多様化する例を優先する新しい選択法と,追加のアノテーションコストを必要としない新しいハイパーパラメータチューニング法を提案する。 実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。 提案手法は,2つの多言語データセットの他のベースラインよりも解析性能がよい。

Current multilingual semantic parsing (MSP) datasets are almost all collected by translating the utterances in the existing datasets from the resource-rich language to the target language. However, manual translation is costly. To reduce the translation effort, this paper proposes the first active learning procedure for MSP (AL-MSP). AL-MSP selects only a subset from the existing datasets to be translated. We also propose a novel selection method that prioritizes the examples diversifying the logical form structures with more lexical choices, and a novel hyperparameter tuning method that needs no extra annotation cost. Our experiments show that AL-MSP significantly reduces translation costs with ideal selection methods. Our selection method with proper hyperparameters yields better parsing performance than the other baselines on two multilingual datasets.
翻訳日:2023-10-13 15:10:34 公開日:2023-10-11
# 空間データ拡張と顔面姿勢再構成による顔認識の強化

Enhancing Face Recognition with Latent Space Data Augmentation and Facial Posture Reconstruction ( http://arxiv.org/abs/2301.11986v2 )

ライセンス: Link先を確認
Soroush Hashemifar, Abdolreza Marefat, Javad Hassannataj Joloudari and Hamid Hassanpour(参考訳) 多くの最先端のディープラーニングベース顔認識(FR)システムに対する少量のトレーニングデータにより、その性能が著しく低下する。 入力空間変換やGAN(Generative Adversarial Networks)を特徴空間拡張に用いながら、新たなデータ拡張手法を考案することで、この問題にかなり多くの研究が取り組んできたが、これらの技術はまだ期待を満たさない。 本稿では,顔データセットの拡張のためのFRA(Face Representation Augmentation)というアプローチを提案する。 我々の知る限り、FRAは、顔表現学習アルゴリズムによって生成された顔埋め込みを操作することに焦点を移し、同じアイデンティティと顔の感情を表す新しい埋め込みを作るが、姿勢を変える。 本研究は,本手法の有効性と,frアルゴリズムの学習手順を改善するために,無音で全く新しい表情表現を提供する能力について,広範な実験を行った。 したがって、FRAはFRシステムのトレーニングにより多くのデータを提供することで、最近の最先端FR手法を支援することができる。 提案手法は,Karolinska Directed Emotional Faces (KDEF)データセットを用いて,MagFace,ArcFace,CosFaceのベースモデルと比較して,識別分類精度を9.52 %,10.04 %,16.60 %改善する。

The small amount of training data for many state-of-the-art deep learning-based Face Recognition (FR) systems causes a marked deterioration in their performance. Although a considerable amount of research has addressed this issue by inventing new data augmentation techniques, using either input space transformations or Generative Adversarial Networks (GAN) for feature space augmentations, these techniques have yet to satisfy expectations. In this paper, we propose an approach named the Face Representation Augmentation (FRA) for augmenting face datasets. To the best of our knowledge, FRA is the first method that shifts its focus towards manipulating the face embeddings generated by any face representation learning algorithm to create new embeddings representing the same identity and facial emotion but with an altered posture. Extensive experiments conducted in this study convince of the efficacy of our methodology and its power to provide noiseless, completely new facial representations to improve the training procedure of any FR algorithm. Therefore, FRA can help the recent state-of-the-art FR methods by providing more data for training FR systems. The proposed method, using experiments conducted on the Karolinska Directed Emotional Faces (KDEF) dataset, improves the identity classification accuracies by 9.52 %, 10.04 %, and 16.60 %, in comparison with the base models of MagFace, ArcFace, and CosFace, respectively.
翻訳日:2023-10-13 15:08:19 公開日:2023-10-11
# 知識グラフの構築:現状と課題

Construction of Knowledge Graphs: State and Challenges ( http://arxiv.org/abs/2302.11509v2 )

ライセンス: Link先を確認
Marvin Hofer, Daniel Obraczka, Alieh Saeedi, Hanna K\"opcke, Erhard Rahm(参考訳) 知識グラフ(KG)は、推薦システムや質問応答など多くのアプリケーションの中心にあるため、そのようなKGの構築と継続的な更新を行う汎用パイプラインの必要性が高まっている。 構造化されていない(テキストなど)と構造化されたデータソース(データベースなど)からKGを作成するために必要な個々のステップは、主にワンショット実行においてよく研究されているが、インクリメンタルなKG更新や個々のステップの相互運用は、これまで体系的に研究されることがほとんどない。 本稿ではまず,KGの主要グラフモデルについて論じ,今後のKG構築パイプラインに対する主要な要件を紹介する。 次に、メタデータ管理、オントロジー開発、品質保証といった横断的なトピックを含む高品質なKGを構築するために必要な手順の概要を紹介する。 次に,KG 構築技術の現状を,KG 構築のための最近のツールや戦略と同様に,特定の人気 KG に対して導入された要件に照らして評価する。 最後に、さらなる研究と改善が必要な地域を特定する。

With knowledge graphs (KGs) at the center of numerous applications such as recommender systems and question answering, the need for generalized pipelines to construct and continuously update such KGs is increasing. While the individual steps that are necessary to create KGs from unstructured (e.g. text) and structured data sources (e.g. databases) are mostly well-researched for their one-shot execution, their adoption for incremental KG updates and the interplay of the individual steps have hardly been investigated in a systematic manner so far. In this work, we first discuss the main graph models for KGs and introduce the major requirement for future KG construction pipelines. Next, we provide an overview of the necessary steps to build high-quality KGs, including cross-cutting topics such as metadata management, ontology development, and quality assurance. We then evaluate the state of the art of KG construction w.r.t the introduced requirements for specific popular KGs as well as some recent tools and strategies for KG construction. Finally, we identify areas in need of further research and improvement.
翻訳日:2023-10-13 14:35:54 公開日:2023-10-11
# selfcheckgpt: 生成大言語モデルのためのゼロリソースブラックボックス幻覚検出

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models ( http://arxiv.org/abs/2303.08896v3 )

ライセンス: Link先を確認
Potsawee Manakul, Adian Liusie, Mark J. F. Gales(参考訳) GPT-3のようなジェネレーティブ・大型言語モデル(LLM)は、様々なユーザー・プロンプトに対して非常に流動的な応答を生成することができる。 しかし、LSMは事実を幻覚させ、その成果に対する信頼を損なう可能性のある非事実的声明を作成することが知られている。 既存のファクトチェックアプローチでは、出力確率分布(ChatGPTのようなシステムでは利用できない)にアクセスするか、独立した複雑なモジュールを介してインターフェースされる外部データベースを必要とする。 本研究では,ゼロリソース方式,すなわち外部データベースを使わずにブラックボックスモデルの応答をファクトチェックできる単純なサンプリングベースアプローチである"SelfCheckGPT"を提案する。 SelfCheckGPT は LLM が与えられた概念について知識を持っている場合、サンプル応答は類似し、一貫した事実を含む可能性が高いという単純な考え方を利用する。 しかし、幻覚的な事実の場合、確率的にサンプリングされた反応は互いに発散し、矛盾しがちである。 本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成し,生成したパスの事実を手動で注釈付けする手法を提案する。 私たちはSelfCheckGPTが可能であることを実証します。 一 非事実文及び事実文の検出 ii) 事実性の観点からの序列 提案手法は, 文レベルの幻覚検出においてAUC-PRスコアが有意に高く, 進路レベルの事実性評価ではグレーボックス法よりも高い相関スコアが得られた。

Generative Large Language Models (LLMs) such as GPT-3 are capable of generating highly fluent responses to a wide variety of user prompts. However, LLMs are known to hallucinate facts and make non-factual statements which can undermine trust in their output. Existing fact-checking approaches either require access to the output probability distribution (which may not be available for systems such as ChatGPT) or external databases that are interfaced via separate, often complex, modules. In this work, we propose "SelfCheckGPT", a simple sampling-based approach that can be used to fact-check the responses of black-box models in a zero-resource fashion, i.e. without an external database. SelfCheckGPT leverages the simple idea that if an LLM has knowledge of a given concept, sampled responses are likely to be similar and contain consistent facts. However, for hallucinated facts, stochastically sampled responses are likely to diverge and contradict one another. We investigate this approach by using GPT-3 to generate passages about individuals from the WikiBio dataset, and manually annotate the factuality of the generated passages. We demonstrate that SelfCheckGPT can: i) detect non-factual and factual sentences; and ii) rank passages in terms of factuality. We compare our approach to several baselines and show that our approach has considerably higher AUC-PR scores in sentence-level hallucination detection and higher correlation scores in passage-level factuality assessment compared to grey-box methods.
翻訳日:2023-10-13 14:15:42 公開日:2023-10-11
# UPRISE: ゼロショット評価を改善するユニバーサルプロンプト検索

UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation ( http://arxiv.org/abs/2303.08518v3 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Furu Wei, Denvy Deng, Qi Zhang(参考訳) 大きな言語モデル(LLM)はその優れた能力で人気があるが、モデル固有の微調整やタスク固有のプロンプトエンジニアリングの必要性は、その一般化を妨げる可能性がある。 本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取得する軽量で多目的なレトリバーをチューニングするUPRISE(Universal Prompt Retrieval for Improving zero-Shot Evaluation)を提案する。 具体的には、クロスタスクおよびクロスモデルシナリオにおいて普遍性を実証する: 検索者は多様なタスクセットに基づいてチューニングされるが、見知らぬタスクタイプでテストされる; 小さな凍結LDM, GPT-Neo-2.7Bを使用して、検索をチューニングするが、BLOOM-7.1B, OPT-66B, GPT3-175B など、はるかに大きなスケールで検索する。 さらに, UPRISEはChatGPT実験において幻覚障害を緩和し, 最強のLDMでも改善する可能性が示唆された。 私たちのモデルとコードはhttps://github.com/microsoft/LMOps.comで公開されています。

Large Language Models (LLMs) are popular for their impressive abilities, but the need for model-specific fine-tuning or task-specific prompt engineering can hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation), which tunes a lightweight and versatile retriever that automatically retrieves prompts for a given zero-shot task input. Specifically, we demonstrate universality in a cross-task and cross-model scenario: the retriever is tuned on a diverse set of tasks, but tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for tuning the retriever, but test the retriever on different LLMs of much larger scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that UPRISE mitigates the hallucination problem in our experiments with ChatGPT, suggesting its potential to improve even the strongest LLMs. Our model and code are available at https://github.com/microsoft/LMOps.
翻訳日:2023-10-13 14:15:12 公開日:2023-10-11
# 環境とのチャット:大規模言語モデルを用いた対話型マルチモーダル知覚

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models ( http://arxiv.org/abs/2303.08268v3 )

ライセンス: Link先を確認
Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, and Stefan Wermter(参考訳) 複雑な世界でのプログラミングロボットの振る舞いは、多彩な低レベルのスキルからハイレベルな計画や推論に至るまで、さまざまなレベルで課題に直面している。 最近のLarge Language Models (LLMs) は、数発のロボット計画において顕著な推論能力を示している。 しかし、ロボットが環境と対話し、そのポリシーが展開するにつれて、新しい情報を得られるようにしながら、マルチモーダルな感覚入力と連続的な動作出力にLCMを接地することは依然として困難である。 ロボットがタスクを正しく実行する前に、複数のモダリティ間の感覚情報をサンプリングするために、認識行動の範囲をロボットが決定する必要がある、部分的に観察可能な状態のロボットインタラクションシナリオを開発する。 したがって、対話型知覚フレームワークであるMatcha(Multimodal Environment chatting)エージェントは、そのバックボーンとしてLLMを用いて提案され、その能力は、認識行動を指示し、結果として生じるマルチモーダル感覚(ビジョン、サウンド、ハプティック、プロプレセプション)を推論し、対話的に取得した情報に基づいてタスクの実行全体を計画する。 本研究は,マルチモーダル環境における対話型ロボットの動作制御と高レベルな計画・推論能力の提供を可能にすると同時に,環境状態のコンテキストを持ったマルチモーダルモジュールがllmの接地と処理能力の向上に寄与することを示す。 プロジェクトのWebサイトはhttps://matcha-agent.github.io.comにある。

Programming robot behavior in a complex world faces challenges on multiple levels, from dextrous low-level skills to high-level planning and reasoning. Recent pre-trained Large Language Models (LLMs) have shown remarkable reasoning ability in few-shot robotic planning. However, it remains challenging to ground LLMs in multimodal sensory input and continuous action output, while enabling a robot to interact with its environment and acquire novel information as its policies unfold. We develop a robot interaction scenario with a partially observable state, which necessitates a robot to decide on a range of epistemic actions in order to sample sensory information among multiple modalities, before being able to execute the task correctly. Matcha (Multimodal environment chatting) agent, an interactive perception framework, is therefore proposed with an LLM as its backbone, whose ability is exploited to instruct epistemic actions and to reason over the resulting multimodal sensations (vision, sound, haptics, proprioception), as well as to plan an entire task execution based on the interactively acquired information. Our study demonstrates that LLMs can provide high-level planning and reasoning skills and control interactive robot behavior in a multimodal environment, while multimodal modules with the context of the environmental state help ground the LLMs and extend their processing ability. The project website can be found at https://matcha-agent.github.io.
翻訳日:2023-10-13 14:14:36 公開日:2023-10-11
# CryoFormer: Transformer-based Neural Representation を用いた連続的不均一Cryo-EM再構成

CryoFormer: Continuous Heterogeneous Cryo-EM Reconstruction using Transformer-based Neural Representations ( http://arxiv.org/abs/2303.16254v3 )

ライセンス: Link先を確認
Xinhang Liu, Yan Zeng, Yifan Qin, Hao Li, Jiakai Zhang, Lan Xu, Jingyi Yu(参考訳) cryo-electron microscope (cryo-em) はタンパク質やその他の生体分子の3d構造の高分解能再構成を可能にする。 形状と運動の再現に成功したことは、生命の基本的な過程を理解するのに大いに役立つ。 しかし,無作為かつ無作為な2次元cryo-em画像から3次元構造物の連続運動を再構築することは依然として困難である。 最近の進歩では、Fourierドメインの座標に基づくニューラルネットワークを使って3Dコンフォーメーションを連続的にモデル化している。 我々は,連続的不均一型cryo-em再構成のための新しい手法であるcryoformerを提案する。 提案手法は実領域の暗黙的特徴量を直接3次元表現として活用する。 さらに,新しいクエリベース変形トランスデコーダを導入し,復元品質の向上を図る。 提案手法は,事前計算されたポーズ推定とフレキシブルな領域の探索を行う。 実験では、3つのパブリックデータセット(1つの合成データと2つの実験データ)と、pedvスパイクタンパク質の新しい合成データセットに対する現在のアプローチよりも優れています。 コードと新しい合成データセットがリリースされ、結果の再現性が向上します。 プロジェクトページ: https://cryoformer.github.io

Cryo-electron microscopy (cryo-EM) allows for the high-resolution reconstruction of 3D structures of proteins and other biomolecules. Successful reconstruction of both shape and movement greatly helps understand the fundamental processes of life. However, it is still challenging to reconstruct the continuous motions of 3D structures from hundreds of thousands of noisy and randomly oriented 2D cryo-EM images. Recent advancements use Fourier domain coordinate-based neural networks to continuously model 3D conformations, yet they often struggle to capture local flexible regions accurately. We propose CryoFormer, a new approach for continuous heterogeneous cryo-EM reconstruction. Our approach leverages an implicit feature volume directly in the real domain as the 3D representation. We further introduce a novel query-based deformation transformer decoder to improve the reconstruction quality. Our approach is capable of refining pre-computed pose estimations and locating flexible regions. In experiments, our method outperforms current approaches on three public datasets (1 synthetic and 2 experimental) and a new synthetic dataset of PEDV spike protein. The code and new synthetic dataset will be released for better reproducibility of our results. Project page: https://cryoformer.github.io.
翻訳日:2023-10-13 14:08:30 公開日:2023-10-11
# CryoFormer: Transformer-based Neural Representation を用いた連続的不均一Cryo-EM再構成

CryoFormer: Continuous Heterogeneous Cryo-EM Reconstruction using Transformer-based Neural Representations ( http://arxiv.org/abs/2303.16254v2 )

ライセンス: Link先を確認
Xinhang Liu, Yan Zeng, Yifan Qin, Hao Li, Jiakai Zhang, Lan Xu, Jingyi Yu(参考訳) cryo-electron microscope (cryo-em) はタンパク質やその他の生体分子の3d構造の高分解能再構成を可能にする。 形状と運動の再現に成功したことは、生命の基本的な過程を理解するのに大いに役立つ。 しかし,無作為かつ無作為な2次元cryo-em画像から3次元構造物の連続運動を再構築することは依然として困難である。 最近の進歩では、Fourierドメインの座標に基づくニューラルネットワークを使って3Dコンフォーメーションを連続的にモデル化している。 我々は,連続的不均一型cryo-em再構成のための新しい手法であるcryoformerを提案する。 提案手法は実領域の暗黙的特徴量を直接3次元表現として活用する。 さらに,新しいクエリベース変形トランスデコーダを導入し,復元品質の向上を図る。 提案手法は,事前計算されたポーズ推定とフレキシブルな領域の探索を行う。 実験では、3つのパブリックデータセット(1つの合成データと2つの実験データ)と、pedvスパイクタンパク質の新しい合成データセットに対する現在のアプローチよりも優れています。 コードと新しい合成データセットがリリースされ、結果の再現性が向上します。 プロジェクトページ: https://cryoformer.github.io

Cryo-electron microscopy (cryo-EM) allows for the high-resolution reconstruction of 3D structures of proteins and other biomolecules. Successful reconstruction of both shape and movement greatly helps understand the fundamental processes of life. However, it is still challenging to reconstruct the continuous motions of 3D structures from hundreds of thousands of noisy and randomly oriented 2D cryo-EM images. Recent advancements use Fourier domain coordinate-based neural networks to continuously model 3D conformations, yet they often struggle to capture local flexible regions accurately. We propose CryoFormer, a new approach for continuous heterogeneous cryo-EM reconstruction. Our approach leverages an implicit feature volume directly in the real domain as the 3D representation. We further introduce a novel query-based deformation transformer decoder to improve the reconstruction quality. Our approach is capable of refining pre-computed pose estimations and locating flexible regions. In experiments, our method outperforms current approaches on three public datasets (1 synthetic and 2 experimental) and a new synthetic dataset of PEDV spike protein. The code and new synthetic dataset will be released for better reproducibility of our results. Project page: https://cryoformer.github.io.
翻訳日:2023-10-13 14:08:08 公開日:2023-10-11
# PAIR-Diffusion: 総合的マルチモーダルオブジェクトレベルイメージエディタ

PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor ( http://arxiv.org/abs/2303.17546v2 )

ライセンス: Link先を確認
Vidit Goel, Elia Peruzzo, Yifan Jiang, Dejia Xu, Xingqian Xu, Nicu Sebe, Trevor Darrell, Zhangyang Wang, Humphrey Shi(参考訳) 生成画像編集は、最近非常に速いペースで成長している。 テキストのようなハイレベルなコンディショニングを使う作品もあれば、低レベルコンディショニングを使う作品もある。 それにもかかわらず、それらのほとんどは、画像に存在する異なるオブジェクト、すなわち、オブジェクトレベルの画像編集の特性に関するきめ細かい制御を欠いている。 本研究では,様々なオブジェクトのアマルガメーションとしてイメージを知覚し,各オブジェクトの特性をきめ細かな方法で制御することを目的とする。 これらの特性から, 構造や外観を最も直感的に理解し, 編集に有用であると考える。 画像中の各オブジェクトの構造と外観特性を拡散モデルで制御できる汎用フレームワークである \textbf{PAIR} Diffusion を提案する。 画像中の各オブジェクトのプロパティを制御できることは、包括的な編集能力をもたらすことを示す。 本フレームワークは、参照画像に基づく外観編集、自由形式の形状編集、オブジェクトの追加、バリエーションなど、実画像上の様々なオブジェクトレベルの編集操作を可能にする。 私たちの設計のおかげで、反転のステップは不要です。 また,基本拡散モデルを用いたアプローチでは,参照画像とテキストの両方を用いて画像の編集が可能なマルチモーダル分類器フリーガイダンスを提案する。 非条件拡散モデルと基礎拡散モデルの両方に関する枠組みを広く評価することにより、上記の主張を検証する。 コードおよびモデルリリースについては、https://vidit98.github.io/publication/conference-paper/pair_diff.htmlを参照してください。

Generative image editing has recently witnessed extremely fast-paced growth. Some works use high-level conditioning such as text, while others use low-level conditioning. Nevertheless, most of them lack fine-grained control over the properties of the different objects present in the image, i.e.\,object-level image editing. In this work, we tackle the task by perceiving the images as an amalgamation of various objects and aim to control the properties of each object in a fine-grained manner. Out of these properties, we identify structure and appearance as the most intuitive to understand and useful for editing purposes. We propose \textbf{PAIR} Diffusion, a generic framework that can enable a diffusion model to control the structure and appearance properties of each object in the image. We show that having control over the properties of each object in an image leads to comprehensive editing capabilities. Our framework allows for various object-level editing operations on real images such as reference image-based appearance editing, free-form shape editing, adding objects, and variations. Thanks to our design, we do not require any inversion step. Additionally, we propose multimodal classifier-free guidance which enables editing images using both reference images and text when using our approach with foundational diffusion models. We validate the above claims by extensively evaluating our framework on both unconditional and foundational diffusion models. Please refer to https://vidit98.github.io/publication/conference-paper/pair_diff.html for code and model release.
翻訳日:2023-10-13 13:54:15 公開日:2023-10-11
# 大規模言語モデルを用いたメンタルヘルス分析の解釈に向けて

Towards Interpretable Mental Health Analysis with Large Language Models ( http://arxiv.org/abs/2304.03347v4 )

ライセンス: Link先を確認
Kailai Yang, Shaoxiong Ji, Tianlin Zhang, Qianqian Xie, Ziyan Kuang, Sophia Ananiadou(参考訳) chatgptのような最新の大規模言語モデル(llm)は、自動メンタルヘルス分析において強力な能力を示している。 しかしながら、既存の研究には、不適切な評価、プロンプト戦略の欠如、説明可能性のためのLSMの探索の無知など、いくつかの制限がある。 これらのギャップを埋めるために,5つのタスクにまたがる11のデータセット上で,llmのメンタルヘルス分析と感情推論能力を総合的に評価した。 異なるプロンプト戦略の効果について,非教師あり,遠隔監督された感情情報を用いて検討する。 これらのプロンプトに基づいて,それぞれの意思決定に説明を与えるように指示することで,精神保健分析の解釈のためのLCMを探索する。 得られた説明の質を評価するために厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。 このデータセットの既存の自動評価メトリクスをベンチマークして、今後の研究をガイドします。 その結果,ChatGPTは文脈内学習能力は高いが,高度なタスク固有手法との差は大きいことがわかった。 感情的な手がかりと専門家が書いた数ショットの例による注意深いプロンプトエンジニアリングは、メンタルヘルス分析のパフォーマンスを効果的に改善する。 加えて、ChatGPTは人間のパフォーマンスに近づき、説明可能なメンタルヘルス分析に大きな可能性を示す説明を生成する。

The latest large language models (LLMs) such as ChatGPT, exhibit strong capabilities in automated mental health analysis. However, existing relevant studies bear several limitations, including inadequate evaluations, lack of prompting strategies, and ignorance of exploring LLMs for explainability. To bridge these gaps, we comprehensively evaluate the mental health analysis and emotional reasoning ability of LLMs on 11 datasets across 5 tasks. We explore the effects of different prompting strategies with unsupervised and distantly supervised emotional information. Based on these prompts, we explore LLMs for interpretable mental health analysis by instructing them to generate explanations for each of their decisions. We convey strict human evaluations to assess the quality of the generated explanations, leading to a novel dataset with 163 human-assessed explanations. We benchmark existing automatic evaluation metrics on this dataset to guide future related works. According to the results, ChatGPT shows strong in-context learning ability but still has a significant gap with advanced task-specific methods. Careful prompt engineering with emotional cues and expert-written few-shot examples can also effectively improve performance on mental health analysis. In addition, ChatGPT generates explanations that approach human performance, showing its great potential in explainable mental health analysis.
翻訳日:2023-10-13 13:46:11 公開日:2023-10-11
# 大規模言語モデルを用いたメンタルヘルス分析の解釈に向けて

Towards Interpretable Mental Health Analysis with Large Language Models ( http://arxiv.org/abs/2304.03347v3 )

ライセンス: Link先を確認
Kailai Yang, Shaoxiong Ji, Tianlin Zhang, Qianqian Xie, Ziyan Kuang, Sophia Ananiadou(参考訳) chatgptのような最新の大規模言語モデル(llm)は、自動メンタルヘルス分析において強力な能力を示している。 しかしながら、既存の研究には、不適切な評価、プロンプト戦略の欠如、説明可能性のためのLSMの探索の無知など、いくつかの制限がある。 これらのギャップを埋めるために,5つのタスクにまたがる11のデータセット上で,llmのメンタルヘルス分析と感情推論能力を総合的に評価した。 異なるプロンプト戦略の効果について,非教師あり,遠隔監督された感情情報を用いて検討する。 これらのプロンプトに基づいて,それぞれの意思決定に説明を与えるように指示することで,精神保健分析の解釈のためのLCMを探索する。 得られた説明の質を評価するために厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。 このデータセットの既存の自動評価メトリクスをベンチマークして、今後の研究をガイドします。 その結果,ChatGPTは文脈内学習能力は高いが,高度なタスク固有手法との差は大きいことがわかった。 感情的な手がかりと専門家が書いた数ショットの例による注意深いプロンプトエンジニアリングは、メンタルヘルス分析のパフォーマンスを効果的に改善する。 加えて、ChatGPTは人間のパフォーマンスに近づき、説明可能なメンタルヘルス分析に大きな可能性を示す説明を生成する。

The latest large language models (LLMs) such as ChatGPT, exhibit strong capabilities in automated mental health analysis. However, existing relevant studies bear several limitations, including inadequate evaluations, lack of prompting strategies, and ignorance of exploring LLMs for explainability. To bridge these gaps, we comprehensively evaluate the mental health analysis and emotional reasoning ability of LLMs on 11 datasets across 5 tasks. We explore the effects of different prompting strategies with unsupervised and distantly supervised emotional information. Based on these prompts, we explore LLMs for interpretable mental health analysis by instructing them to generate explanations for each of their decisions. We convey strict human evaluations to assess the quality of the generated explanations, leading to a novel dataset with 163 human-assessed explanations. We benchmark existing automatic evaluation metrics on this dataset to guide future related works. According to the results, ChatGPT shows strong in-context learning ability but still has a significant gap with advanced task-specific methods. Careful prompt engineering with emotional cues and expert-written few-shot examples can also effectively improve performance on mental health analysis. In addition, ChatGPT generates explanations that approach human performance, showing its great potential in explainable mental health analysis.
翻訳日:2023-10-13 13:45:50 公開日:2023-10-11
# mp-fedcl: エッジインテリジェンスのためのマルチプロトタイプフェデレートコントラスト学習

MP-FedCL: Multiprototype Federated Contrastive Learning for Edge Intelligence ( http://arxiv.org/abs/2304.01950v2 )

ライセンス: Link先を確認
Yu Qiao, Md. Shirajum Munir, Apurba Adhikary, Huy Q. Le, Avi Deb Raha, Chaoning Zhang, Choong Seon Hong(参考訳) フェデレートされた学習支援エッジインテリジェンスにより、現代のインテリジェントサービスにおけるプライバシー保護が可能になる。 しかし、エッジクライアント間の独立分布と同一分布(非IID)は、局所的なモデル性能を損なう可能性がある。 既存の単一のプロトタイプベースの戦略は、機能空間の平均を使ってクラスを表現する。 しかし、機能空間は通常クラスタ化されておらず、単一のプロトタイプはクラスをうまく表現できない。 そこで本研究では, ラベルと特徴歪の両方を含む非IID条件下で, 単一プロトタイプ上でのマルチプロトタイプ戦略の有効性を実証する, マルチプロトタイプ・フェデレート・コントラスト学習手法(MP-FedCL)を提案する。 特に、 \textit{k-means} に基づくマルチプロトタイプ計算戦略は、組込み空間内のクラスを表す複数のプロトタイプ (k$ centroids) を使用して、クラス空間ごとに異なる組込み表現をキャプチャするために最初に提案されている。 グローバルラウンド毎に、計算された複数のプロトタイプとそのモデルパラメータがエッジサーバに送信され、グローバルプロトタイププールに集約され、各クライアントに送られて、ローカルトレーニングのガイドとなる。 最後に、各クライアントのローカルトレーニングは、独自の教師付き学習タスクを最小化し、教師付きコントラスト学習を通じてグローバルプロトタイププール内の共有プロトタイプから学習する。 MNIST,Digit-5,Office-10,DomainNetによる実験結果から,提案手法は,特徴量およびラベル非IID分布において,平均テスト精度が約4.6\%,10.4\%向上した。

Federated learning-assisted edge intelligence enables privacy protection in modern intelligent services. However, not independent and identically distributed (non-IID) distribution among edge clients can impair the local model performance. The existing single prototype-based strategy represents a class by using the mean of the feature space. However, feature spaces are usually not clustered, and a single prototype may not represent a class well. Motivated by this, this paper proposes a multi-prototype federated contrastive learning approach (MP-FedCL) which demonstrates the effectiveness of using a multi-prototype strategy over a single-prototype under non-IID settings, including both label and feature skewness. Specifically, a multi-prototype computation strategy based on \textit{k-means} is first proposed to capture different embedding representations for each class space, using multiple prototypes ($k$ centroids) to represent a class in the embedding space. In each global round, the computed multiple prototypes and their respective model parameters are sent to the edge server for aggregation into a global prototype pool, which is then sent back to all clients to guide their local training. Finally, local training for each client minimizes their own supervised learning tasks and learns from shared prototypes in the global prototype pool through supervised contrastive learning, which encourages them to learn knowledge related to their own class from others and reduces the absorption of unrelated knowledge in each global iteration. Experimental results on MNIST, Digit-5, Office-10, and DomainNet show that our method outperforms multiple baselines, with an average test accuracy improvement of about 4.6\% and 10.4\% under feature and label non-IID distributions, respectively.
翻訳日:2023-10-13 13:45:30 公開日:2023-10-11
# YOLO-Drone:高高度からの高密度微小物体の空中リアルタイム検出

YOLO-Drone:Airborne real-time detection of dense small objects from high-altitude perspective ( http://arxiv.org/abs/2304.06925v2 )

ライセンス: Link先を確認
Li Zhu, Jiahui Xiong, Feng Xiong, Hanzheng Hu, Zhengnan Jiang(参考訳) 無人航空機(UAV)、特にリモートセンシングオブジェクト検出技術を備えたドローンは、急速に応用範囲を拡大し、コンピュータビジョンの分野における主要な研究の1つとして登場した。 UAVリモートセンシングシステムは様々な物体を検出する能力を持っているが、物体の大きさ、画像の劣化、リアルタイム制限などの要因により、小型物体を確実に検出することは困難である。 これらの問題に対処するために、リアルタイム物体検出アルゴリズム(YOLO-Drone)が提案され、2つのUAVプラットフォームと特定の光源(シリコン系ゴールデンLED)に適用された。 ヨロドロンにはいくつかの新作がある。 1) 新しいバックボーンDarknet59を含む。 2) 1つの空間ピラミッドプールと3つのアトラス空間ピラミッドプールモジュールを組み込んだ新しい複雑な特徴集積モジュールMSPP-FPN 3) 損失関数としての結合上の一般化交叉(giou)の使用。 性能評価には、uavdtとvisdroneの2つのベンチマークデータセットと、夜間にシリコンベースのgolden ledで取得した1つの自家製データセットを利用する。 UAVDTとVisDroneの両方において,提案したYOLO-Droneは,mAPを10.13%,8.59%改善することにより,最先端(SOTA)オブジェクト検出法より優れていた。 UAVDTに関しては、YOLO-Droneは53 FPSの高リアルタイム推論速度と34.04%の最大mAPの両方を示している。 特に、YOLO-Droneは、シリコンベースの金のLEDの下では高性能で、mAPは87.71%であり、通常の光源下でのYOLOシリーズのパフォーマンスを上回っている。 結論として、提案したYOLO-Droneは、UAVアプリケーション、特にシリコンベースのゴールデンライトLED技術が大きな優位性を示す夜間検出タスクにおいて、オブジェクト検出に非常に効果的なソリューションである。

Unmanned Aerial Vehicles (UAVs), specifically drones equipped with remote sensing object detection technology, have rapidly gained a broad spectrum of applications and emerged as one of the primary research focuses in the field of computer vision. Although UAV remote sensing systems have the ability to detect various objects, small-scale objects can be challenging to detect reliably due to factors such as object size, image degradation, and real-time limitations. To tackle these issues, a real-time object detection algorithm (YOLO-Drone) is proposed and applied to two new UAV platforms as well as a specific light source (silicon-based golden LED). YOLO-Drone presents several novelties: 1) including a new backbone Darknet59; 2) a new complex feature aggregation module MSPP-FPN that incorporated one spatial pyramid pooling and three atrous spatial pyramid pooling modules; 3) and the use of Generalized Intersection over Union (GIoU) as the loss function. To evaluate performance, two benchmark datasets, UAVDT and VisDrone, along with one homemade dataset acquired at night under silicon-based golden LEDs, are utilized. The experimental results show that, in both UAVDT and VisDrone, the proposed YOLO-Drone outperforms state-of-the-art (SOTA) object detection methods by improving the mAP of 10.13% and 8.59%, respectively. With regards to UAVDT, the YOLO-Drone exhibits both high real-time inference speed of 53 FPS and a maximum mAP of 34.04%. Notably, YOLO-Drone achieves high performance under the silicon-based golden LEDs, with a mAP of up to 87.71%, surpassing the performance of YOLO series under ordinary light sources. To conclude, the proposed YOLO-Drone is a highly effective solution for object detection in UAV applications, particularly for night detection tasks where silicon-based golden light LED technology exhibits significant superiority.
翻訳日:2023-10-13 13:35:47 公開日:2023-10-11
# 局所的・大域的特徴の教師なし学習による映像アライメント

Video alignment using unsupervised learning of local and global features ( http://arxiv.org/abs/2304.06841v2 )

ライセンス: Link先を確認
Niloufar Fakhfour, Mohammad ShahverdiKondori, Hoda Mohammadzade(参考訳) 本稿では,ビデオアライメントの問題,類似したアクションを含む一対のビデオのフレームをマッチングするプロセスについて述べる。 ビデオアライメントの主な課題は、実行プロセスと2つのビデオ間の外観の違いにもかかわらず、正確な対応を確立することである。 本稿では,フレームのグローバルおよびローカルな特徴を用いたアライメントのための教師なし手法を提案する。 特に,人物検出,ポーズ推定,vggネットワークという3つのマシンビジョンツールを用いて,各映像フレームに有効な機能を導入する。 そして、その特徴を処理して合成し、ビデオを表す多次元時系列を構築する。 結果の時系列は、DDTW(Diagonalized Dynamic Time Warping)と呼ばれる動的時間ワープの新しいバージョンを使用して、同じアクションのビデオのアライメントに使用される。 このアプローチの主な利点は、トレーニングが不要であることです。これにより、トレーニングサンプルを収集する必要なしに、新たなタイプのアクションに適用することができます。 評価のために,Pennアクションデータセット上での映像同期と位相分類タスクを検討した。 また,ビデオ同期タスクを効果的に評価するために,Enclosed Area Error(EAE)と呼ばれる新しい指標を提案する。 以上の結果から,本手法は,TCCなどの従来の最先端手法や,自己管理手法や弱教師付き手法よりも優れていた。

In this paper, we tackle the problem of video alignment, the process of matching the frames of a pair of videos containing similar actions. The main challenge in video alignment is that accurate correspondence should be established despite the differences in the execution processes and appearances between the two videos. We introduce an unsupervised method for alignment that uses global and local features of the frames. In particular, we introduce effective features for each video frame using three machine vision tools: person detection, pose estimation, and VGG network. Then, the features are processed and combined to construct a multidimensional time series that represents the video. The resulting time series are used to align videos of the same actions using a novel version of dynamic time warping named Diagonalized Dynamic Time Warping(DDTW). The main advantage of our approach is that no training is required, which makes it applicable for any new type of action without any need to collect training samples for it. For evaluation, we considered video synchronization and phase classification tasks on the Penn action dataset. Also, for an effective evaluation of the video synchronization task, we present a new metric called Enclosed Area Error(EAE). The results show that our method outperforms previous state-of-the-art methods, such as TCC, and other self-supervised and weakly supervised methods.
翻訳日:2023-10-13 13:35:10 公開日:2023-10-11
# マルチモーダルモデルの融合に関する実証的研究

An Empirical Study of Multimodal Model Merging ( http://arxiv.org/abs/2304.14933v2 )

ライセンス: Link先を確認
Yi-Lin Sung, Linjie Li, Kevin Lin, Zhe Gan, Mohit Bansal, Lijuan Wang(参考訳) モデルマージ(例えば補間やタスク演算)は、異なるタスクで訓練された複数のモデルを融合させ、マルチタスクソリューションを生成する。 このテクニックは、同様のタスクと同じ初期化でモデルがトレーニングされる以前の研究で成功したことが証明されている。 本稿では,この概念をマルチモーダルな構成に拡張し,異なるモーダル性で訓練されたトランスフォーマーをマージする。 さらに,モダリティ固有のアーキテクチャの視覚,言語,クロスモーダルトランスフォーマーを融合し,パラメータ効率のよいモダリティ非依存アーキテクチャを構築するという,新たな目標に向けて研究を行う。 総合実験を通じて,初期化,統合機構,モデルアーキテクチャなど,統合後のモデル性能に影響を及ぼす要因を系統的に検討する。 また,合併すべき重み間の距離を評価し,合併結果の指標として機能する2つの指標を提案する。 本分析は,モデルマージによるモダリティ非依存ベースライン(スクラッチから事前学習したベースライン)の性能をマッチングするための効果的なトレーニングレシピを導出する。 また,VQAでは3%,COCO検索では7%,NLVR2では25%,Flickr30kでは14%,ADE20kでは3%に改善した。 私たちのコードはhttps://github.com/ylsung/vl-mergingで利用可能です。

Model merging (e.g., via interpolation or task arithmetic) fuses multiple models trained on different tasks to generate a multi-task solution. The technique has been proven successful in previous studies, where the models are trained on similar tasks and with the same initialization. In this paper, we expand on this concept to a multimodal setup by merging transformers trained on different modalities. Furthermore, we conduct our study for a novel goal where we can merge vision, language, and cross-modal transformers of a modality-specific architecture to create a parameter-efficient modality-agnostic architecture. Through comprehensive experiments, we systematically investigate the key factors impacting model performance after merging, including initialization, merging mechanisms, and model architectures. We also propose two metrics that assess the distance between weights to be merged and can serve as an indicator of the merging outcomes. Our analysis leads to an effective training recipe for matching the performance of the modality-agnostic baseline (i.e., pre-trained from scratch) via model merging. Our method also outperforms naive merging significantly on various tasks, with improvements of 3% on VQA, 7% on COCO retrieval, 25% on NLVR2, 14% on Flickr30k and 3% on ADE20k. Our code is available at https://github.com/ylsung/vl-merging
翻訳日:2023-10-13 13:28:26 公開日:2023-10-11
# 自己回帰言語モデルにおけるファクトアソシエーションの解答

Dissecting Recall of Factual Associations in Auto-Regressive Language Models ( http://arxiv.org/abs/2304.14767v2 )

ライセンス: Link先を確認
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson(参考訳) トランスフォーマティブベースの言語モデル(lms)は、そのパラメータの事実的知識をキャプチャすることが知られている。 以前の研究では、事実関連が格納されている場所を調査したが、推論中にどのように内部的に検索されるのかは、ほとんど分かっていない。 我々はこの質問を情報フローのレンズを通して検討する。 そこで本研究では,モデルが対象と関連性に関する情報を集約して正しい属性を予測する方法について検討する。 注意点への介入により、まず、情報が予測に伝播する2つの臨界点、すなわち、関係位置からの1つ、対象位置からのもう1つを識別する。 次に,これらの点の情報を解析することにより,属性抽出のための3段階の内部メカニズムを明らかにする。 まず、最終目的位置での表現は、初期のMLPサブレイヤーによって駆動される濃縮過程を経て、多くの主題関連属性を符号化する。 第2に、関係からの情報が予測に伝播する。 第三に、予測表現は、リッチな対象を「クエリ」して属性を抽出する。 おそらく驚くべきことに、この抽出は一般的に注意頭を通して行われ、しばしばパラメーターの主題属性マッピングを符号化する。 総じて,事実関係が lms 内でどのように保存・抽出されるのかを包括的に把握し,知識の局在化と編集に関する今後の研究を促進する。

Transformer-based language models (LMs) are known to capture factual knowledge in their parameters. While previous work looked into where factual associations are stored, only little is known about how they are retrieved internally during inference. We investigate this question through the lens of information flow. Given a subject-relation query, we study how the model aggregates information about the subject and relation to predict the correct attribute. With interventions on attention edges, we first identify two critical points where information propagates to the prediction: one from the relation positions followed by another from the subject positions. Next, by analyzing the information at these points, we unveil a three-step internal mechanism for attribute extraction. First, the representation at the last-subject position goes through an enrichment process, driven by the early MLP sublayers, to encode many subject-related attributes. Second, information from the relation propagates to the prediction. Third, the prediction representation "queries" the enriched subject to extract the attribute. Perhaps surprisingly, this extraction is typically done via attention heads, which often encode subject-attribute mappings in their parameters. Overall, our findings introduce a comprehensive view of how factual associations are stored and extracted internally in LMs, facilitating future research on knowledge localization and editing.
翻訳日:2023-10-13 13:28:00 公開日:2023-10-11
# 大規模言語モデルにおけるアライメントの基本限界

Fundamental Limitations of Alignment in Large Language Models ( http://arxiv.org/abs/2304.11082v4 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Oshri Avnery, Yoav Levine, Amnon Shashua(参考訳) 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。 これは通常、望ましい振る舞いを高め、望ましくない振る舞い、すなわちアライメントと呼ばれるプロセスを抑制する方法でモデルを調整することによって達成される。 本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。 重要なことに、このフレームワークの限界内では、モデルによって提示される確率が有限である任意の挙動に対して、プロンプトの長さとともに増加する確率で、モデルにこの挙動を出力させるようなプロンプトが存在することを証明している。 これは、望ましくない振る舞いを弱め、完全に取り除かないアライメントプロセスは、敵対的な攻撃に対して安全ではないことを意味する。 さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,LLMを望ましくない行動に駆り立てる傾向があることを示唆している。 この理論結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。 この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムを考案する必要が生じた。

An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that within the limits of this framework, for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates an undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback make the LLM prone to being prompted into the undesired behaviors. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary "chatGPT jailbreaks", where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.
翻訳日:2023-10-13 13:26:06 公開日:2023-10-11
# ReLUネットワークロバストネスのための量子コンピューティングにおけるMILPの効率的な分解

Efficient MILP Decomposition in Quantum Computing for ReLU Network Robustness ( http://arxiv.org/abs/2305.00472v2 )

ライセンス: Link先を確認
Nicola Franco, Tom Wollschl\"ager, Benedikt Poggel, Stephan G\"unnemann, Jeanette Miriam Lorenz(参考訳) Noisy Intermediate-Scale Quantum (NISQ) デバイスのような新しい量子コンピューティング技術は、数学的最適化問題の解決において潜在的な進歩をもたらす。 しかし、qubitの可用性、ノイズ、エラーの制限は、実用的な実装に困難をもたらす。 本研究では,本研究の課題を縮小するために設計された混合整数線形計画法(milp)の2つの分解法について検討し,利用可能なnisqデバイスをより効率的に利用する。 我々は、元の問題をより小さな部分問題に分割することに集中し、量子古典的ハードウェアアプローチを組み合わせることで反復的に解決する。 我々はBenders法とDantzig-Wolfe法でMILPの分解を詳細に解析する。 解析では、ベンダーズを解くのに必要な量子ビットの数は、最悪の場合指数関数的に大きいが、ダンツィヒ=ウォルフは一定である。 さらに,reluネットワークのロバスト性を検証するために,dantzig-wolfe分解を利用する。 実験の結果,従来の量子アニール法やゲートベース量子コンピュータと比較して最大90%の量子ビットを削減できることがわかった。

Emerging quantum computing technologies, such as Noisy Intermediate-Scale Quantum (NISQ) devices, offer potential advancements in solving mathematical optimization problems. However, limitations in qubit availability, noise, and errors pose challenges for practical implementation. In this study, we examine two decomposition methods for Mixed-Integer Linear Programming (MILP) designed to reduce the original problem size and utilize available NISQ devices more efficiently. We concentrate on breaking down the original problem into smaller subproblems, which are then solved iteratively using a combined quantum-classical hardware approach. We conduct a detailed analysis for the decomposition of MILP with Benders and Dantzig-Wolfe methods. In our analysis, we show that the number of qubits required to solve Benders is exponentially large in the worst-case, while remains constant for Dantzig-Wolfe. Additionally, we leverage Dantzig-Wolfe decomposition on the use-case of certifying the robustness of ReLU networks. Our experimental results demonstrate that this approach can save up to 90\% of qubits compared to existing methods on quantum annealing and gate-based quantum computers.
翻訳日:2023-10-13 13:13:59 公開日:2023-10-11
# tidybot:大型言語モデルによるパーソナライズされたロボット支援

TidyBot: Personalized Robot Assistance with Large Language Models ( http://arxiv.org/abs/2305.05658v2 )

ライセンス: Link先を確認
Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser(参考訳) ロボットが身体支援を効果的にパーソナライズするには、将来のシナリオに一般的に適用可能なユーザの好みを学習する必要がある。 本研究では,物体を拾って片付けることで部屋を掃除できるロボットによる家庭用クリーンアップのパーソナライズについて検討する。 重要な課題は、個人の好みや文化的背景によって人の好みが大きく変わるため、各対象を配置する適切な場所を決定することである。 例えば、ある人はシャツを引き出しに保管することを好むが、別の人は棚にシャツを保管することを好む。 我々は、特定の人との事前のインタラクションを通じて、少数の例からそのような好みを学習できるシステムを構築することを目指している。 ロボットは、言語に基づく計画と知覚を、大規模言語モデル(LLM)の数発の要約能力と組み合わせて、将来の対話に広く適用可能な一般化されたユーザの嗜好を推論できることを示す。 このアプローチは高速適応が可能で、ベンチマークデータセットで未認識のオブジェクトに対して91.2%の精度を実現します。 また、実世界のテストシナリオで85.0%のオブジェクトを取り除いたtidybotという実世界の移動マニピュレータへのアプローチを実証した。

For a robot to personalize physical assistance effectively, it must learn user preferences that can be generally reapplied to future scenarios. In this work, we investigate personalization of household cleanup with robots that can tidy up rooms by picking up objects and putting them away. A key challenge is determining the proper place to put each object, as people's preferences can vary greatly depending on personal taste or cultural background. For instance, one person may prefer storing shirts in the drawer, while another may prefer them on the shelf. We aim to build systems that can learn such preferences from just a handful of examples via prior interactions with a particular person. We show that robots can combine language-based planning and perception with the few-shot summarization capabilities of large language models (LLMs) to infer generalized user preferences that are broadly applicable to future interactions. This approach enables fast adaptation and achieves 91.2% accuracy on unseen objects in our benchmark dataset. We also demonstrate our approach on a real-world mobile manipulator called TidyBot, which successfully puts away 85.0% of objects in real-world test scenarios.
翻訳日:2023-10-13 13:07:08 公開日:2023-10-11
# スキーマ適応型知識グラフ構築

Schema-adaptable Knowledge Graph Construction ( http://arxiv.org/abs/2305.08703v3 )

ライセンス: Link先を確認
Hongbin Ye, Honghao Gui, Xin Xu, Huajun Chen, Ningyu Zhang(参考訳) 従来の知識グラフ構築(KGC)アプローチは、通常、事前定義されたスキーマの閉じたセットで静的情報抽出パラダイムに従う。 その結果、動的なシナリオやドメインに適用した場合、このようなアプローチは短くなりますが、新しいタイプの知識が生まれます。 これは、KGCの情報を取り出すために、進化するスキーマを自動で処理できるシステムを必要とする。 そこで本研究では,動的に変化するスキーマグラフに基づくエンティティ,関係,イベントの連続抽出を目的とした,スキーマ対応型kgcという新たなタスクを提案する。 まず、ベンチマークを構築するための3つの原則、すなわち水平スキーマ拡張、垂直スキーマ拡張、ハイブリッドスキーマ拡張に基づいて既存のデータセットを分割、変換し、その後、Text2Event、TANL、UIE、GPT-3.5といったよく知られたアプローチのスキーマ適応性能を調査した。 さらに,スキーマ拡張型プレフィックスインストラクタとスキーマ条件付き動的デコードを含む,シンプルかつ効果的なベースラインである \textsc{adakgc} を提案する。 総合的な実験結果から、AdaKGCはベースラインより優れているが、改善の余地があることが示された。 提案された作業がコミュニティに利益をもたらすことを願っています。 コードとデータセットはhttps://github.com/zjunlp/adakgc。

Conventional Knowledge Graph Construction (KGC) approaches typically follow the static information extraction paradigm with a closed set of pre-defined schema. As a result, such approaches fall short when applied to dynamic scenarios or domains, whereas a new type of knowledge emerges. This necessitates a system that can handle evolving schema automatically to extract information for KGC. To address this need, we propose a new task called schema-adaptable KGC, which aims to continually extract entity, relation, and event based on a dynamically changing schema graph without re-training. We first split and convert existing datasets based on three principles to build a benchmark, i.e., horizontal schema expansion, vertical schema expansion, and hybrid schema expansion; then investigate the schema-adaptable performance of several well-known approaches such as Text2Event, TANL, UIE and GPT-3.5. We further propose a simple yet effective baseline dubbed \textsc{AdaKGC}, which contains schema-enriched prefix instructor and schema-conditioned dynamic decoding to better handle evolving schema. Comprehensive experimental results illustrate that AdaKGC can outperform baselines but still have room for improvement. We hope the proposed work can deliver benefits to the community. Code and datasets available at https://github.com/zjunlp/AdaKGC.
翻訳日:2023-10-13 12:56:36 公開日:2023-10-11
# クリフォード群同変ニューラルネットワーク

Clifford Group Equivariant Neural Networks ( http://arxiv.org/abs/2305.11141v2 )

ライセンス: Link先を確認
David Ruhe, Johannes Brandstetter, Patrick Forr\'e(参考訳) 我々は、clifford group equivariant neural networks: $\mathrm{o}(n)$- および $\mathrm{e}(n)$-同変モデルを構築するための新しいアプローチを紹介する。 クリフォード代数内の部分群である $\textit{Clifford group}$ を特定し、研究し、その定義を調整していくつかの好ましい性質を達成する。 主に、群の作用は直交自己同型を形成し、これは典型的なベクトル空間を越えてクリフォード代数全体へ拡張し、乗ベクトル階調を尊重する。 これにより、多重ベクトル分解に対応する複数の非同値な部分表現が導かれる。 さらに、作用はクリフォード代数のベクトル空間構造だけでなく、その乗法構造、すなわち幾何学積も尊重していることを証明する。 これらの結果から、乗ベクトルのすべての多項式は、任意の次元の内積空間に優雅に一般化できる表現的層が得られるという利点がある。 特に,1つのコア実装,3次元$n$-body実験,4次元Lorentz-equivariant高エネルギー物理実験,5次元凸船体実験など,いくつかの異なるタスクにおける最先端性能を実証する。

We introduce Clifford Group Equivariant Neural Networks: a novel approach for constructing $\mathrm{O}(n)$- and $\mathrm{E}(n)$-equivariant models. We identify and study the $\textit{Clifford group}$, a subgroup inside the Clifford algebra whose definition we adjust to achieve several favorable properties. Primarily, the group's action forms an orthogonal automorphism that extends beyond the typical vector space to the entire Clifford algebra while respecting the multivector grading. This leads to several non-equivalent subrepresentations corresponding to the multivector decomposition. Furthermore, we prove that the action respects not just the vector space structure of the Clifford algebra but also its multiplicative structure, i.e., the geometric product. These findings imply that every polynomial in multivectors, An advantage worth mentioning is that we obtain expressive layers that can elegantly generalize to inner-product spaces of any dimension. We demonstrate, notably from a single core implementation, state-of-the-art performance on several distinct tasks, including a three-dimensional $n$-body experiment, a four-dimensional Lorentz-equivariant high-energy physics experiment, and a five-dimensional convex hull experiment.
翻訳日:2023-10-13 12:47:47 公開日:2023-10-11
# 事前学習型言語モデルの知識リミネーション

Knowledge Rumination for Pre-trained Language Models ( http://arxiv.org/abs/2305.08732v3 )

ライセンス: Link先を確認
Yunzhi Yao, Peng Wang, Shengyu Mao, Chuanqi Tan, Fei Huang, Huajun Chen, Ningyu Zhang(参考訳) これまでの研究では、バニラ事前学習言語モデル(PLM)は知識集約型NLPタスクのみを扱う能力に欠けており、いくつかの研究が外部知識をPLMに統合しようと試みている。 しかし, 有望な結果にもかかわらず, PLMは事前学習したパラメータの豊富な知識をすでにコード化しており, 知識集約的なタスクに適用しても十分に活用できないことを実証的に観察する。 本稿では,学習済み言語モデルが外部コーパスから検索することなく関連する潜在知識を活用できるように,知識ラミネーションと呼ばれる新しいパラダイムを提案する。 PLMに"私の知る限り"のようなプロンプトを追加するだけで、私たちは関連する潜伏した知識をレビューして、それらを知識統合のモデルに注入しようとします。 本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。 6つのコモンセンス推論タスクとglueベンチマークの実験結果は,提案手法の有効性を実証するものであり,plmに格納されている知識をより活用して性能を向上させることができることを示した。 コードはhttps://github.com/zjunlp/knowledge-ruminationで入手できる。

Previous studies have revealed that vanilla pre-trained language models (PLMs) lack the capacity to handle knowledge-intensive NLP tasks alone; thus, several works have attempted to integrate external knowledge into PLMs. However, despite the promising outcome, we empirically observe that PLMs may have already encoded rich knowledge in their pre-trained parameters but fail to fully utilize them when applying them to knowledge-intensive tasks. In this paper, we propose a new paradigm dubbed Knowledge Rumination to help the pre-trained language model utilize that related latent knowledge without retrieving it from the external corpus. By simply adding a prompt like "As far as I know" to the PLMs, we try to review related latent knowledge and inject them back into the model for knowledge consolidation. We apply the proposed knowledge rumination to various language models, including RoBERTa, DeBERTa, and GPT-3. Experimental results on six commonsense reasoning tasks and GLUE benchmarks demonstrate the effectiveness of our proposed approach, which proves that the knowledge stored in PLMs can be better exploited to enhance performance. Code is available in https://github.com/zjunlp/knowledge-rumination.
翻訳日:2023-10-13 12:44:31 公開日:2023-10-11
# 事前学習型言語モデルの知識リミネーション

Knowledge Rumination for Pre-trained Language Models ( http://arxiv.org/abs/2305.08732v2 )

ライセンス: Link先を確認
Yunzhi Yao, Peng Wang, Shengyu Mao, Chuanqi Tan, Fei Huang, Huajun Chen, Ningyu Zhang(参考訳) これまでの研究では、バニラ事前学習言語モデル(PLM)は知識集約型NLPタスクのみを扱う能力に欠けており、いくつかの研究が外部知識をPLMに統合しようと試みている。 しかし, 有望な結果にもかかわらず, PLMは事前学習したパラメータの豊富な知識をすでにコード化しており, 知識集約的なタスクに適用しても十分に活用できないことを実証的に観察する。 本稿では,学習済み言語モデルが外部コーパスから検索することなく関連する潜在知識を活用できるように,知識ラミネーションと呼ばれる新しいパラダイムを提案する。 PLMに"私の知る限り"のようなプロンプトを追加するだけで、私たちは関連する潜伏した知識をレビューして、それらを知識統合のモデルに注入しようとします。 本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。 6つのコモンセンス推論タスクとglueベンチマークの実験結果は,提案手法の有効性を実証するものであり,plmに格納されている知識をより活用して性能を向上させることができることを示した。 コードはhttps://github.com/zjunlp/knowledge-ruminationで入手できる。

Previous studies have revealed that vanilla pre-trained language models (PLMs) lack the capacity to handle knowledge-intensive NLP tasks alone; thus, several works have attempted to integrate external knowledge into PLMs. However, despite the promising outcome, we empirically observe that PLMs may have already encoded rich knowledge in their pre-trained parameters but fail to fully utilize them when applying them to knowledge-intensive tasks. In this paper, we propose a new paradigm dubbed Knowledge Rumination to help the pre-trained language model utilize that related latent knowledge without retrieving it from the external corpus. By simply adding a prompt like "As far as I know" to the PLMs, we try to review related latent knowledge and inject them back into the model for knowledge consolidation. We apply the proposed knowledge rumination to various language models, including RoBERTa, DeBERTa, and GPT-3. Experimental results on six commonsense reasoning tasks and GLUE benchmarks demonstrate the effectiveness of our proposed approach, which proves that the knowledge stored in PLMs can be better exploited to enhance performance. Code is available in https://github.com/zjunlp/knowledge-rumination.
翻訳日:2023-10-13 12:44:10 公開日:2023-10-11
# FActScore:ロングフォームテキスト生成におけるFactual Precisionの微粒化評価

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation ( http://arxiv.org/abs/2305.14251v2 )

ライセンス: Link先を確認
Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, Hannaneh Hajishirzi(参考訳) 大規模言語モデル(lms)によって生成された長文の事実性の評価は、(1)世代はサポート対象とサポート対象の情報の混合を含むことが多く、品質の二元的判断が不十分であり、(2)人間評価は時間がかかり、費用がかかるため、自明ではない。 本稿では、世代を一連の原子事実に分解し、信頼できる知識ソースによって支えられる原子事実の割合を計算する新しい評価であるFACTSCOREを紹介する。 InstructGPT, ChatGPT, and the search-augmented PerplexityAI が生み出した人体バイオグラフィーのFACTSCOREを広範囲にわたる人体評価を行い, このような微粒なスコアの必要性を示す新たな分析を報告した(例: ChatGPTは58%しか達成していない)。 人的評価はコストがかかるため,検索を用いてFACTSCOREを推定する自動モデルや,2%未満のエラー率を持つ強力な言語モデルも導入する。 最後に、この自動化メトリックを使用して、最新の13のlsmから6,500世代を評価しています。これは、人間によって評価されれば26kドル(約2万2000円)かかります。 FACTSCOREは 'pip install factscore` を通じてパブリックに利用できる。

Evaluating the factuality of long-form text generated by large language models (LMs) is non-trivial because (1) generations often contain a mixture of supported and unsupported pieces of information, making binary judgments of quality inadequate, and (2) human evaluation is time-consuming and costly. In this paper, we introduce FACTSCORE, a new evaluation that breaks a generation into a series of atomic facts and computes the percentage of atomic facts supported by a reliable knowledge source. We conduct an extensive human evaluation to obtain FACTSCOREs of people biographies generated by several state-of-the-art commercial LMs -- InstructGPT, ChatGPT, and the retrieval-augmented PerplexityAI -- and report new analysis demonstrating the need for such a fine-grained score (e.g., ChatGPT only achieves 58%). Since human evaluation is costly, we also introduce an automated model that estimates FACTSCORE using retrieval and a strong language model, with less than a 2% error rate. Finally, we use this automated metric to evaluate 6,500 generations from a new set of 13 recent LMs that would have cost $26K if evaluated by humans, with various findings: GPT-4 and ChatGPT are more factual than public models, and Vicuna and Alpaca are some of the best public models. FACTSCORE is available for public use via `pip install factscore`.
翻訳日:2023-10-13 12:35:59 公開日:2023-10-11
# 大規模言語モデルの編集:問題、方法、機会

Editing Large Language Models: Problems, Methods, and Opportunities ( http://arxiv.org/abs/2305.13172v2 )

ライセンス: Link先を確認
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang(参考訳) 有能なLDMを訓練する能力にもかかわらず、それらの関連性を維持し、エラーを是正する方法論はいまだ解明されていない。 この目的のために、ここ数年でLSMの編集技術が急増し、その目的は、他の入力に悪影響を及ぼすことなく、特定のドメイン内のLSMの動作を効率的に変更することにある。 本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。 特に、現在廃棄されている最も進歩的な方法の詳細な経験的分析とともに、モデル編集に関連するタスク定義と課題を徹底的に概観する。 また、より堅牢な評価と、既存の技術に固有の永続的な問題を特定できるように、新しいベンチマークデータセットを構築しました。 本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。 コードとデータセットはhttps://github.com/zjunlp/EasyEditで入手できる。

Despite the ability to train capable LLMs, the methodology for maintaining their relevancy and rectifying errors remains elusive. To this end, the past few years have witnessed a surge in techniques for editing LLMs, the objective of which is to efficiently alter the behavior of LLMs within a specific domain without negatively impacting performance across other inputs. This paper embarks on a deep exploration of the problems, methods, and opportunities related to model editing for LLMs. In particular, we provide an exhaustive overview of the task definition and challenges associated with model editing, along with an in-depth empirical analysis of the most progressive methods currently at our disposal. We also build a new benchmark dataset to facilitate a more robust evaluation and pinpoint enduring issues intrinsic to existing techniques. Our objective is to provide valuable insights into the effectiveness and feasibility of each editing technique, thereby assisting the community in making informed decisions on the selection of the most appropriate method for a specific task or context. Code and datasets are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2023-10-13 12:35:30 公開日:2023-10-11
# クリフォード群同変ニューラルネットワーク

Clifford Group Equivariant Neural Networks ( http://arxiv.org/abs/2305.11141v3 )

ライセンス: Link先を確認
David Ruhe, Johannes Brandstetter, Patrick Forr\'e(参考訳) 我々は、clifford group equivariant neural networks: $\mathrm{o}(n)$- および $\mathrm{e}(n)$-同変モデルを構築するための新しいアプローチを紹介する。 クリフォード代数内の部分群である $\textit{Clifford group}$ を特定し、研究し、その定義を調整していくつかの好ましい性質を達成する。 主に、群の作用は直交自己同型を形成し、これは典型的なベクトル空間を越えてクリフォード代数全体へ拡張し、乗ベクトル階調を尊重する。 これにより、多重ベクトル分解に対応する複数の非同値な部分表現が導かれる。 さらに、作用はクリフォード代数のベクトル空間構造だけでなく、その乗法構造、すなわち幾何学積も尊重していることを証明する。 これらの結果から、乗ベクトルのすべての多項式は、任意の次元の内積空間に優雅に一般化できる表現的層が得られるという利点がある。 特に,1つのコア実装,3次元$n$-body実験,4次元Lorentz-equivariant高エネルギー物理実験,5次元凸船体実験など,いくつかの異なるタスクにおける最先端性能を実証する。

We introduce Clifford Group Equivariant Neural Networks: a novel approach for constructing $\mathrm{O}(n)$- and $\mathrm{E}(n)$-equivariant models. We identify and study the $\textit{Clifford group}$, a subgroup inside the Clifford algebra whose definition we adjust to achieve several favorable properties. Primarily, the group's action forms an orthogonal automorphism that extends beyond the typical vector space to the entire Clifford algebra while respecting the multivector grading. This leads to several non-equivalent subrepresentations corresponding to the multivector decomposition. Furthermore, we prove that the action respects not just the vector space structure of the Clifford algebra but also its multiplicative structure, i.e., the geometric product. These findings imply that every polynomial in multivectors, An advantage worth mentioning is that we obtain expressive layers that can elegantly generalize to inner-product spaces of any dimension. We demonstrate, notably from a single core implementation, state-of-the-art performance on several distinct tasks, including a three-dimensional $n$-body experiment, a four-dimensional Lorentz-equivariant high-energy physics experiment, and a five-dimensional convex hull experiment.
翻訳日:2023-10-13 12:32:22 公開日:2023-10-11
# 分割リカレント変圧器:効率的なシーケンス対シーケンスモデル

Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model ( http://arxiv.org/abs/2305.16340v2 )

ライセンス: Link先を確認
Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy(参考訳) トランスフォーマーは、言語やビジョンを含むさまざまな領域で支配的なパフォーマンスを示している。 しかし、計算コストはシーケンス長と二乗的に増大し、リソース制約のあるアプリケーションでは使用が禁止される。 これに対応するために,本手法では,シーケンス全体をセグメントに分割し,各セグメントに局所的な注意機構を用いる。 本稿では,セグメント化(局所的)注意と再帰的注意を組み合わせたセグメント化再帰変圧器(srformer)を提案する。 注意窓の長さを減少させることによる損失は、繰り返し注目されるセグメント間で情報を集約することで補償される。 SRformerは、RAF(Recurrent Accumulate-and-Fire)ニューロン固有のメモリを利用して、キーと値の累積積積を更新する。 分割された注意と軽量RAFニューロンは、提案したトランスの効率性を保証する。 このようなアプローチは、より低い計算/メモリコストでシーケンシャルな処理能力を持つモデルにつながる。 提案手法をT5およびBARTトランスに適用する。 修正されたモデルは、CNN-dailymail、XSUM、ArXiv、MediaSUMなどの要約データセットでテストされる。 特に、様々なサイズのセグメント入力を用いて、提案モデルは、セグメントトランスよりも6-22\%高いrouge1スコアを達成し、他の再帰トランスフォーマーアプローチよりも優れています。 さらに,本モデルでは,全注意と比較してクロス注意の計算複雑性を約$40\%$削減する。

Transformers have shown dominant performance across a range of domains including language and vision. However, their computational cost grows quadratically with the sequence length, making their usage prohibitive for resource-constrained applications. To counter this, our approach is to divide the whole sequence into segments and use local attention mechanism on the individual segments. We propose a segmented recurrent transformer (SRformer) that combines segmented (local) attention with recurrent attention. The loss caused by reducing the attention window length is compensated by aggregating information across segments with recurrent attention. SRformer leverages Recurrent Accumulate-and-Fire (RAF) neurons' inherent memory to update the cumulative product of keys and values. The segmented attention and lightweight RAF neurons ensure the efficiency of the proposed transformer. Such an approach leads to models with sequential processing capability at a lower computation/memory cost. We apply the proposed method to T5 and BART transformers. The modified models are tested on summarization datasets including CNN-dailymail, XSUM, ArXiv, and MediaSUM. Notably, using segmented inputs of varied sizes, the proposed model achieves $6-22\%$ higher ROUGE1 scores than a segmented transformer and outperforms other recurrent transformer approaches. Furthermore, compared to full attention, the proposed model reduces the computational complexity of cross attention by around $40\%$.
翻訳日:2023-10-13 12:04:59 公開日:2023-10-11
# LLMは十分に進歩したか? 大規模言語モデルのベンチマークを解く問題

Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models ( http://arxiv.org/abs/2305.15074v2 )

ライセンス: Link先を確認
Daman Arora, Himanshu Gaurav Singh, Mausam(参考訳) 既存の推論ベンチマークにおける大規模言語モデル(LLM)の性能は、ここ数年で大幅に改善されている。 これに対して我々は,LLMの問題解決能力を評価する上で,かなり難しいベンチマークデータセットであるJEEBenchを提案する。 競争力の高いIIT JEE-Advanced試験から, 数学, 物理, 化学の課題を515点評価した。 このベンチマークで問題を解くには、ドメイン内知識の深層に基づくロングホリゾン推論が不可欠です。 オープンソースおよびプロプライエタリなモデルによる評価から,自己一貫性や自己定義,思考の連鎖といった手法を用いた場合においても,最高性能は40%未満であることが判明した。 GPT-4の典型的な失敗モードは、代数的操作における誤り、抽象的な概念を数学的方程式に正確に基底付けることの難しさ、関連するドメイン固有の概念の取得の失敗である。 また,GPT-4は誤答に対する負のマーキングによって引き起こされるリスクを評価することができない。 そこで本研究では,自己整合性に対する保温後信頼性保持手法を開発し,効果的な応答選択を実現する。 LLMを用いた問題解決における今後の研究を,我々の挑戦的なベンチマークが導くことを期待します。

The performance of large language models (LLMs) on existing reasoning benchmarks has significantly improved over the past years. In response, we present JEEBench, a considerably more challenging benchmark dataset for evaluating the problem solving abilities of LLMs. We curate 515 challenging pre-engineering mathematics, physics and chemistry problems from the highly competitive IIT JEE-Advanced exam. Long-horizon reasoning on top of deep in-domain knowledge is essential for solving problems in this benchmark. Our evaluation on various open-source and proprietary models reveals that the highest performance, even after using techniques like self-consistency, self-refinement and chain-of-thought prompting, is less than 40\%. The typical failure modes of GPT-4, the best model, are errors in algebraic manipulation, difficulty in grounding abstract concepts into mathematical equations accurately and failure in retrieving relevant domain-specific concepts. We also observe that by mere prompting, GPT-4 is unable to assess risk introduced by negative marking for incorrect answers. For this, we develop a post-hoc confidence-thresholding method over self-consistency, which enables effective response selection. We hope that our challenging benchmark will guide future re-search in problem-solving using LLMs.
翻訳日:2023-10-13 12:04:17 公開日:2023-10-11
# アウトレーヤによる三元データのクラスタリング

Clustering Three-Way Data with Outliers ( http://arxiv.org/abs/2310.05288v2 )

ライセンス: Link先を確認
Katharine M. Clark and Paul D. McNicholas(参考訳) 行列変量分布は、最近のモデルベースのクラスタリングフィールドの追加であり、画像や時系列のような複雑な構造を持つ行列形式のデータを解析することができる。 近年の出現により、行列変量データに関する文献は限られており、これらのモデルでは外れ値を扱うことはより少ない。 行列変量正規データを異常値でクラスタリングする手法について論じる。 このアプローチは、サブセットログライクな分布の分布を使用し、oclustアルゴリズムを行列変数正規データに拡張し、反復的なアプローチで外れ値の検出とトリムを行う。

Matrix-variate distributions are a recent addition to the model-based clustering field, thereby making it possible to analyze data in matrix form with complex structure such as images and time series. Due to its recent appearance, there is limited literature on matrix-variate data, with even less on dealing with outliers in these models. An approach for clustering matrix-variate normal data with outliers is discussed. The approach, which uses the distribution of subset log-likelihoods, extends the OCLUST algorithm to matrix-variate normal data and uses an iterative approach to detect and trim outliers.
翻訳日:2023-10-13 11:30:51 公開日:2023-10-11
# 貨幣の新しい経済・金融理論

A new economic and financial theory of money ( http://arxiv.org/abs/2310.04986v2 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) 本論文は,電子通貨を含む経済・金融理論を根本的に改革する。 電子通貨の評価は、割引キャッシュフローのミクロ経済理論ではなく、マクロ経済理論と金融政策の基本方程式に基づいて行われる。 サブエコノミーの有形資産に付随する取引的エクイティとしての電子通貨の考え方は、主にサブエコノミーの無形資産に付随する株式としての株式の考え方とは対照的に発展する。 この見解は、実質的な(電子通貨の流動性のために)金融(電子通貨供給及び価値安定化)及び財政(投資及び運用)政策の調整を行う機関として、電子通貨管理会社によって策定される。 評価と意思決定で使用されるリスクモデルは、ディスカウント率につながるユビキタスで不適切な指数的リスクモデルではなく、真のリスクを捉えるマルチタイムスケールモデルになります。 意思決定は、多スケールリスクモデルと、Deep Reinforcement Learning、Generative Pretrained Transformers、その他の人工知能(DRL/GPT/AI)を利用したシステムコントローラによって与えられるシステム応答関数に基づいて、真のシステム制御の観点からアプローチされる。 最後に、サブエコノミーは、短期的な利用に関連する安定平衡と、マルチスケールのシステム応答関数とDRL/GPT/AIに基づくアクティブな非線形制御で安定化する必要がある不安定平衡の両方を持つ非線形複素物理系と見なされる。

This paper fundamentally reformulates economic and financial theory to include electronic currencies. The valuation of the electronic currencies will be based on macroeconomic theory and the fundamental equation of monetary policy, not the microeconomic theory of discounted cash flows. The view of electronic currency as a transactional equity associated with tangible assets of a sub-economy will be developed, in contrast to the view of stock as an equity associated mostly with intangible assets of a sub-economy. The view will be developed of the electronic currency management firm as an entity responsible for coordinated monetary (electronic currency supply and value stabilization) and fiscal (investment and operational) policies of a substantial (for liquidity of the electronic currency) sub-economy. The risk model used in the valuations and the decision-making will not be the ubiquitous, yet inappropriate, exponential risk model that leads to discount rates, but will be multi time scale models that capture the true risk. The decision-making will be approached from the perspective of true systems control based on a system response function given by the multi scale risk model and system controllers that utilize the Deep Reinforcement Learning, Generative Pretrained Transformers, and other methods of Artificial Intelligence (DRL/GPT/AI). Finally, the sub-economy will be viewed as a nonlinear complex physical system with both stable equilibriums that are associated with short-term exploitation, and unstable equilibriums that need to be stabilized with active nonlinear control based on the multi scale system response functions and DRL/GPT/AI.
翻訳日:2023-10-13 11:30:19 公開日:2023-10-11
# デルタ$層トンネル接合部のトンネル電流に対する電気的高モーメントダイポールの異方性効果の解明

Uncovering anisotropic effects of electric high-moment dipoles on the tunneling current in $\delta$-layer tunnel junctions ( http://arxiv.org/abs/2310.06704v2 )

ライセンス: Link先を確認
Juan P. Mendez and Denis Mamaluy(参考訳) 走査トンネル顕微鏡を用いた半導体中のドーパントの正確な位置決めは、古典的および量子コンピューティングにおける新しい概念の探索を促進するために、$\delta$-layersとも呼ばれる平面ドーパントベースのデバイスの開発につながった。 近年、$\delta$-layer 系の導電帯に準離散状態と連続状態が存在するため、$\delta$-layer のトンネル接合に2つの異なる導電系(低バイアスと高バイアス)が存在することが示されている。 さらに, トンネル接合部の荷電不純物は, $\delta$-layer トンネル接合部のトンネル速度に大きな影響を及ぼす。 ここでは, トンネル接合部に存在するゼロ電荷不純物, 電気的双極子が, 比導電率や双極子の配向, モーメントに応じてトンネル速度を著しく変化させることができることを示す。 ほぼすべての方向とモーメントの高抵抗トンネルモードの双極子不純物を持つ低バイアス状態においては、トンネルギャップのわずかな不完全性に対するトンネル電流の極端な感度を示す電流を変化させることができる。 低抵抗の高バイアスでは、電子トンネル方向に垂直な方向に配向した高モーメントの双極子欠陥のみが電流に著しく影響するため、この導電性は、低モーメントまたは双極子を伝播方向に沿って向いた双極子欠陥の影響を著しく減少させる。

The precise positioning of dopants in semiconductors using scanning tunneling microscopes has led to the development of planar dopant-based devices, also known as $\delta$-layers, facilitating the exploration of new concepts in classical and quantum computing. Recently it have been shown that two distinct conductivity regimes (low- and high- bias regimes) exist in $\delta$-layer tunnel junctions due to the presence of quasi-discrete and continuous states in the conduction band of $\delta$-layer systems. Furthermore, discrete charged impurities in the tunnel junction region significantly influence the tunneling rates in $\delta$-layer tunnel junctions. Here we demonstrate that zero-charge impurities, or electrical dipoles, present in the tunnel junction region can also significantly alter the tunneling rate, depending, however, on the specific conductivity regime and orientation and moment of the dipole. In the low-bias regime with high-resistance tunneling mode dipole impurities of nearly all orientations and moments can alter the current, indicating the extreme sensitivity of the tunnel current to the slightest imperfection in the tunnel gap. In the high-bias regime with low-resistivity only dipole defects with high moment and orientated in the direction perpendicular to the electron tunneling direction can significantly affect the current, thus making this conductivity regime significantly less prone to the influence of dipole defects with low-moment or dipoles oriented along the propagation direction.
翻訳日:2023-10-13 11:21:08 公開日:2023-10-11
# バッテリー駆動の電気自動車ユーザーの距離不安:距離と待ち時間の両方

Range Anxiety Among Battery Electric Vehicle Users: Both Distance and Waiting Time Matter ( http://arxiv.org/abs/2306.05768v2 )

ライセンス: Link先を確認
Jiyao Wang, Chunxi Huang, Dengbo He, Ran Tu(参考訳) 距離不安は、バッテリ電気自動車(BEV)ユーザーや潜在的なユーザーにとって大きな関心事である。 前回の研究では、距離関連範囲不安の影響要因を調査した。 しかし、時間に関する不安が探求されることはほとんどない。 BEVの充電や充電待ちの時間費用は、BEVユーザーの経験に悪影響を及ぼす可能性がある。 予備実験として,バッテリレベルと時間コストの両方が懸念されるシナリオにおいて,bevユーザの課金判断を観察することで,時間に関わる不安について検討した。 中国本土のBEV利用者217名から回答を収集,分析した。 その結果、時間に関わる不安が存在し、ユーザーの課金決定に影響を及ぼすことが判明した。 さらに、ユーザの課金決定は、距離関連と時間関連不安のトレードオフの結果であり、いくつかの外部要因(例えば、地域や個人差)によって緩和される可能性がある。 この結果は、充電ステーション分布の最適化とEV充電推奨アルゴリズムを支援することができる。

Range anxiety is a major concern of battery electric vehicles (BEVs) users or potential users. Previous work has explored the influential factors of distance-related range anxiety. However, time-related range anxiety has rarely been explored. The time cost when charging or waiting to charge the BEVs can negatively impact BEV users' experience. As a preliminary attempt, this survey study investigated time-related anxiety by observing BEV users' charging decisions in scenarios when both battery level and time cost are of concern. We collected and analyzed responses from 217 BEV users in mainland China. The results revealed that time-related anxiety exists and could affect users' charging decisions. Further, users' charging decisions can be a result of the trade-off between distance-related and time-related anxiety, and can be moderated by several external factors (e.g., regions and individual differences). The findings can support the optimization of charge station distribution and EV charge recommendation algorithms.
翻訳日:2023-10-13 09:10:44 公開日:2023-10-11
# DYffusion:時空間予測のためのダイナミクスインフォームド拡散モデル

DYffusion: A Dynamics-informed Diffusion Model for Spatiotemporal Forecasting ( http://arxiv.org/abs/2306.01984v2 )

ライセンス: Link先を確認
Salva R\"uhling Cachay, Bo Zhao, Hailey Joren, Rose Yu(参考訳) 拡散モデルはデータ生成と予測をうまく行うことができるが、主に静的画像のために設計されている。 本研究では,確率的時空間予測のための拡散モデルを効率的にトレーニングする手法を提案する。そこでは安定かつ正確なロールアウト予測の生成が困難であり,dyffusionはデータの時間的ダイナミクスを活用し,モデル内の拡散ステップと直接結合する。 我々は,標準拡散モデルの前方および逆過程を模倣する確率的・時間的補間器と予測器ネットワークを訓練する。 DYffusionは自然にマルチステップと長距離の予測を容易にし、高度に柔軟な連続的なサンプリング軌道と、推論時間でのサンプリングの高速化によるパフォーマンスのトレードオフを可能にする。 さらに、DYffusionにおける動的インフォームド拡散過程は、強い帰納バイアスを課し、従来のガウス雑音に基づく拡散モデルと比較して計算効率を著しく向上させる。 本手法は,海面温度,ナビエ-ストークス流,およびスプリングメッシュシステムにおける複雑なダイナミクスの確率論的予測を競合的に行う。

While diffusion models can successfully generate data and make predictions, they are predominantly designed for static images. We propose an approach for efficiently training diffusion models for probabilistic spatiotemporal forecasting, where generating stable and accurate rollout forecasts remains challenging, Our method, DYffusion, leverages the temporal dynamics in the data, directly coupling it with the diffusion steps in the model. We train a stochastic, time-conditioned interpolator and a forecaster network that mimic the forward and reverse processes of standard diffusion models, respectively. DYffusion naturally facilitates multi-step and long-range forecasting, allowing for highly flexible, continuous-time sampling trajectories and the ability to trade-off performance with accelerated sampling at inference time. In addition, the dynamics-informed diffusion process in DYffusion imposes a strong inductive bias and significantly improves computational efficiency compared to traditional Gaussian noise-based diffusion models. Our approach performs competitively on probabilistic forecasting of complex dynamics in sea surface temperatures, Navier-Stokes flows, and spring mesh systems.
翻訳日:2023-10-13 09:08:09 公開日:2023-10-11
# Explore, Establish, Exploit: Scratchのレッドチーム言語モデル

Explore, Establish, Exploit: Red Teaming Language Models from Scratch ( http://arxiv.org/abs/2306.09442v3 )

ライセンス: Link先を確認
Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell(参考訳) 大きな言語モデル(lms)のデプロイは、有害テキストや偽テキストのような有害なアウトプットから危険をもたらす可能性がある。 以前の作業では、これらのリスクを特定するために有害なアウトプットを誘発する自動化ツールが導入された。 これはモデルを保護するための貴重なステップであるが、これらのアプローチは、望ましくない出力を効率的に分類する既存の方法に依存している。 既存の分類器を使用すると、red-teamingをターゲットモデルに合わせることはできない。 さらに、失敗を事前に分類し易い場合には、トレーニングデータや/またはモデル出力を簡易にフィルタリングすることで問題を回避することができるため、リピーティングの限界値が制限される。 ここでは、敵が障害を分類する方法から始めるのではなく、"スクラッチから"レッドチーム化を検討する。 私たちのフレームワークは3つのステップで構成されています。 1) 所望の文脈におけるモデルの行動範囲を探索すること。 2)望ましくない行動(例えば、人間の評価を反映するように訓練された分類器)の定義と測定を確立すること、 3) この尺度を用いてモデルの欠陥をエクスプロイトし, 多様な対応策を開発する。 このアプローチをred-team gpt-3に使用して、誤ったステートメントを誘発するインプットのクラスを見つけます。 そこで我々は,人間による2万文のCommonClaimデータセットを構築した。 コードとデータを利用可能にしています。

Deploying large language models (LMs) can pose hazards from harmful outputs such as toxic or false text. Prior work has introduced automated tools that elicit harmful outputs to identify these risks. While this is a valuable step toward securing models, these approaches rely on a pre-existing way to efficiently classify undesirable outputs. Using a pre-existing classifier does not allow for red-teaming to be tailored to the target model. Furthermore, when failures can be easily classified in advance, red-teaming has limited marginal value because problems can be avoided by simply filtering training data and/or model outputs. Here, we consider red-teaming "from scratch," in which the adversary does not begin with a way to classify failures. Our framework consists of three steps: 1) Exploring the model's range of behaviors in the desired context; 2) Establishing a definition and measurement for undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure to develop diverse adversarial prompts. We use this approach to red-team GPT-3 to discover classes of inputs that elicit false statements. In doing so, we construct the CommonClaim dataset of 20,000 statements labeled by humans as common-knowledge-true, common knowledge-false, or neither. We are making code and data available.
翻訳日:2023-10-13 08:50:24 公開日:2023-10-11
# DCdetector: 時系列異常検出のためのデュアルアテンションコントラスト表現学習

DCdetector: Dual Attention Contrastive Representation Learning for Time Series Anomaly Detection ( http://arxiv.org/abs/2306.10347v2 )

ライセンス: Link先を確認
Yiyuan Yang, Chaoli Zhang, Tian Zhou, Qingsong Wen, Liang Sun(参考訳) 時系列異常検出は、幅広いアプリケーションにとって重要である。 時系列の通常のサンプル分布から逸脱したサンプルを識別することを目的としている。 このタスクの最も基本的な課題は、異常の効果的な識別を可能にする表現マップを学ぶことである。 レコンストラクションに基づく手法が依然として優位であるが、異常による表現学習は、大きな異常損失によってパフォーマンスを損なう可能性がある。 一方、コントラスト学習は、任意のインスタンスを他のインスタンスと明確に区別できる表現を見つけることを目的としており、時系列異常検出のためのより自然で有望な表現をもたらすことができる。 本稿では,マルチスケールな二重注意コントラスト表現学習モデルであるDCdetectorを提案する。 dcdetectorは、新しい二重注意非対称設計を用いて、置換環境と純粋なコントラスト損失を作成し、学習プロセスを導い、優れた識別能力を持つ置換不変表現を学習する。 広範囲な実験により、dcdetectorは複数の時系列異常検出ベンチマークデータセットで最先端の結果を得ることができた。 コードはhttps://github.com/DAMO-DI-ML/KDD2023-DCdetectorで公開されている。

Time series anomaly detection is critical for a wide range of applications. It aims to identify deviant samples from the normal sample distribution in time series. The most fundamental challenge for this task is to learn a representation map that enables effective discrimination of anomalies. Reconstruction-based methods still dominate, but the representation learning with anomalies might hurt the performance with its large abnormal loss. On the other hand, contrastive learning aims to find a representation that can clearly distinguish any instance from the others, which can bring a more natural and promising representation for time series anomaly detection. In this paper, we propose DCdetector, a multi-scale dual attention contrastive representation learning model. DCdetector utilizes a novel dual attention asymmetric design to create the permutated environment and pure contrastive loss to guide the learning process, thus learning a permutation invariant representation with superior discrimination abilities. Extensive experiments show that DCdetector achieves state-of-the-art results on multiple time series anomaly detection benchmark datasets. Code is publicly available at https://github.com/DAMO-DI-ML/KDD2023-DCdetector.
翻訳日:2023-10-13 08:37:51 公開日:2023-10-11
# 候補応答分布に着目したデータベース読解用ケンブリッジ・マルチコース質問の解析

Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with a Focus on Candidate Response Distribution ( http://arxiv.org/abs/2306.13047v3 )

ライセンス: Link先を確認
Adian Liusie, Vatsal Raina, Andrew Mullooly, Kate Knill, Mark J. F. Gales(参考訳) 複数の選択試験が様々な分野やタスクの候補者を評価するために広く使われている。 質問の品質を低下させるため、新しく提案された質問は、実世界の試験に配備される前に、テスト前の評価段階を通過することが多い。 現在、この評価プロセスは手動で集中しており、質問開発サイクルの遅延につながる可能性がある。 このプロセスの自動化による合理化は効率を大幅に向上させるが、十分な事前テスト分析情報を備えたデータセットが現在不足している。 本稿では,異なる対象レベルにおける質問の多重理解データセットであるcambridge multi-choice questions reading datasetの解析を行った。 候補分布マッチングのタスクを導入し、タスクの評価指標をいくつか提案し、RACE++でトレーニングされた自動システムをタスクのベースラインとして活用できることを実証する。 さらに、これらの自動システムは、性能の低い乱れを検知するなど、実際の事前評価作業に利用でき、この検出システムは、候補がほとんどいない不適切な乱れを自動で識別できる。

Multiple choice exams are widely used to assess candidates across a diverse range of domains and tasks. To moderate question quality, newly proposed questions often pass through pre-test evaluation stages before being deployed into real-world exams. Currently, this evaluation process is manually intensive, which can lead to time lags in the question development cycle. Streamlining this process via automation can significantly enhance efficiency, however, there's a current lack of datasets with adequate pre-test analysis information. In this paper we analyse the Cambridge Multiple-Choice Questions Reading Dataset; a multiple-choice comprehension dataset of questions at different target levels, with corresponding candidate selection distributions. We introduce the task of candidate distribution matching, propose several evaluation metrics for the task, and demonstrate that automatic systems trained on RACE++ can be leveraged as baselines for our task. We further demonstrate that these automatic systems can be used for practical pre-test evaluation tasks such as detecting underperforming distractors, where our detection systems can automatically identify poor distractors that few candidates select.
翻訳日:2023-10-13 08:26:08 公開日:2023-10-11
# VisoGender:画像文代名詞分解における性別バイアスのベンチマーク用データセット

VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolution ( http://arxiv.org/abs/2306.12424v2 )

ライセンス: Link先を確認
Siobhan Mackenzie Hall, Fernanda Gon\c{c}alves Abrantes, Hanwen Zhu, Grace Sodunke, Aleksandar Shtedritski, Hannah Rose Kirk(参考訳) 視覚言語モデルにおける性別バイアスをベンチマークするための新しいデータセットであるVisoGenderを紹介する。 ウィノグラードとウィノゲンダーのスキーマにインスパイアされた,二進性ジェンダーのヘゲモニックシステムにおける職業関連バイアスに着目し,各画像は場面における被写体と対象の代名詞関係を含むキャプションに関連付けられる。 VisoGenderは、職業的役割における性別表現によってバランスが取れ、バイアス評価を2つの方法で支援する。 一 男性と見なされる性表現を有する画像の被写体における代名詞分解能の精度と、人間の注釈者による女性との違いを評価するための分解能バイアス 二 性別中立性検索の検索において、男性及び女性性表現を有すると認識された専門家の比率を比較する検索バイアス。 我々は、最先端の視覚言語モデルをいくつかベンチマークし、複雑な場面における二項性解消のバイアスを示す。 性別バイアスの方向と大きさは、タスクと評価されるモデルに依存するが、キャプションモデルは通常、視覚言語エンコーダよりもバイアスが少ない。 データセットとコードはhttps://github.com/oxai/visogenderで入手できる。

We introduce VisoGender, a novel dataset for benchmarking gender bias in vision-language models. We focus on occupation-related biases within a hegemonic system of binary gender, inspired by Winograd and Winogender schemas, where each image is associated with a caption containing a pronoun relationship of subjects and objects in the scene. VisoGender is balanced by gender representation in professional roles, supporting bias evaluation in two ways: i) resolution bias, where we evaluate the difference between pronoun resolution accuracies for image subjects with gender presentations perceived as masculine versus feminine by human annotators and ii) retrieval bias, where we compare ratios of professionals perceived to have masculine and feminine gender presentations retrieved for a gender-neutral search query. We benchmark several state-of-the-art vision-language models and find that they demonstrate bias in resolving binary gender in complex scenes. While the direction and magnitude of gender bias depends on the task and the model being evaluated, captioning models are generally less biased than Vision-Language Encoders. Dataset and code are available at https://github.com/oxai/visogender
翻訳日:2023-10-13 08:25:25 公開日:2023-10-11
# DifFSS:Few-Shot Semantic Segmentationのための拡散モデル

DifFSS: Diffusion Model for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2307.00773v3 )

ライセンス: Link先を確認
Weimin Tan, Siyuan Chen, Bo Yan(参考訳) 拡散モデルは画像生成において優れた性能を示した。 様々なネットワーク構造を持つ小ショットセマンティックセグメンテーション(FSS)モデルが提案されているが、性能改善はボトルネックに達している。 本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。 新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。 具体的には,拡散モデルの強力な生成能力を利用して,支援画像のセマンティックマスク,スクリブル,ソフトHED境界を制御条件として,多様な補助画像を生成する。 この生成プロセスは、色、テクスチャの変化、照明、$etc$といったクエリイメージのクラス内の多様性をシミュレートする。 結果として、fssモデルはより多様なサポートイメージを参照でき、よりロバストな表現となり、セグメンテーション性能の一貫した改善を達成することができる。 既存の高度なFSSモデルに基づく3つの公開データセットに対する大規模な実験は、FSSタスクの拡散モデルの有効性を示す。 さらに,拡散モデルの入力設定の違いがセグメント化性能に与える影響について詳細に検討した。 この全く新しいパラダイムが、AI生成コンテンツと統合されたFSSタスクの研究にインスピレーションを与えることを期待している。 コードはhttps://github.com/TrinitialChan/DifFSSで入手できる。

Diffusion models have demonstrated excellent performance in image generation. Although various few-shot semantic segmentation (FSS) models with different network structures have been proposed, performance improvement has reached a bottleneck. This paper presents the first work to leverage the diffusion model for FSS task, called DifFSS. DifFSS, a novel FSS paradigm, can further improve the performance of the state-of-the-art FSS models by a large margin without modifying their network structure. Specifically, we utilize the powerful generation ability of diffusion models to generate diverse auxiliary support images by using the semantic mask, scribble or soft HED boundary of the support image as control conditions. This generation process simulates the variety within the class of the query image, such as color, texture variation, lighting, $etc$. As a result, FSS models can refer to more diverse support images, yielding more robust representations, thereby achieving a consistent improvement in segmentation performance. Extensive experiments on three publicly available datasets based on existing advanced FSS models demonstrate the effectiveness of the diffusion model for FSS task. Furthermore, we explore in detail the impact of different input settings of the diffusion model on segmentation performance. Hopefully, this completely new paradigm will bring inspiration to the study of FSS task integrated with AI-generated content. Code is available at https://github.com/TrinitialChan/DifFSS
翻訳日:2023-10-13 08:20:10 公開日:2023-10-11
# DisCo:リアルなダンス生成のための遠方制御

DisCo: Disentangled Control for Realistic Human Dance Generation ( http://arxiv.org/abs/2307.00040v2 )

ライセンス: Link先を確認
Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang(参考訳) 生成AIはコンピュータビジョン、特にテキスト駆動画像/ビデオ合成(T2I/T2V)において大きな進歩を遂げている。 顕著な進歩にもかかわらず、現実的なダンス生成のような人間中心のコンテンツ合成は依然として困難である。 現在の手法は主に人間の動きの伝達に特化しており、様々なポーズや複雑な人間の詳細を一般化する必要がある現実世界のダンスシナリオ(ソーシャルメディアダンスなど)に直面すると困難に遭遇する。 本稿では,人間の動き伝達の伝統的なパラダイムから脱却し,ソーシャルメディアにおける人間のダンスコンテンツ合成に重要な2つの特徴を強調する。 (i) 一般化可能性:モデルは、一般的な人間の視点を超えて、見えない人間の主題、背景及びポーズを一般化できなければならない。 (二)構成性:見知らぬ被写体、背景、異なるソースからのポーズをシームレスに構成すること。 これらの課題に対処するために,ダンス合成の構成性を改善するために,不連続制御を備えた新しいモデルアーキテクチャであるdiscoと,知覚不能な人間の一般化性を改善するための効果的な人間属性事前学習を含むdiscoを紹介する。 大規模な質的および定量的な結果は、DisCoが様々な外観と柔軟な動きを持つ高品質な人間のダンス画像とビデオを生成することを実証している。 コード、デモ、ビデオ、ビジュアライゼーションはhttps://disco-dance.github.io/。

Generative AI has made significant strides in computer vision, particularly in text-driven image/video synthesis (T2I/T2V). Despite the notable advancements, it remains challenging in human-centric content synthesis such as realistic dance generation. Current methodologies, primarily tailored for human motion transfer, encounter difficulties when confronted with real-world dance scenarios (e.g., social media dance) which require to generalize across a wide spectrum of poses and intricate human details. In this paper, we depart from the traditional paradigm of human motion transfer and emphasize two additional critical attributes for the synthesis of human dance content in social media contexts: (i) Generalizability: the model should be able to generalize beyond generic human viewpoints as well as unseen human subjects, backgrounds, and poses; (ii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources seamlessly. To address these challenges, we introduce DisCo, which includes a novel model architecture with disentangled control to improve the compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DisCo can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.
翻訳日:2023-10-13 08:19:48 公開日:2023-10-11
# VerifAI: 検証された生成AI

VerifAI: Verified Generative AI ( http://arxiv.org/abs/2307.02796v2 )

ライセンス: Link先を確認
Nan Tang and Chenyu Yang and Ju Fan and Lei Cao and Yuyu Luo and Alon Halevy(参考訳) 生成AIは大きな進歩を遂げているが、アウトプットの正確性と信頼性に関する懸念は拡大を続けている。 このような不正確さは、不正確な意思決定、誤った情報の拡散、プライバシー侵害、法的負債など、重大な結果をもたらす可能性がある。 透明性、プライバシ保護、バイアス軽減、社会的および環境的責任といった、説明可能なAIと責任あるAIプラクティスを含む、これらのリスクに対処する努力が進行中である。 データ管理の観点から生成AIの出力を検証することは、生成AIの新たな課題である。 これには、テキストファイル、テーブル、ナレッジグラフを含むマルチモーダルデータレイクの基盤となるデータを分析し、その品質と一貫性を評価することが含まれる。 これにより、生成AIモデルの出力を評価するためのより強力な基盤を確立することができる。 このようなアプローチは、生成AIの正確性を確保し、透明性を促進し、より信頼性の高い意思決定を可能にする。 私たちのビジョンは、検証可能な生成AIの開発を促進し、より信頼性が高く責任あるAIの利用に貢献することです。

Generative AI has made significant strides, yet concerns about the accuracy and reliability of its outputs continue to grow. Such inaccuracies can have serious consequences such as inaccurate decision-making, the spread of false information, privacy violations, legal liabilities, and more. Although efforts to address these risks are underway, including explainable AI and responsible AI practices such as transparency, privacy protection, bias mitigation, and social and environmental responsibility, misinformation caused by generative AI will remain a significant challenge. We propose that verifying the outputs of generative AI from a data management perspective is an emerging issue for generative AI. This involves analyzing the underlying data from multi-modal data lakes, including text files, tables, and knowledge graphs, and assessing its quality and consistency. By doing so, we can establish a stronger foundation for evaluating the outputs of generative AI models. Such an approach can ensure the correctness of generative AI, promote transparency, and enable decision-making with greater confidence. Our vision is to promote the development of verifiable generative AI and contribute to a more trustworthy and responsible use of AI.
翻訳日:2023-10-13 08:05:56 公開日:2023-10-11
# 弾性決定変換器

Elastic Decision Transformer ( http://arxiv.org/abs/2307.02484v4 )

ライセンス: Link先を確認
Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya(参考訳) 本稿では,既存のDecision Transformer(DT)とその変種に対する大幅な進歩であるElastic Decision Transformer(EDT)を紹介する。 dtは最適軌道を生成することを主張するが、実験的な証拠は軌道縫いに苦しむことを示唆しており、これは一連の準最適軌道の最良の部分から最適軌道または至近軌道を生成する過程である。 提案するEMTは,DTに保持される履歴長を調整することにより,試験時間における動作推論時の軌跡縫合を容易にすることで,自分自身を識別する。 さらに、edtは、前回の軌道が最適であるときに長い履歴を保持し、副最適である場合にはより短い履歴を保持して軌道を最適化し、より最適な軌道で「固定」することができる。 広範な実験は、dtベースとqベースのアプローチのパフォーマンスギャップを橋渡しできるedtの能力を示している。 特に、EDTは、D4RLのローコモーションベンチマークとAtariゲームでマルチタスク方式でQ Learningベースの手法より優れている。 ビデオは、https://kristery.github.io/edt/で公開されている。

This paper introduces Elastic Decision Transformer (EDT), a significant advancement over the existing Decision Transformer (DT) and its variants. Although DT purports to generate an optimal trajectory, empirical evidence suggests it struggles with trajectory stitching, a process involving the generation of an optimal or near-optimal trajectory from the best parts of a set of sub-optimal trajectories. The proposed EDT differentiates itself by facilitating trajectory stitching during action inference at test time, achieved by adjusting the history length maintained in DT. Further, the EDT optimizes the trajectory by retaining a longer history when the previous trajectory is optimal and a shorter one when it is sub-optimal, enabling it to "stitch" with a more optimal trajectory. Extensive experimentation demonstrates EDT's ability to bridge the performance gap between DT-based and Q Learning-based approaches. In particular, the EDT outperforms Q Learning-based methods in a multi-task regime on the D4RL locomotion benchmark and Atari games. Videos are available at: https://kristery.github.io/edt/
翻訳日:2023-10-13 08:05:38 公開日:2023-10-11
# 自動運転のための道路側LiDARの配置最適化

Optimizing the Placement of Roadside LiDARs for Autonomous Driving ( http://arxiv.org/abs/2310.07247v1 )

ライセンス: Link先を確認
Wentao Jiang, Hao Xiang, Xinyu Cai, Runsheng Xu, Jiaqi Ma, Yikang Li, Gim Hee Lee, Si Liu(参考訳) 多エージェント協調認識は、道路沿いのLiDARが重要な役割を果たす自動運転分野において、ますます人気が高まっている。 しかし、道路沿いのLiDARの配置を最適化する方法は重要であるが、しばしば見落とされがちな問題である。 本稿では,道路側LiDARの配置を最適にするために,シーン内の最適な位置を選択する手法を提案する。 位置の最適な組み合わせを効率的に得るために,知覚的利得に基づく欲求アルゴリズムを提案し,知覚的利得を逐次最大化できる位置を選択する。 我々は、新しいLiDARを配置する際の知覚能力の増加として知覚ゲインを定義する。 認識能力を得るために,一点クラウドフレームのみを用いてLiDAR配置を評価することを学ぶ知覚予測器を提案する。 Roadside-Optという名前のデータセットは、ロードサイドLiDAR配置問題の研究を容易にするために、CARLAシミュレータを使って作成されている。

Multi-agent cooperative perception is an increasingly popular topic in the field of autonomous driving, where roadside LiDARs play an essential role. However, how to optimize the placement of roadside LiDARs is a crucial but often overlooked problem. This paper proposes an approach to optimize the placement of roadside LiDARs by selecting optimized positions within the scene for better perception performance. To efficiently obtain the best combination of locations, a greedy algorithm based on perceptual gain is proposed, which selects the location that can maximize the perceptual gain sequentially. We define perceptual gain as the increased perceptual capability when a new LiDAR is placed. To obtain the perception capability, we propose a perception predictor that learns to evaluate LiDAR placement using only a single point cloud frame. A dataset named Roadside-Opt is created using the CARLA simulator to facilitate research on the roadside LiDAR placement problem.
翻訳日:2023-10-13 07:47:50 公開日:2023-10-11
# SAGE-ICP:意味情報支援ICP

SAGE-ICP: Semantic Information-Assisted ICP ( http://arxiv.org/abs/2310.07237v1 )

ライセンス: Link先を確認
Jiaming Cui, Jiming Chen, Liang Li(参考訳) 未知の環境でのロバストで正確なポーズ推定はロボット応用の重要な部分である。 我々は,LiDARに基づくポイントツーポイントICPと効果的な意味情報の組み合わせに着目した。 本稿では, ドメトリーのセマンティクスを利用した新しい意味情報支援ICP手法SAGE-ICPを提案する。 スキャン全体の意味情報は3次元畳み込みネットワークによってタイムリーかつ効率的に抽出され、これらのポイントワイズラベルは、セマンティックボクセルダウンサンプリング、データアソシエーション、適応ローカルマップ、動的車両除去を含む、登録のすべての部分に深く関わっている。 従来のセマンティック支援手法とは異なり,提案手法は,意味情報に一定の誤りがある場合でも,大規模シーンにおける局所化精度を向上させることができる。 KITTIとKITTI-360の実験的評価により,本手法はベースライン法より優れ,リアルタイム性能を維持しつつ,センサフレームレートよりも高速に動作することを示す。

Robust and accurate pose estimation in unknown environments is an essential part of robotic applications. We focus on LiDAR-based point-to-point ICP combined with effective semantic information. This paper proposes a novel semantic information-assisted ICP method named SAGE-ICP, which leverages semantics in odometry. The semantic information for the whole scan is timely and efficiently extracted by a 3D convolution network, and these point-wise labels are deeply involved in every part of the registration, including semantic voxel downsampling, data association, adaptive local map, and dynamic vehicle removal. Unlike previous semantic-aided approaches, the proposed method can improve localization accuracy in large-scale scenes even if the semantic information has certain errors. Experimental evaluations on KITTI and KITTI-360 show that our method outperforms the baseline methods, and improves accuracy while maintaining real-time performance, i.e., runs faster than the sensor frame rate.
翻訳日:2023-10-13 07:47:33 公開日:2023-10-11
# AdaMesh: 音声駆動型顔アニメーションのための個人化顔表情と頭部電位

AdaMesh: Personalized Facial Expressions and Head Poses for Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2310.07236v1 )

ライセンス: Link先を確認
Liyang Chen, Weihong Bao, Shun Lei, Boshi Tang, Zhiyong Wu, Shiyin Kang, Haozhi Huang(参考訳) 音声駆動型3d顔アニメーションは、近年広く研究されている運転音声と同期した顔の動きを生成することを目的としている。 既存の作品は、顔の表情や頭ポーズスタイルなど、世代ごとの話し方を無視している。 いくつかの作品は微調整モジュールによってパーソナリティを捉えようとしている。 しかし、トレーニングデータの制限は、鮮明さの欠如につながる。 本研究では,約10秒の参照映像からパーソナライズされた発話スタイルを学習し,表情と頭部ポーズを鮮明に生成する,適応型発話駆動型顔アニメーション手法であるadameshを提案する。 具体的には,表情適応器を微調整するためのMoLoRA(mixed-of-low-rank adaptation)を提案する。 パーソナライズされたポーズスタイルに対しては、個別のポーズを事前に構築し、微調整なしでセマンティックなポーズスタイルマトリックスに埋め込まれた適切なスタイルを検索することで、ポーズアダプタを提案する。 広範な実験結果から,本手法は最先端手法よりも優れており,参照ビデオの発話スタイルを保ち,鮮明な顔アニメーションを生成できることがわかった。 追加のビデオとコードはhttps://adamesh.github.io.comで入手できる。

Speech-driven 3D facial animation aims at generating facial movements that are synchronized with the driving speech, which has been widely explored recently. Existing works mostly neglect the person-specific talking style in generation, including facial expression and head pose styles. Several works intend to capture the personalities by fine-tuning modules. However, limited training data leads to the lack of vividness. In this work, we propose AdaMesh, a novel adaptive speech-driven facial animation approach, which learns the personalized talking style from a reference video of about 10 seconds and generates vivid facial expressions and head poses. Specifically, we propose mixture-of-low-rank adaptation (MoLoRA) to fine-tune the expression adapter, which efficiently captures the facial expression style. For the personalized pose style, we propose a pose adapter by building a discrete pose prior and retrieving the appropriate style embedding with a semantic-aware pose style matrix without fine-tuning. Extensive experimental results show that our approach outperforms state-of-the-art methods, preserves the talking style in the reference video, and generates vivid facial animation. The supplementary video and code will be available at https://adamesh.github.io.
翻訳日:2023-10-13 07:47:17 公開日:2023-10-11
# Qinterpreterによる量子アルゴリズムの解放:主要な量子コンピューティングプラットフォーム間の理論と実践のギャップを埋める

Unleashing quantum algorithms with Qinterpreter: bridging the gap between theory and practice across leading quantum computing platforms ( http://arxiv.org/abs/2310.07173v1 )

ライセンス: Link先を確認
Wilmer Contreras Sep\'ulveda, \'Angel David Torres-Palencia, Jos\'e Javier S\'anchez Mondrag\'on, Braulio Misael Villegas-Mart\'inez, J. Jes\'us Escobedo-Alatorre, Sandra Gesing, N\'estor Lozano-Cris\'ostomo, Julio C\'esar Garc\'ia-Melgarejo, Juan Carlos S\'anchez P\'erez, Eddie Nelson Palacios- P\'erez, Omar PalilleroSandoval(参考訳) 量子コンピューティングは急速に発展し、有望な分野であり、薬物設計、ネットワーク技術、持続可能エネルギーなど多くの研究領域に革命を起こす可能性がある。 古典コンピューティングと固有の複雑さと分岐性のため、IBM Qiskit、Amazon Braket、Cirq、PyQuil、PennyLaneといった量子アルゴリズムを実装するために、いくつかの主要な量子コンピューティングライブラリが開発されている。 これらのライブラリは、古典的コンピュータ上の量子シミュレーションを可能にし、対応する量子ハードウェア上でのプログラム実行を容易にする。 すべてのプラットフォームにはいくつかの違いがあるが、主な概念は同じである。 QInterpreterは、Jupyter Notebooksを使用してQuantum Science Gateway QubitHubに埋め込まれたツールで、あるライブラリから別のライブラリへシームレスにプログラムを変換し、結果を視覚化する。 これはよく知られた5つの量子ライブラリを統合されたフレームワークに統合する。 初心者向けの教育ツールとして設計されたQinterpreterは、さまざまなプラットフォームにわたる量子回路の開発と実行を、簡単に行うことができる。 この研究は量子プログラミングにおけるQinterpreterの汎用性とアクセシビリティを強調し、量子コンピューティングを若く、専門性が少なく、多様な文化的、国家的コミュニティに浸透させるという私たちの究極の目標を強調している。

Quantum computing is a rapidly emerging and promising field that has the potential to revolutionize numerous research domains, including drug design, network technologies and sustainable energy. Due to the inherent complexity and divergence from classical computing, several major quantum computing libraries have been developed to implement quantum algorithms, namely IBM Qiskit, Amazon Braket, Cirq, PyQuil, and PennyLane. These libraries allow for quantum simulations on classical computers and facilitate program execution on corresponding quantum hardware, e.g., Qiskit programs on IBM quantum computers. While all platforms have some differences, the main concepts are the same. QInterpreter is a tool embedded in the Quantum Science Gateway QubitHub using Jupyter Notebooks that translates seamlessly programs from one library to the other and visualizes the results. It combines the five well-known quantum libraries: into a unified framework. Designed as an educational tool for beginners, Qinterpreter enables the development and execution of quantum circuits across various platforms in a straightforward way. The work highlights the versatility and accessibility of Qinterpreter in quantum programming and underscores our ultimate goal of pervading Quantum Computing through younger, less specialized, and diverse cultural and national communities.
翻訳日:2023-10-13 07:46:54 公開日:2023-10-11
# 反射境界の存在下での真空量子場からの相関の抽出

Harvesting correlations from vacuum quantum fields in the presence of a reflecting boundary ( http://arxiv.org/abs/2310.07164v1 )

ライセンス: Link先を確認
Zhihong Liu, Jialin Zhang, Hongwei Yu(参考訳) 真空質量の無いスカラー場と局所的に相互作用する2つの静的検出器による、無限完全反射境界の存在下での相関関係について検討する。 本研究では,2つの検出器境界アライメント,すなわち並列-境界アライメントと垂直-境界アライメントの相互情報収集と絡み合い収穫の現象について検討した。 その結果,境界の存在は,境界のない平坦な時空における相互情報収集を一般的に阻害することが示された。 対照的に、境界はエンタングルメントの収穫において二重のエッジの役割を担い、すなわち境界の近傍の領域におけるエンタングルメントの収穫を阻止し、境界の遠方領域でそれを補助する。 さらに、検出器間分離が十分である限り、相関抽出に有利な2つの非固有検出器間の最適な検出器エネルギーギャップ差が存在する。 最適検出器エネルギーギャップ差の値は、検出器間分離と検出器間距離の両方に依存する。 2つの異なるアライメントで得られた相関関係を比較すると、正準に同じ性質で収穫する相関関係を示すが、垂直-境界アライメントの検出器は常に平行-境界アライメントよりも相対的に多くの相互情報を収集し、境界付近でのみ比較的多くの絡み合いを収穫することを示す。

We explore correlations harvesting by two static detectors locally interacting with vacuum massless scalar fields in the presence of an infinite perfectly reflecting boundary. We study the phenomena of mutual information harvesting and entanglement harvesting for two detector-boundary alignments, i.e., parallel-to-boundary and vertical-to-boundary alignments. Our results show that the presence of the boundary generally inhibits mutual information harvesting relative to that in flat spacetime without any boundaries. In contrast, the boundary may play a doubled-edged role in entanglement harvesting, i.e., inhibiting entanglement harvesting in the near zone of the boundary while assisting it in the far zone of the boundary. Moreover, there exists an optimal detector energy gap difference between two nonidentical detectors that makes such detectors advantageous in correlations harvesting as long as the interdetector separation is large enough. The value of the optimal detector energy gap difference depends on both the interdetector separation and the detector-to-boundary distance. A comparison of the correlations harvesting in two different alignments shows that although correlations harvesting share qualitatively the same properties, they also display quantitative differences in that the detectors in vertical-to-boundary alignment always harvest comparatively more mutual information than the parallel-to-boundary ones, while they harvest comparatively more entanglement only near the boundary.
翻訳日:2023-10-13 07:46:28 公開日:2023-10-11
# VoIPプラットフォームにおける音声強調の心理的課題

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms ( http://arxiv.org/abs/2310.07161v1 )

ライセンス: Link先を確認
Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj(参考訳) VoIP(Voice over Internet Protocol)通信の帯域内では、音響変換によってもたらされる複雑さは厳密な分析に値する。 この研究は、Google MeetsやZoomといったプラットフォームを綿密に評価する、プロプライエタリな送信側認知効果の探索に根ざしている。 この研究は、deep noise reduction (dns) 2020データセットを示し、様々なノイズ設定と受信者インターフェースに合わせた構造化検査を保証している。 従来はエコノメトリーツールであったOaxaca分解により,VoIPシステム内の音響・音響的摂動を分析する手法が導入された。 これらの変換の影響をさらに深めるため、精神音響指標、特にPSSQとSTOIは、音声変化の包括的理解を促進するために利用された。 累積的に、この洞察はVoIPの影響する音響力学の複雑な景観を浮き彫りにした。 主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。 さらに、時間及び時間周波数領域音声強調モデルのドメイン外ベンチマークも含み、この調査の深度と適用性を高める。

Within the ambit of VoIP (Voice over Internet Protocol) telecommunications, the complexities introduced by acoustic transformations merit rigorous analysis. This research, rooted in the exploration of proprietary sender-side denoising effects, meticulously evaluates platforms such as Google Meets and Zoom. The study draws upon the Deep Noise Suppression (DNS) 2020 dataset, ensuring a structured examination tailored to various denoising settings and receiver interfaces. A methodological novelty is introduced via the Oaxaca decomposition, traditionally an econometric tool, repurposed herein to analyze acoustic-phonetic perturbations within VoIP systems. To further ground the implications of these transformations, psychoacoustic metrics, specifically PESQ and STOI, were harnessed to furnish a comprehensive understanding of speech alterations. Cumulatively, the insights garnered underscore the intricate landscape of VoIP-influenced acoustic dynamics. In addition to the primary findings, a multitude of metrics are reported, extending the research purview. Moreover, out-of-domain benchmarking for both time and time-frequency domain speech enhancement models is included, thereby enhancing the depth and applicability of this inquiry.
翻訳日:2023-10-13 07:45:57 公開日:2023-10-11
# 拡散モデルを用いた拡張期意味地図からの心エコービデオ合成

Echocardiography video synthesis from end diastolic semantic map via diffusion model ( http://arxiv.org/abs/2310.07131v1 )

ライセンス: Link先を確認
Phi Nguyen Van, Duc Tran Minh, Hieu Pham Huy, Long Tran Quoc(参考訳) Denoising Diffusion Probabilistic Models (DDPMs) は、医用画像の領域を含む様々な画像およびビデオ生成タスクにおいて重要な成果を示した。 しかし、意味解剖情報に基づく心エコービデオの生成は、まだ未調査領域である。 これは主に、現在利用可能なデータセットが課している制約によるもので、心臓サイクル毎に十分なスケールと包括的なフレームワイドアノテーションが欠如している。 本稿では,既存のビデオ拡散モデルを拡張して,心臓ビデオ合成の課題に対処することを目的とする。 より具体的には、心臓周期中の初期フレームのセマンティックマップを使ってビデオを生成することに重点を置いています。 合成プロセスをさらに改善するために,空間適応正規化を多スケール特徴マップに統合する。 これにより、合成中に意味的指導を取り入れることができ、その結果の映像シーケンスのリアリズムとコヒーレンスが強化される。 CAMUSデータセットは、心エコー検査の分野でよく使われるデータセットである。 本モデルでは,FID,FVD,SSMIなどの複数の指標を用いて,標準拡散法よりも優れた性能を示す。

Denoising Diffusion Probabilistic Models (DDPMs) have demonstrated significant achievements in various image and video generation tasks, including the domain of medical imaging. However, generating echocardiography videos based on semantic anatomical information remains an unexplored area of research. This is mostly due to the constraints imposed by the currently available datasets, which lack sufficient scale and comprehensive frame-wise annotations for every cardiac cycle. This paper aims to tackle the aforementioned challenges by expanding upon existing video diffusion models for the purpose of cardiac video synthesis. More specifically, our focus lies in generating video using semantic maps of the initial frame during the cardiac cycle, commonly referred to as end diastole. To further improve the synthesis process, we integrate spatial adaptive normalization into multiscale feature maps. This enables the inclusion of semantic guidance during synthesis, resulting in enhanced realism and coherence of the resultant video sequences. Experiments are conducted on the CAMUS dataset, which is a highly used dataset in the field of echocardiography. Our model exhibits better performance compared to the standard diffusion technique in terms of multiple metrics, including FID, FVD, and SSMI.
翻訳日:2023-10-13 07:45:36 公開日:2023-10-11
# 不確定時間方向の量子パラメータ推定におけるハイゼンベルクスケーリングの強化

Heisenberg-scaling Enhancement in Quantum Parameter Estimation with Indefinite Time Direction ( http://arxiv.org/abs/2310.07125v1 )

ライセンス: Link先を確認
Binke Xia, Jingzheng Huang, Hongjing Li, Zhongyuan Luo, Guihua Zeng(参考訳) 量子力学における中心的な課題は、量子特性を利用して未知パラメータのより高い推定精度を探索することである。 一般に、エンタングル状態やスクイーズ状態のような量子プローブは、量子パラメータ推定の精度の限界を高めるために必須であると考えられている。 しかし、量子特性のパラメータ化力学プロセスへの組み入れにはほとんど焦点が当てられていない。 本研究では,量子パラメータ推定のための不定時間方向のパラメータ化ダイナミクスを開発する。 このパラメタライジングダイナミクスの量子特性を活用することで、進化するプロセスで利用可能なリソースを最大化できます。 その結果,提案手法はハイゼンベルクスケーリング拡張を精度限界で達成できることがわかった。 実演では,ビームプロファイルの角回転を測定するためのOAM資源の利用を最大化するために,この戦略を適用した。 これにより、ハイゼンベルクスケーリングと同じパワー法則に従う精度の向上が可能になる。 特に、角回転測定のnradスケールの精度が実験で最終的に達成された。

A central task in quantum metrology is to explore the higher estimating precision of unknown parameter by harnessing quantum properties. Generally, quantum probes like entangled states or squeezing states are considered essential for enhancing the precision limit in quantum parameter estimation. However, there has been little focus on the incorporation of quantum properties into the parameterizing dynamical processes. In this work, we develop a parameterizing dynamics with an indefinite time direction for quantum parameter estimation. Leveraging this quantum properties of the parameterizing dynamics allows us to maximize the available resources in the evolving process. As a result, our scheme is capable of achieving Heisenberg-scaling enhancement in precision limit. For demonstration, we apply this strategy to maximize the utilization of OAM resources for measuring the angular rotations of beam profile. This enables a precision enhancement following the same power law of Heisenberg scaling. Notably, a nrad-scale precision of the angular rotation measurement is finally achieved in the experiment.
翻訳日:2023-10-13 07:45:16 公開日:2023-10-11
# 非ブロック型非対話型ゼロノウレッジ

Unclonable Non-Interactive Zero-Knowledge ( http://arxiv.org/abs/2310.07118v1 )

ライセンス: Link先を確認
Ruta Jawale and Dakshita Khurana(参考訳) 非対話的ZK(NIZK)証明は、秘密を明かさずにNPステートメントの検証を可能にする。 しかし、NIZK証明を得た敵は、この証明をクローンし、任意の数のコピーを様々な実体に分配することができるかもしれない。 本稿では,クローン化が不可能なNIZK証明システムを構築するために,量子情報に頼ることが可能かどうかを問う。 我々はnpの非対話的ゼロ知識証明(知識)を定義し、構成する。 ゼロ知識と知識特性の証明を満たすことに加えて、これらの証明は非行性も満たす。 概してこれは、NP言語$\mathcal{L}$でインスタンス$x$のメンバシップの正直に生成された証明を割り出し、コピーを複数のエンティティに分散させることが、すべてのエンティティが$x$のメンバシップの証明を$\mathcal{L}$で受け入れることを保証する。 結果として、この作業で定義し構築する知識の無防備なシグネチャへのアプリケーションが生まれました。

A non-interactive ZK (NIZK) proof enables verification of NP statements without revealing secrets about them. However, an adversary that obtains a NIZK proof may be able to clone this proof and distribute arbitrarily many copies of it to various entities: this is inevitable for any proof that takes the form of a classical string. In this paper, we ask whether it is possible to rely on quantum information in order to build NIZK proof systems that are impossible to clone. We define and construct unclonable non-interactive zero-knowledge proofs (of knowledge) for NP. Besides satisfying the zero-knowledge and proof of knowledge properties, these proofs additionally satisfy unclonability. Very roughly, this ensures that no adversary can split an honestly generated proof of membership of an instance $x$ in an NP language $\mathcal{L}$ and distribute copies to multiple entities that all obtain accepting proofs of membership of $x$ in $\mathcal{L}$. Our result has applications to unclonable signatures of knowledge, which we define and construct in this work; these non-interactively prevent replay attacks.
翻訳日:2023-10-13 07:45:01 公開日:2023-10-11
# マルチパラメータ推定の不整合量子限界に向けて

Toward Incompatible Quantum Limits on Multiparameter Estimation ( http://arxiv.org/abs/2310.07115v1 )

ライセンス: Link先を確認
Binke Xia, Jingzheng Huang, Hongjing Li, Han Wang, Guihua Zeng(参考訳) 複数のパラメータの最終的な精度を同時に達成することは、不整合パラメータの最適測定はハイゼンベルクの不確実性原理のために一緒に行えないため、量子物理学において際立った課題である。 この研究において、マルチパラメータ推定のための基準が提案され、この呪いに打ち勝つことができる。 この基準により、パラメータ生成器の分散を同時に増加させることで、不整合の影響を緩和し、究極の精度を向上させることができる。 実演では,光の空間変位と角傾きを同時に推定するプローブとして高次エルミート・ガウス状態を含むスキームを提案し,同時に1.45nmと4.08nradの精度を実現する。 その結果,多パラメータ推定におけるハイゼンベルクの不確実性原理の役割についてより深く理解し,量子気象学の応用に寄与する。

Achieving the ultimate precisions for multiple parameters simultaneously is an outstanding challenge in quantum physics, because the optimal measurements for incompatible parameters cannot be performed jointly due to the Heisenberg uncertainty principle. In this work, a criterion proposed for multiparameter estimation provides a possible way to beat this curse. According to this criterion, it is possible to mitigate the influence of incompatibility meanwhile improve the ultimate precisions by increasing the variances of the parameter generators simultaneously. For demonstration, a scheme involving high-order Hermite-Gaussian states as probes is proposed for estimating the spatial displacement and angular tilt of light at the same time, and precisions up to 1.45 nm and 4.08 nrad are achieved in experiment simultaneously. Consequently, our findings provide a deeper insight into the role of Heisenberg uncertainty principle in multiparameter estimation, and contribute in several ways to the applications of quantum metrology.
翻訳日:2023-10-13 07:44:41 公開日:2023-10-11
# 古典的および量子的貯水池計算 : 機械学習の開発と応用

Classical and quantum reservoir computing: development and applications in machine learning ( http://arxiv.org/abs/2310.07455v1 )

ライセンス: Link先を確認
Laia Domingo(参考訳) 貯留層計算は非線形力学系を用いてデータから複雑な時間パターンを効率的に学習する新しい機械学習アルゴリズムである。 この論文の目的は、リザーバコンピューティングの原理を調査し、機械学習の多様な応用に対処できる最先端の変種を開発することである。 この研究は、農業時系列予測や量子システムの時間伝播など、非常に異なる領域にわたるアルゴリズムの堅牢性と適応性を示す。 この論文の最初の貢献は、将来の農産物価格を予測するための貯水池計算に基づく手法を開発することである。 論文の次の貢献は、複素量子系に対するシュル=オディンガー方程式の解法である。 量子波動関数を効率的に伝播し、特定のエネルギー範囲内で量子系のすべての固有状態の計算を可能にする新しい貯留層計算フレームワークを提案する。 このアプローチは、量子化学と量子カオスの分野における顕著なシステムの研究に用いられる。 この論文の最後の貢献は、量子貯水池計算のためのアルゴリズム設計の最適化である。 その結果、より複雑性の高い量子回路のファミリーは、メジャー化基準により、量子機械学習において優れた性能をもたらすことが示されている。 さらに, 量子ノイズがアルゴリズム性能に与える影響を評価し, 振幅減衰ノイズは量子貯留層計算の性能に有益であり, 脱分極・位相減衰ノイズは補正に優先すべきであることを明らかにした。 さらに、量子貯水池の最適設計は、薬物設計の根本的な問題に取り組むハイブリッド量子古典ニューラルネットワークを構築するために用いられる。

Reservoir computing is a novel machine learning algorithm that uses a nonlinear dynamical system to efficiently learn complex temporal patterns from data. The objective of this thesis is to investigate the principles of reservoir computing and develop state-of-the-art variants capable of addressing diverse applications in machine learning. The research demonstrates the algorithm's robustness and adaptability across very different domains, including agricultural time series forecasting and the time propagation of quantum systems. The first contribution of this thesis consists in developing a reservoir computing-based methodology to predict future agricultural product prices, which is crucial for ensuring the sustainability of the food market. The next contribution of the thesis is devoted to solving the Schr\"odinger equation for complex quantum systems. A novel reservoir computing framework is proposed to efficiently propagate quantum wavefunctions in time, enabling the computation of all eigenstates of a quantum system within a specific energy range. This approach is used to study prominent systems in the field of quantum chemistry and quantum chaos. The last contribution of this thesis focuses on optimizing algorithm designs for quantum reservoir computing. The results demonstrate that families of quantum circuits with higher complexity, according to the majorization criterion, yield superior performance in quantum machine learning. Moreover, the impact of quantum noise on the algorithm performance is evaluated, revealing that the amplitude damping noise can actually be beneficial for the performance of quantum reservoir computing, while the depolarizing and phase damping noise should be prioritized for correction. Furthermore, the optimal design of quantum reservoirs is employed to construct a hybrid quantum-classical neural network that tackles a fundamental problem in drug design.
翻訳日:2023-10-13 07:38:39 公開日:2023-10-11
# DESTINE: 軌道予測のための時変アライメント付き動的ゴールクエリ

DESTINE: Dynamic Goal Queries with Temporal Transductive Alignment for Trajectory Prediction ( http://arxiv.org/abs/2310.07438v1 )

ライセンス: Link先を確認
Rezaul Karim, Soheil Mohamad Alizadeh Shabestary, Amir Rasouli(参考訳) 多エージェント環境での時間的一貫性のある道路利用者の軌跡の予測は,エージェントの特性やその意図が不明なため難しい課題である。 セマンティックマップ情報とモデリングインタラクションの使用に加えて、粒度の異なるレベルでの振る舞いを推論できる効果的なメカニズムを構築することが重要である。 そこで本稿では,時間的変換型alIgNmEnt(DESTINE)法を用いた動的ゴールquErieSを提案する。 過去の芸術とは異なり 我々のアプローチは 1) レーン等の特定の道路構造に関係なく,エージェントの目標を動的に予測することにより,より正確な目的地推定を行うことができる。 2)下位フレームレートでの粗い予測が中間目標となるような粗い方法で、将来の軌跡を生成することにより、地図準拠の予測を実現する。 3) 注意モジュールを用いて, 予測軌道の時間的調整を行う。 一般的なArgoverseベンチマークデータセットを用いて,提案手法が各種メトリクスの最先端性能を実現することを示し,さらに包括的アブレーションによる提案モジュールの寄与について検討する。

Predicting temporally consistent road users' trajectories in a multi-agent setting is a challenging task due to unknown characteristics of agents and their varying intentions. Besides using semantic map information and modeling interactions, it is important to build an effective mechanism capable of reasoning about behaviors at different levels of granularity. To this end, we propose Dynamic goal quErieS with temporal Transductive alIgNmEnt (DESTINE) method. Unlike past arts, our approach 1) dynamically predicts agents' goals irrespective of particular road structures, such as lanes, allowing the method to produce a more accurate estimation of destinations; 2) achieves map compliant predictions by generating future trajectories in a coarse-to-fine fashion, where the coarser predictions at a lower frame rate serve as intermediate goals; and 3) uses an attention module designed to temporally align predicted trajectories via masked attention. Using the common Argoverse benchmark dataset, we show that our method achieves state-of-the-art performance on various metrics, and further investigate the contributions of proposed modules via comprehensive ablation studies.
翻訳日:2023-10-13 07:38:13 公開日:2023-10-11
# 量子カウントと関連する記号

Quantum counting, and a relevant sign ( http://arxiv.org/abs/2310.07428v1 )

ライセンス: Link先を確認
Natalie Chung and Rafael I. Nepomechie(参考訳) 量子コンピューティングの入門コースで必須となる2つのアルゴリズムは、グローバーの探索アルゴリズムと量子位相推定である。 量子カウントは2つのアルゴリズムの単純かつ美しいブレンドであり、そのようなコースにおける学生プロジェクトにとって魅力的なトピックである。 しかし、Groverのアルゴリズムを実装する際に無関係な符号が関係する。 これらのアルゴリズムを概観し、上記のサインを強調した。

Two indispensable algorithms in an introductory course on Quantum Computing are Grover's search algorithm and quantum phase estimation. Quantum counting is a simple yet beautiful blend of these two algorithms, and it is therefore an attractive topic for a student project in such a course. However, a sign that is irrelevant when implementing Grover's algorithm becomes relevant. We briefly review these algorithms, highlighting the aforementioned sign.
翻訳日:2023-10-13 07:37:56 公開日:2023-10-11
# 多言語asrにおけるコードスイッチングアダプタの適用

Adapting the adapters for code-switching in multilingual ASR ( http://arxiv.org/abs/2310.07423v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki(参考訳) 近年,多くの低リソース言語に対する自動音声認識 (asr) のスケールアップが期待されている。 これらのモデルのいくつかは言語アダプタを定式化に採用しており、モノリンガル性能の向上とリソース豊富な言語における多言語モデリングの欠点の回避に役立っている。 しかし、この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。 本稿では,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同化することにより,コード切り換え音声において,そのようなモデルを効果的に微調整する方法を提案する。 また、コードスイッチングを潜在バイナリシーケンスのシーケンスとしてモデル化し、フレームレベルで各言語アダプタからの情報の流れをガイドすることができる。 提案手法は、アラビア語、マンダリン語、ヒンディー語を合わせた3つのコード切替データセットで評価され、すべてのテストセットでCERを10倍以上削減したコード切替性能が一貫した改善を示した。

Recently, large pre-trained multilingual speech models have shown potential in scaling Automatic Speech Recognition (ASR) to many low-resource languages. Some of these models employ language adapters in their formulation, which helps to improve monolingual performance and avoids some of the drawbacks of multi-lingual modeling on resource-rich languages. However, this formulation restricts the usability of these models on code-switched speech, where two languages are mixed together in the same utterance. In this work, we propose ways to effectively fine-tune such models on code-switched speech, by assimilating information from both language adapters at each language adaptation point in the network. We also model code-switching as a sequence of latent binary sequences that can be used to guide the flow of information from each language adapter at the frame level. The proposed approaches are evaluated on three code-switched datasets encompassing Arabic, Mandarin, and Hindi languages paired with English, showing consistent improvements in code-switching performance with at least 10\% absolute reduction in CER across all test sets.
翻訳日:2023-10-13 07:37:50 公開日:2023-10-11
# ダイヤモンド中のスピンの周波数混合分光

Frequency mixing spectroscopy of spins in diamond ( http://arxiv.org/abs/2310.07398v1 )

ライセンス: Link先を確認
Mohammed Attrash, Sergei Masis, Sergey Hazanov, Oleg Shtempluck and Eyal Buks(参考訳) スピン系における周波数混合プロセスは、気象学や量子データ処理に様々な応用がある。 周波数混合に基づくスピン分光は、駆動と検出の間のクロストークを排除できるなど、いくつかの利点がある。 ダイヤモンド中の負電荷窒素空孔欠陥を有する非線形周波数混合過程を低温および準レベル反交差で実験的に検討した。 実験装置は縦方向と横方向に同時に磁気駆動を行うことができる。 磁気共鳴検出は、Landau Zener St\"uckelberg interferometry と 2-tone driving spectroscopy の両方を用いて実証される。 実験結果は、回転波近似に基づく理論解析の予測と比較した。

Frequency mixing processes in spin systems have a variety of applications in meteorology and in quantum data processing. Spin spectroscopy based on frequency mixing offers some advantages, including the ability to eliminate crosstalk between driving and detection. We experimentally explore nonlinear frequency mixing processes with negatively charged nitrogen-vacancy defects in diamond at low temperatures, and near level anti crossing. The experimental setup allows simultaneously applying magnetic driving in the longitudinal and transverse directions. Magnetic resonance detection is demonstrated using both Landau Zener St\"uckelberg interferometry and two-tone driving spectroscopy. The experimental results are compared with predictions of a theoretical analysis based on the rotating wave approximation.
翻訳日:2023-10-13 07:37:30 公開日:2023-10-11
# ニューラルトランスデューサのシーケンス識別訓練における言語モデルの影響の検討

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers ( http://arxiv.org/abs/2310.07345v1 )

ライセンス: Link先を確認
Zijian Yang, Wei Zhou, Ralf Schl\"uter, Hermann Ney(参考訳) 本研究では,音素に基づくニューラルトランスデューサの逐次識別訓練において,文脈長の異なる言語モデル(LM)とラベル単位(音素対単語)の効果について検討する。 格子フリーおよびNベストリストアプローチについて検討した。 音素レベルのLMを用いた格子フリー手法に対して,フルコンテキスト依存のLMを使用するための文脈履歴を近似する手法を提案する。 この近似は任意の文脈長に拡張でき、格子自由法で単語レベルのlmsを使うことができる。 さらに,格子フリーおよびN-best-list-based法で系統比較を行った。 Librispeech 実験の結果,単語レベルLM は音素レベルLM よりも優れていた。 さらに,確率計算に使用するLMのコンテキストサイズは,性能に限られた影響を及ぼすことがわかった。 さらに,この結果から,系列識別訓練における仮説空間品質の重要性が示唆された。

In this work, we investigate the effect of language models (LMs) with different context lengths and label units (phoneme vs. word) used in sequence discriminative training for phoneme-based neural transducers. Both lattice-free and N-best-list approaches are examined. For lattice-free methods with phoneme-level LMs, we propose a method to approximate the context history to employ LMs with full-context dependency. This approximation can be extended to arbitrary context length and enables the usage of word-level LMs in lattice-free methods. Moreover, a systematic comparison is conducted across lattice-free and N-best-list-based methods. Experimental results on Librispeech show that using the word-level LM in training outperforms the phoneme-level LM. Besides, we find that the context size of the LM used for probability computation has a limited effect on performance. Moreover, our results reveal the pivotal importance of the hypothesis space quality in sequence discriminative training.
翻訳日:2023-10-13 07:37:18 公開日:2023-10-11
# ウェブカメラを用いた3次元動作評価のための機械学習手法

A webcam-based machine learning approach for three-dimensional range of motion evaluation ( http://arxiv.org/abs/2310.07322v1 )

ライセンス: Link先を確認
Xiaoye Michael Wang, Derek T. Smith, Qin Zhu(参考訳) 背景。 関節可動域(ROM)は理学療法において重要な定量的指標である。 一般的にはゴニメーターに頼り、正確で信頼性の高いROM測定には広範な訓練と練習が必要である。 これは、対人医療へのアクセスが制限されている人々にとって大きな障壁となる。 目的。 本研究は,webカメラから遠隔でアクセス可能な,代替機械学習によるrom評価手法を提案し,評価する。 メソッド。 信頼性を評価するため, 本法により得られた各種関節(頸部, 脊椎, 上肢, 下肢)のROM測定を, マーカーベース光学式モーションキャプチャーシステムから得られたものと比較した。 結果だ 健常成人25名から収集したデータから, ウェブカム溶液は高い信頼性を示し, ほぼ完全なクラス内相関係数を示した。 マーカーベースのシステムと比較すると、Webcamベースのシステムは、いくつかの関節に対してほぼ完全なラター間信頼性を示し、他の関節(肩屈曲や肘屈曲など)に対するラター間信頼性は、運動の頂点における関節位置に対する感度の低下に起因する可能性がある。 結論だ 提案手法は, 臨床実習における既存のROM評価法や理学療法, リハビリテーションの遠隔実施の代替手段として, 高い信頼性と信頼性を示した。

Background. Joint range of motion (ROM) is an important quantitative measure for physical therapy. Commonly relying on a goniometer, accurate and reliable ROM measurement requires extensive training and practice. This, in turn, imposes a significant barrier for those who have limited in-person access to healthcare. Objective. The current study presents and evaluates an alternative machine learning-based ROM evaluation method that could be remotely accessed via a webcam. Methods. To evaluate its reliability, the ROM measurements for a diverse set of joints (neck, spine, and upper and lower extremities) derived using this method were compared to those obtained from a marker-based optical motion capture system. Results. Data collected from 25 healthy adults demonstrated that the webcam solution exhibited high test-retest reliability, with substantial to almost perfect intraclass correlation coefficients for most joints. Compared with the marker-based system, the webcam-based system demonstrated substantial to almost perfect inter-rater reliability for some joints, and lower inter-rater reliability for other joints (e.g., shoulder flexion and elbow flexion), which could be attributed to the reduced sensitivity to joint locations at the apex of the movement. Conclusions. The proposed webcam-based method exhibited high test-retest and inter-rater reliability, making it a versatile alternative for existing ROM evaluation methods in clinical practice and the tele-implementation of physical therapy and rehabilitation.
翻訳日:2023-10-13 07:37:05 公開日:2023-10-11
# ベクトル値ガウス過程に基づく帰納集合推定のための逐次実験的設計戦略の一貫性

Consistency of some sequential experimental design strategies for excursion set estimation based on vector-valued Gaussian processes ( http://arxiv.org/abs/2310.07315v1 )

ライセンス: Link先を確認
Philip Stange and David Ginsbourger(参考訳) 我々は,[bect et al., a supermartingale approach to gaussian process based sequential design of experiments, bernoulli 25, 2019]で確立された段階的不確実性低減逐次実験設計戦略のための,ベクトル値の整合性結果の拡張に取り組む。 これにより、コンパクトな指数集合を仮定し、連続ガウス過程と連続函数のバナッハ空間上のガウス測度の間の接続がベクトル値設定にどのように影響するかを明らかにすることができる。 そこから、上述の論文から多くの概念や性質を容易に拡張することができる。 しかし、ベクトル値設定は、有限個の点的観測によって与えられた条件平均と共分散関数に影響を与える擬逆写像の連続性の欠如によって、いくつかの結果のために複雑になる。 本研究では, 自動海洋サンプリングのためのベクトル値付きガウス確率場の抽出集合, The Annals of Applied Statistics 15, 2021] を用いて, ベクトル値付き関数の抽出集合の推定について, 統合ベルヌーイ変数と期待値の不確実性関数に適用した。

We tackle the extension to the vector-valued case of consistency results for Stepwise Uncertainty Reduction sequential experimental design strategies established in [Bect et al., A supermartingale approach to Gaussian process based sequential design of experiments, Bernoulli 25, 2019]. This lead us in the first place to clarify, assuming a compact index set, how the connection between continuous Gaussian processes and Gaussian measures on the Banach space of continuous functions carries over to vector-valued settings. From there, a number of concepts and properties from the aforementioned paper can be readily extended. However, vector-valued settings do complicate things for some results, mainly due to the lack of continuity for the pseudo-inverse mapping that affects the conditional mean and covariance function given finitely many pointwise observations. We apply obtained results to the Integrated Bernoulli Variance and the Expected Measure Variance uncertainty functionals employed in [Fossum et al., Learning excursion sets of vector-valued Gaussian random fields for autonomous ocean sampling, The Annals of Applied Statistics 15, 2021] for the estimation for excursion sets of vector-valued functions.
翻訳日:2023-10-13 07:36:37 公開日:2023-10-11
# テキストなし音声から音声への翻訳における表現力伝達の促進

Enhancing expressivity transfer in textless speech-to-speech translation ( http://arxiv.org/abs/2310.07279v1 )

ライセンス: Link先を確認
Jarod Duret (LIA), Benjamin O'Brien (LIA), Yannick Est\`eve (LIA), Titouan Parcollet (CAM)(参考訳) 自己教師型学習技術の統合により,テキストから音声への翻訳システムが急速に進歩している。 しかし、既存の最先端のシステムは、表現力を正確に異なる言語に取り込み、転送する場合に不足している。 表現力は感情、ニュアンス、文化的微妙さの伝達において重要な役割を担い、様々な言語間のコミュニケーションを強化する。 そこで本研究では,音声単位レベルで動作し,多言語感情埋め込みを活用し,言語非依存な情報を取り込む新しい手法を提案する。 具体的には、これらの埋め込みを用いて、ターゲット言語における音声単位のピッチと持続時間を効果的に予測する方法を示す。 フランス語から英語への翻訳課題における客観的・主観的実験により,現状のシステムと比較して,本手法による表現力の伝達が優れていることを浮き彫りにした。

Textless speech-to-speech translation systems are rapidly advancing, thanks to the integration of self-supervised learning techniques. However, existing state-of-the-art systems fall short when it comes to capturing and transferring expressivity accurately across different languages. Expressivity plays a vital role in conveying emotions, nuances, and cultural subtleties, thereby enhancing communication across diverse languages. To address this issue this study presents a novel method that operates at the discrete speech unit level and leverages multilingual emotion embeddings to capture language-agnostic information. Specifically, we demonstrate how these embeddings can be used to effectively predict the pitch and duration of speech units in the target language. Through objective and subjective experiments conducted on a French-to-English translation task, our findings highlight the superior expressivity transfer achieved by our approach compared to current state-of-the-art systems.
翻訳日:2023-10-13 07:36:10 公開日:2023-10-11
# ADASR:ハイパースペクトルとマルチスペクトルデータ融合のための逆自動拡張フレームワーク

ADASR: An Adversarial Auto-Augmentation Framework for Hyperspectral and Multispectral Data Fusion ( http://arxiv.org/abs/2310.07255v1 )

ライセンス: Link先を確認
Jinghui Qin, Lihuang Fang, Ruitao Lu, Liang Lin, and Yukai Shi(参考訳) 深層ニューラルネットワーク(DNN)にハイパースペクトル画像(HSI)とマルチスペクトル画像(MSI)を融合させることで高空間分解能HSI(HR-HSI)を生成することを目的とした、深層学習ベースハイパースペクトル画像(HSI)超解像が注目されている。 しかし、ニューラルネットワークは大量のトレーニングデータを必要とし、実際のシナリオでの応用を妨げる。 本稿では, HSI-MSI 融合のためのデータ多様性を向上するために, HSI-MSI サンプルペアの自動最適化と拡張を行う新しい逆自動データ拡張フレームワーク ADASR を提案する。 本フレームワークは,サンプル認識型で,対向学習により拡張ネットワークと2つのダウンサンプリングネットワークを協調的に最適化し,アップサンプリングネットワークをトレーニングするためのより堅牢なダウンサンプリングネットワークを学習できるようにする。 2つの公開古典的ハイパースペクトルデータセットに対する大規模な実験は、最先端の手法と比較してADASRの有効性を示している。

Deep learning-based hyperspectral image (HSI) super-resolution, which aims to generate high spatial resolution HSI (HR-HSI) by fusing hyperspectral image (HSI) and multispectral image (MSI) with deep neural networks (DNNs), has attracted lots of attention. However, neural networks require large amounts of training data, hindering their application in real-world scenarios. In this letter, we propose a novel adversarial automatic data augmentation framework ADASR that automatically optimizes and augments HSI-MSI sample pairs to enrich data diversity for HSI-MSI fusion. Our framework is sample-aware and optimizes an augmentor network and two downsampling networks jointly by adversarial learning so that we can learn more robust downsampling networks for training the upsampling network. Extensive experiments on two public classical hyperspectral datasets demonstrate the effectiveness of our ADASR compared to the state-of-the-art methods.
翻訳日:2023-10-13 07:35:51 公開日:2023-10-11
# 非ボゾン補正による閉殻分子の変分量子固有解法

Variational quantum eigensolver for closed-shell molecules with non-bosonic corrections ( http://arxiv.org/abs/2310.07650v1 )

ライセンス: Link先を確認
Kyungmin Kim, Sumin Lim, Kyujin Shin, Gwonhak Lee, Yousung Jung, Woomin Kyoung, June-Koo Kevin Rhee, and Young Min Rhee(参考訳) ノイズのある中間規模量子(NISQ)マシンによる量子優位性の実現は、計算科学における大きな課題の1つとなっている。 10キュービット以上の物理システムの一貫性を維持することは、アルゴリズムの複雑さを減らすためのコンパクトなシステム表現の研究を動機付ける重要な課題である。 この目的のために、変分量子固有解法(VQE)に基づく量子シミュレーションは、NISQ時代の量子化学にとって最も有望なアルゴリズムの1つであると考えられている。 1つの空間軌道から1つの量子ビットへのマッピングを縮小し、量子ビットのパウリ作用素が一重項電子対の生成/消滅にマッピングされるように基底状態エネルギーを分析する。 非ボソニック(または非ペア)励起の効果を含めるために、ボソニック(またはペア)項の幾何学平均によって近似される電子相関モデルにおいて単純な補正スキームを導入する。 VQEアルゴリズムを用いて,H2O,N2,Li2Oの基底状態エネルギーを,量子ゲート深さが量子ビット数に比例する6,8,12量子ビットのみを用いて,フル構成相互作用(FCI)モデルと良好な一致で評価する。 また,CH2OH+-> HCO++ H2分解反応におけるポテンシャルエネルギー分布について検討した。 従来のVQEアルゴリズムの量子ビット数の半分しか利用していない高次数-ゼロ近似を用いて、少なくとも試験系では、我々の非ボゾン補正法は信頼性の高い量子化学シミュレーションに到達している。

The realization of quantum advantage with noisy-intermediate-scale quantum (NISQ) machines has become one of the major challenges in computational sciences. Maintaining coherence of a physical system with more than ten qubits is a critical challenge that motivates research on compact system representations to reduce algorithm complexity. Toward this end, quantum simulations based on the variational quantum eigensolver (VQE) is considered to be one of the most promising algorithms for quantum chemistry in the NISQ era. We investigate reduced mapping of one spatial orbital to a single qubit to analyze the ground state energy in a way that the Pauli operators of qubits are mapped to the creation/annihilation of singlet pairs of electrons. To include the effect of non-bosonic (or non-paired) excitations, we introduce a simple correction scheme in the electron correlation model approximated by the geometrical mean of the bosonic (or paired) terms. Employing it in a VQE algorithm, we assess ground state energies of H2O, N2, and Li2O in good agreements with full configuration interaction (FCI) models respectively, using only 6, 8, and 12 qubits with quantum gate depths proportional to the squares of the qubit counts. We also investigate the potential energy profile along the CH2OH+ -> HCO+ + H2 decomposition reaction. With the adopted seniority-zero approximation that uses only one half of the qubit counts of a conventional VQE algorithm, we find our non-bosonic correction method reaches reliable quantum chemistry simulations at least for the tested systems.
翻訳日:2023-10-13 07:27:50 公開日:2023-10-11
# 高コンプレックス乳癌分類における注意マップの拡張

Attention-Map Augmentation for Hypercomplex Breast Cancer Classification ( http://arxiv.org/abs/2310.07633v1 )

ライセンス: Link先を確認
Eleonora Lopez, Filippo Betello, Federico Carmignani, Eleonora Grassucci, and Danilo Comminiello(参考訳) 乳癌は女性の中で最も広範な腫瘍であり、早期発見が重要である。 深層学習技術は診断性能を向上させるために大きな関心を集めている。 いずれにせよ, 悪性腫瘤と良性腫瘤の鑑別は, 未訓練眼とほぼ同一であり, 画像全体の微小部分を占める関心領域 (ROI) のため, 依然として困難である。 本稿では,これらの問題を解決するために,パラメータ化ハイパーコンプレックスアテンションマップ(PHAM)を提案する。 具体的には,コンピュータ注意マップに基づく拡張ステップをデプロイする。 そして、注意マップを用いて、原乳がん画像と対応する注意マップとからなる多次元入力を構築することにより、分類ステップを条件付ける。 このステップでは、パラメータ化ハイパーコンプレックスニューラルネットワーク(PHNN)を用いて乳癌の分類を行う。 このフレームワークには2つの大きな利点がある。 まず、注意マップはroiに関する重要な情報を提供し、神経モデルがそれに集中できるようにします。 第二に、超複素アーキテクチャは、超複素代数規則により入力次元間の局所関係をモデル化し、注意マップが提供する情報を適切に利用することができる。 本研究は, マンモグラフィ画像と病理組織像の両方に対する提案手法の有効性を実証し, 注意に基づく最先端のネットワークと, 本手法の実際の値と比較した。 私たちの仕事のコードはhttps://github.com/elelo22/attentionbcsで閲覧できます。

Breast cancer is the most widespread neoplasm among women and early detection of this disease is critical. Deep learning techniques have become of great interest to improve diagnostic performance. Nonetheless, discriminating between malignant and benign masses from whole mammograms remains challenging due to them being almost identical to an untrained eye and the region of interest (ROI) occupying a minuscule portion of the entire image. In this paper, we propose a framework, parameterized hypercomplex attention maps (PHAM), to overcome these problems. Specifically, we deploy an augmentation step based on computing attention maps. Then, the attention maps are used to condition the classification step by constructing a multi-dimensional input comprised of the original breast cancer image and the corresponding attention map. In this step, a parameterized hypercomplex neural network (PHNN) is employed to perform breast cancer classification. The framework offers two main advantages. First, attention maps provide critical information regarding the ROI and allow the neural model to concentrate on it. Second, the hypercomplex architecture has the ability to model local relations between input dimensions thanks to hypercomplex algebra rules, thus properly exploiting the information provided by the attention map. We demonstrate the efficacy of the proposed framework on both mammography images as well as histopathological ones, surpassing attention-based state-of-the-art networks and the real-valued counterpart of our method. The code of our work is available at https://github.com/elelo22/AttentionBCS.
翻訳日:2023-10-13 07:27:21 公開日:2023-10-11
# 潜在Su-Schrieffer-Heegerモデル

Latent Su-Schrieffer-Heeger models ( http://arxiv.org/abs/2310.07619v1 )

ライセンス: Link先を確認
Malte R\"ontgen, Xuelong Chen, Wenlong Gao, Maxim Pyzh, Peter Schmelcher, Vincent Pagneux, Vassos Achilleos, Antonin Coutant(参考訳) Su-Schrieffer-Heeger(SSH)鎖は1次元トポロジカル絶縁体の参照モデルである。 その位相的性質は、単位セルの反射対称性に起因するzak相の量子化や、カイラル対称性による回転数によって説明できる。 ここでは,最近のグラフ理論的結果を利用して,単位セルがこれらの対称性を特徴とせず,いわゆる潜在性あるいは隠れた反射対称性を特徴とする集合を構成できる。 これにより、実効的なハミルトニアンと同様に、結果として生じる格子の等スペクトル還元はSSHモデルの形となる。 このように、これらの潜在SSHモデルは、多重位相遷移やエッジ状態、および量子化されたザック相のような特徴を示す。 一般に適用可能な離散的なフレームワークを用いて,電気回路を用いて実験を行った。

The Su-Schrieffer-Heeger (SSH) chain is the reference model of a one-dimensional topological insulator. Its topological nature can be explained by the quantization of the Zak phase, due to reflection symmetry of the unit cell, or of the winding number, due to chiral symmetry. Here, we harness recent graph-theoretical results to construct families of setups whose unit cell features neither of these symmetries, but instead a so-called latent or hidden reflection symmetry. This causes the isospectral reduction -- akin to an effective Hamiltonian -- of the resulting lattice to have the form of an SSH model. As we show, these latent SSH models exhibit features such as multiple topological transitions and edge states, as well as a quantized Zak phase. Relying on a generally applicable discrete framework, we experimentally validate our findings using electric circuits.
翻訳日:2023-10-13 07:26:57 公開日:2023-10-11
# 狭帯域可視領域への単層ws$_2$放出におけるナノ粒子応力誘起単光子源

Nanoparticle Stressor-Induced Single-photon Sources in Monolayer WS$_2$ Emitting into a Narrowband Visible Spectral Range ( http://arxiv.org/abs/2310.07578v1 )

ライセンス: Link先を確認
J. Thoppil S, Y. Waheed, S. Shit, I. D. Prasad, K. Watanabe, T. Taniguchi, and S. Kumar(参考訳) 単光子発光層として原子的に薄い単層遷移金属ジアルコゲナイドを含むファンデルワールスヘテロ構造が、興味深い固体量子フォトニックプラットフォームとして出現している。 本稿では, ml-ws$_2 におけるスペクトル分離, エネルギー安定, 狭線幅単一光子放出体の生成にシリカナノ粒子のスピンコートを用いる。 また、真空中におけるフォトニックヘテロ構造の長期低温アニールは、製造に伴う残留物によるエネルギー不安定なエミッタを除去し、$\sim$620 nmを中心とする25nmの狭帯域可視スペクトル範囲において単光子を放出することを示した。 この研究は、ファンデルワールスヘテロ構造/デバイスと、同じ可視光域で放射/吸収する原子-蒸気系を含むハイブリッド量子-フォトニックプラットフォームの実現に向けた道を開くかもしれない。

A van der Waals heterostructure containing an atomically thin monolayer transition-metal dichalcogenide as a single-photon emitting layer is emerging as an intriguing solid-state quantum-photonic platform. Here, we report the utilization of spin-coating of silica nanoparticles for deterministically creating the spectrally isolated, energetically stable, and narrow-linewidth single-photon emitters in ML-WS$_2$. We also demonstrate that long-duration low-temperature annealing of the photonic heterostructure in the vacuum removes the energetically unstable emitters that are present due to fabrication-associated residue and lead to the emission of single-photons in a <25 nm narrowband visible spectral range centered at $\sim$620 nm. This work may pave the way toward realizing a hybrid-quantum-photonic platform containing a van der Waals heterostructure/device and an atomic-vapor system emitting/absorbing in the same visible spectral range.
翻訳日:2023-10-13 07:26:41 公開日:2023-10-11
# CM-PIE:対話型視覚映像解析のためのクロスモーダル認識

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing ( http://arxiv.org/abs/2310.07517v1 )

ライセンス: Link先を確認
Yaru Chen, Ruohao Guo, Xubo Liu, Peipei Wu, Guangyao Li, Zhenbo Li and Wenwu Wang(参考訳) オーディオ・ビジュアルビデオ解析は、弱いラベルでセグメントレベルで動画を分類し、それを可聴または可視的なイベントとして予測するタスクである。 この課題に対する最近の手法では,映像全体の意味的相関を音声と視覚のモダリティで捉えるための注意機構が活用されている。 しかしながら、これらのアプローチは、ビデオ内の個々のセグメントの重要性とそれらの関係を軽視し、特徴を学習する際に単一のモダリティに依存する傾向にある。 本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法~(CM-PIE)を提案する。 さらに、モーダル間相互作用を強化することにより、音声と視覚信号の意味表現を協調的に最適化するクロスモーダルアグリゲーションブロックを導入する。 実験結果から,本モデルは他の手法と比較して,ルック,リスン,パースデータセットのパース性能が向上することが示された。

Audio-visual video parsing is the task of categorizing a video at the segment level with weak labels, and predicting them as audible or visible events. Recent methods for this task leverage the attention mechanism to capture the semantic correlations among the whole video across the audio-visual modalities. However, these approaches have overlooked the importance of individual segments within a video and the relationship among them, and tend to rely on a single modality when learning features. In this paper, we propose a novel interactive-enhanced cross-modal perception method~(CM-PIE), which can learn fine-grained features by applying a segment-based attention module. Furthermore, a cross-modal aggregation block is introduced to jointly optimize the semantic representation of audio and visual signals by enhancing inter-modal interactions. The experimental results show that our model offers improved parsing performance on the Look, Listen, and Parse dataset compared to other methods.
翻訳日:2023-10-13 07:26:22 公開日:2023-10-11
# XYスピン鎖におけるエンタングルメント非対称性と量子Mpemba効果

Entanglement asymmetry and quantum Mpemba effect in the XY spin chain ( http://arxiv.org/abs/2310.07513v1 )

ライセンス: Link先を確認
Sara Murciano, Filiberto Ares, Israel Klich and Pasquale Calabrese(参考訳) エンタングルメント非対称性(英: entanglement asymmetric)は、拡張量子系の一部で対称性がどの程度壊れているかを測定するために最近導入された量である。 これは、ハミルトニアンが保存する大域的量子クエンチの後、壊れた対称性の非平衡ダイナミクスを分析するために用いられる。 本研究では,u(1)$粒子数対称性を破るxyスピン鎖の基底状態をとり,平衡におけるエンタングルメント非対称性の包括的解析を行い,超伝導クーパー対を用いてその物理的解釈を行う。 また、この基底状態からXXスピン鎖へのクエンチも考慮し、これは破れた$U(1)$対称性を保存する。 この場合、エンタングルメント非対称性は、当初対称性が破られるほど、サブシステム(量子mpemba効果の一種である驚きで直観的な現象)で復元される可能性があることを明らかにする。 我々は,この系における量子mpemba効果を観察するための微視的条件を導出し,任意の可積分量子系に対して最近提案される基準をさらに支持する,クーパー対の観点からの絡み合い非対称性の準粒子図を得る。 さらに, 対称性回復を規定する動力法則は, 初期状態が臨界かどうかに不連続に依存し, 強弱なmpemba効果の新しい形態に繋がることがわかった。

Entanglement asymmetry is a quantity recently introduced to measure how much a symmetry is broken in a part of an extended quantum system. It has been employed to analyze the non-equilibrium dynamics of a broken symmetry after a global quantum quench with a Hamiltonian that preserves it. In this work, we carry out a comprehensive analysis of the entanglement asymmetry at equilibrium taking the ground state of the XY spin chain, which breaks the $U(1)$ particle number symmetry, and provide a physical interpretation of it in terms of superconducting Cooper pairs. We also consider quenches from this ground state to the XX spin chain, which preserves the broken $U(1)$ symmetry. In this case, the entanglement asymmetry reveals that the more the symmetry is initially broken, the faster it may be restored in a subsystem, a surprising and counter-intuitive phenomenon that is a type of a quantum Mpemba effect. We obtain a quasi-particle picture for the entanglement asymmetry in terms of Cooper pairs, from which we derive the microscopic conditions to observe the quantum Mpemba effect in this system, giving further support to the criteria recently proposed for arbitrary integrable quantum systems. In addition, we find that the power law governing symmetry restoration depends discontinuously on whether the initial state is critical or not, leading to new forms of strong and weak Mpemba effects.
翻訳日:2023-10-13 07:26:03 公開日:2023-10-11
# ptychodv : 画像再構成のための視覚トランスフォーマーベースのディープアンロールネットワーク

PtychoDV: Vision Transformer-Based Deep Unrolling Network for Ptychographic Image Reconstruction ( http://arxiv.org/abs/2310.07504v1 )

ライセンス: Link先を確認
Weijie Gan, Qiuchen Zhai, Michael Thompson McCann, Cristina Garcia Cardona, Ulugbek S. Kamilov, Brendt Wohlberg(参考訳) ptychographyは、複数の重なり合うサンプルのスナップショットを撮像するイメージング技術で、移動する局所プローブによってコヒーレントに照らされる。 ptychographyデータからの画像回復は、測定された回折パターンから導かれる非線形位相場問題を解く反復アルゴリズムによって一般的に達成される。 しかし、これらの手法は計算コストが高い。 本稿では,効率良く高品質なptychography画像再構成を目的とした,新しい深層モデルベースネットワークであるptychodvを提案する。 PtychoDVは、それらの相互相関を考慮して、原測定セットから初期画像を生成する視覚変換器を備える。 この後、学習可能な畳み込み前処理とptychography計測モデルを用いて初期画像を洗練するディープアンロールネットワークが続く。 シミュレーションデータによる実験結果から,PtychoDVは既存のディープラーニング手法よりも優れており,競争性能を維持しつつ,反復手法と比較して計算コストを大幅に削減できることが示された。

Ptychography is an imaging technique that captures multiple overlapping snapshots of a sample, illuminated coherently by a moving localized probe. The image recovery from ptychographic data is generally achieved via an iterative algorithm that solves a nonlinear phase-field problem derived from measured diffraction patterns. However, these approaches have high computational cost. In this paper, we introduce PtychoDV, a novel deep model-based network designed for efficient, high-quality ptychographic image reconstruction. PtychoDV comprises a vision transformer that generates an initial image from the set of raw measurements, taking into consideration their mutual correlations. This is followed by a deep unrolling network that refines the initial image using learnable convolutional priors and the ptychography measurement model. Experimental results on simulated data demonstrate that PtychoDV is capable of outperforming existing deep learning methods for this problem, and significantly reduces computational cost compared to iterative methodologies, while maintaining competitive performance.
翻訳日:2023-10-13 07:25:38 公開日:2023-10-11
# fgprompt: 画像ナビゲーションのための細粒度目標プロンプト

FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation ( http://arxiv.org/abs/2310.07473v1 )

ライセンス: Link先を確認
Xinyu Sun, Peihao Chen, Jugang Fan, Thomas H. Li, Jian Chen, Mingkui Tan(参考訳) 画像特定目標への道順を学ぶことは、自律システムにとって重要だが難しい課題だ。 エージェントは、写真が撮影された場所からゴール位置を推論する必要がある。 既存の手法では、目標画像と観測画像の意味的特徴を独立して捉えるナビゲーションポリシーを学習し、ナビゲーションアクションのシーケンスを予測するためにそれらを融合することでこの問題を解決しようとする。 しかし、これらの方法には2つの大きな制限がある。 1) 目標画像の詳細な情報を見逃し、その結果、目標位置の推論に失敗する可能性がある。 2) より重要なことは, 目標条件なしで観察を理解しようとするため, 観察画像の目標関連領域に焦点を合わせることは困難である。 本稿では、画像ゴールナビゲーションのためのFGPrompt法を設計し、これらの制約を克服することを目的とする。 特に,目標画像の細粒度・高解像度の特徴マップを,目標画像の詳細な情報を保存し,目標関連領域に注意を払って観察エンコーダを誘導する条件付き埋め込みの実行を促すために活用する。 image-goal navigation benchmarkの既存の手法と比較して、3つのベンチマークデータセット(gibson, mp3d, hm3d)のパフォーマンスが大幅に向上している。 特にギブソンでは、最先端の成功率を8%上回り、モデルサイズはわずか1/50でした。 プロジェクトページ: https://xinyusun.github.io/fgprompt-pages

Learning to navigate to an image-specified goal is an important but challenging task for autonomous systems. The agent is required to reason the goal location from where a picture is shot. Existing methods try to solve this problem by learning a navigation policy, which captures semantic features of the goal image and observation image independently and lastly fuses them for predicting a sequence of navigation actions. However, these methods suffer from two major limitations. 1) They may miss detailed information in the goal image, and thus fail to reason the goal location. 2) More critically, it is hard to focus on the goal-relevant regions in the observation image, because they attempt to understand observation without goal conditioning. In this paper, we aim to overcome these limitations by designing a Fine-grained Goal Prompting (FGPrompt) method for image-goal navigation. In particular, we leverage fine-grained and high-resolution feature maps in the goal image as prompts to perform conditioned embedding, which preserves detailed information in the goal image and guides the observation encoder to pay attention to goal-relevant regions. Compared with existing methods on the image-goal navigation benchmark, our method brings significant performance improvement on 3 benchmark datasets (i.e., Gibson, MP3D, and HM3D). Especially on Gibson, we surpass the state-of-the-art success rate by 8% with only 1/50 model size. Project page: https://xinyusun.github.io/fgprompt-pages
翻訳日:2023-10-13 07:25:20 公開日:2023-10-11
# ブロックチェーン型フェデレート学習における分散化の意義--モデル停滞と不整合の影響評価

The Implications of Decentralization in Blockchained Federated Learning: Evaluating the Impact of Model Staleness and Inconsistencies ( http://arxiv.org/abs/2310.07471v1 )

ライセンス: Link先を確認
Francesc Wilhelmi, Nima Afraz, Elia Guerra, Paolo Dini(参考訳) Blockchainは、次世代アプリケーションで協調的なインテリジェンスを実現する上で重要な特性である、さらなる分散化、セキュリティ、不変性、信頼を提供することにより、フェデレーションドラーニング(FL)のような分散機械学習(ML)アプローチを強化することを約束する。 それでも、p2p(peer-to-peer)ブロックチェーンノードの固有の分散操作は、flの未チャーテッド設定につながり、flラウンドとグローバルモデルの概念は、中央のオーケストレーションサーバの図式を使わずにデバイスの同期が失われることにより無意味になる。 本稿では,ブロックチェーンのような民主的なネットワークにflのオーケストレーションをアウトソーシングする実践的意義について検討する。 特に、ブロックチェーンのmodus operandiが支持する、停滞と不整合をモデル化するモデルが、flデバイスが非同期に保持するトレーニング手順に与える影響に注目します。 シミュレーションを用いて、よく知られたCIFAR-10データセット上でのブロックチェーンFL操作を評価し、ソリューションの正確性とタイムラインに焦点を当てた。 その結果,モデル不整合がモデルの精度に及ぼす影響(予測精度が最大で35%低下する)が明らかとなり,基盤となるFLアプリケーションの特性に基づいて,ブロックチェーンシステムを適切に設計することの重要性が示唆された。

Blockchain promises to enhance distributed machine learning (ML) approaches such as federated learning (FL) by providing further decentralization, security, immutability, and trust, which are key properties for enabling collaborative intelligence in next-generation applications. Nonetheless, the intrinsic decentralized operation of peer-to-peer (P2P) blockchain nodes leads to an uncharted setting for FL, whereby the concepts of FL round and global model become meaningless, as devices' synchronization is lost without the figure of a central orchestrating server. In this paper, we study the practical implications of outsourcing the orchestration of FL to a democratic network such as in a blockchain. In particular, we focus on the effects that model staleness and inconsistencies, endorsed by blockchains' modus operandi, have on the training procedure held by FL devices asynchronously. Using simulation, we evaluate the blockchained FL operation on the well-known CIFAR-10 dataset and focus on the accuracy and timeliness of the solutions. Our results show the high impact of model inconsistencies on the accuracy of the models (up to a ~35% decrease in prediction accuracy), which underscores the importance of properly designing blockchain systems based on the characteristics of the underlying FL application.
翻訳日:2023-10-13 07:24:52 公開日:2023-10-11
# IEEE 802.11エンタープライズネットワークにおけるAI/MLベースの負荷予測

AI/ML-based Load Prediction in IEEE 802.11 Enterprise Networks ( http://arxiv.org/abs/2310.07467v1 )

ライセンス: Link先を確認
Francesc Wilhelmi, Dariush Salami, Gianluca Fontanesi, Lorenzo Galati-Giordano, Mika Kasslin(参考訳) エンタープライズWi-Fiネットワークは、人工知能と機械学習(AI/ML)の利点を大いに享受することができる。 同時に、AI/MLベースのトラフィック/負荷予測は、自律的な操作の実現または予測されたネットワーク利用によるトラブルシューティングの促進を通じて、Wi-Fiエクスペリエンスを改善する最も魅力的なデータ駆動ソリューションの1つである。 本稿では,実践的な企業Wi-FiネットワークにおけるAI/MLベースの負荷予測の適用可能性について検討する。 AI/MLソリューションを活用することで、エネルギー効率、パフォーマンス、信頼性の観点からWi-Fiネットワークの最適化に寄与する可能性があるが、彼らの効果的な採用は、データの可用性や品質、計算能力、エネルギー消費といった側面に制約される。 この結果から,ハードウェア制約付きAI/MLモデルでは,平均誤差が20%未満でネットワーク負荷を予測できる可能性が示唆された。

Enterprise Wi-Fi networks can greatly benefit from Artificial Intelligence and Machine Learning (AI/ML) thanks to their well-developed management and operation capabilities. At the same time, AI/ML-based traffic/load prediction is one of the most appealing data-driven solutions to improve the Wi-Fi experience, either through the enablement of autonomous operation or by boosting troubleshooting with forecasted network utilization. In this paper, we study the suitability and feasibility of adopting AI/ML-based load prediction in practical enterprise Wi-Fi networks. While leveraging AI/ML solutions can potentially contribute to optimizing Wi-Fi networks in terms of energy efficiency, performance, and reliability, their effective adoption is constrained to aspects like data availability and quality, computational capabilities, and energy consumption. Our results show that hardware-constrained AI/ML models can potentially predict network load with less than 20% average error and 3% 85th-percentile error, which constitutes a suitable input for proactively driving Wi-Fi network optimization.
翻訳日:2023-10-13 07:24:27 公開日:2023-10-11
# CHATREPORT: LLMツールによるサステナビリティ開示分析の民主化

CHATREPORT: Democratizing Sustainability Disclosure Analysis through LLM-based Tools ( http://arxiv.org/abs/2307.15770v2 )

ライセンス: Link先を確認
Jingwei Ni, Julia Bingler, Chiara Colesanti-Senni, Mathias Kraus, Glen Gostlow, Tobias Schimanski, Dominik Stammbach, Saeid Ashraf Vaghefi, Qian Wang, Nicolas Webersinke, Tobias Wekhof, Tingyu Yu, Markus Leippold(参考訳) 気候変動に直面した企業は、より持続可能な運用に向けて大きな一歩を踏み出しているのだろうか? 包括的な答えは、企業サステナビリティレポートの密集した情報豊富な状況にある。 しかし、これらの報告の量と複雑さにより、人間の分析は非常にコストがかかる。 したがって、これらのレポートを大規模に分析するリソースを持つ組織は世界中でわずかであり、持続可能性レポートの透明性の欠如につながっている。 LLMベースの自動分析ツールによる利害関係者の強化は、サステナビリティレポート分析を民主化する上で有望な方法である。 しかし,1)LLMの幻覚化,2)AI開発ループにドメインエキスパートを巻き込む非効率性のため,そのようなツールの開発は困難である。 本稿では,企業サステナビリティレポートの分析を自動化する新しいllmベースのシステムであるchatreportについて,(1)幻覚の害を軽減し,(2)開発ループにドメイン専門家を積極的に関与させることで,既存の課題を解決する。 提案手法,注釈付きデータセット,および1015件のレポートを公開して分析する。

In the face of climate change, are companies really taking substantial steps toward more sustainable operations? A comprehensive answer lies in the dense, information-rich landscape of corporate sustainability reports. However, the sheer volume and complexity of these reports make human analysis very costly. Therefore, only a few entities worldwide have the resources to analyze these reports at scale, which leads to a lack of transparency in sustainability reporting. Empowering stakeholders with LLM-based automatic analysis tools can be a promising way to democratize sustainability report analysis. However, developing such tools is challenging due to (1) the hallucination of LLMs and (2) the inefficiency of bringing domain experts into the AI development loop. In this paper, we ChatReport, a novel LLM-based system to automate the analysis of corporate sustainability reports, addressing existing challenges by (1) making the answers traceable to reduce the harm of hallucination and (2) actively involving domain experts in the development loop. We make our methodology, annotated datasets, and generated analyses of 1015 reports publicly available.
翻訳日:2023-10-13 05:23:45 公開日:2023-10-11
# PokerKit: 細粒度多変数ポーカーゲームシミュレーションのための総合Pythonライブラリ

PokerKit: A Comprehensive Python Library for Fine-Grained Multi-Variant Poker Game Simulations ( http://arxiv.org/abs/2308.07327v4 )

ライセンス: Link先を確認
Juho Kim(参考訳) PokerKitは、既存のポーカーゲームシミュレーションと手評価ツールの制限を克服するために設計された、オープンソースのPythonライブラリである。 対照的に、ポーカーキットはポーカーの多種多様なバリエーションをサポートし、ユーザーが独自のゲームを定義するための柔軟なアーキテクチャを提供する。 本稿では,ポーカーキットの設計と実装について詳述する。ポーカーキットは,直感的なプログラムapi,多変量ゲームサポート,さまざまな手のタイプにわたる統一的なハンド評価スイートなどである。 PokerKitの柔軟性により、ポーカーAI開発、ツール作成、オンラインポーカーカジノ実装など、さまざまな分野のアプリケーションが可能になる。 PokerKitの信頼性は静的型チェック、広範なドクテスト、ユニットテストを通じて確立され、99%のコードカバレッジを達成した。 PokerKitの導入は、コンピュータポーカーの分野への重要な貢献であり、様々なポーカーゲームのための将来の研究と高度なAI開発を促進する。 ソースコードはhttps://github.com/uoftcprg/pokerkitで入手できる。

PokerKit is an open-source Python library designed to overcome the restrictions of existing poker game simulation and hand evaluation tools, which typically support only a handful of poker variants and lack flexibility in game state control. In contrast, PokerKit significantly expands this scope by supporting an extensive array of poker variants and it provides a flexible architecture for users to define their custom games. This paper details the design and implementation of PokerKit, including its intuitive programmatic API, multi-variant game support, and a unified hand evaluation suite across different hand types. The flexibility of PokerKit allows for applications in diverse areas, such as poker AI development, tool creation, and online poker casino implementation. PokerKit's reliability has been established through static type checking, extensive doctests, and unit tests, achieving 99% code coverage. The introduction of PokerKit represents a significant contribution to the field of computer poker, fostering future research and advanced AI development for a wide variety of poker games. The source code is available at https://github.com/uoftcprg/pokerkit
翻訳日:2023-10-13 04:49:40 公開日:2023-10-11
# インストラクションGPT-4:微細調整用200命令パラダイム

InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 ( http://arxiv.org/abs/2308.12067v2 )

ライセンス: Link先を確認
Lai Wei, Zihao Jiang, Weiran Huang, Lichao Sun(参考訳) マルチモーダルな大規模言語モデルは通常、イメージテキストペアの事前トレーニングと、教師付き視覚言語命令データによる微調整という2つのステージで訓練される。 近年の研究では、高品質な命令追従データが少ない場合でも、大きな言語モデルで満足な結果が得られることが示されている。 本稿では,ミニgpt-4のアライメントデータセットで使用される命令追従データの約6\%を,200例のみからなる小さなデータセット上で微調整した命令gpt-4を提案する。 そこで我々はまず,マルチモーダル命令データの品質にアクセスするための指標をいくつか提案する。 これらの指標に基づいて,低品質の視覚言語データを自動識別・フィルタリングする有効で訓練可能なデータセレクタを提案する。 この手法を用いることで、インストラクションGPT-4はオリジナルのMiniGPT-4を様々な評価で上回っている。 全体として,マルチモーダルな大規模言語モデルがより優れた出力を生成する上で,高品質な命令チューニングデータが効率的であることを示す。 私たちのコードはhttps://github.com/waltonfuture/InstructionGPT-4.comで利用可能です。

Multimodal large language models are typically trained in two stages: first pre-training on image-text pairs, and then fine-tuning using supervised vision-language instruction data. Recent studies have shown that large language models can achieve satisfactory results even with a limited amount of high-quality instruction-following data. In this paper, we introduce InstructionGPT-4, which is fine-tuned on a small dataset comprising only 200 examples, amounting to approximately 6\% of the instruction-following data used in the alignment dataset for MiniGPT-4. To achieve this, we first propose several metrics to access the quality of multimodal instruction data. Based on these metrics, we present an effective and trainable data selector to automatically identify and filter low-quality vision-language data. By employing this method, InstructionGPT-4 outperforms the original MiniGPT-4 on various evaluations. Overall, our findings demonstrate that less but high-quality instruction tuning data is efficient in enabling multimodal large language models to generate better output. Our code is available at https://github.com/waltonfuture/InstructionGPT-4.
翻訳日:2023-10-13 04:30:09 公開日:2023-10-11
# 校正に関するベンチマーク研究

A Benchmark Study on Calibration ( http://arxiv.org/abs/2308.11838v3 )

ライセンス: Link先を確認
Linwei Tao, Younan Zhu, Haolan Guo, Minjing Dong, Chang Xu(参考訳) ディープニューラルネットワークは、さまざまな機械学習タスクでますます活用されている。 しかし、これらのモデルが複雑化するにつれて、予測精度が向上したにもかかわらず、しばしばキャリブレーションの問題に直面する。 多くの研究が、特定の損失関数、データ前処理、トレーニングフレームワークの使用によるキャリブレーション性能の向上に尽力している。 しかし、キャリブレーション特性に関する調査は見過ごされている。 本研究では,ニューラルアーキテクチャ探索(NAS)探索空間を活用し,徹底的なキャリブレーション特性探索のための網羅的なモデルアーキテクチャ空間を提供する。 具体的には、モデルキャリブレーションデータセットを作成します。 このデータセットは、広く使われているNATS-Bench検索空間内の117,702のユニークなニューラルネットワークに対して、90のビンベースと12のキャリブレーション測定値を評価する。 我々の分析は,提案したデータセットを用いて,この分野における長年の疑問に答えることを目的としている。 i) モデルキャリブレーションは、異なるデータセット間で一般化できるか? (ii)ロバスト性は校正測定に使用できるか? 三)キャリブレーション指標はどの程度信頼できるか。 (iv)ポストホック校正法は全てのモデルに一様に影響するか? (v)校正は精度とどのように相互作用するか。 (vi)キャリブレーション測定におけるビンサイズの影響について (vii)どの建築設計が校正に有用か。 さらに,NAS内のキャリブレーションを探索することで,既存のギャップを埋める。 このデータセットを提供することで、NAS校正のさらなる研究が可能になる。 私たちが知る限り、我々の研究は校正特性に関する最初の大規模調査であり、NASにおける校正問題に関する主要な研究である。

Deep neural networks are increasingly utilized in various machine learning tasks. However, as these models grow in complexity, they often face calibration issues, despite enhanced prediction accuracy. Many studies have endeavored to improve calibration performance through the use of specific loss functions, data preprocessing and training frameworks. Yet, investigations into calibration properties have been somewhat overlooked. Our study leverages the Neural Architecture Search (NAS) search space, offering an exhaustive model architecture space for thorough calibration properties exploration. We specifically create a model calibration dataset. This dataset evaluates 90 bin-based and 12 additional calibration measurements across 117,702 unique neural networks within the widely employed NATS-Bench search space. Our analysis aims to answer several longstanding questions in the field, using our proposed dataset: (i) Can model calibration be generalized across different datasets? (ii) Can robustness be used as a calibration measurement? (iii) How reliable are calibration metrics? (iv) Does a post-hoc calibration method affect all models uniformly? (v) How does calibration interact with accuracy? (vi) What is the impact of bin size on calibration measurement? (vii) Which architectural designs are beneficial for calibration? Additionally, our study bridges an existing gap by exploring calibration within NAS. By providing this dataset, we enable further research into NAS calibration. As far as we are aware, our research represents the first large-scale investigation into calibration properties and the premier study of calibration issues within NAS.
翻訳日:2023-10-13 04:29:26 公開日:2023-10-11
# 校正に関するベンチマーク研究

A Benchmark Study on Calibration ( http://arxiv.org/abs/2308.11838v2 )

ライセンス: Link先を確認
Linwei Tao, Younan Zhu, Haolan Guo, Minjing Dong, Chang Xu(参考訳) ディープニューラルネットワークは、さまざまな機械学習タスクでますます活用されている。 しかし、これらのモデルが複雑化するにつれて、予測精度が向上したにもかかわらず、しばしばキャリブレーションの問題に直面する。 多くの研究が、特定の損失関数、データ前処理、トレーニングフレームワークの使用によるキャリブレーション性能の向上に尽力している。 しかし、キャリブレーション特性に関する調査は見過ごされている。 本研究では,ニューラルアーキテクチャ探索(NAS)探索空間を活用し,徹底的なキャリブレーション特性探索のための網羅的なモデルアーキテクチャ空間を提供する。 具体的には、モデルキャリブレーションデータセットを作成します。 このデータセットは、広く使われているNATS-Bench検索空間内の117,702のユニークなニューラルネットワークに対して、90のビンベースと12のキャリブレーション測定値を評価する。 我々の分析は,提案したデータセットを用いて,この分野における長年の疑問に答えることを目的としている。 i) モデルキャリブレーションは、異なるデータセット間で一般化できるか? (ii)ロバスト性は校正測定に使用できるか? 三)キャリブレーション指標はどの程度信頼できるか。 (iv)ポストホック校正法は全てのモデルに一様に影響するか? (v)校正は精度とどのように相互作用するか。 (vi)キャリブレーション測定におけるビンサイズの影響について (vii)どの建築設計が校正に有用か。 さらに,NAS内のキャリブレーションを探索することで,既存のギャップを埋める。 このデータセットを提供することで、NAS校正のさらなる研究が可能になる。 私たちが知る限り、我々の研究は校正特性に関する最初の大規模調査であり、NASにおける校正問題に関する主要な研究である。

Deep neural networks are increasingly utilized in various machine learning tasks. However, as these models grow in complexity, they often face calibration issues, despite enhanced prediction accuracy. Many studies have endeavored to improve calibration performance through the use of specific loss functions, data preprocessing and training frameworks. Yet, investigations into calibration properties have been somewhat overlooked. Our study leverages the Neural Architecture Search (NAS) search space, offering an exhaustive model architecture space for thorough calibration properties exploration. We specifically create a model calibration dataset. This dataset evaluates 90 bin-based and 12 additional calibration measurements across 117,702 unique neural networks within the widely employed NATS-Bench search space. Our analysis aims to answer several longstanding questions in the field, using our proposed dataset: (i) Can model calibration be generalized across different datasets? (ii) Can robustness be used as a calibration measurement? (iii) How reliable are calibration metrics? (iv) Does a post-hoc calibration method affect all models uniformly? (v) How does calibration interact with accuracy? (vi) What is the impact of bin size on calibration measurement? (vii) Which architectural designs are beneficial for calibration? Additionally, our study bridges an existing gap by exploring calibration within NAS. By providing this dataset, we enable further research into NAS calibration. As far as we are aware, our research represents the first large-scale investigation into calibration properties and the premier study of calibration issues within NAS.
翻訳日:2023-10-13 04:29:06 公開日:2023-10-11
# 拡散モデルを用いた画像属性編集のためのゼロショットインバージョンプロセス

Zero-shot Inversion Process for Image Attribute Editing with Diffusion Models ( http://arxiv.org/abs/2308.15854v2 )

ライセンス: Link先を確認
Zhanbo Feng, Zenan Ling, Ci Gong, Feng Zhou, Jie Li, Robert C. Qiu(参考訳) ノイズ拡散モデルは画像編集において優れた性能を示している。 既存の作品では、視覚参照を提供するが意味コヒーレンスを制御できないイメージガイド方式と、テキストガイダンスに忠実であるが視覚品質に欠けるテキストガイド方式のどちらかを使う傾向がある。 この問題に対処するため,Zero-shot Inversion Process (ZIP) を提案する。これは生成した視覚参照とテキストガイダンスの融合を,事前学習した拡散モデルのセマンティック潜在空間に注入するフレームワークである。 提案したZIPは、小さなニューラルネットワークのみを使用して、テキストプロンプトの直感的な制御の下で、多様なコンテンツや属性を生成する。 さらに、ZIPは、実際の画像においてドメイン内およびドメイン外属性操作の両方に顕著な堅牢性を示す。 各種ベンチマークデータセットの詳細な実験を行う。 最先端の手法と比較して、ZIPはリアルな編集効果を提供しながら同等の画質の画像を生成する。

Denoising diffusion models have shown outstanding performance in image editing. Existing works tend to use either image-guided methods, which provide a visual reference but lack control over semantic coherence, or text-guided methods, which ensure faithfulness to text guidance but lack visual quality. To address the problem, we propose the Zero-shot Inversion Process (ZIP), a framework that injects a fusion of generated visual reference and text guidance into the semantic latent space of a \textit{frozen} pre-trained diffusion model. Only using a tiny neural network, the proposed ZIP produces diverse content and attributes under the intuitive control of the text prompt. Moreover, ZIP shows remarkable robustness for both in-domain and out-of-domain attribute manipulation on real images. We perform detailed experiments on various benchmark datasets. Compared to state-of-the-art methods, ZIP produces images of equivalent quality while providing a realistic editing effect.
翻訳日:2023-10-13 04:08:36 公開日:2023-10-11
# 免疫の確率について

On the Probability of Immunity ( http://arxiv.org/abs/2309.11942v2 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) この研究は免疫の確率、すなわちその影響が暴露されるか否かの研究に費やされている。 非免疫に対する必要十分条件と$\epsilon$-bounded immunity、すなわち免疫の確率は 0 で$\epsilon$-bounded である。 前者は、ランダムに制御された試行から利益の確率(すなわち、その効果が露出した場合のみ起こる)を推定することができ、後者は、既存のものよりも厳密な利益の確率の境界を生成することができる。 また、間接免疫(例えば、仲介者を通して)の概念を導入し、それに対する以前の分析を繰り返す。 最後に, 未測定のコンファウンディングにおける免疫の確率の感度解析法を提案する。

This work is devoted to the study of the probability of immunity, i.e. the effect occurs whether exposed or not. We derive necessary and sufficient conditions for non-immunity and $\epsilon$-bounded immunity, i.e. the probability of immunity is zero and $\epsilon$-bounded, respectively. The former allows us to estimate the probability of benefit (i.e., the effect occurs if and only if exposed) from a randomized controlled trial, and the latter allows us to produce bounds of the probability of benefit that are tighter than the existing ones. We also introduce the concept of indirect immunity (i.e., through a mediator) and repeat our previous analysis for it. Finally, we propose a method for sensitivity analysis of the probability of immunity under unmeasured confounding.
翻訳日:2023-10-13 03:50:53 公開日:2023-10-11
# LPML:数学的推論のためのLLMプロンプトマークアップ言語

LPML: LLM-Prompting Markup Language for Mathematical Reasoning ( http://arxiv.org/abs/2309.13078v2 )

ライセンス: Link先を確認
Ryutaro Yamauchi, Sho Sonoda, Akiyoshi Sannai, Wataru Kumagai(参考訳) 数学的推論に大規模言語モデル(LLM)を利用する場合、LLMが生成したテキストにある推論と計算の誤りに対処することが非常に難しい。 本稿では,CoT(Chain-of-Thought)メソッドを外部ツール(Python REPL)と統合する新しいフレームワークを提案する。 我々は、LLMにXMLのようなマークアップ言語で構造化テキストを生成するよう促すことで、CoTと外部ツールをシームレスに統合し、LLMの望ましくない動作を制御することができることがわかった。 我々のアプローチでは、LLMはPython計算を利用してCoT内のエラーを修正できる。 本手法をChatGPT (GPT-3.5) に適用し, マークアップ言語によるCoTとPython REPLの組み合わせは, LLMの推論能力を向上することを示した。 提案手法では,ゼロショットプロンプトのみを用いてマークアップ言語を記述し,高度な数学的推論を行う。

In utilizing large language models (LLMs) for mathematical reasoning, addressing the errors in the reasoning and calculation present in the generated text by LLMs is a crucial challenge. In this paper, we propose a novel framework that integrates the Chain-of-Thought (CoT) method with an external tool (Python REPL). We discovered that by prompting LLMs to generate structured text in XML-like markup language, we could seamlessly integrate CoT and the external tool and control the undesired behaviors of LLMs. With our approach, LLMs can utilize Python computation to rectify errors within CoT. We applied our method to ChatGPT (GPT-3.5) to solve challenging mathematical problems and demonstrated that combining CoT and Python REPL through the markup language enhances the reasoning capability of LLMs. Our approach enables LLMs to write the markup language and perform advanced mathematical reasoning using only zero-shot prompting.
翻訳日:2023-10-13 03:28:35 公開日:2023-10-11
# asymformer:モバイルプラットフォームリアルタイムrgb-dセマンティクスセグメンテーションのための非対称クロスモーダル表現学習

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation ( http://arxiv.org/abs/2309.14065v4 )

ライセンス: Link先を確認
Siqi Du, Weixi Wang, Renzhong Guo and Shengjun Tang(参考訳) ロボットインテリジェンスの世界では、効率的で正確なRGB-Dセマンティックセグメンテーションを実現することが鍵となる。 最先端のマルチモーダルセマンティクスセグメンテーション手法は、主に対称スケルトンネットワークに根ざしており、計算効率と精度の調和が困難である。 本研究では,実時間rgb-d意味セグメンテーションのための新しいネットワークであるasymformerを提案する。計算資源の分散を最適化することで超流動パラメータの最小化を目標とし,マルチモーダル特徴の効果的な融合を可能にする非対称バックボーンを導入する。 さらに,パラメータ数を大幅に増加させることなく,特徴選択を再定義し,マルチモーダルな自己相似特徴を抽出することにより,ネットワークの精度を高める手法を検討する。 さらに、LAFS(Local Attention-Guided Feature Selection)モジュールは、依存関係を活用することで、異なるモダリティから機能を選択的にフューズするために使用される。 その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。 この手法はNYUv2およびSUNRGBDデータセットで評価され、AsymFormerはNYUv2では52.0% mIoU、SUNRGBDでは49.1% mIoUの競争結果を示した。 特に、AsymFormerは65 FPSの推論速度を達成し、混合精度量子化を実装した後、RTX3090上で79 FPSの予測速度を得る。 これは既存のマルチモーダル法を大きく上回り、asymformerはrgb-dセマンティクスセグメンテーションの精度と効率のバランスを取ることができる。

In the realm of robotic intelligence, achieving efficient and precise RGB-D semantic segmentation is a key cornerstone. State-of-the-art multimodal semantic segmentation methods, primarily rooted in symmetrical skeleton networks, find it challenging to harmonize computational efficiency and precision. In this work, we propose AsymFormer, a novel network for real-time RGB-D semantic segmentation, which targets the minimization of superfluous parameters by optimizing the distribution of computational resources and introduces an asymmetrical backbone to allow for the effective fusion of multimodal features. Furthermore, we explore techniques to bolster network accuracy by redefining feature selection and extracting multi-modal self-similarity features without a substantial increase in the parameter count, thereby ensuring real-time execution on robotic platforms. Additionally, a Local Attention-Guided Feature Selection (LAFS) module is used to selectively fuse features from different modalities by leveraging their dependencies. Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) module is introduced to further extract cross-modal representations. This method is evaluated on NYUv2 and SUNRGBD datasets, with AsymFormer demonstrating competitive results with 52.0% mIoU on NYUv2 and 49.1% mIoU on SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS and after implementing mixed precision quantization, it attains an impressive inference speed of 79 FPS on RTX3090. This significantly outperforms existing multi-modal methods, thereby demonstrating that AsymFormer can strike a balance between high accuracy and efficiency for RGB-D semantic segmentation.
翻訳日:2023-10-13 03:20:20 公開日:2023-10-11
# asymformer:モバイルプラットフォームリアルタイムrgb-dセマンティクスセグメンテーションのための非対称クロスモーダル表現学習

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation ( http://arxiv.org/abs/2309.14065v3 )

ライセンス: Link先を確認
Siqi Du, Weixi Wang, Renzhong Guo and Shengjun Tang(参考訳) ロボットインテリジェンスの世界では、効率的で正確なRGB-Dセマンティックセグメンテーションを実現することが鍵となる。 最先端のマルチモーダルセマンティクスセグメンテーション手法は、主に対称スケルトンネットワークに根ざしており、計算効率と精度の調和が困難である。 本研究では,実時間rgb-d意味セグメンテーションのための新しいネットワークであるasymformerを提案する。計算資源の分散を最適化することで超流動パラメータの最小化を目標とし,マルチモーダル特徴の効果的な融合を可能にする非対称バックボーンを導入する。 さらに,パラメータ数を大幅に増加させることなく,特徴選択を再定義し,マルチモーダルな自己相似特徴を抽出することにより,ネットワークの精度を高める手法を検討する。 さらに、LAFS(Local Attention-Guided Feature Selection)モジュールは、依存関係を活用することで、異なるモダリティから機能を選択的にフューズするために使用される。 その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。 この手法はNYUv2およびSUNRGBDデータセットで評価され、AsymFormerはNYUv2では52.0% mIoU、SUNRGBDでは49.1% mIoUの競争結果を示した。 特に、AsymFormerは65 FPSの推論速度を達成し、混合精度量子化を実装した後、RTX3090上で79 FPSの予測速度を得る。 これは既存のマルチモーダル法を大きく上回り、asymformerはrgb-dセマンティクスセグメンテーションの精度と効率のバランスを取ることができる。

In the realm of robotic intelligence, achieving efficient and precise RGB-D semantic segmentation is a key cornerstone. State-of-the-art multimodal semantic segmentation methods, primarily rooted in symmetrical skeleton networks, find it challenging to harmonize computational efficiency and precision. In this work, we propose AsymFormer, a novel network for real-time RGB-D semantic segmentation, which targets the minimization of superfluous parameters by optimizing the distribution of computational resources and introduces an asymmetrical backbone to allow for the effective fusion of multimodal features. Furthermore, we explore techniques to bolster network accuracy by redefining feature selection and extracting multi-modal self-similarity features without a substantial increase in the parameter count, thereby ensuring real-time execution on robotic platforms. Additionally, a Local Attention-Guided Feature Selection (LAFS) module is used to selectively fuse features from different modalities by leveraging their dependencies. Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) module is introduced to further extract cross-modal representations. This method is evaluated on NYUv2 and SUNRGBD datasets, with AsymFormer demonstrating competitive results with 52.0% mIoU on NYUv2 and 49.1% mIoU on SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS and after implementing mixed precision quantization, it attains an impressive inference speed of 79 FPS on RTX3090. This significantly outperforms existing multi-modal methods, thereby demonstrating that AsymFormer can strike a balance between high accuracy and efficiency for RGB-D semantic segmentation.
翻訳日:2023-10-13 03:19:43 公開日:2023-10-11
# バイオインスパイアされたメカニズムからのスーパーピクセルセグメンテーションの再考

Rethinking Superpixel Segmentation from Biologically Inspired Mechanisms ( http://arxiv.org/abs/2309.13438v3 )

ライセンス: Link先を確認
Tingyu Zhao, Bo Peng, Yuan Sun, Daipeng Yang, Zhenguang Zhang, and Xi Wu(参考訳) 近年,深層学習に基づくスーパーピクセルセグメンテーション法の進歩により,セグメンテーションの効率と性能が向上している。 しかし、特に表面上の色相関が物体に干渉する可能性がある場合、オブジェクトの境界に厳密に準拠するスーパーピクセルを生成することには、大きな課題が残っている。 神経構造と視覚機構からインスピレーションを得て,スーパーピクセルセグメンテーションのための拡張スクリーニングモジュール (ESM) と新しい境界認識ラベル (BAL) からなる生体ネットワークアーキテクチャを提案する。 ESMは視覚野の対話的投射機構をシミュレートすることで意味情報を強化する。 さらに、BALは視覚皮質細胞の空間周波数特性をエミュレートし、強い境界付着を持つスーパーピクセルの生成を促進する。 BSDS500データセットとNYUv2データセットの両方で評価を行い,本手法の有効性を示す。

Recently, advancements in deep learning-based superpixel segmentation methods have brought about improvements in both the efficiency and the performance of segmentation. However, a significant challenge remains in generating superpixels that strictly adhere to object boundaries while conveying rich visual significance, especially when cross-surface color correlations may interfere with objects. Drawing inspiration from neural structure and visual mechanisms, we propose a biological network architecture comprising an Enhanced Screening Module (ESM) and a novel Boundary-Aware Label (BAL) for superpixel segmentation. The ESM enhances semantic information by simulating the interactive projection mechanisms of the visual cortex. Additionally, the BAL emulates the spatial frequency characteristics of visual cortical cells to facilitate the generation of superpixels with strong boundary adherence. We demonstrate the effectiveness of our approach through evaluations on both the BSDS500 dataset and the NYUv2 dataset.
翻訳日:2023-10-13 03:17:58 公開日:2023-10-11
# 人間とAIの協調エージェント間の委譲の最適化

Optimizing delegation between human and AI collaborative agents ( http://arxiv.org/abs/2309.14718v2 )

ライセンス: Link先を確認
Andrew Fuchs, Andrea Passarella, Marco Conti(参考訳) ハイブリッドチームで人為的あるいは自律的なエージェントで操作する人間の文脈では、チームメンバーがいつ行動を起こすかを正確に特定することが不可欠である。 人間と自律的なシステムがタスクで成功するか失敗するかの過去の例を考えると、これらの潜在的なパフォーマンスの欠陥に関して、委譲の決定を下すマネージャエージェントを訓練したいと考えています。 加えて、さまざまなエージェントが環境の同じモデル内で動作することを期待することはできません。 アクションとトランジションがエージェントによって異なるケースに遭遇することが可能である。 そこで本フレームワークは,エージェントを動的に制約することなく,チームパフォーマンスの観察を通じて学習するマネージャモデルを提供する。 以上の結果から,マネージャは,環境の異なる表現の下で活動するエージェントのチームで代表意思決定を行うことを学び,チームを管理するための代替手法を著しく上回っています。

In the context of humans operating with artificial or autonomous agents in a hybrid team, it is essential to accurately identify when to authorize those team members to perform actions. Given past examples where humans and autonomous systems can either succeed or fail at tasks, we seek to train a delegating manager agent to make delegation decisions with respect to these potential performance deficiencies. Additionally, we cannot always expect the various agents to operate within the same underlying model of the environment. It is possible to encounter cases where the actions and transitions would vary between agents. Therefore, our framework provides a manager model which learns through observations of team performance without restricting agents to matching dynamics. Our results show our manager learns to perform delegation decisions with teams of agents operating under differing representations of the environment, significantly outperforming alternative methods to manage the team.
翻訳日:2023-10-13 03:06:16 公開日:2023-10-11
# クロス予測駆動推論

Cross-Prediction-Powered Inference ( http://arxiv.org/abs/2309.16598v2 )

ライセンス: Link先を確認
Tijana Zrnic, Emmanuel J. Cand\`es(参考訳) 高品質なラベル付きデータに基づく信頼性の高いデータ駆動意思決定のヒントがある一方で、品質ラベルの取得には、退屈な人間のアノテーションや、遅くて高価な科学的測定が伴うことが多い。 例えば、予測されたタンパク質構造は実験的に導かれた構造を補うために使われ、衛星画像からの社会経済指標の予測は正確な測量データを補完するために使われるなどである。 予測は不完全であり、潜在的に偏りがあるため、このプラクティスは下流推論の妥当性に疑問を呈する。 本稿では,機械学習を用いた有効な推論手法であるクロス予測を提案する。 小さなラベル付きデータセットと大きなラベルなしデータセットで、クロスプリディクションは機械学習によるラベルの欠落を暗示し、予測の不正確さを改善するためにデバイアスの形式を適用する。 結果の推論は望ましいエラー確率を達成し、ラベル付きデータのみを利用するものよりも強力である。 優れた事前学習モデルがすでに利用可能であると仮定する、予測駆動推論の最近の提案と密接に関連している。 我々は,ラベル付きデータのごく一部を分割してモデルを訓練する予測型推論の適応よりも,クロス予測の方が一貫して強力であることを示す。 最後に、クロス述語は競合語よりもより安定な結論を与え、その信頼区間は一般にかなり低い変動率を持つ。

While reliable data-driven decision-making hinges on high-quality labeled data, the acquisition of quality labels often involves laborious human annotations or slow and expensive scientific measurements. Machine learning is becoming an appealing alternative as sophisticated predictive techniques are being used to quickly and cheaply produce large amounts of predicted labels; e.g., predicted protein structures are used to supplement experimentally derived structures, predictions of socioeconomic indicators from satellite imagery are used to supplement accurate survey data, and so on. Since predictions are imperfect and potentially biased, this practice brings into question the validity of downstream inferences. We introduce cross-prediction: a method for valid inference powered by machine learning. With a small labeled dataset and a large unlabeled dataset, cross-prediction imputes the missing labels via machine learning and applies a form of debiasing to remedy the prediction inaccuracies. The resulting inferences achieve the desired error probability and are more powerful than those that only leverage the labeled data. Closely related is the recent proposal of prediction-powered inference, which assumes that a good pre-trained model is already available. We show that cross-prediction is consistently more powerful than an adaptation of prediction-powered inference in which a fraction of the labeled data is split off and used to train the model. Finally, we observe that cross-prediction gives more stable conclusions than its competitors; its confidence intervals typically have significantly lower variability.
翻訳日:2023-10-13 03:00:27 公開日:2023-10-11
# LMMの夜明け: GPT-4V(ision)による予備探査

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) ( http://arxiv.org/abs/2309.17421v2 )

ライセンス: Link先を確認
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang(参考訳) 大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデル(LLM)を拡張する。 本稿では,最新のモデルであるGPT-4V(ision)を分析し,LMMの理解を深める。 この分析は、GPT-4Vが実行可能な興味深いタスクに焦点を当てており、GPT-4Vの能力の質と汎用性、サポートされた入力と動作モード、そしてモデルを刺激する効果的な方法を調べるためのテストサンプルを含んでいる。 GPT-4Vの探索にあたり、様々な領域やタスクにまたがる慎重に設計された定性的サンプルの収集と整理を行う。 これらのサンプルから得られた観測は、GPT-4Vが任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力と、その能力の汎用性によって、GPT-4Vが強力なマルチモーダルジェネリストシステムになることを示している。 さらに、入力画像上に描画された視覚マーカーを理解するGPT-4Vのユニークな能力は、視覚的参照プロンプトのような新しい人間とコンピュータの相互作用方法を引き起こす可能性がある。 本報告は,GPT-4Vベースのシステムにおける今後の応用シナリオと今後の研究方向性について,詳細な議論で締めくくっている。 この予備的な調査によって、次世代マルチモーダルタスクの定式化、LMMを活用・拡張して現実の問題を解決する新しい方法、マルチモーダル基盤モデルの理解を深めることが期待されている。 最後に、我々の研究対象のモデルはOpenAIの革新的な成果の産物であり、その開発に完全に貢献すべきであることを認めます。 GPT-4Vコントリビューション論文(source)とクレジット属性(source)をご覧ください。

Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models. Finally, we acknowledge that the model under our study is solely the product of OpenAI's innovative work, and they should be fully credited for its development. Please see the GPT-4V contributions paper for the authorship and credit attribution: https://cdn.openai.com/contributions/gpt-4v.pdf
翻訳日:2023-10-13 02:49:32 公開日:2023-10-11
# 将来と現在のための法律: 持続的サンプル効率を有する自律型LLMエージェントの原理的枠組み

Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency ( http://arxiv.org/abs/2309.17382v2 )

ライセンス: Link先を確認
Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke, Boyi Liu, Zhaoran Wang(参考訳) 大規模言語モデル(LLM)は印象的な推論能力を示しているが、現実の世界での行動に推論を翻訳することは難しい。 特に、内部的な推論機構を通じて、外部環境との最小数の相互作用の中で、与えられたタスクを確実に完了させる方法は不明である。 そこで本研究では,理性や行動の体系化を保証できる原則的枠組みを提案し,それを「今後,現在,行動」と呼ぶ(\texttt{rafa})。 具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い地平線を越えて将来の軌道を計画します("reason for future")。 各ステップにおいて、llmエージェントは、計画された軌道の初期動作("act for now")を受け取り、収集されたフィードバックをメモリバッファに格納し、新しい状態から将来の軌道を再計画する推論ルーチンを再起動する。 鍵となる考え方は、LLMにおける推論をベイズ適応マルコフ決定プロセス(MDP)の学習と計画として使うことである。 それに対応して、LLMは、メモリバッファ(学習)から未知環境の更新後部を形成するように促し、値関数(計画)を最大化する複数の将来のステップに対して最適な軌道を生成する。 学習と計画のサブルーチンは、MDPのアクター批判更新をエミュレートする"コンテキスト内で"実行される。 我々の理論的分析により, 長期的推論と短期的行為の新たな組み合わせは$\sqrt{t}$ regretが得られることが証明された。 特に、後悔のバウンドは、事前訓練によって得られた事前知識と、推論と演技によって達成された不確実性低減との興味深い相互作用を強調する。 私たちの実証検証では、既存のフレームワークよりも優れており、いくつかのベンチマークでほぼ完璧なスコアが得られています。

Large language models (LLMs) demonstrate impressive reasoning abilities, but translating reasoning into actions in the real world remains challenging. In particular, it remains unclear how to complete a given task provably within a minimum number of interactions with the external environment, e.g., through an internal mechanism of reasoning. To this end, we propose a principled framework with provable regret guarantees to orchestrate reasoning and acting, which we call "reason for future, act for now" (\texttt{RAFA}). Specifically, we design a prompt template for reasoning that learns from the memory buffer and plans a future trajectory over a long horizon ("reason for future"). At each step, the LLM agent takes the initial action of the planned trajectory ("act for now"), stores the collected feedback in the memory buffer, and reinvokes the reasoning routine to replan the future trajectory from the new state. The key idea is to cast reasoning in LLMs as learning and planning in Bayesian adaptive Markov decision processes (MDPs). Correspondingly, we prompt LLMs to form an updated posterior of the unknown environment from the memory buffer (learning) and generate an optimal trajectory for multiple future steps that maximizes a value function (planning). The learning and planning subroutines are performed in an "in-context" manner to emulate the actor-critic update for MDPs. Our theoretical analysis proves that the novel combination of long-term reasoning and short-term acting achieves a $\sqrt{T}$ regret. In particular, the regret bound highlights an intriguing interplay between the prior knowledge obtained through pretraining and the uncertainty reduction achieved by reasoning and acting. Our empirical validation shows that it outperforms various existing frameworks and achieves nearly perfect scores on a few benchmarks.
翻訳日:2023-10-13 02:48:36 公開日:2023-10-11
# ACGAN-GNNExplainer: グラフニューラルネットワークのための補助条件生成説明器

ACGAN-GNNExplainer: Auxiliary Conditional Generative Explainer for Graph Neural Networks ( http://arxiv.org/abs/2309.16918v2 )

ライセンス: Link先を確認
Yiqiao Li, Jianlong Zhou, Yifei Dong, Niusha Shafiabady, Fang Chen(参考訳) グラフニューラルネットワーク(gnns)は、様々な現実世界のアプリケーションでその効果を証明しているが、その基礎となるメカニズムは謎のままである。 この課題に対処し、信頼性の高い意思決定を可能にするため、近年多くのGNN説明者が提案されている。 しかし、これらの方法はしばしば、特定のインスタンスへの依存、見当たらないグラフへの一般化の欠如、潜在的に無効な説明の生成、不適切な忠実性をもたらすといった制限に遭遇する。 これらの制約を克服するため,本稿では,GNN説明分野に補助分類器生成支援ネットワーク(ACGAN)を導入し,新しいGNN説明器を提案し,その名称を「...\emph{ACGAN-GNNExplainer}」とした。 提案手法では,ジェネレータを利用して元の入力グラフの説明を生成するとともに,識別器を組み込んで生成過程を監督し,説明の忠実性を確保し,精度を向上させる。 合成および実世界のグラフデータセットを用いた実験により,既存のGNN説明器と比較して提案手法の優位性を示した。

Graph neural networks (GNNs) have proven their efficacy in a variety of real-world applications, but their underlying mechanisms remain a mystery. To address this challenge and enable reliable decision-making, many GNN explainers have been proposed in recent years. However, these methods often encounter limitations, including their dependence on specific instances, lack of generalizability to unseen graphs, producing potentially invalid explanations, and yielding inadequate fidelity. To overcome these limitations, we, in this paper, introduce the Auxiliary Classifier Generative Adversarial Network (ACGAN) into the field of GNN explanation and propose a new GNN explainer dubbed~\emph{ACGAN-GNNExplainer}. Our approach leverages a generator to produce explanations for the original input graphs while incorporating a discriminator to oversee the generation process, ensuring explanation fidelity and improving accuracy. Experimental evaluations conducted on both synthetic and real-world graph datasets demonstrate the superiority of our proposed method compared to other existing GNN explainers.
翻訳日:2023-10-13 02:45:58 公開日:2023-10-11
# hypermask: 継続的学習のための適応型ハイパーネットワークベースのマスク

HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning ( http://arxiv.org/abs/2310.00113v2 )

ライセンス: Link先を確認
Kamil Ksi\k{a}\.zek, Przemys{\l}aw Spurek(参考訳) ニューラルネットワークは、複数のタスクで順次トレーニングされたとき、壊滅的な忘れに苦しむ。 この問題を解決するために、継続的な学習戦略が数多く存在する。 最も効果的なのはハイパーネットワークベースのアプローチです。 ハイパーネットワークは、タスクのアイデンティティに基づいて、ターゲットモデルの重みを生成する。 モデルの主な制限は、ハイパーネットワークがタスク毎にまったく異なるネストを生成することができることである。 これにより、各タスクは別々に解決される。 このモデルは、以前のタスク専用のネットワークからの情報を使用しず、その後のタスクを学習すると、実質的に新しいアーキテクチャを生成する。 このような問題を解決するために,全ネットワークの性能を保ちながら,当選チケットと命名されたスパースサブネットワークの存在を仮定する宝くじの仮説を用いる。 本稿では,すべてのタスクに対して単一のネットワークを訓練するhypermaskという手法を提案する。 Hypernetworkは、新しいタスク専用のターゲットサブネットを得るために、半バイナリマスクを生成する。 このソリューションは、ほとんど忘れずに新しいタスクに適応できるハイパーネットワークの能力を継承する。 さらに、抽選券仮説により、各タスク専用の重み付きサブネットを持つ1つのネットワークを使用できる。

Artificial neural networks suffer from catastrophic forgetting when they are sequentially trained on multiple tasks. To overcome this problem, there exist many continual learning strategies. One of the most effective is the hypernetwork-based approach. The hypernetwork generates the weights of a target model based on the task's identity. The model's main limitation is that hypernetwork can produce completely different nests for each task. Consequently, each task is solved separately. The model does not use information from the network dedicated to previous tasks and practically produces new architectures when it learns the subsequent tasks. To solve such a problem, we use the lottery ticket hypothesis, which postulates the existence of sparse subnetworks, named winning tickets, that preserve the performance of a full network. In the paper, we propose a method called HyperMask, which trains a single network for all tasks. Hypernetwork produces semi-binary masks to obtain target subnetworks dedicated to new tasks. This solution inherits the ability of the hypernetwork to adapt to new tasks with minimal forgetting. Moreover, due to the lottery ticket hypothesis, we can use a single network with weighted subnets dedicated to each task.
翻訳日:2023-10-13 02:37:12 公開日:2023-10-11
# Hermes: 自然言語仕様から有限状態マシンを合成したセルラーネットワークプロトコルのアンロックセキュリティ解析

Hermes: Unlocking Security Analysis of Cellular Network Protocols by Synthesizing Finite State Machines from Natural Language Specifications ( http://arxiv.org/abs/2310.04381v2 )

ライセンス: Link先を確認
Abdullah Al Ishtiaq, Sarkar Snigdha Sarathi Das, Syed Md Mukit Rashid, Ali Ranjbar, Kai Tu, Tianwei Wu, Zhezheng Song, Weixuan Wang, Mujtahid Akon, Rui Zhang, Syed Rafiul Hussain(参考訳) 本稿では,自然言語セルラー仕様から形式表現を自動的に生成するエンドツーエンドフレームワークhermesを提案する。 まず, 遷移関連テキストを処理し, 遷移成分(状態, 条件, 行動)を抽出するニューラルネットワーク解析装置, NEUTREXを開発した。 また、依存関係解析木を利用してこれらの遷移成分を論理式に変換するドメイン固有言語を設計する。 最後に、これらの論理式をコンパイルして遷移を生成し、有限状態機械として形式モデルを作成する。 ハーメスの有効性を実証するため,4G NAS,5G NAS,5G RRC仕様で評価し,81-87%の総合精度を得た。 抽出したモデルのセキュリティ分析により、3つの新たな脆弱性が発見され、4Gおよび5G仕様の以前の19の攻撃と、商用4Gベースバンドの7つの偏差が確認された。

In this paper, we present Hermes, an end-to-end framework to automatically generate formal representations from natural language cellular specifications. We first develop a neural constituency parser, NEUTREX, to process transition-relevant texts and extract transition components (i.e., states, conditions, and actions). We also design a domain-specific language to translate these transition components to logical formulas by leveraging dependency parse trees. Finally, we compile these logical formulas to generate transitions and create the formal model as finite state machines. To demonstrate the effectiveness of Hermes, we evaluate it on 4G NAS, 5G NAS, and 5G RRC specifications and obtain an overall accuracy of 81-87%, which is a substantial improvement over the state-of-the-art. Our security analysis of the extracted models uncovers 3 new vulnerabilities and identifies 19 previous attacks in 4G and 5G specifications, and 7 deviations in commercial 4G basebands.
翻訳日:2023-10-13 01:47:17 公開日:2023-10-11
# 帰納的説明の公理的集約

Axiomatic Aggregations of Abductive Explanations ( http://arxiv.org/abs/2310.03131v2 )

ライセンス: Link先を確認
Gagan Biradar, Yacine Izza, Elita Lobo, Vignesh Viswanathan, Yair Zick(参考訳) ポストホックモデル近似法(LIMEやSHAPなど)のロバスト性に対する最近の批判は、モデル精度の導出的説明の台頭につながっている。 データポイントごとに、帰納的説明は結果を生成するのに十分な機能の最小限のサブセットを提供する。 理論上、健全で厳格な、誘惑的な説明は大きな問題に悩まされるが、同じデータポイントに対していくつかの有効な誘惑的な説明がある。 そのような場合、単一の帰納的説明を提供することは不十分であり、一方、有効な帰納的説明を提供することは、その大きさのため理解できない。 本研究では,この課題を,多量の帰納的説明を特徴量スコアに集約することで解決する。 本研究では,協調ゲーム理論のパワー指標に基づく2つの集計法と,既知の因果強度尺度に基づく3つの集計法を提案する。 これら3つの手法を公理的に特徴づけ、それぞれが一意に望ましい性質の集合を満たすことを示す。 また、複数のデータセット上で評価し、これらの説明がSHAPやLIMEを騙す攻撃に対して堅牢であることを示す。

The recent criticisms of the robustness of post hoc model approximation explanation methods (like LIME and SHAP) have led to the rise of model-precise abductive explanations. For each data point, abductive explanations provide a minimal subset of features that are sufficient to generate the outcome. While theoretically sound and rigorous, abductive explanations suffer from a major issue -- there can be several valid abductive explanations for the same data point. In such cases, providing a single abductive explanation can be insufficient; on the other hand, providing all valid abductive explanations can be incomprehensible due to their size. In this work, we solve this issue by aggregating the many possible abductive explanations into feature importance scores. We propose three aggregation methods: two based on power indices from cooperative game theory and a third based on a well-known measure of causal strength. We characterize these three methods axiomatically, showing that each of them uniquely satisfies a set of desirable properties. We also evaluate them on multiple datasets and show that these explanations are robust to the attacks that fool SHAP and LIME.
翻訳日:2023-10-13 01:46:30 公開日:2023-10-11
# Twitterデータを活用したトランジットユーザフィードバックの知覚分析: NLPフレームワーク

Leveraging Twitter Data for Sentiment Analysis of Transit User Feedback: An NLP Framework ( http://arxiv.org/abs/2310.07086v1 )

ライセンス: Link先を確認
Adway Das, Abhishek Kumar Prajapati, Pengxiang Zhang, Mukund Srinath, Andisheh Ranjbari(参考訳) トランジット調査を通じてユーザフィードバックを収集する従来の方法は、しばしば時間がかかり、リソースが集中し、コストがかかる。 本稿では,twitterなどのソーシャルメディアプラットフォームで利用可能な膨大な,豊富な,かつ安価なデータを活用し,様々なサービスに関するユーザの認識を理解するための,新しいnlpベースのフレームワークを提案する。 マイクロブログプラットフォームであるTwitterは,さまざまな製品やサービス,エクスペリエンスに対する貴重なフィードバックや意見を含む,多数のリアルタイムユーザ生成コンテンツをホストしている。 提案フレームワークは,ユーザフィードバックの収集と分析を2つの手法を用いて,費用と時間を要するユーザフィードバック調査を必要とせずに合理化する。 まず、事前に定義されたカテゴリ内のツイート分類に数ショットの学習を使用し、ツイートに記述された問題を効果的に識別する。 そして、レキシコンベースの感情分析モデルを使用して、ツイートの感情の強さと極性を評価し、ポジティブ、ネガティブ、中立のツイートを区別する。 このフレームワークの有効性は、手動ラベル付きtwitterデータのサブセットで検証され、ケーススタディとしてニューヨーク市地下鉄システムに適用された。 このフレームワークは、ツイートを、地下鉄システムの安全性、信頼性、メンテナンスに関する予め定義されたカテゴリに正確に分類し、各カテゴリ内の感情強度を効果的に測定する。 一般調査の結果は,同年に実施した調査との比較で裏付けられた。 提案手法は,安価なソーシャルメディアデータを用いて利用者のフィードバックを計測し,交通システムの問題点を把握し,目的とする改善を計画する上での有効性を浮き彫りにする。

Traditional methods of collecting user feedback through transit surveys are often time-consuming, resource intensive, and costly. In this paper, we propose a novel NLP-based framework that harnesses the vast, abundant, and inexpensive data available on social media platforms like Twitter to understand users' perceptions of various service issues. Twitter, being a microblogging platform, hosts a wealth of real-time user-generated content that often includes valuable feedback and opinions on various products, services, and experiences. The proposed framework streamlines the process of gathering and analyzing user feedback without the need for costly and time-consuming user feedback surveys using two techniques. First, it utilizes few-shot learning for tweet classification within predefined categories, allowing effective identification of the issues described in tweets. It then employs a lexicon-based sentiment analysis model to assess the intensity and polarity of the tweet sentiments, distinguishing between positive, negative, and neutral tweets. The effectiveness of the framework was validated on a subset of manually labeled Twitter data and was applied to the NYC subway system as a case study. The framework accurately classifies tweets into predefined categories related to safety, reliability, and maintenance of the subway system and effectively measured sentiment intensities within each category. The general findings were corroborated through a comparison with an agency-run customer survey conducted in the same year. The findings highlight the effectiveness of the proposed framework in gauging user feedback through inexpensive social media data to understand the pain points of the transit system and plan for targeted improvements.
翻訳日:2023-10-13 01:07:20 公開日:2023-10-11
# 言語間のスタイルの比較

Comparing Styles across Languages ( http://arxiv.org/abs/2310.07135v1 )

ライセンス: Link先を確認
Shreya Havaldar, Matthew Pressimone, Eric Wong, Lyle Ungar(参考訳) 言語間のスタイルの違いを理解することは、人間とコンピュータの両方が文化的に適切なテキストを生成するように訓練する上で有利である。 本稿では,多言語LMからスタイリスティックな違いを抽出し,言語間のスタイルを比較するための説明フレームワークを提案する。 我々のフレームワーク(1)は、あらゆる言語で包括的なスタイルレキシカを生成し、(2)LMから同等の語彙カテゴリに特徴を集約する。 この枠組みを適用して、多言語多言語多言語多義性データセットを初めて作成し、4つの言語で多義性がどのように変化するかを探索する。 本手法は, 言語カテゴリーの違いが形態的変化にどのように寄与するかを効果的に評価し, 人々のコミュニケーションの仕方に関する解釈可能な洞察を提供する。

Understanding how styles differ across languages is advantageous for training both humans and computers to generate culturally appropriate text. We introduce an explanation framework to extract stylistic differences from multilingual LMs and compare styles across languages. Our framework (1) generates comprehensive style lexica in any language and (2) consolidates feature importances from LMs into comparable lexical categories. We apply this framework to compare politeness, creating the first holistic multilingual politeness dataset and exploring how politeness varies across four languages. Our approach enables an effective evaluation of how distinct linguistic categories contribute to stylistic variations and provides interpretable insights into how people communicate differently around the world.
翻訳日:2023-10-13 00:59:00 公開日:2023-10-11
# 基礎モデルの年齢におけるリスク評価と統計的意義

Risk Assessment and Statistical Significance in the Age of Foundation Models ( http://arxiv.org/abs/2310.07132v1 )

ライセンス: Link先を確認
Apoorva Nitsure, Youssef Mroueh, Mattia Rigotti, Kristjan Greenewald, Brian Belgodere, Mikhail Yurochkin, Jiri Navratil, Igor Melnyk, and Jerret Ross(参考訳) 本稿では,統計的に有意な基礎モデルの社会技術的リスクを評価するための分布的枠組みを提案する。 提案手法は,実確率変数の1次および2次確率支配に基づく新しい統計的相対性試験に基づく。 本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。 このフレームワークを用いて,特定メトリクスによって定量化されたガードレールを基礎モデル選択のためのリスク対応アプローチを正式に開発する。 数学ファイナンスにおけるポートフォリオ最適化と選択理論に着想を得て、各モデルに対する'emph{metrics portfolio} をメトリクスの集合を集約する手段として定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を行う。 実験の統計的意義は, 中央極限定理による漸近解析によって理論的に裏付けられ, ブートストラップ分散推定によって実際にインスタンス化される。 我々は,提案手法を用いて,指示からの漂流と有害コンテンツの出力に関連するリスクに関する各種大規模言語モデルの比較を行った。

We propose a distributional framework for assessing socio-technical risks of foundation models with quantified statistical significance. Our approach hinges on a new statistical relative testing based on first and second order stochastic dominance of real random variables. We show that the second order statistics in this test are linked to mean-risk models commonly used in econometrics and mathematical finance to balance risk and utility when choosing between alternatives. Using this framework, we formally develop a risk-aware approach for foundation model selection given guardrails quantified by specified metrics. Inspired by portfolio optimization and selection theory in mathematical finance, we define a \emph{metrics portfolio} for each model as a means to aggregate a collection of metrics, and perform model selection based on the stochastic dominance of these portfolios. The statistical significance of our tests is backed theoretically by an asymptotic analysis via central limit theorems instantiated in practice via a bootstrap variance estimate. We use our framework to compare various large language models regarding risks related to drifting from instructions and outputting toxic content.
翻訳日:2023-10-13 00:58:46 公開日:2023-10-11
# 人のフィードバックのオフポリティ評価

Off-Policy Evaluation for Human Feedback ( http://arxiv.org/abs/2310.07123v1 )

ライセンス: Link先を確認
Qitong Gao, Juncheng Dong, Vahid Tarokh, Min Chi, Miroslav Pajic(参考訳) オフライン軌道のみを用いた目標(評価)政策の評価と評価を行うことにより、オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である。 医療などのオンラインデプロイメントが高価である状況において、データ収集とポリシーテスト手順の安全性と効率を改善することができる。 しかし、既存のOPE法は、HFが複数の基本的な要因に対して条件付けられているため、人間のフィードバック(HF)信号を推定するのに不足しており、通常はパラメトリック関数や分布上で決定されるエージェント定義の環境報酬(ポリシー最適化で使用される)とは対照的に、わずかにしか利用できない。 したがって、HF信号の性質により、正確なOPE推定が困難になる。 この問題を解決するために,既存のOPE手法を復元し,HF信号の正確な評価を行うHF(OPEHF)フレームワークのOPEを導入する。 具体的には, 潜在空間に蒸留した環境知識によって規則化され, 状態遷移の基盤となるダイナミクスを捉え, hf信号の発行を行う, 即時人的報酬(ihr)再構成手法を開発した。 本手法は,適応的生体内神経刺激と知的指導の2つの実世界実験とシミュレーション環境(視覚q&a)を用いて実験を行った。 提案手法は,既存のOPE法を直接適用した場合と比較して,HF信号の正確な推定性能を著しく向上することを示す。

Off-policy evaluation (OPE) is important for closing the gap between offline training and evaluation of reinforcement learning (RL), by estimating performance and/or rank of target (evaluation) policies using offline trajectories only. It can improve the safety and efficiency of data collection and policy testing procedures in situations where online deployments are expensive, such as healthcare. However, existing OPE methods fall short in estimating human feedback (HF) signals, as HF may be conditioned over multiple underlying factors and is only sparsely available; as opposed to the agent-defined environmental rewards (used in policy optimization), which are usually determined over parametric functions or distributions. Consequently, the nature of HF signals makes extrapolating accurate OPE estimations to be challenging. To resolve this, we introduce an OPE for HF (OPEHF) framework that revives existing OPE methods in order to accurately evaluate the HF signals. Specifically, we develop an immediate human reward (IHR) reconstruction approach, regularized by environmental knowledge distilled in a latent space that captures the underlying dynamics of state transitions as well as issuing HF signals. Our approach has been tested over two real-world experiments, adaptive in-vivo neurostimulation and intelligent tutoring, as well as in a simulation environment (visual Q&A). Results show that our approach significantly improves the performance toward estimating HF signals accurately, compared to directly applying (variants of) existing OPE methods.
翻訳日:2023-10-13 00:58:25 公開日:2023-10-11
# 相関長寿命コヒーレンスを持つ2重エピタキシャルスピン光子界面

Dual epitaxial telecom spin-photon interfaces with correlated long-lived coherence ( http://arxiv.org/abs/2310.07120v1 )

ライセンス: Link先を確認
Shobhit Gupta, Yizhong Huang, Shihan Liu, Yuxiang Pei, Natasha Tomm, Richard J. Warburton and Tian Zhong(参考訳) 光学活性な固体スピン量子ビットは、原子サイズ、スケーラブルな生成、長寿命のコヒーレンス、空飛ぶ量子ビットとコヒーレントに結合する能力により、量子インターコネクトと量子ネットワークの魅力的な技術として繁栄する。 特に3価のエルビウムドーパントは、テレコムCバンドの放出と4fの殻内スピン光学遷移を遮蔽する有力な候補として出現する。 しかし、レアアース量子ビットとデバイスのためのトップダウンアーキテクチャでは、長距離量子ネットワークに必要な長い光とスピンのコヒーレンスを許容していない。 ここでは,ウェーハスケールボトムアップ合成によるエピタキシャル薄膜プラットフォームにおける2つのerbiumテレコムスピン光子界面の実証を行う。 このプラットフォームに特有の行列純度, ドーパント配置, 対称性を正確に制御することで, インバージョン対称性保護部位におけるミリ秒エルビウムスピンコヒーレンス時間と3kヘルツ光劣化率を同時に達成し, 光ファイバ集積パッケージにおける光とマイクロ波の両方の制御を実現した。 これらの結果は,ボトムアップ法による高品質希土類量子ビットおよび量子メモリの集積と,通信量子ネットワーク用量子光マッターインタフェースの大規模開発への道を開くものである。

Optically active solid-state spin qubits thrive as an appealing technology for quantum interconnect and quantum networking, owing to their atomic size, scalable creation, long-lived coherence, and ability to coherently interface with flying qubits. Trivalent erbium dopants in particular emerge as a compelling candidate with their telecom C band emission and shielded 4f intra-shell spin-optical transitions. However, prevailing top-down architecture for rare-earth qubits and devices has not allowed simultaneous long optical and spin coherence necessary for long-distance quantum networks. Here we demonstrate dual erbium telecom spin-photon interfaces in an epitaxial thin-film platform via wafer-scale bottom-up synthesis. Harnessing precise controls over the matrix purity, dopant placement, and symmetry unique to this platform, we simultaneously achieve millisecond erbium spin coherence time and $<$3 kilohertz optical dephasing rate in an inversion-symmetry protected site and realize both optical and microwave control in a fiber-integrated package for rapid scaling up. These results demonstrate a significant prospect for high-quality rare-earth qubits and quantum memories assembled using a bottom-up method and pave the way for the large-scale development of quantum light-matter interfaces for telecommunication quantum networks.
翻訳日:2023-10-13 00:57:59 公開日:2023-10-11
# ヒト脳における言語処理の時間的構造は深層言語モデルの階層構造に対応している

The Temporal Structure of Language Processing in the Human Brain Corresponds to The Layered Hierarchy of Deep Language Models ( http://arxiv.org/abs/2310.07106v1 )

ライセンス: Link先を確認
Ariel Goldstein, Eric Ham, Mariano Schain, Samuel Nastase, Zaid Zada, Avigail Dabush, Bobbi Aubrey, Harshvardhan Gazula, Amir Feder, Werner K Doyle, Sasha Devore, Patricia Dugan, Daniel Friedman, Roi Reichart, Michael Brenner, Avinatan Hassidim, Orrin Devinsky, Adeen Flinker, Omer Levy, Uri Hasson(参考訳) 深層言語モデル(DLM)は、人間の脳における自然言語処理のメカニズムを理解するための新しい計算パラダイムを提供する。 伝統的な精神言語モデルとは異なり、dlmは単語や文脈を表現するために連続的な数値ベクトルの層状配列を用いる。 本稿では,DLMの階層構造が脳内の言語理解の時間的ダイナミクスをモデル化するのに有効であることを示す。 個々の層を時間的に分解する能力は、fMRIのような非侵襲的な方法よりもはるかに高い時間分解能を持つ脳電図(ECoG)データを使用することで得られる。 ECoGを用いて,30分間の物語を聴いた参加者の神経活動を記録するとともに,高いパフォーマンスのDLM(GPT2-XL)に同じ物語を届ける。 次に、DLMの異なる層からコンテキスト埋め込みを抽出し、線形符号化モデルを用いて神経活動を予測する。 我々はまず、まず、IFG(Inferior Frontal Gyrus)に焦点を当て、次に、言語処理階層に沿った時間的受容窓を聴覚から構文的・意味的領域へと追跡するために、我々のモデルを拡張した。 以上の結果から,DLMは高次言語領域における神経活動のタイミングを反映したコンテキスト情報を階層的に蓄積し,人間の言語処理とDLMの関連性を明らかにした。

Deep Language Models (DLMs) provide a novel computational paradigm for understanding the mechanisms of natural language processing in the human brain. Unlike traditional psycholinguistic models, DLMs use layered sequences of continuous numerical vectors to represent words and context, allowing a plethora of emerging applications such as human-like text generation. In this paper we show evidence that the layered hierarchy of DLMs may be used to model the temporal dynamics of language comprehension in the brain by demonstrating a strong correlation between DLM layer depth and the time at which layers are most predictive of the human brain. Our ability to temporally resolve individual layers benefits from our use of electrocorticography (ECoG) data, which has a much higher temporal resolution than noninvasive methods like fMRI. Using ECoG, we record neural activity from participants listening to a 30-minute narrative while also feeding the same narrative to a high-performing DLM (GPT2-XL). We then extract contextual embeddings from the different layers of the DLM and use linear encoding models to predict neural activity. We first focus on the Inferior Frontal Gyrus (IFG, or Broca's area) and then extend our model to track the increasing temporal receptive window along the linguistic processing hierarchy from auditory to syntactic and semantic areas. Our results reveal a connection between human language processing and DLMs, with the DLM's layer-by-layer accumulation of contextual information mirroring the timing of neural activity in high-order language areas.
翻訳日:2023-10-13 00:57:33 公開日:2023-10-11
# clausewitzgpt framework: 理論的な大規模言語モデルの拡張情報操作における新しいフロンティア

ClausewitzGPT Framework: A New Frontier in Theoretical Large Language Model Enhanced Information Operations ( http://arxiv.org/abs/2310.07099v1 )

ライセンス: Link先を確認
Benjamin Kereopa-Yorke(参考訳) サイバースペースが地政学的論争の新たな段階であるデジタル時代において、情報運用と大規模言語モデル(llms)の融合はパラダイムシフトを象徴し、膨大な機会と複雑な課題に満ちている。 ミストラル7B LLM (Mistral, 2023) のようなツールが LLM の能力へのアクセスを民主化する(Jin et al., 2023)ため、国家からローグの団体(Howard et al., 2023)まで幅広い俳優たちが、強力な物語を形作る楽器(Goldstein et al., 2023)を装備している。 本稿では,この勇敢な新世界を"ClausewitzGPT"方程式でナビゲートするための枠組みを示す。 この新規な定式化は、機械速度llm誘導操作に固有のリスクを定量化することだけでなく、自律型aiエージェント(wang, xie, et al., 2023)の重要な役割を強調するものである。 倫理的配慮(hendrycks et al., 2021)を具体化したこれらのエージェントは、不可欠な構成要素(wang, ma, et al., 2023)として出現し、前進するにつれて、道徳的コンパスや社会的規範を見失わないことを保証する。 数学的には、クラウゼヴィッツの軍事戦略(Clausewitz, 1832)の時無きテネットに触発され、この論文はAIによる情報操作の複雑な力学に発展する。 最近の調査結果や研究(department of state, 2023)を参考に、ai情報キャンペーン(evgeny pashentsev, 2023)の年初来の急成長を強調し、現在の結束の緊急性を強調している。 啓蒙思想の合成とクラウゼヴィッツの原理は、明確な戦略的ビジョンの衝動、倫理的考察、そして急速な技術進歩に直面した全体的理解を強調する基礎的なレンズを提供する。

In a digital epoch where cyberspace is the emerging nexus of geopolitical contention, the melding of information operations and Large Language Models (LLMs) heralds a paradigm shift, replete with immense opportunities and intricate challenges. As tools like the Mistral 7B LLM (Mistral, 2023) democratise access to LLM capabilities (Jin et al., 2023), a vast spectrum of actors, from sovereign nations to rogue entities (Howard et al., 2023), find themselves equipped with potent narrative-shaping instruments (Goldstein et al., 2023). This paper puts forth a framework for navigating this brave new world in the "ClausewitzGPT" equation. This novel formulation not only seeks to quantify the risks inherent in machine-speed LLM-augmented operations but also underscores the vital role of autonomous AI agents (Wang, Xie, et al., 2023). These agents, embodying ethical considerations (Hendrycks et al., 2021), emerge as indispensable components (Wang, Ma, et al., 2023), ensuring that as we race forward, we do not lose sight of moral compasses and societal imperatives. Mathematically underpinned and inspired by the timeless tenets of Clausewitz's military strategy (Clausewitz, 1832), this thesis delves into the intricate dynamics of AI-augmented information operations. With references to recent findings and research (Department of State, 2023), it highlights the staggering year-on-year growth of AI information campaigns (Evgeny Pashentsev, 2023), stressing the urgency of our current juncture. The synthesis of Enlightenment thinking, and Clausewitz's principles provides a foundational lens, emphasising the imperative of clear strategic vision, ethical considerations, and holistic understanding in the face of rapid technological advancement.
翻訳日:2023-10-13 00:57:02 公開日:2023-10-11
# スパースユニバーサルトランスフォーマ

Sparse Universal Transformer ( http://arxiv.org/abs/2310.07096v1 )

ライセンス: Link先を確認
Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan(参考訳) Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。 経験的証拠は、UTは形式言語タスクにおいてVanilla Transformers (VTs) よりも構成的一般化が優れていることを示している。 パラメータ共有はまた、VTよりもパラメータ効率が良い。 その多くの利点にもかかわらず、UTパラメータのスケーリングはVTのスケールアップよりもはるかに計算量とメモリ集約性が高い。 本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用して,パラメータ効率と一般化能力を保ちながら,UTの計算複雑性を低減するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。 実験の結果,SUT は WMT'14 上での半計算とパラメータのみを使用し,形式言語タスク(論理推論とCFQ)上での強い一般化結果のみを用いて,強いベースラインモデルと同じ性能を達成することがわかった。 新しい停止機構はまた、形式言語タスクのパフォーマンスをほとんど低下させることなく、推論中の計算量を約50\%削減できる。

The Universal Transformer (UT) is a variant of the Transformer that shares parameters across its layers. Empirical evidence shows that UTs have better compositional generalization than Vanilla Transformers (VTs) in formal language tasks. The parameter-sharing also affords it better parameter efficiency than VTs. Despite its many advantages, scaling UT parameters is much more compute and memory intensive than scaling up a VT. This paper proposes the Sparse Universal Transformer (SUT), which leverages Sparse Mixture of Experts (SMoE) and a new stick-breaking-based dynamic halting mechanism to reduce UT's computation complexity while retaining its parameter efficiency and generalization ability. Experiments show that SUT achieves the same performance as strong baseline models while only using half computation and parameters on WMT'14 and strong generalization results on formal language tasks (Logical inference and CFQ). The new halting mechanism also enables around 50\% reduction in computation during inference with very little performance decrease on formal language tasks.
翻訳日:2023-10-13 00:56:16 公開日:2023-10-11
# 議論的スタンス予測:マルチモーダリティとFew-Shot学習に関する探索的研究

Argumentative Stance Prediction: An Exploratory Study on Multimodality and Few-Shot Learning ( http://arxiv.org/abs/2310.07093v1 )

ライセンス: Link先を確認
Arushi Sharma, Abhibha Gupta, Maneesh Bilalpur(参考訳) マルチモーダル問題としての議論的姿勢予測を推し進めるため, 銃規制や中絶といった重要な社会的話題において, 多モーダル・アーグメント・マイニングにおける第1共有課題がスタンス予測を主催した。 本研究は,ツイートにおけるスタンス予測のための画像の必要性を検証し,テキストベース大規模言語モデル(LLM)を微調整された非モーダル・マルチモーダルモデルと比較するものである。 我々の研究は,テキストベース言語モデル(0.817 F1スコア)がマルチモーダル(0.677 F1スコア)とテキストベースの少数ショット予測(0.550 F1スコア)の両方より優れていることを示唆している。 性能の相違に加えて,画像コンテンツがネイティブピクセル構造よりも自然言語として要約された場合,マルチモーダルモデルの方がパフォーマンスが向上する傾向が示唆された。

To advance argumentative stance prediction as a multimodal problem, the First Shared Task in Multimodal Argument Mining hosted stance prediction in crucial social topics of gun control and abortion. Our exploratory study attempts to evaluate the necessity of images for stance prediction in tweets and compare out-of-the-box text-based large-language models (LLM) in few-shot settings against fine-tuned unimodal and multimodal models. Our work suggests an ensemble of fine-tuned text-based language models (0.817 F1-score) outperforms both the multimodal (0.677 F1-score) and text-based few-shot prediction using a recent state-of-the-art LLM (0.550 F1-score). In addition to the differences in performance, our findings suggest that the multimodal models tend to perform better when image content is summarized as natural language over their native pixel structure and, using in-context examples improves few-shot performance of LLMs.
翻訳日:2023-10-13 00:55:57 公開日:2023-10-11
# Jaeger: 結合型マルチトランスフォーマーVQAモデル

Jaeger: A Concatenation-Based Multi-Transformer VQA Model ( http://arxiv.org/abs/2310.07091v1 )

ライセンス: Link先を確認
Jieting Long, Zewei Shi, Penghao Jiang, Yidong Gan(参考訳) 文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間の課題となる。 大規模言語とオープンワールド事前モデルの利用による文書ベースの質問応答の進歩が促進されているが、長文の応答時間、長文の推論時間、マッチングにおける不正確さなど、いくつかの課題が続いている。 これらの課題を克服するために,結合型マルチトランスフォーマーVQAモデルであるJaegarを提案する。 本稿では,RoBERTa large\cite{2} と GPT2-xl\cite{3} を特徴抽出器として活用する。 その後、両方のモデルからの出力を結合プロセスに入力する。 この操作により、モデルは様々なソースからの情報を同時に考慮し、表現能力を高めることができる。 事前学習したモデルを特徴抽出に活用することにより,これらのモデルの性能を結合によって増幅する可能性を秘めている。 結合後、出力特性に次元性低減を適用し、モデルの計算効率と推論時間を削減する。 その結果,提案手法はPDF-VQAデータセットのタスクC上での競合性能を実証した。 ユーザが新しいデータを追加する場合、以前のセクションで提供された命令に従ってスタイルにしておく必要がある。

Document-based Visual Question Answering poses a challenging task between linguistic sense disambiguation and fine-grained multimodal retrieval. Although there has been encouraging progress in document-based question answering due to the utilization of large language and open-world prior models\cite{1}, several challenges persist, including prolonged response times, extended inference durations, and imprecision in matching. In order to overcome these challenges, we propose Jaegar, a concatenation-based multi-transformer VQA model. To derive question features, we leverage the exceptional capabilities of RoBERTa large\cite{2} and GPT2-xl\cite{3} as feature extractors. Subsequently, we subject the outputs from both models to a concatenation process. This operation allows the model to consider information from diverse sources concurrently, strengthening its representational capability. By leveraging pre-trained models for feature extraction, our approach has the potential to amplify the performance of these models through concatenation. After concatenation, we apply dimensionality reduction to the output features, reducing the model's computational effectiveness and inference time. Empirical results demonstrate that our proposed model achieves competitive performance on Task C of the PDF-VQA Dataset. If the user adds any new data, they should make sure to style it as per the instructions provided in previous sections.
翻訳日:2023-10-13 00:55:33 公開日:2023-10-11
# 思考の多様性が大規模言語モデルの推論能力を改善する

Diversity of Thought Improves Reasoning Abilities of Large Language Models ( http://arxiv.org/abs/2310.07088v1 )

ライセンス: Link先を確認
Ranjita Naik, Varun Chandrasekaran, Mert Yuksekgonul, Hamid Palangi, Besmira Nushi(参考訳) 大規模言語モデル(llm)は複雑な推論を必要とする設定で苦労するように文書化されている。 それでも、モデルを小さな推論ステップ(Wei et al., 2022)に分解するか、復号ステップ(Wang et al., 2023)を変更して様々な世代をアンサンブルするように指示することで、性能が向上する。 現在の手法では、入力プロンプトが固定され、復号戦略がアンサンブルに必要な多様性を導入することを期待している。 本稿では、この仮定を緩和し、モデル性能を改善するための思考の多様性の手段として、入力プロンプトのバリエーションをいかに作成・活用できるかについて議論する。 この問題に適合するアプローチを考案するために, LLMからのフィードバックを募り, 即時多様性を自動改善する手法を提案する。 DIV-SE (DIVerse reasoning path Self-Ensemble) の多様なプロンプトを複数の推論コールでアンサンブルする。 我々はまた,このIDIV-SE(In-call DIVerse reasoning path Self-Ensemble)と呼ぶ,多様なプロンプトを単一の推論コール内で使用する,費用対効果の代替案を提案する。 固定世代予算の下では、DIV-SEとIDIV-SEは、デコードプロセスを変更することなく、いくつかの推論ベンチマークにおいて、GPT-3.5とGPT-4の両方を使用して、従来議論されていたベースラインより優れている。 さらにdiv-seは最新の計画ベンチマーク(valmeekam et al., 2023)の最先端性能を向上し、最も難しい4/5ブロックワールドタスクにおいて、少なくとも29.6ポイントの精度で報告されている。 以上の結果から,LCM推論に即時的な多様性を付与し,精度・コストトレードオフのフロンティアを向上する方法について考察した。

Large language models (LLMs) are documented to struggle in settings that require complex reasoning. Nevertheless, instructing the model to break down the problem into smaller reasoning steps (Wei et al., 2022), or ensembling various generations through modifying decoding steps (Wang et al., 2023) boosts performance. Current methods assume that the input prompt is fixed and expect the decoding strategies to introduce the diversity needed for ensembling. In this work, we relax this assumption and discuss how one can create and leverage variations of the input prompt as a means to diversity of thought to improve model performance. We propose a method that automatically improves prompt diversity by soliciting feedback from the LLM to ideate approaches that fit for the problem. We then ensemble the diverse prompts in our method DIV-SE (DIVerse reasoning path Self-Ensemble) across multiple inference calls. We also propose a cost-effective alternative where diverse prompts are used within a single inference call; we call this IDIV-SE (In-call DIVerse reasoning path Self-Ensemble). Under a fixed generation budget, DIV-SE and IDIV-SE outperform the previously discussed baselines using both GPT-3.5 and GPT-4 on several reasoning benchmarks, without modifying the decoding process. Additionally, DIV-SE advances state-of-the-art performance on recent planning benchmarks (Valmeekam et al., 2023), exceeding the highest previously reported accuracy by at least 29.6 percentage points on the most challenging 4/5 Blocksworld task. Our results shed light on how to enforce prompt diversity toward LLM reasoning and thereby improve the pareto frontier of the accuracy-cost trade-off.
翻訳日:2023-10-13 00:55:11 公開日:2023-10-11
# 大型視覚言語モデルを用いた病理像のミトーシス検出の改善

Improving mitosis detection on histopathology images using large vision-language models ( http://arxiv.org/abs/2310.07176v1 )

ライセンス: Link先を確認
Ruiwen Ding, James Hall, Neil Tenenholtz, Kristen Severson(参考訳) 特定の種類の癌組織では、有糸分裂数は腫瘍の増殖、予後不良、治療抵抗と関係があることが示されている。 病理学者によるミオトーシス計数の高度変動により、ヘマトキシリンとエオシン(H&E)による全スライド画像のミオトーシス検出の主観性を低減するために畳み込みニューラルネットワーク(CNN)が用いられている。 しかし、既存のモデルの多くは、専門家パネルのレビューに遅れ、ビジュアル情報のみを取り込むパフォーマンスを持っている。 そこで本研究では,視覚特徴と自然言語を併用した大規模視覚言語モデルが有糸分裂検出精度を向上させることを実証する。 画像キャプションタスクおよび視覚質問応答(VQA)タスクとして、腫瘍やスキャナータイプなどのメタデータをコンテキストとして含むことで、ミトーシス検出タスクを定式化する。 筆者らのパイプラインの有効性は,Mitosis Domain Generalization Challenge (MIDOG22)データセットから,9,501 mitotic figureと11,051 hard negatives(非mitotic figureは特徴付けるのが難しい)を用いた各種ベースラインモデルとの比較により実証された。

In certain types of cancerous tissue, mitotic count has been shown to be associated with tumor proliferation, poor prognosis, and therapeutic resistance. Due to the high inter-rater variability of mitotic counting by pathologists, convolutional neural networks (CNNs) have been employed to reduce the subjectivity of mitosis detection in hematoxylin and eosin (H&E)-stained whole slide images. However, most existing models have performance that lags behind expert panel review and only incorporate visual information. In this work, we demonstrate that pre-trained large-scale vision-language models that leverage both visual features and natural language improve mitosis detection accuracy. We formulate the mitosis detection task as an image captioning task and a visual question answering (VQA) task by including metadata such as tumor and scanner types as context. The effectiveness of our pipeline is demonstrated via comparison with various baseline models using 9,501 mitotic figures and 11,051 hard negatives (non-mitotic figures that are difficult to characterize) from the publicly available Mitosis Domain Generalization Challenge (MIDOG22) dataset.
翻訳日:2023-10-13 00:47:00 公開日:2023-10-11
# 無投票選挙における勝者決定

Determining Winners in Elections with Absent Votes ( http://arxiv.org/abs/2310.07150v1 )

ライセンス: Link先を確認
Qishen Han and Am\'elie Marian and Lirong Xia(参考訳) 選挙における重要な質問は、候補者が不在時に勝者になれるかどうかを決定することである。 投票が最上位の場合に、不在得票(WAV)問題でこの決定的勝者について検討する。 本報告では,wav問題は1票,最大票,コープランドに対してnp完全であることを示すとともに,多項式時間で計算可能な位置採点規則の特別な場合を提案する。 最上位のランキングにおける結果は,候補者数や欠落票数に制限がある場合,その難易度は依然として保持されるが,いずれの場合においても多項式時間で解くことができることを示すため,全ランキングの結果と異なる。

An important question in elections is the determine whether a candidate can be a winner when some votes are absent. We study this determining winner with the absent votes (WAV) problem when the votes are top-truncated. We show that the WAV problem is NP-complete for the single transferable vote, Maximin, and Copeland, and propose a special case of positional scoring rule such that the problem can be computed in polynomial time. Our results in top-truncated rankings differ from the results in full rankings as their hardness results still hold when the number of candidates or the number of missing votes are bounded, while we show that the problem can be solved in polynomial time in either case.
翻訳日:2023-10-13 00:46:35 公開日:2023-10-11
# エッジ結合による信頼エントロピーの維持によるロバストな教師なしドメイン適応

Robust Unsupervised Domain Adaptation by Retaining Confident Entropy via Edge Concatenation ( http://arxiv.org/abs/2310.07149v1 )

ライセンス: Link先を確認
Hye-Seong Hong, Abhishek Kumar, Dong-Gyu Lee(参考訳) 教師なしドメイン適応の一般化能力は、コンピュータ生成アノテーションを用いたソースとして合成データのモデルを訓練することにより、セマンティックセグメンテーションネットワークをトレーニングするための広範なピクセルレベルのアノテーションの必要性を軽減することができる。 エントロピーに基づく敵ネットワークは、ソース領域予測を改善するために提案されているが、エッジのような画像内の様々なオブジェクトを正確に識別し識別する能力を持つ重要な外部情報を無視している。 本稿では,エントロピーベースの逆ネットワークにおける内部情報と外部情報の相乗効果を活用した,新しいドメイン適応手法を提案する。 提案手法では, クラス境界の明瞭度を高めるために, エッジ予測された確率値を持つ判別器ネットワークをこの革新的な枠組み内で強化する。 さらに,より効果的なセグメンテーションのために多様な情報を統合する確率共有ネットワークを考案した。 オブジェクトエッジを組み込むことは、これまで頻繁に無視されてきた、教師なしのドメイン適応の重要な側面に対処する。 従来の教師なしドメイン適応メソッドは、通常、特徴分布の整列を中心とし、明示的にオブジェクト境界をモデル化しない。 我々のアプローチは、オブジェクト境界に対する明確なガイダンスを提供することで、このギャップを効果的に橋渡しし、ドメイン適応の質を高めます。 このアプローチは、確立された教師なしドメイン適応ベンチマーク、特にシンシア$\rightarrow$ cityscapesとシンシア$\rightarrow$ mapillaryの適応に関する厳密な評価を行う。 実験の結果,提案手法は最先端手法よりも優れた性能が得られることがわかった。 異なる教師なしドメイン適応シナリオにおける優れた性能は、提案手法の汎用性と堅牢性を強調している。

The generalization capability of unsupervised domain adaptation can mitigate the need for extensive pixel-level annotations to train semantic segmentation networks by training models on synthetic data as a source with computer-generated annotations. Entropy-based adversarial networks are proposed to improve source domain prediction; however, they disregard significant external information, such as edges, which have the potential to identify and distinguish various objects within an image accurately. To address this issue, we introduce a novel approach to domain adaptation, leveraging the synergy of internal and external information within entropy-based adversarial networks. In this approach, we enrich the discriminator network with edge-predicted probability values within this innovative framework to enhance the clarity of class boundaries. Furthermore, we devised a probability-sharing network that integrates diverse information for more effective segmentation. Incorporating object edges addresses a pivotal aspect of unsupervised domain adaptation that has frequently been neglected in the past -- the precise delineation of object boundaries. Conventional unsupervised domain adaptation methods usually center around aligning feature distributions and may not explicitly model object boundaries. Our approach effectively bridges this gap by offering clear guidance on object boundaries, thereby elevating the quality of domain adaptation. Our approach undergoes rigorous evaluation on the established unsupervised domain adaptation benchmarks, specifically in adapting SYNTHIA $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Mapillary. Experimental results show that the proposed model attains better performance than state-of-the-art methods. The superior performance across different unsupervised domain adaptation scenarios highlights the versatility and robustness of the proposed method.
翻訳日:2023-10-13 00:46:21 公開日:2023-10-11
# QFT:付加資源を用いたLLMの量子フルパラメータチューニング

QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources ( http://arxiv.org/abs/2310.07147v1 )

ライセンス: Link先を確認
Zhikai Li, Xiaoxuan Liu, Banghua Zhu, Zhen Dong, Qingyi Gu, Kurt Keutzer(参考訳) 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。 これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。 この目的のために、既存の取り組みはパラメータ効率のよい微調整に重点を置いているが、残念ながらフルパラメータ微調整の強力なポテンシャルを生かしてはいない。 本研究では,LLMのための量子フルパラメータチューニングフレームワークであるQFTを提案し,性能を損なうことなくメモリ効率の良い微調整を実現する。 私たちの枠組みには2つの新しいアイデアが組み込まれています (i)効率の良いライオンオプティマイザを採用する。これは運動量だけを追跡し、各パラメータに対して一貫した更新等級を持ち、ロバストな量子化に固有の利点である。 (ii)全てのモデル状態を量子化し整数値として保存し,その量化重みに対する勾配流とパラメータ更新スキームを示す。 その結果、QFTはモデル状態メモリを標準ソリューションの21%に減らし、LLaMA-7Bモデルのチューニングに必要なメモリはわずか30GBで、1つのA6000 GPUで満たされる。

Large Language Models (LLMs) have showcased remarkable impacts across a wide spectrum of natural language processing tasks. Fine-tuning these pre-trained models on downstream datasets provides further significant performance gains, but this process has been challenging due to its extraordinary resource requirements. To this end, existing efforts focus on parameter-efficient fine-tuning, which, unfortunately, fail to capitalize on the powerful potential of full-parameter fine-tuning. In this work, we propose QFT, a novel Quantized Full-parameter Tuning framework for LLMs that enables memory-efficient fine-tuning without harming performance. Our framework incorporates two novel ideas: (i) we adopt the efficient Lion optimizer, which only keeps track of the momentum and has consistent update magnitudes for each parameter, an inherent advantage for robust quantization; and (ii) we quantize all model states and store them as integer values, and present a gradient flow and parameter update scheme for the quantized weights. As a result, QFT reduces the model state memory to 21% of the standard solution while achieving comparable performance, e.g., tuning a LLaMA-7B model requires only <30GB of memory, satisfied by a single A6000 GPU.
翻訳日:2023-10-13 00:45:55 公開日:2023-10-11
# 大規模言語モデルを用いた心理療法の強化:思考プロンプトの診断による認知的歪検出

Empowering Psychotherapy with Large Language Models: Cognitive Distortion Detection through Diagnosis of Thought Prompting ( http://arxiv.org/abs/2310.07146v1 )

ライセンス: Link先を確認
Zhiyu Chen, Yujie Lu, William Yang Wang(参考訳) 精神疾患は、専門家の深刻な不足とアクセシビリティの限界のために、現在最も深刻な公衆衛生上の問題の1つとなっている。 心理療法は、患者の認知モデルに関する深い複雑な推論と分析を行うために、高度な専門知識を必要とする。 大規模言語モデルの時代において、我々は、計算心理療法のためのAI支援を開発するのが正しい時だと信じている。 認知的歪み検出の課題について検討し,思考促進(dot)の診断を提案する。 DoTは、事実と思考を分離するための主観的評価、思考と矛盾する推論プロセスを引き出すための対照的な推論、認知スキーマを要約するスキーマ分析という3つの段階を通して、患者のスピーチの診断を行う。 3段階を通じて生成された診断の根拠は,専門家の援助に不可欠である。 実験により、dotは認識歪検出のためのchatgptよりも大幅に改善され、人間の専門家が承認した高品質な合理性を生み出すことが示されている。

Mental illness remains one of the most critical public health issues of our time, due to the severe scarcity and accessibility limit of professionals. Psychotherapy requires high-level expertise to conduct deep, complex reasoning and analysis on the cognition modeling of the patients. In the era of Large Language Models, we believe it is the right time to develop AI assistance for computational psychotherapy. We study the task of cognitive distortion detection and propose the Diagnosis of Thought (DoT) prompting. DoT performs diagnosis on the patient's speech via three stages: subjectivity assessment to separate the facts and the thoughts; contrastive reasoning to elicit the reasoning processes supporting and contradicting the thoughts; and schema analysis to summarize the cognition schemas. The generated diagnosis rationales through the three stages are essential for assisting the professionals. Experiments demonstrate that DoT obtains significant improvements over ChatGPT for cognitive distortion detection, while generating high-quality rationales approved by human experts.
翻訳日:2023-10-13 00:45:33 公開日:2023-10-11
# 浄化デモからの模倣学習

Imitation Learning from Purified Demonstration ( http://arxiv.org/abs/2310.07143v1 )

ライセンス: Link先を確認
Yunke Wang, Minjing Dong, Bo Du, Chang Xu(参考訳) 模倣学習は、専門家のデモンストレーションが最適であると仮定して、逐次的な意思決定問題に対処するための有望なアプローチとして現れてきた。 しかし、現実のシナリオでは、専門家によるデモンストレーションはしばしば不完全であり、模倣学習を効果的に適用することの難題に繋がる。 既存の研究は不完全なデモンストレーションによる最適化に重点を置いているが、トレーニングは通常、パフォーマンスを保証するために一定の割合の最適なデモンストレーションを必要とする。 これらの問題に対処するために,不完全な実演における潜在的な摂動を浄化し,その後に純化された実演から模倣学習を行うことを提案する。 拡散モデルの成功に動機づけられ,拡散過程を通じて二段階の浄化を行う。 最初のステップでは、雑音を付加することにより、不完全な実演における潜在的摂動を効果的に緩和するために前方拡散プロセスを適用する。 その後、逆生成プロセスを利用して、拡散されたものから最適な専門家のデモンストレーションを回収する。 本手法を裏付ける理論的証拠を提示し, 純化分布と最適実演分布間の全分散距離を上限値とすることを示す。 MuJoCoの評価結果は,提案手法の有効性を異なる側面から示している。

Imitation learning has emerged as a promising approach for addressing sequential decision-making problems, with the assumption that expert demonstrations are optimal. However, in real-world scenarios, expert demonstrations are often imperfect, leading to challenges in effectively applying imitation learning. While existing research has focused on optimizing with imperfect demonstrations, the training typically requires a certain proportion of optimal demonstrations to guarantee performance. To tackle these problems, we propose to purify the potential perturbations in imperfect demonstrations and subsequently conduct imitation learning from purified demonstrations. Motivated by the success of diffusion models, we introduce a two-step purification via the diffusion process. In the first step, we apply a forward diffusion process to effectively smooth out the potential perturbations in imperfect demonstrations by introducing additional noise. Subsequently, a reverse generative process is utilized to recover the optimal expert demonstrations from the diffused ones. We provide theoretical evidence supporting our approach, demonstrating that total variance distance between the purified and optimal demonstration distributions can be upper-bounded. The evaluation results on MuJoCo demonstrate the effectiveness of our method from different aspects.
翻訳日:2023-10-13 00:45:14 公開日:2023-10-11
# フォトニッククーパー対からの共鳴励起光

Resonant squeezed light from photonic Cooper pairs ( http://arxiv.org/abs/2310.07139v1 )

ライセンス: Link先を確認
Sanker Timsina, Taha Hammadia, Sahar Gholami Milani, Filomeno S. de J\'unior, Alexandre Brolo, and Rog\'erio de Sousa(参考訳) フォノンへのラマン散乱は、ストークス過程で放出されるフォノンが反ストークス散乱に吸収され、クーパー対のフォトニックアナログを形成するときに、光子対が絡み合うようになる。 我々は、相互作用する光子とフォノンをハイブリッド励起であるラマニトンとして扱うフォトニッククーパー対の時間発展に関する非摂動論的理論を提案する。 ラマニトンが導波路で伝播すると、光子とフォノンの占有の間の量子振動が示され、フォノンの占有がゼロになるときにストクス・アンティストークス光が共鳴的に圧縮される。 この現象は、絶縁体導波路上の標準シリコンでも最大28dBの励起光を発生させることができる。

Raman scattering of photons into phonons gives rise to entangled photon pairs when the phonon emitted in a Stokes process is absorbed in antiStokes scattering, forming the photonic analog of Cooper pairs. We present a nonperturbative theory for the time evolution of photonic Cooper pairs that treats interacting photons and phonons as a hybrid excitation, the Ramaniton. As the Ramaniton propagates in a wave guide it displays quantum oscillations between photon and phonon occupation, leading to resonant squeezed Stokes-antiStokes light when the phonon occupation becomes equal to zero. This phenomena can be used to generate up to 28 dB of squeezed light even in standard silicon on insulator waveguides.
翻訳日:2023-10-13 00:44:52 公開日:2023-10-11
# 拡散モデルのためのタスクルーティングのDenoising

Denoising Task Routing for Diffusion Models ( http://arxiv.org/abs/2310.07138v1 )

ライセンス: Link先を確認
Byeongjun Park, Sangmin Woo, Hyojun Go, Jin-Young Kim, Changick Kim(参考訳) 拡散モデルは、マルチタスク学習(mtl)の原則を自然に具現化し、多段階の分断過程を学習することで、高度に現実的な画像を生成する。 拡散モデルとMLLの間には固有の関係があるが、MTLを拡散モデルの枠組みに明示的に組み込むニューラルネットワークの設計には未解明領域が残っている。 本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)を提案する。 タスク親和性(Task Affinity): DTRは、隣接する時間ステップにおけるタスクに対する同様のチャネルを活性化し、隣接する時間ステップにおけるタスク間の固有の強い親和性を利用して、スライディングウィンドウとしてアクティブなチャネルをシフトする。 2) タスク重み: 雑音化プロセスの初期段階(高い時間ステップ)において、dtrはより多くのタスク固有のチャネルを割り当て、拡散モデルが初期段階でグローバル構造と知覚的にリッチなコンテンツの再構築を優先し、後段の単純なノイズ除去に重点を置くという洞察を生かした。 実験により,DTRはパラメータを付加することなく,各種評価プロトコル間の拡散モデルの性能を一貫して向上することを示した。 さらに、DTRはトレーニング中の収束の促進に寄与する。 最後に、我々のアーキテクチャアプローチと既存のMTL最適化手法の相補性を示し、拡散訓練の文脈におけるMTLのより完全なビューを提供する。

Diffusion models generate highly realistic images through learning a multi-step denoising process, naturally embodying the principles of multi-task learning (MTL). Despite the inherent connection between diffusion models and MTL, there remains an unexplored area in designing neural architectures that explicitly incorporate MTL into the framework of diffusion models. In this paper, we present Denoising Task Routing (DTR), a simple add-on strategy for existing diffusion model architectures to establish distinct information pathways for individual tasks within a single architecture by selectively activating subsets of channels in the model. What makes DTR particularly compelling is its seamless integration of prior knowledge of denoising tasks into the framework: (1) Task Affinity: DTR activates similar channels for tasks at adjacent timesteps and shifts activated channels as sliding windows through timesteps, capitalizing on the inherent strong affinity between tasks at adjacent timesteps. (2) Task Weights: During the early stages (higher timesteps) of the denoising process, DTR assigns a greater number of task-specific channels, leveraging the insight that diffusion models prioritize reconstructing global structure and perceptually rich contents in earlier stages, and focus on simple noise removal in later stages. Our experiments demonstrate that DTR consistently enhances the performance of diffusion models across various evaluation protocols, all without introducing additional parameters. Furthermore, DTR contributes to accelerating convergence during training. Finally, we show the complementarity between our architectural approach and existing MTL optimization techniques, providing a more complete view of MTL within the context of diffusion training.
翻訳日:2023-10-13 00:44:38 公開日:2023-10-11
# AE-smnsMLC:製品属性値抽出のためのセマンティックマッチングと負ラベルサンプリングを用いたマルチラベル分類

AE-smnsMLC: Multi-Label Classification with Semantic Matching and Negative Label Sampling for Product Attribute Value Extraction ( http://arxiv.org/abs/2310.07137v1 )

ライセンス: Link先を確認
Zhongfen Deng, Wei-Te Chen, Lei Chen, Philip S. Yu(参考訳) 商品属性値抽出は、製品検索やレコメンデーションなどのeコマースにおける多くの現実世界アプリケーションにおいて重要な役割を果たす。 以前の方法では、製品テキスト内の値の位置にもっとアノテーションを必要とするシーケンスラベリングタスクとして扱う。 これにより、属性値だけが位置のない各製品に対して弱アノテートされた実世界のシナリオに制限される。 さらに、これらの手法は製品テキスト(すなわち、製品タイトルと説明)のみを使用し、与えられた製品の複数の属性値とそのテキスト間の意味的関係を考慮せず、属性値の抽出に役立つ。 本稿では,属性値のアノテーションのみをトレーニングモデルに適用可能な実世界シナリオに適用可能なマルチラベル分類タスクとして,このタスクを再構成する(属性値の位置情報のアノテーションは利用できない)。 属性値抽出のための意味マッチングと負ラベルサンプリングを用いた分類モデルを提案する。 セマンティックマッチングは、ある商品の属性値とそのテキスト間の意味的相互作用をキャプチャすることを目的としている。 負ラベルサンプリングは、同じ属性に属する類似した値を識別するモデルの能力を高めることを目的としている。 実世界のeコマースデータセットの3つのサブセットに対する実験結果から,提案モデルの有効性と優位性を示した。

Product attribute value extraction plays an important role for many real-world applications in e-Commerce such as product search and recommendation. Previous methods treat it as a sequence labeling task that needs more annotation for position of values in the product text. This limits their application to real-world scenario in which only attribute values are weakly-annotated for each product without their position. Moreover, these methods only use product text (i.e., product title and description) and do not consider the semantic connection between the multiple attribute values of a given product and its text, which can help attribute value extraction. In this paper, we reformulate this task as a multi-label classification task that can be applied for real-world scenario in which only annotation of attribute values is available to train models (i.e., annotation of positional information of attribute values is not available). We propose a classification model with semantic matching and negative label sampling for attribute value extraction. Semantic matching aims to capture semantic interactions between attribute values of a given product and its text. Negative label sampling aims to enhance the model's ability of distinguishing similar values belonging to the same attribute. Experimental results on three subsets of a large real-world e-Commerce dataset demonstrate the effectiveness and superiority of our proposed model.
翻訳日:2023-10-13 00:44:08 公開日:2023-10-11
# 分散学習における指数量子コミュニケーション

Exponential Quantum Communication Advantage in Distributed Learning ( http://arxiv.org/abs/2310.07136v1 )

ライセンス: Link先を確認
Dar Gilboa and Jarrod R. McClean(参考訳) 個々のデバイスのメモリ容量をはるかに超える大規模な機械学習モデルによるトレーニングと推論は、分散アーキテクチャの設計を必要とするため、通信制約と競合せざるを得ない。 本稿では、データを特殊な量子状態に符号化する量子ネットワーク上での分散計算のためのフレームワークを提案する。 このフレームワーク内の特定のモデルに対して、勾配勾配を用いた推論と訓練は、古典的なアナログと比較して指数関数的に少ない通信で行うことができ、標準勾配法と比較して比較的穏やかな時間と空間の複雑さのオーバーヘッドで行うことができる。 我々の知る限り、これはデータエンコーディングコストに関係なく保持される高密度な古典データを持つ機械学習問題の一般的なクラスに対する指数量子優位の最初の例である。 さらに、このクラスのモデルが入力の高非線形特徴を符号化できることを示し、その表現性はモデル深度とともに指数関数的に増加することを示した。 また、興味深いことに、単純な線形分類器では通信の利点はほとんどなくなる。 これらの結果は、データとモデルパラメータに関する情報から抽出できる量を制限する通信された量子状態において、自然なプライバシーの利点と組み合わせることができる。 これらの発見は全体として、量子ネットワーク上での分散機械学習の基礎となる。

Training and inference with large machine learning models that far exceed the memory capacity of individual devices necessitates the design of distributed architectures, forcing one to contend with communication constraints. We present a framework for distributed computation over a quantum network in which data is encoded into specialized quantum states. We prove that for certain models within this framework, inference and training using gradient descent can be performed with exponentially less communication compared to their classical analogs, and with relatively modest time and space complexity overheads relative to standard gradient-based methods. To our knowledge, this is the first example of exponential quantum advantage for a generic class of machine learning problems with dense classical data that holds regardless of the data encoding cost. Moreover, we show that models in this class can encode highly nonlinear features of their inputs, and their expressivity increases exponentially with model depth. We also find that, interestingly, the communication advantage nearly vanishes for simpler linear classifiers. These results can be combined with natural privacy advantages in the communicated quantum states that limit the amount of information that can be extracted from them about the data and model parameters. Taken as a whole, these findings form a promising foundation for distributed machine learning over quantum networks.
翻訳日:2023-10-13 00:43:48 公開日:2023-10-11
# SAM-OCTA:OCTA画像セグメンテーションのためのセグメンテーション

SAM-OCTA: Prompting Segment-Anything for OCTA Image Segmentation ( http://arxiv.org/abs/2310.07183v1 )

ライセンス: Link先を確認
Xinrun Chen, Chengliang Wang, Haojian Ning, Shiying Li(参考訳) 光コヒーレンストモグラフィー血管造影(OCTA)画像の解析では,特定の目標をセグメンティングする操作が必要である。 既存のメソッドは通常、限られたサンプル(約数百)を持つ教師付きデータセットでトレーニングする。 これを解決するため,基礎モデルの微調整に低ランク適応手法を採用し,OCTAデータセット上で様々なセグメンテーションタスクを処理するためのプロンプトポイント生成戦略を提案する。 この手法はSAM-OCTAと呼ばれ、OCTA-500およびROSEデータセットで実験されている。 この手法は最先端のセグメンテーション性能指標を実現またはアプローチする。 網膜血管,foveal avascular zone,毛細血管,動脈,静脈分画について,プロンプトポイントの効果と応用性について詳細に検討した。 さらにSAM-OCTAは,従来の研究では未解決であった局所血管分節と有効動脈静脈分節を実現している。 コードはhttps://github.com/ShellRedia/SAM-OCTAで公開されている。

In the analysis of optical coherence tomography angiography (OCTA) images, the operation of segmenting specific targets is necessary. Existing methods typically train on supervised datasets with limited samples (approximately a few hundred), which can lead to overfitting. To address this, the low-rank adaptation technique is adopted for foundation model fine-tuning and proposed corresponding prompt point generation strategies to process various segmentation tasks on OCTA datasets. This method is named SAM-OCTA and has been experimented on the publicly available OCTA-500 and ROSE datasets. This method achieves or approaches state-of-the-art segmentation performance metrics. The effect and applicability of prompt points are discussed in detail for the retinal vessel, foveal avascular zone, capillary, artery, and vein segmentation tasks. Furthermore, SAM-OCTA accomplishes local vessel segmentation and effective artery-vein segmentation, which was not well-solved in previous works. The code is available at https://github.com/ShellRedia/SAM-OCTA.
翻訳日:2023-10-13 00:38:03 公開日:2023-10-11
# rpcPRF:衛星カメラのための一般化可能なMPIニューラル放射場

rpcPRF: Generalizable MPI Neural Radiance Field for Satellite Camera ( http://arxiv.org/abs/2310.07179v1 )

ライセンス: Link先を確認
Tongtong Zhang, Yuanxiang Li(参考訳) 衛星画像の新しいビュー合成は、幅広い実用的な応用をもたらす。 ニューラル・ラミアンス・フィールドの最近の進歩はピンホールカメラを主にターゲットとしているが、衛星カメラのモデルは十分な入力ビューを必要とすることが多い。 本稿では,多平面画像(mpi)を用いた有理多項式カメラ(rpc)用平面ニューラルネットワーク放射場rpcprfを提案する。 1つのシーンの十分なビューを必要とする座標ベースのニューラルレイディアンスフィールドとは異なり、我々のモデルはシングルまたは少数の入力に適用でき、見えないシーンの画像に対して良好に動作する。 そこで本研究では,3次元座標と画像間の正確な形状を学習するために,再投影監視を用いて予測MPIを誘導する手法を提案する。 さらに,放射場の描画手法を導入することにより,深層多視点ステレオ法から密集深度監視の厳密な要件を取り除いた。 rpcPRFは3D構造を学習しながら連続的な高度空間を捉えるために、暗黙表現の優位性とRPCモデルの優位性を組み合わせる。 RGB画像とその対応するRPCが与えられた後、エンド・ツー・エンド・モデルは新しいビューを新しいRPCで合成し、シーンの高度を再構築する。 複数のビューが入力として提供される場合、rpcPRFは追加のビューによって提供される追加の監視を行う。 ZY-3のTLCデータセットと、WV-3の都市シーンによるSatMVS3Dデータセットでは、rpcPRFは、単一ビューとマルチビューの両方のタスクにおいて、画像の忠実度、再構成精度、効率の点で、最先端のnerfベースの手法よりも優れたパフォーマンスを保っている。

Novel view synthesis of satellite images holds a wide range of practical applications. While recent advances in the Neural Radiance Field have predominantly targeted pin-hole cameras, and models for satellite cameras often demand sufficient input views. This paper presents rpcPRF, a Multiplane Images (MPI) based Planar neural Radiance Field for Rational Polynomial Camera (RPC). Unlike coordinate-based neural radiance fields in need of sufficient views of one scene, our model is applicable to single or few inputs and performs well on images from unseen scenes. To enable generalization across scenes, we propose to use reprojection supervision to induce the predicted MPI to learn the correct geometry between the 3D coordinates and the images. Moreover, we remove the stringent requirement of dense depth supervision from deep multiview-stereo-based methods by introducing rendering techniques of radiance fields. rpcPRF combines the superiority of implicit representations and the advantages of the RPC model, to capture the continuous altitude space while learning the 3D structure. Given an RGB image and its corresponding RPC, the end-to-end model learns to synthesize the novel view with a new RPC and reconstruct the altitude of the scene. When multiple views are provided as inputs, rpcPRF exerts extra supervision provided by the extra views. On the TLC dataset from ZY-3, and the SatMVS3D dataset with urban scenes from WV-3, rpcPRF outperforms state-of-the-art nerf-based methods by a significant margin in terms of image fidelity, reconstruction accuracy, and efficiency, for both single-view and multiview task.
翻訳日:2023-10-13 00:37:45 公開日:2023-10-11
# オンライン投機的デコード

Online Speculative Decoding ( http://arxiv.org/abs/2310.07177v1 )

ライセンス: Link先を確認
Xiaoxuan Liu, Lanxiang Hu, Peter Bailis, Ion Stoica, Zhijie Deng, Alvin Cheung, Hao Zhang(参考訳) 投機的復号化(英: Speculative decoding)は、より小さなドラフトモデルを用いてターゲットモデルの出力を予測することにより、大規模言語モデル(LLM)の推論を高速化する重要な手法である。 しかし、その有効性は、ドラフトモデルの予測精度が低いため、特に様々なテキスト入力に直面したり、ドラフトモデルとターゲットモデルの間の大きな能力ギャップに直面した場合に制限される。 この課題に対処するために、オンライン投機復号法(OSD)を導入する。 主な考え方は、LLMサービスクラスタにおける過剰な計算能力を利用して、観測されたユーザクエリデータのドラフトモデルを継続的に更新することである。 LLM推論がメモリバウンドであることを考えると、典型的なLCMサービスクラスタの余剰計算能力は、ドラフトモデルのオンライン再トレーニングに再利用することができ、トレーニングコストを中立にすることができる。 LLMサービスのクエリ分布は比較的単純であるため、クエリ分布の再トレーニングにより、特にクエリ分布から派生したデータに基づいて、ターゲットモデルの出力をより正確に予測することができる。 ドラフトモデルがオンラインで進化するにつれて、リアルタイムでクエリ分布と整合し、分散シフトを緩和します。 本稿では,オンライン知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,いくつかのLLMの合成データと実データを用いて評価する。 その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.22倍から3.06倍に削減された。

Speculative decoding is a pivotal technique to accelerate the inference of large language models (LLMs) by employing a smaller draft model to predict the target model's outputs. However, its efficacy can be limited due to the low predictive accuracy of the draft model, particularly when faced with diverse text inputs and a significant capability gap between the draft and target models. We introduce online speculative decoding (OSD) to address this challenge. The main idea is to continually update (multiple) draft model(s) on observed user query data using the abundant excess computational power in an LLM serving cluster. Given that LLM inference is memory-bounded, the surplus computational power in a typical LLM serving cluster can be repurposed for online retraining of draft models, thereby making the training cost-neutral. Since the query distribution of an LLM service is relatively simple, retraining on query distribution enables the draft model to more accurately predict the target model's outputs, particularly on data originating from query distributions. As the draft model evolves online, it aligns with the query distribution in real time, mitigating distribution shifts. We develop a prototype of online speculative decoding based on online knowledge distillation and evaluate it using both synthetic and real query data on several popular LLMs. The results show a substantial increase in the token acceptance rate by 0.1 to 0.65, which translates into 1.22x to 3.06x latency reduction.
翻訳日:2023-10-13 00:37:15 公開日:2023-10-11
# 誤りのない微分可能スワップ関数を有する一般化ニューラルネットワーク

Generalized Neural Sorting Networks with Error-Free Differentiable Swap Functions ( http://arxiv.org/abs/2310.07174v1 )

ライセンス: Link先を確認
Jungtaek Kim, Jeongbeen Yoon, Minsu Cho(参考訳) ソーティングは全てのコンピュータシステムの基本的な操作であり、長い間重要な研究トピックであった。 従来のソートアルゴリズムの問題定式化以外にも,より抽象的で表現力に富んだ入力,例えば多桁画像や画像断片に対するソート問題をニューラルネットワークを通じて検討する。 高次元入力から順序変数へのマッピングを学ぶには、ソートネットワークの差別化性を保証する必要がある。 本稿では,可微分スワップ関数によるソフトニング誤差を定義し,非消去・可微分条件を有する無誤差スワップ関数を開発する。 さらに、入力間の依存性を捉えるためにマルチヘッド注意を持つ置換同変変変圧器ネットワークを採用し、そのモデル容量を自己アテンションで活用する。 多様なソートベンチマーク実験により,本手法はベースライン法に匹敵する性能を示した。

Sorting is a fundamental operation of all computer systems, having been a long-standing significant research topic. Beyond the problem formulation of traditional sorting algorithms, we consider sorting problems for more abstract yet expressive inputs, e.g., multi-digit images and image fragments, through a neural sorting network. To learn a mapping from a high-dimensional input to an ordinal variable, the differentiability of sorting networks needs to be guaranteed. In this paper we define a softening error by a differentiable swap function, and develop an error-free swap function that holds non-decreasing and differentiability conditions. Furthermore, a permutation-equivariant Transformer network with multi-head attention is adopted to capture dependency between given inputs and also leverage its model capacity with self-attention. Experiments on diverse sorting benchmarks show that our methods perform better than or comparable to baseline methods.
翻訳日:2023-10-13 00:36:51 公開日:2023-10-11
# PHALM:人間と言語モデルによるスクラッチから知識グラフを構築する

PHALM: Building a Knowledge Graph from Scratch by Prompting Humans and a Language Model ( http://arxiv.org/abs/2310.07170v1 )

ライセンス: Link先を確認
Tatsuya Ide, Eiki Murata, Daisuke Kawahara, Takato Yamazaki, Shengzhe Li, Kenta Shinzato, Toshinori Sato(参考訳) 事前訓練されたトランスフォーマーによる自然言語理解の顕著な進歩にもかかわらず、ニューラルネットワークモデルは常識知識をうまく扱えないことが多い。 常識認識モデルに向けて、自動獲得からクラウドソーシングまで、知識の獲得が試みられている。 しかし、特にスクラッチから高品質な知識ベースを低コストで入手することは困難である。 本稿では,クラウドワーカーと大規模言語モデル(LLM)の両立を促すことによって,知識グラフをゼロから構築する手法であるPHALMを提案する。 本手法を用いて日本語イベントナレッジグラフを構築し,日本語コモンセンス生成モデルを訓練した。 実験結果から, 構築したグラフの受理性や, 訓練されたモデルによる推論が得られた。 また,人間とllmの促しの違いも報告した。 私たちのコード、データ、モデルはgithub.com/nlp-waseda/comet-atomic-jaで利用可能です。

Despite the remarkable progress in natural language understanding with pretrained Transformers, neural language models often do not handle commonsense knowledge well. Toward commonsense-aware models, there have been attempts to obtain knowledge, ranging from automatic acquisition to crowdsourcing. However, it is difficult to obtain a high-quality knowledge base at a low cost, especially from scratch. In this paper, we propose PHALM, a method of building a knowledge graph from scratch, by prompting both crowdworkers and a large language model (LLM). We used this method to build a Japanese event knowledge graph and trained Japanese commonsense generation models. Experimental results revealed the acceptability of the built graph and inferences generated by the trained models. We also report the difference in prompting humans and an LLM. Our code, data, and models are available at github.com/nlp-waseda/comet-atomic-ja.
翻訳日:2023-10-13 00:36:34 公開日:2023-10-11
# 階層的特徴降下を用いたアンカー型マルチビューサブスペースクラスタリング

Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent ( http://arxiv.org/abs/2310.07166v1 )

ライセンス: Link先を確認
Qiyuan Ou, Siwei Wang, Pei Zhang, Sihang Zhou, En Zhu(参考訳) 多視点クラスタリングは、様々な情報源からの情報を集約する能力や、公務における将来性から注目されている。 これまでのところ、多くの先進的なアプローチが近年の文献で提案されている。 しかし、対処すべき課題はいくつかある。 共通のジレンマは、異なるビューの特徴を調整しようとするときに起こる。 我々は、階層的な特徴降下を通じてビュー間の依存性をデプロイするだけでなく、共通の潜伏空間(STAGE 1)につながります。 この潜在空間は、その種類が初めて「類似空間」と見なされ、異なる視点の特定の相関関係と依存関係を明らかにする。 正確には、カテゴリの1-ホットエンコーディングは、その終相における類似空間(resemblance space)とも呼ばれる。 さらに、既存のマルチビュークラスタリングアルゴリズムのほとんどがk平均クラスタリングとスペクトルクラスタリングに起因しているという本質的な事実から、これによりキュービックな時間複雑性(w.r.t.)が発生する。 しかし,階層的特徴降下(mvsc-hfd)を用いたアンカー型マルチビュー部分空間クラスタリングを提案する。 公開ベンチマークデータセットの大規模な実験結果から,提案モデルが最先端技術より一貫して優れていることが示された。

Multi-view clustering has attracted growing attention owing to its capabilities of aggregating information from various sources and its promising horizons in public affairs. Up till now, many advanced approaches have been proposed in recent literature. However, there are several ongoing difficulties to be tackled. One common dilemma occurs while attempting to align the features of different views. We dig out as well as deploy the dependency amongst views through hierarchical feature descent, which leads to a common latent space( STAGE 1). This latent space, for the first time of its kind, is regarded as a 'resemblance space', as it reveals certain correlations and dependencies of different views. To be exact, the one-hot encoding of a category can also be referred to as a resemblance space in its terminal phase. Moreover, due to the intrinsic fact that most of the existing multi-view clustering algorithms stem from k-means clustering and spectral clustering, this results in cubic time complexity w.r.t. the number of the objects. However, we propose Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent(MVSC-HFD) to further reduce the computing complexity to linear time cost through a unified sampling strategy in resemblance space( STAGE 2), followed by subspace clustering to learn the representation collectively( STAGE 3). Extensive experimental results on public benchmark datasets demonstrate that our proposed model consistently outperforms the state-of-the-art techniques.
翻訳日:2023-10-13 00:36:19 公開日:2023-10-11
# コーディネーションに基づく手法による盗賊問題の解法

Solving Travelling Thief Problems using Coordination Based Methods ( http://arxiv.org/abs/2310.07156v1 )

ライセンス: Link先を確認
Majid Namazi, M.A. Hakim Newton, Conrad Sanderson, Abdul Sattar(参考訳) 旅行盗難問題(TTP)は、郵便物収集などの実生活問題の代名詞である。 TTPは、旅行セールスマン問題(TSP)と、KPのアイテムがTSPの都市に散らばっているため、knapsack問題(KP)の絡み合いを含み、泥棒は、アイテムを集めるために都市を訪れなければならない。 TTPでは、泥棒の移動速度がクナップサックの重量に依存し、訪問都市の順序がアイテム収集の順序に影響を与えるため、都市選択とアイテム選択の決定は緊密な調整が必要である。 既存のTPソルバは、都市選択とアイテム選択を別々に扱い、一方のタイプの決定は、他方のタイプを扱いながら変更しない。 この分離は、本質的には2つのタイプの意思決定間の調整が極めて貧弱なことを意味します。 本稿では,TTPにおいて単純な局所探索に基づくコーディネートアプローチが機能しないことを示す。 そこで,上記の問題に対処するために,循環ツアーの探索中に収集計画の変更を行う,人間設計の協調ヒューリスティックを提案する。 さらに,収集計画の探索において,項目選択における巡回ツアーを明示的に活用する,人間設計の協調ヒューリスティックを提案する。 最後に,2つの人間設計協調ヒューリスティックの特徴を捉える機械学習に基づく協調ヒューリスティックを提案する。 提案手法は,TTPソルバが既存のTTPソルバをベンチマーク問題で大幅に上回るのに有効である。 ソースコードはhttps://github.com/majid75/CoCoから入手可能です。

A travelling thief problem (TTP) is a proxy to real-life problems such as postal collection. TTP comprises an entanglement of a travelling salesman problem (TSP) and a knapsack problem (KP) since items of KP are scattered over cities of TSP, and a thief has to visit cities to collect items. In TTP, city selection and item selection decisions need close coordination since the thief's travelling speed depends on the knapsack's weight and the order of visiting cities affects the order of item collection. Existing TTP solvers deal with city selection and item selection separately, keeping decisions for one type unchanged while dealing with the other type. This separation essentially means very poor coordination between two types of decision. In this paper, we first show that a simple local search based coordination approach does not work in TTP. Then, to address the aforementioned problems, we propose a human designed coordination heuristic that makes changes to collection plans during exploration of cyclic tours. We further propose another human designed coordination heuristic that explicitly exploits the cyclic tours in item selections during collection plan exploration. Lastly, we propose a machine learning based coordination heuristic that captures characteristics of the two human designed coordination heuristics. Our proposed coordination based approaches help our TTP solver significantly outperform existing state-of-the-art TTP solvers on a set of benchmark problems. Our solver is named Cooperation Coordination (CoCo) and its source code is available from https://github.com/majid75/CoCo
翻訳日:2023-10-13 00:35:51 公開日:2023-10-11
# 『二動物語』--弱い教師付きグラフに基づく構造化予測による#blacklivesmatterと#bluelivesmatter運動関連ツイートの視点の同定と比較

"A Tale of Two Movements": Identifying and Comparing Perspectives in #BlackLivesMatter and #BlueLivesMatter Movements-related Tweets using Weakly Supervised Graph-based Structured Prediction ( http://arxiv.org/abs/2310.07155v1 )

ライセンス: Link先を確認
Shamik Roy, Dan Goldwasser(参考訳) ソーシャルメディアは、オンライン社会運動の形成を促進することによって、社会変革の原動力となっている。 動きを駆動する視点とそれに反対する声を自動的に理解することは、注釈付きデータを得るのが難しいため難しい課題である。 我々は#BackLivesMatter関連ツイートの視点を明示的にモデル化する弱い教師付きグラフベースのアプローチを提案する。 提案手法は,データの社会的言語表現を利用する。 テキストを構造化された要素に分割してグラフに変換し、著者のソーシャルネットワークに接続し、その要素上で構造化された予測を行い、視点を識別する。 私たちのアプローチでは、ラベル付き例の小さなシードセットを使用します。 人工的なトレーニング例を生成するために大規模な言語モデルを用いて実験を行い、それらを手動のアノテーションと比較し、同等のパフォーマンスを実現する。 人間の注釈付きテストセットを用いて定量的および定性的な分析を行う。 我々のモデルはマルチタスクベースラインを大きなマージンで上回り、#BLMをサポートし、反対する視点をうまく特徴づける。

Social media has become a major driver of social change, by facilitating the formation of online social movements. Automatically understanding the perspectives driving the movement and the voices opposing it, is a challenging task as annotated data is difficult to obtain. We propose a weakly supervised graph-based approach that explicitly models perspectives in #BackLivesMatter-related tweets. Our proposed approach utilizes a social-linguistic representation of the data. We convert the text to a graph by breaking it into structured elements and connect it with the social network of authors, then structured prediction is done over the elements for identifying perspectives. Our approach uses a small seed set of labeled examples. We experiment with large language models for generating artificial training examples, compare them to manual annotation, and find that it achieves comparable performance. We perform quantitative and qualitative analyses using a human-annotated test set. Our model outperforms multitask baselines by a large margin, successfully characterizing the perspectives supporting and opposing #BLM.
翻訳日:2023-10-13 00:35:24 公開日:2023-10-11
# プライバシは残っていない: オンデバイスMLのためのTEEシールド付きDNNのセキュア性

No Privacy Left Outside: On the (In-)Security of TEE-Shielded DNN Partition for On-Device ML ( http://arxiv.org/abs/2310.07152v1 )

ライセンス: Link先を確認
Ziqi Zhang, Chen Gong, Yifeng Cai, Yuanyuan Yuan, Bingyan Liu, Ding Li, Yao Guo, Xiangqun Chen(参考訳) オンデバイスmlでは、新たなセキュリティ上の課題が導入されている。 ホワイトボックス情報に基づいて、敵は効果的なモデル盗難(MS)とメンバーシップ推論攻撃(MIA)を行うことができる。 デバイス上のDNNモデルを保護するためにTrusted Execution Environments(TEEs)を使用することで、ホワイトボックス攻撃を(より簡単な)ブラックボックス攻撃にダウングレードすることを目指している。 しかし、大きな欠点の1つは、レイテンシの急激な増加(最大50倍)である。 GPUによるTEEシールドDNN計算を高速化するため、研究者はいくつかのモデル分割手法を提案した。 これらのソリューションは、TEE-Shielded DNN Partition (TSDP)と呼ばれ、DNNモデルを2つの部分に分割し、TEE内のプライバシーに敏感な部分を保護しながら、プライバシに敏感な部分をGPUにオフロードする。 本稿では、MSとMIAの両方を用いて既存のTSDPソリューションを様々なDNNモデル、データセット、メトリクスでベンチマークする。 我々は,既存のtsdpソリューションがプライバシ保護攻撃に対して脆弱であり,一般的に信じられているほど安全ではないことを示す。 また、現在のTSDPソリューションに対して最適なDNNパーティション構成(すなわち、最小限のユーティリティコストを持つ最高セキュリティ)を決定することの難しさを明らかにします。 実験によると、このような‘sweet spot’の設定はデータセットやモデルによって異なる。 実験から得られた教訓に基づいて,DNN推論中にMSとMIAを防御する新しいTSDP法TEESliceを提案する。 teesliceは分割前トレーニング戦略に従い、プライバシー関連の重みと公共の重みの正確な分離を可能にする。 TEESliceは、TEE内のDNNモデル全体(‘upper-bound’のセキュリティ保証)を、以前のTSDPソリューションよりも10倍以上のオーバーヘッド(実験環境と実環境環境で)で保護するのと同じセキュリティ保護を提供する。

On-device ML introduces new security challenges: DNN models become white-box accessible to device users. Based on white-box information, adversaries can conduct effective model stealing (MS) and membership inference attack (MIA). Using Trusted Execution Environments (TEEs) to shield on-device DNN models aims to downgrade (easy) white-box attacks to (harder) black-box attacks. However, one major shortcoming is the sharply increased latency (up to 50X). To accelerate TEE-shield DNN computation with GPUs, researchers proposed several model partition techniques. These solutions, referred to as TEE-Shielded DNN Partition (TSDP), partition a DNN model into two parts, offloading the privacy-insensitive part to the GPU while shielding the privacy-sensitive part within the TEE. This paper benchmarks existing TSDP solutions using both MS and MIA across a variety of DNN models, datasets, and metrics. We show important findings that existing TSDP solutions are vulnerable to privacy-stealing attacks and are not as safe as commonly believed. We also unveil the inherent difficulty in deciding optimal DNN partition configurations (i.e., the highest security with minimal utility cost) for present TSDP solutions. The experiments show that such ``sweet spot'' configurations vary across datasets and models. Based on lessons harvested from the experiments, we present TEESlice, a novel TSDP method that defends against MS and MIA during DNN inference. TEESlice follows a partition-before-training strategy, which allows for accurate separation between privacy-related weights from public weights. TEESlice delivers the same security protection as shielding the entire DNN model inside TEE (the ``upper-bound'' security guarantees) with over 10X less overhead (in both experimental and real-world environments) than prior TSDP solutions and no accuracy loss.
翻訳日:2023-10-13 00:35:06 公開日:2023-10-11
# リーマン拡散過程の混合による多様体の生成モデリング

Generative Modeling on Manifolds Through Mixture of Riemannian Diffusion Processes ( http://arxiv.org/abs/2310.07216v1 )

ライセンス: Link先を確認
Jaehyeong Jo, Sung Ju Hwang(参考訳) リーマン多様体上のデータの分布を学ぶことは、非ユークリッド空間からのデータをモデル化するのに重要である。 しかし、多様体上の既存の生成モデルは高価な分岐計算や熱核の近似に依存する。 これらの制限は、単純なジオメトリの適用性を制限し、高次元へのスケーラビリティを妨げる。 本研究では,多様体上に生成過程を構築するための原理的フレームワークであるRiemannian Diffusion Mixtureを紹介し,その生成過程は,多様体の幾何に関して最も確率的な終点へのドリフトを特徴付ける,従来の拡散モデルのデノイングアプローチに頼るのではなく,終点条件付き拡散過程の混合として導入する。 さらに, 一般多様体に容易に適用可能な混合過程の学習のための, 単純かつ効率的な学習目標を提案する。 本手法は,高次元にスケールしながら,様々な多様体上の既往の生成モデルよりも優れており,一般多様体の訓練中シミュレーションステップを劇的に削減する必要がある。

Learning the distribution of data on Riemannian manifolds is crucial for modeling data from non-Euclidean space, which is required by many applications from diverse scientific fields. Yet, existing generative models on manifolds suffer from expensive divergence computation or rely on approximations of heat kernel. These limitations restrict their applicability to simple geometries and hinder scalability to high dimensions. In this work, we introduce the Riemannian Diffusion Mixture, a principled framework for building a generative process on manifolds as a mixture of endpoint-conditioned diffusion processes instead of relying on the denoising approach of previous diffusion models, for which the generative process is characterized by its drift guiding toward the most probable endpoint with respect to the geometry of the manifold. We further propose a simple yet efficient training objective for learning the mixture process, that is readily applicable to general manifolds. Our method outperforms previous generative models on various manifolds while scaling to high dimensions and requires a dramatically reduced number of in-training simulation steps for general manifolds.
翻訳日:2023-10-13 00:26:34 公開日:2023-10-11
# 量子レーダと量子LiDARの進歩

Advances in Quantum Radar and Quantum LiDAR ( http://arxiv.org/abs/2310.07198v1 )

ライセンス: Link先を確認
Ricardo Gallego Torrome and Shabir Barzanjeh(参考訳) 量子センシングは、絡み合いやスクイーズのような基本的な量子現象に基づいて構築され、量子力学やイメージングを含む様々な領域にわたる精度と感度に革命をもたらしている。 現在、その影響はレーダーやLiDARの応用にまで広がり、量子レーダーの概念を生み出している。 古典的電磁法に頼っている従来のレーダーシステムとは異なり、量子レーダーはエンタングルメントや量子重ね合わせのような光子状態の量子特性のポテンシャルを利用して、感度と精度の確立された境界を越える。 この包括的なレビューでは、量子レーダーと量子ライダーの探索に着手し、量子リソースによる感度の向上と、ターゲット検出と量子技術による範囲推定の精度向上という2つの主な目的を導いた。 我々は、量子照明プロトコル、受信機設計、およびそれに関連する方法論の評価を含む量子レーダーの基本原理を徹底的に分析して、探索を開始する。 この調査はマイクロ波と光の両方の領域にまたがって行われ、様々な実験と既存の技術的制限に関する洞察を与えてくれます。 さらに,ターゲット範囲決定と推定における精度向上のための量子レーダープロトコルの応用について検討する。 本レビューでは,量子照明,量子干渉レーダ,その他の量子レーダプロトコルの包括的解析を行い,その分野への貢献について考察する。 このレビューは、量子レーダーの現状に関する貴重な洞察を提供し、重要な概念、実験、そしてこのダイナミックで有望な分野の進化の風景を深く理解する。

Quantum sensing, built upon fundamental quantum phenomena like entanglement and squeezing, is revolutionizing precision and sensitivity across diverse domains, including quantum metrology and imaging. Its impact is now stretching into radar and LiDAR applications, giving rise to the concept of quantum radar. Unlike traditional radar systems relying on classical electromagnetic, quantum radar harnesses the potential of the quantum properties of photon states like entanglement and quantum superposition to transcend established boundaries in sensitivity and accuracy. This comprehensive review embarks on an exploration of quantum radar and quantum LiDAR, guided by two primary objectives: enhancing sensitivity through quantum resources and refining accuracy in target detection and range estimation through quantum techniques. We initiate our exploration with a thorough analysis of the fundamental principles of quantum radar, which includes an evaluation of quantum illumination protocols, receiver designs, and their associated methodologies. This investigation spans across both microwave and optical domains, providing us with insights into various experimental demonstrations and the existing technological limitations. Additionally, we review the applications of quantum radar protocols for enhanced accuracy in target range determination and estimation. This section of our review involves a comprehensive analysis of quantum illumination, quantum interferometry radar, and other quantum radar protocols, providing insights into their contributions to the field. This review offers valuable insights into the current state of quantum radar, providing a deep understanding of key concepts, experiments, and the evolving landscape of this dynamic and promising field.
翻訳日:2023-10-13 00:26:14 公開日:2023-10-11
# MatChat: 物質科学のための大規模言語モデルとアプリケーションサービスプラットフォーム

MatChat: A Large Language Model and Application Service Platform for Materials Science ( http://arxiv.org/abs/2310.07197v1 )

ライセンス: Link先を確認
Ziyi Chen, Fankai Xie, Meng Wan, Yang Yuan, Miao Liu, Zongguo Wang, Sheng Meng, Yangang Wang(参考訳) 化学合成経路の予測は材料科学研究において重要な役割を果たす。 合成経路の複雑さや包括的なデータセットの欠如といった課題は、現在これらの化学過程を正確に予測する能力を妨げる。 しかし、自動テキスト生成や質問応答システムを含む生成人工知能(GAI)の最近の進歩と微調整技術は、特定のドメインに適した大規模AIモデルの展開を促進する。 本研究では,LLaMA2-7Bモデルのパワーを活用し,13,878個の構造化材料知識データを組み込んだ学習プロセスにより強化する。 MatChatという名前のこの専門的なAIモデルは、無機物質合成経路の予測に焦点を当てている。 MatChatは材料科学の知識を生み出し、推論するのに優れた能力を発揮している。 matchatは多様な材料設計のニーズを満たすためにさらなる改良を必要とするが、この研究は材料科学の分野でその印象的な推論能力と革新的な可能性を強調している。 MatChatは現在オンラインでアクセス可能であり、モデルとアプリケーションフレームワークの両方をオープンソースとして利用できる。 本研究は、材料科学における生成AIの統合において、協調的イノベーションのための堅牢な基盤を確立する。

The prediction of chemical synthesis pathways plays a pivotal role in materials science research. Challenges, such as the complexity of synthesis pathways and the lack of comprehensive datasets, currently hinder our ability to predict these chemical processes accurately. However, recent advancements in generative artificial intelligence (GAI), including automated text generation and question-answering systems, coupled with fine-tuning techniques, have facilitated the deployment of large-scale AI models tailored to specific domains. In this study, we harness the power of the LLaMA2-7B model and enhance it through a learning process that incorporates 13,878 pieces of structured material knowledge data. This specialized AI model, named MatChat, focuses on predicting inorganic material synthesis pathways. MatChat exhibits remarkable proficiency in generating and reasoning with knowledge in materials science. Although MatChat requires further refinement to meet the diverse material design needs, this research undeniably highlights its impressive reasoning capabilities and innovative potential in the field of materials science. MatChat is now accessible online and open for use, with both the model and its application framework available as open source. This study establishes a robust foundation for collaborative innovation in the integration of generative AI in materials science.
翻訳日:2023-10-13 00:25:48 公開日:2023-10-11
# 2次元アレイにおける量子輸送のための新しいイオントラップ接合設計

Novel Ion Trap Junction Design for Transporting Qubits in a 2D Array ( http://arxiv.org/abs/2310.07195v1 )

ライセンス: Link先を確認
Gavin N. Nop, Jonathan D. H. Smith, Daniel Stick, Durga Paudyal(参考訳) ジャンクションは、2次元イオントラップアレイにおけるクビット移動をサポートし、新興のトラップイオン量子コンピュータにおける接続性を高める基本的な要素である。 表面イオントラップは、通常、擬ポテンシャルへの障害を最小限に抑えるために、単一平面に高周波電極(RF)を形成することで実装されている。 しかし、この手法は、電力の消耗と電圧低下の可能性を高めることができるRFリードルーティングに関する問題を提起する。 本稿では,2つの垂直回転子型線形イオントラップを用いた2層接合設計を提案する。 トラップは垂直に分離され、それぞれの平面間にトラップ電位を生成する。 互いに相対的に各トラップのRF電極の直交配向は、2次元の輸送を実現するために使用できる閉じ込めの垂直軸を与える。 この設計は製造と運用の課題を導入しているが、現在は2つの異なる構造が垂直方向に相対的に位置決めされ、上部からの光学的アクセスが曖昧になっているため、トラップの上面からRFリードをルーティングする必要がなくなり、典型的なジャンクションで発生する擬似ポテンシャルバンプを排除している。 本稿では, マチュー方程式を解析的に解いて安定領域を同定し, イオン動力学を数値的にモデル化することにより, 理想化イオン移動の安定性を実証する。 新しいジャンクションレイアウトにより、マイクロファブリケーションイオントラップ制御の柔軟性が向上し、大規模な捕捉イオン量子コンピューティングが可能となる。

Junctions are fundamental elements that support qubit locomotion in two-dimensional ion trap arrays and enhance connectivity in emerging trapped-ion quantum computers. In surface ion traps they have typically been implemented by shaping radio frequency (RF) electrodes in a single plane to minimize the disturbance to the pseudopotential. However, this method introduces issues related to RF lead routing that can increase power dissipation and the likelihood of voltage breakdown. Here, we propose and simulate a novel two-layer junction design incorporating two perpendicularly rotoreflected linear ion traps. The traps are vertically separated, and create a trapping potential between their respective planes. The orthogonal orientation of the RF electrodes of each trap relative to the other provides perpendicular axes of confinement that can be used to realize transport in two dimensions. While this design introduces manufacturing and operating challenges, as now two separate structures have to be precisely positioned relative to each other in the vertical direction and optical access from the top is obscured, it obviates the need to route RF leads below the top surface of the trap and eliminates the pseudopotential bumps that occur in typical junctions. In this paper the stability of idealized ion transfer in the new configuration is demonstrated, both by solving the Mathieu equation analytically to identify the stable regions and by numerically modeling ion dynamics. Our novel junction layout enhances the flexibility of microfabricated ion trap control to enable large-scale trapped-ion quantum computing.
翻訳日:2023-10-13 00:25:29 公開日:2023-10-11
# ニューラルネットワーク:深いもの、浅いもの、中間のもの?

Neural networks: deep, shallow, or in between? ( http://arxiv.org/abs/2310.07190v1 )

ライセンス: Link先を確認
Guergana Petrova and Przemyslaw Wojtaszczyk(参考訳) 本稿では,幅W,深さl,リプシッツの活性化関数を持つフィードフォワードニューラルネットワークの出力によるバナッハ空間からのコンパクト部分集合の近似誤差を以下から推定する。 両対数係数は、深さlが無限大となるニューラルネットワークに対してのみエントロピー数の速度が達成可能である可能性があり、深さを固定して幅Wを無限大にすると利得がないことを示す。

We give estimates from below for the error of approximation of a compact subset from a Banach space by the outputs of feed-forward neural networks with width W, depth l and Lipschitz activation functions. We show that, modulo logarithmic factors, rates better that entropy numbers' rates are possibly attainable only for neural networks for which the depth l goes to infinity, and that there is no gain if we fix the depth and let the width W go to infinity.
翻訳日:2023-10-13 00:25:04 公開日:2023-10-11
# SpikePoint: イベントカメラアクション認識のための効率的なポイントベーススパイクニューラルネットワーク

SpikePoint: An Efficient Point-based Spiking Neural Network for Event Cameras Action Recognition ( http://arxiv.org/abs/2310.07189v1 )

ライセンス: Link先を確認
Hongwei Ren, Yue Zhou, Yulong Huang, Haotian Fu, Xiaopeng Lin, Jie Song, Bojun Cheng(参考訳) イベントカメラはバイオインスパイアされたセンサーで、光強度の局所的な変化に対応し、低レイテンシ、高エネルギー効率、高ダイナミックレンジを特徴とする。 一方、スパイキングニューラルネットワーク(SNN)は、その顕著な効率と耐故障性のために注目されている。 イベントカメラに固有のエネルギー効率とSNNのスパイクベースの処理能力を相乗的に活用することにより、アクション認識タスクのような超低消費電力アプリケーションシナリオを実現することができる。 しかし、既存のアプローチでは非同期イベントを従来のフレームに変換することが必要であり、snsやイベントカメラの設計概念と矛盾するデータマッピングの努力とスパーシティの喪失に繋がる。 この課題に対処するために,新しいエンドツーエンドのポイントベースSNNアーキテクチャであるSpikePointを提案する。 spikepointはスパースイベントクラウドデータの処理に優れており、単一のステージ構造を通じてグローバルとローカル両方の特徴を効果的に抽出する。 surrogateトレーニングメソッドを活用することで、spikepointは少ないパラメータで高い精度を実現し、低消費電力を維持し、特にさまざまなデータセットでidマッピング機能抽出器を使用している。 SpikePointは4つのイベントベースのアクション認識データセット上で、他のSNNメソッドを上回る16のタイムステップで、最先端(SOTA)パフォーマンスを達成する。 さらに、ANN(Artificial Neural Network)が使用するパラメータの0.35%と0.5%の電力消費を利用して、3つのデータセット上のすべてのメソッドでSOTA性能を実現する。 これらの結果はPoint Cloudの重要性を強調し、多くの超低消費電力のイベントベースのデータ処理アプリケーションに道を開く。

Event cameras are bio-inspired sensors that respond to local changes in light intensity and feature low latency, high energy efficiency, and high dynamic range. Meanwhile, Spiking Neural Networks (SNNs) have gained significant attention due to their remarkable efficiency and fault tolerance. By synergistically harnessing the energy efficiency inherent in event cameras and the spike-based processing capabilities of SNNs, their integration could enable ultra-low-power application scenarios, such as action recognition tasks. However, existing approaches often entail converting asynchronous events into conventional frames, leading to additional data mapping efforts and a loss of sparsity, contradicting the design concept of SNNs and event cameras. To address this challenge, we propose SpikePoint, a novel end-to-end point-based SNN architecture. SpikePoint excels at processing sparse event cloud data, effectively extracting both global and local features through a singular-stage structure. Leveraging the surrogate training method, SpikePoint achieves high accuracy with few parameters and maintains low power consumption, specifically employing the identity mapping feature extractor on diverse datasets. SpikePoint achieves state-of-the-art (SOTA) performance on four event-based action recognition datasets using only 16 timesteps, surpassing other SNN methods. Moreover, it also achieves SOTA performance across all methods on three datasets, utilizing approximately 0.3\% of the parameters and 0.5\% of power consumption employed by artificial neural networks (ANNs). These results emphasize the significance of Point Cloud and pave the way for many ultra-low-power event-based data processing applications.
翻訳日:2023-10-13 00:24:56 公開日:2023-10-11
# 知識混合型言語モデルにおける適応ゲーティング

Adaptive Gating in Mixture-of-Experts based Language Models ( http://arxiv.org/abs/2310.07188v1 )

ライセンス: Link先を確認
Jiamin Li, Qiang Su, Yitao Yang, Yimin Jiang, Cong Wang, Hong Xu(参考訳) OpenAIのChatGPTのような大規模な言語モデルは、様々なNLPタスクにおいて例外的な言語理解能力を示している。 sparsely activated mixture-of-experts (moe) は、一定の数の計算操作を維持しながら、モデルのスケーリングに有望なソリューションとして登場した。 既存のMoEモデルは固定ゲーティングネットワークを採用しており、各トークンは同じ数の専門家によって計算される。 しかし、このアプローチは、それぞれの列のトークンが言語的複雑さの観点から異なるため、計算コストが異なるという直観と矛盾する。 トークン毎の計算とモデルパフォーマンスのトレードオフに関する以前の研究ではほとんど議論されていない。 本稿では,専門家の確率分布に基づいて,さまざまな専門家がトークンを処理できるフレキシブルなトレーニング戦略であるMoEで適応ゲーティングを導入する。 提案するフレームワークは、トレーニング効率を向上しながら、空間性を保っている。 さらに、カリキュラム学習を利用してトレーニング時間を短縮する。 多様なNLPタスクに関する大規模な実験は、適応ゲーティングが推論品質を維持しながら、少なくとも22.5%のトレーニング時間を短縮することを示している。 さらに、ルーティング決定の包括的な分析を行い、適応ゲーティングを用いた場合の洞察を提示する。

Large language models, such as OpenAI's ChatGPT, have demonstrated exceptional language understanding capabilities in various NLP tasks. Sparsely activated mixture-of-experts (MoE) has emerged as a promising solution for scaling models while maintaining a constant number of computational operations. Existing MoE model adopts a fixed gating network where each token is computed by the same number of experts. However, this approach contradicts our intuition that the tokens in each sequence vary in terms of their linguistic complexity and, consequently, require different computational costs. Little is discussed in prior research on the trade-off between computation per token and model performance. This paper introduces adaptive gating in MoE, a flexible training strategy that allows tokens to be processed by a variable number of experts based on expert probability distribution. The proposed framework preserves sparsity while improving training efficiency. Additionally, curriculum learning is leveraged to further reduce training time. Extensive experiments on diverse NLP tasks show that adaptive gating reduces at most 22.5% training time while maintaining inference quality. Moreover, we conduct a comprehensive analysis of the routing decisions and present our insights when adaptive gating is used.
翻訳日:2023-10-13 00:24:31 公開日:2023-10-11
# Kernel Cox 部分線形回帰 : がん患者の生存予測モデルの構築

Kernel Cox partially linear regression: building predictive models for cancer patients' survival ( http://arxiv.org/abs/2310.07187v1 )

ライセンス: Link先を確認
Yaohua Rong, Sihai Dave Zhao, Xia Zheng, Yi Li(参考訳) 癌患者の生存には、数ヶ月から数十年に及ぶ幅広い多様性が存在する。 臨床結果の正確な予測には、患者の分子プロファイルと患者の生存を関連付ける正確な予測モデルを構築することが不可欠である。 生存率と高次元分子予測器との複雑な関係から,非パラメトリックモデリングと無関係予測器の同時除去が困難である。 本稿では,カーネルCox比例ハザード半パラメトリックモデルを構築し,そのモデルに適合する新しい正規化ニンジン化カーネルマシン(RegGKM)を提案する。 カーネルマシン法を用いて生存率と予測値の複雑な関係を記述し、LASSOペナルティにより無関係なパラメトリックおよび非パラメトリック予測値を自動的に除去する。 提案手法に対して効率的な高次元アルゴリズムを提案する。 シミュレーションにおける他の競合手法との比較により,提案手法は予測精度が常に良いことを示す。 本手法は,多発性骨髄腫データを解析し,その遺伝子発現に基づいて患者の死亡負担を予測する。 以上より, 死亡リスクの異なるグループに分類し, 良好な臨床成績を得るための治療の促進に寄与した。

Wide heterogeneity exists in cancer patients' survival, ranging from a few months to several decades. To accurately predict clinical outcomes, it is vital to build an accurate predictive model that relates patients' molecular profiles with patients' survival. With complex relationships between survival and high-dimensional molecular predictors, it is challenging to conduct non-parametric modeling and irrelevant predictors removing simultaneously. In this paper, we build a kernel Cox proportional hazards semi-parametric model and propose a novel regularized garrotized kernel machine (RegGKM) method to fit the model. We use the kernel machine method to describe the complex relationship between survival and predictors, while automatically removing irrelevant parametric and non-parametric predictors through a LASSO penalty. An efficient high-dimensional algorithm is developed for the proposed method. Comparison with other competing methods in simulation shows that the proposed method always has better predictive accuracy. We apply this method to analyze a multiple myeloma dataset and predict patients' death burden based on their gene expressions. Our results can help classify patients into groups with different death risks, facilitating treatment for better clinical outcomes.
翻訳日:2023-10-13 00:24:13 公開日:2023-10-11
# マルチビュートランスフォーマー:ハイパースペクトル画像分類における空間情報の再考

Multiview Transformer: Rethinking Spatial Information in Hyperspectral Image Classification ( http://arxiv.org/abs/2310.07186v1 )

ライセンス: Link先を確認
Jie Zhang, Yongshan Zhang, Yicong Zhou(参考訳) ハイパースペクトル画像(HSI)における各画素のランドカバーカテゴリの同定は、スペクトル情報と空間情報に依存する。 特定のパッチサイズを有するhsi立方体を用いて、中央画素の空間スペクトル特徴表現を抽出する。 本稿では,シーン固有であるが本質的でない相関関係がHSIカブイドに記録されることを考察する。 この追加情報は、既存のHSIデータセットのモデルパフォーマンスを改善し、モデルの能力を適切に評価することを難しくする。 本稿では,この問題を空間オーバーフィット問題と呼び,厳格な実験環境を用いて回避する。 さらに、マルチビュー主成分分析(MPCA)、スペクトルエンコーダデコーダ(SED)、空間プールトークン化変換(SPTT)からなるHSI分類のためのマルチビュー変換器を提案する。 MPCAは、スペクトルマルチビュー観測を構築し、各ビューデータにPCAを適用して低次元表示を抽出することにより、HSIの次元削減を行う。 マルチビュー表現と呼ばれるビュー表現の組み合わせは、MPCAの次元縮小出力である。 マルチビュー情報を集約するために、スペクトル次元のU字形の完全畳み込みSEDを導入し、マルチビュー特徴写像を抽出する。 SPTTは、空間プールトークン化戦略を用いて、マルチビュー特徴をトークンに変換し、ランドカバー識別のためのロバストで差別的な空間スペクトル特徴を学習する。 分類は線形分類器で行われる。 厳密な設定を持つ3つのHSIデータセットの実験は、最先端手法よりも提案されたマルチビュー変換器の優位性を示している。

Identifying the land cover category for each pixel in a hyperspectral image (HSI) relies on spectral and spatial information. An HSI cuboid with a specific patch size is utilized to extract spatial-spectral feature representation for the central pixel. In this article, we investigate that scene-specific but not essential correlations may be recorded in an HSI cuboid. This additional information improves the model performance on existing HSI datasets and makes it hard to properly evaluate the ability of a model. We refer to this problem as the spatial overfitting issue and utilize strict experimental settings to avoid it. We further propose a multiview transformer for HSI classification, which consists of multiview principal component analysis (MPCA), spectral encoder-decoder (SED), and spatial-pooling tokenization transformer (SPTT). MPCA performs dimension reduction on an HSI via constructing spectral multiview observations and applying PCA on each view data to extract low-dimensional view representation. The combination of view representations, named multiview representation, is the dimension reduction output of the MPCA. To aggregate the multiview information, a fully-convolutional SED with a U-shape in spectral dimension is introduced to extract a multiview feature map. SPTT transforms the multiview features into tokens using the spatial-pooling tokenization strategy and learns robust and discriminative spatial-spectral features for land cover identification. Classification is conducted with a linear classifier. Experiments on three HSI datasets with rigid settings demonstrate the superiority of the proposed multiview transformer over the state-of-the-art methods.
翻訳日:2023-10-13 00:23:40 公開日:2023-10-11
# neuroinspect:クラス条件の可視化によるニューロンベースのデバッグフレームワーク

NeuroInspect: Interpretable Neuron-based Debugging Framework through Class-conditional Visualizations ( http://arxiv.org/abs/2310.07184v1 )

ライセンス: Link先を確認
Yeong-Joon Ju, Ji-Hoon Park, and Seong-Whan Lee(参考訳) 深層学習(DL)は様々な領域で顕著な進歩を遂げているが、DLモデルは依然として間違いを犯しやすい。 この問題は、DL実践者がネットワーク内の意思決定プロセスを理解するために効果的なデバッグツールを必要とする。 しかし、既存のデバッグメソッドは、しばしば追加のデータや決定プロセスへの調整を要求し、その適用性を制限する。 この問題に対処するために,ニューロインスペクション(neuroinspect)という,反事実的説明,特徴の可視化,誤った相関緩和という3つの重要な段階を持つ,解釈可能なニューロンベースのデバッグフレームワークを提案する。 私たちのデバッグフレームワークはまず、ネットワークのミスの原因となるニューロンをピンポイントし、次に人間の解釈可能なニューロンに埋め込まれた機能を視覚化します。 そこで本研究では,クラスで条件づけされた特徴を表現した画像を生成し,ニューロンと決定層との関係を調べる新しい特徴可視化手法である clip-illusion を提案する。 クラス情報を用いて従来の可視化手法の畳み込み説明を緩和し,混合特性を分離する。 このプロセスは、トレーニングされたネットワークの変更や追加データを必要とすることなく、モデルエラーに対してより人間解釈可能な説明を提供する。 さらに,確率的視点でデータセットから学習した偽相関を緩和し,主要な原因と考えられるニューロンの決定を変更する。 我々は,偽相関に対処し,実環境において最もパフォーマンスの悪いクラスに対する推論を改善することで,フレームワークの有効性を検証する。 また,NuroInspectは人的理解の評価を通じて,DLモデルの誤りのデバッグを支援することを示した。 コードはhttps://github.com/yeongjoonJu/NeuroInspect.comで公開されている。

Despite deep learning (DL) has achieved remarkable progress in various domains, the DL models are still prone to making mistakes. This issue necessitates effective debugging tools for DL practitioners to interpret the decision-making process within the networks. However, existing debugging methods often demand extra data or adjustments to the decision process, limiting their applicability. To tackle this problem, we present NeuroInspect, an interpretable neuron-based debugging framework with three key stages: counterfactual explanations, feature visualizations, and false correlation mitigation. Our debugging framework first pinpoints neurons responsible for mistakes in the network and then visualizes features embedded in the neurons to be human-interpretable. To provide these explanations, we introduce CLIP-Illusion, a novel feature visualization method that generates images representing features conditioned on classes to examine the connection between neurons and the decision layer. We alleviate convoluted explanations of the conventional visualization approach by employing class information, thereby isolating mixed properties. This process offers more human-interpretable explanations for model errors without altering the trained network or requiring additional data. Furthermore, our framework mitigates false correlations learned from a dataset under a stochastic perspective, modifying decisions for the neurons considered as the main causes. We validate the effectiveness of our framework by addressing false correlations and improving inferences for classes with the worst performance in real-world settings. Moreover, we demonstrate that NeuroInspect helps debug the mistakes of DL models through evaluation for human understanding. The code is openly available at https://github.com/yeongjoonJu/NeuroInspect.
翻訳日:2023-10-13 00:22:54 公開日:2023-10-11
# 言語分類モデルに対するメンバーシップ推論攻撃の改善

Improved Membership Inference Attacks Against Language Classification Models ( http://arxiv.org/abs/2310.07219v1 )

ライセンス: Link先を確認
Shlomit Shachor, Natalia Razinkov, Abigail Goldsteen(参考訳) 人工知能システムは、小売、製造、健康、その他多くの分野のユースケースで日常的に普及している。 AIの採用の増加に伴い、モデルのトレーニングにデータが使用される人々のプライバシーリスクを含む、関連するリスクが特定されている。 機械学習モデルのプライバシリスクを評価することは、モデルの使用、デプロイ、あるいは共有に関する知識のある決定を可能にするために不可欠である。 プライバシーリスク評価の一般的なアプローチは、モデルに対する1つ以上の既知の攻撃を実行し、その成功率を測定することである。 分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。 我々のフレームワークはアンサンブル法を利用して、データの異なるサブセットに対して多くの特殊な攻撃モデルを生成する。 本手法は,古典的・言語的分類タスクにおいて,単一攻撃モデルやクラスラベルごとの攻撃モデルよりも高い精度が得られることを示す。

Artificial intelligence systems are prevalent in everyday life, with use cases in retail, manufacturing, health, and many other fields. With the rise in AI adoption, associated risks have been identified, including privacy risks to the people whose data was used to train models. Assessing the privacy risks of machine learning models is crucial to enabling knowledgeable decisions on whether to use, deploy, or share a model. A common approach to privacy risk assessment is to run one or more known attacks against the model and measure their success rate. We present a novel framework for running membership inference attacks against classification models. Our framework takes advantage of the ensemble method, generating many specialized attack models for different subsets of the data. We show that this approach achieves higher accuracy than either a single attack model or an attack model per class label, both on classical and language classification tasks.
翻訳日:2023-10-13 00:16:55 公開日:2023-10-11
# コスト効率一般化のためのマルチエージェント強化学習におけるエージェント相互作用の定量化

Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization ( http://arxiv.org/abs/2310.07218v1 )

ライセンス: Link先を確認
Yuxin Chen, Chen Tang, Ran Tian, Chenran Li, Jinning Li, Masayoshi Tomizuka, Wei Zhan(参考訳) 一般化はマルチエージェント強化学習(MARL)において大きな課題となる。 エージェントが目に見えない共同プレイヤーによって影響を受ける程度は、エージェントのポリシーと特定のシナリオに依存する。 この関係の定量的な検証は、様々なシナリオの効果的なトレーニングエージェントに光を当てている。 本研究では,与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標である影響レベル(loi)について述べる。 トレーニング中、より多様なコプレイエージェントがエゴエージェントの一般化性能を高めることが観察されるが、この改善は異なるシナリオや環境によって異なる。 LoIは、特定のシナリオにおけるこれらの改善の相違を予測するのに効果的である。 さらに,制約予算下での多様なシナリオに対するポリシーセットのトレーニングに適したLoI誘導型リソース割り当て手法を提案する。 その結果,loiに基づく戦略的資源割当は,同じ計算予算で一様割当よりも高い性能が得られることがわかった。

Generalization poses a significant challenge in Multi-agent Reinforcement Learning (MARL). The extent to which an agent is influenced by unseen co-players depends on the agent's policy and the specific scenario. A quantitative examination of this relationship sheds light on effectively training agents for diverse scenarios. In this study, we present the Level of Influence (LoI), a metric quantifying the interaction intensity among agents within a given scenario and environment. We observe that, generally, a more diverse set of co-play agents during training enhances the generalization performance of the ego agent; however, this improvement varies across distinct scenarios and environments. LoI proves effective in predicting these improvement disparities within specific scenarios. Furthermore, we introduce a LoI-guided resource allocation method tailored to train a set of policies for diverse scenarios under a constrained budget. Our results demonstrate that strategic resource allocation based on LoI can achieve higher performance than uniform allocation under the same computation budget.
翻訳日:2023-10-13 00:16:40 公開日:2023-10-11
# 小型iotデバイス上でのディープラーニングモデル展開のための複数のハードウェア制約によるニューラルアーキテクチャ探索の強化

Enhancing Neural Architecture Search with Multiple Hardware Constraints for Deep Learning Model Deployment on Tiny IoT Devices ( http://arxiv.org/abs/2310.07217v1 )

ライセンス: Link先を確認
Alessio Burrello, Matteo Risso, Beatrice Alessandra Motetti, Enrico Macii, Luca Benini, Daniele Jahier Pagliari(参考訳) モノのインターネット(IoT)デバイスに依存するコンピューティング領域の急速な普及は、低消費電力デバイス上で実行できる効率的で正確なディープラーニング(DL)モデルに対する押し付けの必要性を生み出している。 しかし、従来のDLモデルは、典型的なIoTエンドノードでは複雑で計算集約的すぎる傾向にある。 この課題に対処するために、ニューラルネットワークの精度と複雑さを最適化する一般的な設計自動化技術として、neural architecture search(nas)が登場した。 それにもかかわらず、既存のnas技術は、ハードウェアで利用可能な最大メモリやターゲットアプリケーションで許される最大レイテンシなど、特定のハードウェア制約に準拠したネットワークを作成するために、多くのイテレーションを必要とする。 本稿では,単一の標準トレーニングに匹敵する時間内に,メモリとレイテンシの両方についてユーザ定義の制約を尊重するモデルの生成を可能にする,いわゆる微分可能なnas最適化手法に,複数の制約を組み込む新しい手法を提案する。 MLPerf TinyスイートとTiny ImageNetを含む5つのIoT関連ベンチマークで提案されたアプローチは、単一の検索で、TinyMLの最先端手チューニングディープニューラルネットワークにおいて、それぞれ87.4%と54.2%のメモリとレイテンシを削減できることを実証する。

The rapid proliferation of computing domains relying on Internet of Things (IoT) devices has created a pressing need for efficient and accurate deep-learning (DL) models that can run on low-power devices. However, traditional DL models tend to be too complex and computationally intensive for typical IoT end-nodes. To address this challenge, Neural Architecture Search (NAS) has emerged as a popular design automation technique for co-optimizing the accuracy and complexity of deep neural networks. Nevertheless, existing NAS techniques require many iterations to produce a network that adheres to specific hardware constraints, such as the maximum memory available on the hardware or the maximum latency allowed by the target application. In this work, we propose a novel approach to incorporate multiple constraints into so-called Differentiable NAS optimization methods, which allows the generation, in a single shot, of a model that respects user-defined constraints on both memory and latency in a time comparable to a single standard training. The proposed approach is evaluated on five IoT-relevant benchmarks, including the MLPerf Tiny suite and Tiny ImageNet, demonstrating that, with a single search, it is possible to reduce memory and latency by 87.4% and 54.2%, respectively (as defined by our targets), while ensuring non-inferior accuracy on state-of-the-art hand-tuned deep neural networks for TinyML.
翻訳日:2023-10-13 00:16:24 公開日:2023-10-11
# 知的海洋監視のためのマルチタスク学習型自動容器ドラフト読取

Multi-Task Learning-Enabled Automatic Vessel Draft Reading for Intelligent Maritime Surveillance ( http://arxiv.org/abs/2310.07212v1 )

ライセンス: Link先を確認
Jingxiang Qu, Ryan Wen Liu, Chenjie Zhao, Yu Guo, Sendren Sheng-Dong Xu, Fenghua Zhu, and Yisheng Lv(参考訳) 正確で効率的な船舶ドラフト読取(vdr)は、インテリジェントな海上監視の重要な要素であり、通常船が積み込まれているか過負荷であるかを判断するのに役立つ。 性能に優れたコンピュータビジョン技術は,容器のドラフト深さを推定するための一般的な媒体となっている。 しかし,従来の推定手法では,低画質画像に対する感度,高計算コストなど,いくつかの制約が容易に生じる。 本研究では,高度に信頼性の高いVDRを生成するマルチタスク学習型計算手法(MTL-VDR)を提案する。 特に,我々のMTL-VDRは,主に,ドラフトマーク検出,ドラフトスケール認識,容器/水のセグメンテーション,最終ドラフト深度推定の4つのコンポーネントから構成されている。 まず、ドラフトマーク検出に関するベンチマークデータセットを構築し、強力で効率的な畳み込みニューラルネットワークを用いて検出タスクを正確に実行する。 マルチタスク学習法は, 大規模認識と容器/水のセグメンテーションを同時に行うために提案される。 複雑な条件下でより堅牢なVDRを得る(例えば、損傷及び染色スケール等)ために、正確なドラフトスケールは、ドラフトスケールの空間分布規則に基づいて提示される自動補正法により生成される。 最後に,適応計算法を用いて高精度かつロバストなドラフト深さを得る。 mtl-vdrと最先端の手法を比較するために、現実的なデータセットで広範な実験が行われました。 その結果、精度、堅牢性、効率の点で優れた性能を示した。 計算速度は40 FPSを超え、船舶の交通安全を確保するためのリアルタイム海洋監視の要求を満たす。

The accurate and efficient vessel draft reading (VDR) is an important component of intelligent maritime surveillance, which could be exploited to assist in judging whether the vessel is normally loaded or overloaded. The computer vision technique with an excellent price-to-performance ratio has become a popular medium to estimate vessel draft depth. However, the traditional estimation methods easily suffer from several limitations, such as sensitivity to low-quality images, high computational cost, etc. In this work, we propose a multi-task learning-enabled computational method (termed MTL-VDR) for generating highly reliable VDR. In particular, our MTL-VDR mainly consists of four components, i.e., draft mark detection, draft scale recognition, vessel/water segmentation, and final draft depth estimation. We first construct a benchmark dataset related to draft mark detection and employ a powerful and efficient convolutional neural network to accurately perform the detection task. The multi-task learning method is then proposed for simultaneous draft scale recognition and vessel/water segmentation. To obtain more robust VDR under complex conditions (e.g., damaged and stained scales, etc.), the accurate draft scales are generated by an automatic correction method, which is presented based on the spatial distribution rules of draft scales. Finally, an adaptive computational method is exploited to yield an accurate and robust draft depth. Extensive experiments have been implemented on the realistic dataset to compare our MTL-VDR with state-of-the-art methods. The results have demonstrated its superior performance in terms of accuracy, robustness, and efficiency. The computational speed exceeds 40 FPS, which satisfies the requirements of real-time maritime surveillance to guarantee vessel traffic safety.
翻訳日:2023-10-13 00:15:57 公開日:2023-10-11
# Newton-Raphson法と正規化ポリシイテレーションのギャップを埋める

Bridging the Gap between Newton-Raphson Method and Regularized Policy Iteration ( http://arxiv.org/abs/2310.07211v1 )

ライセンス: Link先を確認
Zeyang Li, Chuxiong Hu, Yunan Wang, Guojian Zhan, Jie Li, Shengbo Eben Li(参考訳) 正規化は強化学習アルゴリズムにおいて最も重要な技術の一つである。 有名なソフトアクタ-クリティックアルゴリズムは、正規化ポリシー反復の特別な場合であり、正規化子はシャノンエントロピーとして選択される。 規則化された政策イテレーションの実証的な成功にもかかわらず、その理論的根拠はいまだに不明である。 本稿では, 正則化ポリシの反復は, 強い凸関数を持つベルマン方程式を滑らかにする条件下で, 標準ニュートン・ラフソン法と厳密に等価であることを示す。 この同値性は、正規化政策反復のグローバルおよび局所収束挙動の統一解析の基礎となる。 正規化ポリシーイテレーションがグローバル線形収束を持つことを証明し、そのレートが$\gamma$(計数係数)であることを証明する。 さらに、このアルゴリズムは最適値の周りの局所領域に入ると二次収束する。 また、正規化ポリシー反復の修正版、すなわち有限ステップのポリシー評価はニュートン法と等価であり、ニュートンの反復式はトランカットされた反復で解かれることを示す。 関連するアルゴリズムが漸近線形収束率 $\gamma^m$ を達成できることを証明し、そこでは$m$ が政策評価におけるステップ数を表す。 本研究は,規則化ポリシー反復アルゴリズムの収束特性をよりよく理解するための固い一歩を踏み出した。

Regularization is one of the most important techniques in reinforcement learning algorithms. The well-known soft actor-critic algorithm is a special case of regularized policy iteration where the regularizer is chosen as Shannon entropy. Despite some empirical success of regularized policy iteration, its theoretical underpinnings remain unclear. This paper proves that regularized policy iteration is strictly equivalent to the standard Newton-Raphson method in the condition of smoothing out Bellman equation with strongly convex functions. This equivalence lays the foundation of a unified analysis for both global and local convergence behaviors of regularized policy iteration. We prove that regularized policy iteration has global linear convergence with the rate being $\gamma$ (discount factor). Furthermore, this algorithm converges quadratically once it enters a local region around the optimal value. We also show that a modified version of regularized policy iteration, i.e., with finite-step policy evaluation, is equivalent to inexact Newton method where the Newton iteration formula is solved with truncated iterations. We prove that the associated algorithm achieves an asymptotic linear convergence rate of $\gamma^M$ in which $M$ denotes the number of steps carried out in policy evaluation. Our results take a solid step towards a better understanding of the convergence properties of regularized policy iteration algorithms.
翻訳日:2023-10-13 00:15:30 公開日:2023-10-11
# マルチタスクによる皮膚病変分類

Multi-task Explainable Skin Lesion Classification ( http://arxiv.org/abs/2310.07209v1 )

ライセンス: Link先を確認
Mahapara Khurshid, Mayank Vatsa, Richa Singh(参考訳) 皮膚がんは最も致命的な疾患の一つであり、未治療で死亡率が高い。 診断は一般的に視覚スクリーニングから始まり、生検または病理組織検査が続く。 早期発見は死亡率を下げるのに役立つ。 視覚スクリーニングは医師の経験によって制限される。 皮膚科学データセットの長い尾分布とクラス間の有意な変化のため,コンピュータ支援手法を用いた自動分類は困難である。 そこで本研究では,小さなサンプル空間問題に対処するため,ラベル付きデータが少ない皮膚病変に対して,マルチタスクによるマルチショットアプローチを提案する。 提案手法は,アテンションモジュールと分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。 セグメンテーションネットワークの出力は、分類ネットワークによる決定をしながら、最も識別性の高い特徴に集中するのに役立ちます。 分類性能をさらに向上するため,重み付け方式でセグメント化と分類損失を併用した。 また、アルゴリズムによる決定を説明する可視化結果も含んでいる。 提案手法を徹底的に評価するために3つのdermatological datasetが使用される。 また,提案手法が類似したデータセットにまたがって一般化可能であることを保証するために,データベース横断実験を行った。 実験の結果,提案手法の有効性が示された。

Skin cancer is one of the deadliest diseases and has a high mortality rate if left untreated. The diagnosis generally starts with visual screening and is followed by a biopsy or histopathological examination. Early detection can aid in lowering mortality rates. Visual screening can be limited by the experience of the doctor. Due to the long tail distribution of dermatological datasets and significant intra-variability between classes, automatic classification utilizing computer-aided methods becomes challenging. In this work, we propose a multitask few-shot-based approach for skin lesions that generalizes well with few labelled data to address the small sample space challenge. The proposed approach comprises a fusion of a segmentation network that acts as an attention module and classification network. The output of the segmentation network helps to focus on the most discriminatory features while making a decision by the classification network. To further enhance the classification performance, we have combined segmentation and classification loss in a weighted manner. We have also included the visualization results that explain the decisions made by the algorithm. Three dermatological datasets are used to evaluate the proposed method thoroughly. We also conducted cross-database experiments to ensure that the proposed approach is generalizable across similar datasets. Experimental results demonstrate the efficacy of the proposed work.
翻訳日:2023-10-13 00:15:11 公開日:2023-10-11
# 敵対的外乱下におけるロバストセーフ強化学習

Robust Safe Reinforcement Learning under Adversarial Disturbances ( http://arxiv.org/abs/2310.07207v1 )

ライセンス: Link先を確認
Zeyang Li, Chuxiong Hu, Shengbo Eben Li, Jia Cheng, Yunan Wang(参考訳) 安全は、特に外乱の存在下で、現実世界の制御タスクに強化学習を適用する際の主要な関心事である。 しかし、既存の安全強化学習アルゴリズムは外乱をほとんど考慮せず、実際の適用性や堅牢性を制限している。 この課題に対処するために,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。 まず,ロバストな不変量集合,すなわちセーフ集合の部分集合に対して,永続的安全性が内部状態に対してのみ可能であるようなポリシー反復スキームを提案する。 ハミルトン・ジャコビ到達可能性分析において、主人公(つまり制御入力)が安全性を維持し、敵(つまり外部障害)が安全性を壊そうとする安全値関数を活用することで、2人プレイのゼロサムゲームを確立することが鍵となる。 本稿では,提案したポリシー反復アルゴリズムが最大ロバスト不変量集合に単調に収束することを証明する。 第2に,提案手法を制約付き強化学習アルゴリズムに統合し,ロバストな不変集合を同時に合成し,制約付きポリシー最適化に利用する。 このアルゴリズムは最適性と安全性の両面、すなわち最悪の状況下での安全性を維持しながら高い報酬を得る政策を学ぶ。 古典的な制御タスクの実験により,本手法は学習した最悪の対向外乱に対してゼロ制約違反を達成し,他のベースラインアルゴリズムは安全制約を実質的に破ることを示した。 また,提案手法は,敵がいない場合でも,ベースラインとして同等の性能が得られる。

Safety is a primary concern when applying reinforcement learning to real-world control tasks, especially in the presence of external disturbances. However, existing safe reinforcement learning algorithms rarely account for external disturbances, limiting their applicability and robustness in practice. To address this challenge, this paper proposes a robust safe reinforcement learning framework that tackles worst-case disturbances. First, this paper presents a policy iteration scheme to solve for the robust invariant set, i.e., a subset of the safe set, where persistent safety is only possible for states within. The key idea is to establish a two-player zero-sum game by leveraging the safety value function in Hamilton-Jacobi reachability analysis, in which the protagonist (i.e., control inputs) aims to maintain safety and the adversary (i.e., external disturbances) tries to break down safety. This paper proves that the proposed policy iteration algorithm converges monotonically to the maximal robust invariant set. Second, this paper integrates the proposed policy iteration scheme into a constrained reinforcement learning algorithm that simultaneously synthesizes the robust invariant set and uses it for constrained policy optimization. This algorithm tackles both optimality and safety, i.e., learning a policy that attains high rewards while maintaining safety under worst-case disturbances. Experiments on classic control tasks show that the proposed method achieves zero constraint violation with learned worst-case adversarial disturbances, while other baseline algorithms violate the safety constraints substantially. Our proposed method also attains comparable performance as the baselines even in the absence of the adversary.
翻訳日:2023-10-13 00:14:54 公開日:2023-10-11
# DeepSimHO:物理シミュレーションによる手動物体間相互作用の安定電位推定

DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via Physics Simulation ( http://arxiv.org/abs/2310.07206v1 )

ライセンス: Link先を確認
Rong Wang, Wei Mao, Hongdong Li(参考訳) 本稿では,物体と相互作用する手の3次元ポーズ推定の課題について検討する。 ハンド・オブジェクト相互作用のモデル化では、手が物体を安定して把握し、重力に逆行し、物体の滑りや落下を防止しなければならない動的性質を見落としながら、主に近接する手がかりを利用する。 これらの仕事は、推定において動的制約を活用できず、結果としてしばしば不安定な結果を生み出す。 一方で、物理ベースの推論による不安定な構成の洗練は、接触ダイナミクスの複雑さと、データ駆動学習フレームワークにおける効率的で効率的な物理推論の欠如の両方によって、依然として困難である。 両問題に対処するため,我々は,前方物理学シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた,新しいディープラーニングパイプラインであるdeepsimhoを提案する。 具体的には,ベースネットワークによって推定された初期ハンドオブジェクトポーズに対して,その安定性を評価するために物理シミュレータに転送する。 しかし、非スムース接触形状と浸透のため、既存の微分可能シミュレータは信頼できる状態勾配を提供することができない。 この問題を解決するために,我々は,シミュレータから安定性評価プロセスをスムーズに学習し,その勾配を近似し,効果的なバックプロパゲーションを実現するディープネットワークを提案する。 実験の結果,提案手法は評価の安定性を著しく向上し,テスト時間最適化よりも優れた効率性を実現することがわかった。 コードはhttps://github.com/rongakowang/deepsimhoで入手できる。

This paper addresses the task of 3D pose estimation for a hand interacting with an object from a single image observation. When modeling hand-object interaction, previous works mainly exploit proximity cues, while overlooking the dynamical nature that the hand must stably grasp the object to counteract gravity and thus preventing the object from slipping or falling. These works fail to leverage dynamical constraints in the estimation and consequently often produce unstable results. Meanwhile, refining unstable configurations with physics-based reasoning remains challenging, both by the complexity of contact dynamics and by the lack of effective and efficient physics inference in the data-driven learning framework. To address both issues, we present DeepSimHO: a novel deep-learning pipeline that combines forward physics simulation and backward gradient approximation with a neural network. Specifically, for an initial hand-object pose estimated by a base network, we forward it to a physics simulator to evaluate its stability. However, due to non-smooth contact geometry and penetration, existing differentiable simulators can not provide reliable state gradient. To remedy this, we further introduce a deep network to learn the stability evaluation process from the simulator, while smoothly approximating its gradient and thus enabling effective back-propagation. Extensive experiments show that our method noticeably improves the stability of the estimation and achieves superior efficiency over test-time optimization. The code is available at https://github.com/rongakowang/DeepSimHO.
翻訳日:2023-10-13 00:14:26 公開日:2023-10-11
# ビジュアルコンピューティングのための拡散モデルの現状

State of the Art on Diffusion Models for Visual Computing ( http://arxiv.org/abs/2310.07204v1 )

ライセンス: Link先を確認
Ryan Po, Wang Yifan, Vladislav Golyanik, Kfir Aberman, Jonathan T. Barron, Amit H. Bermano, Eric Ryan Chan, Tali Dekel, Aleksander Holynski, Angjoo Kanazawa, C. Karen Liu, Lingjie Liu, Ben Mildenhall, Matthias Nie{\ss}ner, Bj\"orn Ommer, Christian Theobalt, Peter Wonka, Gordon Wetzstein(参考訳) 生成人工知能(AI)の出現により、視覚コンピューティングの分野は急速に進歩し、画像、ビデオ、および3Dシーンの生成、編集、再構築のための前例のない能力を解き放ちつつある。 これらの領域では、拡散モデルは選択された生成AIアーキテクチャである。 昨年だけで、拡散ベースのツールとアプリケーションに関する文献は指数関数的な成長を見せ、関連する論文がコンピュータグラフィックス、コンピュータビジョン、AIコミュニティに公開され、新しい作品がarXivに毎日掲載されている。 この分野の急速な成長は、最近のすべての発展に追いつくのを難しくしている。 この最先端レポート(STAR)の目標は、拡散モデルの基本数学的概念、一般的な安定拡散モデルの実装詳細と設計選択の導入と、パーソナライゼーション、条件付け、反転など、これらの生成AIツールの重要な側面を概観することである。 さらに,2d画像,ビデオ,3dオブジェクト,ロコモーション,および4dシーンを含む,生成媒体の種類別に分類し,拡散に基づく生成と編集に関する急速に成長している文献を総合的に概観する。 最後に、利用可能なデータセット、メトリクス、オープンチャレンジ、社会的影響について論じる。 このSTARは、研究者、アーティスト、そして実践者にも、このエキサイティングなトピックを探求するための直感的な出発点を提供する。

The field of visual computing is rapidly advancing due to the emergence of generative artificial intelligence (AI), which unlocks unprecedented capabilities for the generation, editing, and reconstruction of images, videos, and 3D scenes. In these domains, diffusion models are the generative AI architecture of choice. Within the last year alone, the literature on diffusion-based tools and applications has seen exponential growth and relevant papers are published across the computer graphics, computer vision, and AI communities with new works appearing daily on arXiv. This rapid growth of the field makes it difficult to keep up with all recent developments. The goal of this state-of-the-art report (STAR) is to introduce the basic mathematical concepts of diffusion models, implementation details and design choices of the popular Stable Diffusion model, as well as overview important aspects of these generative AI tools, including personalization, conditioning, inversion, among others. Moreover, we give a comprehensive overview of the rapidly growing literature on diffusion-based generation and editing, categorized by the type of generated medium, including 2D images, videos, 3D objects, locomotion, and 4D scenes. Finally, we discuss available datasets, metrics, open challenges, and social implications. This STAR provides an intuitive starting point to explore this exciting topic for researchers, artists, and practitioners alike.
翻訳日:2023-10-13 00:14:00 公開日:2023-10-11
# admeood: 薬物特性予測のためのアウトオブディストリビューションベンチマーク

ADMEOOD: Out-of-Distribution Benchmark for Drug Property Prediction ( http://arxiv.org/abs/2310.07253v1 )

ライセンス: Link先を確認
Shuoying Wei, Xinlong Wen, Lida Zhu, Songquan Li, Rongbo Zhu(参考訳) 薬物分子の正確かつ有効な情報を得ることは重要かつ困難な課題である。 しかし、この100年間、様々な地域、研究室、実験目的から化学知識や情報が蓄積されてきた。 ノイズや不整合によるアウト・オブ・ディストリビューション(OOD)の問題に関してはほとんど検討されていないが、弱い堅牢性と不満足なパフォーマンスをもたらす可能性がある。 本研究は,OODデータセットの体系的キュレーターであるADMEOODと薬物特性予測のためのベンチマークを提案する。 ADMEOOD はケムブルから 27 ADME (Absorption, Distribution, Metabolism, Excretion) の薬物特性と関連文献を得た。 さらに、ノイズシフトとコンセプト衝突ドリフト(CCD)という2種類のOODデータシフトも含まれている。 ノイズシフトは環境を異なる信頼レベルに分類することでノイズレベルに反応する。 一方、CCDは、元のデータ間で一貫性のないラベルを持つデータを記述している。 最後に,様々な領域一般化モデルを用いて実験を行い,ADMEOODにおける分割法の有効性を実験的に検証した。 さらに、EMM(Empirical Risk Minimization)や他のモデルでは、異なる領域や測定タイプにわたるパフォーマンスの傾向を示す。

Obtaining accurate and valid information for drug molecules is a crucial and challenging task. However, chemical knowledge and information have been accumulated over the past 100 years from various regions, laboratories, and experimental purposes. Little has been explored in terms of the out-of-distribution (OOD) problem with noise and inconsistency, which may lead to weak robustness and unsatisfied performance. This study proposes a novel benchmark ADMEOOD, a systematic OOD dataset curator and benchmark specifically designed for drug property prediction. ADMEOOD obtained 27 ADME (Absorption, Distribution, Metabolism, Excretion) drug properties from Chembl and relevant literature. Additionally, it includes two kinds of OOD data shifts: Noise Shift and Concept Conflict Drift (CCD). Noise Shift responds to the noise level by categorizing the environment into different confidence levels. On the other hand, CCD describes the data which has inconsistent label among the original data. Finally, it tested on a variety of domain generalization models, and the experimental results demonstrate the effectiveness of the proposed partition method in ADMEOOD: ADMEOOD demonstrates a significant difference performance between in-distribution and out-of-distribution data. Moreover, ERM (Empirical Risk Minimization) and other models exhibit distinct trends in performance across different domains and measurement types.
翻訳日:2023-10-13 00:05:43 公開日:2023-10-11
# クラスタリングのための多次元ホップフィールドネットワーク

Multidimensional Hopfield Networks for clustering ( http://arxiv.org/abs/2310.07239v1 )

ライセンス: Link先を確認
Gergely Stomfai, {\L}ukasz Sienkiewicz, Barbara Rychalska(参考訳) 本稿では,ホップフィールドネットワークの自然な一般化である多次元ホップフィールドネットワーク(DHN)を提案する。 理論的研究では、特定の活性化関数を持つDHNに着目し、それらのエネルギー関数を提供する。 これらのDHNは有限時間で収束し、局所最小カットのグラフクラスタリングを見つけることを目的とした欲求的手法と等価である。 また、dhnsの汎用フレームワークは、グラフ埋め込みとクラスタリングを生成するために既に知られているいくつかのアルゴリズムをカプセル化する。 すなわち、cleoraグラフ埋め込みアルゴリズム、louvainメソッド、newmansメソッドを適切なアクティベーション関数と更新ルールを備えたdhnとしてキャストすることができる。 これらの結果により,多次元の場合に対してニューマン法を一般化する。

We present the Multidimensional Hopfield Network (DHN), a natural generalisation of the Hopfield Network. In our theoretical investigations we focus on DHNs with a certain activation function and provide energy functions for them. We conclude that these DHNs are convergent in finite time, and are equivalent to greedy methods that aim to find graph clusterings of locally minimal cuts. We also show that the general framework of DHNs encapsulates several previously known algorithms used for generating graph embeddings and clusterings. Namely, the Cleora graph embedding algorithm, the Louvain method, and the Newmans method can be cast as DHNs with appropriate activation function and update rule. Motivated by these findings we provide a generalisation of Newmans method to the multidimensional case.
翻訳日:2023-10-13 00:05:26 公開日:2023-10-11
# GATはバランスが取れていないか?

Are GATs Out of Balance? ( http://arxiv.org/abs/2310.07235v1 )

ライセンス: Link先を確認
Nimrah Mustafa, Aleksandar Bojchevski, Rebekka Burkholz(参考訳) グラフニューラルネットワーク(gnn)の表現力と計算能力は理論的に研究されているが、その最適化と学習のダイナミクスは概して未解明のままである。 本稿では,ノード近傍のアグリゲーションをパラメータ化注意係数で重み付けするGNNアーキテクチャであるグラフ注意ネットワーク(GAT)について述べる。 我々はGAT勾配流の保存則を導出し、GATの標準初期化を伴うパラメータがトレーニング中に変化に苦しむ理由を説明する。 この効果はより深いGATで増幅され、浅いGATよりも著しく低下する。 この問題を軽減するため,GATネットワークのバランスをとる初期化方式を考案した。 私たちのアプローチ 一 より効果的な勾配の伝播を可能とし、更に深いネットワークのトレーサビリティを可能とし、 二 標準初期化と比較して、訓練及び収束時間の大幅な高速化を達成すること。 我々の主定理は、注意機構を持つ正の均質モデルの学習ダイナミクスを研究するための足場となる。

While the expressive power and computational capabilities of graph neural networks (GNNs) have been theoretically studied, their optimization and learning dynamics, in general, remain largely unexplored. Our study undertakes the Graph Attention Network (GAT), a popular GNN architecture in which a node's neighborhood aggregation is weighted by parameterized attention coefficients. We derive a conservation law of GAT gradient flow dynamics, which explains why a high portion of parameters in GATs with standard initialization struggle to change during training. This effect is amplified in deeper GATs, which perform significantly worse than their shallow counterparts. To alleviate this problem, we devise an initialization scheme that balances the GAT network. Our approach i) allows more effective propagation of gradients and in turn enables trainability of deeper networks, and ii) attains a considerable speedup in training and convergence time in comparison to the standard initialization. Our main theorem serves as a stepping stone to studying the learning dynamics of positive homogeneous models with attention mechanisms.
翻訳日:2023-10-13 00:05:12 公開日:2023-10-11
# プロンプトに基づく継続的学習の階層的分解:未熟なサブ最適性を再考する

Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality ( http://arxiv.org/abs/2310.07234v1 )

ライセンス: Link先を確認
Liyuan Wang, Jingyi Xie, Xingxing Zhang, Mingyi Huang, Hang Su, Jun Zhu(参考訳) プロンプトベースの連続学習は、下流の連続学習に事前訓練された知識を活用するための新たな方向性であり、教師付き事前学習の下では、ほぼパフォーマンスの頂点に達している。 しかし、我々の実証的な研究によると、現在の戦略は、より現実的な自己監督型事前学習の下で、最大限の可能性を欠いている。 これは主に、プロンプトパラメータを介して指示された表現にタスク固有の知識が組み込まれず、テスト時に未指示の表現によって予測されるためである。 公開サブ最適化を克服するために,事前学習の文脈で連続学習目標を理論的に分析し,タスク内予測,タスク同一性推論,タスク適応予測といった階層的構成要素に分解する。 これらの経験的・理論的知見に従い,階層的分解 (hid-)prompt を提案する。これはタスク固有のプロンプトと非指示表現と指示表現の両方の統計によって階層的コンポーネントを明示的に最適化する革新的なアプローチであり,さらに対照的な正規化戦略の調整も行う。 広範な実験により,hid-promptの優れた性能と,連続学習における事前学習パラダイムに対する頑健性が示された(例えば,最大15.01%,9.61%がスプリットcifar-100,スプリットimagenet-r)。 私たちのコードは \url{https://github.com/thu-ml/HiDe-Prompt} で利用可能です。

Prompt-based continual learning is an emerging direction in leveraging pre-trained knowledge for downstream continual learning, and has almost reached the performance pinnacle under supervised pre-training. However, our empirical research reveals that the current strategies fall short of their full potential under the more realistic self-supervised pre-training, which is essential for handling vast quantities of unlabeled data in practice. This is largely due to the difficulty of task-specific knowledge being incorporated into instructed representations via prompt parameters and predicted by uninstructed representations at test time. To overcome the exposed sub-optimality, we conduct a theoretical analysis of the continual learning objective in the context of pre-training, and decompose it into hierarchical components: within-task prediction, task-identity inference, and task-adaptive prediction. Following these empirical and theoretical insights, we propose Hierarchical Decomposition (HiDe-)Prompt, an innovative approach that explicitly optimizes the hierarchical components with an ensemble of task-specific prompts and statistics of both uninstructed and instructed representations, further with the coordination of a contrastive regularization strategy. Our extensive experiments demonstrate the superior performance of HiDe-Prompt and its robustness to pre-training paradigms in continual learning (e.g., up to 15.01% and 9.61% lead on Split CIFAR-100 and Split ImageNet-R, respectively). Our code is available at \url{https://github.com/thu-ml/HiDe-Prompt}.
翻訳日:2023-10-13 00:04:56 公開日:2023-10-11
# タンパク質断片配列アライメントによる自己教師付きポケットプリトレーニング

Self-supervised Pocket Pretraining via Protein Fragment-Surroundings Alignment ( http://arxiv.org/abs/2310.07229v1 )

ライセンス: Link先を確認
Bowen Gao, Yinjun Jia, Yuanle Mo, Yuyan Ni, Weiying Ma, Zhiming Ma, Yanyan Lan(参考訳) ポケット表現は、薬物性評価、リガンド親和性予測、デ・ノボ薬物設計など、様々なバイオメディカル応用において重要な役割を果たす。 既存の幾何学的特徴と事前学習された表現は有望な結果を示しているが、通常はリガンドとは独立にポケットを扱い、それらの基本的な相互作用を無視する。 しかしながら、PDBデータベースで利用可能な制限されたポケットリガンド複雑な構造(100万以上の非冗長なペア)は、相互作用モデリングのための大規模な事前学習作業を妨げている。 この制約に対処するために,我々は,高分解能原子タンパク質構造からの知識を活用した新しいポケットプリトレーニング手法を提案する。 タンパク質構造を薬物様断片と対応するポケットに分割することで、リガンド-受容体相互作用の合理的なシミュレーションが可能になり、500万以上の錯体が生成される。 その後、ポケットエンコーダは、予め訓練された小さな分子エンコーダによって提供される擬似リガンドの表現と整合するように、対照的に訓練される。 提案手法は,pocket druggability prediction, pocket matching, ligand binding affinity predictionなど,様々なタスクにおいて最先端のパフォーマンスを実現する。 特に、ProFSAは他の事前訓練手法をかなり上回っている。 さらに,本研究は,高品質で多様なタンパク質構造データベースを活用し,タンパク質リガンド複雑なデータの不足を緩和するための新たな道を開いた。

Pocket representations play a vital role in various biomedical applications, such as druggability estimation, ligand affinity prediction, and de novo drug design. While existing geometric features and pretrained representations have demonstrated promising results, they usually treat pockets independent of ligands, neglecting the fundamental interactions between them. However, the limited pocket-ligand complex structures available in the PDB database (less than 100 thousand non-redundant pairs) hampers large-scale pretraining endeavors for interaction modeling. To address this constraint, we propose a novel pocket pretraining approach that leverages knowledge from high-resolution atomic protein structures, assisted by highly effective pretrained small molecule representations. By segmenting protein structures into drug-like fragments and their corresponding pockets, we obtain a reasonable simulation of ligand-receptor interactions, resulting in the generation of over 5 million complexes. Subsequently, the pocket encoder is trained in a contrastive manner to align with the representation of pseudo-ligand furnished by some pretrained small molecule encoders. Our method, named ProFSA, achieves state-of-the-art performance across various tasks, including pocket druggability prediction, pocket matching, and ligand binding affinity prediction. Notably, ProFSA surpasses other pretraining methods by a substantial margin. Moreover, our work opens up a new avenue for mitigating the scarcity of protein-ligand complex data through the utilization of high-quality and diverse protein structure databases.
翻訳日:2023-10-13 00:04:25 公開日:2023-10-11
# 医学質問応答における大規模言語モデルの景観探索:観察とオープン質問

Exploring the Landscape of Large Language Models In Medical Question Answering: Observations and Open Questions ( http://arxiv.org/abs/2310.07225v1 )

ライセンス: Link先を確認
Karolina Korgul, Andrew M. Bean, Felix Krones, Robert McCraith, Adam Mahdi(参考訳) 大言語モデル(LLM)は、標準化試験で合格点を達成し、医療従事者を支援するためのツールとして提案されている。 このようなリスクの高いコンテキストにLSMをデプロイするには、これらのモデルの制限を明確に理解する必要があります。 新しいLSMの急速な開発とリリースにより、モデルにまたがって存在するパターンを識別することが特に重要であり、それゆえ、新しいバージョンに現れ続けている。 本稿では,医学的問題に対する知識に基づいて,グループとしての有用性をよりよく理解するために,広く普及しているLSMについて評価する。 この比較から予備的な観察を行い、さらなる研究のためにオープンな疑問を提起する。

Large Language Models (LLMs) have shown promise in medical question answering by achieving passing scores in standardised exams and have been suggested as tools for supporting healthcare workers. Deploying LLMs into such a high-risk context requires a clear understanding of the limitations of these models. With the rapid development and release of new LLMs, it is especially valuable to identify patterns which exist across models and may, therefore, continue to appear in newer versions. In this paper, we evaluate a wide range of popular LLMs on their knowledge of medical questions in order to better understand their properties as a group. From this comparison, we provide preliminary observations and raise open questions for further research.
翻訳日:2023-10-13 00:04:02 公開日:2023-10-11
# MODIS多重スペクトル時系列と補助データを用いたLULCクラスのブラインドスペクトルアンミキシングのための深層学習

Deep Learning for blind spectral unmixing of LULC classes with MODIS multispectral time series and ancillary data ( http://arxiv.org/abs/2310.07223v1 )

ライセンス: Link先を確認
Jos\'e Rodr\'iguez-Ortega (1 and 2), Rohaifa Khaldi (2), Domingo Alcaraz-Segura (3), Siham Tabik (1) ((1) Department of Computer Science and Artificial Intelligence, DaSCI, University of Granada, Granada, Spain, (2) LifeWatch-ERIC ICT Core, Seville, Spain, (3) Department of Botany, Faculty of Science, University of Granada, Granada, Spain)(参考訳) リモートセンシングされたデータは、土地利用と土地被覆(LULC)が混在している。 スペクトル・アンミキシング(spectrum unmixing)は、混合画素からそれらの構成lulcタイプと対応する剰余分に情報を抽出する技術である。 伝統的に、このタスクの解決は、エンドメンバーの事前知識を必要とする古典的な方法や、明確なエンドメンバーの計算を避ける機械学習手法、あるいはブラインドスペクトルアンミックス(BSU)と呼ばれる方法に依存してきた。 ディープラーニング(DL)に基づくほとんどのBSU研究は1段階のハイパースペクトルデータに重点を置いているが、その取得はマルチスペクトルデータと比較してかなりコストがかかる。 本稿では,多スペクトル時系列データとDLモデルを用いたLULCクラスのBSUに関する最初の研究について述べる。 地理+地形(ジオトポグラフィ)と気候補助情報を組み込んだ長短記憶モデル(LSTM)の性能をさらに向上させる。 実験の結果, 時空間入力データと地形情報と気候情報を組み合わせることで, 混合画素におけるLULCクラスの存在量の推定が大幅に向上することがわかった。 本研究では,2013年にmodisから460mの解像度で,andalusia multispectral multitemporal unmixing (andalusia-msmtu) という2つの階層的なlulcクラスに対して,毎月マルチスペクトルの画素列を持つアンダルシア地域(spain)のラベル付きデータセットを構築した。 このデータセットは、画素レベルでは、各画素内のLULCクラスの存在量に注釈を付けた多重スペクトル時系列と補助情報を提供する。 データセットとコードは一般公開されている。

Remotely sensed data are dominated by mixed Land Use and Land Cover (LULC) types. Spectral unmixing is a technique to extract information from mixed pixels into their constituent LULC types and corresponding abundance fractions. Traditionally, solving this task has relied on either classical methods that require prior knowledge of endmembers or machine learning methods that avoid explicit endmembers calculation, also known as blind spectral unmixing (BSU). Most BSU studies based on Deep Learning (DL) focus on one time-step hyperspectral data, yet its acquisition remains quite costly compared with multispectral data. To our knowledge, here we provide the first study on BSU of LULC classes using multispectral time series data with DL models. We further boost the performance of a Long-Short Term Memory (LSTM)-based model by incorporating geographic plus topographic (geo-topographic) and climatic ancillary information. Our experiments show that combining spectral-temporal input data together with geo-topographic and climatic information substantially improves the abundance estimation of LULC classes in mixed pixels. To carry out this study, we built a new labeled dataset of the region of Andalusia (Spain) with monthly multispectral time series of pixels for the year 2013 from MODIS at 460m resolution, for two hierarchical levels of LULC classes, named Andalusia MultiSpectral MultiTemporal Unmixing (Andalusia-MSMTU). This dataset provides, at the pixel level, a multispectral time series plus ancillary information annotated with the abundance of each LULC class inside each pixel. The dataset and code are available to the public.
翻訳日:2023-10-13 00:03:50 公開日:2023-10-11
# Uni-paint: 事前制約付き拡散モデルによるマルチモーダル画像描画のための統一フレームワーク

Uni-paint: A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model ( http://arxiv.org/abs/2310.07222v1 )

ライセンス: Link先を確認
Shiyuan Yang, Xiaodong Chen, Jing Liao(参考訳) 近年, DDPM (text-to-image denoising diffusion probabilistic model) は画像生成能力に優れており, 画像塗布にも有効である。 しかし、実際には、ユーザーはテキストガイダンスを超えて、特にカスタマイズされた外観、色、形状、レイアウトのオブジェクトを合成したい場合に、塗装プロセスの制御をもっと必要とします。 残念ながら、既存の拡散ベースのインパインティング手法は単一モーダルガイダンスに限られており、タスク固有のトレーニングが必要であり、それらのクロスモーダルスケーラビリティを妨げる。 これらの制限に対処するために,マルチモーダルインペインティングのための統一フレームワークuni-paintを提案する。無条件,テキスト駆動,ストローク駆動,exemplar駆動インペインティング,これらモードの組み合わせなど,さまざまなガイダンスモードを提供する。 さらに,このuni-paintは事前学習された安定拡散に基づいており,特定のデータセットに対するタスク固有のトレーニングを必要としない。 提案手法は既存の単一モード法に匹敵する結果を示すとともに,他の手法では利用できないマルチモーダル・インパインティング機能を提供する。 コードはhttps://github.com/ysy31415/unipaintで入手できる。

Recently, text-to-image denoising diffusion probabilistic models (DDPMs) have demonstrated impressive image generation capabilities and have also been successfully applied to image inpainting. However, in practice, users often require more control over the inpainting process beyond textual guidance, especially when they want to composite objects with customized appearance, color, shape, and layout. Unfortunately, existing diffusion-based inpainting methods are limited to single-modal guidance and require task-specific training, hindering their cross-modal scalability. To address these limitations, we propose Uni-paint, a unified framework for multimodal inpainting that offers various modes of guidance, including unconditional, text-driven, stroke-driven, exemplar-driven inpainting, as well as a combination of these modes. Furthermore, our Uni-paint is based on pretrained Stable Diffusion and does not require task-specific training on specific datasets, enabling few-shot generalizability to customized images. We have conducted extensive qualitative and quantitative evaluations that show our approach achieves comparable results to existing single-modal methods while offering multimodal inpainting capabilities not available in other methods. Code will be available at https://github.com/ysy31415/unipaint.
翻訳日:2023-10-13 00:03:15 公開日:2023-10-11
# 実時間エクササイズフォームレコメンデーションにおける学習可能な物理の利用

Using Learnable Physics for Real-Time Exercise Form Recommendations ( http://arxiv.org/abs/2310.07221v1 )

ライセンス: Link先を確認
Abhishek Jaiswal, Gautam Chauhan, Nisheeth Srivastava(参考訳) 良い姿勢と形は安全で生産的な運動に欠かせない。 ジムの設定でも、トレーナーは簡単にフィードバックを受けられないかもしれない。 リハビリテーション療法とフィットネスワークアウトは、リアルタイム評価を提供するレコメンデーションシステムの恩恵を受けることができる。 本稿では,エクササイズ技術における問題を診断し,高い感度と特異性をリアルタイムに備えた修正レコメンデーションを提供するアルゴリズムパイプラインを提案する。 ポーズ認識にはmediapipeを使用し,ピーク・プロミネンス検出を用いた反復回数をカウントし,学習可能な物理シミュレータを用いて各運動の運動進化を追跡する。 統計学習を用いて、原型的学習動作からの偏差に基づいてテスト映像を診断する。 このシステムは6つの全身運動と上半身運動で評価される。 これらのリアルタイムレコメンデーションは、スマートフォンのような低価格の機器で助言され、エクササイズが自己実践を可能とし、ワークアウトの怪我のリスクを軽減できる。

Good posture and form are essential for safe and productive exercising. Even in gym settings, trainers may not be readily available for feedback. Rehabilitation therapies and fitness workouts can thus benefit from recommender systems that provide real-time evaluation. In this paper, we present an algorithmic pipeline that can diagnose problems in exercise techniques and offer corrective recommendations, with high sensitivity and specificity in real-time. We use MediaPipe for pose recognition, count repetitions using peak-prominence detection, and use a learnable physics simulator to track motion evolution for each exercise. A test video is diagnosed based on deviations from the prototypical learned motion using statistical learning. The system is evaluated on six full and upper body exercises. These real-time recommendations, counseled via low-cost equipment like smartphones, will allow exercisers to rectify potential mistakes making self-practice feasible while reducing the risk of workout injuries.
翻訳日:2023-10-13 00:02:50 公開日:2023-10-11
# COPlanner: 保守的にロールアウトするが、モデルベースのRLを最適に探索する計画

COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL ( http://arxiv.org/abs/2310.07220v1 )

ライセンス: Link先を確認
Xiyao Wang, Ruijie Zheng, Yanchao Sun, Ruonan Jia, Wichayaporn Wongkamjan, Huazhe Xu, Furong Huang(参考訳) ダイナスタイルのモデルベース強化学習には、ポリシー学習のサンプルを生成するモデルロールアウトと、動的モデル学習の現在のポリシーを用いた実環境探索の2つのフェーズが含まれる。 しかし、複雑な実世界の環境のため、モデル予測誤差を伴う不完全な力学モデルを学ぶことは避けられない。 本稿では、保守的なモデルロールアウトと楽観的な環境探索を伴う不正確な学習力学モデル問題に対処するためのモデルベースメソッドの計画駆動フレームワークである$\texttt{COPlanner}$を提案する。 texttt{coplanner}$は、不確実性を認識したモデル予測制御(up-mpc)コンポーネントを利用して、多段階の不確実性推定を計画する。 この推定の不確実性は、モデルロールアウト時のペナルティや、実環境探索時のボーナスとして機能し、アクションを選択する。 その結果、$\texttt{coplanner}$は保守的なモデルロールアウトを通じて不確定な領域のモデルを避けることができ、モデルエラーの影響を緩和する。 同時に、楽観的な実環境探索を通じてモデル誤差を積極的に低減するために、高逆モデル不確実領域を探索する。 $\texttt{COPlanner}$は、任意のdynaスタイルのモデルベースのメソッドに適用可能な、プラグインとプレイのフレームワークである。 実験結果から,強いモデルベース手法のサンプル効率と漸近性の両方が,$\texttt{COPlanner}$と組み合わせて大幅に改善されていることが示された。

Dyna-style model-based reinforcement learning contains two phases: model rollouts to generate sample for policy learning and real environment exploration using current policy for dynamics model learning. However, due to the complex real-world environment, it is inevitable to learn an imperfect dynamics model with model prediction error, which can further mislead policy learning and result in sub-optimal solutions. In this paper, we propose $\texttt{COPlanner}$, a planning-driven framework for model-based methods to address the inaccurately learned dynamics model problem with conservative model rollouts and optimistic environment exploration. $\texttt{COPlanner}$ leverages an uncertainty-aware policy-guided model predictive control (UP-MPC) component to plan for multi-step uncertainty estimation. This estimated uncertainty then serves as a penalty during model rollouts and as a bonus during real environment exploration respectively, to choose actions. Consequently, $\texttt{COPlanner}$ can avoid model uncertain regions through conservative model rollouts, thereby alleviating the influence of model error. Simultaneously, it explores high-reward model uncertain regions to reduce model error actively through optimistic real environment exploration. $\texttt{COPlanner}$ is a plug-and-play framework that can be applied to any dyna-style model-based methods. Experimental results on a series of proprioceptive and visual continuous control tasks demonstrate that both sample efficiency and asymptotic performance of strong model-based methods are significantly improved combined with $\texttt{COPlanner}$.
翻訳日:2023-10-13 00:02:34 公開日:2023-10-11
# 重症度に基づくDysarthriaの分類 体系的レビュー

Classification of Dysarthria based on the Levels of Severity. A Systematic Review ( http://arxiv.org/abs/2310.07264v1 )

ライセンス: Link先を確認
Afnan Al-Ali, Somaya Al-Maadeed, Moutaz Saleh, Rani Chinnappa Naidu, Zachariah C Alex, Prakash Ramachandran, Rajeev Khoodeeram, Rajesh Kumar M(参考訳) dysarthriaは、個人のコミュニケーション能力と生活の全体的な品質に大きな影響を及ぼす神経学的言語障害である。 ジステリアの正確かつ客観的な分類とその重症度の決定は、効果的な治療介入に不可欠である。 言語病理学者(SLP)による伝統的な評価は一般的であるが、主観的で時間を要することが多く、実践者によって異なる場合がある。 進化する機械学習ベースのモデルは、より客観的な変形評価を提供する可能性を示し、診断精度と信頼性を高めている。 この系統的考察は,重症度レベルに基づくジステリア分類の現在の方法論を包括的に分析することを目的としている。 具体的には、患者の自動分類と、この目的のために最適なAI技術を評価するために使用できる、最も効果的なセットとタイプの機能を決定することに焦点を当てる。 我々は,構音障害度の自動分類に関する文献を体系的に検討する。 情報ソースには、電子データベースとグレイ文学が含まれる。 選定基準は,研究課題の関連性に基づいて策定される。 データ抽出には、使用する方法論、分類のために抽出された特徴の種類、採用されるai技術が含まれる。 この系統的レビューの知見は、現在dysarthria分類の理解に寄与し、将来の研究を報告し、改良された診断ツールの開発を支援する。 これらの所見の意義は、患者のケアの進行と、変形性関節症患者の治療成績の改善に重要である。

Dysarthria is a neurological speech disorder that can significantly impact affected individuals' communication abilities and overall quality of life. The accurate and objective classification of dysarthria and the determination of its severity are crucial for effective therapeutic intervention. While traditional assessments by speech-language pathologists (SLPs) are common, they are often subjective, time-consuming, and can vary between practitioners. Emerging machine learning-based models have shown the potential to provide a more objective dysarthria assessment, enhancing diagnostic accuracy and reliability. This systematic review aims to comprehensively analyze current methodologies for classifying dysarthria based on severity levels. Specifically, this review will focus on determining the most effective set and type of features that can be used for automatic patient classification and evaluating the best AI techniques for this purpose. We will systematically review the literature on the automatic classification of dysarthria severity levels. Sources of information will include electronic databases and grey literature. Selection criteria will be established based on relevance to the research questions. Data extraction will include methodologies used, the type of features extracted for classification, and AI techniques employed. The findings of this systematic review will contribute to the current understanding of dysarthria classification, inform future research, and support the development of improved diagnostic tools. The implications of these findings could be significant in advancing patient care and improving therapeutic outcomes for individuals affected by dysarthria.
翻訳日:2023-10-12 23:56:23 公開日:2023-10-11
# CoPAL:大規模言語モデルを用いたロボット行動の修正計画

CoPAL: Corrective Planning of Robot Actions with Large Language Models ( http://arxiv.org/abs/2310.07263v1 )

ライセンス: Link先を確認
Frank Joublin, Antonello Ceravola, Pavel Smirnov, Felix Ocker, Joerg Deigmoeller, Anna Belardinelli, Chao Wang, Stephan Hasler, Daniel Tanneberg, Michael Gienger(参考訳) 人間が伝統的に行うタスクを引き継ぐことができる完全自律型ロボットシステムの追求において、オープンワールド環境の複雑さは大きな課題となっている。 本研究は,ロボットの作業計画や動作計画に適用される大規模言語モデル(llm)の分野に寄与する。 本稿では,複数の認知レベル間のシームレスな相互作用を編成し,推論,計画,運動生成を包含するシステムアーキテクチャを提案する。 その核となる新しい再計画戦略は、生成した計画の物理的根拠、論理的、意味的エラーを扱う。 提案したフィードバックアーキテクチャの有効性,特に実行可能性,正確性,時間的複雑さに対する影響について,シミュレーションと2つの複雑な現実シナリオ(ブロックワールド,バーマン,ピザ)で実証評価を行った。

In the pursuit of fully autonomous robotic systems capable of taking over tasks traditionally performed by humans, the complexity of open-world environments poses a considerable challenge. Addressing this imperative, this study contributes to the field of Large Language Models (LLMs) applied to task and motion planning for robots. We propose a system architecture that orchestrates a seamless interplay between multiple cognitive levels, encompassing reasoning, planning, and motion generation. At its core lies a novel replanning strategy that handles physically grounded, logical, and semantic errors in the generated plans. We demonstrate the efficacy of the proposed feedback architecture, particularly its impact on executability, correctness, and time complexity via empirical evaluation in the context of a simulation and two intricate real-world scenarios: blocks world, barman and pizza preparation.
翻訳日:2023-10-12 23:55:59 公開日:2023-10-11
# 隠れたつながりを明らかにする:ビデオグラウンドダイアログの反復的追跡と推論

Uncovering Hidden Connections: Iterative Tracking and Reasoning for Video-grounded Dialog ( http://arxiv.org/abs/2310.07259v1 )

ライセンス: Link先を確認
Haoyu Zhang, Meng Liu, Yaowei Wang, Da Cao, Weili Guan, Liqiang Nie(参考訳) 従来の視覚的質問応答とは対照的に、ビデオ接地ダイアログは、正確な応答生成のためにダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。 既存の手法による見事な進歩にもかかわらず、彼らは複雑なダイアログの履歴を段階的に理解し、ビデオ情報を同化するという課題にしばしば取り組んだ。 このギャップに対応するために,テキストエンコーダとビジュアルエンコーダ,ジェネレータを融合した反復追跡と推論戦略を提案する。 テキストエンコーダの中核は経路追跡と集約機構で強化され,提案した質問の解読に重要な対話履歴からニュアンスを抽出する。 同時に,映像から重要な視覚的マーカーを抽出・強調するために細心の注意を払って作られた反復的推論ネットワークを利用し,視覚理解の深さを高める。 この豊富な情報をもとに,事前学習したgpt-2モデルを応答生成器として活用し,コヒーレントと文脈的aptの回答を合成した。 2つの有名なデータセットに基づいて実施した経験的評価は、提案する設計の長所と適応性を検証する。

In contrast to conventional visual question answering, video-grounded dialog necessitates a profound understanding of both dialog history and video content for accurate response generation. Despite commendable strides made by existing methodologies, they often grapple with the challenges of incrementally understanding intricate dialog histories and assimilating video information. In response to this gap, we present an iterative tracking and reasoning strategy that amalgamates a textual encoder, a visual encoder, and a generator. At its core, our textual encoder is fortified with a path tracking and aggregation mechanism, adept at gleaning nuances from dialog history that are pivotal to deciphering the posed questions. Concurrently, our visual encoder harnesses an iterative reasoning network, meticulously crafted to distill and emphasize critical visual markers from videos, enhancing the depth of visual comprehension. Culminating this enriched information, we employ the pre-trained GPT-2 model as our response generator, stitching together coherent and contextually apt answers. Our empirical assessments, conducted on two renowned datasets, testify to the prowess and adaptability of our proposed design.
翻訳日:2023-10-12 23:55:43 公開日:2023-10-11
# 画像キャプション生成のための事前学習CNNとGRUに基づく注意の比較検討

A Comparative Study of Pre-trained CNNs and GRU-Based Attention for Image Caption Generation ( http://arxiv.org/abs/2310.07252v1 )

ライセンス: Link先を確認
Rashid Khan, Bingding Huang, Haseeb Hassan, Asim Zaman, Zhongfu Ye(参考訳) 画像キャプションは、コンピュータビジョンと自然言語処理技術を用いて画像のテキスト記述を生成することを伴う課題である。 本稿では,GRUに基づくアテンション機構を用いた画像キャプション生成のためのディープニューラルネットワークフレームワークを提案する。 提案手法では,複数の事前学習された畳み込みニューラルネットワークを用いて,画像から特徴を抽出し,記述文を生成するデコーダとしてGRUベースの言語モデルを用いる。 パフォーマンスを向上させるため、我々はbahdanau attention modelをgruデコーダに統合し、学習者が特定の画像部分に集中できるようにした。 MSCOCO と Flickr30k のデータセットを用いて本手法の評価を行い,最先端の手法と比較して,競争的な結果が得られることを示す。 提案するフレームワークは,コンピュータビジョンと自然言語のギャップを埋め,特定の領域に拡張することができる。

Image captioning is a challenging task involving generating a textual description for an image using computer vision and natural language processing techniques. This paper proposes a deep neural framework for image caption generation using a GRU-based attention mechanism. Our approach employs multiple pre-trained convolutional neural networks as the encoder to extract features from the image and a GRU-based language model as the decoder to generate descriptive sentences. To improve performance, we integrate the Bahdanau attention model with the GRU decoder to enable learning to focus on specific image parts. We evaluate our approach using the MSCOCO and Flickr30k datasets and show that it achieves competitive scores compared to state-of-the-art methods. Our proposed framework can bridge the gap between computer vision and natural language and can be extended to specific domains.
翻訳日:2023-10-12 23:55:23 公開日:2023-10-11
# 道徳的アライメントに関する倫理的推論: LLMにおける文脈倫理政策の事例と枠組み

Ethical Reasoning over Moral Alignment: A Case and Framework for In-Context Ethical Policies in LLMs ( http://arxiv.org/abs/2310.07251v1 )

ライセンス: Link先を確認
Abhinav Rao, Aditi Khandelwal, Kumar Tanmay, Utkarsh Agarwal, Monojit Choudhury(参考訳) 本稿では, LLMを倫理的原則の特定の集合に道徳的に整合させる代わりに, 世界規模で価値多元論を扱えるように, 総合的倫理的推論能力を取り入れるべきである,と論じる。 倫理的政策が提供される場合、LLMは、倫理的にポリシーと整合性のある決定を下すことができるべきである。 我々は、モラルジレンマと規範的倫理の異なる前文主義、および異なる抽象レベルでの道徳原理を統合する枠組みを開発した。 GPT-xモデルによる最初の実験では、GPT-4はほぼ完璧な倫理的理性であるが、西欧と英語の社会の道徳的価値に対する偏見がある。

In this position paper, we argue that instead of morally aligning LLMs to specific set of ethical principles, we should infuse generic ethical reasoning capabilities into them so that they can handle value pluralism at a global scale. When provided with an ethical policy, an LLM should be capable of making decisions that are ethically consistent to the policy. We develop a framework that integrates moral dilemmas with moral principles pertaining to different foramlisms of normative ethics, and at different levels of abstractions. Initial experiments with GPT-x models shows that while GPT-4 is a nearly perfect ethical reasoner, the models still have bias towards the moral values of Western and English speaking societies.
翻訳日:2023-10-12 23:55:07 公開日:2023-10-11
# BraTSデータセットにおけるジェネレーティブ・ディバイザ・ネットワークを用いたモードからの欠落MRI系列の合成

Synthesizing Missing MRI Sequences from Available Modalities using Generative Adversarial Networks in BraTS Dataset ( http://arxiv.org/abs/2310.07250v1 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci(参考訳) グリオ芽腫は、非常に攻撃的で致命的な脳腫瘍である。 mriは,非侵襲的かつ放射線のない性質のため,グリオブラスト腫の診断,治療計画,経過観察において重要な役割を担っている。 国際脳腫瘍セグメンテーション(BraTS)チャレンジは、4つの構造(T1, T1Gd, T2, T2-FLAIR)MRIスキャンを用いてグリオ芽腫のサブコンパートメントを正確かつ効率的に分割するための多数のAIアルゴリズムの生成に貢献した。 しかし、これらの4つのMRIシーケンスは必ずしも利用できない。 この問題を解決するために、GAN(Generative Adversarial Networks)を使用して、欠落したMRIシーケンスを合成する。 本稿では、3つのMRIシーケンスを入力として取り出して、欠落した4番目の構造シーケンスを生成する、オープンソースのGANアプローチの実装と利用を行う。 提案手法は, コミュニティ主導の汎用ディープラーニングフレームワークGaNDLF(General nuanced Deep Learning framework)に寄与し, 高品質で現実的なMRIシークエンスを合成し, 臨床医が診断能力を向上し, 脳腫瘍MRI定量化へのAI手法の適用を支援できることを示す。

Glioblastoma is a highly aggressive and lethal form of brain cancer. Magnetic resonance imaging (MRI) plays a significant role in the diagnosis, treatment planning, and follow-up of glioblastoma patients due to its non-invasive and radiation-free nature. The International Brain Tumor Segmentation (BraTS) challenge has contributed to generating numerous AI algorithms to accurately and efficiently segment glioblastoma sub-compartments using four structural (T1, T1Gd, T2, T2-FLAIR) MRI scans. However, these four MRI sequences may not always be available. To address this issue, Generative Adversarial Networks (GANs) can be used to synthesize the missing MRI sequences. In this paper, we implement and utilize an open-source GAN approach that takes any three MRI sequences as input to generate the missing fourth structural sequence. Our proposed approach is contributed to the community-driven generally nuanced deep learning framework (GaNDLF) and demonstrates promising results in synthesizing high-quality and realistic MRI sequences, enabling clinicians to improve their diagnostic capabilities and support the application of AI methods to brain tumor MRI quantification.
翻訳日:2023-10-12 23:54:51 公開日:2023-10-11
# IBoxCLA: 改良されたボックスダイスとコントラスト遅延アンカーによるポリープのロバストボックス制御セグメンテーションを目指して

IBoxCLA: Towards Robust Box-supervised Segmentation of Polyp via Improved Box-dice and Contrastive Latent-anchors ( http://arxiv.org/abs/2310.07248v1 )

ライセンス: Link先を確認
Zhiwei Wang, Qiang Hu, Hongkuan Shi, Li He, Man He, Wenxuan Dai, Ting Li, Yitong Zhang, Dun Li, Mei Liu, and Qiang Li(参考訳) 箱型ポリープセグメンテーションは、そのコスト効果の可能性に注目が集まる。 既存のソリューションは、しばしば学習のない方法や事前訓練されたモデルに頼り、疑似マスクを生成する。 本稿では,最も単純な箱詰めマスクで誘導されたモデルが,ポリプの位置やサイズを正確に予測できるが,形状の崩壊に苦しむことを発見した。 そこで我々は,IBox-dice (IBox) とContrastive Latent-Anchors (CLA) の2つの革新的な学習手法を提案し,それらを組み合わせて頑健な箱教師モデルIBoxCLAを訓練する。 IBoxCLAの背景にある基本的な考え方は、位置/サイズと形状の学習を分離し、それぞれに制約を集中させることである。 具体的には、IBoxは分割マップをシェイプデカップリングと混乱領域スワップを用いてプロキシマップに変換する。 プロキシマップ内では、形状が乱れ、位置/サイズがボックスライクな応答としてエンコードされる。 生の予測ではなくプロキシマップを制約することで、ボックス満載のマスクは形状学習を誤解することなく、iboxclaを適切に監視することができる。 さらに、CLAは2種類の潜伏アンカーを生成し、モーメントとセグメンテーションポリープを用いて学習・更新し、ポリプとバックグラウンドの特徴を着実に表現することで形状学習に寄与する。 潜伏アンカーは、IBoxCLAが箱内および外部の識別的特徴を対照的に捉え、より明確な境界をもたらす。 IBoxCLAを5つの公開ポリプデータセットでベンチマークする。 実験の結果,IBoxCLAの競合性能は,最近の完全教師付きポリープセグメンテーション法と比較して,mDiceとmIoUをそれぞれ6.5%以上,mIoUを7.5%以上増加させた他のボックス管理状態よりも優れていた。

Box-supervised polyp segmentation attracts increasing attention for its cost-effective potential. Existing solutions often rely on learning-free methods or pretrained models to laboriously generate pseudo masks, triggering Dice constraint subsequently. In this paper, we found that a model guided by the simplest box-filled masks can accurately predict polyp locations/sizes, but suffers from shape collapsing. In response, we propose two innovative learning fashions, Improved Box-dice (IBox) and Contrastive Latent-Anchors (CLA), and combine them to train a robust box-supervised model IBoxCLA. The core idea behind IBoxCLA is to decouple the learning of location/size and shape, allowing for focused constraints on each of them. Specifically, IBox transforms the segmentation map into a proxy map using shape decoupling and confusion-region swapping sequentially. Within the proxy map, shapes are disentangled, while locations/sizes are encoded as box-like responses. By constraining the proxy map instead of the raw prediction, the box-filled mask can well supervise IBoxCLA without misleading its shape learning. Furthermore, CLA contributes to shape learning by generating two types of latent anchors, which are learned and updated using momentum and segmented polyps to steadily represent polyp and background features. The latent anchors facilitate IBoxCLA to capture discriminative features within and outside boxes in a contrastive manner, yielding clearer boundaries. We benchmark IBoxCLA on five public polyp datasets. The experimental results demonstrate the competitive performance of IBoxCLA compared to recent fully-supervised polyp segmentation methods, and its superiority over other box-supervised state-of-the-arts with a relative increase of overall mDice and mIoU by at least 6.5% and 7.5%, respectively.
翻訳日:2023-10-12 23:54:24 公開日:2023-10-11
# Pix2Pix GANによる画像デノイングによる湿潤気候の群集計測

Crowd Counting in Harsh Weather using Image Denoising with Pix2Pix GANs ( http://arxiv.org/abs/2310.07245v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Hamid Menouar and Ridha Hamila(参考訳) 視覚群数は畳み込みニューラルネットワーク(cnns)などのディープラーニングモデルを用いて、群衆の密度を推定する。 モデルの性能は,群衆画像を構成するトレーニングデータの品質に大きく依存する。 霧、ほこり、低照度などの厳しい気象条件下では、ノイズやぼやけた画像で推論性能が著しく低下する可能性がある。 本稿では,まず Pix2Pix 生成逆数ネットワーク (GAN) を用いて,これをカウントモデルに渡す前に,群衆像を識別する手法を提案する。 Pix2Pixネットワークは、オリジナルの群衆画像から生成された合成ノイズ画像を用いて訓練され、事前学習された生成物が推論エンジンで使われ、見えない、ノイズの多い群衆画像の群衆密度を推定する。 jhu-crowdデータセット上で性能をテストし、特に高い信頼性と精度を必要とする場合に提案手法の意義を検証する。

Visual crowd counting estimates the density of the crowd using deep learning models such as convolution neural networks (CNNs). The performance of the model heavily relies on the quality of the training data that constitutes crowd images. In harsh weather such as fog, dust, and low light conditions, the inference performance may severely degrade on the noisy and blur images. In this paper, we propose the use of Pix2Pix generative adversarial network (GAN) to first denoise the crowd images prior to passing them to the counting model. A Pix2Pix network is trained using synthetic noisy images generated from original crowd images and then the pretrained generator is then used in the inference engine to estimate the crowd density in unseen, noisy crowd images. The performance is tested on JHU-Crowd dataset to validate the significance of the proposed method particularly when high reliability and accuracy are required.
翻訳日:2023-10-12 23:53:44 公開日:2023-10-11
# 構造的健康モニタリング応用における確率的き裂成長過程のサロゲートモデリング

Surrogate modeling for stochastic crack growth processes in structural health monitoring applications ( http://arxiv.org/abs/2310.07241v1 )

ライセンス: Link先を確認
Nicholas E. Silionis, Konstantinos N. Anyfantis(参考訳) 疲労き裂の成長は、金属構造物の劣化の最も一般的なタイプの一つであり、信頼性に大きな影響を及ぼす。 構造的健康モニタリング(SHM)の最近の進歩は、構造的応答データを用いて、不確実性の下での将来の亀裂成長を予測し、予測保守への移行を可能にする。 確率的き裂成長(SCG)過程における異なる不確実性源の正確な表現は、非自明な作業である。 本研究は, 物質および負荷関係の不確実性を考慮した物理に基づくSCGモデリングに関する過去の研究に基づいている。 ここでの目的は、これらの異なる不確実性の源をうまくエンコードするSCGプロセスの計算効率よく確率的サロゲートモデルを構築することである。 遅延変数モデリングにインスパイアされたアプローチは、ガウス過程(GP)回帰モデルを用いて、異なるベイズSHMタスクに対する先行分布を生成するためにサロゲートを使うことができる。 2つの基本的な亀裂SHM問題,すなわち亀裂長モニタリング(損傷定量化)と亀裂成長モニタリング(損傷予後)について,数値的な設定で実装を行い,モデル性能を評価する。

Fatigue crack growth is one of the most common types of deterioration in metal structures with significant implications on their reliability. Recent advances in Structural Health Monitoring (SHM) have motivated the use of structural response data to predict future crack growth under uncertainty, in order to enable a transition towards predictive maintenance. Accurately representing different sources of uncertainty in stochastic crack growth (SCG) processes is a non-trivial task. The present work builds on previous research on physics-based SCG modeling under both material and load-related uncertainty. The aim here is to construct computationally efficient, probabilistic surrogate models for SCG processes that successfully encode these different sources of uncertainty. An approach inspired by latent variable modeling is employed that utilizes Gaussian Process (GP) regression models to enable the surrogates to be used to generate prior distributions for different Bayesian SHM tasks as the application of interest. Implementation is carried out in a numerical setting and model performance is assessed for two fundamental crack SHM problems; namely crack length monitoring (damage quantification) and crack growth monitoring (damage prognosis).
翻訳日:2023-10-12 23:53:29 公開日:2023-10-11
# RobustGEC:部分文脈摂動に対するロバスト文法的誤り補正

RobustGEC: Robust Grammatical Error Correction Against Subtle Context Perturbation ( http://arxiv.org/abs/2310.07299v1 )

ライセンス: Link先を確認
Yue Zhang, Leyang Cui, Enbo Zhao, Wei Bi, Shuming Shi(参考訳) 文法的誤り訂正(GEC)システムは、日々の執筆作業を支援する上で重要な役割を果たす。 しかしながら、入力がわずかに修正された時にエラーを修正できないが、当初はよく機能するGECシステムに遭遇することがある。 理想的なユーザエクスペリエンスを確保するため,信頼性の高いGECシステムでは,無関係なコンテキスト摂動に遭遇した場合に,一貫した,正確な提案が可能である必要がある。 本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。 RobustGECは5000のGECケースから構成されており、それぞれに1つの誤り訂正文対と、人間のアノテーションによって慎重に考案された5つの変種がある。 RobustGECを用いて、現状のGECシステムは、文脈摂動に対して十分な堅牢性を持っていないことを明らかにした。 さらに,この問題を発生させるための簡易かつ効果的な手法を提案する。

Grammatical Error Correction (GEC) systems play a vital role in assisting people with their daily writing tasks. However, users may sometimes come across a GEC system that initially performs well but fails to correct errors when the inputs are slightly modified. To ensure an ideal user experience, a reliable GEC system should have the ability to provide consistent and accurate suggestions when encountering irrelevant context perturbations, which we refer to as context robustness. In this paper, we introduce RobustGEC, a benchmark designed to evaluate the context robustness of GEC systems. RobustGEC comprises 5,000 GEC cases, each with one original error-correct sentence pair and five variants carefully devised by human annotators. Utilizing RobustGEC, we reveal that state-of-the-art GEC systems still lack sufficient robustness against context perturbations. In addition, we propose a simple yet effective method for remitting this issue.
翻訳日:2023-10-12 23:45:05 公開日:2023-10-11
# beyond memorization: 大きな言語モデルによる推論によるプライバシの侵害

Beyond Memorization: Violating Privacy Via Inference with Large Language Models ( http://arxiv.org/abs/2310.07298v1 )

ライセンス: Link先を確認
Robin Staab, Mark Vero, Mislav Balunovi\'c, Martin Vechev(参考訳) 大規模言語モデル(LLM)に関する現在のプライバシー研究は、主に記憶されたトレーニングデータを抽出する問題に焦点を当てている。 同時に、モデルの推論能力も大幅に向上した。 このことは、現在のLLMが推論時に与えられたテキストから個人属性を推測することで個人のプライバシーを侵害するかどうかという重要な疑問を提起する。 本研究は,テキストから個人属性を推測する事前学習 LLM の能力に関する,最初の総合的研究である。 私たちは、実際のredditプロファイルからなるデータセットを構築し、現在のllmが、人間の要求するコスト(100\times$)と時間(240\times$)のごく一部で、最大85\%$ top-1と95.8\%$ top-3の正確さで、幅広い個人属性(例えば、位置情報、収入、セックス)を推測できることを示します。 人々が生活のあらゆる面でllmを利用したチャットボットと対話するにつれて、プライバシーを侵害するチャットボットが、一見良質な質問を通じて個人情報を抽出しようとする、新たな脅威も探っている。 最後に、テキスト匿名化やモデルアライメントといった一般的な軽減策が、LLM推論に対するユーザのプライバシ保護に効果がないことを示す。 以上の結果から,現在のLCMでは,従来は達成不可能なスケールで個人データを推測できることがわかった。 ワーキングディフェンスが欠如しているため,我々は,LLMのプライバシー保護に関するより広範な議論を提唱する。

Current privacy research on large language models (LLMs) primarily focuses on the issue of extracting memorized training data. At the same time, models' inference capabilities have increased drastically. This raises the key question of whether current LLMs could violate individuals' privacy by inferring personal attributes from text given at inference time. In this work, we present the first comprehensive study on the capabilities of pretrained LLMs to infer personal attributes from text. We construct a dataset consisting of real Reddit profiles, and show that current LLMs can infer a wide range of personal attributes (e.g., location, income, sex), achieving up to $85\%$ top-1 and $95.8\%$ top-3 accuracy at a fraction of the cost ($100\times$) and time ($240\times$) required by humans. As people increasingly interact with LLM-powered chatbots across all aspects of life, we also explore the emerging threat of privacy-invasive chatbots trying to extract personal information through seemingly benign questions. Finally, we show that common mitigations, i.e., text anonymization and model alignment, are currently ineffective at protecting user privacy against LLM inference. Our findings highlight that current LLMs can infer personal data at a previously unattainable scale. In the absence of working defenses, we advocate for a broader discussion around LLM privacy implications beyond memorization, striving for a wider privacy protection.
翻訳日:2023-10-12 23:44:48 公開日:2023-10-11
# 拡散挙動によるスコア正規化政策最適化

Score Regularized Policy Optimization through Diffusion Behavior ( http://arxiv.org/abs/2310.07297v1 )

ライセンス: Link先を確認
Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, Jun Zhu(参考訳) オフライン強化学習の最近の進展は、異種行動ポリシーの表現に優れた拡散モデリングの膨大な可能性を見出している。 しかし、拡散政策からのサンプリングは、1つのアクションに対して数十から数百の反復推論ステップを必要とするため、かなり遅い。 この問題に対処するために,批判モデルと事前訓練された拡散行動モデルから効率的な決定論的推論ポリシーを抽出し,後者を活用して,最適化中の行動分布のスコア関数と直接正規化する手法を提案する。 本手法は, 学習と評価の両方において, 計算集約型および時間消費型拡散サンプリングスキームを完全に回避しながら, 拡散モデリングの強力な生成能力を享受する。 d4rlタスクの広範な結果から,ロコモーションタスクにおける各種拡散ベース手法と比較して,動作サンプリング速度は25倍以上向上することが分かった。

Recent developments in offline reinforcement learning have uncovered the immense potential of diffusion modeling, which excels at representing heterogeneous behavior policies. However, sampling from diffusion policies is considerably slow because it necessitates tens to hundreds of iterative inference steps for one action. To address this issue, we propose to extract an efficient deterministic inference policy from critic models and pretrained diffusion behavior models, leveraging the latter to directly regularize the policy gradient with the behavior distribution's score function during optimization. Our method enjoys powerful generative capabilities of diffusion modeling while completely circumventing the computationally intensive and time-consuming diffusion sampling scheme, both during training and evaluation. Extensive results on D4RL tasks show that our method boosts action sampling speed by more than 25 times compared with various leading diffusion-based methods in locomotion tasks, while still maintaining state-of-the-art performance.
翻訳日:2023-10-12 23:44:18 公開日:2023-10-11
# ファクチュアリティを超えて:知識ジェネレータとしての大規模言語モデルの包括的評価

Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators ( http://arxiv.org/abs/2310.07289v1 )

ライセンス: Link先を確認
Liang Chen, Yang Deng, Yatao Bian, Zeyu Qin, Bingzhe Wu, Tat-Seng Chua, Kam-Fai Wong(参考訳) 大規模言語モデル (LLM) は、世界的知識を生み出すよう促されるとき、下流の知識集約的なタスクのための情報検索技術より優れている。 しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。 これを踏まえて,6つの重要な視点 - 事実性,妥当性,一貫性,情報性,有用性,妥当性 - から生成した知識を体系的かつ自動的に評価する,包括的知識評価フレームワークであるconnerを紹介する。 我々は,3種類のLLMから生成された知識を,広く研究されている2つの知識集約的課題,すなわち,オープンドメイン質問応答と知識接地対話に基づいて広範囲に分析する。 驚くべきことに、我々の研究は、たとえ低い場合でも、生成された知識の事実が下流のタスクを著しく妨げないことを示した。 むしろ、アウトプットの関連性と一貫性は、小さな事実的誤りよりも重要である。 さらに,ConNERを用いて知識集約型タスクを改善する方法として,プロンプトエンジニアリングとナレッジセレクションの2つの戦略を設計する。 今後の研究を促進するため,人間のアノテーションを用いた評価コードとLLM生成知識を公開します。

Large language models (LLMs) outperform information retrieval techniques for downstream knowledge-intensive tasks when being prompted to generate world knowledge. However, community concerns abound regarding the factuality and potential implications of using this uncensored knowledge. In light of this, we introduce CONNER, a COmpreheNsive kNowledge Evaluation fRamework, designed to systematically and automatically evaluate generated knowledge from six important perspectives -- Factuality, Relevance, Coherence, Informativeness, Helpfulness and Validity. We conduct an extensive empirical analysis of the generated knowledge from three different types of LLMs on two widely studied knowledge-intensive tasks, i.e., open-domain question answering and knowledge-grounded dialogue. Surprisingly, our study reveals that the factuality of generated knowledge, even if lower, does not significantly hinder downstream tasks. Instead, the relevance and coherence of the outputs are more important than small factual mistakes. Further, we show how to use CONNER to improve knowledge-intensive tasks by designing two strategies: Prompt Engineering and Knowledge Selection. Our evaluation code and LLM-generated knowledge with human annotations will be released to facilitate future research.
翻訳日:2023-10-12 23:44:00 公開日:2023-10-11
# コークテールパーティーで聴くタイピング:テキスト誘導型ターゲット話者抽出

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction ( http://arxiv.org/abs/2310.07284v1 )

ライセンス: Link先を確認
Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan(参考訳) 人間は複雑な音響環境の中で、特にカクテルパーティーのシナリオと呼ばれる音の源に選択的に焦点を合わせる能力を持っている。 この顕著な聴覚的注意力を機械に再現する試みとして、ターゲット話者抽出(TSE)モデルが開発された。 これらのモデルは、対象話者の予め登録された手がかりを利用して、興味のある音源を抽出する。 しかし、これらのモデルの有効性は、事前登録された手がかりの潜在的な変動や欠如によって現実のシナリオでは妨げられる。 この制限に対処するため,本研究では既存のtseモデルの柔軟性と制御性を高めるために自然言語の統合を検討する。 具体的には,LLM-TSEというモデルを提案し,ユーザが入力したテキストから有用な意味的手がかりを抽出する言語モデル(LLM)を提案する。 本実験では,テキストベースの手がかりのみを提示した場合の競合性能を示し,事前登録された音響手がかりと組み合わせた新たな最先端の技量設定を行う。 我々の知る限りでは、ターゲット話者抽出を誘導するためにテキストベースの手がかりをうまく取り入れた最初の作品であり、これはカクテルパーティー問題研究の基盤となる。

Humans possess an extraordinary ability to selectively focus on the sound source of interest amidst complex acoustic environments, commonly referred to as cocktail party scenarios. In an attempt to replicate this remarkable auditory attention capability in machines, target speaker extraction (TSE) models have been developed. These models leverage the pre-registered cues of the target speaker to extract the sound source of interest. However, the effectiveness of these models is hindered in real-world scenarios due to the potential variation or even absence of pre-registered cues. To address this limitation, this study investigates the integration of natural language to enhance the flexibility and controllability of existing TSE models. Specifically, we propose a model named LLM-TSE, wherein a large language model (LLM) to extract useful semantic cues from the user's typed text input, which can complement the pre-registered cues or work independently to control the TSE process. Our experimental results demonstrate competitive performance when only text-based cues are presented, and a new state-of-the-art is set when combined with pre-registered acoustic cues. To the best of our knowledge, this is the first work that has successfully incorporated text-based cues to guide target speaker extraction, which can be a cornerstone for cocktail party problem research.
翻訳日:2023-10-12 23:43:37 公開日:2023-10-11
# 医療における大規模言語モデルの分析 : BioBERT を事例として

An Analysis on Large Language Models in Healthcare: A Case Study of BioBERT ( http://arxiv.org/abs/2310.07282v1 )

ライセンス: Link先を確認
Shyni Sharaf and V. S. Anoop(参考訳) 本稿では,大規模言語モデル,特にBioBERTを医療に応用するための包括的調査を行う。 まずは、医療における従来の自然言語処理(NLP)アプローチを徹底的に検討し、これらの手法が直面する限界と課題に光を当てることから始まります。 その後、この研究はBioBERTの医療応用への導入に繋がる道を探り、バイオメディカルテキストマイニングに関連するタスクの具体的な要件に対処するための適合性を強調した。 分析は、医療ドメインのユニークなニーズを満たすために、バイオバートを微調整するための体系的な方法論を概説する。 このアプローチには、幅広い医療ソースからのデータの収集、医療エンティティの識別や分類といったタスクのためのデータアノテーション、バイオメディカルテキストで見られる複雑さを扱うための特別な前処理技術の適用など、さまざまなコンポーネントが含まれている。 さらに,本論文では, 生体医学, 質問応答, 臨床文書分類, 医学的実体認識における自然言語処理などの, 医療ベンチマークや機能を中心に, モデル評価に関する側面を取り上げている。 モデルの解釈性を改善するテクニックを探求し、既存の医療中心の言語モデルと比較して、そのパフォーマンスを検証する。 論文は、特に患者プライバシとデータセキュリティに関する倫理的考察を徹底的に検討している。 医療のコンテキストにbiobertを組み込むことのメリットを強調しており、臨床判断サポートの強化やより効率的な情報検索などが行われている。 それでも同社は,データのプライバシや透明性,リソース集約的な要件,さまざまな医療ドメインに対応するためのモデルカスタマイズの必要性など,この統合の障害と複雑さを認めている。

This paper conducts a comprehensive investigation into applying large language models, particularly on BioBERT, in healthcare. It begins with thoroughly examining previous natural language processing (NLP) approaches in healthcare, shedding light on the limitations and challenges these methods face. Following that, this research explores the path that led to the incorporation of BioBERT into healthcare applications, highlighting its suitability for addressing the specific requirements of tasks related to biomedical text mining. The analysis outlines a systematic methodology for fine-tuning BioBERT to meet the unique needs of the healthcare domain. This approach includes various components, including the gathering of data from a wide range of healthcare sources, data annotation for tasks like identifying medical entities and categorizing them, and the application of specialized preprocessing techniques tailored to handle the complexities found in biomedical texts. Additionally, the paper covers aspects related to model evaluation, with a focus on healthcare benchmarks and functions like processing of natural language in biomedical, question-answering, clinical document classification, and medical entity recognition. It explores techniques to improve the model's interpretability and validates its performance compared to existing healthcare-focused language models. The paper thoroughly examines ethical considerations, particularly patient privacy and data security. It highlights the benefits of incorporating BioBERT into healthcare contexts, including enhanced clinical decision support and more efficient information retrieval. Nevertheless, it acknowledges the impediments and complexities of this integration, encompassing concerns regarding data privacy, transparency, resource-intensive requirements, and the necessity for model customization to align with diverse healthcare domains.
翻訳日:2023-10-12 23:43:11 公開日:2023-10-11
# BioT5: 生物と化学知識と自然言語の相互統合を充実させる

BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations ( http://arxiv.org/abs/2310.07276v1 )

ライセンス: Link先を確認
Qizhi Pei, Wei Zhang, Jinhua Zhu, Kehan Wu, Kaiyuan Gao, Lijun Wu, Yingce Xia, Rui Yan(参考訳) 生物学的研究の最近の進歩は、分子、タンパク質、自然言語の統合を利用して薬物発見を促進する。 しかし、現在のモデルでは、不正な分子スマイルの生成、文脈情報の過小利用、構造化および非構造化知識の平等な扱いなど、いくつかの制限が示されている。 これらの問題に対処するために,我々は生物学におけるクロスモーダル統合と化学知識と自然言語関連を充実させる包括的事前学習フレームワークである$\mathbf{biot5}$を提案する。 $\mathbf{BioT5}$は、SELFIESを100%のロバストな分子表現に利用し、非構造生物文学におけるバイオエンティティの周囲の文脈から知識を抽出する。 さらに、$\mathbf{BioT5}$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。 微調整後、BioT5は幅広いタスクにおいて優れたパフォーマンスを示し、バイオエンティティの基盤となる関係と特性を捉える強力な能力を示している。 私たちのコードは$\href{https://github.com/QizhiPei/BioT5}{Github}$で利用可能です。

Recent advancements in biological research leverage the integration of molecules, proteins, and natural language to enhance drug discovery. However, current models exhibit several limitations, such as the generation of invalid molecular SMILES, underutilization of contextual information, and equal treatment of structured and unstructured knowledge. To address these issues, we propose $\mathbf{BioT5}$, a comprehensive pre-training framework that enriches cross-modal integration in biology with chemical knowledge and natural language associations. $\mathbf{BioT5}$ utilizes SELFIES for $100%$ robust molecular representations and extracts knowledge from the surrounding context of bio-entities in unstructured biological literature. Furthermore, $\mathbf{BioT5}$ distinguishes between structured and unstructured knowledge, leading to more effective utilization of information. After fine-tuning, BioT5 shows superior performance across a wide range of tasks, demonstrating its strong capability of capturing underlying relations and properties of bio-entities. Our code is available at $\href{https://github.com/QizhiPei/BioT5}{Github}$.
翻訳日:2023-10-12 23:42:43 公開日:2023-10-11
# シャープネスを意識した最小化はなぜSGDより一般化するのか?

Why Does Sharpness-Aware Minimization Generalize Better Than SGD? ( http://arxiv.org/abs/2310.07269v1 )

ライセンス: Link先を確認
Zixiang Chen and Junkai Zhang and Yiwen Kou and Xiangning Chen and Cho-Jui Hsieh and Quanquan Gu(参考訳) モデルがトレーニングデータを記憶し、テストデータの一般化に失敗するオーバーフィッティングの課題は、大規模ニューラルネットワークのトレーニングにおいてますます重要になっている。 この課題に対処するために、Sharpness-Aware Minimization (SAM) は有望なトレーニング手法として登場し、ラベルノイズがあってもニューラルネットワークの一般化を改善することができる。 しかし、SAMがどのように機能するか、特に非線形ニューラルネットワークや分類タスクの設定において深く理解されていない。 本稿では,あるデータモデルと2層畳み込みReLUネットワークにおいて,SAMがSGD(Stochastic Gradient Descent)よりも優れていることを示すことによって,このギャップを埋める。 本研究の損失状況は非平滑であり,ヘッセン情報に基づくSAMの成功の現在の説明は不十分である。 その結果,SAMの利点,特に早期の雑音学習を防止し,特徴のより効果的な学習を容易にする能力について解説した。 合成データと実データの両方の実験は、我々の理論を裏付ける。

The challenge of overfitting, in which the model memorizes the training data and fails to generalize to test data, has become increasingly significant in the training of large neural networks. To tackle this challenge, Sharpness-Aware Minimization (SAM) has emerged as a promising training method, which can improve the generalization of neural networks even in the presence of label noise. However, a deep understanding of how SAM works, especially in the setting of nonlinear neural networks and classification tasks, remains largely missing. This paper fills this gap by demonstrating why SAM generalizes better than Stochastic Gradient Descent (SGD) for a certain data model and two-layer convolutional ReLU networks. The loss landscape of our studied problem is nonsmooth, thus current explanations for the success of SAM based on the Hessian information are insufficient. Our result explains the benefits of SAM, particularly its ability to prevent noise learning in the early stages, thereby facilitating more effective learning of features. Experiments on both synthetic and real data corroborate our theory.
翻訳日:2023-10-12 23:42:23 公開日:2023-10-11
# RaftFed:Vehicular Crowd Intelligenceのための軽量なフェデレーション学習フレームワーク

RaftFed: A Lightweight Federated Learning Framework for Vehicular Crowd Intelligence ( http://arxiv.org/abs/2310.07268v1 )

ライセンス: Link先を確認
Changan Yang, Yaxing Chen, Yao Zhang, Helei Cui, Zhiwen Yu, Bin Guo, Zheng Yan, Zijiang Yang(参考訳) VCI(Vehicular crowd Intelligence)は、新しい研究分野である。 最先端の車載アドホックネットワークと人工知能によって実現され、様々なVCIアプリケーション、例えば協調センシング、位置決め、マッピングが行われる。 VCIアプリケーションのコラボレーティブな性質は、一般的に参加者間でデータを共有する必要があるため、ネットワーク全体のインテリジェンスを形成する。 データプライバシを損なうことなくこのプロセスを実現するには,いまだに難しい課題です。 連合学習(FL)はこの問題を解決するための有望なツールであるが、従来のFLフレームワークをVCIに適用することは簡単ではない。 第一に、集中モデルアグリゲーションは、望ましくないチャネル条件を持つストラグラーが存在するため、VCIでは信頼できない。 第2に、既存のFLスキームは非IIDデータに対して脆弱であり、VCIのデータ不均一性によって強化される。 本稿では,プライバシー保護のための新しい学習フレームワークRaftFedを提案する。 実験の結果,RaftFedは通信オーバーヘッド,モデル精度,モデル収束に関するベースラインよりも優れていた。

Vehicular crowd intelligence (VCI) is an emerging research field. Facilitated by state-of-the-art vehicular ad-hoc networks and artificial intelligence, various VCI applications come to place, e.g., collaborative sensing, positioning, and mapping. The collaborative property of VCI applications generally requires data to be shared among participants, thus forming network-wide intelligence. How to fulfill this process without compromising data privacy remains a challenging issue. Although federated learning (FL) is a promising tool to solve the problem, adapting conventional FL frameworks to VCI is nontrivial. First, the centralized model aggregation is unreliable in VCI because of the existence of stragglers with unfavorable channel conditions. Second, existing FL schemes are vulnerable to Non-IID data, which is intensified by the data heterogeneity in VCI. This paper proposes a novel federated learning framework called RaftFed to facilitate privacy-preserving VCI. The experimental results show that RaftFed performs better than baselines regarding communication overhead, model accuracy, and model convergence.
翻訳日:2023-10-12 23:42:02 公開日:2023-10-11
# セマンティックセグメンテーションのためのCNNからの高効率視覚変換器の蒸留

Distilling Efficient Vision Transformers from CNNs for Semantic Segmentation ( http://arxiv.org/abs/2310.07265v1 )

ライセンス: Link先を確認
Xu Zheng, Yunhao Luo, Pengyuan Zhou, Lin Wang(参考訳) 本稿では,学習能力を維持しながら,学習能力を維持しつつ,コンパクトな視覚変換器(ViT)モデルを学ぶために,学習済みの煩雑なCNNモデルから知識を伝達する方法を提案する。 vitとcnnの全く異なる特徴と、教師と生徒の知識蒸留における能力差(kd)により、相互モデルの知識を直接伝達することは自明ではない。 この目的のために、視覚的かつ言語的に互換性のあるViTの特徴と、CNN(教師)との能力格差を微妙に活用し、C2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。 重要なのは,教師の特徴が学生のものと異質であるため,まず,協調した視覚・言語対応表現間の効率的なkdを探索する新しい視覚言語機能蒸留(vlfd)モジュールを提案する。 さらに,教師と生徒のキャパシティギャップが大きく,教師の予測エラーが避けられないため,ラベルと教師の予測を対象外クラスと非対象クラスから組み合わせることで,学生を監督する画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。 3つのセマンティックセグメンテーションベンチマークデータセットの実験は、我々の手法のmIoUの増加がSoTA KD法の200%以上であることを一貫して示している。

In this paper, we tackle a new problem: how to transfer knowledge from the pre-trained cumbersome yet well-performed CNN-based model to learn a compact Vision Transformer (ViT)-based model while maintaining its learning capacity? Due to the completely different characteristics of ViT and CNN and the long-existing capacity gap between teacher and student models in Knowledge Distillation (KD), directly transferring the cross-model knowledge is non-trivial. To this end, we subtly leverage the visual and linguistic-compatible feature character of ViT (i.e., student), and its capacity gap with the CNN (i.e., teacher) and propose a novel CNN-to-ViT KD framework, dubbed C2VKD. Importantly, as the teacher's features are heterogeneous to those of the student, we first propose a novel visual-linguistic feature distillation (VLFD) module that explores efficient KD among the aligned visual and linguistic-compatible representations. Moreover, due to the large capacity gap between the teacher and student and the inevitable prediction errors of the teacher, we then propose a pixel-wise decoupled distillation (PDD) module to supervise the student under the combination of labels and teacher's predictions from the decoupled target and non-target classes. Experiments on three semantic segmentation benchmark datasets consistently show that the increment of mIoU of our method is over 200% of the SoTA KD methods
翻訳日:2023-10-12 23:41:44 公開日:2023-10-11
# 機能一般化正準相関解析による複数縦変数の研究

Functional Generalized Canonical Correlation Analysis for studying multiple longitudinal variables ( http://arxiv.org/abs/2310.07330v1 )

ライセンス: Link先を確認
Lucas Sort, Laurent Le Brusquet, Arthur Tenenhaus(参考訳) 本稿では,複数のランダムプロセス間の相関関係を探索するための新しい枠組みである関数型一般化正準相関解析(fgcca)を提案する。 このフレームワークはマルチブロック正規化一般化正準相関解析(RGCCA)フレームワークに基づいている。 ばらばらで不規則に観測されたデータには堅牢であり、多くの設定で適用できる。 我々は,解法の単調性を確立し,標準成分を推定するためのベイズ的アプローチを導入する。 本稿では,不定値あるいは多変量応答を解析に統合し,予測アプリケーションへの道を開くためのフレームワークの拡張を提案する。 シミュレーション研究における手法の効率を評価し,縦型データセットでの利用例を示す。

In this paper, we introduce Functional Generalized Canonical Correlation Analysis (FGCCA), a new framework for exploring associations between multiple random processes observed jointly. The framework is based on the multiblock Regularized Generalized Canonical Correlation Analysis (RGCCA) framework. It is robust to sparsely and irregularly observed data, making it applicable in many settings. We establish the monotonic property of the solving procedure and introduce a Bayesian approach for estimating canonical components. We propose an extension of the framework that allows the integration of a univariate or multivariate response into the analysis, paving the way for predictive applications. We evaluate the method's efficiency in simulation studies and present a use case on a longitudinal dataset.
翻訳日:2023-10-12 23:36:08 公開日:2023-10-11
# 中国語のインストラクションチューニング大規模言語モデルに関する実証的研究

An Empirical Study of Instruction-tuning Large Language Models in Chinese ( http://arxiv.org/abs/2310.07328v1 )

ライセンス: Link先を確認
Qingyi Si, Tong Wang, Zheng Lin, Xu Zhang, Yanan Cao, Weiping Wang(参考訳) ChatGPTの成功は、人工知能(AGI)における大規模言語モデル(LLM)の可能性を検証する。 その後、LLMのリリースは、ChatGPTのレプリケーションプロセスを加速させると考えられる命令チューニングへのオープンソースコミュニティの関心を喚起した。 しかし、世界で最も多く話されている中国語の命令チューニングllmの研究はまだ初期段階にある。 そこで本論文では,中国語の命令学習 LLM について詳細な実証実験を行い,中国語の指示に応答し易い LLM を効果的にカスタマイズするための料理本として機能する。 具体的には,LLMベース,パラメータ効率のよい手法,命令データ型の影響を系統的に検討する。 また、連鎖データや人間価値アライメントなど、他の要因の影響を研究する実験も行なっている。 この実験的な研究が、中国版chatgptに控えめに貢献できることを願っている。 本稿では,ChatGLMに匹敵する強力な中国のLCMについて述べる。 コードとデータはhttps://github.com/phoebussi/alpaca-cotで入手できる。

The success of ChatGPT validates the potential of large language models (LLMs) in artificial general intelligence (AGI). Subsequently, the release of LLMs has sparked the open-source community's interest in instruction-tuning, which is deemed to accelerate ChatGPT's replication process. However, research on instruction-tuning LLMs in Chinese, the world's most spoken language, is still in its early stages. Therefore, this paper makes an in-depth empirical study of instruction-tuning LLMs in Chinese, which can serve as a cookbook that provides valuable findings for effectively customizing LLMs that can better respond to Chinese instructions. Specifically, we systematically explore the impact of LLM bases, parameter-efficient methods, instruction data types, which are the three most important elements for instruction-tuning. Besides, we also conduct experiment to study the impact of other factors, e.g., chain-of-thought data and human-value alignment. We hope that this empirical study can make a modest contribution to the open Chinese version of ChatGPT. This paper will release a powerful Chinese LLMs that is comparable to ChatGLM. The code and data are available at https://github.com/PhoebusSi/Alpaca-CoT.
翻訳日:2023-10-12 23:35:57 公開日:2023-10-11
# 直接ロジット帰属の逆例:gelu-4lにおけるメモリ管理

An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l ( http://arxiv.org/abs/2310.07325v1 )

ライセンス: Link先を確認
James Dao, Yeu-Tong Lao, Can Rager, Jett Janiak(参考訳) 4層トランスにおけるメモリ管理の具体的な証拠を提供する。 具体的には、モデルコンポーネントが前方通過時の受入部品の出力を一貫して除去するクリーンアップ動作を特定する。 以上の結果から, 直接ロジット属性は誤帰的な結果をもたらすことが示唆された。 クリーンアップ動作を考慮しないため,この手法が不正確な場合の明確な例を示す。

We provide concrete evidence for memory management in a 4-layer transformer. Specifically, we identify clean-up behavior, in which model components consistently remove the output of preceeding components during a forward pass. Our findings suggest that the interpretability technique Direct Logit Attribution provides misleading results. We show explicit examples where this technique is inaccurate, as it does not account for clean-up behavior.
翻訳日:2023-10-12 23:35:37 公開日:2023-10-11
# 解釈可能なモーションキャプションのためのガイド注意

Guided Attention for Interpretable Motion Captioning ( http://arxiv.org/abs/2310.07324v1 )

ライセンス: Link先を確認
Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde(参考訳) テキストから人間の動きを生成することに多くの労力が費やされてきたが、逆方向、すなわち動きからテキストを生成する研究は、比較的少ない。 研究の多くは、特に特定の動きや動作を伴う単語の生成と時間的同期における特定の身体部分の影響について、アーキテクチャの解釈可能性に何ら関係なく、世代品質を最大化することに焦点を当てている。 本研究では,運動エンコーダと時空間的注意モデルの組み合わせについて検討し,トレーニング中に注意を誘導し,時間内に骨格の知覚的関連領域を明らかにする戦略を提案する。 適応ゲートで誘導注意を付加するとキャプションが解釈可能となり,パラメータカウント非解釈可能なSOTAシステムに比べて性能が向上することを示す。 KIT MLDデータセットでは、BLEU@4は24.4%(SOTA+6%)、ROUGE-Lは58.30%(SOTA+14.1%)、CIDErは112.10(SOTA+32.6)、Bertscoreは41.20%(SOTA+18.20%)である。 HumanML3Dでは、BLEU@4が25.00(SOTA + 2.7%)、ROUGE-Lが55.4%(SOTA + 6.1%)、CIDErが61.6(SOTA -10.9%)、Bertscoreが40.3%(SOTA + 2.5%)である。 私たちのコードの実装と再現の詳細は、https://github.com/rd20karim/M2T-Interpretable/tree/main.orgですぐに公開されます。

While much effort has been invested in generating human motion from text, relatively few studies have been dedicated to the reverse direction, that is, generating text from motion. Much of the research focuses on maximizing generation quality without any regard for the interpretability of the architectures, particularly regarding the influence of particular body parts in the generation and the temporal synchronization of words with specific movements and actions. This study explores the combination of movement encoders with spatio-temporal attention models and proposes strategies to guide the attention during training to highlight perceptually pertinent areas of the skeleton in time. We show that adding guided attention with adaptive gate leads to interpretable captioning while improving performance compared to higher parameter-count non-interpretable SOTA systems. On the KIT MLD dataset, we obtain a BLEU@4 of 24.4% (SOTA+6%), a ROUGE-L of 58.30% (SOTA +14.1%), a CIDEr of 112.10 (SOTA +32.6) and a Bertscore of 41.20% (SOTA +18.20%). On HumanML3D, we obtain a BLEU@4 of 25.00 (SOTA +2.7%), a ROUGE-L score of 55.4% (SOTA +6.1%), a CIDEr of 61.6 (SOTA -10.9%), a Bertscore of 40.3% (SOTA +2.5%). Our code implementation and reproduction details will be soon available at https://github.com/rd20karim/M2T-Interpretable/tree/main.
翻訳日:2023-10-12 23:35:31 公開日:2023-10-11
# 言語モデルにおけるクロスドメインデータの影響について

On the Impact of Cross-Domain Data on German Language Models ( http://arxiv.org/abs/2310.07321v1 )

ライセンス: Link先を確認
Amin Dada, Aokun Chen, Cheng Peng, Kaleb E Smith, Ahmad Idrissi-Yaghir, Constantin Marc Seibold, Jianning Li, Lars Heiliger, Christoph M. Friedrich, Daniel Truhn, Jan Egger, Jiang Bian, Jens Kleesiek, Yonghui Wu(参考訳) 伝統的に、大きな言語モデルは一般的なウェブクロールまたはドメイン固有のデータで訓練されてきた。 しかし、生成可能な大規模言語モデルの最近の成功は、クロスドメインデータセットの利点に光を当てている。 品質よりもデータの多様性を優先する意義を検討するために,5つのドメインのテキストからなるドイツのデータセットと,高品質なデータを含むもう1つのデータセットを提案する。 両データセットの122Mから750Mパラメータの一連のモデルをトレーニングすることにより、複数の下流タスクに関する包括的なベンチマークを行う。 クロスドメインデータセットでトレーニングされたモデルは、品質データだけでトレーニングされたモデルよりも優れており、これまでの最新データよりも最大4.45\%改善されていることが分かりました。 モデルはhttps://huggingface.co/ikim-uk-essenで入手できる。

Traditionally, large language models have been either trained on general web crawls or domain-specific data. However, recent successes of generative large language models, have shed light on the benefits of cross-domain datasets. To examine the significance of prioritizing data diversity over quality, we present a German dataset comprising texts from five domains, along with another dataset aimed at containing high-quality data. Through training a series of models ranging between 122M and 750M parameters on both datasets, we conduct a comprehensive benchmark on multiple downstream tasks. Our findings demonstrate that the models trained on the cross-domain dataset outperform those trained on quality data alone, leading to improvements up to $4.45\%$ over the previous state-of-the-art. The models are available at https://huggingface.co/ikim-uk-essen
翻訳日:2023-10-12 23:34:55 公開日:2023-10-11
# 効率的な再合成予測のための分子編集テンプレート

Molecule-Edit Templates for Efficient and Accurate Retrosynthesis Prediction ( http://arxiv.org/abs/2310.07313v1 )

ライセンス: Link先を確認
Miko{\l}aj Sacha, Micha{\l} Sadowski, Piotr Kozakowski, Ruard van Workum, Stanis{\l}aw Jastrz\k{e}bski(参考訳) 再合成は、単純な前駆体から複雑な分子を合成する一連の反応を決定することを含む。 これは有機化学において課題となるため、機械学習は特に特定の標的分子に対して可能な反応基質を予測するためのソリューションを提供している。 これらのソリューションは主にテンプレートベースとテンプレートフリーのカテゴリに分類される。 前者は効率的だが、多くの事前定義された反応パターンに依存している。 これらの問題に対処するため,我々はmetro(molecule-edit template for retro synthesis)という,最小限のテンプレートを使用して反応を予測する機械学習モデルを紹介している。

Retrosynthesis involves determining a sequence of reactions to synthesize complex molecules from simpler precursors. As this poses a challenge in organic chemistry, machine learning has offered solutions, particularly for predicting possible reaction substrates for a given target molecule. These solutions mainly fall into template-based and template-free categories. The former is efficient but relies on a vast set of predefined reaction patterns, while the latter, though more flexible, can be computationally intensive and less interpretable. To address these issues, we introduce METRO (Molecule-Edit Templates for RetrOsynthesis), a machine-learning model that predicts reactions using minimal templates - simplified reaction patterns capturing only essential molecular changes - reducing computational overhead and achieving state-of-the-art results on standard benchmarks.
翻訳日:2023-10-12 23:34:42 公開日:2023-10-11
# WiGenAI:拡散モデルによるワイヤレスおよび生成AIのシンフォニー

WiGenAI: The Symphony of Wireless and Generative AI via Diffusion Models ( http://arxiv.org/abs/2310.07312v1 )

ライセンス: Link先を確認
Mehdi Letafati, Samad Ali, and Matti Latva-aho(参考訳) GPT-3や安定拡散モデルのような革新的基礎モデルは、人工知能(AI)の領域をAIベースのシステムへとパラダイムシフトさせた。 データ通信とネットワークの観点から見ると、AIと機械学習(AI/ML)アルゴリズムは、次世代の無線通信システムに広く組み込まれ、創発的な通信シナリオに対する新しいAIネイティブソリューションの必要性を強調している。 本稿では,無線通信システムにおける生成AIの応用について概説する。 生成モデルの新たな最先端パラダイムである拡散型生成モデルを導入し,無線通信システムにおけるそれらの応用について論じる。 レジリエントなAIネイティブ通信システムの開発に拡散モデルをどのように活用するかを示すために、2つのケーススタディも提示されている。 具体的には,非理想的トランシーバを用いた無線通信方式において,ビット誤り率で30%改善が達成されるデノイジング拡散確率モデル(ddpm)を提案する。 第2の用途として、DDPMを送信機に使用して星座のシンボルを形作り、ロバストなアウト・オブ・ディストリビューション性能を示す。 最後に,無線生成AI(WiGenAI)に向けた今後の研究を推進すべく,生成AIベースの無線システムの開発に向けた今後の方向性と課題について論じる。

Innovative foundation models, such as GPT-3 and stable diffusion models, have made a paradigm shift in the realm of artificial intelligence (AI) towards generative AI-based systems. In unison, from data communication and networking perspective, AI and machine learning (AI/ML) algorithms are envisioned to be pervasively incorporated into the future generations of wireless communications systems, highlighting the need for novel AI-native solutions for the emergent communication scenarios. In this article, we outline the applications of generative AI in wireless communication systems to lay the foundations for research in this field. Diffusion-based generative models, as the new state-of-the-art paradigm of generative models, are introduced, and their applications in wireless communication systems are discussed. Two case studies are also presented to showcase how diffusion models can be exploited for the development of resilient AI-native communication systems. Specifically, we propose denoising diffusion probabilistic models (DDPM) for a wireless communication scheme with non-ideal transceivers, where 30% improvement is achieved in terms of bit error rate. As the second application, DDPMs are employed at the transmitter to shape the constellation symbols, highlighting a robust out-of-distribution performance. Finally, future directions and open issues for the development of generative AI-based wireless systems are discussed to promote future research endeavors towards wireless generative AI (WiGenAI).
翻訳日:2023-10-12 23:34:30 公開日:2023-10-11
# Deep Aramaic: 画像における機械学習の合成データパラダイムの実現に向けて

Deep Aramaic: Towards a Synthetic Data Paradigm Enabling Machine Learning in Epigraphy ( http://arxiv.org/abs/2310.07310v1 )

ライセンス: Link先を確認
Andrei C. Aioanei, Regine Hunziker-Rodewald, Konstantin Klein, Dominik L. Michels(参考訳) エピノグラフィーは、古代の碑文から洞察を抽出する機械学習(ML)のような現代の人工知能(AI)技術に変わりつつある。 しかし、MLアルゴリズムをトレーニングするためのラベル付きデータが少ないため、特に古アラマ文字のような古代のスクリプトでは、現在のテクニックを著しく制限している。 我々の研究は、古アラマ文字に合わせて合成訓練データを生成する革新的な手法を開拓した。 本パイプラインは,実世界の碑文の多様性を模倣するために,テクスチャの特徴,ライティング,損傷,拡張を組み込んだ,フォトリアリスティックなアラム文字データセットを合成する。 最小の実例にもかかわらず、アラム文字アルファベットの22文字クラスをカバーする2550,000のトレーニングと25,000の検証画像のデータセットを設計しました。 この包括的コーパスは、高度に劣化したアラム文字を分類するために残留ニューラルネットワーク(resnet)を訓練するための堅牢なデータ量を提供する。 ResNetモデルは、紀元前8世紀のハダッドの彫像碑文から実際の像を分類する際に高い精度を示す。 さらなる実験により、様々な材料やスタイルのパフォーマンスが検証され、効果的な一般化が証明された。 本研究は,様々な実世界のシナリオを処理し,合成データアプローチの有効性を証明し,エピグラフィック解析を制約した不足したトレーニングデータへの依存を回避し,モデルの能力を検証する。 当社の革新的な枠組みは,損傷した碑文の解釈精度を高め,これらの歴史的資料からの知識抽出を促進する。

Epigraphy increasingly turns to modern artificial intelligence (AI) technologies such as machine learning (ML) for extracting insights from ancient inscriptions. However, scarce labeled data for training ML algorithms severely limits current techniques, especially for ancient scripts like Old Aramaic. Our research pioneers an innovative methodology for generating synthetic training data tailored to Old Aramaic letters. Our pipeline synthesizes photo-realistic Aramaic letter datasets, incorporating textural features, lighting, damage, and augmentations to mimic real-world inscription diversity. Despite minimal real examples, we engineer a dataset of 250,000 training and 25,000 validation images covering the 22 letter classes in the Aramaic alphabet. This comprehensive corpus provides a robust volume of data for training a residual neural network (ResNet) to classify highly degraded Aramaic letters. The ResNet model demonstrates high accuracy in classifying real images from the 8th century BCE Hadad statue inscription. Additional experiments validate performance on varying materials and styles, proving effective generalization. Our results validate the model's capabilities in handling diverse real-world scenarios, proving the viability of our synthetic data approach and avoiding the dependence on scarce training data that has constrained epigraphic analysis. Our innovative framework elevates interpretation accuracy on damaged inscriptions, thus enhancing knowledge extraction from these historical resources.
翻訳日:2023-10-12 23:34:04 公開日:2023-10-11
# snoic: ソフトラベリングと騒がしいミックスアップに基づくオープンインテント分類モデル

SNOiC: Soft Labeling and Noisy Mixup based Open Intent Classification Model ( http://arxiv.org/abs/2310.07306v1 )

ライセンス: Link先を確認
Aditi Kanwar (1), Aditi Seetha (1), Satyendra Singh Chouhan (1), Rajdeep Niyogi (2) ((1) MNIT Jaipur, 302017, INDIA, (2) IIT Roorkee, 247667, INDIA)(参考訳) 本稿では,Soft Labeling and Noisy Mixup-based open intent classification model (SNOiC)を提案する。 以前の作品のほとんどがしきい値ベースの手法を使用してオープンインテントを識別しており、過度に適合し、偏りのある予測を生じる可能性がある。 さらに、オープンインテントクラスのより利用可能なデータの必要性は、これらの既存モデルに新たな制限を与える。 SNOiCはSoft LabelingとNoisy Mixupの戦略を組み合わせてバイアスを減らし、オープンインテントクラスのための擬似データを生成する。 4つのベンチマークデータセットの実験結果は、SNOiCモデルがそれぞれ68.72\%と94.71\%の最小性能と最大性能を達成することを示している。 さらに、最先端モデルと比較して、SNOiCモデルはオープンインテントの識別性能を0.93\%(最小)と12.76\%(最大)で改善する。 このモデルの有効性は、提案モデルで使用される様々なパラメータを分析することによってさらに確立される。 snoicモデルの有効性を検証するための3つのモデル変異体の作成を含むアブレーション研究も行われている。

This paper presents a Soft Labeling and Noisy Mixup-based open intent classification model (SNOiC). Most of the previous works have used threshold-based methods to identify open intents, which are prone to overfitting and may produce biased predictions. Additionally, the need for more available data for an open intent class presents another limitation for these existing models. SNOiC combines Soft Labeling and Noisy Mixup strategies to reduce the biasing and generate pseudo-data for open intent class. The experimental results on four benchmark datasets show that the SNOiC model achieves a minimum and maximum performance of 68.72\% and 94.71\%, respectively, in identifying open intents. Moreover, compared to state-of-the-art models, the SNOiC model improves the performance of identifying open intents by 0.93\% (minimum) and 12.76\% (maximum). The model's efficacy is further established by analyzing various parameters used in the proposed model. An ablation study is also conducted, which involves creating three model variants to validate the effectiveness of the SNOiC model.
翻訳日:2023-10-12 23:33:40 公開日:2023-10-11
# parrot: 質問の学習によるマルチターンチャットモデルの拡張

Parrot: Enhancing Multi-Turn Chat Models by Learning to Ask Questions ( http://arxiv.org/abs/2310.07301v1 )

ライセンス: Link先を確認
Yuchong Sun, Che Liu, Jinwen Huang, Ruihua Song, Fuzheng Zhang, Di Zhang, Zhongyuan Wang, Kun Gai(参考訳) 近年、Large Language Models (LLMs) に基づくチャットモデルにおいて、印象的な進歩がなされているが、オープンソースのチャットモデル(AlpacaやVicunaなど)と主要なチャットモデル(ChatGPTやGPT-4など)とのマルチターン会話の遅れが顕著である。 一連の分析を通じて、遅延は十分な高品質のマルチターン命令チューニングデータの欠如に帰着する。 コミュニティで利用可能なインストラクションチューニングデータは、シングルターン会話か、非人間的なインストラクション、より詳細なレスポンス、まれなトピックシフトなど、特定の問題のあるマルチターン会話である。 本稿では,マルチターン会話におけるチャットモデルの有効性を高めるために,高品質な命令チューニングデータの自動生成を目的とした,スケーラブルなソリューションであるParrotを導入することで,これらの課題に対処する。 具体的には、実際のユーザをエミュレートして命令を生成するParrot-Askモデルをトレーニングすることから始める。 次にParrot-Askを用いてChatGPTとの多ターン会話を多種多様なトピックにわたって行い、結果として40Kの高品質な多ターン対話(Parrot-40K)を収集する。 これらのデータは、Parrot-Chatという名前のチャットモデルをトレーニングするために使用される。 本研究では,Parrot-Askから集めた対話が,トピックの多様性,ターン数,人間会話との類似性など,既存のマルチターン命令フォローデータセットを著しく上回ることを示す。 たった40Kのトレーニング例で、Parrot-Chatは他の13Bオープンソースモデルに対して、命令追従ベンチマークの範囲で強力なパフォーマンスを実現している。 LLaMA2-13BとKuaiYii-13Bに基づくParrot-Askモデルのコード、データセット、2つのバージョンをhttps://github.com/kwai/KwaiYii/Parrotで公開しています。

Impressive progress has been made on chat models based on Large Language Models (LLMs) recently; however, there is a noticeable lag in multi-turn conversations between open-source chat models (e.g., Alpaca and Vicuna) and the leading chat models (e.g., ChatGPT and GPT-4). Through a series of analyses, we attribute the lag to the lack of enough high-quality multi-turn instruction-tuning data. The available instruction-tuning data for the community are either single-turn conversations or multi-turn ones with certain issues, such as non-human-like instructions, less detailed responses, or rare topic shifts. In this paper, we address these challenges by introducing Parrot, a highly scalable solution designed to automatically generate high-quality instruction-tuning data, which are then used to enhance the effectiveness of chat models in multi-turn conversations. Specifically, we start by training the Parrot-Ask model, which is designed to emulate real users in generating instructions. We then utilize Parrot-Ask to engage in multi-turn conversations with ChatGPT across a diverse range of topics, resulting in a collection of 40K high-quality multi-turn dialogues (Parrot-40K). These data are subsequently employed to train a chat model that we have named Parrot-Chat. We demonstrate that the dialogues gathered from Parrot-Ask markedly outperform existing multi-turn instruction-following datasets in critical metrics, including topic diversity, number of turns, and resemblance to human conversation. With only 40K training examples, Parrot-Chat achieves strong performance against other 13B open-source models across a range of instruction-following benchmarks, and particularly excels in evaluations of multi-turn capabilities. We make all codes, datasets, and two versions of the Parrot-Ask model based on LLaMA2-13B and KuaiYii-13B available at https://github.com/kwai/KwaiYii/Parrot.
翻訳日:2023-10-12 23:33:21 公開日:2023-10-11
# 動的グラフCNNによる局所幾何構造を用いた点雲デノジングと外乱検出

Point Cloud Denoising and Outlier Detection with Local Geometric Structure by Dynamic Graph CNN ( http://arxiv.org/abs/2310.07376v1 )

ライセンス: Link先を確認
Kosuke Nakayama, Hiroto Fukuta, Hiroshi Watanabe(参考訳) 社会のデジタル化は、デジタル・ツインとメタバースの実現に向けて急速に進んでいる。 特にポイントクラウドは、3d空間のメディアフォーマットとして注目を集めている。 点雲データは測定誤差によりノイズや異常値で汚染される。 したがって、ポイントクラウド処理にはノイズ検出と異常検出が必要である。 その中でもPointCleanNetは,ポイントクラウドのノイズ検出とアウトレイラ検出に有効な方法である。 しかし、パッチの局所的な幾何学的構造は考慮していない。 動的グラフCNNに基づいて設計された2種類のグラフ畳み込み層を適用してこの問題を解決する。 実験の結果,提案手法は,異常検出精度を示すaupr法と,異化精度を示すchamfer距離法よりも優れていた。

The digitalization of society is rapidly developing toward the realization of the digital twin and metaverse. In particular, point clouds are attracting attention as a media format for 3D space. Point cloud data is contaminated with noise and outliers due to measurement errors. Therefore, denoising and outlier detection are necessary for point cloud processing. Among them, PointCleanNet is an effective method for point cloud denoising and outlier detection. However, it does not consider the local geometric structure of the patch. We solve this problem by applying two types of graph convolutional layer designed based on the Dynamic Graph CNN. Experimental results show that the proposed methods outperform the conventional method in AUPR, which indicates outlier detection accuracy, and Chamfer Distance, which indicates denoising accuracy.
翻訳日:2023-10-12 23:24:08 公開日:2023-10-11
# ハイブリッドGAN-CNN法による三次元構造磁気共鳴画像からの双極性障害の診断

Diagnosing Bipolar Disorder from 3-D Structural Magnetic Resonance Images Using a Hybrid GAN-CNN Method ( http://arxiv.org/abs/2310.07359v1 )

ライセンス: Link先を確認
Masood Hamed Saghayan, Mohammad Hossein Zolfagharnasab, Ali Khadem, Farzam Matinfar, Hassan Rashidi(参考訳) 双極性障害(bipolar disorder, bd)は、低調症やうつ病の繰り返し周期によって診断される精神疾患である。 BDの診断は長期にわたる主観的行動評価に依存しているため,客観的基準に基づく診断は容易ではない。 本研究は,3次元構造MRI画像(sMRI)からBDを診断するためのハイブリッドGAN-CNNモデルを提案することにより,これらの障害に対処した。 この研究の新規性は、機能的MRI(fMRI)や脳波(EEG)といった従来のデータセットではなく、sMRIサンプルからBDを診断することに由来する。 各種増倍比の影響も5倍のクロスバリデーションを用いて検証した。 本研究は, 精度が75.8%, 感度が60.3%, 特異性が82.5%であり, 従来の作業よりも35%高く, 試料数6%以下である。 次に, 2次元層ベースGANジェネレータが, 手動画像処理よりも簡単な複雑な3次元脳サンプルを効果的に再現できることを実証した。 最後に、172個のsMRIサンプルを用いた現在の研究の最適増強閾値は50%であり、より大規模なsMRIデータセットに適用可能であることを示す。 結論として,ganを用いたデータ拡張によりsmriサンプルを用いたcnn分類精度が向上し,より信頼性の高いbd患者の同定を支援する意思決定支援システムが開発された。

Bipolar Disorder (BD) is a psychiatric condition diagnosed by repetitive cycles of hypomania and depression. Since diagnosing BD relies on subjective behavioral assessments over a long period, a solid diagnosis based on objective criteria is not straightforward. The current study responded to the described obstacle by proposing a hybrid GAN-CNN model to diagnose BD from 3-D structural MRI Images (sMRI). The novelty of this study stems from diagnosing BD from sMRI samples rather than conventional datasets such as functional MRI (fMRI), electroencephalography (EEG), and behavioral symptoms while removing the data insufficiency usually encountered when dealing with sMRI samples. The impact of various augmentation ratios is also tested using 5-fold cross-validation. Based on the results, this study obtains an accuracy rate of 75.8%, a sensitivity of 60.3%, and a specificity of 82.5%, which are 3-5% higher than prior work while utilizing less than 6% sample counts. Next, it is demonstrated that a 2- D layer-based GAN generator can effectively reproduce complex 3D brain samples, a more straightforward technique than manual image processing. Lastly, the optimum augmentation threshold for the current study using 172 sMRI samples is 50%, showing the applicability of the described method for larger sMRI datasets. In conclusion, it is established that data augmentation using GAN improves the accuracy of the CNN classifier using sMRI samples, thus developing more reliable decision support systems to assist practitioners in identifying BD patients more reliably and in a shorter period
翻訳日:2023-10-12 23:23:58 公開日:2023-10-11
# imitate: 臨床事前指導型階層的視覚言語前訓練

IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training ( http://arxiv.org/abs/2310.07355v1 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。 しかし、既存の方法の多くは、概して記述内容の「発見」と決定的な観察の「印象」に分けられる臨床報告書の固有の階層構造を活用する機会を見落としていた可能性がある。 このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。 本稿では,階層的視覚言語アライメントを用いて医療報告から構造情報を学習するための新しい臨床用事前誘導型vlpフレームワークイミテイトを提案する。 このフレームワークは胸部x線(cxr)画像から多レベル視覚特徴を導出し、これらの特徴を階層的医学レポートで符号化された記述的および決定的テキストと別々に調整する。 さらに, 比較学習におけるサンプル相関の定式化における臨床先行知識を考慮に入れた, クロスモーダル学習のための新しい臨床情報付きコントラスト損失を導入した。 提案するモデルであるimtateは、6つの異なるデータセットにわたるベースラインvlpメソッドを上回り、5つの医療画像下流タスクにまたがる。 総合実験の結果,視覚言語アライメントのための医療報告書の階層構造の統合の利点が浮き彫りになった。

In the field of medical Vision-Language Pre-training (VLP), significant efforts have been devoted to deriving text and image features from both clinical reports and associated medical images. However, most existing methods may have overlooked the opportunity in leveraging the inherent hierarchical structure of clinical reports, which are generally split into `findings' for descriptive content and `impressions' for conclusive observation. Instead of utilizing this rich, structured format, current medical VLP approaches often simplify the report into either a unified entity or fragmented tokens. In this work, we propose a novel clinical prior guided VLP framework named IMITATE to learn the structure information from medical reports with hierarchical vision-language alignment. The framework derives multi-level visual features from the chest X-ray (CXR) images and separately aligns these features with the descriptive and the conclusive text encoded in the hierarchical medical report. Furthermore, a new clinical-informed contrastive loss is introduced for cross-modal learning, which accounts for clinical prior knowledge in formulating sample correlations in contrastive learning. The proposed model, IMITATE, outperforms baseline VLP methods across six different datasets, spanning five medical imaging downstream tasks. Comprehensive experimental results highlight the advantages of integrating the hierarchical structure of medical reports for vision-language alignment.
翻訳日:2023-10-12 23:23:29 公開日:2023-10-11
# Give and Take: 産業用IoTネットワーク侵入検出のためのフェデレーショントランスファー学習

Give and Take: Federated Transfer Learning for Industrial IoT Network Intrusion Detection ( http://arxiv.org/abs/2310.07354v1 )

ライセンス: Link先を確認
Lochana Telugu Rajesh, Tapadhir Das, Raj Mani Shukla, and Shamik Sengupta(参考訳) iot(internet of things, モノのインターネット)技術の急速な成長は、産業iot(industrial iot, iiot)イニシアチブを形成する今日の産業において不可欠な部分となっている。 残念ながら、IoTの急速な利用は、サイバー犯罪者にとって魅力的なターゲットとなった。 したがって、これらのシステムを保護することが最も重要である。 本稿では,IIoTネットワーク侵入検出を行うためのフェデレートトランスファーラーニング(FTL)手法を提案する。 本研究の一環として,FTLの実行の中心となる組み合わせ型ニューラルネットワークを提案する。 提案手法では,IoTデータをクライアントデバイスとサーバデバイスに分割して対応するモデルを生成し,クライアントモデルの重みを組み合わせてサーバモデルを更新する。 結果は、IIoTクライアントとサーバの両方のイテレーション間のFTLセットアップのパフォーマンスを示している。 さらに,提案されたftl設定は,ネットワーク侵入検出を行う現代の機械学習アルゴリズムよりも全体的な性能が向上する。

The rapid growth in Internet of Things (IoT) technology has become an integral part of today's industries forming the Industrial IoT (IIoT) initiative, where industries are leveraging IoT to improve communication and connectivity via emerging solutions like data analytics and cloud computing. Unfortunately, the rapid use of IoT has made it an attractive target for cybercriminals. Therefore, protecting these systems is of utmost importance. In this paper, we propose a federated transfer learning (FTL) approach to perform IIoT network intrusion detection. As part of the research, we also propose a combinational neural network as the centerpiece for performing FTL. The proposed technique splits IoT data between the client and server devices to generate corresponding models, and the weights of the client models are combined to update the server model. Results showcase high performance for the FTL setup between iterations on both the IIoT clients and the server. Additionally, the proposed FTL setup achieves better overall performance than contemporary machine learning algorithms at performing network intrusion detection.
翻訳日:2023-10-12 23:23:04 公開日:2023-10-11
# 分子特性予測のための原子モチフコントラストトランス

Atom-Motif Contrastive Transformer for Molecular Property Prediction ( http://arxiv.org/abs/2310.07351v1 )

ライセンス: Link先を確認
Wentao Yu, Shuo Chen, Chen Gong, Gang Niu, Masashi Sugiyama(参考訳) 近年、グラフトランスフォーマー(GT)モデルは、グラフノード間の潜伏関係(すなわち分子内の原子)を特徴づける信頼性が高いため、分子特性予測(MPP)タスクで広く利用されている。 しかしながら、既存のGTベースのほとんどの手法は、通常は対原子間の基本的な相互作用を探求するので、分子の重要なモチーフ(例えば、官能基は複数の原子から構成される)の間の重要な相互作用を考慮できない。 分子内のモチーフは、分子の性質(毒性や溶解度など)を決定する上で非常に重要なパターンであるため、モチーフ相互作用を見渡すことは、MPPの有効性を必然的に妨げる。 本稿では,原子レベルの相互作用を探索するだけでなく,モチーフレベルの相互作用も検討した新しいAtom-Motif Contrastive Transformer(AMCT)を提案する。 与えられた分子に対する原子とモチーフの表現は実際には同じインスタンスの2つの異なるビューであるため、モデルトレーニングのための自己超越的な信号を生成するために自然に整列している。 一方、同じモチーフは異なる分子に存在しうるため、異なる分子にまたがる同一モチーフの表現の一致を最大化するために、対照的な損失を用いる。 最後に、各分子の性質を決定する上で重要なモチーフを明確に識別するために、我々はさらに、学習フレームワークに特性認識注意のメカニズムを構築する。 提案するamctは7つのベンチマークデータセットで広範囲に評価され,定量的・質的評価結果が最先端手法と比較した場合,その効果を確証している。

Recently, Graph Transformer (GT) models have been widely used in the task of Molecular Property Prediction (MPP) due to their high reliability in characterizing the latent relationship among graph nodes (i.e., the atoms in a molecule). However, most existing GT-based methods usually explore the basic interactions between pairwise atoms, and thus they fail to consider the important interactions among critical motifs (e.g., functional groups consisted of several atoms) of molecules. As motifs in a molecule are significant patterns that are of great importance for determining molecular properties (e.g., toxicity and solubility), overlooking motif interactions inevitably hinders the effectiveness of MPP. To address this issue, we propose a novel Atom-Motif Contrastive Transformer (AMCT), which not only explores the atom-level interactions but also considers the motif-level interactions. Since the representations of atoms and motifs for a given molecule are actually two different views of the same instance, they are naturally aligned to generate the self-supervisory signals for model training. Meanwhile, the same motif can exist in different molecules, and hence we also employ the contrastive loss to maximize the representation agreement of identical motifs across different molecules. Finally, in order to clearly identify the motifs that are critical in deciding the properties of each molecule, we further construct a property-aware attention mechanism into our learning framework. Our proposed AMCT is extensively evaluated on seven popular benchmark datasets, and both quantitative and qualitative results firmly demonstrate its effectiveness when compared with the state-of-the-art methods.
翻訳日:2023-10-12 23:22:49 公開日:2023-10-11
# 時系列データと知識グラフを用いた意味関連ルール学習

Semantic Association Rule Learning from Time Series Data and Knowledge Graphs ( http://arxiv.org/abs/2310.07348v1 )

ライセンス: Link先を確認
Erkan Karabulut, Victoria Degeler, Paul Groth(参考訳) デジタルツイン(dt)は、監視や自動推論などの高度な機能により、サイバー物理システム研究において有望な概念である。 近年,知識グラフ (KG) などのセマンティック技術がDTにおいて特に情報モデリングに利用されている。 そこで本研究では,KGと時系列データを用いたDTのセマンティックアソシエーションルール学習のためのパイプラインを提案する。 また,この初期パイプラインに加えて,新たな意味関連ルール基準を提案する。 このアプローチは産業用水ネットワークのシナリオで評価される。 最初の評価から,提案手法は,より一般化可能な意味的情報を含む多数の関連ルールを学習できることがわかった。 本稿は,特に産業分野における意味関連ルール学習のさらなる活用に向けた基礎を築くことを目的としている。

Digital Twins (DT) are a promising concept in cyber-physical systems research due to their advanced features including monitoring and automated reasoning. Semantic technologies such as Knowledge Graphs (KG) are recently being utilized in DTs especially for information modelling. Building on this move, this paper proposes a pipeline for semantic association rule learning in DTs using KGs and time series data. In addition to this initial pipeline, we also propose new semantic association rule criterion. The approach is evaluated on an industrial water network scenario. Initial evaluation shows that the proposed approach is able to learn a high number of association rules with semantic information which are more generalizable. The paper aims to set a foundation for further work on using semantic association rule learning especially in the context of industrial applications.
翻訳日:2023-10-12 23:22:20 公開日:2023-10-11
# 高精度プレトレーニングのための高速ELECTRA

Fast-ELECTRA for Efficient Pre-training ( http://arxiv.org/abs/2310.07347v1 )

ライセンス: Link先を確認
Chengyu Dong, Liyuan Liu, Hao Cheng, Jingbo Shang, Jianfeng Gao, Xiaodong Liu(参考訳) ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。 ELECTRAは効率を大幅に向上させるが、そのポテンシャルは補助モデルによってもたらされる訓練コストに制約される。 特に、このモデルは、メインモデルと共同で訓練されており、メインモデルのトレーニングを補助するだけであり、訓練後に破棄される。 その結果、かなりのトレーニングコストが無駄に費やされることになる。 本稿では,既存の言語モデルを補助モデルとして活用するFast-ELECTRAを提案する。 主モデルの学習カリキュラムを構築するために,下降スケジュールに従って,温度スケーリングによる出力分布の円滑化を図る。 提案手法は,最先端のELECTRA方式の事前学習手法と競合するが,補助モデルの協調訓練による計算とメモリコストは著しく削減される。 また,過度パラメータに対する感度を低減し,事前学習安定性を向上させる。

ELECTRA pre-trains language models by detecting tokens in a sequence that have been replaced by an auxiliary model. Although ELECTRA offers a significant boost in efficiency, its potential is constrained by the training cost brought by the auxiliary model. Notably, this model, which is jointly trained with the main model, only serves to assist the training of the main model and is discarded post-training. This results in a substantial amount of training cost being expended in vain. To mitigate this issue, we propose Fast-ELECTRA, which leverages an existing language model as the auxiliary model. To construct a learning curriculum for the main model, we smooth its output distribution via temperature scaling following a descending schedule. Our approach rivals the performance of state-of-the-art ELECTRA-style pre-training methods, while significantly eliminating the computation and memory cost brought by the joint training of the auxiliary model. Our method also reduces the sensitivity to hyper-parameters and enhances the pre-training stability.
翻訳日:2023-10-12 23:22:08 公開日:2023-10-11
# 大規模言語モデルは世界の知識をいかに変化させるか? 最近の進歩を振り返って

How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances ( http://arxiv.org/abs/2310.07343v1 )

ライセンス: Link先を確認
Zihan Zhang, Meng Fang, Ling Chen, Mohammad-Reza Namazi-Rad, Jun Wang(参考訳) 大規模言語モデル(llm)は様々なタスクの解決に印象的だが、デプロイ後にすぐに時代遅れになる可能性がある。 最新の状態を維持することは、現在の時代に差し迫った懸念である。 本稿では,LLMをスクラッチから再学習することなく,変化し続ける世界知識と整合させることの最近の進歩を概観する。 研究成果を体系的に分類し,詳細な比較と議論を行う。 また、既存の課題についても議論し、この分野の研究を促進するための今後の方向性を強調する。 論文リストはhttps://github.com/hyintell/awesome-refreshing-llmsで公開します。

Although large language models (LLMs) are impressive in solving various tasks, they can quickly be outdated after deployment. Maintaining their up-to-date status is a pressing concern in the current era. This paper provides a comprehensive review of recent advances in aligning LLMs with the ever-changing world knowledge without re-training from scratch. We categorize research works systemically and provide in-depth comparisons and discussion. We also discuss existing challenges and highlight future directions to facilitate research in this field. We release the paper list at https://github.com/hyintell/awesome-refreshing-llms
翻訳日:2023-10-12 23:21:51 公開日:2023-10-11
# タブラルデータ学習のための基礎モデルに向けて

Towards Foundation Models for Learning on Tabular Data ( http://arxiv.org/abs/2310.07338v1 )

ライセンス: Link先を確認
Han Zhang, Xumeng Wen, Shun Zheng, Wei Xu, Jiang Bian(参考訳) 表データの学習は多くの現実世界のアプリケーションを支える。 表形式のデータに対する効果的な学習モデルの開発に多大な努力を払ってはいるが、現在の移行可能な表形式のモデルは、新しいタスクに追従する直接命令のサポートの欠如や、様々な表形式のデータセットから基礎知識や能力の獲得の欠如によって制限されている。 本稿では,これらの制約を克服するためのタブラル基礎モデル(TabFM)を提案する。 TabFMは生成表学習の可能性を生かし、訓練済みの大規模言語モデル(LLM)をベースモデルとして使用し、広範囲の表付きデータセットに基づいて目的に設計された目的を用いて微調整する。 このアプローチは、表データの学習に不可欠な深い理解と普遍性を備えたTabFMを提供する。 我々の評価は,TabFMの有効性を裏付けるものである。ゼロショットやインコンテキスト推論のような命令追従タスクに優れるだけでなく,GPT-4のような謎めいたクローズドソースのLCMにも,そのアプローチや,さらには超越といったパフォーマンスを示す。 さらに,少ないデータで微調整を行う場合,本モデルは優れた効率を達成し,豊富なトレーニングデータとの競合性能を維持する。 最後に,TabFMの限界や可能性についても検討し,より強力なTabFMの開発に向けた今後の研究を促進・促進することを目的とする。

Learning on tabular data underpins numerous real-world applications. Despite considerable efforts in developing effective learning models for tabular data, current transferable tabular models remain in their infancy, limited by either the lack of support for direct instruction following in new tasks or the neglect of acquiring foundational knowledge and capabilities from diverse tabular datasets. In this paper, we propose Tabular Foundation Models (TabFMs) to overcome these limitations. TabFMs harness the potential of generative tabular learning, employing a pre-trained large language model (LLM) as the base model and fine-tuning it using purpose-designed objectives on an extensive range of tabular datasets. This approach endows TabFMs with a profound understanding and universal capabilities essential for learning on tabular data. Our evaluations underscore TabFM's effectiveness: not only does it significantly excel in instruction-following tasks like zero-shot and in-context inference, but it also showcases performance that approaches, and in instances, even transcends, the renowned yet mysterious closed-source LLMs like GPT-4. Furthermore, when fine-tuning with scarce data, our model achieves remarkable efficiency and maintains competitive performance with abundant training data. Finally, while our results are promising, we also delve into TabFM's limitations and potential opportunities, aiming to stimulate and expedite future research on developing more potent TabFMs.
翻訳日:2023-10-12 23:21:40 公開日:2023-10-11
# 群集環境における効果的なロボットナビゲーションのための社会運動遅延空間と人間意識の探索

Exploring Social Motion Latent Space and Human Awareness for Effective Robot Navigation in Crowded Environments ( http://arxiv.org/abs/2310.07335v1 )

ライセンス: Link先を確認
Junaid Ahmed Ansari, Satyajit Tourani, Gourav Kumar, Brojeshwar Bhowmick(参考訳) 本研究は,社会運動潜伏空間からロボット制御を学習することで,社会ロボットナビゲーションの新しいアプローチを提案する。 この社会的運動潜在空間を活用することにより,提案手法は,成功率,航法時間,軌道長といった社会的ナビゲーション指標の大幅な改善を実現した。 提案手法の優位性は,様々なシナリオにおけるベースラインモデルとの比較によって示される。 さらに、ロボットに対する人間の意識の概念が社会ロボットナビゲーションの枠組みに導入され、人間の意識を取り入れることで、ロボットとポジティブに対話する能力によって、より短く滑らかな軌道が導かれることが示されている。

This work proposes a novel approach to social robot navigation by learning to generate robot controls from a social motion latent space. By leveraging this social motion latent space, the proposed method achieves significant improvements in social navigation metrics such as success rate, navigation time, and trajectory length while producing smoother (less jerk and angular deviations) and more anticipatory trajectories. The superiority of the proposed method is demonstrated through comparison with baseline models in various scenarios. Additionally, the concept of humans' awareness towards the robot is introduced into the social robot navigation framework, showing that incorporating human awareness leads to shorter and smoother trajectories owing to humans' ability to positively interact with the robot.
翻訳日:2023-10-12 23:21:14 公開日:2023-10-11
# 生物学における言語法則

Linguistic laws in biology ( http://arxiv.org/abs/2310.07387v1 )

ライセンス: Link先を確認
Stuart Semple, Ramon Ferrer-i-Cancho and Morgan L. Gustison(参考訳) 人間言語の共通統計パターンである言語法則は、ほぼ1世紀にわたって量的言語学者によって研究されてきた。 最近では、分子(ゲノム、遺伝子、タンパク質)から生物(動物行動)、生態(個体群と生態系)まで、様々なレベルの生物学的組織にまたがる言語法則と整合したパターンを発見し、これらの法則が言語を超えて広範に広まり始めた。 本稿では, 記述から予測, 理論構築まで, 異なる分析レベルを構成・統合した, 生物学における言語法則研究のための新しい概念的枠組みを提案する。 この枠組みを採用することで、自然システムを支える組織の基本ルール、言語法則の統一、生物学の核となる理論に対する重要な洞察がもたらされる。

Linguistic laws, the common statistical patterns of human language, have been investigated by quantitative linguists for nearly a century. Recently, biologists from a range of disciplines have started to explore the prevalence of these laws beyond language, finding patterns consistent with linguistic laws across multiple levels of biological organisation, from molecular (genomes, genes, and proteins) to organismal (animal behaviour) to ecological (populations and ecosystems). We propose a new conceptual framework for the study of linguistic laws in biology, comprising and integrating distinct levels of analysis, from description to prediction to theory building. Adopting this framework will provide critical new insights into the fundamental rules of organisation underpinning natural systems, unifying linguistic laws and core theory in biology.
翻訳日:2023-10-12 23:15:13 公開日:2023-10-11
# フェデレートラーニングを用いた病理画像分類と脆弱性解析

Histopathological Image Classification and Vulnerability Analysis using Federated Learning ( http://arxiv.org/abs/2310.07380v1 )

ライセンス: Link先を確認
Sankalp Vyas, Amar Nath Patra, Raj Mani Shukla(参考訳) 医療は機械学習(ml)の最先端の応用の一つだ。 従来、MLモデルは中央サーバによってトレーニングされ、さまざまな分散デバイスからデータを集約して、新たに生成されたデータの結果を予測する。 これは、モデルが機密性の高いユーザー情報にアクセスでき、プライバシー上の懸念を引き起こすため、大きな懸念である。 グローバルモデルがコピーをトレーニングしているすべてのクライアントにコピーを送信すると、クライアントが更新(ウェイト)を返送します。 時間とともにグローバルモデルは改善され、より正確になる。 データプライバシは、クライアントのデバイス上でローカルに実行されるため、トレーニング中に保護される。 しかし、グローバルモデルはデータ中毒の影響を受けやすい。 皮膚がんデータセットのプライバシ保存FL技術を開発し、そのモデルがデータ中毒攻撃のリスクが高いことを示す。 10人のクライアントがモデルをトレーニングしますが、そのうちの1つは意図的にラベルをフリップして攻撃します。 これにより、グローバルモデルの精度が低下する。 ラベルのフリップの割合が増加するにつれて、精度が著しく低下する。 確率的勾配降下最適化アルゴリズムを用いて,モデルの最適精度を求める。 FLは、医療診断のためのユーザのプライバシを保護することができるが、対処しなければならないデータ中毒にも脆弱である。

Healthcare is one of the foremost applications of machine learning (ML). Traditionally, ML models are trained by central servers, which aggregate data from various distributed devices to forecast the results for newly generated data. This is a major concern as models can access sensitive user information, which raises privacy concerns. A federated learning (FL) approach can help address this issue: A global model sends its copy to all clients who train these copies, and the clients send the updates (weights) back to it. Over time, the global model improves and becomes more accurate. Data privacy is protected during training, as it is conducted locally on the clients' devices. However, the global model is susceptible to data poisoning. We develop a privacy-preserving FL technique for a skin cancer dataset and show that the model is prone to data poisoning attacks. Ten clients train the model, but one of them intentionally introduces flipped labels as an attack. This reduces the accuracy of the global model. As the percentage of label flipping increases, there is a noticeable decrease in accuracy. We use a stochastic gradient descent optimization algorithm to find the most optimal accuracy for the model. Although FL can protect user privacy for healthcare diagnostics, it is also vulnerable to data poisoning, which must be addressed.
翻訳日:2023-10-12 23:14:57 公開日:2023-10-11
# 因果無監督意味分類

Causal Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2310.07379v1 )

ライセンス: Link先を確認
Junho Kim, Byung-Kwan Lee, Yong Man Ro(参考訳) 教師なしセマンティクスセグメンテーションは、人間ラベルのアノテーションなしで高品質なセマンティクスグループ化を実現することを目的としている。 自己教師付き事前学習の出現に伴い、様々なフレームワークが事前訓練された特徴を利用して予測ヘッドを訓練し、教師なし密集予測を行う。 しかしながら、この教師なし設定における重要な課題は、セグメンテーションの概念に必要なクラスタリングの適切なレベルを決定することである。 そこで本研究では,因果推論からの洞察を活用し,因果的非教師なし意味セグメンテーション(原因)という新しい枠組みを提案する。 具体的には,教師なし予測に適した2ステップタスクを定義するために介入指向アプローチ(すなわちフロントドア調整)を橋渡しする。 最初のステップは、メディエータとして概念クラスタブックを構築することであり、これは、異なるレベルの粒度のコンセプトプロトタイプを離散化形式で表現する。 次に、仲介者は、画素レベルグループ化のための概念的自己教師付き学習への明示的なリンクを確立する。 様々なデータセットに関する広範な実験と分析を通じて、CAUSEの有効性を裏付け、教師なしセマンティックセグメンテーションにおける最先端の性能を達成する。

Unsupervised semantic segmentation aims to achieve high-quality semantic grouping without human-labeled annotations. With the advent of self-supervised pre-training, various frameworks utilize the pre-trained features to train prediction heads for unsupervised dense prediction. However, a significant challenge in this unsupervised setup is determining the appropriate level of clustering required for segmenting concepts. To address it, we propose a novel framework, CAusal Unsupervised Semantic sEgmentation (CAUSE), which leverages insights from causal inference. Specifically, we bridge intervention-oriented approach (i.e., frontdoor adjustment) to define suitable two-step tasks for unsupervised prediction. The first step involves constructing a concept clusterbook as a mediator, which represents possible concept prototypes at different levels of granularity in a discretized form. Then, the mediator establishes an explicit link to the subsequent concept-wise self-supervised learning for pixel-level grouping. Through extensive experiments and analyses on various datasets, we corroborate the effectiveness of CAUSE and achieve state-of-the-art performance in unsupervised semantic segmentation.
翻訳日:2023-10-12 23:14:38 公開日:2023-10-11
# フォトニクスにおける量子自然勾配の実験的最適化

Experimental quantum natural gradient optimization in photonics ( http://arxiv.org/abs/2310.07371v1 )

ライセンス: Link先を確認
Yizhi Wang, Shichuan Xue, Yaxuan Wang, Jiangfang Ding, Weixu Shi, Dongyang Wang, Yong Liu, Yingwen Liu, Xiang Fu, Guangyao Huang, Anqi Huang, Mingtang Deng, and Junjie Wu(参考訳) パラメータ化量子回路と古典オプティマイザの利点を組み合わせた変分量子アルゴリズム(VQA)は、ノイズ中間スケール量子時代の実用的な量子応用を約束する。 VQAの性能は最適化法に大きく依存する。 勾配のない通常の勾配降下法と比較して、パラメータ空間の幾何学的構造を反映する量子自然勾配(QNG)は、より高速な収束を実現し、局所最小化を回避し、回路実行コストを削減できる。 完全プログラム可能なフォトニックチップを用いて,フォトニクスのQNGを初めて実験的に推定した。 he-h$^+$カチオンの解離曲線を求め, フォトニックデバイスにおけるqng最適化のアウトパフォーマンスを検証した。 我々の研究は、QNGをフォトニクスで活用し、実用的な短期量子アプリケーションを実装するという状況を開く。

Variational quantum algorithms (VQAs) combining the advantages of parameterized quantum circuits and classical optimizers, promise practical quantum applications in the Noisy Intermediate-Scale Quantum era. The performance of VQAs heavily depends on the optimization method. Compared with gradient-free and ordinary gradient descent methods, the quantum natural gradient (QNG), which mirrors the geometric structure of the parameter space, can achieve faster convergence and avoid local minima more easily, thereby reducing the cost of circuit executions. We utilized a fully programmable photonic chip to experimentally estimate the QNG in photonics for the first time. We obtained the dissociation curve of the He-H$^+$ cation and achieved chemical accuracy, verifying the outperformance of QNG optimization on a photonic device. Our work opens up a vista of utilizing QNG in photonics to implement practical near-term quantum applications.
翻訳日:2023-10-12 23:14:20 公開日:2023-10-11
# 直交ランダム特徴:明示的な形式とシャープ不等式

Orthogonal Random Features: Explicit Forms and Sharp Inequalities ( http://arxiv.org/abs/2310.07370v1 )

ライセンス: Link先を確認
Nizar Demni and Hachem Kadri(参考訳) ランダム化技術によってカーネルメソッドをスケールアップするためにランダム機能が導入されている。 特に、人気のあるガウス核を近似するためにランダムフーリエ特徴と直交ランダム特徴を用いた。 前者はランダムなガウス行列によって実行され、平均化後のガウス核に正確に通じる。 本研究では,haar直交行列を用いた直交ランダム特徴に基づいて,カーネル近似のバイアスと分散を分析する。 正規化されたベッセル関数を用いてこれらの量を明示的に表現し、直交ランダム特徴はランダムフーリエ特徴よりも有益であるという考えを裏付ける鋭い指数境界を導出する。

Random features have been introduced to scale up kernel methods via randomization techniques. In particular, random Fourier features and orthogonal random features were used to approximate the popular Gaussian kernel. The former is performed by a random Gaussian matrix and leads exactly to the Gaussian kernel after averaging. In this work, we analyze the bias and the variance of the kernel approximation based on orthogonal random features which makes use of Haar orthogonal matrices. We provide explicit expressions for these quantities using normalized Bessel functions and derive sharp exponential bounds supporting the view that orthogonal random features are more informative than random Fourier features.
翻訳日:2023-10-12 23:14:03 公開日:2023-10-11
# 局所微分プライバシーモデルにおけるスパース線形回帰解析の改善

Improved Analysis of Sparse Linear Regression in Local Differential Privacy Model ( http://arxiv.org/abs/2310.07367v1 )

ライセンス: Link先を確認
Liyang Zhu, Meng Ding, Vaneet Aggarwal, Jinhui Xu, Di Wang(参考訳) 本稿では,局所微分プライバシー(LDP)モデルにおける疎線形回帰の問題を再考する。 非対話的かつシーケンシャルな局所モデルにおける既存の研究は、基礎となるパラメータが$$-sparseである場合の下限を得ることに集中しており、より一般的な$k$-sparseケースへの拡張は困難であることが証明されている。 さらに,非インタラクティブLPP (NLDP) アルゴリズムが存在するかどうかも明らかでない。 これらの問題に対処するために、まず、$\epsilon$非インタラクティブなldpモデルで問題を考察し、$n$がサンプルサイズで$d$が空間の次元であるサブガウスデータに対する$\ell_2$-norm推定誤差に基づいて$\omega(\frac{\sqrt{dk\log d}}{\sqrt{n}\epsilon})を低く設定する。 そこで本研究では,この問題の第一種である革新的NLDPアルゴリズムを提案する。 驚くべき結果として、このアルゴリズムは価値ある副産物として、新規で高効率な推定器も生み出す。 このアルゴリズムは、データがサブガウジアンである場合の推定誤差に対して$\tilde{o}({\frac{d\sqrt{k}}{\sqrt{n}\epsilon}})$の上限を達成し、サーバがパブリックだがラベル付きデータを持っている場合は$o(\sqrt{d})$の係数でさらに改善することができる。 逐次的対話型 LDP モデルでは、同様の下界の$\Omega({\frac{\sqrt{dk}}{\sqrt{n}\epsilon}})$を示す。 上界については、以前の方法を修正し、$\tilde{O}(\frac{k\sqrt{d}}{\sqrt{n}\epsilon})$ を成立させることができることを示す。 スパース線形回帰問題では,非プライベートケース,中央DPモデル,局所DPモデルと根本的な差異が認められた。

In this paper, we revisit the problem of sparse linear regression in the local differential privacy (LDP) model. Existing research in the non-interactive and sequentially local models has focused on obtaining the lower bounds for the case where the underlying parameter is $1$-sparse, and extending such bounds to the more general $k$-sparse case has proven to be challenging. Moreover, it is unclear whether efficient non-interactive LDP (NLDP) algorithms exist. To address these issues, we first consider the problem in the $\epsilon$ non-interactive LDP model and provide a lower bound of $\Omega(\frac{\sqrt{dk\log d}}{\sqrt{n}\epsilon})$ on the $\ell_2$-norm estimation error for sub-Gaussian data, where $n$ is the sample size and $d$ is the dimension of the space. We propose an innovative NLDP algorithm, the very first of its kind for the problem. As a remarkable outcome, this algorithm also yields a novel and highly efficient estimator as a valuable by-product. Our algorithm achieves an upper bound of $\tilde{O}({\frac{d\sqrt{k}}{\sqrt{n}\epsilon}})$ for the estimation error when the data is sub-Gaussian, which can be further improved by a factor of $O(\sqrt{d})$ if the server has additional public but unlabeled data. For the sequentially interactive LDP model, we show a similar lower bound of $\Omega({\frac{\sqrt{dk}}{\sqrt{n}\epsilon}})$. As for the upper bound, we rectify a previous method and show that it is possible to achieve a bound of $\tilde{O}(\frac{k\sqrt{d}}{\sqrt{n}\epsilon})$. Our findings reveal fundamental differences between the non-private case, central DP model, and local DP model in the sparse linear regression problem.
翻訳日:2023-10-12 23:13:53 公開日:2023-10-11
# 光に対するschr\"odinger方程式

A Schr\"odinger Equation for Light ( http://arxiv.org/abs/2310.07366v1 )

ライセンス: Link先を確認
Daniel Hodgson(参考訳) この章では、単一光子に対するシュリンガー方程式の文脈における量子化された電磁場(EM)を調べる。 明確にするためには、1次元のシステムのみを考える。 量子状態の時間進化を計算する普遍的なツールとして、単一光子の伝播を記述するシュリンガー方程式が存在する必要がある。 しかし、本質的に相対論的であるため、特殊相対性理論と量子力学の両方の重要な側面は、EM場を定量化する際に組み合わせなければならない。 局所光子のSchr\"odinger方程式のアプローチをとることで、量子化された EM 場の新規かつ以前は見過ごされていた特徴が、光子力学の完全な記述の必須部分となることを示す。 本章では、新しい特徴の徹底的な検討と、量子相対性理論や光子局在化といったトピックにおけるそれらの意義について論じる。

In this chapter we examine the quantised electromagnetic (EM) field in the context of a Schr\"odinger equation for single photons. For clarity we consider only a one-dimensional system. As a universal tool for calculating the time-evolution of quantum states, a Schr\"odinger equation must exist that describes the propagation of single photons. Being inherently relativistic, however, critical aspects of both special relativity and quantum mechanics must be combined when quantising the EM field. By taking the approach of a Schr\"odinger equation for localised photons, we will show how novel and previously overlooked features of the quantised EM field become a necessary part of a complete description of photon dynamics. In this chapter, I shall provide a thorough examination of new features and discuss their significance in topics such as quantum relativity and photon localisation.
翻訳日:2023-10-12 23:13:09 公開日:2023-10-11
# GraphControl: グラフドメイン転送学習のためのUniversal Graph事前学習モデルに条件制御を追加する

GraphControl: Adding Conditional Control to Universal Graph Pre-trained Models for Graph Domain Transfer Learning ( http://arxiv.org/abs/2310.07365v1 )

ライセンス: Link先を確認
Yun Zhu, Yaoke Wang, Haizhou Shi, Zhenshuo Zhang, Siliang Tang(参考訳) グラフ構造化データは、オブジェクト間の複雑な関係をモデル化し、様々なwebアプリケーションを可能にする世界でユビキタスである。 Web上のラベルなしグラフデータの毎日の流入は、これらのアプリケーションにとって大きな可能性を秘めている。 グラフ自己教師付きアルゴリズムは、豊富なラベルのないグラフデータからジェネリック知識を取得することに成功している。 これらの事前トレーニングされたモデルは、さまざまなダウンストリームwebアプリケーションに適用でき、トレーニング時間を短縮し、ダウンストリーム(ターゲット)パフォーマンスを改善する。 しかし、類似しているように見えるドメインの異なるグラフは、属性のセマンティクスの観点からは、トレーニング済みのモデルを下流のタスクに転送する際の困難を生じさせる可能性がある。 具体的には、例えば、下流タスク(特異性)におけるタスク固有の追加情報は通常、事前訓練された表現(転送可能性)を活用できるように意図的に省略される。 このようなトレードオフは、この作品において「伝達可能性-特異性ジレンマ」と呼ばれる。 この課題に対処するために、我々は、より良いグラフドメイン転送学習を実現するために、Controlと呼ばれるGraphControlと呼ばれる革新的なデプロイモジュールを導入しました。 具体的には、普遍的構造事前学習モデルとグラフ制御を利用することで、様々なグラフにまたがる入力空間を整列し、対象データのユニークな特徴を条件付き入力として取り入れる。 これらの条件は、コントロールネットによる微調整や迅速なチューニングの間、段階的にモデルに統合され、パーソナライズされたデプロイメントが容易になる。 実験の結果,提案手法は,対象とする属性データセットに対する事前学習モデルの適応性を著しく向上し,1.4~3倍の性能向上を達成した。 さらに、ターゲットデータに対するトレーニング・バイ・スクラッチ法を同等のマージンで上回り、より高速な収束を示す。

Graph-structured data is ubiquitous in the world which models complex relationships between objects, enabling various Web applications. Daily influxes of unlabeled graph data on the Web offer immense potential for these applications. Graph self-supervised algorithms have achieved significant success in acquiring generic knowledge from abundant unlabeled graph data. These pre-trained models can be applied to various downstream Web applications, saving training time and improving downstream (target) performance. However, different graphs, even across seemingly similar domains, can differ significantly in terms of attribute semantics, posing difficulties, if not infeasibility, for transferring the pre-trained models to downstream tasks. Concretely speaking, for example, the additional task-specific node information in downstream tasks (specificity) is usually deliberately omitted so that the pre-trained representation (transferability) can be leveraged. The trade-off as such is termed as "transferability-specificity dilemma" in this work. To address this challenge, we introduce an innovative deployment module coined as GraphControl, motivated by ControlNet, to realize better graph domain transfer learning. Specifically, by leveraging universal structural pre-trained models and GraphControl, we align the input space across various graphs and incorporate unique characteristics of target data as conditional inputs. These conditions will be progressively integrated into the model during fine-tuning or prompt tuning through ControlNet, facilitating personalized deployment. Extensive experiments show that our method significantly enhances the adaptability of pre-trained models on target attributed datasets, achieving 1.4-3x performance gain. Furthermore, it outperforms training-from-scratch methods on target data with a comparable margin and exhibits faster convergence.
翻訳日:2023-10-12 23:12:53 公開日:2023-10-11
# パラメータの雑音比に対する勾配信号による領域一般化

Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters ( http://arxiv.org/abs/2310.07361v1 )

ライセンス: Link先を確認
Mateusz Michalkiewicz, Masoud Faraki, Xiang Yu, Manmohan Chandraker, Mahsa Baktashmotlagh(参考訳) ソースドメインへのオーバーフィットは、深層ニューラルネットワークの勾配ベースのトレーニングにおいて一般的な問題である。 過パラメータ化モデルを補うために、ドロップアウトに基づくような多くの正規化技術が導入されている。 これらの手法はImageNetのような古典的なベンチマークで大幅に改善されるが、テストセットにおけるドメインシフトの導入によりパフォーマンスが低下する。 本稿では,Bernoulliサンプルドロップアウトマスクの構成の古典的アプローチから脱却し,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。 具体的には、各トレーニングステップでGSNRの高いパラメータを破棄する。 さらに,メタラーニングアプローチを活用し,最適なドロップアウト率を求める作業の負担を軽減する。 提案手法を標準領域一般化ベンチマークで評価し,分類と反偽造問題に対する競合的な結果を得る。

Overfitting to the source domain is a common issue in gradient-based training of deep neural networks. To compensate for the over-parameterized models, numerous regularization techniques have been introduced such as those based on dropout. While these methods achieve significant improvements on classical benchmarks such as ImageNet, their performance diminishes with the introduction of domain shift in the test set i.e. when the unseen data comes from a significantly different distribution. In this paper, we move away from the classical approach of Bernoulli sampled dropout mask construction and propose to base the selection on gradient-signal-to-noise ratio (GSNR) of network's parameters. Specifically, at each training step, parameters with high GSNR will be discarded. Furthermore, we alleviate the burden of manually searching for the optimal dropout ratio by leveraging a meta-learning approach. We evaluate our method on standard domain generalization benchmarks and achieve competitive results on classification and face anti-spoofing problems.
翻訳日:2023-10-12 23:12:23 公開日:2023-10-11
# ProbTS: 時系列予測を調査するための統一ツールキット

ProbTS: A Unified Toolkit to Probe Deep Time-series Forecasting ( http://arxiv.org/abs/2310.07446v1 )

ライセンス: Link先を確認
Jiawen Zhang, Xumeng Wen, Shun Zheng, Jia Li, Jiang Bian(参考訳) 時系列予測は、さまざまなドメインにまたがる無数のアプリケーションにおいて、linchpinとして機能する。 ディープラーニングの成長に伴い、このアリーナは2つに分岐し、ひとつは時系列に適した特定のニューラルネットワークアーキテクチャの構築に焦点を当て、もうひとつは確率予測のための高度な深層生成モデルを活用する。 両方のブランチは大きな進歩を遂げているが、データシナリオ、方法論的焦点、デコードスキームの違いは、深く、調査されていない研究上の疑問を引き起こす。 この知識を橋渡しするために,これら2つの分岐を相乗化・比較する先駆的ツールキットProbTSを紹介する。 統一データモジュール、モジュール化されたモデルモジュール、包括的なevaluatorモジュールが提供され、probtsは両方のブランチからリードメソッドを再検討し、ベンチマークできます。 probtsによる精査は、それぞれの特徴、相対的な強みと弱み、さらなる探検を必要とする領域を強調している。 我々の分析は、より効果的な時系列予測を目指して、研究のための新たな道を示す。

Time-series forecasting serves as a linchpin in a myriad of applications, spanning various domains. With the growth of deep learning, this arena has bifurcated into two salient branches: one focuses on crafting specific neural architectures tailored for time series, and the other harnesses advanced deep generative models for probabilistic forecasting. While both branches have made significant progress, their differences across data scenarios, methodological focuses, and decoding schemes pose profound, yet unexplored, research questions. To bridge this knowledge chasm, we introduce ProbTS, a pioneering toolkit developed to synergize and compare these two distinct branches. Endowed with a unified data module, a modularized model module, and a comprehensive evaluator module, ProbTS allows us to revisit and benchmark leading methods from both branches. The scrutiny with ProbTS highlights their distinct characteristics, relative strengths and weaknesses, and areas that need further exploration. Our analyses point to new avenues for research, aiming for more effective time-series forecasting.
翻訳日:2023-10-12 23:04:21 公開日:2023-10-11
# 視覚強化学習における塑性の再考:データ,モジュール,訓練段階

Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages ( http://arxiv.org/abs/2310.07418v1 )

ライセンス: Link先を確認
Guozheng Ma, Lu Li, Sen Zhang, Zixuan Liu, Zhen Wang, Yixin Chen, Li Shen, Xueqian Wang, Dacheng Tao(参考訳) ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率の良い視覚強化学習(VRL)に不可欠である。 リセットやレギュライゼーションのような手法は可塑性損失を緩和する可能性があるが、vrlフレームワーク内の様々なコンポーネントがエージェントの可塑性に与える影響は、まだよく分かっていない。 本研究では,(1)データの増大が塑性維持に不可欠であること,(2)批判者の塑性損失が効率的なトレーニングを妨げる主要なボトルネックとなること,(3)批判者の塑性を早期に回復するための時間的介入がなければ,その損失は破滅的になる,という,3つの主要な調査に焦点をあてた系統的な実証調査を行った。 これらの知見は, 高再生率 (RR) ジレンマに対処するための新たな戦略を示唆している。 トレーニングプロセス全体に対して静的RRを設定するのではなく、批判者の可塑性レベルに基づいてRRを動的に調整するAdaptive RRを提案する。 広範な評価から,適応rrは早期の破壊的可塑性損失を回避できるだけでなく,後段の再利用頻度が高まり,試料効率が向上することが示唆された。

Plasticity, the ability of a neural network to evolve with new data, is crucial for high-performance and sample-efficient visual reinforcement learning (VRL). Although methods like resetting and regularization can potentially mitigate plasticity loss, the influences of various components within the VRL framework on the agent's plasticity are still poorly understood. In this work, we conduct a systematic empirical exploration focusing on three primary underexplored facets and derive the following insightful conclusions: (1) data augmentation is essential in maintaining plasticity; (2) the critic's plasticity loss serves as the principal bottleneck impeding efficient training; and (3) without timely intervention to recover critic's plasticity in the early stages, its loss becomes catastrophic. These insights suggest a novel strategy to address the high replay ratio (RR) dilemma, where exacerbated plasticity loss hinders the potential improvements of sample efficiency brought by increased reuse frequency. Rather than setting a static RR for the entire training process, we propose Adaptive RR, which dynamically adjusts the RR based on the critic's plasticity level. Extensive evaluations indicate that Adaptive RR not only avoids catastrophic plasticity loss in the early stages but also benefits from more frequent reuse in later phases, resulting in superior sample efficiency.
翻訳日:2023-10-12 23:03:46 公開日:2023-10-11
# ニューロ・シンボリック学習アプローチによる知識グラフアライメントの獲得

What can knowledge graph alignment gain with Neuro-Symbolic learning approaches? ( http://arxiv.org/abs/2310.07417v1 )

ライセンス: Link先を確認
Pedro Giesteira Cotovio, Ernesto Jimenez-Ruiz, Catia Pesquita(参考訳) 知識グラフ(KG)は多くのデータ集約型アプリケーションのバックボーンである。 異なるドメインとプロバイダ間のkgの調整は、よりフルで統合された表現を提供するために必要です。 現在のKGアライメント(KGA)アルゴリズムの厳しい制限は、論理的思考と推論を語彙的、構造的、意味的なデータ学習で表現できないことである。 ディープラーニングモデルは、他のタスクにおける優れたパフォーマンスにインスパイアされたKGAでますます人気を集めていますが、説明可能性、推論、データ効率の制限に悩まされています。 ハイブリッドニューロシンボリック学習モデルは、論理的およびデータ的視点を統合し、説明可能な高品質なアライメントを生成し、人間中心のアプローチによる検証をサポートするという約束を持っている。 本稿は,KGAにおける技術の現状を考察し,ニューロシンボリックな統合の可能性を探究し,これらの分野を統合するための有望な研究方向を明らかにする。

Knowledge Graphs (KG) are the backbone of many data-intensive applications since they can represent data coupled with its meaning and context. Aligning KGs across different domains and providers is necessary to afford a fuller and integrated representation. A severe limitation of current KG alignment (KGA) algorithms is that they fail to articulate logical thinking and reasoning with lexical, structural, and semantic data learning. Deep learning models are increasingly popular for KGA inspired by their good performance in other tasks, but they suffer from limitations in explainability, reasoning, and data efficiency. Hybrid neurosymbolic learning models hold the promise of integrating logical and data perspectives to produce high-quality alignments that are explainable and support validation through human-centric approaches. This paper examines the current state of the art in KGA and explores the potential for neurosymbolic integration, highlighting promising research directions for combining these fields.
翻訳日:2023-10-12 23:03:08 公開日:2023-10-11
# 群衆ビデオにおける人物検出をプッシュする新しいボロノイ型畳み込みニューラルネットワークフレームワーク

A Novel Voronoi-based Convolutional Neural Network Framework for Pushing Person Detection in Crowd Videos ( http://arxiv.org/abs/2310.07416v1 )

ライセンス: Link先を確認
Ahmed Alia, Mohammed Maree, Mohcine Chraibi and Armin Seyfried(参考訳) 群衆内でのプッシュ動作の微視的ダイナミクスを分析することは、群衆のパターンや相互作用に関する貴重な洞察を与えることができる。 群衆動画をプッシュする事例を特定することで、いつ、どこで、なぜそのような行動が起こるのかをより深く理解することができる。 この知識は、より効果的な群集管理戦略を作成し、群集の流れを最適化し、群集全体の体験を向上させるために不可欠である。 しかし、顕微鏡レベルでのプッシュ動作を手動で識別することは困難であり、既存の自動アプローチではそのような微視的な動作は検出できない。 そこで,本稿では,群衆の動画の押し込みを微視的に識別するための新しい自動フレームワークを提案する。 フレームワークには2つの主要コンポーネントがある。 一 特徴抽出及び特徴抽出 ii)ビデオラベリング 特徴抽出コンポーネントにおいて、入力ビデオ中の各人物に関連する局所領域を決定するための新しいボロノイ法を開発した。 その後、これらの領域は efficientnetv1b0 畳み込みニューラルネットワークに供給され、時間とともに各人の深い特徴を抽出する。 第2の構成要素は、全連結層とシグモイド活性化関数の組み合わせを用いて、これらの深い特徴を分析し、ビデオ内のプッシュに関わる個人に注釈を付ける。 このフレームワークは、6つの実世界の実験で作成された新しいデータセットでトレーニングされ、評価される。 実験の結果,提案フレームワークは,比較分析に使用される7つのベースラインメソッドを上回っていることが示唆された。

Analyzing the microscopic dynamics of pushing behavior within crowds can offer valuable insights into crowd patterns and interactions. By identifying instances of pushing in crowd videos, a deeper understanding of when, where, and why such behavior occurs can be achieved. This knowledge is crucial to creating more effective crowd management strategies, optimizing crowd flow, and enhancing overall crowd experiences. However, manually identifying pushing behavior at the microscopic level is challenging, and the existing automatic approaches cannot detect such microscopic behavior. Thus, this article introduces a novel automatic framework for identifying pushing in videos of crowds on a microscopic level. The framework comprises two main components: i) Feature extraction and ii) Video labeling. In the feature extraction component, a new Voronoi-based method is developed for determining the local regions associated with each person in the input video. Subsequently, these regions are fed into EfficientNetV1B0 Convolutional Neural Network to extract the deep features of each person over time. In the second component, a combination of a fully connected layer with a Sigmoid activation function is employed to analyze these deep features and annotate the individuals involved in pushing within the video. The framework is trained and evaluated on a new dataset created using six real-world experiments, including their corresponding ground truths. The experimental findings indicate that the suggested framework outperforms seven baseline methods that are employed for comparative analysis purposes.
翻訳日:2023-10-12 23:02:47 公開日:2023-10-11
# 量子貯留層計算における時系列処理資源としてのスクイーズ

Squeezing as a resource for time series processing in quantum reservoir computing ( http://arxiv.org/abs/2310.07406v1 )

ライセンス: Link先を確認
Jorge Garc\'ia-Beni, Gian Luca Giorgi, Miguel C. Soriano and Roberta, Zambrini(参考訳) Squeezingは、メトロジー、暗号、コンピューティングなど多くの分野で量子リソースとして知られており、マルチモード設定における絡み合いに関連している。 本稿では,時系列処理のためのニューロモルフィック機械学習におけるスクイーズの効果について述べる。 特に,循環型フォトニックアーキテクチャを貯留層計算に適用し,アクティブ結合項とパッシブ結合項の両方を持つハミルトニアンを考慮し,貯水池におけるスクイーズの効果に対処する。 興味深いことに、スクイージングは理想的なモデルから現実的なモデルに移行するとき、実験的なノイズを考慮し、量子貯水池コンピューティングに有害または有用である。 マルチモードスクイーズによりアクセス可能なメモリが向上し,複数のベンチマーク時間的タスクのパフォーマンスが向上することを示す。 この改善の起源は、スクイーズが増加するにつれて、貯水池のロバスト性や再生ノイズにまで遡る。

Squeezing is known to be a quantum resource in many applications in metrology, cryptography, and computing, being related to entanglement in multimode settings. In this work, we address the effects of squeezing in neuromorphic machine learning for time series processing. In particular, we consider a loop-based photonic architecture for reservoir computing and address the effect of squeezing in the reservoir, considering a Hamiltonian with both active and passive coupling terms. Interestingly, squeezing can be either detrimental or beneficial for quantum reservoir computing when moving from ideal to realistic models, accounting for experimental noise. We demonstrate that multimode squeezing enhances its accessible memory, which improves the performance in several benchmark temporal tasks. The origin of this improvement is traced back to the robustness of the reservoir to readout noise as squeezing increases.
翻訳日:2023-10-12 23:02:21 公開日:2023-10-11
# DASpeech: 高速かつ高品質な音声音声合成用非周期変換器

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation ( http://arxiv.org/abs/2310.07403v1 )

ライセンス: Link先を確認
Qingkai Fang, Yan Zhou, Yang Feng(参考訳) direct speech-to-speech translation (s2st) は1つのモデルを用いて、ある言語から別の言語への音声翻訳を行う。 しかし、言語的・音響的多様性があるため、ターゲット音声は複雑なマルチモーダル分布に従い、s2stモデルの高品質翻訳と高速復号化を実現するための課題となっている。 本稿では,高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。 ターゲット音声の複雑な分布をよりよく捉えるために、daspeechは2パスアーキテクチャを採用して生成プロセスを2つのステップに分解し、まず言語デコーダがターゲットテキストを生成し、次に言語デコーダの隠れた状態に基づいて音響デコーダがターゲット音声を生成する。 具体的には,DA-Transformerのデコーダを言語デコーダとし,FastSpeech 2を音響デコーダとして使用する。 DA-Transformerは、有向非巡回グラフ(DAG)による翻訳をモデル化する。 トレーニング中のDAGの潜在経路をすべて考慮し、動的プログラミングにより各ターゲットトークンの隠れ状態を予測し、音響デコーダに供給して目標メルスペクトルを予測する。 推測中、最も確率の高い経路を選択し、その経路に隠れた状態を音響復号器の入力として取る。 CVSS Fr-Enベンチマークの実験では、DASpeechは最先端のS2STモデルTranslatotron 2と同等またはそれ以上の性能を達成でき、オートレグレッシブベースラインに比べて18.53倍のスピードアップを保っている。 従来の非自己回帰S2STモデルと比較して、DASpeechは知識の蒸留や反復的復号化に頼らず、翻訳品質と復号速度の両方で大幅に改善されている。 さらに、DASpeechは、翻訳中にソース音声の話者の声を保存する能力を示す。

Direct speech-to-speech translation (S2ST) translates speech from one language into another using a single model. However, due to the presence of linguistic and acoustic diversity, the target speech follows a complex multimodal distribution, posing challenges to achieving both high-quality translations and fast decoding speeds for S2ST models. In this paper, we propose DASpeech, a non-autoregressive direct S2ST model which realizes both fast and high-quality S2ST. To better capture the complex distribution of the target speech, DASpeech adopts the two-pass architecture to decompose the generation process into two steps, where a linguistic decoder first generates the target text, and an acoustic decoder then generates the target speech based on the hidden states of the linguistic decoder. Specifically, we use the decoder of DA-Transformer as the linguistic decoder, and use FastSpeech 2 as the acoustic decoder. DA-Transformer models translations with a directed acyclic graph (DAG). To consider all potential paths in the DAG during training, we calculate the expected hidden states for each target token via dynamic programming, and feed them into the acoustic decoder to predict the target mel-spectrogram. During inference, we select the most probable path and take hidden states on that path as input to the acoustic decoder. Experiments on the CVSS Fr-En benchmark demonstrate that DASpeech can achieve comparable or even better performance than the state-of-the-art S2ST model Translatotron 2, while preserving up to 18.53x speedup compared to the autoregressive baseline. Compared with the previous non-autoregressive S2ST model, DASpeech does not rely on knowledge distillation and iterative decoding, achieving significant improvements in both translation quality and decoding speed. Furthermore, DASpeech shows the ability to preserve the speaker's voice of the source speech during translation.
翻訳日:2023-10-12 23:02:03 公開日:2023-10-11
# NuTime: 大規模時系列事前トレーニングのための数値的マルチスケール埋め込み

NuTime: Numerically Multi-Scaled Embedding for Large-Scale Time Series Pretraining ( http://arxiv.org/abs/2310.07402v1 )

ライセンス: Link先を確認
Chenguo Lin, Xumeng Wen, Wei Cao, Congrui Huang, Jiang Bian, Stephen Lin, Zhirong Wu(参考訳) 時系列自己教師付きモデルに関する最近の研究は、意味表現の学習において大きな期待を示している。 しかし、数千の時間的シーケンスなど、小規模なデータセットに制限されている。 本研究では,時系列データの数値特性に合わせた重要な技術的貢献を行い,そのモデルを大規模データセット,例えば数百万の時間的シーケンスにスケールできるようにする。 入力をオーバーラップしないウィンドウに分割することでTransformerアーキテクチャを採用する。 各ウィンドウは、その正規化された形状と、各ウィンドウ内の平均と標準偏差を示す2つのスカラー値によって特徴づけられる。 任意の数値スケールを持つスカラー値を高次元ベクトルに埋め込むため,スカラー値に対して可能なすべてのスケールを列挙する数値的多スケール埋め込みモジュールを提案する。 このモデルは、100万以上のシーケンスを含む大規模データセットに対して、単純なコントラスト目的の数値的マルチスケール埋め込みを用いて事前学習を行う。 複数の単変量および多変量分類ベンチマーク上での転送性能について検討する。 本手法は,従来の表現型学習手法に対して著しく改善し,ドメイン固有の非学習型手法と比較しても新しい状態を確立する。

Recent research on time-series self-supervised models shows great promise in learning semantic representations. However, it has been limited to small-scale datasets, e.g., thousands of temporal sequences. In this work, we make key technical contributions that are tailored to the numerical properties of time-series data and allow the model to scale to large datasets, e.g., millions of temporal sequences. We adopt the Transformer architecture by first partitioning the input into non-overlapping windows. Each window is then characterized by its normalized shape and two scalar values denoting the mean and standard deviation within each window. To embed scalar values that may possess arbitrary numerical scales to high-dimensional vectors, we propose a numerically multi-scaled embedding module enumerating all possible scales for the scalar values. The model undergoes pretraining using the proposed numerically multi-scaled embedding with a simple contrastive objective on a large-scale dataset containing over a million sequences. We study its transfer performance on a number of univariate and multivariate classification benchmarks. Our method exhibits remarkable improvement against previous representation learning approaches and establishes the new state of the art, even compared with domain-specific non-learning-based methods.
翻訳日:2023-10-12 23:01:26 公開日:2023-10-11
# パーソナライズによるターゲット指向の対話システム:問題定式化とデータセットの定式化

Target-oriented Proactive Dialogue Systems with Personalization: Problem Formulation and Dataset Curation ( http://arxiv.org/abs/2310.07397v1 )

ライセンス: Link先を確認
Jian Wang, Yi Cheng, Dongding Lin, Chak Tou Leong, Wenjie Li(参考訳) ターゲット指向対話システムは、事前に定義された目標に向けて会話を積極的に操り、特定のシステム側の目標を達成するように設計されている。 本研究では,対話対象として<ダイアローグ行為,トピック>ペアを定式化し,目標達成過程におけるパーソナライズを考慮し,パーソナライズされた目標指向対話の新たな問題を検討する。 しかし、いまだに高品質なデータセットが必要であり、スクラッチから構築するには膨大な人的努力が必要です。 そこで本研究では,ロールプレイングアプローチを用いた自動データセットキュレーションフレームワークを提案する。 この枠組みに基づき,ターゲット指向対話データセット topdial を構築し,マルチターン対話約18kからなる。 実験の結果、このデータセットは高品質であり、パーソナライズされたターゲット指向対話の探索に寄与することが示された。

Target-oriented dialogue systems, designed to proactively steer conversations toward predefined targets or accomplish specific system-side goals, are an exciting area in conversational AI. In this work, by formulating a <dialogue act, topic> pair as the conversation target, we explore a novel problem of personalized target-oriented dialogue by considering personalization during the target accomplishment process. However, there remains an emergent need for high-quality datasets, and building one from scratch requires tremendous human effort. To address this, we propose an automatic dataset curation framework using a role-playing approach. Based on this framework, we construct a large-scale personalized target-oriented dialogue dataset, TopDial, which comprises about 18K multi-turn dialogues. The experimental results show that this dataset is of high quality and could contribute to exploring personalized target-oriented dialogue.
翻訳日:2023-10-12 23:01:11 公開日:2023-10-11
# 軽量セマンティックセグメンテーションのためのCLIP

CLIP for Lightweight Semantic Segmentation ( http://arxiv.org/abs/2310.07394v1 )

ライセンス: Link先を確認
Ke Jin, Wankou Yang(参考訳) 4億のイメージテキストペアをトレーニングした大規模な事前トレーニングモデルCLIPは、イメージレベルではありますが、ビジョンタスクに取り組む上で有望なパラダイムを提供します。 DenseCLIPやLSegといった後の研究は、このパラダイムを意味的セグメンテーションを含む密集した予測にまで拡張し、優れた結果を得た。 しかし、上記の手法は、CLIPに制限された視覚バックボーンに依存するか、Swinのような非制限の重いバックボーンを使用するか、軽量バックボーンに適用すると効果が低下する。 この理由は、比較的限られた特徴抽出能力を持つ軽量ネットワークが、テキスト埋め込みと整合した画像を埋め込むのが困難であるからである。 本研究では,この問題に対処し,軽量ネットワークに適用可能な言語誘導パラダイムを実現する機能融合モジュールを提案する。 具体的には、cnnは画像エンコーダから特徴マップの空間情報と視覚的コンテキストを抽出し、トランスフォーマはテキストエンコーダからテキスト埋め込みを前方に伝播する双方向ブリッジを備えたcnnとtransformerの並列設計である。 モジュールの中核は、視覚とテキストが橋を横切る双方向の融合であり、それらは埋め込み空間における近接とアライメントを促進する。 モジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識をフル活用し、ビジョンバックボーンが何であれ、DenseCLIPのような以前のSOTA作業よりも優れたパフォーマンスを達成することができる。 本手法の優位性を示すため, 大規模な実験を行った。

The large-scale pretrained model CLIP, trained on 400 million image-text pairs, offers a promising paradigm for tackling vision tasks, albeit at the image level. Later works, such as DenseCLIP and LSeg, extend this paradigm to dense prediction, including semantic segmentation, and have achieved excellent results. However, the above methods either rely on CLIP-pretrained visual backbones or use none-pretrained but heavy backbones such as Swin, while falling ineffective when applied to lightweight backbones. The reason for this is that the lightweitht networks, feature extraction ability of which are relatively limited, meet difficulty embedding the image feature aligned with text embeddings perfectly. In this work, we present a new feature fusion module which tackles this problem and enables language-guided paradigm to be applied to lightweight networks. Specifically, the module is a parallel design of CNN and transformer with a two-way bridge in between, where CNN extracts spatial information and visual context of the feature map from the image encoder, and the transformer propagates text embeddings from the text encoder forward. The core of the module is the bidirectional fusion of visual and text feature across the bridge which prompts their proximity and alignment in embedding space. The module is model-agnostic, which can not only make language-guided lightweight semantic segmentation practical, but also fully exploit the pretrained knowledge of language priors and achieve better performance than previous SOTA work, such as DenseCLIP, whatever the vision backbone is. Extensive experiments have been conducted to demonstrate the superiority of our method.
翻訳日:2023-10-12 23:00:54 公開日:2023-10-11
# ユーザ予測アプライアンススケジューリングのための報酬関数の学習

Learning a Reward Function for User-Preferred Appliance Scheduling ( http://arxiv.org/abs/2310.07389v1 )

ライセンス: Link先を確認
Nikolina \v{C}ovi\'c, Jochen Cremer and Hrvoje Pand\v{z}i\'c(参考訳) 電力部門における炭素排出削減には住宅部門による需要対応サービス提供の加速が不可欠である。 インフラストラクチャの進歩とともに、エンドユーザの参加を促すことが重要です。 エンドユーザはプライバシとコントロールを高く評価し、日々のアプライアンス運用スケジュールを作成する際のサービス設計と意思決定プロセスに含めたいと考えています。 さらに、経済的または環境的な動機がない限り、電力系統のバランスをとるために快適さを犠牲にする用意がない。 本稿では,ユーザのニーズや希望を明示的に述べることなく,エンドユーザの日々のアプライアンススケジュール作成を支援する逆強化学習モデルを提案する。 過去の消費データを利用することで、エンド消費者はこれらの決定の作成に暗黙的に参加し、需要対応サービスの提供に引き続き参加する動機となる。

Accelerated development of demand response service provision by the residential sector is crucial for reducing carbon-emissions in the power sector. Along with the infrastructure advancement, encouraging the end users to participate is crucial. End users highly value their privacy and control, and want to be included in the service design and decision-making process when creating the daily appliance operation schedules. Furthermore, unless they are financially or environmentally motivated, they are generally not prepared to sacrifice their comfort to help balance the power system. In this paper, we present an inverse-reinforcement-learning-based model that helps create the end users' daily appliance schedules without asking them to explicitly state their needs and wishes. By using their past consumption data, the end consumers will implicitly participate in the creation of those decisions and will thus be motivated to continue participating in the provision of demand response services.
翻訳日:2023-10-12 23:00:23 公開日:2023-10-11
# 説明可能なaiを用いた加齢に伴う心電図変化の解明

Uncovering ECG Changes during Healthy Aging using Explainable AI ( http://arxiv.org/abs/2310.07463v1 )

ライセンス: Link先を確認
Gabriel Ott, Yannik Schaubelt, Juan Miguel Lopez Alcaraz, Wilhelm Haverkamp, Nils Strodthoff(参考訳) 心臓血管疾患はいまだに世界的死因である。 これにより、心臓の老化過程を深く理解し、心血管適合性の制約を診断する必要がある。 伝統的に、これらの洞察のほとんどは、加齢に伴う心電図(ecg)の特徴変化の分析から引き出されたものである。 しかし、これらの機能は情報的ではあるが、潜在的なデータ関係が曖昧になる可能性がある。 本稿では,生の信号と心電図の特徴形式の両方において,健康な個体のロバストなデータセットからecgデータを解析するために,ディープラーニングモデルとツリーベースモデルを用いる。 次に、説明可能なAI技術を使用してECGの特徴や生信号の特徴を識別する。 木質分類器を用いた分析では, 推定呼吸速度の年齢関連低下が明らかとなり, SDANN値が高いことが高齢者の指標として認識され, 若年者と区別される。 さらに、ディープラーニングモデルでは、年齢予測におけるp波の役割が全年齢群に及ぼし、年齢による異なるp波タイプの分布の変化が示唆される。 これらの発見は、年齢に関するECGの変化に新たな光を当て、従来の機能ベースのアプローチを超越した洞察を与えました。

Cardiovascular diseases remain the leading global cause of mortality. This necessitates a profound understanding of heart aging processes to diagnose constraints in cardiovascular fitness. Traditionally, most of such insights have been drawn from the analysis of electrocardiogram (ECG) feature changes of individuals as they age. However, these features, while informative, may potentially obscure underlying data relationships. In this paper, we employ a deep-learning model and a tree-based model to analyze ECG data from a robust dataset of healthy individuals across varying ages in both raw signals and ECG feature format. Explainable AI techniques are then used to identify ECG features or raw signal characteristics are most discriminative for distinguishing between age groups. Our analysis with tree-based classifiers reveal age-related declines in inferred breathing rates and identifies notably high SDANN values as indicative of elderly individuals, distinguishing them from younger adults. Furthermore, the deep-learning model underscores the pivotal role of the P-wave in age predictions across all age groups, suggesting potential changes in the distribution of different P-wave types with age. These findings shed new light on age-related ECG changes, offering insights that transcend traditional feature-based approaches.
翻訳日:2023-10-12 22:54:27 公開日:2023-10-11
# 大規模地質炭素・エネルギー貯蔵のための効率的な機械学習サーロゲート

Efficient machine-learning surrogates for large-scale geological carbon and energy storage ( http://arxiv.org/abs/2310.07461v1 )

ライセンス: Link先を確認
Teeratorn Kadeethum, Stephen J. Verzi, Hongkyu Yoon(参考訳) 地質学的炭素とエネルギー貯蔵は、炭素排出量をゼロにし、気候変動に対処する上で重要である。 しかし、地質学的要因や運用上の制約により不確実性に直面し、地震発生や地下水汚染の可能性がある。 これらの課題を克服するために,大規模貯水池モデルを効率的に管理するための機械学習(ML)モデルを提案する。 MLアプローチは地質的な炭素貯蔵を約束するが、大規模解析に必要な計算資源は大きな障害である。 我々は、ドメイン分解とトポロジ埋め込みを用いて、時空間点をリンクするディープニューラルネットワークモデルのトレーニングコストを削減する方法を開発した。 このアプローチは、訓練されていないデータであっても、モデルの領域内で正確な予測を可能にし、大規模な地質ストレージアプリケーションに対するML効率を向上させる。

Geological carbon and energy storage are pivotal for achieving net-zero carbon emissions and addressing climate change. However, they face uncertainties due to geological factors and operational limitations, resulting in possibilities of induced seismic events or groundwater contamination. To overcome these challenges, we propose a specialized machine-learning (ML) model to manage extensive reservoir models efficiently. While ML approaches hold promise for geological carbon storage, the substantial computational resources required for large-scale analysis are the obstacle. We've developed a method to reduce the training cost for deep neural operator models, using domain decomposition and a topology embedder to link spatio-temporal points. This approach allows accurate predictions within the model's domain, even for untrained data, enhancing ML efficiency for large-scale geological storage applications.
翻訳日:2023-10-12 22:54:05 公開日:2023-10-11
# PoRF: 正確な神経表面再構成のための残留電位場

PoRF: Pose Residual Field for Accurate Neural Surface Reconstruction ( http://arxiv.org/abs/2310.07449v1 )

ライセンス: Link先を確認
Jia-Wang Bian, Wenjing Bian, Victor Adrian Prisacariu, Philip Torr(参考訳) ニューラルサーフェス再構成は、COLMAPやARKitのような最先端のポーズ推定装置を使用しても、カメラポーズノイズに敏感である。 さらに重要なことに、既存のPose-NeRF共同最適化手法は、現実のシナリオに挑戦する際のポーズの精度を改善するのに苦労している。 これらの課題を克服するために、ポーズ更新の回帰にMLPを使用する新しい暗黙の表現である、ポーズ残留フィールド(\textbf{PoRF})を導入する。 これは、シーケンス全体にわたってグローバル情報を活用するパラメータ共有のため、従来のポーズパラメータ最適化よりも堅牢である。 さらに,計算オーバヘッドを余分に必要とせずに,colmap結果から出力される対応を活用できる監督を強化するためのエピポーラ幾何損失を提案する。 我々の方法は有望な結果をもたらす。 DTUデータセットでは,COLMAPポーズの回転誤差を78\%削減し,シャンファー距離を3.48mmから0.85mmに短縮した。 本手法は,カジュアルにキャプチャされた360度ビデオを含むmobilebrickデータセットにおいて,arkitのポーズを洗練し,69.18から75.67までの再構成f1スコアを改善する。 これらの成果は,現実世界のシナリオにおいて,カメラポーズの精密化と神経表面再構成の精度向上に本手法の有効性を示す。

Neural surface reconstruction is sensitive to the camera pose noise, even if state-of-the-art pose estimators like COLMAP or ARKit are used. More importantly, existing Pose-NeRF joint optimisation methods have struggled to improve pose accuracy in challenging real-world scenarios. To overcome the challenges, we introduce the pose residual field (\textbf{PoRF}), a novel implicit representation that uses an MLP for regressing pose updates. This is more robust than the conventional pose parameter optimisation due to parameter sharing that leverages global information over the entire sequence. Furthermore, we propose an epipolar geometry loss to enhance the supervision that leverages the correspondences exported from COLMAP results without the extra computational overhead. Our method yields promising results. On the DTU dataset, we reduce the rotation error by 78\% for COLMAP poses, leading to the decreased reconstruction Chamfer distance from 3.48mm to 0.85mm. On the MobileBrick dataset that contains casually captured unbounded 360-degree videos, our method refines ARKit poses and improves the reconstruction F1 score from 69.18 to 75.67, outperforming that with the dataset provided ground-truth pose (75.14). These achievements demonstrate the efficacy of our approach in refining camera poses and improving the accuracy of neural surface reconstruction in real-world scenarios.
翻訳日:2023-10-12 22:53:52 公開日:2023-10-11
# 画像補完のための距離重み付きトランスネットワーク

Distance-based Weighted Transformer Network for Image Completion ( http://arxiv.org/abs/2310.07440v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Huiyu Zhou, Xuelong Li, and Yue Lu(参考訳) 画像生成の課題は、構造優先問題や変換問題として効果的にモデル化されてきた。 しかしながら、既存のモデルは、特定の固有の特徴(例えば局所帰納的事前)のため、グローバルな入力画像構造を理解するのに不十分な性能を持っている。 近年の研究では、自己着脱が画像補完問題の効率的なモデリング手法であることが示されている。 本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 私たちのモデルでは、畳み込みニューラルネットワーク(cnns)とdwtブロックの両方の強みを利用して、画像補完プロセスを強化しています。 特に、cnnは粗い事前の局所的なテクスチャ情報を強化するために使用され、dwtブロックは特定の粗いテクスチャとコヒーレントな視覚構造を回復するために使用される。 CNNを使って機能マップを作成する現在のアプローチとは異なり、我々はDWTを使ってグローバルな依存関係をエンコードし、距離に基づく重み付けされた特徴マップを計算する。 一方, 繰り返しテクスチャをよりよく作成するために, エンコーダのスキップ特徴と生成器が提供する粗い特徴を組み合わせるために, 残差高速フーリエ畳み込み(res-ffc)ブロックを導入する。 さらに,畳み込みの非ゼロ値の正規化と,勾配ノルムの正規化のためのネットワーク層を微調整し,効率的なトレーニングスタビリザーを実現するための簡易かつ効果的な手法を提案する。 3つの挑戦的なデータセットに対する大規模な定量的および定性的実験は、既存のアプローチと比較して提案モデルが優れていることを示す。

The challenge of image generation has been effectively modeled as a problem of structure priors or transformation. However, existing models have unsatisfactory performance in understanding the global input image structures because of particular inherent features (for example, local inductive prior). Recent studies have shown that self-attention is an efficient modeling technique for image completion problems. In this paper, we propose a new architecture that relies on Distance-based Weighted Transformer (DWT) to better understand the relationships between an image's components. In our model, we leverage the strengths of both Convolutional Neural Networks (CNNs) and DWT blocks to enhance the image completion process. Specifically, CNNs are used to augment the local texture information of coarse priors and DWT blocks are used to recover certain coarse textures and coherent visual structures. Unlike current approaches that generally use CNNs to create feature maps, we use the DWT to encode global dependencies and compute distance-based weighted feature maps, which substantially minimizes the problem of visual ambiguities. Meanwhile, to better produce repeated textures, we introduce Residual Fast Fourier Convolution (Res-FFC) blocks to combine the encoder's skip features with the coarse features provided by our generator. Furthermore, a simple yet effective technique is proposed to normalize the non-zero values of convolutions, and fine-tune the network layers for regularization of the gradient norms to provide an efficient training stabiliser. Extensive quantitative and qualitative experiments on three challenging datasets demonstrate the superiority of our proposed model compared to existing approaches.
翻訳日:2023-10-12 22:53:26 公開日:2023-10-11
# 時系列データにおける極限事象予測のための一般化混合モデル

Generalized Mixture Model for Extreme Events Forecasting in Time Series Data ( http://arxiv.org/abs/2310.07435v1 )

ライセンス: Link先を確認
Jincheng Wang, Yue Gao(参考訳) 時系列予測(TSF)は、天気予報、交通制御、株価予測など幅広い分野で広く研究されているトピックである。 時系列の極端な値は、しばしば人間と自然のシステムに大きな影響を与えるが、それらの予測は、そのまれな発生のために困難である。 極値理論(EVT)に基づく統計的手法は、極値の分布をモデル化するための体系的なアプローチ、特にしきい値を超えた超値の分布をモデル化するための一般化されたパレート分布を提供する。 重み付きデータを扱う際のディープラーニングのサブパー性能を克服するために,エクストリームイベントに焦点をあてる新しい枠組みを提案する。 具体的には,時系列予測のためのDeep Extreme Mixture Model with Autoencoder (DEMMA)を提案する。 モデルは2つの主要なモジュールから構成される。 1)Hurdleモデルと再パラメータ化GP分布に基づく一般化混合分布は、極しきい値に依存しない。 2)オートエンコーダを用いたLSTM特徴抽出器と時間的注意機構を備えた量子予測モジュール。 複数の実世界の降雨データセットにアプローチの有効性を示す。

Time Series Forecasting (TSF) is a widely researched topic with broad applications in weather forecasting, traffic control, and stock price prediction. Extreme values in time series often significantly impact human and natural systems, but predicting them is challenging due to their rare occurrence. Statistical methods based on Extreme Value Theory (EVT) provide a systematic approach to modeling the distribution of extremes, particularly the Generalized Pareto (GP) distribution for modeling the distribution of exceedances beyond a threshold. To overcome the subpar performance of deep learning in dealing with heavy-tailed data, we propose a novel framework to enhance the focus on extreme events. Specifically, we propose a Deep Extreme Mixture Model with Autoencoder (DEMMA) for time series prediction. The model comprises two main modules: 1) a generalized mixture distribution based on the Hurdle model and a reparameterized GP distribution form independent of the extreme threshold, 2) an Autoencoder-based LSTM feature extractor and a quantile prediction module with a temporal attention mechanism. We demonstrate the effectiveness of our approach on multiple real-world rainfall datasets.
翻訳日:2023-10-12 22:52:59 公開日:2023-10-11
# HealthWalk: センサベースのローラーウォーカーアシストによる健康と移動の促進

HealthWalk: Promoting Health and Mobility through Sensor-Based Rollator Walker Assistance ( http://arxiv.org/abs/2310.07434v1 )

ライセンス: Link先を確認
Ivanna Kramer, Kevin Weirauch, Sabine Bauer, Mark Oliver Mints, Peer Neubert(参考訳) ローラーウォーカーは、身体的制限のある人々に移動性を高め、より長く社会に参加するための自信と独立を与える。 しかし、ローラー・ウォーカーのユーザーは姿勢が悪く、さらに健康上の問題が生じ、最悪の場合には転倒することが多い。 センサーをrollator walkerの設計に統合することは、この問題に対処し、他のいくつかの興味深いユースケースを可能にするプラットフォームを作るのに役立つ。 本稿では,既存システムの概要と今後の課題について概説する。 また,高齢者,慢性関節リウマチ,多発性硬化症,パーキンソン病患者,視覚障害のある人を対象に,早期のHealthWalk Rollator walkerのプロトタイプを提示した。

Rollator walkers allow people with physical limitations to increase their mobility and give them the confidence and independence to participate in society for longer. However, rollator walker users often have poor posture, leading to further health problems and, in the worst case, falls. Integrating sensors into rollator walker designs can help to address this problem and results in a platform that allows several other interesting use cases. This paper briefly overviews existing systems and the current research directions and challenges in this field. We also present our early HealthWalk rollator walker prototype for data collection with older people, rheumatism, multiple sclerosis and Parkinson patients, and individuals with visual impairments.
翻訳日:2023-10-12 22:52:41 公開日:2023-10-11
# 自動割引スケジューリングによる観察からの模倣学習

Imitation Learning from Observation with Automatic Discount Scheduling ( http://arxiv.org/abs/2310.07433v1 )

ライセンス: Link先を確認
Yuyang Liu, Weijun Dong, Yingdong Hu, Chuan Wen, Zhao-Heng Yin, Chongjie Zhang, Yang Gao(参考訳) 人間はしばしば観察と模倣によって新しいスキルを得る。 ロボットエージェントにとって、インターネット上で利用可能な多数のラベルのないビデオデモデータから学ぶことは、専門家をそのアクションにアクセスせずに模倣することを必要とし、Imitation Learning from Observations (ILfO)として知られる課題を提示している。 ILfO問題に取り組むための一般的なアプローチは、エージェントと専門家の観察から計算したプロキシ報酬を利用して、それらを逆強化学習問題に変換することである。 いずれにせよ,プログレッシブ依存特性に特徴付けられるタスクがこのようなアプローチに重大な課題をもたらすことは明らかであり,これらのタスクでは,エージェントは,後続のタスクを習得する前に,まず専門家の以前の振る舞いを学習する必要がある。 調査の結果,後段に割り当てられた報奨信号が初期行動の学習を妨げることが主な原因であることが判明した。 この課題に対処するために、エージェントが後続のエージェントに進む前に以前の動作をマスターできる新しいILfOフレームワークを提案する。 学習段階での強化学習における割引要因を適応的に変更し、初期報酬を優先し、初期行動がマスターされた場合にのみ後続報酬を徐々に実施する自動割引スケジューリング(ads)機構を導入する。 9つのメタワールドタスクで実施した実験により,本手法がすべてのタスクにおいて,解決不能なメソッドを含む最先端のメソッドを大幅に上回ることを実証した。

Humans often acquire new skills through observation and imitation. For robotic agents, learning from the plethora of unlabeled video demonstration data available on the Internet necessitates imitating the expert without access to its action, presenting a challenge known as Imitation Learning from Observations (ILfO). A common approach to tackle ILfO problems is to convert them into inverse reinforcement learning problems, utilizing a proxy reward computed from the agent's and the expert's observations. Nonetheless, we identify that tasks characterized by a progress dependency property pose significant challenges for such approaches; in these tasks, the agent needs to initially learn the expert's preceding behaviors before mastering the subsequent ones. Our investigation reveals that the main cause is that the reward signals assigned to later steps hinder the learning of initial behaviors. To address this challenge, we present a novel ILfO framework that enables the agent to master earlier behaviors before advancing to later ones. We introduce an Automatic Discount Scheduling (ADS) mechanism that adaptively alters the discount factor in reinforcement learning during the training phase, prioritizing earlier rewards initially and gradually engaging later rewards only when the earlier behaviors have been mastered. Our experiments, conducted on nine Meta-World tasks, demonstrate that our method significantly outperforms state-of-the-art methods across all tasks, including those that are unsolvable by them.
翻訳日:2023-10-12 22:52:28 公開日:2023-10-11
# 非バックトラックグラフニューラルネットワーク

Non-backtracking Graph Neural Networks ( http://arxiv.org/abs/2310.07430v1 )

ライセンス: Link先を確認
Seonghyun Park, Narae Ryu, Gahee Kim, Dongyeop Woo, Se-Young Yun, Sungsoo Ahn(参考訳) グラフニューラルネットワークの有名なメッセージパッシング更新は、ローカルで計算可能な更新を伴う大規模グラフの表現を可能にする。 しかし、ローカル更新はバックトラックに悩まされ、すなわちメッセージは同じエッジを2回流し、以前訪問したノードを再変更する。 メッセージフローの数は更新数によって指数関数的に増加するため、ローカル更新の冗長性は、グラフニューラルネットワークが下流タスクの特定のメッセージフローを正確に認識することを妨げる。 本研究では,非バックトラックグラフニューラルネットワーク(NBA-GNN)を用いて,以前に訪れたノードからのメッセージを組み込むことなくメッセージを更新する冗長性を解決することを提案する。 さらに, NBA-GNNは, GNNの過度な監視を緩和し, NBA-GNNと, 確率的ブロックモデル回復のための非追跡更新の顕著な性能との接続を確立する。 NBA-GNNの長距離グラフベンチマークとトランスダクティブノード分類問題に対する有効性を実証的に検証した。

The celebrated message-passing updates for graph neural networks allow the representation of large-scale graphs with local and computationally tractable updates. However, the local updates suffer from backtracking, i.e., a message flows through the same edge twice and revisits the previously visited node. Since the number of message flows increases exponentially with the number of updates, the redundancy in local updates prevents the graph neural network from accurately recognizing a particular message flow for downstream tasks. In this work, we propose to resolve such a redundancy via the non-backtracking graph neural network (NBA-GNN) that updates a message without incorporating the message from the previously visited node. We further investigate how NBA-GNN alleviates the over-squashing of GNNs, and establish a connection between NBA-GNN and the impressive performance of non-backtracking updates for stochastic block model recovery. We empirically verify the effectiveness of our NBA-GNN on long-range graph benchmark and transductive node classification problems.
翻訳日:2023-10-12 22:52:00 公開日:2023-10-11
# マルチコンセプトのT2I-Zero: テキスト埋め込みだけにこだわる

Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else ( http://arxiv.org/abs/2310.07419v1 )

ライセンス: Link先を確認
Hazarapet Tunanyan, Dejia Xu, Shant Navasardyan, Zhangyang Wang, Humphrey Shi(参考訳) テキスト間拡散モデルの最近の進歩により、テキストプロンプトからの画像のフォトリアリスティック生成が可能になった。 大きな進歩にもかかわらず、既存のモデルは、人間の想像力を可視化する能力を制限するため、構成的マルチコンセプト画像の自然生成に苦慮している。 この問題に対する最近の取り組みはいくつかあるが、追加のトレーニングを導入するか、推論時にガイダンスを採用するかのどちらかである。 本研究では,事前学習した拡散モデルを用いた自然マルチコンセプション生成という,より野心的な目標について考察する。 この目的を達成するために、事前訓練されたテキスト-画像拡散モデルに使用されるテキスト埋め込みの限界を特定する。 具体的には,マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。 さらに,よりリアルなマルチコンセプタテキスト対画像生成のために,テキスト埋め込みを微調整(再トレーニングしない)することで,上記の問題を克服する最小の低コストソリューションも設計する。 類似度による補正手法は、最も類似したトークンから意味的特徴を収集し、貢献をローカライズすることにより、概念の埋め込みを微調整する。 概念の特徴の混合を避けるため、異なる概念からの貢献の重複を排除できる、横断的非最大抑制も適用する。 実験により,拡散ステップに追加のトレーニングや推論コストを課すことなく,テキスト対画像処理,画像操作,パーソナライズタスクにおける従来の手法よりも優れた手法が得られた。

Recent advances in text-to-image diffusion models have enabled the photorealistic generation of images from text prompts. Despite the great progress, existing models still struggle to generate compositional multi-concept images naturally, limiting their ability to visualize human imagination. While several recent works have attempted to address this issue, they either introduce additional training or adopt guidance at inference time. In this work, we consider a more ambitious goal: natural multi-concept generation using a pre-trained diffusion model, and with almost no extra cost. To achieve this goal, we identify the limitations in the text embeddings used for the pre-trained text-to-image diffusion models. Specifically, we observe concept dominance and non-localized contribution that severely degrade multi-concept generation performance. We further design a minimal low-cost solution that overcomes the above issues by tweaking (not re-training) the text embeddings for more realistic multi-concept text-to-image generation. Our Correction by Similarities method tweaks the embedding of concepts by collecting semantic features from most similar tokens to localize the contribution. To avoid mixing features of concepts, we also apply Cross-Token Non-Maximum Suppression, which excludes the overlap of contributions from different concepts. Experiments show that our approach outperforms previous methods in text-to-image, image manipulation, and personalization tasks, despite not introducing additional training or inference costs to the diffusion steps.
翻訳日:2023-10-12 22:51:43 公開日:2023-10-11
# S4C: ニューラルネットワークを用いた自己監視セマンティックシーン補完

S4C: Self-Supervised Semantic Scene Completion with Neural Fields ( http://arxiv.org/abs/2310.07522v1 )

ライセンス: Link先を確認
Adrian Hayler, Felix Wimbauer, Dominik Muhle, Christian Rupprecht, Daniel Cremers(参考訳) 3Dセマンティックシーン理解はコンピュータビジョンの基本的な課題である。 モバイルエージェントは任意の環境を自律的に計画し、ナビゲートすることができる。 SSCはこの課題を、シーンのスパース観測から密な幾何学と意味情報を共同で推定するものとして定式化している。 SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。 このプロセスは、コストがかかり、スケールが良くない特別なセンサーと手によるアノテーションに依存している。 この問題を克服するため,本研究では3次元基底データに依存しないsscに対する最初の自己教師ありアプローチであるs4cを提案する。 提案手法は,1つの画像からシーンを再構成し,トレーニング中にオフザシェルフ画像セグメンテーションネットワークから生成された映像と擬似セグメンテーションの真実のみに依存する。 離散的なボクセルグリッドを使用する既存の方法とは異なり、シーンは暗黙のセマンティックフィールドとして表現する。 この定式化により、占有率とセマンティクスクラスのカメラフラスタム内の任意のポイントをクエリできる。 私たちのアーキテクチャはレンダリングベースの自己管理的損失によって訓練されています。 しかしながら,本手法は完全教師付き最先端手法に近い性能を実現する。 さらに,強い一般化能力を示し,遠方から見て正確なセグメンテーションマップを合成する。

3D semantic scene understanding is a fundamental challenge in computer vision. It enables mobile agents to autonomously plan and navigate arbitrary environments. SSC formalizes this challenge as jointly estimating dense geometry and semantic information from sparse observations of a scene. Current methods for SSC are generally trained on 3D ground truth based on aggregated LiDAR scans. This process relies on special sensors and annotation by hand which are costly and do not scale well. To overcome this issue, our work presents the first self-supervised approach to SSC called S4C that does not rely on 3D ground truth data. Our proposed method can reconstruct a scene from a single image and only relies on videos and pseudo segmentation ground truth generated from off-the-shelf image segmentation network during training. Unlike existing methods, which use discrete voxel grids, we represent scenes as implicit semantic fields. This formulation allows querying any point within the camera frustum for occupancy and semantic class. Our architecture is trained through rendering-based self-supervised losses. Nonetheless, our method achieves performance close to fully supervised state-of-the-art methods. Additionally, our method demonstrates strong generalization capabilities and can synthesize accurate segmentation maps for far away viewpoints.
翻訳日:2023-10-12 22:43:25 公開日:2023-10-11
# 偶発性のための多様性:効率的な適応と伝達のための多様な行動の学習

Diversity for Contingency: Learning Diverse Behaviors for Efficient Adaptation and Transfer ( http://arxiv.org/abs/2310.07493v1 )

ライセンス: Link先を確認
Finn Rietz and Johannes Andreas Stork(参考訳) 与えられたタスクに対するすべての有用なソリューションを見つけることは、タスクや遷移ダイナミクスの変化を考慮するために、転送可能なRLエージェントにとって不可欠である。 これは、現在のタスクとダイナミクスを考えると、最適なポリシーを見つけることのみに関心を持つ古典的なRLアルゴリズムでは考慮されていない。 与えられたタスクの全ての可能な解を見つけ、転送設定でうまく動作し、タスクの変更や遷移ダイナミクスに迅速に適応するエージェントを得るための簡単な方法を提案する。 提案手法はポリシーの集合を反復的に学習するが,その後の各ポリシは,従来のすべてのポリシーでは不可能な解が得られるように制約される。 従来の手法と異なり,提案手法では新たな発見のための追加モデルの学習を必要とせず,動作選択や最適化ステップに制約を直接組み込むことで,タスクと新規報酬信号のバランスを回避できる。

Discovering all useful solutions for a given task is crucial for transferable RL agents, to account for changes in the task or transition dynamics. This is not considered by classical RL algorithms that are only concerned with finding the optimal policy, given the current task and dynamics. We propose a simple method for discovering all possible solutions of a given task, to obtain an agent that performs well in the transfer setting and adapts quickly to changes in the task or transition dynamics. Our method iteratively learns a set of policies, while each subsequent policy is constrained to yield a solution that is unlikely under all previous policies. Unlike prior methods, our approach does not require learning additional models for novelty detection and avoids balancing task and novelty reward signals, by directly incorporating the constraint into the action selection and optimization steps.
翻訳日:2023-10-12 22:43:06 公開日:2023-10-11
# 条件拡散モデルを用いた深部ニューラルネットワークへのブラックボックス攻撃の促進

Boosting Black-box Attack to Deep Neural Networks with Conditional Diffusion Models ( http://arxiv.org/abs/2310.07492v1 )

ライセンス: Link先を確認
Renyang Liu, Wei Zhou, Tianwei Zhang, Kangjie Chen, Jun Zhao and Kwok-Yan Lam(参考訳) 既存のブラックボックス攻撃は、ディープラーニングモデルを欺く敵の例(AE)を作成する有望な可能性を示している。 これらの攻撃のほとんどは、膨大な最適化スペースを処理し、大量のクエリを必要とするため、現実のシナリオにおいて限られた実用的な影響を示す必要がある。 本稿では,クエリ制限状況下でのAE生成のクエリ効率を向上させるため,新しいブラックボックス攻撃戦略である条件拡散モデル攻撃(CDMA)を提案する。 cdmaの重要な洞察は、分布変換問題としてのae合成のタスクを定式化することであり、良質な例とその対応するaesは2つの異なる分布から来ており、特定の変換器で互いに変換することができる。 従来の \textit{query-and-optimization} アプローチとは異なり、上記のデータコンバータを用いて直接条件変換が可能なAEを生成し、必要なクエリ数を著しく削減できる。 CDMAは、クリーンサンプルからAEへの変換を学習し、様々な防御戦略に抵抗する摂動騒音の円滑な発達を保証するコンバータとして、条件付き脱雑音拡散確率モデルを採用している。 3つのベンチマークデータセットに対して9つの最先端のブラックボックス攻撃と比較することによりCDMAの有効性と効率を実証する。 平均すると、CDMAはクエリ数をほんの数回に減らすことができ、ほとんどの場合、クエリカウントはONEのみである。 また、CDMAは、すべてのデータセットに対する未ターゲット攻撃と、CIFAR-10に対するターゲット攻撃に対して、$\epsilon=16$のノイズ予算で、99\%の攻撃成功率を得ることができることを示す。

Existing black-box attacks have demonstrated promising potential in creating adversarial examples (AE) to deceive deep learning models. Most of these attacks need to handle a vast optimization space and require a large number of queries, hence exhibiting limited practical impacts in real-world scenarios. In this paper, we propose a novel black-box attack strategy, Conditional Diffusion Model Attack (CDMA), to improve the query efficiency of generating AEs under query-limited situations. The key insight of CDMA is to formulate the task of AE synthesis as a distribution transformation problem, i.e., benign examples and their corresponding AEs can be regarded as coming from two distinctive distributions and can transform from each other with a particular converter. Unlike the conventional \textit{query-and-optimization} approach, we generate eligible AEs with direct conditional transform using the aforementioned data converter, which can significantly reduce the number of queries needed. CDMA adopts the conditional Denoising Diffusion Probabilistic Model as the converter, which can learn the transformation from clean samples to AEs, and ensure the smooth development of perturbed noise resistant to various defense strategies. We demonstrate the effectiveness and efficiency of CDMA by comparing it with nine state-of-the-art black-box attacks across three benchmark datasets. On average, CDMA can reduce the query count to a handful of times; in most cases, the query count is only ONE. We also show that CDMA can obtain $>99\%$ attack success rate for untarget attacks over all datasets and targeted attack over CIFAR-10 with the noise budget of $\epsilon=16$.
翻訳日:2023-10-12 22:42:51 公開日:2023-10-11
# 予測性能向上のための個人環境評価時系列データのモデルに基づくクラスタリング

Model-based Clustering of Individuals' Ecological Momentary Assessment Time-series Data for Improving Forecasting Performance ( http://arxiv.org/abs/2310.07491v1 )

ライセンス: Link先を確認
Mandani Ntekouli, Gerasimos Spanakis, Lourens Waldorp, Anne Roefs(参考訳) ecoological momentary assessment(ema)研究を通じて、複数の個人にまたがる時系列データが収集され、感情的行動のさまざまな項目を継続的に監視する。 このような複雑なデータは、パーソナライズされたモデルを使用して、個別のレベルで分析される。 しかし、類似した個人の追加情報がこれらのモデルを強化し、より優れた個人の説明につながる可能性が高いと考えられている。 このように、クラスタリングは最も類似した個人をグループ化することを目的として検討され、その後、個人の予測性能を改善するためにグループベースモデルでこの情報を使用する。 より具体的には、モデルベースのクラスタリングアプローチを2つ検討し、1つはパーソナライズされたモデルのモデル抽出パラメータ、もう1つはモデルベースの予測パフォーマンスに最適化されている。 いずれの手法も内在的クラスタリング評価尺度(例えばシルエット係数)と下流予測スキームの性能を用いて分析され、各予測グループモデルは1つのクラスタに属するすべての個人を記述するために使用される。 これらのうち, 評価評価指標のすべての観点から, 性能に基づくクラスタリングが最良の結果を示す。 別の評価レベルとして、これらのグループモデルの性能を、パーソナライズされたオールインワングループとランダムなグループベースコンセプトの3つのベースラインシナリオと比較する。 この比較結果から,クラスタリング手法の優位性が再確認され,グループベース情報の利用が全個人のデータ全体のパフォーマンスを効果的に向上させる可能性が示唆された。

Through Ecological Momentary Assessment (EMA) studies, a number of time-series data is collected across multiple individuals, continuously monitoring various items of emotional behavior. Such complex data is commonly analyzed in an individual level, using personalized models. However, it is believed that additional information of similar individuals is likely to enhance these models leading to better individuals' description. Thus, clustering is investigated with an aim to group together the most similar individuals, and subsequently use this information in group-based models in order to improve individuals' predictive performance. More specifically, two model-based clustering approaches are examined, where the first is using model-extracted parameters of personalized models, whereas the second is optimized on the model-based forecasting performance. Both methods are then analyzed using intrinsic clustering evaluation measures (e.g. Silhouette coefficients) as well as the performance of a downstream forecasting scheme, where each forecasting group-model is devoted to describe all individuals belonging to one cluster. Among these, clustering based on performance shows the best results, in terms of all examined evaluation measures. As another level of evaluation, those group-models' performance is compared to three baseline scenarios, the personalized, the all-in-one group and the random group-based concept. According to this comparison, the superiority of clustering-based methods is again confirmed, indicating that the utilization of group-based information could be effectively enhance the overall performance of all individuals' data.
翻訳日:2023-10-12 22:42:22 公開日:2023-10-11
# KwaiYiiMath:テクニカルレポート

KwaiYiiMath: Technical Report ( http://arxiv.org/abs/2310.07488v1 )

ライセンス: Link先を確認
Jiayi Fu, Lei Lin, Xiaoyang Gao, Pengli Liu, Zhengzong Chen, Zhirui Yang, Shengnan Zhang, Xue Zheng, Yan Li, Yuliang Liu, Xucheng Ye, Yiqiao Liao, Chao Liao, Bin Chen, Chengru Song, Junchen Wan, Zijia Lin, Fuzheng Zhang, Zhongyuan Wang, Di Zhang, Kun Gai(参考訳) 大規模言語モデル(LLM)の最近の進歩は、多段階推論を必要とする数学的タスクであっても、様々な自然言語処理(NLP)下流タスクを扱う際、顕著な能力を示している。 本報告では,英語と中国語の数学的タスクを含む,スーパービジョンファインチューニング(SFT)と強化学習(RLHF)を適用することで,KwaiYiiBase1の数学的推論能力を向上するKwaiYiiMathを紹介する。 また, モデルが生成した問題解決過程の正しさを評価するために, 188例からなる小型の中国小学校数学テストセット(KMath)を構築した。 実験により、KwaiYiiMathはGSM8k, CMath, KMathの最先端(SOTA)性能を同様のサイズモデルと比較できることが示された。

Recent advancements in large language models (LLMs) have demonstrated remarkable abilities in handling a variety of natural language processing (NLP) downstream tasks, even on mathematical tasks requiring multi-step reasoning. In this report, we introduce the KwaiYiiMath which enhances the mathematical reasoning abilities of KwaiYiiBase1, by applying Supervised Fine-Tuning (SFT) and Reinforced Learning from Human Feedback (RLHF), including on both English and Chinese mathematical tasks. Meanwhile, we also constructed a small-scale Chinese primary school mathematics test set (named KMath), consisting of 188 examples to evaluate the correctness of the problem-solving process generated by the models. Empirical studies demonstrate that KwaiYiiMath can achieve state-of-the-art (SOTA) performance on GSM8k, CMath, and KMath compared with the similar size models, respectively.
翻訳日:2023-10-12 22:41:55 公開日:2023-10-11
# 自動音韻再構成のためのコグネートトランスフォーマーとコグネート反射予測

Cognate Transformer for Automated Phonological Reconstruction and Cognate Reflex Prediction ( http://arxiv.org/abs/2310.07487v1 )

ライセンス: Link先を確認
V.S.D.S. Mahesh Akavarapu and Arnab Bhattacharya(参考訳) 音韻復元は歴史的言語学における中心的な問題の1つであり、祖先語の原語が娘言語の観察された子音語から決定される。 歴史言語学への計算的アプローチは、利用可能な言語データに基づいてモデルを学習することによってタスクを自動化しようとする。 計算生物学から導かれたいくつかのアイデアと技術は、計算史言語学の分野でうまく適用されている。 そこで我々は,自動音韻再構成の問題に対して,タンパク質言語モデルであるMSA Transformerを適用した。 msaトランスフォーマは入力として複数のシーケンスアライメントを訓練するので、アライメントされたコグネートワードに応用できる。 したがって、当社のモデルをCognate Transformerと名付けます。 また,娘言語の反射語を他の娘言語の共起語に基づいて予測するコグネイト反射予測(cognate reflex prediction, cognate reflex prediction)という別のタスクにもモデルを適用する。 特に,マスク付き単語予測タスクで事前学習した場合に,既存のモデルよりも優れていることを示す。

Phonological reconstruction is one of the central problems in historical linguistics where a proto-word of an ancestral language is determined from the observed cognate words of daughter languages. Computational approaches to historical linguistics attempt to automate the task by learning models on available linguistic data. Several ideas and techniques drawn from computational biology have been successfully applied in the area of computational historical linguistics. Following these lines, we adapt MSA Transformer, a protein language model, to the problem of automated phonological reconstruction. MSA Transformer trains on multiple sequence alignments as input and is, thus, apt for application on aligned cognate words. We, hence, name our model as Cognate Transformer. We also apply the model on another associated task, namely, cognate reflex prediction, where a reflex word in a daughter language is predicted based on cognate words from other daughter languages. We show that our model outperforms the existing models on both tasks, especially when it is pre-trained on masked word prediction task.
翻訳日:2023-10-12 22:41:38 公開日:2023-10-11
# 経路ベル試験による長距離量子相関の証明

Certifying long-range quantum correlations through routed Bell tests ( http://arxiv.org/abs/2310.07484v1 )

ライセンス: Link先を確認
Edwin Peter Lobo, Jef Pauwels, and Stefano Pironio(参考訳) 透過チャネルの損失は、量子非局所性のフォトニクスの実証に大きな障害となる。 最近、Chaturvedi, Viola, and Pawlowski (CVP) [arXiv:2211.14231] は、非局所性を証明できる範囲を拡張することを目的として、標準ベル実験のバリエーションを導入した。 と呼ばれるこの実験は、AliceとBobという2つの遠い粒子を巻き込み、Bobが2つの可能な経路に沿って量子粒子をルーティングし、その近傍と遠方の2つの異なる位置で測定することを可能にする。 cvpは、ルートベル実験において、検出効率が任意に低い場合でも、遠隔測定装置の結果が古典的に決められないような量子相関が存在することを示した。 本稿では,CVPが考える相関関係について,古典的に定式化することはできないが,遠隔計測装置への量子システムの伝送を必要としないことを示す。 これにより、経路ベル実験における「短距離」と「長距離」の量子相関の概念を定義し、定式化する。 これらの相関は、非可換多項式最適化のための標準半有限プログラム階層によって特徴づけられることを示す。 遠隔測定装置の臨界検出効率に基本的な低値が存在することを指摘し、経路ベル実験では任意に大きな距離で長距離量子非局所性を示すことはできないことを示唆する。 しかし, 経路ベル実験により, 長距離量子相関の検証に必要な検出効率閾値を低減できることがわかった。 しかし、改善はCVPの分析によって示唆されるものよりも大幅に小さい。

Losses in transmission channel pose a major obstacle to photonics demonstrations of quantum nonlocality. Recently, Chaturvedi, Viola, and Pawlowski (CVP) [arXiv:2211.14231] introduced a variation of standard Bell experiments with the goal of extending the range over which nonlocality can be demonstrated. These experiments, which we call 'routed Bell experiments', involve two distant parties, Alice and Bob, and allow Bob to route his quantum particle along two possible paths and measure it at two distinct locations - one near and another far from the source. CVP showed that there are certain quantum correlations in routed Bell experiments such that the outcomes of the remote measurement device cannot be classically predetermined, even when its detection efficiency is arbitrarily low. In this paper, we show that the correlations considered by CVP, though they cannot be classically predetermined, do not require the transmission of quantum systems to the remote measurement device. This leads us to define and formalize the concept of 'short-range' and 'long-range' quantum correlations in routed Bell experiments. We show that these correlations can be characterized through standard semidefinite-programming hierarchies for non-commutative polynomial optimization. We point out that there exist fundamental lower-bounds on the critical detection efficiency of the distant measurement device, implying that routed Bell experiments cannot demonstrate long-range quantum nonlocality at arbitrarily large distances. However, we do find that routed Bell experiments allow for reducing the detection efficiency threshold necessary to certify long-range quantum correlations. The improvements, though, are significantly smaller than those suggested by CVP's analysis.
翻訳日:2023-10-12 22:41:20 公開日:2023-10-11
# 生成課題に対するマルチモーダルグラフ学習

Multimodal Graph Learning for Generative Tasks ( http://arxiv.org/abs/2310.07478v1 )

ライセンス: Link先を確認
Minji Yoon, Jing Yu Koh, Bryan Hooi, Ruslan Salakhutdinov(参考訳) マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。 ほとんどのマルチモーダル学習アルゴリズムは、画像キャプチャペアや音声テキストペアといった2つのモダリティから、単純な1対1のデータをモデル化することに焦点を当てている。 しかし、現実世界のほとんどの設定では、異なるモジュラリティのエンティティがより複雑で多面的な方法で相互作用し、1対1のマッピングを超える。 我々は、これらの複雑な関係をグラフとして表現し、任意のモダリティを持つデータと、あるサンプルから別のサンプルへ柔軟に変化するモダリティの間の複雑な関係をキャプチャできるようにする。 この目的に向けて,関係構造を持つ複数のマルチモーダルの隣人から情報を収集するための汎用的かつ体系的なフレームワークであるマルチモーダルグラフ学習(mmgl)を提案する。 特に,事前学習された言語モデル(lms)に基づく生成タスクのためのmmglに着目し,マルチモーダルな隣接コンテキストによるテキスト生成の強化を目標とした。 MMGLが提起した3つの研究課題について研究する:(1) 拡張性の問題を避けつつ、事前訓練されたLMに複数の隣接情報を注入する方法。 2) マルチモーダル近傍間のグラフ構造情報を lms にどのように組み込むことができるか? そして(3)パラメータ効率のよい方法で、事前学習したlmsを近隣のコンテキストから学ぶには、どのように微調整すればよいのか? MMGLに関するこれらの3つの質問に回答し、実験結果を分析し、今後のMMGL研究の道を開く。

Multimodal learning combines multiple data modalities, broadening the types and complexity of data our models can utilize: for example, from plain text to image-caption pairs. Most multimodal learning algorithms focus on modeling simple one-to-one pairs of data from two modalities, such as image-caption pairs, or audio-text pairs. However, in most real-world settings, entities of different modalities interact with each other in more complex and multifaceted ways, going beyond one-to-one mappings. We propose to represent these complex relationships as graphs, allowing us to capture data with any number of modalities, and with complex relationships between modalities that can flexibly vary from one sample to another. Toward this goal, we propose Multimodal Graph Learning (MMGL), a general and systematic framework for capturing information from multiple multimodal neighbors with relational structures among them. In particular, we focus on MMGL for generative tasks, building upon pretrained Language Models (LMs), aiming to augment their text generation with multimodal neighbor contexts. We study three research questions raised by MMGL: (1) how can we infuse multiple neighbor information into the pretrained LMs, while avoiding scalability issues? (2) how can we infuse the graph structure information among multimodal neighbors into the LMs? and (3) how can we finetune the pretrained LMs to learn from the neighbor context in a parameter-efficient manner? We conduct extensive experiments to answer these three questions on MMGL and analyze the empirical results to pave the way for future MMGL research.
翻訳日:2023-10-12 22:40:51 公開日:2023-10-11
# ニューロモルフィックアナログ感覚フロントエンドを用いたガス濃度のスパイク時符号化

Spike-time encoding of gas concentrations using neuromorphic analog sensory front-end ( http://arxiv.org/abs/2310.07475v1 )

ライセンス: Link先を確認
Shavika Rastogi, Nik Dennler, Michael Schmuker and Andr\'e van Schaik(参考訳) ガス濃度検出はガス漏れ監視などの応用において重要である。 金属酸化物(MOx)センサーは特定のガスに対する高い感度を示しており、このような監視用途に特に有用である。 しかし、センサ応答を効率的にサンプルし、さらに処理する方法は、まだ未解決の問題である。 本稿では,哺乳動物嗅球のスパイク出力とイベントベース視覚センサにインスパイアされた簡単なアナログ回路設計を提案する。 我々の回路は、2つの異なる経路のパルス間の時間差でガス濃度を符号化する。 制御された気流埋込みガス注入の設定において, 2つの発生パルス間の時間差は, 管状細胞と哺乳動物の嗅球の僧帽球のスパイクタイミング差と一致し, ガス濃度と逆向きに変化することを示した。 アナログスパイクタイミングにおける濃度情報の符号化は、迅速かつ効率的なガス検出の道を開く可能性があり、最終的には、制御されていない乱流環境に展開されるデータおよび電力効率の監視装置につながる。

Gas concentration detection is important for applications such as gas leakage monitoring. Metal Oxide (MOx) sensors show high sensitivities for specific gases, which makes them particularly useful for such monitoring applications. However, how to efficiently sample and further process the sensor responses remains an open question. Here we propose a simple analog circuit design inspired by the spiking output of the mammalian olfactory bulb and by event-based vision sensors. Our circuit encodes the gas concentration in the time difference between the pulses of two separate pathways. We show that in the setting of controlled airflow-embedded gas injections, the time difference between the two generated pulses varies inversely with gas concentration, which is in agreement with the spike timing difference between tufted cells and mitral cells of the mammalian olfactory bulb. Encoding concentration information in analog spike timings may pave the way for rapid and efficient gas detection, and ultimately lead to data- and power-efficient monitoring devices to be deployed in uncontrolled and turbulent environments.
翻訳日:2023-10-12 22:40:22 公開日:2023-10-11
# 共同創造型aiシステムのオントロジー

An Ontology of Co-Creative AI Systems ( http://arxiv.org/abs/2310.07472v1 )

ライセンス: Link先を確認
Zhiyu Lin, Mark Riedl(参考訳) 共創造性(co-creativity)という用語は、人間とAIの両方が創造的な取り組みに関与している、幅広い種類の人間とAIの集合体を指すために用いられてきた。 研究活動の曖昧化を支援するため,共同創造システムのオントロジーを提示し,人間とAIシステムの間で責任がどのように分割され,それら間で交換される情報に焦点をあてる。 我々は、人工知能を強調する3つの新しいカテゴリ(computer-as-subcontractor、computer-as-critic、computer-as-teammate)によって、lubartのオリジナルの創造性支援ツールオントロジーを拡張した。

The term co-creativity has been used to describe a wide variety of human-AI assemblages in which human and AI are both involved in a creative endeavor. In order to assist with disambiguating research efforts, we present an ontology of co-creative systems, focusing on how responsibilities are divided between human and AI system and the information exchanged between them. We extend Lubart's original ontology of creativity support tools with three new categories emphasizing artificial intelligence: computer-as-subcontractor, computer-as-critic, and computer-as-teammate, some of which have sub-categorizations.
翻訳日:2023-10-12 22:39:59 公開日:2023-10-11
# XAI手法の人間中心評価

Human-Centered Evaluation of XAI Methods ( http://arxiv.org/abs/2310.07534v1 )

ライセンス: Link先を確認
Karam Dawoud, Wojciech Samek, Sebastian Lapuschkin, Sebastian Bosse(参考訳) 人工知能の分野では、ディープラーニングにおいていわゆる「ブラックボックス」の中の意思決定プロセスを解読することが重要な課題となっている。 近年、様々なタスクにわたる決定を説明するために多くの方法が登場している。 特に画像分類のようなタスクでは、これらの手法は分類器の予測に最も影響を及ぼす重要なピクセルを識別し強調する。 興味深いことに、このアプローチは人間の振る舞いを反映している。イメージを分類する合理性を説明するために、私たちはしばしば最も健全な特徴や側面を指し示します。 これと平行して、我々の研究はユーザー中心の研究を始めた。 本研究では,(1)原型部分ネットワーク,(2)排除,(3)レイヤワイド関連伝播の3つの主要な説明手法の解釈可能性の客観的評価を試みた。 興味深いことに、我々の研究結果は、これらの手法によって見出される領域は広範囲にまたがるが、それらはすべて人間にほぼ同等の理解深度を提供する。 これにより、ユーザーは画像の識別と分類を効率的に行い、aiの透明性を高めるためにこれらの方法の価値を強化することができる。

In the ever-evolving field of Artificial Intelligence, a critical challenge has been to decipher the decision-making processes within the so-called "black boxes" in deep learning. Over recent years, a plethora of methods have emerged, dedicated to explaining decisions across diverse tasks. Particularly in tasks like image classification, these methods typically identify and emphasize the pivotal pixels that most influence a classifier's prediction. Interestingly, this approach mirrors human behavior: when asked to explain our rationale for classifying an image, we often point to the most salient features or aspects. Capitalizing on this parallel, our research embarked on a user-centric study. We sought to objectively measure the interpretability of three leading explanation methods: (1) Prototypical Part Network, (2) Occlusion, and (3) Layer-wise Relevance Propagation. Intriguingly, our results highlight that while the regions spotlighted by these methods can vary widely, they all offer humans a nearly equivalent depth of understanding. This enables users to discern and categorize images efficiently, reinforcing the value of these methods in enhancing AI transparency.
翻訳日:2023-10-12 22:34:16 公開日:2023-10-11
# 関数近似におけるパラメータ化量子回路の有効利用

Provable Advantage of Parameterized Quantum Circuit in Function Approximation ( http://arxiv.org/abs/2310.07528v1 )

ライセンス: Link先を確認
Zhan Yu, Qiuhao Chen, Yuling Jiao, Yinan Li, Xiliang Lu, Xin Wang, Jerry Zhijian Yang(参考訳) 機械学習タスクの達成におけるパラメータ化量子回路(PQC)のパワーを理解することは、量子機械学習において最も重要な問題の一つである。 本稿では,関数近似のレンズによるPQCの表現性の解析を行う。 以前確立されたPQCの普遍近似定理は、主に非構成的であり、以下の疑問に導かれる: 与えられた誤差まで対象関数を近似するために、PQCはどのくらいの大きさが必要か? 連続および滑らかな関数を近似するためのデータ再ロードPQCの明示的な構成を示し、PQCの幅、深さ、およびトレーニング可能なパラメータの数の観点から定量的な近似誤差境界を確立する。 これを実現するために、量子信号処理とユニタリの線形結合技術を用いて多変量多項式を実装したpqcを構築する。 我々はベルンシュタイン多項式と局所テイラー展開を用いた大域的および局所的な近似手法を実装し、量子環境におけるそれらの性能を解析する。 また,提案するpqcを高次元な滑らかな関数を近似するほぼ最適深層ニューラルネットワークと比較し,pqcのモデルサイズと深層ニューラルネットワークの比が入力次元に対して指数関数的に小さいことを示した。 これは量子機械学習における量子アドバンテージを示す新たな道のりを示唆している。

Understanding the power of parameterized quantum circuits (PQCs) in accomplishing machine learning tasks is one of the most important questions in quantum machine learning. In this paper, we analyze the expressivity of PQCs through the lens of function approximation. Previously established universal approximation theorems for PQCs are mainly nonconstructive, leading us to the following question: How large do the PQCs need to be to approximate the target function up to a given error? We exhibit explicit constructions of data re-uploading PQCs for approximating continuous and smooth functions and establish quantitative approximation error bounds in terms of the width, the depth and the number of trainable parameters of the PQCs. To achieve this, we utilize techniques from quantum signal processing and linear combinations of unitaries to construct PQCs that implement multivariate polynomials. We implement global and local approximation techniques using Bernstein polynomials and local Taylor expansion and analyze their performances in the quantum setting. We also compare our proposed PQCs to nearly optimal deep neural networks in approximating high-dimensional smooth functions, showing that the ratio between model sizes of PQC and deep neural networks is exponentially small with respect to the input dimension. This suggests a potentially novel avenue for showcasing quantum advantages in quantum machine learning.
翻訳日:2023-10-12 22:33:59 公開日:2023-10-11
# 大規模言語モデルにおけるファクタリティに関する調査:知識・検索・ドメイン特質

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity ( http://arxiv.org/abs/2310.07521v1 )

ライセンス: Link先を確認
Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang, Cheng Jiayang, Yunzhi Yao, Wenyang Gao, Xuming Hu, Zehan Qi, Yidong Wang, Linyi Yang, Jindong Wang, Xing Xie, Zheng Zhang, Yue Zhang(参考訳) 本稿では,Large Language Models (LLMs)における事実性の重要課題について述べる。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。 我々は、現実と矛盾するコンテンツを生成するLLMの確率として、現実問題を定義する。 まず、これらの不正確さの影響を掘り下げ、LCM出力における事実誤りによる潜在的な結果と課題を明らかにする。 その後,LLMが事実を保存・処理するメカニズムを解析し,事実誤りの主な原因を探究する。 この議論は、LLMの事実性を評価する方法論に移行し、主要な指標、ベンチマーク、研究を強調する。 特定のドメインに適したアプローチを含む,LLMの事実性向上戦略についても検討する。 独立LLMと外部データを利用するRetrieval-Augmented LLMの2つの主要なLLM構成に注目し、それらの固有の課題と潜在的な拡張について詳述する。 本調査は,llmの信頼性を高めることを目的とした構造化ガイドを提供する。

This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
翻訳日:2023-10-12 22:33:34 公開日:2023-10-11
# 後方サンプリングによる因果グラフを用いた強化学習

Exploiting Causal Graph Priors with Posterior Sampling for Reinforcement Learning ( http://arxiv.org/abs/2310.07518v1 )

ライセンス: Link先を確認
Mirco Mutti, Riccardo De Santi, Marcello Restelli, Alexander Marx, Giorgia Ramponi(参考訳) 後部サンプリングにより、環境遷移力学の事前知識を活用でき、強化学習のサンプル効率を向上させることができる。 前者は典型的にはパラメトリック分布のクラスとして指定されるが、これは実際は面倒な作業であり、しばしば非形式的事前の選択をもたらす。 本研究では,環境変数上の(部分的な)因果グラフとして前者を付与する新しい後続サンプリング手法を提案する。 後者は、医学的な研究において生体指標間の既知の因果関係をリストするなど、設計においてより自然であることが多い。 具体的には,C-PSRLと呼ばれる階層的ベイズ的手法を提案する。 本手法では,後悔率と事前知識の程度を明示的に関連付けたベイズ後悔の分析を行う。 C-PSRLは,全因果グラフを用いて後方サンプリングに近づきながら,非形式前の後方サンプリングの効率を強く向上することを確認した。

Posterior sampling allows the exploitation of prior knowledge of the environment's transition dynamics to improve the sample efficiency of reinforcement learning. The prior is typically specified as a class of parametric distributions, a task that can be cumbersome in practice, often resulting in the choice of uninformative priors. In this work, we propose a novel posterior sampling approach in which the prior is given as a (partial) causal graph over the environment's variables. The latter is often more natural to design, such as listing known causal dependencies between biometric features in a medical treatment study. Specifically, we propose a hierarchical Bayesian procedure, called C-PSRL, simultaneously learning the full causal graph at the higher level and the parameters of the resulting factored dynamics at the lower level. For this procedure, we provide an analysis of its Bayesian regret, which explicitly connects the regret rate with the degree of prior knowledge. Our numerical evaluation conducted in illustrative domains confirms that C-PSRL strongly improves the efficiency of posterior sampling with an uninformative prior while performing close to posterior sampling with the full causal graph.
翻訳日:2023-10-12 22:33:17 公開日:2023-10-11
# コンピューティングの層にわたるエネルギー推定:自然言語処理、科学計算、暗号通貨マイニングのための機械学習におけるデバイスから大規模応用へ

Energy Estimates Across Layers of Computing: From Devices to Large-Scale Applications in Machine Learning for Natural Language Processing, Scientific Computing, and Cryptocurrency Mining ( http://arxiv.org/abs/2310.07516v1 )

ライセンス: Link先を確認
Sadasivan Shankar(参考訳) デバイスからアルゴリズムまでの計算層におけるエネルギー使用量の推定と分析を行った。 これまでの分析[3]に基づいて,人工知能(AI)/機械学習,科学技術シミュレーション,暗号通貨マイニングといった大規模3つのコンピューティングアプリケーションを含む,単一デバイスやシステムから必要なエネルギーを推定した。 トランジスタが幾何学的スケーリングによってエネルギー効率を達成するビットレベルのスイッチとは対照的に、より高いエネルギーはアプリケーションのat命令とシミュレーションレベルの両方で消費される。 さらに、ai/ml加速器に基づく分析は、古い半導体技術ノードを用いたアーキテクチャの変化が、新しい技術を用いた異なるアーキテクチャと同等のエネルギー効率を持つことを示している。 計算システムにおけるエネルギーと熱力学的および生物学的限界のさらなる比較は、アプリケーションの総シミュレーションに27-36桁の高エネルギー要求があることを示している。 これらのエネルギー推定は、エネルギーを設計パラメータとして含み、デジタル世界における計算集約型アプリケーションのニーズを増大させることで、コンピューティングにおけるエネルギー効率の深刻な考慮の必要性の中核となっている。

Estimates of energy usage in layers of computing from devices to algorithms have been determined and analyzed. Building on the previous analysis [3], energy needed from single devices and systems including three large-scale computing applications such as Artificial Intelligence (AI)/Machine Learning for Natural Language Processing, Scientific Simulations, and Cryptocurrency Mining have been estimated. In contrast to the bit-level switching, in which transistors achieved energy efficiency due to geometrical scaling, higher energy is expended both at the at the instructions and simulations levels of an application. Additionally, the analysis based on AI/ML Accelerators indicate that changes in architectures using an older semiconductor technology node have comparable energy efficiency with a different architecture using a newer technology. Further comparisons of the energy in computing systems with the thermodynamic and biological limits, indicate that there is a 27-36 orders of magnitude higher energy requirements for total simulation of an application. These energy estimates underscore the need for serious considerations of energy efficiency in computing by including energy as a design parameter, enabling growing needs of compute-intensive applications in a digital world.
翻訳日:2023-10-12 22:32:56 公開日:2023-10-11
# 偏差関係学習によるモーダリティとシーン間の統合型リモートセンシング異常検知器

A Unified Remote Sensing Anomaly Detector Across Modalities and Scenes via Deviation Relationship Learning ( http://arxiv.org/abs/2310.07511v1 )

ライセンス: Link先を確認
Jingtao Li, Xinyu Wang, Hengwei Zhao, Liangpei Zhang, Yanfei Zhong(参考訳) リモートセンシング異常検知器は、背景から逸脱する物体を潜在的な標的として見つけることができる。 地球の異常タイプの多様性を考えると、モダリティとシーンにまたがる統一異常検出器はコスト効率が高く、新しい地球観測源や異常タイプに対して柔軟であるべきである。 しかし、現在の異常検知器は、異なる背景分布を学習することを目的としており、単一のモダリティと単一シーンに限られている。 普遍的異常偏差パターンに動機づけられ、異常が局所的文脈からの偏差を示す場合、この特徴を利用して統一異常検出器を構築する。 まず, 異常検出タスクを偏差関係に基づいて非方向の2層グラフとして再構成し, 背景および通常の物体のパターンを考慮し, 異常スコアを条件付き確率としてモデル化する。 そして、学習対象を条件付き確率ランキング問題として表現する。 さらに,データ,アーキテクチャ,最適化面での再構成のインスタンス化も設計する。 シミュレーションされたスペクトルおよび空間異常は、インスタンス化されたアーキテクチャを駆動する。 このモデルは条件付き確率ランキングに最適化される。 提案モデルは,ハイパースペクトル,可視光,合成開口レーダ(sar),赤外,低光の5つのモードで検証され,その統一検出能力を示した。

Remote sensing anomaly detector can find the objects deviating from the background as potential targets. Given the diversity in earth anomaly types, a unified anomaly detector across modalities and scenes should be cost-effective and flexible to new earth observation sources and anomaly types. However, the current anomaly detectors are limited to a single modality and single scene, since they aim to learn the varying background distribution. Motivated by the universal anomaly deviation pattern, in that anomalies exhibit deviations from their local context, we exploit this characteristic to build a unified anomaly detector. Firstly, we reformulate the anomaly detection task as an undirected bilayer graph based on the deviation relationship, where the anomaly score is modeled as the conditional probability, given the pattern of the background and normal objects. The learning objective is then expressed as a conditional probability ranking problem. Furthermore, we design an instantiation of the reformulation in the data, architecture, and optimization aspects. Simulated spectral and spatial anomalies drive the instantiated architecture. The model is optimized directly for the conditional probability ranking. The proposed model was validated in five modalities including the hyperspectral, visible light, synthetic aperture radar (SAR), infrared and low light to show its unified detection ability.
翻訳日:2023-10-12 22:32:35 公開日:2023-10-11
# 自己監督型マルチタスク学習によるヒューリスティックビジョン事前学習

Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning ( http://arxiv.org/abs/2310.07510v1 )

ライセンス: Link先を確認
Zhiming Qian(参考訳) 多様なオープンな世界を認識する方法で人間のビジョンを模倣するには、基礎的なビジョンモデルが非常に重要です。 近年の自己教師型学習技術は、このミッションの有望性を示しているが、ラベル付きデータからの信号も常識認識にとって重要であり、適切に選択されたプレテキストタスクは視覚表現学習の効率を高めることができる。 そこで本研究では,マルチタスク方式で自己教師ありと教師ありのビジュアルプリテキストタスクを併用した,新しい事前学習フレームワークを提案する。 特に、画像から見ると、本質的なスタイルの性質、位置と相関関係のある物体の内部、そして基本的な視覚的理解のための3D空間の外観を考えることで、ヒューリスティックな方法をとる。 しかし、大規模なオブジェクトバウンディングボックスと相関は、通常達成が難しい。 また,マルチラベル分類と自己教師型学習を併用したハイブリッド手法を開発した。 一方、複数ラベルの監督の下で、事前訓練されたモデルは、画像の詳細な情報、例えば、画像タイプ、オブジェクト、意味関係の一部を調べることができる。 一方,Masked Image Modeling (MIM) やコントラスト学習といった自己教師型学習タスクは,モデルがピクセルの詳細を学習し,相関関係をパッチするのに役立つ。 その結果、トレーニング済みのモデルは、複数のビジュアルタスクで最先端(sota)の結果と同等かそれ以上の結果を提供できることが分かりました。 例えば、バニラSwin-Bのバックボーンでは、ImageNet-1K分類で85.3\%、Mask R-CNNでCOCOオブジェクト検出で47.9、UpernetでADE-20Kセマンティックセマンティックセグメンテーションで50.6mIoUを達成した。 パフォーマンスは、汎用的なビジョンタスクを提供するためのvision foundationモデルの能力を示しています。

To mimic human vision with the way of recognizing the diverse and open world, foundation vision models are much critical. While recent techniques of self-supervised learning show the promising potentiality of this mission, we argue that signals from labelled data are also important for common-sense recognition, and properly chosen pre-text tasks can facilitate the efficiency of vision representation learning. To this end, we propose a novel pre-training framework by adopting both self-supervised and supervised visual pre-text tasks in a multi-task manner. Specifically, given an image, we take a heuristic way by considering its intrinsic style properties, inside objects with their locations and correlations, and how it looks like in 3D space for basic visual understanding. However, large-scale object bounding boxes and correlations are usually hard to achieve. Alternatively, we develop a hybrid method by leveraging both multi-label classification and self-supervised learning. On the one hand, under the multi-label supervision, the pre-trained model can explore the detailed information of an image, e.g., image types, objects, and part of semantic relations. On the other hand, self-supervised learning tasks, with respect to Masked Image Modeling (MIM) and contrastive learning, can help the model learn pixel details and patch correlations. Results show that our pre-trained models can deliver results on par with or better than state-of-the-art (SOTA) results on multiple visual tasks. For example, with a vanilla Swin-B backbone, we achieve 85.3\% top-1 accuracy on ImageNet-1K classification, 47.9 box AP on COCO object detection for Mask R-CNN, and 50.6 mIoU on ADE-20K semantic segmentation when using Upernet. The performance shows the ability of our vision foundation model to serve general purpose vision tasks.
翻訳日:2023-10-12 22:32:15 公開日:2023-10-11
# 効率的なデータセット凝縮のための階層的特徴共有の活用

Leveraging Hierarchical Feature Sharing for Efficient Dataset Condensation ( http://arxiv.org/abs/2310.07506v1 )

ライセンス: Link先を確認
Haizhong Zheng, Jiachen Sun, Shutong Wu, Bhavya Kailkhura, Zhuoqing Mao, Chaowei Xiao, and Atul Prakash(参考訳) 実世界のデータセットが与えられたとき、データ凝縮(DC)は、非常に小さなデータセットを合成することを目的としています。 最近の研究は、データをピクセル空間ではなくパラメータ化されたデータコンテナに凝縮するデータパラメータ化により、DCを強化することを提案する。 データパラメータ化の背景にある直感は、画像の共有機能をエンコードし、追加のストレージコストを回避することである。 本稿では,現在のデータパラメータ化手法によって見過される分類システムの階層構造により,画像が階層的に共通の特徴を共有していることを認識する。 この階層的な性質とDCの整合性を向上し,データコンテナ内の情報共有の効率化を図るため,新しいデータパラメータ化アーキテクチャである階層メモリネットワーク(HMN)を提案する。 hmnは凝縮したデータを3層構造に格納し、データセットレベル、クラスレベル、インスタンスレベルの特徴を表す。 階層アーキテクチャのもう1つの有用な特性は、HMNが情報共有の達成にもかかわらず、自然に画像間で良好な独立性を保証することである。 これにより、HMNのインスタンスレベルのプルーニングにより冗長情報を低減し、冗長性をさらに最小化し、性能を向上させることができる。 我々は,4つの公開データセット(SVHN, CIFAR10, CIFAR100, Tiny-ImageNet)上でHMNを評価し,HMNを8つのDCベースラインと比較した。 評価の結果,GPUメモリを消費しないバッチベースの損失を訓練しても,提案手法は全てのベースラインより優れていた。

Given a real-world dataset, data condensation (DC) aims to synthesize a significantly smaller dataset that captures the knowledge of this dataset for model training with high performance. Recent works propose to enhance DC with data parameterization, which condenses data into parameterized data containers rather than pixel space. The intuition behind data parameterization is to encode shared features of images to avoid additional storage costs. In this paper, we recognize that images share common features in a hierarchical way due to the inherent hierarchical structure of the classification system, which is overlooked by current data parameterization methods. To better align DC with this hierarchical nature and encourage more efficient information sharing inside data containers, we propose a novel data parameterization architecture, Hierarchical Memory Network (HMN). HMN stores condensed data in a three-tier structure, representing the dataset-level, class-level, and instance-level features. Another helpful property of the hierarchical architecture is that HMN naturally ensures good independence among images despite achieving information sharing. This enables instance-level pruning for HMN to reduce redundant information, thereby further minimizing redundancy and enhancing performance. We evaluate HMN on four public datasets (SVHN, CIFAR10, CIFAR100, and Tiny-ImageNet) and compare HMN with eight DC baselines. The evaluation results show that our proposed method outperforms all baselines, even when trained with a batch-based loss consuming less GPU memory.
翻訳日:2023-10-12 22:31:37 公開日:2023-10-11
# エネルギー効率とリアルタイムIoTセンシングのためのサンプル駆動フェデレーション学習

Sample-Driven Federated Learning for Energy-Efficient and Real-Time IoT Sensing ( http://arxiv.org/abs/2310.07497v1 )

ライセンス: Link先を確認
Minh Ngoc Luu, Minh-Duong Nguyen, Ebrahim Bedeer, Van Duc Nguyen, Dinh Thai Hoang, Diep N. Nguyen, Quoc-Viet Pham(参考訳) フェデレーション学習(fl)システムでは、最近の最先端手法は理想的な条件収束解析に大きく依存している。 特にこれらのアプローチは、iotデバイス上のトレーニングデータセットがグローバルデータ分散と同じような特性を持っていると仮定している。 しかし、この手法はリアルタイムセンシングFLシステムにおいて、データ特性の全スペクトルを捉えることができない。 この制限を克服するために、リアルタイムセンシング機能を備えたIoTネットワーク用に設計された新しいアプローチシステムを提案する。 本手法は,ユーザのデータサンプリングプロセスによる一般化ギャップを考慮したものである。 このサンプリングプロセスを効果的に制御することで、オーバーフィッティング問題を軽減し、全体的な精度を向上させることができる。 特に,まずサンプリングプロセスを利用する最適化問題を定式化し,オーバーフィッティングを同時に削減し,精度を最大化する。 この目的を追求するために,我々は高一般化で精度を最適化しながら,エネルギー効率の処理に有効である。 複雑度の高い最適化問題を解くため,ソフトアクター・クリティカル(A2C)フレームワーク上に構築されたSCFL(Sample-driven Control for Federated Learning)というオンライン強化学習アルゴリズムを導入する。 これにより、エージェントは変化する環境においても動的に適応し、グローバルオプティマを見つけることができる。 scflの機能を活用することで,リアルタイムセンシング機能を備えたflシステムにおけるリソース割り当てのための有望なソリューションを提供する。

In the domain of Federated Learning (FL) systems, recent cutting-edge methods heavily rely on ideal conditions convergence analysis. Specifically, these approaches assume that the training datasets on IoT devices possess similar attributes to the global data distribution. However, this approach fails to capture the full spectrum of data characteristics in real-time sensing FL systems. In order to overcome this limitation, we suggest a new approach system specifically designed for IoT networks with real-time sensing capabilities. Our approach takes into account the generalization gap due to the user's data sampling process. By effectively controlling this sampling process, we can mitigate the overfitting issue and improve overall accuracy. In particular, We first formulate an optimization problem that harnesses the sampling process to concurrently reduce overfitting while maximizing accuracy. In pursuit of this objective, our surrogate optimization problem is adept at handling energy efficiency while optimizing the accuracy with high generalization. To solve the optimization problem with high complexity, we introduce an online reinforcement learning algorithm, named Sample-driven Control for Federated Learning (SCFL) built on the Soft Actor-Critic (A2C) framework. This enables the agent to dynamically adapt and find the global optima even in changing environments. By leveraging the capabilities of SCFL, our system offers a promising solution for resource allocation in FL systems with real-time sensing capabilities.
翻訳日:2023-10-12 22:31:08 公開日:2023-10-11
# ロバスト異常検出のための不一致認識フレームワーク

A Discrepancy Aware Framework for Robust Anomaly Detection ( http://arxiv.org/abs/2310.07585v1 )

ライセンス: Link先を確認
Yuxuan Cai, Dingkang Liang, Dongliang Luo, Xinwei He, Xin Yang, Xiang Bai(参考訳) 欠陥検出は人工知能における重要な研究領域である。 近年,合成データに基づく自己教師型学習が大きな可能性を示している。 多くの高度な合成戦略が存在するが、異なる戦略に直面した場合のモデルの堅牢性についての研究はほとんど行われていない。 本稿では,この問題に焦点をあて,既存の手法に非常に敏感であることを示す。 この問題を軽減するため,我々は,異なる異常検出ベンチマークを用いた簡易かつ安価でロバストな性能を示す,daf(disrepancy aware framework)を提案する。 既存の自己教師あり手法の合成データに対する高い感度は、デコード中の合成データの視覚的な外観に依存することから生じると仮定する。 対照的に, 本手法は, デコーダの欠陥同定を導くために, 外観非依存の手がかりを活用し, 合成外観への依存を緩和する。 そこで, 既存の知識蒸留法に触発されて, 合成異常値に基づいて訓練された教師・学生ネットワークを用いて, 離散度マップを手がかりとして計算する。 2つの挑戦的なデータセットに対する大規模な実験は、我々の手法の堅牢性を証明する。 単純な合成戦略の下では、既存の手法を大きく上回っている。 さらに,最先端のローカライズ性能も実現している。 コードはhttps://github.com/caiyuxuan1120/dafで入手できる。

Defect detection is a critical research area in artificial intelligence. Recently, synthetic data-based self-supervised learning has shown great potential on this task. Although many sophisticated synthesizing strategies exist, little research has been done to investigate the robustness of models when faced with different strategies. In this paper, we focus on this issue and find that existing methods are highly sensitive to them. To alleviate this issue, we present a Discrepancy Aware Framework (DAF), which demonstrates robust performance consistently with simple and cheap strategies across different anomaly detection benchmarks. We hypothesize that the high sensitivity to synthetic data of existing self-supervised methods arises from their heavy reliance on the visual appearance of synthetic data during decoding. In contrast, our method leverages an appearance-agnostic cue to guide the decoder in identifying defects, thereby alleviating its reliance on synthetic appearance. To this end, inspired by existing knowledge distillation methods, we employ a teacher-student network, which is trained based on synthesized outliers, to compute the discrepancy map as the cue. Extensive experiments on two challenging datasets prove the robustness of our method. Under the simple synthesis strategies, it outperforms existing methods by a large margin. Furthermore, it also achieves the state-of-the-art localization performance. Code is available at: https://github.com/caiyuxuan1120/DAF.
翻訳日:2023-10-12 22:22:10 公開日:2023-10-11
# 計算トポロジーのためのChatGPT

ChatGPT for Computational Topology ( http://arxiv.org/abs/2310.07570v1 )

ライセンス: Link先を確認
Jian Liu, Li Shen and Guo-Wei Wei(参考訳) ChatGPTは、人工知能(AI)分野における重要なマイルストーンであり、多様なドメインにまたがる幅広い応用を見つける。 しかし、数学的文脈におけるその有効性は、概念的誤りに対する感受性に幾らか制約されている。 同時に、比較的新しい分野であるトポロジカルデータ分析(TDA)も近年大きな関心を集めている。 それでも、TDAの進歩は、計算アルゴリズムの限られた理解と理論家間のコーディング能力によって妨げられている。 この研究は、理論トポロジ的概念とそれらの計算トポロジにおける実践的実装のギャップをChatGPTを利用して埋める試みである。 計算経験やコーディングスキルを欠いた純粋理論家が,ChatGPTの助けを借りて,数学的定式化や概念を計算トポロジの関数コードに効果的に変換する方法について紹介する。 我々の戦略は、数学者が純粋な数学的概念に基づいてChatGPTを訓練し、ChatGPTを計算トポロジコードの生成に向けて制御し、確立した例を用いて生成したコードを検証する生産的プロセスの概要である。 我々の特定のケーススタディは、単純複体に対するベッチ数、ラプラシアン行列、ディラック行列の計算と、様々なホモロジーやラプラシアンの持続を包含する。 さらに,近年開発されたハイパーグラフとダイアグラムの位相理論におけるchatgptの応用について検討する。 この研究は、純粋数学理論を実用的な計算ツールに効果的に変換するための最初のステップとなり、様々な分野にまたがる実際の応用を可能にする究極のゴールである。

ChatGPT represents a significant milestone in the field of artificial intelligence (AI), finding widespread applications across diverse domains. However, its effectiveness in mathematical contexts has been somewhat constrained by its susceptibility to conceptual errors. Concurrently, topological data analysis (TDA), a relatively new discipline, has garnered substantial interest in recent years. Nonetheless, the advancement of TDA is impeded by the limited understanding of computational algorithms and coding proficiency among theoreticians. This work endeavors to bridge the gap between theoretical topological concepts and their practical implementation in computational topology through the utilization of ChatGPT. We showcase how a pure theoretician, devoid of computational experience and coding skills, can effectively transform mathematical formulations and concepts into functional code for computational topology with the assistance of ChatGPT. Our strategy outlines a productive process wherein a mathematician trains ChatGPT on pure mathematical concepts, steers ChatGPT towards generating computational topology code, and subsequently validates the generated code using established examples. Our specific case studies encompass the computation of Betti numbers, Laplacian matrices, and Dirac matrices for simplicial complexes, as well as the persistence of various homologies and Laplacians. Furthermore, we explore the application of ChatGPT in computing recently developed topological theories for hypergraphs and digraphs. This work serves as an initial step towards effectively transforming pure mathematical theories into practical computational tools, with the ultimate goal of enabling real applications across diverse fields.
翻訳日:2023-10-12 22:21:51 公開日:2023-10-11
# Angular Momentum Flowは、何も持たない

Angular Momentum Flows without anything carrying it ( http://arxiv.org/abs/2310.07568v1 )

ライセンス: Link先を確認
Yakir Aharonov, Daniel Collins, Sandu Popescu(参考訳) 2つの遠隔領域間で保存された量の移動は、一般的にかなり簡単なプロセスであると仮定される: 保存された量を運ぶ粒子の束は、ある領域から別の領域に伝播する。 しかしながら、ある領域から別の領域への角運動量のフローは、任意の粒子(または場)が存在するという、消えるほど小さな確率が存在する空間の領域にまたがる。 これは、保存法がどのように機能するかに関する通常の見解を再考する必要があることを示している。

Transfer of conserved quantities between two remote regions is generally assumed to be a rather trivial process: a flux of particles carrying the conserved quantities propagates from one region to another. We however demonstrate a flow of angular momentum from one region to another across a region of space in which there is a vanishingly small probability of any particles (or fields) being present. This shows that the usual view of how conservation laws work needs to be revisited.
翻訳日:2023-10-12 22:21:23 公開日:2023-10-11
# TableauとGoogle Map APIを使ってダブリン市における歩行性への影響を理解する

Using Tableau and Google Map API for Understanding the Impact of Walkability on Dublin City ( http://arxiv.org/abs/2310.07563v1 )

ライセンス: Link先を確認
Minkun Kim(参考訳) 本稿では,歩行可能性の概念を伝達する2つの効果的な手段について検討する。 2)記述統計。 本研究では,その空間から様々な社会的,環境的,経済的なアメニティまでの距離に基づいて,都市空間の質を測定するための歩行可能性の概念を紹介する。 ダブリン市を例に、市内の様々な地域の歩行可能性の定量化と可視化について検討する。 Google Map APIとTableauを使って、ダブリン市内の歩きにくい地域を視覚化し、WLS回帰を用いて、ダブリンの住宅価格に対する非歩行性の影響を評価し、経済的観点から歩行可能な地域の重要性を定量化する。

In this article, we explore two effective means to communicate the concept of walkability - 1) visualization, and 2) descriptive statistics. We introduce the concept of walkability as measuring the quality of an urban space based on the distance needed to walk from that space to a range of different social, environmental, and economic amenities. We use Dublin city as a worked example and explore quantification and visualization of walkability of various areas of the city. We utilize the Google Map API and Tableau to visualize the less walkable areas across Dublin city and using WLS regression, we assess the effects of unwalkability on house prices in Dublin, thus quantifying the importance of walkable areas from an economic perspective.
翻訳日:2023-10-12 22:21:14 公開日:2023-10-11
# romo: 検索エンハンスドオフラインモデルに基づく最適化

ROMO: Retrieval-enhanced Offline Model-based Optimization ( http://arxiv.org/abs/2310.07560v1 )

ライセンス: Link先を確認
Mingcheng Chen, Haoran Zhao, Yuxiang Zhao, Hulei Fan, Hongqiao Gao, Yong Yu, Zheng Tian(参考訳) データ駆動型ブラックボックスモデルベース最適化(MBO)の問題は、静的なオフラインデータセットに基づいてブラックボックスターゲット関数を最大化する全領域にわたる設計を見つけることを目標とする、多くの実用的なアプリケーションシナリオで発生します。 本研究では,設計空間の一部のみを最適化でき,残りは環境によって制約される,より一般的だが挑戦的な mbo 設定 (constricted mbo (combo)) を考える。 CoMBOから生じる新しい課題は、制約を満たすほとんどの観察された設計は、評価において平凡であるということである。 したがって、従来のmbo設定で観察された設計をさらに強化するのではなく、所定の制約を維持しながら、オフラインデータセットでこれらの中間設計を最適化することに注力する。 本研究では,オフラインデータセットを検索し,関連するサンプルを集約して信頼できる予測を行い,勾配に基づく最適化に使用する,新たな導出可能なフォワードアプローチであるromoを提案する。 ROMOは実装が簡単で、CoMBO設定における最先端のアプローチよりも優れている。 実験では,合成ハートマン(3d)関数データセット,産業用cioデータセット,修正されたタスク群を設計ベンチマークで実験する。 その結果,ROMOは幅広い制約付き最適化タスクにおいて良好に動作することがわかった。

Data-driven black-box model-based optimization (MBO) problems arise in a great number of practical application scenarios, where the goal is to find a design over the whole space maximizing a black-box target function based on a static offline dataset. In this work, we consider a more general but challenging MBO setting, named constrained MBO (CoMBO), where only part of the design space can be optimized while the rest is constrained by the environment. A new challenge arising from CoMBO is that most observed designs that satisfy the constraints are mediocre in evaluation. Therefore, we focus on optimizing these mediocre designs in the offline dataset while maintaining the given constraints rather than further boosting the best observed design in the traditional MBO setting. We propose retrieval-enhanced offline model-based optimization (ROMO), a new derivable forward approach that retrieves the offline dataset and aggregates relevant samples to provide a trusted prediction, and use it for gradient-based optimization. ROMO is simple to implement and outperforms state-of-the-art approaches in the CoMBO setting. Empirically, we conduct experiments on a synthetic Hartmann (3D) function dataset, an industrial CIO dataset, and a suite of modified tasks in the Design-Bench benchmark. Results show that ROMO performs well in a wide range of constrained optimization tasks.
翻訳日:2023-10-12 22:21:01 公開日:2023-10-11
# 非パラメトリック需要学習によるスムースネス適応動的価格設定

Smootheness-Adaptive Dynamic Pricing with Nonparametric Demand Learning ( http://arxiv.org/abs/2310.07558v1 )

ライセンス: Link先を確認
Zeqi Ye, Hansheng Jiang(参考訳) 需要関数が非パラメトリックでh\"older smoothである動的価格問題について検討し、需要関数の未知のh\"older smoothnessパラメータ$\beta$への適応性に着目した。 伝統的に、最適動的価格アルゴリズムは$\beta$の知識に大きく依存し、$\widetilde{O}(T^{\frac{\beta+1}{2\beta+1}})$の最小限の後悔を達成する。 しかし、この動的価格問題における適応性の課題は、価格ポリシーが$\beta$の知識なしに、この最小限の後悔を適応的に達成できないことを証明することで強調する。 適応性を実現するための自己相似性条件を提案する。 重要なことに、自己相似性条件は、後悔の少ない$\omega(t^{\frac{\beta+1}{2\beta+1}})$ を保存するため、問題の固有の複雑さを損なわない。 さらに,スムースネス適応型動的価格決定アルゴリズムを開発し,このアルゴリズムが従来の知識を使わずに,この最小限の後悔境界を達成できることを理論的に証明する。

We study the dynamic pricing problem where the demand function is nonparametric and H\"older smooth, and we focus on adaptivity to the unknown H\"older smoothness parameter $\beta$ of the demand function. Traditionally the optimal dynamic pricing algorithm heavily relies on the knowledge of $\beta$ to achieve a minimax optimal regret of $\widetilde{O}(T^{\frac{\beta+1}{2\beta+1}})$. However, we highlight the challenge of adaptivity in this dynamic pricing problem by proving that no pricing policy can adaptively achieve this minimax optimal regret without knowledge of $\beta$. Motivated by the impossibility result, we propose a self-similarity condition to enable adaptivity. Importantly, we show that the self-similarity condition does not compromise the problem's inherent complexity since it preserves the regret lower bound $\Omega(T^{\frac{\beta+1}{2\beta+1}})$. Furthermore, we develop a smoothness-adaptive dynamic pricing algorithm and theoretically prove that the algorithm achieves this minimax optimal regret bound without the prior knowledge $\beta$.
翻訳日:2023-10-12 22:20:39 公開日:2023-10-11
# 形状バイアスに対する抵抗は等しいか? 歪み形状による形状バイアスの評価

Does resistance to Style-Transfer equal Shape Bias? Evaluating Shape Bias by Distorted Shape ( http://arxiv.org/abs/2310.07555v1 )

ライセンス: Link先を確認
Ziqi Wen, Tianqin Li, Tai Sing Lee(参考訳) ディープラーニングモデルは強いテクスチャバイアスを示すことが知られており、人間はオブジェクト認識のグローバルな形状に大きく依存する傾向がある。 モデル形状バイアスを評価するための現在のベンチマークは、モデルにおける形状感度の発達とスタイル伝達に対する耐性が関係していると仮定した、スタイル伝達画像のセットである。 本研究では,スタイル伝達画像で訓練されたネットワークが,スタイルを無視する傾向にあることを示すが,その形状バイアスは主に局所的な形状から生じる。 全球形状感度の代替測定として,変形形状試験ベンチ(dist)を提案する。 本テストでは,ImageNet-1Kから得られた2400枚の原画像と,テクスチャ合成プログラムを通じてテクスチャを保ちながら変形した原画像のグローバルな形状の2つの画像を含む。 その結果,(1)従来の形状バイアス評価でよく評価されたモデルは,提案するdistではうまく機能せず,(2)広く採用されているvitモデルは,従来の形状バイアステストでvitが上位であるにもかかわらず,このベンチマークでは畳み込みニューラルネットワーク(cnns)よりも大きなアドバンテージを示さないことがわかった。 (3)DST画像を用いたトレーニングは、標準的な画像分類タスクにおいてモデルの精度を保ちながら、人間と既存のSOTAモデルの顕著なギャップを埋める。 私たちのコードは次の通りホストされます。

Deep learning models are known to exhibit a strong texture bias, while human tends to rely heavily on global shape for object recognition. The current benchmark for evaluating a model's shape bias is a set of style-transferred images with the assumption that resistance to the attack of style transfer is related to the development of shape sensitivity in the model. In this work, we show that networks trained with style-transfer images indeed learn to ignore style, but its shape bias arises primarily from local shapes. We provide a Distorted Shape Testbench (DiST) as an alternative measurement of global shape sensitivity. Our test includes 2400 original images from ImageNet-1K, each of which is accompanied by two images with the global shapes of the original image distorted while preserving its texture via the texture synthesis program. We found that (1) models that performed well on the previous shape bias evaluation do not fare well in the proposed DiST; (2) the widely adopted ViT models do not show significant advantages over Convolutional Neural Networks (CNNs) on this benchmark despite that ViTs rank higher on the previous shape bias tests. (3) training with DiST images bridges the significant gap between human and existing SOTA models' performance while preserving the models' accuracy on standard image classification tasks; training with DiST images and style-transferred images are complementary, and can be combined to train network together to enhance both the global and local shape sensitivity of the network. Our code will be host at: https://github.com/leelabcnbc/DiST
翻訳日:2023-10-12 22:20:20 公開日:2023-10-11
# プロトHPE:可視赤外線再同定のためのプロトタイプ誘導高周波パッチ強調

ProtoHPE: Prototype-guided High-frequency Patch Enhancement for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2310.07552v1 )

ライセンス: Link先を確認
Guiwei Zhang and Yongfei Zhang and Zichang Tan(参考訳) 可視赤外人物の再識別は、大きなモダリティギャップのために困難である。 このギャップを埋めるために、ほとんどの研究は視界と赤外線の全体像の相関に大きく依存している。 対照的に, クロスモーダル相関高周波数成分の中には識別可能な視覚パターンが含まれており, 波長, ポーズ, 背景クラッタといった変動の影響が, 全体像よりも少ないことが判明した。 したがって、そのような高周波成分に基づいてモダリティギャップを橋渡しし、二つのコア設計を持つ \textbf{proto}type-guided \textbf{h}igh-frequency \textbf{p}atch \textbf{e}nhancement (protohpe) を提案する。 クロスモーダル相関高周波成分の表現能力を高めるために、ウェーブレット変換と指数移動平均視覚変換(vit)によってパッチを分割し、vitに補助入力として分割パッチを取る権限を与える。 意味的にコンパクトで識別可能な同一アイデンティティの高周波表現を得るために,マルチモーダル・プロトタイプ・コントラストを提案する。 具体的には、異なるモードインスタンスの包括的なセマンティクスを階層的にキャプチャし、同じアイデンティティに属する高周波表現の集約を容易にする。 これによってViTは、ProtoHPEに頼ることなく、推論中に重要な高周波コンポーネントをキャプチャできる。 広範な実験がprotohpeの有効性を検証する。

Visible-infrared person re-identification is challenging due to the large modality gap. To bridge the gap, most studies heavily rely on the correlation of visible-infrared holistic person images, which may perform poorly under severe distribution shifts. In contrast, we find that some cross-modal correlated high-frequency components contain discriminative visual patterns and are less affected by variations such as wavelength, pose, and background clutter than holistic images. Therefore, we are motivated to bridge the modality gap based on such high-frequency components, and propose \textbf{Proto}type-guided \textbf{H}igh-frequency \textbf{P}atch \textbf{E}nhancement (ProtoHPE) with two core designs. \textbf{First}, to enhance the representation ability of cross-modal correlated high-frequency components, we split patches with such components by Wavelet Transform and exponential moving average Vision Transformer (ViT), then empower ViT to take the split patches as auxiliary input. \textbf{Second}, to obtain semantically compact and discriminative high-frequency representations of the same identity, we propose Multimodal Prototypical Contrast. To be specific, it hierarchically captures the comprehensive semantics of different modal instances, facilitating the aggregation of high-frequency representations belonging to the same identity. With it, ViT can capture key high-frequency components during inference without relying on ProtoHPE, thus bringing no extra complexity. Extensive experiments validate the effectiveness of ProtoHPE.
翻訳日:2023-10-12 22:19:50 公開日:2023-10-11
# ゼロショット学習のための属性ローカライゼーションとリビジョンネットワーク

Attribute Localization and Revision Network for Zero-Shot Learning ( http://arxiv.org/abs/2310.07548v1 )

ライセンス: Link先を確認
Junzhe Xu, Suling Duan, Chenwei Tang, Zhenan He, Jiancheng Lv(参考訳) ゼロショット学習により、モデルは属性などの補助的な意味情報の助けを借りて、目に見えないカテゴリを認識できる。 局所画像領域から属性を検出し,抽出した特徴をクラスレベルの意味論と整合させる作業が提案されている。 本稿では,局所的な特徴とグローバルな特徴の選択がゼロサムゲームではなく,グローバルな特徴が属性の理解に寄与することを発見した。 さらに、属性機能とクラスレベルのセマンティクスの整合は、潜在的なクラス内属性の変動を無視する。 これらの欠点を緩和するため,本稿では属性のローカライズとリビジョンネットワークを提案する。 まず,画像領域から局所的特徴と大域的特徴の両方をキャプチャするために属性局在化モジュール(alm)を設計し,グローバル表現と局所表現を融合させるためにスケール制御ユニット(scale control unit)と呼ばれる新しいモジュールを組み込んだ。 次に,各属性の基底値を変更し,クラス内変動を無視した性能低下を補償して画像レベルの意味論を生成する属性リビジョンモジュール(arm)を提案する。 最後に、ALMの出力は、トレーニングプロセスを達成するためにARMによって生成された改訂されたセマンティクスと整合する。 3つのベンチマークの総合実験結果から,ゼロショット予測タスクにおけるモデルの有効性を実証した。

Zero-shot learning enables the model to recognize unseen categories with the aid of auxiliary semantic information such as attributes. Current works proposed to detect attributes from local image regions and align extracted features with class-level semantics. In this paper, we find that the choice between local and global features is not a zero-sum game, global features can also contribute to the understanding of attributes. In addition, aligning attribute features with class-level semantics ignores potential intra-class attribute variation. To mitigate these disadvantages, we present Attribute Localization and Revision Network in this paper. First, we design Attribute Localization Module (ALM) to capture both local and global features from image regions, a novel module called Scale Control Unit is incorporated to fuse global and local representations. Second, we propose Attribute Revision Module (ARM), which generates image-level semantics by revising the ground-truth value of each attribute, compensating for performance degradation caused by ignoring intra-class variation. Finally, the output of ALM will be aligned with revised semantics produced by ARM to achieve the training process. Comprehensive experimental results on three widely used benchmarks demonstrate the effectiveness of our model in the zero-shot prediction task.
翻訳日:2023-10-12 22:19:19 公開日:2023-10-11
# 共変量シフトによるテストサンプルの少ないフェアネス精度トレードオフの改善

Improving Fairness-Accuracy tradeoff with few Test Samples under Covariate Shift ( http://arxiv.org/abs/2310.07535v1 )

ライセンス: Link先を確認
Shreyas Havaldar, Jatin Chauhan, Karthikeyan Shanmugam, Jay Nandy, Aravindan Raghuveer(参考訳) テストデータの共変量は、モデルの精度と公平性の両方を著しく低下させることができる。 このような状況下で、異なるセンシティブなグループ間で公平性を確保することは、刑事司法のような社会的意味合いによって最重要となる。 ラベルのないテストサンプルとラベル付きトレーニングセットの小さなセットのみが利用可能な、教師なしの体制の下で運用します。 この問題に対して、私たちは3つの貢献をします。 まず,新しい複合重み付きエントロピーに基づく予測精度を目標とし,フェアネスの表現マッチング損失を最適化した。 我々は、いくつかの標準データセットの公平性・正確性トレードオフに関して、損失定式化による最適化がパレート意味で多くの最先端ベースラインを上回っていることを実験的に検証する。 第二の貢献は、Asymmetric Covariate Shift(非対称共変量シフト)という新しい設定である。 非対称共変量シフト (asymmetric covariate shift) は、ある群の共変量の分布が他の群に比べて著しく変化し、支配的な群が過剰に表現されたときに起こる。 この設定は現在のベースラインでは極めて困難であるが,提案手法がベースラインを大きく上回っていることを示す。 第3の貢献は理論であり、トレーニングセットにおける予測損失と重み付きエントロピー項が共変量シフトの下でのテスト損失を近似することを示す。 経験的および形式的サンプル複雑性境界により、この未知のテスト損失に対する近似は、他の多くのベースラインに影響を及ぼす重要サンプリング分散に依存しないことを示す。

Covariate shift in the test data can significantly downgrade both the accuracy and the fairness performance of the model. Ensuring fairness across different sensitive groups in such settings is of paramount importance due to societal implications like criminal justice. We operate under the unsupervised regime where only a small set of unlabeled test samples along with a labeled training set is available. Towards this problem, we make three contributions. First is a novel composite weighted entropy based objective for prediction accuracy which is optimized along with a representation matching loss for fairness. We experimentally verify that optimizing with our loss formulation outperforms a number of state-of-the-art baselines in the pareto sense with respect to the fairness-accuracy tradeoff on several standard datasets. Our second contribution is a new setting we term Asymmetric Covariate Shift that, to the best of our knowledge, has not been studied before. Asymmetric covariate shift occurs when distribution of covariates of one group shifts significantly compared to the other groups and this happens when a dominant group is over-represented. While this setting is extremely challenging for current baselines, We show that our proposed method significantly outperforms them. Our third contribution is theoretical, where we show that our weighted entropy term along with prediction loss on the training set approximates test loss under covariate shift. Empirically and through formal sample complexity bounds, we show that this approximation to the unseen test loss does not depend on importance sampling variance which affects many other baselines.
翻訳日:2023-10-12 22:18:59 公開日:2023-10-11
# Goodtriever: 検索強化モデルによる適応的毒性軽減

Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented Models ( http://arxiv.org/abs/2310.07589v1 )

ライセンス: Link先を確認
Luiza Pozzobon, Beyza Ermis, Patrick Lewis, Sara Hooker(参考訳) 毒性の緩和に多大な努力が払われてきたが、既存の手法ではモデルパラメータや計算集約的な補助モデルの使用に対して劇的な修正が必要となることが多い。 さらに、以前のアプローチは、時とともに言語が進化する重要な要素を無視することが多い。 本研究では,その性質の変化を考慮した毒性緩和の総合的な展望を示す。 goodtrieverは,現在最先端の毒性軽減に適合する柔軟な手法であると同時に,推論中に相対レイテンシ低減を43%達成し,計算効率も向上している。 検索ベースのアプローチをデコード時に組み込むことで、goodtrieverは毒性制御テキスト生成を可能にする。 我々の研究は、適応可能な緩和技術に重点を置き、野生に展開する際のデータドリフトモデルをよりよく反映することを提唱している。 コードとデータはhttps://github.com/for-ai/goodtrieverで入手できる。

Considerable effort has been dedicated to mitigating toxicity, but existing methods often require drastic modifications to model parameters or the use of computationally intensive auxiliary models. Furthermore, previous approaches have often neglected the crucial factor of language's evolving nature over time. In this work, we present a comprehensive perspective on toxicity mitigation that takes into account its changing nature. We introduce Goodtriever, a flexible methodology that matches the current state-of-the-art toxicity mitigation while achieving 43% relative latency reduction during inference and being more computationally efficient. By incorporating a retrieval-based approach at decoding time, Goodtriever enables toxicity-controlled text generation. Our research advocates for an increased focus on adaptable mitigation techniques, which better reflect the data drift models face when deployed in the wild. Code and data are available at https://github.com/for-ai/goodtriever.
翻訳日:2023-10-12 22:12:52 公開日:2023-10-11
# 因果レンズによる多ラベルテキスト分類におけるラベル依存の正確な利用

Accurate Use of Label Dependency in Multi-Label Text Classification Through the Lens of Causality ( http://arxiv.org/abs/2310.07588v1 )

ライセンス: Link先を確認
Caoyun Fan, Wenqing Chen, Jidong Tian, Yitian Li, Hao He, Yaohui Jin(参考訳) マルチラベルテキスト分類(MLTC)は、各テキストに最も関連性の高いラベルを割り当てることを目的としている。 既存のメソッドは、ラベル依存がモデルの性能を改善するのに役立つことを示している。 しかし、ラベル依存の導入はモデルが望ましくない予測バイアスに苦しむ可能性がある。 本研究では,モデルがラベル依存度を誤用していること,すなわち,予測にテキスト情報やラベル依存度を用いるのではなく,ラベル依存度における相関ショートカットを利用する傾向について,バイアスを分類する。 因果推論により,相関バイアスを排除し,因果関係に基づく予測を行うために,CFTC(CounterFactual Text Classifier)を提案する。 具体的には、CFTCはまず、ラベル依存に埋め込まれた正確なラベル情報を抽出し、人間の因果グラフの助けを借りて、デバイアス法によって相関ショートカットをブロックする。 3つのデータセットの実験結果から、CFTCはベースラインを著しく上回り、データセットの相関バイアスを効果的に排除することを示した。

Multi-Label Text Classification (MLTC) aims to assign the most relevant labels to each given text. Existing methods demonstrate that label dependency can help to improve the model's performance. However, the introduction of label dependency may cause the model to suffer from unwanted prediction bias. In this study, we attribute the bias to the model's misuse of label dependency, i.e., the model tends to utilize the correlation shortcut in label dependency rather than fusing text information and label dependency for prediction. Motivated by causal inference, we propose a CounterFactual Text Classifier (CFTC) to eliminate the correlation bias, and make causality-based predictions. Specifically, our CFTC first adopts the predict-then-modify backbone to extract precise label information embedded in label dependency, then blocks the correlation shortcut through the counterfactual de-bias technique with the help of the human causal graph. Experimental results on three datasets demonstrate that our CFTC significantly outperforms the baselines and effectively eliminates the correlation bias in datasets.
翻訳日:2023-10-12 22:12:35 公開日:2023-10-11
# Fed-GraB: 自己調整型グラディエントバランサによる長期学習

Fed-GraB: Federated Long-tailed Learning with Self-Adjusting Gradient Balancer ( http://arxiv.org/abs/2310.07587v1 )

ライセンス: Link先を確認
Zikai Xiao, Zihan Chen, Songshang Liu, Hualiang Wang, Yang Feng, Jin Hao, Joey Tianyi Zhou, Jian Wu, Howard Hao Yang, Zuozhu Liu(参考訳) データプライバシと長期分布は、多くの現実世界のタスクで例外ではなく、標準である。 本稿では,各クライアントがローカルに異種データセットを持つフェデレーション・ロングテール・ラーニング(federated long-tailed learning, fed-lt)タスクについて検討する。 このような条件下では、既存のフェデレーション最適化と/または集中型ロングテール学習法はほとんど適用されない。 (a)世界的長期分布をプライバシー制約下で特徴付けること (b)頭部の不均衡に対処するために局所学習戦略を調整すること。 そこで本研究では,DPA(Direct Prior Analyzer)モジュールによって評価された大域的長期分布のフィードバックに基づいて,クライアントの勾配を閉ループで再重み付けする自己調整型グラディエント・バランサ(SGB)モジュールからなる,$\texttt{Fed-GraB}$という手法を提案する。 クライアントは$\texttt{Fed-GraB}$を使用することで、モデルトレーニングプロセス中にデータの不均一性によって引き起こされる分散ドリフトを効果的に軽減し、多数派クラスのパフォーマンスを維持しながら、少数派クラスのパフォーマンスを向上したグローバルモデルを得ることができる。 大規模な実験では、CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT、iNaturalistなどの代表的なデータセットに対して、$\texttt{Fed-GraB}$が最先端のパフォーマンスを達成することが示されている。

Data privacy and long-tailed distribution are the norms rather than the exception in many real-world tasks. This paper investigates a federated long-tailed learning (Fed-LT) task in which each client holds a locally heterogeneous dataset; if the datasets can be globally aggregated, they jointly exhibit a long-tailed distribution. Under such a setting, existing federated optimization and/or centralized long-tailed learning methods hardly apply due to challenges in (a) characterizing the global long-tailed distribution under privacy constraints and (b) adjusting the local learning strategy to cope with the head-tail imbalance. In response, we propose a method termed $\texttt{Fed-GraB}$, comprised of a Self-adjusting Gradient Balancer (SGB) module that re-weights clients' gradients in a closed-loop manner, based on the feedback of global long-tailed distribution evaluated by a Direct Prior Analyzer (DPA) module. Using $\texttt{Fed-GraB}$, clients can effectively alleviate the distribution drift caused by data heterogeneity during the model training process and obtain a global model with better performance on the minority classes while maintaining the performance of the majority classes. Extensive experiments demonstrate that $\texttt{Fed-GraB}$ achieves state-of-the-art performance on representative datasets such as CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, and iNaturalist.
翻訳日:2023-10-12 22:12:15 公開日:2023-10-11
# フィンガープリントコア位置の中心性

Centrality of the Fingerprint Core Location ( http://arxiv.org/abs/2310.07584v1 )

ライセンス: Link先を確認
Laurenz Ruzicka and Bernhard Strobl and Bernhard Kohn and Clemens Heitzinger(参考訳) 指紋は、個人識別のユニークな信頼性のある手段として長年認識されてきた。 指紋の分析と強化の中心は、指紋コアの概念である。 コアの位置は、多くのアプリケーションで使われているが、私たちの知る限りでは、この研究は、大きな組み合わせたロールのデータセットと平らな指紋記録を用いた実験的なコアの分布を初めて調べたものである。 ロール指紋取得時の不完全転がりの程度を同定し,コアの中央性について検討した。 不完全な転がり方を修正した結果、指紋センターからコアが5.7%$\pm$ 5.2%から7.6%$\pm$ 6.9%にずれていることがわかった。 また, 平板指紋記録のコア位置の正規分布の仮定は否定できないが, ロールする場合には否定できることがわかった。 そこで,複数ステップのプロセスを用いて,ロールされた指紋記録の分布を求める。 このプロセスは、アンダーソン・ダーリング正規性テスト、候補分布の数を減らすベイズ情報基準、そして最終的に最適な適合分布を見つけるための一般化されたモンテカルロ優良手順からなる。 非中央のフィッシャー分布はコアの水平位置を最もよく表している。 最後に,NFIQ2スコアの平均コア位置オフセットとNFIQ2スコアとの相関を調べた結果,NFIQ2は,コアが指紋中心よりわずかに低い位置にあるロール指紋記録を好むことがわかった。

Fingerprints have long been recognized as a unique and reliable means of personal identification. Central to the analysis and enhancement of fingerprints is the concept of the fingerprint core. Although the location of the core is used in many applications, to the best of our knowledge, this study is the first to investigate the empirical distribution of the core over a large, combined dataset of rolled, as well as plain fingerprint recordings. We identify and investigate the extent of incomplete rolling during the rolled fingerprint acquisition and investigate the centrality of the core. After correcting for the incomplete rolling, we find that the core deviates from the fingerprint center by 5.7% $\pm$ 5.2% to 7.6% $\pm$ 6.9%, depending on the finger. Additionally, we find that the assumption of normal distribution of the core position of plain fingerprint recordings cannot be rejected, but for rolled ones it can. Therefore, we use a multi-step process to find the distribution of the rolled fingerprint recordings. The process consists of an Anderson-Darling normality test, the Bayesian Information Criterion to reduce the number of possible candidate distributions and finally a Generalized Monte Carlo goodness-of-fit procedure to find the best fitting distribution. We find the non-central Fischer distribution best describes the cores' horizontal positions. Finally, we investigate the correlation between mean core position offset and the NFIQ 2 score and find that the NFIQ 2 prefers rolled fingerprint recordings where the core sits slightly below the fingerprint center.
翻訳日:2023-10-12 22:11:44 公開日:2023-10-11
# 単純変圧器における線形潜在世界モデル:オセロGPTの事例

Linear Latent World Models in Simple Transformers: A Case Study on Othello-GPT ( http://arxiv.org/abs/2310.07582v1 )

ライセンス: Link先を確認
Dean S. Hazineh, Zechen Zhang, Jeffery Chiu(参考訳) 基礎モデルは意思決定と論理的推論において重要な能力を示す。 それでも、ただの確率的模倣とは対照的に、世界に対する真の理解についての議論が続いている。 本稿は,Othello-GPTの創発的世界モデルの理解を深めるために,Othelloのために訓練された単純なトランスフォーマーを慎重に検討する。 調査の結果、Othello-GPTは反対のピースの線形表現をカプセル化しており、その決定過程を因果的に判断する要因であることがわかった。 本稿では,線形世界表現と因果決定の相互作用と,層深度とモデル複雑性への依存性をさらに解明する。 コードを公開しました。

Foundation models exhibit significant capabilities in decision-making and logical deductions. Nonetheless, a continuing discourse persists regarding their genuine understanding of the world as opposed to mere stochastic mimicry. This paper meticulously examines a simple transformer trained for Othello, extending prior research to enhance comprehension of the emergent world model of Othello-GPT. The investigation reveals that Othello-GPT encapsulates a linear representation of opposing pieces, a factor that causally steers its decision-making process. This paper further elucidates the interplay between the linear world representation and causal decision-making, and their dependence on layer depth and model complexity. We have made the code public.
翻訳日:2023-10-12 22:11:14 公開日:2023-10-11
# in-context unlearning: 少数のunlearnerによる言語モデル

In-Context Unlearning: Language Models as Few Shot Unlearners ( http://arxiv.org/abs/2310.07579v1 )

ライセンス: Link先を確認
Martin Pawelczyk, Seth Neel, Himabindu Lakkaraju(参考訳) 訓練されたモデルに対する特定のトレーニングポイントの影響を効率的に取り除く研究である機械学習は、 \emph{right to be forget}のようなプライバシ規則に従う必要性によって、遅れて注目を集めている。 アンラーニングは著作権問題に照らしてLLMにとって特に意味があるが、正確なアンラーニングを達成することは非常に大きなモデルでは計算不可能である。 この目的のために、近年の研究では、モデルを再トレーニングすることなくトレーニングデータの除去を近似するアルゴリズムがいくつか提案されている。 これらのアルゴリズムは、計算上の制約や LLM が API 経由でアクセスされた場合に、実際に保持されない仮定であるモデルを更新するために、モデルパラメータへのアクセスに決定的に依存する。 本研究では,'in-context unlearning'と呼ばれるllmのための新しい学習手法を提案し,モデルパラメータを更新せずに,コンテキスト内の入力を提供する。 特定のトレーニングインスタンスを解放するために、推論時に LLM への入力としてプリプションされる、フリップラベルと正しくラベル付けされた追加のインスタンスを提供する。 実験の結果,llmパラメータへのアクセスを必要とする最先端のアンラーニング手法と競合する(あるいはそれを超える)パフォーマンスレベルを維持しながら,これらのコンテキストがトレーニングセットから特定の情報を効果的に削除できることが示されている。

Machine unlearning, the study of efficiently removing the impact of specific training points on the trained model, has garnered increased attention of late, driven by the need to comply with privacy regulations like the \emph{Right to be Forgotten}. Although unlearning is particularly relevant for LLMs in light of the copyright issues they raise, achieving precise unlearning is computationally infeasible for very large models. To this end, recent work has proposed several algorithms which approximate the removal of training data without retraining the model. These algorithms crucially rely on access to the model parameters in order to update them, an assumption that may not hold in practice due to computational constraints or when the LLM is accessed via API. In this work, we propose a new class of unlearning methods for LLMs we call ``In-Context Unlearning'', providing inputs in context and without having to update model parameters. To unlearn a particular training instance, we provide the instance alongside a flipped label and additional correctly labelled instances which are prepended as inputs to the LLM at inference time. Our experimental results demonstrate that these contexts effectively remove specific information from the training set while maintaining performance levels that are competitive with (or in some cases exceed) state-of-the-art unlearning methods that require access to the LLM parameters.
翻訳日:2023-10-12 22:11:01 公開日:2023-10-11
# コモンプール資源の持続性に及ぼす資源可用性と適合性の影響

Impact of resource availability and conformity effect on sustainability of common-pool resources ( http://arxiv.org/abs/2310.07577v1 )

ライセンス: Link先を確認
Chengyi Tu(参考訳) 共通プール資源の持続性は、人間と環境システム間の相互作用に依存する。 しかし、共通プール資源の抽出と、システム行動や成果を形成するさまざまな要因を考慮に入れた人間エージェントの協力をモデル化するための、新しく包括的な枠組みがまだ存在しない。 特に、さまざまなシナリオでリソースの持続性を確保する上で、依然として重要な価値が欠如しています。 本稿では,共同プール資源のための環境システムにおける資源抽出と協調を研究するための新しい枠組みを提案する。 資源の可利用性や適合性などの異なる要因がプレイヤーの判断やリソースの結果に与える影響について検討する。 各種シナリオ下で資源の持続可能性を確保するための重要な価値を同定する。 観察された現象は,モデルの複雑さや仮定に頑健であることを示し,今後の研究の限界や方向性とともに,政策や実践に対する我々の研究の意義について論じる。

Sustainability of common-pool resources hinges on the interplay between human and environmental systems. However, there is still a lack of a novel and comprehensive framework for modelling extraction of common-pool resources and cooperation of human agents that can account for different factors that shape the system behavior and outcomes. In particular, we still lack a critical value for ensuring resource sustainability under different scenarios. In this paper, we present a novel framework for studying resource extraction and cooperation in human-environmental systems for common-pool resources. We explore how different factors, such as resource availability and conformity effect, influence the players' decisions and the resource outcomes. We identify critical values for ensuring resource sustainability under various scenarios. We demonstrate the observed phenomena are robust to the complexity and assumptions of the models and discuss implications of our study for policy and practice, as well as the limitations and directions for future research.
翻訳日:2023-10-12 22:10:35 公開日:2023-10-11
# リレーショナル事前知識グラフによる検出とインスタンスセグメンテーション

Relational Prior Knowledge Graphs for Detection and Instance Segmentation ( http://arxiv.org/abs/2310.07573v1 )

ライセンス: Link先を確認
Osman \"Ulger, Yu Wang, Ysbrand Galama, Sezer Karaoglu, Theo Gevers, Martin R. Oswald(参考訳) 人間は、物体間の関係を理解することによって、周囲の世界を知覚し、推論する驚くべき能力を持っている。 本稿では,オブジェクト検出とインスタンス分割にそのような関係を用いることの有効性を検討する。 そこで本研究では,リレーショナル・プレファレンスを用いてオブジェクトの提案機能を強化するグラフトランスフォーマであるリレーショナル・プレファレンス・フィーチャー・エンハンスメント・モデル(rp-fem)を提案する。 提案アーキテクチャは,初期提案から得られたシーングラフ上で動作し,オブジェクト検出とインスタンスセグメンテーションのための関係コンテキストモデリングを同時に学習することを目的としている。 COCOの実験的評価は、リレーショナル先行で拡張されたシーングラフの利用は、オブジェクト検出とインスタンスセグメンテーションの利点をもたらすことを示している。 RP-FEMは、イメージ内の不可能なクラス予測を抑える能力を示し、モデルが重複予測を発生させないことを示し、それが構築されるベースラインモデルよりも改善される。

Humans have a remarkable ability to perceive and reason about the world around them by understanding the relationships between objects. In this paper, we investigate the effectiveness of using such relationships for object detection and instance segmentation. To this end, we propose a Relational Prior-based Feature Enhancement Model (RP-FEM), a graph transformer that enhances object proposal features using relational priors. The proposed architecture operates on top of scene graphs obtained from initial proposals and aims to concurrently learn relational context modeling for object detection and instance segmentation. Experimental evaluations on COCO show that the utilization of scene graphs, augmented with relational priors, offer benefits for object detection and instance segmentation. RP-FEM demonstrates its capacity to suppress improbable class predictions within the image while also preventing the model from generating duplicate predictions, leading to improvements over the baseline model on which it is built.
翻訳日:2023-10-12 22:10:20 公開日:2023-10-11
# オーバーヘッド画像を用いたSWINモデルの訓練におけるラベルタイプの影響

Impact of Label Types on Training SWIN Models with Overhead Imagery ( http://arxiv.org/abs/2310.07572v1 )

ライセンス: Link先を確認
Ryan Ford, Kenneth Hutchison, Nicholas Felts, Benjamin Cheng, Jesse Lew, Kyle Jackson(参考訳) モデルトレーニングとパフォーマンスに対するデータセット設計の影響を理解することは、リモートセンシングとラベル付きデータの生成に関連するコストを軽減するのに役立つ。 本研究は,有界箱とセグメンテーションラベルを用いた移動窓変圧器の訓練効果について検討した。 対象画素と背景の両方で訓練されたモデルと,セグメンテーションラベルから抽出したターゲット画素のみを訓練したモデルとを比較して分類課題を検討した。 オブジェクト検出モデルでは、トレーニング時のラベルタイプでパフォーマンスを比較した。 対象画素のみに訓練されたモデルでは分類タスクの性能が向上せず,対象画素を用いた評価セットで背景画素が共役するようにみられた。 オブジェクト検出では、各ラベルタイプでトレーニングされたモデルが、テスト全体で同等のパフォーマンスを示した。 オブジェクトセグメンテーションのような複雑なラベルを必要としないタスクには,バウンディングボックスが十分であることがわかった。 データタイプとモデルアーキテクチャ間でこの結果の一貫性を決定する作業の継続は、ディープラーニングのためにリモートセンシングデータセットを生成する際の大幅な節約につながる可能性がある。

Understanding the impact of data set design on model training and performance can help alleviate the costs associated with generating remote sensing and overhead labeled data. This work examined the impact of training shifted window transformers using bounding boxes and segmentation labels, where the latter are more expensive to produce. We examined classification tasks by comparing models trained with both target and backgrounds against models trained with only target pixels, extracted by segmentation labels. For object detection models, we compared performance using either label type when training. We found that the models trained on only target pixels do not show performance improvement for classification tasks, appearing to conflate background pixels in the evaluation set with target pixels. For object detection, we found that models trained with either label type showed equivalent performance across testing. We found that bounding boxes appeared to be sufficient for tasks that did not require more complex labels, such as object segmentation. Continuing work to determine consistency of this result across data types and model architectures could potentially result in substantial savings in generating remote sensing data sets for deep learning.
翻訳日:2023-10-12 22:10:01 公開日:2023-10-11
# リモートセンシング画像からの建物検出のためのコンテキスト拡張検出器

Context-Enhanced Detector For Building Detection From Remote Sensing Images ( http://arxiv.org/abs/2310.07638v1 )

ライセンス: Link先を確認
Ziyue Huang, Mingming Zhang, Qingjie Liu, Wei Wang, Zhe Dong, and Yunhong Wang(参考訳) リモートセンシング画像からの建物検出の分野は大きな進歩を遂げているが,ビルの外観の多様性や広大なシーンの複雑さにより,高精度な検出を実現する上での課題に直面している。 これらの課題に対処するために、コンテキスト拡張検出器(CEDet)と呼ばれる新しいアプローチを提案する。 本手法では,3段階カスケード構造を用いて文脈情報の抽出と建物検出精度の向上を行う。 具体的には,マルチスケールコンテキストを集約し,長距離インタラクションをキャプチャするアテンション機構を組み込んだsgcm(semantic guided context mining)モジュールと,空間関係グラフを構築してインスタンス特徴を集約することで,インスタンスレベルの関係コンテキストをキャプチャするicmm(インスタンスコンテキストマイニングモジュール)という2つのモジュールを導入する。 さらに,擬似マスクに基づく意味的セグメンテーションの損失を導入し,文脈情報抽出を誘導する。 提案手法は,CNBuilding-9P,CNBuilding-23P,SpaceNetを含む3つのビルディング検出ベンチマークの最先端性能を実現する。

The field of building detection from remote sensing images has made significant progress, but faces challenges in achieving high-accuracy detection due to the diversity in building appearances and the complexity of vast scenes. To address these challenges, we propose a novel approach called Context-Enhanced Detector (CEDet). Our approach utilizes a three-stage cascade structure to enhance the extraction of contextual information and improve building detection accuracy. Specifically, we introduce two modules: the Semantic Guided Contextual Mining (SGCM) module, which aggregates multi-scale contexts and incorporates an attention mechanism to capture long-range interactions, and the Instance Context Mining Module (ICMM), which captures instance-level relationship context by constructing a spatial relationship graph and aggregating instance features. Additionally, we introduce a semantic segmentation loss based on pseudo-masks to guide contextual information extraction. Our method achieves state-of-the-art performance on three building detection benchmarks, including CNBuilding-9P, CNBuilding-23P, and SpaceNet.
翻訳日:2023-10-12 22:01:58 公開日:2023-10-11
# 3次元剛体運動モデリングにおける2次四元回転と翻訳等価性

Dual Quaternion Rotational and Translational Equivariance in 3D Rigid Motion Modelling ( http://arxiv.org/abs/2310.07623v1 )

ライセンス: Link先を確認
Guilherme Vieira, Eleonora Grassucci, Marcos Eduardo Valle, and Danilo Comminiello(参考訳) 3次元空間における物体の剛体運動は、高相関点の回転と変換によって記述され、それぞれが関連する$x,y,z$座標を持ち、実数値のネットワークは別々の実体と見なし、情報を失う。 以前の研究は四元数代数と3次元空間における回転をモデル化する能力を利用していた。 しかし、これらの代数学は翻訳を適切にエンコードせず、3D学習タスクにおける準最適性能をもたらす。 これらの制限を克服するために、3次元空間における剛体運動の双四元数表現を用い、点集合の回転と変換を共同で記述し、各点を1つの実体として処理する。 我々のアプローチは翻訳と回転の同変であり、データの変化に悩まされず、実験的な評価で検証したように、物体の軌道を良く学習する。 モデルでは, 3次元空間における剛体運動に対する2次四元数定式法の有効性を検証し, この定式化は, 人間のポーズ予測アプリケーションにおいて, 従来の手法よりも優れていた。

Objects' rigid motions in 3D space are described by rotations and translations of a highly-correlated set of points, each with associated $x,y,z$ coordinates that real-valued networks consider as separate entities, losing information. Previous works exploit quaternion algebra and their ability to model rotations in 3D space. However, these algebras do not properly encode translations, leading to sub-optimal performance in 3D learning tasks. To overcome these limitations, we employ a dual quaternion representation of rigid motions in the 3D space that jointly describes rotations and translations of point sets, processing each of the points as a single entity. Our approach is translation and rotation equivariant, so it does not suffer from shifts in the data and better learns object trajectories, as we validate in the experimental evaluations. Models endowed with this formulation outperform previous approaches in a human pose forecasting application, attesting to the effectiveness of the proposed dual quaternion formulation for rigid motions in 3D space.
翻訳日:2023-10-12 22:01:38 公開日:2023-10-11
# VQEによるスピンチェーン作業抽出の最適化

VQE-inspired optimization for spin chains work extraction ( http://arxiv.org/abs/2310.07617v1 )

ライセンス: Link先を確認
Ivan Medina, Alexandre Drinko, Guilherme I. Correr, Pedro C. Azado, and Diogo O. Soares-Pinto(参考訳) 量子源からのエネルギー抽出は、量子電池(QB)のような新しい量子デバイスを開発するための重要なタスクである。 この文脈において、長所の1つがエルゴトロピー(ergotropy)であり、これは一元演算によって量子源から抽出できるエネルギーの最大量(仕事として)を測定するものである。 量子源からエネルギーを完全に抽出する主な問題は、任意のユニタリ演算をシステム上で行うことができるという仮定である。 この仮定は、一般的には、実行可能な操作が制限され、利用可能な量子ハードウェア(実験プラットフォーム)に依存するため、実際には失敗する。 本研究では,変分量子固有解法(VQE)アルゴリズムに着想を得た抽出可能エネルギーの最適化手法を提案する。 本稿では,パラメータ化量子回路のハードウェア効率アンサッツ(HEA)クラスを用いて,限られたユニタリの集合を明示的に考慮する。 QB として、XXX, XXZ, XYZ, XX, XY, および超越イジングモデルのようなパラダイム的第一近隣ハミルトニアン族によって記述される 1D スピン鎖を用いる。 量子ハードウェアに応じて異なる種類の接続が利用できると仮定してパラメータ化された量子回路を構築することにより、各モデルに対する作業抽出効率を数値的に比較する。 その結果,第一近傍スピン間の接続性を有する量子回路において,最適効率が得られることがわかった。

The energy extraction from quantum sources is a key task to develop new quantum devices such as Quantum Batteries (QB). In this context, one of the main figures of merit is the ergotropy, which measures the maximal amount of energy (as work) that can be extracted from the quantum source by means of unitary operations. One of the main issues to fully extract energy from the quantum source is the assumption that any unitary operation can be done on the system. This assumption, in general, fails in practice since the operations that can be done are limited and depend on the quantum hardware (experimental platform) one has available. In this work, we propose a new approach to optimize the extractable energy inspired by the Variational Quantum Eigensolver (VQE) algorithm. In this approach, we explicitly take into account a limited set of unitaries by using the Hardware Efficient Ansatz (HEA) class of parameterized quantum circuits. As a QB we use an 1D spin chain described by a family of paradigmatic first neighbour hamiltonians such as the XXX, XXZ, XYZ, XX, XY and Transverse Ising models. By building our parameterized quantum circuits assuming that different types of connectivity may be available depending on the quantum hardware, we numerically compare the efficiency of work extraction for each model. Our results show that the best efficiency is generally obtained with quantum circuits that have connectivity between first neighbour spins.
翻訳日:2023-10-12 22:01:19 公開日:2023-10-11
# 説明可能なファクトチェックのための強化学習に基づく知識グラフ推論

Reinforcement Learning-based Knowledge Graph Reasoning for Explainable Fact-checking ( http://arxiv.org/abs/2310.07613v1 )

ライセンス: Link先を確認
Gustav Nikopensius, Mohit Mayank, Orchid Chetia Phukan, Rajesh Sharma(参考訳) ファクトチェックは誤情報の防止を保証するため、重要なタスクである。 しかし、手動の事実チェックは、偽情報が生成され、オンラインで配布される速度に遅れない。 機械によるファクトチェックは、人間よりもはるかに高速である。 しかし、これらの自動化システムの信頼性と透明性を高めるためには、ファクトチェックプロセスの説明可能性が必要である。 事実チェックは、しばしばそのような説明のために、事実的な主張と知識の体系との対比を伴う。 知識を表現する効果的な方法は知識グラフ(KG)である。 KGの使用による事実チェックに関する十分な研究が提案されているが、そのような場合の強化学習(RL)の適用にはあまり焦点が当てられていない。 このギャップを緩和するために、説明可能な事実チェックのためのRLベースのKG推論手法を提案する。 FB15K-277とNELL-995データセットの大規模な実験により、KGの推論は、事実主張のためのパスと分類の形式で人間可読な説明を生成する効果的な方法であることが示された。 RL推論エージェントは、事実的主張を証明または否定するパスを計算するが、判断そのものを提供しない。 評決は、エージェントが生成したパスを利用する投票機構によって達成される。 これらの経路は、提示された証拠が説得力があるかどうか自身で判断できるように、人間の読者に提示することができる。 この研究は、人間とループのアプローチを提供することで信頼性を高めるため、説明可能な事実チェックのためにRLを取り入れる作業を促進する。

Fact-checking is a crucial task as it ensures the prevention of misinformation. However, manual fact-checking cannot keep up with the rate at which false information is generated and disseminated online. Automated fact-checking by machines is significantly quicker than by humans. But for better trust and transparency of these automated systems, explainability in the fact-checking process is necessary. Fact-checking often entails contrasting a factual assertion with a body of knowledge for such explanations. An effective way of representing knowledge is the Knowledge Graph (KG). There have been sufficient works proposed related to fact-checking with the usage of KG but not much focus is given to the application of reinforcement learning (RL) in such cases. To mitigate this gap, we propose an RL-based KG reasoning approach for explainable fact-checking. Extensive experiments on FB15K-277 and NELL-995 datasets reveal that reasoning over a KG is an effective way of producing human-readable explanations in the form of paths and classifications for fact claims. The RL reasoning agent computes a path that either proves or disproves a factual claim, but does not provide a verdict itself. A verdict is reached by a voting mechanism that utilizes paths produced by the agent. These paths can be presented to human readers so that they themselves can decide whether or not the provided evidence is convincing or not. This work will encourage works in this direction for incorporating RL for explainable fact-checking as it increases trustworthiness by providing a human-in-the-loop approach.
翻訳日:2023-10-12 22:00:40 公開日:2023-10-11
# PHYDI: パラメータ化ハイパープレックスニューラルネットワークをアイデンティティ関数として初期化する

PHYDI: Initializing Parameterized Hypercomplex Neural Networks as Identity Functions ( http://arxiv.org/abs/2310.07612v1 )

ライセンス: Link先を確認
Matteo Mancanelli, Eleonora Grassucci, Aurelio Uncini, and Danilo Comminiello(参考訳) 超複素代数系に基づくニューラルモデルは、コンピュータビジョンから自然言語処理まで、多くのアプリケーションのために成長し、発展している。 パラメータ化ハイパーコンプレックスニューラルネットワーク(PHNN)の採用に伴い,パラメータ化ハイパーコンプレックスニューラルネットワーク(PHNN)のサイズが拡大しており,その収束を大規模に制御するためのテクニックが採用されていない。 本稿では,PHNNの収束について検討し,異なるスケールでの収束を改善する手法であるパラメータ化超複素ID初期化(PHYDI)を提案する。 本稿では,ResNets と Transformer をベースとした共通 PHNN を用いて,この手法の有効性を示す。 コードはhttps://github.com/ispamm/phydiで入手できる。

Neural models based on hypercomplex algebra systems are growing and prolificating for a plethora of applications, ranging from computer vision to natural language processing. Hand in hand with their adoption, parameterized hypercomplex neural networks (PHNNs) are growing in size and no techniques have been adopted so far to control their convergence at a large scale. In this paper, we study PHNNs convergence and propose parameterized hypercomplex identity initialization (PHYDI), a method to improve their convergence at different scales, leading to more robust performance when the number of layers scales up, while also reaching the same performance with fewer iterations. We show the effectiveness of this approach in different benchmarks and with common PHNNs with ResNets- and Transformer-based architecture. The code is available at https://github.com/ispamm/PHYDI.
翻訳日:2023-10-12 22:00:18 公開日:2023-10-11
# llmsの民主化:自己精製オープンソースモデルにおけるコストパフォーマンストレードオフの探求

Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models ( http://arxiv.org/abs/2310.07611v1 )

ライセンス: Link先を確認
Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Zhenhailong Wang, Heng Ji(参考訳) プロプライエタリなLSMの優位性は、アクセス制限と情報プライバシーの懸念を引き起こしている。 情報センシティブで高ボリュームなアプリケーションには、高性能なオープンソース代替製品が不可欠だが、パフォーマンスには遅れがしばしばある。 このギャップに対処するため,(1)外的影響を伴わない反復的自己批判と自己抑制の未目標変種を提案する。 2) 性能, 精細化, 推論コストスコア (PeRFICS) という新しいランク付け指標を用いて, 改良された性能とコストを考慮したタスクの最適モデルを求める。 実験の結果,SoTAのオープンソースモデルは7Bから65Bまで,ベースライン性能は平均8.2%向上した。 厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善を示し、Vicunaベンチマークでは25.39%の改善が達成された。 Vicuna-13Bはさらに一歩前進し、ChatGPTのポストリファインメントを上回っている。 この研究は、資源に制約のある情報に敏感な環境において、違法なコストを伴わずにLCMを活用し、パフォーマンスとプライバシを損なうことなく、大きな意味を持つ。 新たなランキング指標と組み合わされたドメイン非依存な自己定義プロセスは、モデル選択のインフォームド意思決定を促進し、コストを削減し、高パフォーマンス言語モデルへのアクセスを民主化する。

The dominance of proprietary LLMs has led to restricted access and raised information privacy concerns. High-performing open-source alternatives are crucial for information-sensitive and high-volume applications but often lag behind in performance. To address this gap, we propose (1) A untargeted variant of iterative self-critique and self-refinement devoid of external influence. (2) A novel ranking metric - Performance, Refinement, and Inference Cost Score (PeRFICS) - to find the optimal model for a given task considering refined performance and cost. Our experiments show that SoTA open source models of varying sizes from 7B - 65B, on average, improve 8.2% from their baseline performance. Strikingly, even models with extremely small memory footprints, such as Vicuna-7B, show a 11.74% improvement overall and up to a 25.39% improvement in high-creativity, open ended tasks on the Vicuna benchmark. Vicuna-13B takes it a step further and outperforms ChatGPT post-refinement. This work has profound implications for resource-constrained and information-sensitive environments seeking to leverage LLMs without incurring prohibitive costs, compromising on performance and privacy. The domain-agnostic self-refinement process coupled with our novel ranking metric facilitates informed decision-making in model selection, thereby reducing costs and democratizing access to high-performing language models, as evidenced by case studies.
翻訳日:2023-10-12 22:00:02 公開日:2023-10-11
# QACHECK: 質問ガイド付きマルチホップファクトチェッキングのためのデモシステム

QACHECK: A Demonstration System for Question-Guided Multi-Hop Fact-Checking ( http://arxiv.org/abs/2310.07609v1 )

ライセンス: Link先を確認
Liangming Pan, Xinyuan Lu, Min-Yen Kan, Preslav Nakov(参考訳) Fact-checking real-world claims は、しばしば、それらを支持したり反証する直接的な証拠がないため、複雑で多段階の推論を必要とする。 しかし、既存のファクトチェックシステムは意思決定の透明性を欠くことが多いため、ユーザが推論プロセスを理解するのが難しくなっている。 そこで本研究では,クレームの検証に不可欠な質問を複数問うことで,モデルの推論過程をガイドする質問誘導型マルチホップファクトチェッキング(QACHECK)システムを提案する。 QACHECKには、クレーム検証器、質問生成器、質問応答モジュール、QA検証器、推論器の5つの重要なモジュールがある。 ユーザはqacheckにクレームを入力することで、その妥当性を予測し、一連の(質問、回答)ペアによって導かれる推論プロセスに関する包括的なレポートを提供する。 QACHECKはまた、各質問を支持するエビデンス源を提供し、透明で説明可能な、ユーザフレンドリーな事実チェックプロセスを促進する。 QACHECKのビデオはhttps://www.youtube.com/watch? v=ju8kxSldM64

Fact-checking real-world claims often requires complex, multi-step reasoning due to the absence of direct evidence to support or refute them. However, existing fact-checking systems often lack transparency in their decision-making, making it challenging for users to comprehend their reasoning process. To address this, we propose the Question-guided Multi-hop Fact-Checking (QACHECK) system, which guides the model's reasoning process by asking a series of questions critical for verifying a claim. QACHECK has five key modules: a claim verifier, a question generator, a question-answering module, a QA validator, and a reasoner. Users can input a claim into QACHECK, which then predicts its veracity and provides a comprehensive report detailing its reasoning process, guided by a sequence of (question, answer) pairs. QACHECK also provides the source of evidence supporting each question, fostering a transparent, explainable, and user-friendly fact-checking process. A recorded video of QACHECK is at https://www.youtube.com/watch?v=ju8kxSldM64
翻訳日:2023-10-12 21:59:35 公開日:2023-10-11
# Dual Radar: 自律走行のためのDual 4D Radar付きマルチモーダルデータセット

Dual Radar: A Multi-modal Dataset with Dual 4D Radar for Autononous Driving ( http://arxiv.org/abs/2310.07602v1 )

ライセンス: Link先を確認
Xinyu Zhang, Li Wang, Jian Chen, Cheng Fang, Lei Yang, Ziying Song, Guangqi Yang, Yichen Wang, Xiaofei Zhang, Jun Li(参考訳) radarは、広く採用されているカメラやライダーと比較して、自律運転環境認識の悪いシナリオに適応性が高い。 一般的な3dレーダーと比較すると、最新の4dレーダーは正確な垂直解像度と高点の雲密度を持ち、複雑な環境知覚における自律運転のための非常に有望なセンサーである。 しかし、LiDARよりもはるかに高いノイズのため、メーカーは異なるフィルタリング戦略を選択し、ノイズレベルと点雲密度の逆比をもたらす。 自動運転における深層学習に基づく知覚アルゴリズムにとって、どの手法が有益かの比較分析がいまだに欠けている。 主な理由の1つは、現在のデータセットが1種類の4Dレーダーのみを採用するため、同じシーンで異なる4Dレーダーを比較するのは困難である。 そこで本研究では,2種類の4Dレーダを同時に撮影する大規模マルチモーダル・データセットを提案する。 このデータセットは、有効な4Dレーダ認識アルゴリズムのさらなる研究を可能にし、我々のデータセットは151の連続するシリーズで構成され、そのほとんどは、正確に同期された10,007フレームを含む。 さらに我々のデータセットは、多くの道路条件、天候条件、夜間と昼間の照明強度と期間を含む、様々な困難な運転シナリオをキャプチャします。 私たちのデータセットは、3dオブジェクト検出とトラッキングに適用可能な連続フレームを注釈し、マルチモーダルタスクの研究もサポートする。 我々はデータセットを実験的に検証し、異なる種類の4Dレーダーの研究に有用な結果を提供する。 このデータセットはhttps://github.com/adept-thu/Dual-Radarで公開されている。

Radar has stronger adaptability in adverse scenarios for autonomous driving environmental perception compared to widely adopted cameras and LiDARs. Compared with commonly used 3D radars, latest 4D radars have precise vertical resolution and higher point cloud density, making it a highly promising sensor for autonomous driving in complex environmental perception. However, due to the much higher noise than LiDAR, manufacturers choose different filtering strategies, resulting in an inverse ratio between noise level and point cloud density. There is still a lack of comparative analysis on which method is beneficial for deep learning-based perception algorithms in autonomous driving. One of the main reasons is that current datasets only adopt one type of 4D radar, making it difficult to compare different 4D radars in the same scene. Therefore, in this paper, we introduce a novel large-scale multi-modal dataset featuring, for the first time, two types of 4D radars captured simultaneously. This dataset enables further research into effective 4D radar perception algorithms.Our dataset consists of 151 consecutive series, most of which last 20 seconds and contain 10,007 meticulously synchronized and annotated frames. Moreover, our dataset captures a variety of challenging driving scenarios, including many road conditions, weather conditions, nighttime and daytime with different lighting intensities and periods. Our dataset annotates consecutive frames, which can be applied to 3D object detection and tracking, and also supports the study of multi-modal tasks. We experimentally validate our dataset, providing valuable results for studying different types of 4D radars. This dataset is released on https://github.com/adept-thu/Dual-Radar.
翻訳日:2023-10-12 21:59:16 公開日:2023-10-11
# 不均衡データ・表現学習・SEP予測に関する調査

Survey on Imbalanced Data, Representation Learning and SEP Forecasting ( http://arxiv.org/abs/2310.07598v1 )

ライセンス: Link先を確認
Josias Moukpe(参考訳) ディープラーニングでは,回帰や分類,予測など,さまざまなデータ駆動タスクが大幅に進歩している。 しかしながら、この進歩の多くは、トレーニングデータセットが保持するターゲットに対してバランスが取れているという強固だが非現実的な仮定に基づいて予測されている。 データが頻繁に不均衡である現実の状況とのこの不一致は、実用的応用におけるそのようなモデルの有効性を阻害する。 仮定を再考し、現実世界の不均衡に取り組む手法が出現し始め、この課題に対処するための道を探究している。 モデルが複雑なデータ特性をキャプチャし、マイノリティクラスへの一般化を可能にする。 機能空間のより豊かな表現に焦点を当てることで、これらの技術はデータ不均衡の影響を軽減する可能性を秘めている。 本稿では,実世界の不均衡をよりよく近似するために,表現学習のような戦略を用いて,バランスの取れたデータ前提から脱却する深層学習について述べる。 また、データ不均衡に対処することが成功にとって最重要となるSEP予測における重要な応用についても強調する。

Deep Learning methods have significantly advanced various data-driven tasks such as regression, classification, and forecasting. However, much of this progress has been predicated on the strong but often unrealistic assumption that training datasets are balanced with respect to the targets they contain. This misalignment with real-world conditions, where data is frequently imbalanced, hampers the effectiveness of such models in practical applications. Methods that reconsider that assumption and tackle real-world imbalances have begun to emerge and explore avenues to address this challenge. One such promising avenue is representation learning, which enables models to capture complex data characteristics and generalize better to minority classes. By focusing on a richer representation of the feature space, these techniques hold the potential to mitigate the impact of data imbalance. In this survey, we present deep learning works that step away from the balanced-data assumption, employing strategies like representation learning to better approximate real-world imbalances. We also highlight a critical application in SEP forecasting where addressing data imbalance is paramount for success.
翻訳日:2023-10-12 21:58:49 公開日:2023-10-11
# PeP: 統合ポイントクラウドタスクのためのポイント拡張塗装法

PeP: a Point enhanced Painting method for unified point cloud tasks ( http://arxiv.org/abs/2310.07591v1 )

ライセンス: Link先を確認
Zichao Dong, Hang Ji, Xufeng Huang, Weikun Zhang, Xin Zhan, Junbo Chen(参考訳) ポイントエンコーダはポイントクラウド認識において極めて重要である。 モデルパイプライン全体の最初のステップとして、さまざまなソースからの機能を追加し、より強力な機能エンコーディングメカニズムを提供することで、下流モジュールのインプットが向上する。 本稿では,上記の課題に対処する新しい PeP モジュールを提案する。 PePは2つの主要部品、精細点描画法とLMベースの点エンコーダを含んでいる。 nuScenesとKITTIデータセットを用いた実験により、PePの優れた性能が検証された。 この利点は、セマンティックセグメンテーションとオブジェクト検出の両方において、ライダーとマルチモーダルの両方で高いパフォーマンスをもたらす。 特に、pepモジュールはモデル非依存でプラグアンドプレイです。 私たちのコードはまもなく公開されます。

Point encoder is of vital importance for point cloud recognition. As the very beginning step of whole model pipeline, adding features from diverse sources and providing stronger feature encoding mechanism would provide better input for downstream modules. In our work, we proposed a novel PeP module to tackle above issue. PeP contains two main parts, a refined point painting method and a LM-based point encoder. Experiments results on the nuScenes and KITTI datasets validate the superior performance of our PeP. The advantages leads to strong performance on both semantic segmentation and object detection, in both lidar and multi-modal settings. Notably, our PeP module is model agnostic and plug-and-play. Our code will be publicly available soon.
翻訳日:2023-10-12 21:58:31 公開日:2023-10-11
# DNA配列に対するBERT-like Pretrainingの再検討

Rethinking the BERT-like Pretraining for DNA Sequences ( http://arxiv.org/abs/2310.07644v1 )

ライセンス: Link先を確認
Chaoqi Liang, Weiqiang Bai, Lifeng Qiao, Yuchen Ren, Jianle Sun, Peng Ye, Hongliang Yan, Xinzhu Ma, Wangmeng Zuo, and Wanli Ouyang(参考訳) NLPにおける大規模プレトレーニングの成功により、生命科学分野に適用する傾向が高まっている。 特に、DNA配列に基づく事前学習法は、遺伝子に関する一般的な情報を取得する可能性から注目されている。 しかし、既存のDNA配列の事前訓練法は主にNLPからのBERTの直接導入に依存しており、包括的理解と特異的に調整されたアプローチが欠如している。 この研究ギャップに対処するため、私たちはまず一連の探索実験を行い、いくつかの洞察に富んだ観察を行った。 1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss. 3) 重なり合うトークン化を用いることで,事前学習されたモデルの中間層における自己着脱は,これらの層が適切に最適化されていないことを反映して,特定のトークンに過度に注目する傾向がある。 要約すると、重複するトークン化は下流タスクの微調整に役立つが、高速収束による不適切な事前トレーニングにつながる。 これは、マスク境界を継続的に拡大し、モデルにより多くの知識を学ばせることによって、bertのような事前学習のタスクの難易度を徐々に高めるものである。 RandomMaskはシンプルだが効果的で、7つのダウンストリームタスクにまたがる28のデータセットからなる26のデータセットで最高のパフォーマンスを実現する。

With the success of large-scale pretraining in NLP, there is an increasing trend of applying it to the domain of life sciences. In particular, pretraining methods based on DNA sequences have garnered growing attention due to their potential to capture generic information about genes. However, existing pretraining methods for DNA sequences largely rely on direct adoptions of BERT pretraining from NLP, lacking a comprehensive understanding and a specifically tailored approach. To address this research gap, we first conducted a series of exploratory experiments and gained several insightful observations: 1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss. 3) Using overlapping tokenization causes the self-attention in the intermediate layers of pre-trained models to tend to overly focus on certain tokens, reflecting that these layers are not adequately optimized. In summary, overlapping tokenization can benefit the fine-tuning of downstream tasks but leads to inadequate pretraining with fast convergence. To unleash the pretraining potential, we introduce a novel approach called RandomMask, which gradually increases the task difficulty of BERT-like pretraining by continuously expanding its mask boundary, forcing the model to learn more knowledge. RandomMask is simple but effective, achieving top-tier performance across 26 datasets of 28 datasets spanning 7 downstream tasks.
翻訳日:2023-10-12 21:52:41 公開日:2023-10-11
# 大規模言語モデルの評価と学習指導の評価

Evaluating Large Language Models at Evaluating Instruction Following ( http://arxiv.org/abs/2310.07641v1 )

ライセンス: Link先を確認
Zhiyuan Zeng, Jiatong Yu, Tianyu Gao, Yu Meng, Tanya Goyal, Danqi Chen(参考訳) 大規模言語モデル(LLMs)の研究が加速し続けており、LLMに基づく評価は、絶え間なく増加するモデルのリストを比較するための、人間の評価に対するスケーラブルでコスト効率のよい代替品として現れてきた。 本稿では,これらの「llm評価器(llm evaluators)」の有効性について検討する。 命令追従出力を識別するLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。 著者らは手動で419対の出力を計算し、1つは指示に固執し、もう1つは発散するが、LLM評価器を誤解させる偽りの質を持っている可能性がある。 従来のメタ評価とは対照的に,LLMBarでは異なる評価器(LLMとプロンプトの組み合わせ)が異なる性能を示し,上位評価器でも改善の余地があることが判明した。 また,LLMと人的評価器のギャップを埋める新たな戦略を提示する。 LLMBarでは、LCM評価器に関するさらなる知見を提供し、より良い指導追従モデルを開発するための将来の研究を奨励したいと考えています。

As research in large language models (LLMs) continues to accelerate, LLM-based evaluation has emerged as a scalable and cost-effective alternative to human evaluations for comparing the ever increasing list of models. This paper investigates the efficacy of these "LLM evaluators", particularly in using them to assess instruction following, a metric that gauges how closely generated text adheres to the given instruction. We introduce a challenging meta-evaluation benchmark, LLMBar, designed to test the ability of an LLM evaluator in discerning instruction-following outputs. The authors manually curated 419 pairs of outputs, one adhering to instructions while the other diverging, yet may possess deceptive qualities that mislead an LLM evaluator, e.g., a more engaging tone. Contrary to existing meta-evaluation, we discover that different evaluators (i.e., combinations of LLMs and prompts) exhibit distinct performance on LLMBar and even the highest-scoring ones have substantial room for improvement. We also present a novel suite of prompting strategies that further close the gap between LLM and human evaluators. With LLMBar, we hope to offer more insight into LLM evaluators and foster future research in developing better instruction-following models.
翻訳日:2023-10-12 21:52:11 公開日:2023-10-11
# opseval: 大きな言語モデルのための包括的なタスク指向aiopsベンチマーク

OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large Language Models ( http://arxiv.org/abs/2310.07637v1 )

ライセンス: Link先を確認
Yuhe Liu, Changhua Pei, Longlong Xu, Bohan Chen, Mingze Sun, Zhirui Zhang, Yongqian Sun, Shenglin Zhang, Kun Wang, Haiming Zhang, Jianhui Li, Gaogang Xie, Xidaoo Wen, Xiaohui Nie, Dan Pei(参考訳) 大規模言語モデル(LLM)は、翻訳、要約、生成といったNLP関連のタスクにおいて顕著な機能を示した。 特定の分野、特にAIOps (Artificial Intelligence for IT Operations) における LLM の応用は、情報要約、レポート分析、API呼び出し能力の高度な能力によって大きな可能性を秘めている。 しかし、aiopsタスクにおける現在のllmのパフォーマンスはまだ決定されていない。 さらに、AIOps用に調整されたLLMの最適化を行うには、包括的なベンチマークが必要である。 本稿では,ネットワーク構成などの特定の分野に注目する既存のベンチマークと比較し,llms用に設計された包括的タスク指向aiopsベンチマークである \textbf{opseval} を提案する。 opsevalは3つの重要なシナリオ(有線ネットワーク操作、5g通信操作、データベース操作)において、様々な能力レベル(知識リコール、分析思考、実践的応用)においてllmsの熟練度を評価する。 ベンチマークには、複数選択と質問回答(QA)形式の7,200の質問が含まれている。 定量的・定性的な結果から,ゼロショット,チェーン・オブ・コンテクスト,マイト・イン・コンテキスト学習など,さまざまなllmトリックがaiopsのパフォーマンスに与える影響を示す。 GPT4スコアは Bleu や Rouge よりも専門家との整合性が高く,大規模定性評価のための自動メトリクスの代替に利用することができる。

Large language models (LLMs) have exhibited remarkable capabilities in NLP-related tasks such as translation, summarizing, and generation. The application of LLMs in specific areas, notably AIOps (Artificial Intelligence for IT Operations), holds great potential due to their advanced abilities in information summarizing, report analyzing, and ability of API calling. Nevertheless, the performance of current LLMs in AIOps tasks is yet to be determined. Furthermore, a comprehensive benchmark is required to steer the optimization of LLMs tailored for AIOps. Compared with existing benchmarks that focus on evaluating specific fields like network configuration, in this paper, we present \textbf{OpsEval}, a comprehensive task-oriented AIOps benchmark designed for LLMs. For the first time, OpsEval assesses LLMs' proficiency in three crucial scenarios (Wired Network Operation, 5G Communication Operation, and Database Operation) at various ability levels (knowledge recall, analytical thinking, and practical application). The benchmark includes 7,200 questions in both multiple-choice and question-answer (QA) formats, available in English and Chinese. With quantitative and qualitative results, we show how various LLM tricks can affect the performance of AIOps, including zero-shot, chain-of-thought, and few-shot in-context learning. We find that GPT4-score is more consistent with experts than widely used Bleu and Rouge, which can be used to replace automatic metrics for large-scale qualitative evaluations.
翻訳日:2023-10-12 21:51:43 公開日:2023-10-11
# ビジュアルプロンプト学習におけるプロンプトバックドア

Prompt Backdoors in Visual Prompt Learning ( http://arxiv.org/abs/2310.07632v1 )

ライセンス: Link先を確認
Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang(参考訳) 訓練済みの大規模コンピュータビジョンモデルは、リソース制限されたユーザにとって実現不可能である。 これにより、ビジュアルプロンプト学習(VPL)は、Visual Prompt as a Service(VPPTaaS)を通じて微調整をモデル化する、効率的で柔軟な代替手段を提供する。 特に、vpptaasプロバイダは、下流データに与えられた視覚的なプロンプトを最適化し、下流のユーザは、このプロンプトを、大きな事前学習されたモデルとともに、予測に使用できる。 しかし、この新しい学習パラダイムは、VPPTaaSプロバイダが悪意のある視覚的プロンプトを提供する場合、セキュリティ上のリスクを引き起こす可能性がある。 本稿では,バックドア攻撃のレンズを通してリスクを探求する第一歩を踏み出す。 具体的には,VPLに対する単純なバックドア攻撃であるBadVisualPromptを提案する。 例えば、$5\%$ cifar10のトレーニングデータを毒すると、$99\%$のアタック成功率を上回り、モデルの正確性は$1.5\%低下する。 特に,従来のモデルレベルのバックドアには存在しない,バックドアトリガーと視覚的プロンプトの相互作用に関連する新たな技術的課題を特定し,対処する。 さらに、モデル、プロンプト、入力レベルから7つのバックドア防御を詳細に分析する。 全体として、これらの防御はすべて、BadVisualPromptを緩和する非効率または非実用的であり、VPLの重大な脆弱性を暗示している。

Fine-tuning large pre-trained computer vision models is infeasible for resource-limited users. Visual prompt learning (VPL) has thus emerged to provide an efficient and flexible alternative to model fine-tuning through Visual Prompt as a Service (VPPTaaS). Specifically, the VPPTaaS provider optimizes a visual prompt given downstream data, and downstream users can use this prompt together with the large pre-trained model for prediction. However, this new learning paradigm may also pose security risks when the VPPTaaS provider instead provides a malicious visual prompt. In this paper, we take the first step to explore such risks through the lens of backdoor attacks. Specifically, we propose BadVisualPrompt, a simple yet effective backdoor attack against VPL. For example, poisoning $5\%$ CIFAR10 training data leads to above $99\%$ attack success rates with only negligible model accuracy drop by $1.5\%$. In particular, we identify and then address a new technical challenge related to interactions between the backdoor trigger and visual prompt, which does not exist in conventional, model-level backdoors. Moreover, we provide in-depth analyses of seven backdoor defenses from model, prompt, and input levels. Overall, all these defenses are either ineffective or impractical to mitigate our BadVisualPrompt, implying the critical vulnerability of VPL.
翻訳日:2023-10-12 21:51:16 公開日:2023-10-11
# 不均一共変量を用いた洪水予報のためのグラフトランスネットワーク

Graph Transformer Network for Flood Forecasting with Heterogeneous Covariates ( http://arxiv.org/abs/2310.07631v1 )

ライセンス: Link先を確認
Jimeng Shi, Vitalii Stebliankin, Zhaonan Wang, Shaowen Wang, Giri Narasimhan(参考訳) 洪水は非常に破壊的になり、生活、財産、生活に大きな被害を与える。 地球規模の気候変動とそれに伴う海面上昇により、極端な気象現象の発生が増加し、洪水のリスクが高まる。 したがって,沿岸河川システムにおける正確な洪水予測は,洪水管理の円滑化に不可欠である。 しかし、現在使われている計算ツールは遅いか不正確である。 本稿では,河川システムのためのグラフトランスフォーマーネットワーク(FloodGTN)を用いた洪水予測ツールを提案する。 より具体的には、FloodGTNはグラフニューラルネットワーク(GNN)とLSTMを使用して、異なる監視ステーションにおける水の時空間的依存関係を学習する。 現在、河川沿いの降雨、潮流、水力構造物(ダム、門、ポンプなど)の設定など、外部の共変量を考慮するために実施されている。 我々は,水位計算において外部共変量に対する注意を学習するためにトランスフォーマーを用いる。 フロリダの南フロリダ水管理地区のデータにfloodgtnツールを適用することで、頻繁に嵐やハリケーンが発生しやすい海岸地域を管理します。 実験結果から,FloodGTNは物理モデル(HEC-RAS)よりも高精度で70%向上し,実行時間を500倍以上高速化した。

Floods can be very destructive causing heavy damage to life, property, and livelihoods. Global climate change and the consequent sea-level rise have increased the occurrence of extreme weather events, resulting in elevated and frequent flood risk. Therefore, accurate and timely flood forecasting in coastal river systems is critical to facilitate good flood management. However, the computational tools currently used are either slow or inaccurate. In this paper, we propose a Flood prediction tool using Graph Transformer Network (FloodGTN) for river systems. More specifically, FloodGTN learns the spatio-temporal dependencies of water levels at different monitoring stations using Graph Neural Networks (GNNs) and an LSTM. It is currently implemented to consider external covariates such as rainfall, tide, and the settings of hydraulic structures (e.g., outflows of dams, gates, pumps, etc.) along the river. We use a Transformer to learn the attention given to external covariates in computing water levels. We apply the FloodGTN tool to data from the South Florida Water Management District, which manages a coastal area prone to frequent storms and hurricanes. Experimental results show that FloodGTN outperforms the physics-based model (HEC-RAS) by achieving higher accuracy with 70% improvement while speeding up run times by at least 500x.
翻訳日:2023-10-12 21:50:52 公開日:2023-10-11
# 形状分類のための微分可能なオイラー特性変換

Differentiable Euler Characteristic Transforms for Shape Classification ( http://arxiv.org/abs/2310.07630v1 )

ライセンス: Link先を確認
Ernst Roell, Bastian Rieck(参考訳) オイラー特性変換(ECT)は、形状とグラフの幾何学的特徴と位相的特徴を組み合わせた強力な表現であることが証明されている。 しかし、ECTはタスク固有の表現を学べなかった。 我々はこの問題を克服し、エンドツーエンドでECTを学習できる新しい計算層を開発する。 我々の手法DECTは高速かつ計算効率が高く、グラフと点クラウドの分類タスクにおいてより複雑なモデルに匹敵する性能を示す。 さらに,この一見非表現的統計学は,より複雑なトポロジカルな深層学習と同一のトポロジカル表現性を持つことを示した。

The Euler Characteristic Transform (ECT) has proven to be a powerful representation, combining geometrical and topological characteristics of shapes and graphs. However, the ECT was hitherto unable to learn task-specific representations. We overcome this issue and develop a novel computational layer that enables learning the ECT in an end-to-end fashion. Our method DECT is fast and computationally efficient, while exhibiting performance on a par with more complex models in both graph and point cloud classification tasks. Moreover, we show that this seemingly unexpressive statistic still provides the same topological expressivity as more complex topological deep learning layers provide.
翻訳日:2023-10-12 21:50:31 公開日:2023-10-11
# 主観的人間選好と価値のための大規模言語モデルにおけるフィードバック学習の過去・現在・未来

The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values ( http://arxiv.org/abs/2310.07629v1 )

ライセンス: Link先を確認
Hannah Rose Kirk, Andrew M. Bean, Bertie Vidgen, Paul R\"ottger, Scott A. Hale(参考訳) 人間のフィードバックは、大規模言語モデル(LLM)の振る舞いをコントロールするためにますます使われています。 しかし、特に主観的な人間の嗜好や価値観に対して、効率的で効果的で偏見のない方法でフィードバックを収集し、組み込む方法が不明確である。 本稿では,ACL と arXiv リポジトリを中心に,95 件の論文を参考に,人間のフィードバックから学ぶための既存のアプローチを調査し,まず,人間のフィードバックを言語モデルに統合するための過去,LLM 以前の傾向を要約する。 第二に、現在の技術とプラクティスの概要と、フィードバックを使う動機、価値と選好を定義するための概念的フレームワーク、フィードバックの収集方法、そして誰からのフィードバックです。 最後に,5つの未解決概念と実践的課題を提起することにより,LLMにおけるフィードバック学習のよりよい未来を奨励する。

Human feedback is increasingly used to steer the behaviours of Large Language Models (LLMs). However, it is unclear how to collect and incorporate feedback in a way that is efficient, effective and unbiased, especially for highly subjective human preferences and values. In this paper, we survey existing approaches for learning from human feedback, drawing on 95 papers primarily from the ACL and arXiv repositories.First, we summarise the past, pre-LLM trends for integrating human feedback into language models. Second, we give an overview of present techniques and practices, as well as the motivations for using feedback; conceptual frameworks for defining values and preferences; and how feedback is collected and from whom. Finally, we encourage a better future of feedback learning in LLMs by raising five unresolved conceptual and practical challenges.
翻訳日:2023-10-12 21:50:19 公開日:2023-10-11
# 多変量衛星観測による海面高度補間の教師なし学習

Unsupervised Learning of Sea Surface Height Interpolation from Multi-variate Simulated Satellite Observations ( http://arxiv.org/abs/2310.07626v1 )

ライセンス: Link先を確認
Theo Archambault, Arthur Filoche, Anastase Charantonis, Dominique Bereziat, Sylvie Thiria(参考訳) 衛星によるリモートセンシングミッションは、海洋の状態と力学の理解に革命をもたらした。 その中には、海面高度(ssh、sea surface height)の貴重な測定方法があり、地表の地磁気流の推定に用いられる。 しかし、センサ技術が採用されているため、SSH観測において重要なギャップが生じる。 完全SSHマップは、広く使われているデータ統一と高度結合システム(DUACS)のような線形最適補間(OI)を用いて、高度コミュニティによって作成される。 しかし、OIは過度に滑らかな畑を作ることで知られており、そのためいくつかのメソ構造や渦を見逃している。 一方、海面温度(SST)製品は、データカバレッジがはるかに高く、SSTは、対流によって地栄養的な電流と物理的に結びついている。 我々は、SSHとSSTの衛星観測をエミュレートし、補間法を評価するために、現実的な双対実験を設計する。 我々は、SST情報を利用することができるディープラーニングネットワークと、トレーニング中に地上の真理にアクセスできないものと、それにアクセス可能なものとの2つの設定でトレーニングできるネットワークを導入する。 本研究は、上記ネットワークを教師付きまたは教師なしの損失関数を用いてトレーニングした場合に比較分析する。 我々は,SSH再構成の品質を評価し,エジィ検出および物理的特性の観点からネットワークの性能をさらに評価する。 教師なし設定でも,SST非依存補間と比較して再構成性能を向上させることが可能である。 我々はduacsの再構成をduacsと比較し,根平均二乗誤差で41\%の低下を報告した。

Satellite-based remote sensing missions have revolutionized our understanding of the Ocean state and dynamics. Among them, spaceborne altimetry provides valuable measurements of Sea Surface Height (SSH), which is used to estimate surface geostrophic currents. However, due to the sensor technology employed, important gaps occur in SSH observations. Complete SSH maps are produced by the altimetry community using linear Optimal Interpolations (OI) such as the widely-used Data Unification and Altimeter Combination System (DUACS). However, OI is known for producing overly smooth fields and thus misses some mesostructures and eddies. On the other hand, Sea Surface Temperature (SST) products have much higher data coverage and SST is physically linked to geostrophic currents through advection. We design a realistic twin experiment to emulate the satellite observations of SSH and SST to evaluate interpolation methods. We introduce a deep learning network able to use SST information, and a trainable in two settings: one where we have no access to ground truth during training and one where it is accessible. Our investigation involves a comparative analysis of the aforementioned network when trained using either supervised or unsupervised loss functions. We assess the quality of SSH reconstructions and further evaluate the network's performance in terms of eddy detection and physical properties. We find that it is possible, even in an unsupervised setting to use SST to improve reconstruction performance compared to SST-agnostic interpolations. We compare our reconstructions to DUACS's and report a decrease of 41\% in terms of root mean squared error.
翻訳日:2023-10-12 21:50:03 公開日:2023-10-11
# コンピュータサイエンスのカリキュラムを横断するクロスカット概念としてのサイバーセキュリティ:経験報告

Cybersecurity as a Crosscutting Concept Across an Undergrad Computer Science Curriculum: An Experience Report ( http://arxiv.org/abs/2310.07625v1 )

ライセンス: Link先を確認
Azqa Nadeem(参考訳) 多くのコンピュータサイエンス(CS)プログラムはサイバーセキュリティコースを提供しているが、通常はオプションでプログラムの周辺に配置される。 私たちは、サイバーセキュリティをcs curriculaの横断的な概念として統合することを提唱しています。 本稿は,2018年から2023年の間,ヨーロッパの主要技術系大学で3つのコアcsコースを横断的に実施し,合計2200名以上の学生を教育した経験について述べる。 セキュリティ教育は、責任あるコースインストラクターとセキュリティ専門家、すなわち(コースインストラクターとの相談を経て)セキュリティ専門家とのパートナーシップを利用して、CSコースに組み込まれ、複数のCSEC2017知識領域をカバーする講義を指導した。 これは、コースインストラクター、セキュリティ専門家、学生の3人の利害関係者の間に複雑なダイナミクスを生み出しました。 我々は,3つのステークホルダーの観点から,学生の認知度を収集するための講習後調査,責任あるコースインストラクターとセキュリティ専門家との半監督インタビューを実施し,その経験を計測した。 その結果,学生はセキュリティ内容に非常に熱心であり,数年後にはその影響を保ちつつも,インストラクターやセキュリティ専門家に対する不一致のインセンティブは,組織的な支援なしにこの介入を維持するのを困難にしていた。 介入の限界を特定することで、それを維持するためのアイデアを提案する。

Although many Computer Science (CS) programs offer cybersecurity courses, they are typically optional and placed at the periphery of the program. We advocate to integrate cybersecurity as a crosscutting concept in CS curricula, which is also consistent with latest cybersecurity curricular guidelines, e.g., CSEC2017. We describe our experience of implementing this crosscutting intervention across three undergraduate core CS courses at a leading technical university in Europe between 2018 and 2023, collectively educating over 2200 students. The security education was incorporated within CS courses using a partnership between the responsible course instructor and a security expert, i.e., the security expert (after consultation with course instructors) developed and taught lectures covering multiple CSEC2017 knowledge areas. This created a complex dynamic between three stakeholders: the course instructor, the security expert, and the students. We reflect on our intervention from the perspective of the three stakeholders -- we conducted a post-course survey to collect student perceptions, and semi-supervised interviews with responsible course instructors and the security expert to gauge their experience. We found that while the students were extremely enthusiastic about the security content and retained its impact several years later, the misaligned incentives for the instructors and the security expert made it difficult to sustain this intervention without organizational support. By identifying limitations in our intervention, we suggest ideas for sustaining it.
翻訳日:2023-10-12 21:49:29 公開日:2023-10-11
# 制御変数による共有値の推定の安定化

Stabilizing Estimates of Shapley Values with Control Variates ( http://arxiv.org/abs/2310.07672v1 )

ライセンス: Link先を確認
Jeremy Goldwasser and Giles Hooker(参考訳) シェープ値は、ブラックボックス機械学習モデルの予測を説明する最も一般的なツールのひとつである。 しかし、その高い計算コストはサンプリング近似の使用を動機付け、かなりの不確実性を引き起こす。 これらのモデル説明を安定させるために,モンテカルロ法に基づく制御変分法である制御SHAPを提案する。 私たちの方法論はどんな機械学習モデルにも適用でき、計算やモデリングをほとんど必要としません。 いくつかの高次元データセットでは、シェープリー推定のモンテカルロ変動率を劇的に減少させることができる。

Shapley values are among the most popular tools for explaining predictions of blackbox machine learning models. However, their high computational cost motivates the use of sampling approximations, inducing a considerable degree of uncertainty. To stabilize these model explanations, we propose ControlSHAP, an approach based on the Monte Carlo technique of control variates. Our methodology is applicable to any machine learning model and requires virtually no extra computation or modeling effort. On several high-dimensional datasets, we find it can produce dramatic reductions in the Monte Carlo variability of Shapley estimates.
翻訳日:2023-10-12 21:39:50 公開日:2023-10-11
# haarnet: rgb-dセマンティクスセグメンテーションのための大規模リニアモルフォロジーハイブリッドネットワーク

HaarNet: Large-scale Linear-Morphological Hybrid Network for RGB-D Semantic Segmentation ( http://arxiv.org/abs/2310.07669v1 )

ライセンス: Link先を確認
Rick Groenendijk, Leo Dorst, Theo Gevers(参考訳) 異なるモダリティの信号はそれぞれ、サンプリング処理に影響を与える独自の組合せ代数を持つ。 RGBは主に線形であり、深さは数学的形態学の操作に続く幾何学的信号である。 rgb-d入力を得るネットワークが、その層で利用可能な2種類のオペレータを持つ場合、より少ないパラメータで効果的な出力を提供できるべきである。 本稿では、より親しみやすい線形加群と結合した形態素を用いて、HaarNetと呼ばれる混合線形形態素ネットワークを構築する。 これは、拡張可能な実世界のデータセットのセットで評価された最初の大規模線形形態学ハイブリッドである。 このネットワークでは、複数の層における両方の特徴チャネルにモルフォロジー・ハールサンプリングを適用し、極端な値と高周波情報を分割することで、両方のモダリティを改善することができる。 さらに、モルフォロジーパラメタライズされたReLUを用い、モルフォロジーアップサンプリングを適用してフルレゾリューション出力を得る。 実験によると、HaarNetは最先端のCNNと競合しており、形態学ネットワークが幾何学に基づく学習タスクの有望な研究方向であることを示唆している。

Signals from different modalities each have their own combination algebra which affects their sampling processing. RGB is mostly linear; depth is a geometric signal following the operations of mathematical morphology. If a network obtaining RGB-D input has both kinds of operators available in its layers, it should be able to give effective output with fewer parameters. In this paper, morphological elements in conjunction with more familiar linear modules are used to construct a mixed linear-morphological network called HaarNet. This is the first large-scale linear-morphological hybrid, evaluated on a set of sizeable real-world datasets. In the network, morphological Haar sampling is applied to both feature channels in several layers, which splits extreme values and high-frequency information such that both can be processed to improve both modalities. Moreover, morphologically parameterised ReLU is used, and morphologically-sound up-sampling is applied to obtain a full-resolution output. Experiments show that HaarNet is competitive with a state-of-the-art CNN, implying that morphological networks are a promising research direction for geometry-based learning tasks.
翻訳日:2023-10-12 21:39:41 公開日:2023-10-11
# GRaMuFeN: ソーシャルメディアにおけるグラフベースのマルチモーダルフェイクニュース検出

GRaMuFeN: Graph-based Multi-modal Fake News Detection in Social Media ( http://arxiv.org/abs/2310.07668v1 )

ライセンス: Link先を確認
Makan Kananian, Fatima Badiei, S. AmirAli Gh. Ghahramani(参考訳) twitter、instagram、weiboといったソーシャルメディアプラットフォームの普及は、偽情報の拡散を著しく高めている。 この現象は個人と政府機関の両方に世論を形成する能力を与え、効果的な検出方法を展開する必要性を強調している。 本稿では,ニュースのテキストコンテンツと画像コンテンツの両方を分析し,偽コンテンツを検出するモデルGraMuFeNを提案する。 GraMuFeNはテキストエンコーダとイメージエンコーダの2つの主要コンポーネントから構成される。 テキスト分析では、GraMuFeNは各テキストをグラフとして扱い、グラフ畳み込みニューラルネットワーク(GCN)をテキストエンコーダとして使用する。 さらに、CNN(Convolutional Neural Network)として事前訓練されたResNet-152が画像エンコーダとして利用されている。 これらの2つのエンコーダの出力を統合し、対照的な類似性損失関数を実装することで、GraMuFeNは顕著な結果を得る。 ソーシャルメディアニュース用の2つの公開ベンチマークデータセットで実施された大規模な評価は、マイクロF1スコアの10%増加を示し、既存の最先端モデルよりも改善されていることを示している。 これらの結果から,GCNモデルとCNNモデルを組み合わせることで,モデルパラメータによる計算負担を最小化しつつ,マルチモーダルデータ中の偽ニュースを検出する効果が示された。

The proliferation of social media platforms such as Twitter, Instagram, and Weibo has significantly enhanced the dissemination of false information. This phenomenon grants both individuals and governmental entities the ability to shape public opinions, highlighting the need for deploying effective detection methods. In this paper, we propose GraMuFeN, a model designed to detect fake content by analyzing both the textual and image content of news. GraMuFeN comprises two primary components: a text encoder and an image encoder. For textual analysis, GraMuFeN treats each text as a graph and employs a Graph Convolutional Neural Network (GCN) as the text encoder. Additionally, the pre-trained ResNet-152, as a Convolutional Neural Network (CNN), has been utilized as the image encoder. By integrating the outputs from these two encoders and implementing a contrastive similarity loss function, GraMuFeN achieves remarkable results. Extensive evaluations conducted on two publicly available benchmark datasets for social media news indicate a 10 % increase in micro F1-Score, signifying improvement over existing state-of-the-art models. These findings underscore the effectiveness of combining GCN and CNN models for detecting fake news in multi-modal data, all while minimizing the additional computational burden imposed by model parameters.
翻訳日:2023-10-12 21:39:21 公開日:2023-10-11
# GNNSにおけるグローバル・ミニマ、リカバリビリティ・閾値、高次構造

Global Minima, Recoverability Thresholds, and Higher-Order Structure in GNNS ( http://arxiv.org/abs/2310.07667v1 )

ライセンス: Link先を確認
Drake Brown, Trevor Garrity, Kaden Parker, Jason Oliphant, Stone Carson, Cole Hanson, and Zachary Boyd(参考訳) ランダムグラフ理論の観点から,グラフニューラルネットワーク(GNN)アーキテクチャの性能を解析する。 提案手法は,GNNの性能とトレーニングデータの典型的特性を結合することにより,GNN解析における既存のレンズ,例えば組合せ表現力や最悪の逆解析を補完するものである。 まず,文脈確率ブロックモデル(cSBM)と関連するモデルに対して,一層および二層GCNのノードワイズ精度を理論的に評価する。 また,ある状況下ではGCNが線形モデルに勝てないことも証明する。 次に,GNN アーキテクチャ (GCN, GAT, SAGE, Graph Transformer) の復元可能性しきい値の精度を,データに関する様々な仮定の下で数値的にマップする。 重み付き次数分布はGNNの性能を高め、GNNは強いヘテロフィルグラフでうまく機能し、SAGEとGraph Transformerは任意にノイズの多いエッジデータでうまく機能するが、十分なノイズの多い特徴データを扱うアーキテクチャは存在しない。 最後に、合成データにおける特定の高次構造と実データにおける経験的構造の混合が、GNNの性能に劇的な効果(通常は負)をもたらすことを示す。

We analyze the performance of graph neural network (GNN) architectures from the perspective of random graph theory. Our approach promises to complement existing lenses on GNN analysis, such as combinatorial expressive power and worst-case adversarial analysis, by connecting the performance of GNNs to typical-case properties of the training data. First, we theoretically characterize the nodewise accuracy of one- and two-layer GCNs relative to the contextual stochastic block model (cSBM) and related models. We additionally prove that GCNs cannot beat linear models under certain circumstances. Second, we numerically map the recoverability thresholds, in terms of accuracy, of four diverse GNN architectures (GCN, GAT, SAGE, and Graph Transformer) under a variety of assumptions about the data. Sample results of this second analysis include: heavy-tailed degree distributions enhance GNN performance, GNNs can work well on strongly heterophilous graphs, and SAGE and Graph Transformer can perform well on arbitrarily noisy edge data, but no architecture handled sufficiently noisy feature data well. Finally, we show how both specific higher-order structures in synthetic data and the mix of empirical structures in real data have dramatic effects (usually negative) on GNN performance.
翻訳日:2023-10-12 21:38:59 公開日:2023-10-11
# 因果に準拠した説明のための深いバックトラッキング反事実

Deep Backtracking Counterfactuals for Causally Compliant Explanations ( http://arxiv.org/abs/2310.07665v1 )

ライセンス: Link先を確認
Klaus-Rudolf Kladny, Julius von K\"ugelgen, Bernhard Sch\"olkopf, Michael Muehlebach(参考訳) 反事実は、変化した状況下で観察されたであろうこと、事実的な観察を条件に答えることによって、貴重な洞察を与えることができる。 反事実の古典的介入解釈が広く研究されている一方で、バックトラックは研究の少ない代替手段となっているが、バックトラック原理はすべての因果法がそのまま維持される代替哲学として出現している。 本研究では, 深部生成成分からなる構造因果モデルにおいて, 逆追従反事実を計算するための実践的手法を提案する。 そこで我々は,因果モデルの構造化潜在空間におけるトラクタブルな制約付き最適化問題を解くことで,対物生成を可能にする構造的割り当てに条件を課す。 また,本定式化は,反事実的説明の分野における手法との比較も促進する。 これらと比較すると,本手法は汎用性,モジュール性,因果性に準拠した代替手段である。 これらの特性をmnistとcelebaの修正版で実験的に実証する。

Counterfactuals can offer valuable insights by answering what would have been observed under altered circumstances, conditional on a factual observation. Whereas the classical interventional interpretation of counterfactuals has been studied extensively, backtracking constitutes a less studied alternative the backtracking principle has emerged as an alternative philosophy where all causal laws are kept intact. In the present work, we introduce a practical method for computing backtracking counterfactuals in structural causal models that consist of deep generative components. To this end, we impose conditions on the structural assignments that enable the generation of counterfactuals by solving a tractable constrained optimization problem in the structured latent space of a causal model. Our formulation also facilitates a comparison with methods in the field of counterfactual explanations. Compared to these, our method represents a versatile, modular and causally compliant alternative. We demonstrate these properties experimentally on a modified version of MNIST and CelebA.
翻訳日:2023-10-12 21:38:35 公開日:2023-10-11
# 不均一注意パターンに基づく視覚変換器の高速化

Accelerating Vision Transformers Based on Heterogeneous Attention Patterns ( http://arxiv.org/abs/2310.07664v1 )

ライセンス: Link先を確認
Deli Yu, Teng Xi, Jianwei Li, Baopu Li, Gang Zhang, Haocheng Feng, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang(参考訳) 近年、ビジョントランスフォーマー (ViT) はコンピュータビジョンの分野で多くの注目を集めている。 一般に、ViTの強力な代表能力は、計算の複雑さが高い自己認識機構の恩恵を受けている。 ViTを高速化するために,層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。 一方、異なる画像は初期の層よりも初期の層に類似した注意パターンを共有しており、動的クエリ・バイ・キー・セルフアテンション行列は初期の層で静的な自己アテンション行列に置き換えられる可能性があることを示している。 そこで本研究では,vitsの特徴表現能力を効果的に向上するために,置換された動的セルフアテンションから行列が自己アテンション情報を継承する動的誘導型静的自己アテンション(dgssa)法を提案する。 一方、アテンションマップは、初期層よりも後層においてトークンの冗長性を反映する低ランクパターンを持つ。 線形次元の低減の観点から,Deit などの後続の ViT 層におけるトークン数を削減するために,グローバルアグリゲーションピラミッド (GLAD) の手法を提案する。 実験的に、DGSSAとGLADの統合圧縮パイプラインは、すべてのSOTAアプローチを超えるDeiTと比較して、最大121%のランタイムスループットを加速することができる。

Recently, Vision Transformers (ViTs) have attracted a lot of attention in the field of computer vision. Generally, the powerful representative capacity of ViTs mainly benefits from the self-attention mechanism, which has a high computation complexity. To accelerate ViTs, we propose an integrated compression pipeline based on observed heterogeneous attention patterns across layers. On one hand, different images share more similar attention patterns in early layers than later layers, indicating that the dynamic query-by-key self-attention matrix may be replaced with a static self-attention matrix in early layers. Then, we propose a dynamic-guided static self-attention (DGSSA) method where the matrix inherits self-attention information from the replaced dynamic self-attention to effectively improve the feature representation ability of ViTs. On the other hand, the attention maps have more low-rank patterns, which reflect token redundancy, in later layers than early layers. In a view of linear dimension reduction, we further propose a method of global aggregation pyramid (GLAD) to reduce the number of tokens in later layers of ViTs, such as Deit. Experimentally, the integrated compression pipeline of DGSSA and GLAD can accelerate up to 121% run-time throughput compared with DeiT, which surpasses all SOTA approaches.
翻訳日:2023-10-12 21:38:18 公開日:2023-10-11
# Well Begun is Half Done: Generator-Agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue

Well Begun is Half Done: Generator-agnostic Knowledge Pre-Selection for Knowledge-Grounded Dialogue ( http://arxiv.org/abs/2310.07659v1 )

ライセンス: Link先を確認
Qin Lang, Zhang Yao, Liang Hongru, Wang jun, Yang Zhenglu(参考訳) 正確な知識選択は知識接地対話システムにおいて不可欠である。 より深く見ていくために、私たちは既存の文学、すなわち知識の選択を、世代、後、前と組み合わせて組織化するための新しい視点を提供する。 本研究は,前もって知識を正確に選択できるだけでなく,後続の応答生成モデル,特にllmの学習,調整,解釈の負担を軽減することができる。 異なる知識構造と可変知識要求の中から文脈関連知識を選択することにより,後続の応答生成モデルに対する知識を作成できる,ジェネレータ非依存な知識選択手法であるgateを提案する。 実験の結果、GATEの優位性を示し、生成前の知識選択がLSM(例えばChatGPT)を促進し、より情報的な応答を生成するための軽量で効果的な方法であることを示す。

Accurate knowledge selection is critical in knowledge-grounded dialogue systems. Towards a closer look at it, we offer a novel perspective to organize existing literature, i.e., knowledge selection coupled with, after, and before generation. We focus on the third under-explored category of study, which can not only select knowledge accurately in advance, but has the advantage to reduce the learning, adjustment, and interpretation burden of subsequent response generation models, especially LLMs. We propose GATE, a generator-agnostic knowledge selection method, to prepare knowledge for subsequent response generation models by selecting context-related knowledge among different knowledge structures and variable knowledge requirements. Experimental results demonstrate the superiority of GATE, and indicate that knowledge selection before generation is a lightweight yet effective way to facilitate LLMs (e.g., ChatGPT) to generate more informative responses.
翻訳日:2023-10-12 21:37:57 公開日:2023-10-11
# 音声視覚型ニューラル構文獲得

Audio-Visual Neural Syntax Acquisition ( http://arxiv.org/abs/2310.07654v1 )

ライセンス: Link先を確認
Cheng-I Jeff Lai, Freda Shi, Puyuan Peng, Yoon Kim, Kevin Gimpel, Shiyu Chang, Yung-Sung Chuang, Saurabhchand Bhati, David Cox, David Harwath, Yang Zhang, Karen Livescu, James Glass(参考訳) 視覚的音声からの句構造誘導について検討する。 基本概念は、まず音声波形を単語セグメントのシーケンスに分割し、その後、推定されたセグメントレベルの連続表現を用いてフレーズ構造を誘導する。 本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。 AV-NSLは、ペア画像と音声キャプションを訓練することにより、英語とドイツ語の両方で、自然に監督されたテキストパーサーによって導出されるものと同等の意味のあるフレーズ構造を推論する能力を示す。 本研究は,教師なし言語習得における先行研究を音声と接地文法誘導から拡張し,両者のギャップを埋める1つのアプローチを提案する。

We study phrase structure induction from visually-grounded speech. The core idea is to first segment the speech waveform into sequences of word segments, and subsequently induce phrase structure using the inferred segment-level continuous representations. We present the Audio-Visual Neural Syntax Learner (AV-NSL) that learns phrase structure by listening to audio and looking at images, without ever being exposed to text. By training on paired images and spoken captions, AV-NSL exhibits the capability to infer meaningful phrase structures that are comparable to those derived by naturally-supervised text parsers, for both English and German. Our findings extend prior work in unsupervised language acquisition from speech and grounded grammar induction, and present one approach to bridge the gap between the two topics.
翻訳日:2023-10-12 21:37:36 公開日:2023-10-11
# mini-dalle3: 大きな言語モデルを促すことでインタラクティブなテキストから画像へ

Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models ( http://arxiv.org/abs/2310.07653v1 )

ライセンス: Link先を確認
Lai Zeqiang, Zhu Xizhou, Dai Jifeng, Qiao Yu, Wang Wenhai(参考訳) 人工知能コンテンツ生成の革命は、テキスト・ツー・イメージ(T2I)拡散モデルによって急速に加速している。 開発からわずか2年で、最先端のモデルが生み出す品質、多様性、創造性は前例のないものだった。 しかし、定型拡散(英語版)のような一般的なT2Iモデルとの効果的な通信には、自然言語記述を用いた制限が持続する。 これにより、複雑な単語合成、マジックタグ、アノテーションを使ったプロンプトエンジニアリングの専門知識がなければ、魅力的なイメージを得るのが難しくなる。 最近リリースされたdalle3 - 人間の言語を話す直接内蔵のchatgptであるt2iモデルに触発されて、既存のt2iシステムが人間の意図を整合させ、新しいタスクであるinteractive text to image (it2i)を紹介します。 iT2I問題に対処するためには,iT2I の LLM を高速化する簡単なアプローチを提案する。 私たちは、chatgpt、llama、baichuan、internlmなど、さまざまなllm下でのさまざまな共通シナリオで、it2iのアプローチを評価しました。 我々は,既存のLLMやテキスト・ツー・イメージモデルに対して,LLM固有の能力,例えば質問応答やコード生成をほとんど劣化させることなく,iT2I機能をトレーニングなしで導入する上で,アプローチが便利で低コストな方法であることを実証した。 次世代のT2Iシステムの画質と並行して、人間と機械のインタラクションにおけるユーザー体験を高めるためのインスピレーションを得られることを願っている。

The revolution of artificial intelligence content generation has been rapidly accelerated with the booming text-to-image (T2I) diffusion models. Within just two years of development, it was unprecedentedly of high-quality, diversity, and creativity that the state-of-the-art models could generate. However, a prevalent limitation persists in the effective communication with these popular T2I models, such as Stable Diffusion, using natural language descriptions. This typically makes an engaging image hard to obtain without expertise in prompt engineering with complex word compositions, magic tags, and annotations. Inspired by the recently released DALLE3 - a T2I model directly built-in ChatGPT that talks human language, we revisit the existing T2I systems endeavoring to align human intent and introduce a new task - interactive text to image (iT2I), where people can interact with LLM for interleaved high-quality image generation/edit/refinement and question answering with stronger images and text correspondences using natural language. In addressing the iT2I problem, we present a simple approach that augments LLMs for iT2I with prompting techniques and off-the-shelf T2I models. We evaluate our approach for iT2I in a variety of common-used scenarios under different LLMs, e.g., ChatGPT, LLAMA, Baichuan, and InternLM. We demonstrate that our approach could be a convenient and low-cost way to introduce the iT2I ability for any existing LLMs and any text-to-image models without any training while bringing little degradation on LLMs' inherent capabilities in, e.g., question answering and code generation. We hope this work could draw broader attention and provide inspiration for boosting user experience in human-machine interactions alongside the image quality of the next-generation T2I systems.
翻訳日:2023-10-12 21:37:20 公開日:2023-10-11
# LLM4Vis: ChatGPTを用いた説明可能な可視化レコメンデーション

LLM4Vis: Explainable Visualization Recommendation using ChatGPT ( http://arxiv.org/abs/2310.07652v1 )

ライセンス: Link先を確認
Lei Wang, Songheng Zhang, Yun Wang, Ee-Peng Lim, Yong Wang(参考訳) データ可視化は、さまざまな領域の洞察を探索し、伝達するための強力なツールである。 データセットの可視化選択を自動化するために、可視化レコメンデーションと呼ばれるタスクが提案されている。 この目的のために様々な機械学習ベースのアプローチが開発されているが、トレーニングには大量のデータセットと視覚のペアが必要であり、結果に自然な説明が欠けていることが多い。 この研究ギャップに対処するために,我々は,ChatGPTをベースとした新しいプロンプトアプローチであるLSM4Visを提案し,ごく少数の実演例を用いて,可視化レコメンデーションを行い,人間的な説明を返す。 提案手法は,特徴記述,実演例選択,説明生成,実演例構築,推論ステップを含む。 高品質な説明を伴う実演例を得るために,前世代とテンプレートに基づくヒントを考慮し,反復的に説明を洗練するための説明生成ブートストラップを提案する。 VizMLデータセットの評価によると、LLM4Visはランダムフォレスト、決定木、MLPといった教師付き学習モデルと、少数ショットとゼロショットの両方の設定で比較または類似して動作する。 また,LLM4Visによる説明の有効性についても定性評価を行った。 当社のコードは、 \href{https://github.com/demoleiwang/LLM4Vis}{https://github.com/demoleiwang/LLM4Vis} で公開しています。

Data visualization is a powerful tool for exploring and communicating insights in various domains. To automate visualization choice for datasets, a task known as visualization recommendation has been proposed. Various machine-learning-based approaches have been developed for this purpose, but they often require a large corpus of dataset-visualization pairs for training and lack natural explanations for their results. To address this research gap, we propose LLM4Vis, a novel ChatGPT-based prompting approach to perform visualization recommendation and return human-like explanations using very few demonstration examples. Our approach involves feature description, demonstration example selection, explanation generation, demonstration example construction, and inference steps. To obtain demonstration examples with high-quality explanations, we propose a new explanation generation bootstrapping to iteratively refine generated explanations by considering the previous generation and template-based hint. Evaluations on the VizML dataset show that LLM4Vis outperforms or performs similarly to supervised learning models like Random Forest, Decision Tree, and MLP in both few-shot and zero-shot settings. The qualitative evaluation also shows the effectiveness of explanations generated by LLM4Vis. We make our code publicly available at \href{https://github.com/demoleiwang/LLM4Vis}{https://github.com/demoleiwang/LLM4Vis}.
翻訳日:2023-10-12 21:36:47 公開日:2023-10-11
# 感情支援会話のための知識強化記憶モデル

Knowledge-enhanced Memory Model for Emotional Support Conversation ( http://arxiv.org/abs/2310.07700v1 )

ライセンス: Link先を確認
Mengzhao Jia, Qianglong Chen, Liqiang Jing, Dawei Fu, Renyu Li(参考訳) 精神疾患の流行は重要な問題となり、メンタルヘルスサポートの効果的な補完としての感情的サポート会話への注目が高まっている。 既存の手法は説得力のある結果を得たが、それでも3つの課題に直面している。 1)感情の変動性。 2)応答の実用性,及び 3)複雑な戦略モデリング。 これらの課題に対処するために,感情的助詞共会話(MODERN)のための知識強化メモリモデルを提案する。 具体的には,まず,会話の異なる期間の動的感情変化を知覚し,ユーザ状態モデリングを行い,実用的な応答生成のためにconceptnetからコンテキスト関連概念を選択する,知識豊かな対話コンテキストを符号化する。 その後,新たなメモリエンハンス戦略モデリングモジュールを実装し,戦略カテゴリの背後にある意味的パターンをモデル化する。 大規模データセットの大規模な実験は、最先端のベースラインよりもモデルの優位性を検証する。

The prevalence of mental disorders has become a significant issue, leading to the increased focus on Emotional Support Conversation as an effective supplement for mental health support. Existing methods have achieved compelling results, however, they still face three challenges: 1) variability of emotions, 2) practicality of the response, and 3) intricate strategy modeling. To address these challenges, we propose a novel knowledge-enhanced Memory mODEl for emotional suppoRt coNversation (MODERN). Specifically, we first devise a knowledge-enriched dialogue context encoding to perceive the dynamic emotion change of different periods of the conversation for coherent user state modeling and select context-related concepts from ConceptNet for practical response generation. Thereafter, we implement a novel memory-enhanced strategy modeling module to model the semantic patterns behind the strategy categories. Extensive experiments on a widely used large-scale dataset verify the superiority of our model over cutting-edge baselines.
翻訳日:2023-10-12 21:30:50 公開日:2023-10-11
# Scarcityから効率性へ:ビジュアル・リッチ・キャプションによるCLIPトレーニングの改善

From Scarcity to Efficiency: Improving CLIP Training via Visual-enriched Captions ( http://arxiv.org/abs/2310.07699v1 )

ライセンス: Link先を確認
Zhengfeng Lai, Haotian Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang, Meng Cao(参考訳) webクローリングされたデータセットは、ビジュアライゼーション言語モデルの事前学習の成功に重要な役割を果たしている。 しかし、Webcrawled AltTextsは、画像に無関係である可能性があるため、重要な画像テキストアライメントを損なう可能性がある。 大規模な言語モデル(LLM)を使用してキャプションを書き換える既存の方法は、CC3MやCC12Mのような、小さなキュレートされたデータセットで約束されている。 それでも、膨大なキャプションに対するその効果は、そのようなデータに固有のノイズとランダム性によって制限されている。 本研究では,データ品質とデータ多様性の2つの重要な側面に着目し,この制限に対処する。 近年のLCM書き換え技術とは違って,視覚概念の活用とキャプションへの統合を重視し,データ品質の向上を図る。 そこで本研究では,AltTextsとVisual-Enriched Captions (VeC)を併用した新しい混合学習手法を提案する。 私たちは、CLIPを例として使用し、VeCLIPという名前の大規模Webcrawledデータセット上でCLIPトレーニングの手法を適用しました。 我々は,小,中,大規模の生データのVeCLIPを包括的に評価する。 以上の結果から,CLIP訓練におけるVeCLIPの有効性が示唆され,画像テキストアライメントと全体的なモデル性能に有意な優位性を示した。 例えば、VeCLIPは12M設定でCOCOおよびFlickr30k検索タスクを20%以上改善する。 データ効率では、バニラCLIPで使用されるデータの14%とALIGNで11%しか使用せず、3%以上の顕著な改善を実現しています。

Web-crawled datasets are pivotal to the success of pre-training vision-language models, exemplified by CLIP. However, web-crawled AltTexts can be noisy and potentially irrelevant to images, thereby undermining the crucial image-text alignment. Existing methods for rewriting captions using large language models (LLMs) have shown promise on small, curated datasets like CC3M and CC12M. Nevertheless, their efficacy on massive web-captured captions is constrained by the inherent noise and randomness in such data. In this study, we address this limitation by focusing on two key aspects: data quality and data variety. Unlike recent LLM rewriting techniques, we emphasize exploiting visual concepts and their integration into the captions to improve data quality. For data variety, we propose a novel mixed training scheme that optimally leverages AltTexts alongside newly generated Visual-enriched Captions (VeC). We use CLIP as one example and adapt the method for CLIP training on large-scale web-crawled datasets, named VeCLIP. We conduct a comprehensive evaluation of VeCLIP across small, medium, and large scales of raw data. Our results show significant advantages in image-text alignment and overall model performance, underscoring the effectiveness of VeCLIP in improving CLIP training. For example, VeCLIP achieves a remarkable over 20% improvement in COCO and Flickr30k retrieval tasks under the 12M setting. For data efficiency, we also achieve a notable over 3% improvement while using only 14% of the data employed in the vanilla CLIP and 11% in ALIGN.
翻訳日:2023-10-12 21:30:34 公開日:2023-10-11
# SurroCBM: ポストホック説明のための概念ボトルネックサロゲートモデル

SurroCBM: Concept Bottleneck Surrogate Models for Generative Post-hoc Explanation ( http://arxiv.org/abs/2310.07698v1 )

ライセンス: Link先を確認
Bo Pan, Zhenke Liu, Yifei Zhang, Liang Zhao(参考訳) 説明可能なAIはブラックボックスモデルの意思決定プロセスに光を当てようとしている。 従来の給与ベースの手法は、影響力のあるデータセグメントを強調するが、しばしば意味的な理解を欠いている。 概念活性化ベクトル(cavs)や概念ボトルネックモデル(cbms)といった最近の進歩は、概念に基づく説明を提供するが、人間定義の概念は必要である。 しかし、人間の注釈による概念は達成するには高価である。 本稿では, ブラックボックスモデルに自動検出された概念を記述するための新しいフレームワークであるConcept Bottleneck Surrogate Models (SurroCBM)を紹介する。 SurroCBMは、様々なブラックボックスモデルにまたがる共有概念とユニークな概念を特定し、ホック後の説明のために説明可能な代理モデルを採用している。 説明品質を継続的に向上させるために,自己生成データを用いた効果的な学習戦略を提案する。 広範な実験を通じて、概念発見と説明におけるSurroCBMの有効性を実証し、説明可能なAIの分野を前進させる可能性を示す。

Explainable AI seeks to bring light to the decision-making processes of black-box models. Traditional saliency-based methods, while highlighting influential data segments, often lack semantic understanding. Recent advancements, such as Concept Activation Vectors (CAVs) and Concept Bottleneck Models (CBMs), offer concept-based explanations but necessitate human-defined concepts. However, human-annotated concepts are expensive to attain. This paper introduces the Concept Bottleneck Surrogate Models (SurroCBM), a novel framework that aims to explain the black-box models with automatically discovered concepts. SurroCBM identifies shared and unique concepts across various black-box models and employs an explainable surrogate model for post-hoc explanations. An effective training strategy using self-generated data is proposed to enhance explanation quality continuously. Through extensive experiments, we demonstrate the efficacy of SurroCBM in concept discovery and explanation, underscoring its potential in advancing the field of explainable AI.
翻訳日:2023-10-12 21:30:06 公開日:2023-10-11
# conditionvideo: トレーニングフリーの条件付きテキストからビデオへの生成

ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation ( http://arxiv.org/abs/2310.07697v1 )

ライセンス: Link先を確認
Bo Peng, Xinyuan Chen, Yaohui Wang, Chaochao Lu, Yu Qiao(参考訳) 近年の研究では、大規模なテキスト・画像モデルをビデオ領域に拡張し、有望な結果をもたらすが、高い計算コストと大量のビデオデータを必要とする。 本研究では,市販のテキスト・ツー・イメージ生成手法(例えば,安定拡散)のパワーを活用することで,提供される条件,映像,入力テキストに基づくテキスト・ビデオ生成のトレーニング不要な手法であるConditionVideoを紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。 本手法は,動作表現を条件付きおよび風景的動き成分に明示的に切り離す。 この目的のために、ConditionVideoモデルはUNetブランチとコントロールブランチで設計されている。 時間的コヒーレンスを改善するために,sparse bi-directional spatial-temporal attention (sbist-attn)を導入する。 3次元制御ネットワークは従来の2次元制御ネットモデルを拡張し、時間領域の双方向フレームを付加することで条件生成精度を高めることを目的としている。 本手法は,フレーム一貫性,クリップスコア,条件精度において,他の比較手法よりも優れた性能を示す。

Recent works have successfully extended large-scale text-to-image models to the video domain, producing promising results but at a high computational cost and requiring a large amount of video data. In this work, we introduce ConditionVideo, a training-free approach to text-to-video generation based on the provided condition, video, and input text, by leveraging the power of off-the-shelf text-to-image generation methods (e.g., Stable Diffusion). ConditionVideo generates realistic dynamic videos from random noise or given scene videos. Our method explicitly disentangles the motion representation into condition-guided and scenery motion components. To this end, the ConditionVideo model is designed with a UNet branch and a control branch. To improve temporal coherence, we introduce sparse bi-directional spatial-temporal attention (sBiST-Attn). The 3D control network extends the conventional 2D controlnet model, aiming to strengthen conditional generation accuracy by additionally leveraging the bi-directional frames in the temporal domain. Our method exhibits superior performance in terms of frame consistency, clip score, and conditional accuracy, outperforming other compared methods.
翻訳日:2023-10-12 21:29:46 公開日:2023-10-11
# 周期駆動型ディックモデルによるスクイーズ高速化

Speeding Up Squeezing with a Periodically Driven Dicke Model ( http://arxiv.org/abs/2310.07694v1 )

ライセンス: Link先を確認
Jarrod T. Reilly, Simon B. J\"ager, John Drew Wilson, John Cooper, Sebastian Eggert, and Murray J. Holland(参考訳) 一般に用いられる1軸ねじれ(OAT)モデルよりも高速な時間スケールで高絡み合うスピン状態を生成するための簡便かつ効率的な方法を提案する。 ディッケ・ハミルトニアンを共鳴周波数で周期的に駆動することで、システムは効果的に2軸対向ハミルトニアンとなり、すぐにハイゼンベルク極限縮尺状態を生成することが知られている。 これらの状態に対して、簡単な二次測度は、量子クラム・ラオ境界によって決定されるパラメータ推定の最終的な精度限界を飽和させることができることを示す。 周期駆動スキームの実験的実現例として,最近述べた実験垂直空洞系における運動量絡み合いを迅速に発生させる可能性について考察した。 この垂直キャビティシステムにおける集団散逸の効果を解析し,従来のoatの実現よりもスキュージングプロトコルの方が頑健であることが判明した。

We present a simple and effective method to create highly entangled spin states on a faster timescale than that of the commonly employed one-axis twisting (OAT) model. We demonstrate that by periodically driving the Dicke Hamiltonian at a resonance frequency, the system effectively becomes a two-axis countertwisting Hamiltonian which is known to quickly create Heisenberg limit scaled entangled states. For these states we show that simple quadrature measurements can saturate the ultimate precision limit for parameter estimation determined by the quantum Cram\'er-Rao bound. An example experimental realization of the periodically driven scheme is discussed with the potential to quickly generate momentum entanglement in a recently described experimental vertical cavity system. We analyze effects of collective dissipation in this vertical cavity system and find that our squeezing protocol can be more robust than the previous realization of OAT.
翻訳日:2023-10-12 21:29:27 公開日:2023-10-11
# メッセージパッシングのレンズによるハイパーグラフニューラルネットワーク: ホモフィリとアーキテクチャ設計への共通の視点

Hypergraph Neural Networks through the Lens of Message Passing: A Common Perspective to Homophily and Architecture Design ( http://arxiv.org/abs/2310.07684v1 )

ライセンス: Link先を確認
Lev Telyatnikov, Maria Sofia Bucarelli, Guillermo Bernardez, Olga Zaghen, Simone Scardapane, Pietro Lio(参考訳) 現在のハイパーグラフ学習手法とハイパーグラフ領域のベンチマークデータセットのほとんどは、グラフアナログからの手順を持ち上げ、同時にハイパーグラフネットワーク基盤のオーバーシェーディングにつながる。 グラフベース研究におけるその重要性と同様に、ホモフィリーの概念はハイパーグラフニューラルネットワーク(hgnns)において重要な役割を果たすことができるか? 現在のハイパーグラフアーキテクチャと方法論を改善する余地はあるか? (例えば、高次ネットワークの特定の特性に慎重に対応することにより) 既存のデータセットは、HGNNに有意義なベンチマークを提供するか? 本稿では,メッセージパッシング方式に基づく高階ネットワークにおけるホモフィリーの新たな概念化を提案する。本手法は,複雑な高階ネットワーク構造と動的構造を探索・解釈するための統一的な視点を提供する,データセットとアーキテクチャの解析的枠組みを調和させる。 さらに、ハイパーエッジ依存ノード表現を可能にすることでHGNNを再定義する新しいメッセージパッシングフレームワークであるMultiSetを提案し、新しいハイパーエッジサンプリング戦略を活用する新しいアーキテクチャであるMultiSetMixerを提案する。 最後に、提案をコンテキスト化し、ハイパーグラフ表現学習に有用な洞察をもたらす、広範な実験セットを提供します。

Most of the current hypergraph learning methodologies and benchmarking datasets in the hypergraph realm are obtained by lifting procedures from their graph analogs, simultaneously leading to overshadowing hypergraph network foundations. This paper attempts to confront some pending questions in that regard: Can the concept of homophily play a crucial role in Hypergraph Neural Networks (HGNNs), similar to its significance in graph-based research? Is there room for improving current hypergraph architectures and methodologies? (e.g. by carefully addressing the specific characteristics of higher-order networks) Do existing datasets provide a meaningful benchmark for HGNNs? Diving into the details, this paper proposes a novel conceptualization of homophily in higher-order networks based on a message passing scheme; this approach harmonizes the analytical frameworks of datasets and architectures, offering a unified perspective for exploring and interpreting complex, higher-order network structures and dynamics. Further, we propose MultiSet, a novel message passing framework that redefines HGNNs by allowing hyperedge-dependent node representations, as well as introduce a novel architecture MultiSetMixer that leverages a new hyperedge sampling strategy. Finally, we provide an extensive set of experiments that contextualize our proposals and lead to valuable insights in hypergraph representation learning.
翻訳日:2023-10-12 21:29:12 公開日:2023-10-11
# 反復データ-プロパティ相互マッピングによる制御可能なデータ生成

Controllable Data Generation Via Iterative Data-Property Mutual Mappings ( http://arxiv.org/abs/2310.07683v1 )

ライセンス: Link先を確認
Bo Pan, Muran Qin, Shiyu Wang, Yifei Zhang, Liang Zhao(参考訳) 深層生成モデルは、画像、分子、テキスト、音声など様々な領域で現実的なデータサンプルを生成する能力のために広く使われている。 データ生成の大きな目標の1つは制御可能性であり、所望のプロパティを持つ新しいデータを生成することである。 制御可能な世代への関心は高まっているが、いまだに重要な課題が残っている。 1)無関係な潜在変数で所望のプロパティを分離すること。 2)配当外の財産管理、及び 3【分配外特性制御の客観的最適化】 これらの課題に対処するため,本稿では,VAEベースのデータジェネレータをプロパティ制御性で拡張し,乱れを確実にする汎用フレームワークを提案する。 提案する目標は,トレーニングセットで見たデータと見えないデータの両方に最適化できる。 本研究では,データと特性の相互マッピングを反復的に行うことにより,半教師あり方式で目標を訓練する訓練手順を提案する。 提案するフレームワークは4つのvaeベースの制御可能なジェネレータに実装され,その特性エラー,絡み合い,生成品質,トレーニング時間に関する性能評価を行う。 その結果,提案フレームワークは, 短時間で生成したサンプルの特性をより正確に制御し, 標本の絡み合いを確実にし, 有効性を確保できることがわかった。

Deep generative models have been widely used for their ability to generate realistic data samples in various areas, such as images, molecules, text, and speech. One major goal of data generation is controllability, namely to generate new data with desired properties. Despite growing interest in the area of controllable generation, significant challenges still remain, including 1) disentangling desired properties with unrelated latent variables, 2) out-of-distribution property control, and 3) objective optimization for out-of-distribution property control. To address these challenges, in this paper, we propose a general framework to enhance VAE-based data generators with property controllability and ensure disentanglement. Our proposed objective can be optimized on both data seen and unseen in the training set. We propose a training procedure to train the objective in a semi-supervised manner by iteratively conducting mutual mappings between the data and properties. The proposed framework is implemented on four VAE-based controllable generators to evaluate its performance on property error, disentanglement, generation quality, and training time. The results indicate that our proposed framework enables more precise control over the properties of generated samples in a short training time, ensuring the disentanglement and keeping the validity of the generated samples.
翻訳日:2023-10-12 21:28:49 公開日:2023-10-11
# ヘマトキシリンおよびエオシン画像による非小細胞肺癌のMET過剰発現の予測

Prediction of MET Overexpression in Non-Small Cell Lung Adenocarcinomas from Hematoxylin and Eosin Images ( http://arxiv.org/abs/2310.07682v1 )

ライセンス: Link先を確認
Kshitij Ingale, Sun Hae Hong, Josh S.K. Bell, Abbas Rizvi, Amy Welch, Lingdao Sha, Irvin Ho, Kunal Nagpal, Aicha BenTaieb, Rohan P Joshi, Martin C Stumpe(参考訳) MET蛋白過剰発現は非小細胞肺癌(NSCLC)の標的となり、活性薬物開発の対象となっている。 これらの治療法の患者を特定する上での課題は、標準化された免疫組織化学(IHC)の評価や、1つの遺伝子/タンパク質アッセイに有用な組織の使用など、検証済みのテストへのアクセスの欠如である。 MET過剰発現を予測するために、通常のデジタル化ヘマトキシリンとエオシン(H&E)スライスを用いた事前スクリーニングアルゴリズムの開発は、最も恩恵を受ける人々のためのテストを促進することができる。 IHCを用いたMET発現の評価は、現在、NSCLCでは定期的に行われていないが、次世代シークエンシングは一般的であり、RNA発現パネルテストを含む場合もある。 本研究では、H&E画像から直接MET RNA過剰発現を予測するために、マッチしたH&EスライドとRNA表現データの大規模なデータベースを活用し、弱教師付きモデルを訓練した。 本モデルでは,300名の過剰発現患者と289名の健常者を対象に,各患者の臨床変数の安定なパフォーマンス特性と,テストセット上での合成ノイズに対する頑健性を有するROC-AUC(95%パーセンタイル間隔:0.66~0.74)について検討した。 以上の結果から,H&Eに基づく予測モデルがMET蛋白またはMET遺伝子の発現状態の確認試験に有効であることが示唆された。

MET protein overexpression is a targetable event in non-small cell lung cancer (NSCLC) and is the subject of active drug development. Challenges in identifying patients for these therapies include lack of access to validated testing, such as standardized immunohistochemistry (IHC) assessment, and consumption of valuable tissue for a single gene/protein assay. Development of pre-screening algorithms using routinely available digitized hematoxylin and eosin (H&E)-stained slides to predict MET overexpression could promote testing for those who will benefit most. While assessment of MET expression using IHC is currently not routinely performed in NSCLC, next-generation sequencing is common and in some cases includes RNA expression panel testing. In this work, we leveraged a large database of matched H&E slides and RNA expression data to train a weakly supervised model to predict MET RNA overexpression directly from H&E images. This model was evaluated on an independent holdout test set of 300 over-expressed and 289 normal patients, demonstrating an ROC-AUC of 0.70 (95th percentile interval: 0.66 - 0.74) with stable performance characteristics across different patient clinical variables and robust to synthetic noise on the test set. These results suggest that H&E-based predictive models could be useful to prioritize patients for confirmatory testing of MET protein or MET gene expression status.
翻訳日:2023-10-12 21:28:29 公開日:2023-10-11
# 説明可能な画像類似性: シームズネットワークとGrad-CAMの統合

Explainable Image Similarity: Integrating Siamese Networks and Grad-CAM ( http://arxiv.org/abs/2310.07678v1 )

ライセンス: Link先を確認
Ioannis E. Livieris, Emmanuel Pintelas, Niki Kiriakidou, Panagiotis Pintelas(参考訳) 様々な領域における画像ベースアプリケーションの普及に伴い、正確かつ解釈可能な画像類似度対策の必要性が高まっている。 既存の画像類似性モデルは透明性を欠くことが多く、2つの画像が類似していると考えられる理由を理解することは困難である。 本稿では,視覚的事実と反現実的説明とともに類似度スコアを提供するアプローチの開発を目標とする,説明可能な画像類似性の概念を提案する。 本稿では,siameseネットワークとgrad-camを統合し,説明可能な画像類似性を提供し,このアプローチを採用する際の潜在的メリットと課題について議論する新しいフレームワークを提案する。 また,提案する意思決定支援枠組みによる事実と反事実の説明について,総合的な議論を行う。 提案手法は,実世界の画像類似性アプリケーションにおける画像ベースシステムの解釈可能性,信頼性,ユーザ受容性を向上する可能性がある。 実装コードはhttps://github.com/ioannislivieris/Grad_CAM_Siamese.gitにある。

With the proliferation of image-based applications in various domains, the need for accurate and interpretable image similarity measures has become increasingly critical. Existing image similarity models often lack transparency, making it challenging to understand the reasons why two images are considered similar. In this paper, we propose the concept of explainable image similarity, where the goal is the development of an approach, which is capable of providing similarity scores along with visual factual and counterfactual explanations. Along this line, we present a new framework, which integrates Siamese Networks and Grad-CAM for providing explainable image similarity and discuss the potential benefits and challenges of adopting this approach. In addition, we provide a comprehensive discussion about factual and counterfactual explanations provided by the proposed framework for assisting decision making. The proposed approach has the potential to enhance the interpretability, trustworthiness and user acceptance of image-based systems in real-world image similarity applications. The implementation code can be found in https://github.com/ioannislivieris/Grad_CAM_Siamese.git.
翻訳日:2023-10-12 21:28:02 公開日:2023-10-11
# 大規模言語モデルに対する複合バックドア攻撃

Composite Backdoor Attacks Against Large Language Models ( http://arxiv.org/abs/2310.07676v1 )

ライセンス: Link先を確認
Hai Huang, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang(参考訳) 大規模言語モデル(LLM)は、様々なタスクにおける従来の手法よりも優れた性能を示し、多くの研究やサービスの基盤モデルとして機能することが多い。 しかし、信頼できるサードパーティのLLMは、下流タスクの脆弱性を隠蔽的に導入する可能性がある。 本稿では,バックドアアタックのレンズによるLSMの脆弱性について検討する。 LLMに対する既存のバックドア攻撃とは異なり、当社は異なるプロンプトコンポーネントで複数のトリガーキーを散乱させる。 このような複合バックドア攻撃(CBA)は、同じ複数のトリガーキーを単一のコンポーネントに埋め込むよりもステルス性が高い。 cbaは全てのトリガーキーが現れたときのみバックドアが起動されることを保証する。 CBAは自然言語処理(NLP)とマルチモーダルタスクの両方に有効であることを示す。 例えば、Emotionデータセット上のLLaMA-7Bモデルに対して$3\%の有毒サンプルを使用すれば、False Triggered Rate (FTR)が$2.06\%以下で100\%のアタック成功率(ASR)が達成され、モデルの精度が低下します。 我々のCBAの特徴は、例えば特定のユーザーグループをターゲットにした様々な実践シナリオに合わせることができる。 本研究は, LLMの信頼性向上に向けたセキュリティ研究の必要性を強調するものである。

Large language models (LLMs) have demonstrated superior performance compared to previous methods on various tasks, and often serve as the foundation models for many researches and services. However, the untrustworthy third-party LLMs may covertly introduce vulnerabilities for downstream tasks. In this paper, we explore the vulnerability of LLMs through the lens of backdoor attacks. Different from existing backdoor attacks against LLMs, ours scatters multiple trigger keys in different prompt components. Such a Composite Backdoor Attack (CBA) is shown to be stealthier than implanting the same multiple trigger keys in only a single component. CBA ensures that the backdoor is activated only when all trigger keys appear. Our experiments demonstrate that CBA is effective in both natural language processing (NLP) and multimodal tasks. For instance, with $3\%$ poisoning samples against the LLaMA-7B model on the Emotion dataset, our attack achieves a $100\%$ Attack Success Rate (ASR) with a False Triggered Rate (FTR) below $2.06\%$ and negligible model accuracy degradation. The unique characteristics of our CBA can be tailored for various practical scenarios, e.g., targeting specific user groups. Our work highlights the necessity of increased security research on the trustworthiness of foundation LLMs.
翻訳日:2023-10-12 21:27:45 公開日:2023-10-11
# PAD: Pose-Agnostic Anomaly Detectionのためのデータセットとベンチマーク

PAD: A Dataset and Benchmark for Pose-agnostic Anomaly Detection ( http://arxiv.org/abs/2310.07716v1 )

ライセンス: Link先を確認
Qiang Zhou, Weize Li, Lihan Jiang, Guoliang Wang, Guyue Zhou, Shanghang Zhang, Hao Zhao(参考訳) 物体の異常検出は機械ビジョンの分野で重要な問題であり、近年顕著な進歩を遂げている。 しかし、2つの大きな課題が研究と応用を妨げる。 まず、既存のデータセットは様々なポーズ角から包括的な視覚情報を欠いている。 彼らは通常、異常のないトレーニングデータセットがポーズアライメントであるという非現実的な仮定を持ち、テストサンプルはトレーニングデータと同じポーズを持つ。 しかし、実際には、異常はオブジェクトの任意の領域に存在し、トレーニングとクエリサンプルは異なるポーズを持ち、ポーズに依存しない異常検出の研究を要求する。 第2に、ポーズ非依存異常検出のための実験プロトコルに関する合意の欠如は、異なる方法の不公平な比較をもたらし、ポーズ非依存異常検出の研究を妨げている。 これらの問題に対処するために,多地点異常検出(mad)データセットとポーズ非異常検出(pad)ベンチマークを開発し,ポーズ非異常検出問題への第一歩を踏み出した。 具体的には、さまざまなポーズを持つ4Kビューや、シミュレートされた環境と実環境の両方で高品質で多様な3D異常を含む、20個の複雑なレゴ玩具を用いてMADを構築する。 さらに,ポーズに依存しない異常検出のために,MADを用いて訓練した新しいOmniposeADを提案する。 包括的評価を通じて,データセットと手法の関連性を実証する。 さらに、8つの異常検出パラダイムをカバーするデータセットとベースラインメソッドを含むオープンソースのベンチマークライブラリを提供し、この領域における将来の研究と応用を容易にする。 コード、データ、モデルはhttps://github.com/EricLee0224/PADで公開されている。

Object anomaly detection is an important problem in the field of machine vision and has seen remarkable progress recently. However, two significant challenges hinder its research and application. First, existing datasets lack comprehensive visual information from various pose angles. They usually have an unrealistic assumption that the anomaly-free training dataset is pose-aligned, and the testing samples have the same pose as the training data. However, in practice, anomaly may exist in any regions on a object, the training and query samples may have different poses, calling for the study on pose-agnostic anomaly detection. Second, the absence of a consensus on experimental protocols for pose-agnostic anomaly detection leads to unfair comparisons of different methods, hindering the research on pose-agnostic anomaly detection. To address these issues, we develop Multi-pose Anomaly Detection (MAD) dataset and Pose-agnostic Anomaly Detection (PAD) benchmark, which takes the first step to address the pose-agnostic anomaly detection problem. Specifically, we build MAD using 20 complex-shaped LEGO toys including 4K views with various poses, and high-quality and diverse 3D anomalies in both simulated and real environments. Additionally, we propose a novel method OmniposeAD, trained using MAD, specifically designed for pose-agnostic anomaly detection. Through comprehensive evaluations, we demonstrate the relevance of our dataset and method. Furthermore, we provide an open-source benchmark library, including dataset and baseline methods that cover 8 anomaly detection paradigms, to facilitate future research and application in this domain. Code, data, and models are publicly available at https://github.com/EricLee0224/PAD.
翻訳日:2023-10-12 21:19:38 公開日:2023-10-11
# 自然言語処理におけるパラダイムシフトの文脈化

To Build Our Future, We Must Know Our Past: Contextualizing Paradigm Shifts in Natural Language Processing ( http://arxiv.org/abs/2310.07715v1 )

ライセンス: Link先を確認
Sireesh Gururaja, Amanda Bertsch, Clara Na, David Gray Widder, Emma Strubell(参考訳) NLPは、我々の方法論、資金源、そして公共の認識に影響を与える破壊的な変化の時期にある。 本研究では,過去をよりよく理解することで,未来をどう形成するかを理解する。 我々は,NLPを文化,インセンティブ,インフラなどの分野として形成する要因について,様々な高齢者,研究領域,施設,社会アイデンティティの26人のNLP研究者に長期インタビューを行った。 インタビュアーは、フィールド内の循環パターンや、ベンチマーク文化やソフトウェアインフラストラクチャの変更など、歴史的な並列性のない新たなシフトを特定します。 この議論を, aclアンソロジーにおける引用, 著者シップ, 言語使用の経時的定量分析によって補完する。 我々は、NLPの将来へのビジョン、関心、希望を共有することで結論付ける。 我々は、この分野の過去と現在に関するこの研究が、我々のコミュニティの暗黙の規範とより意図的な行動について、意識的に未来を形作るためのインフォームドな議論を促すことを望んでいる。

NLP is in a period of disruptive change that is impacting our methodologies, funding sources, and public perception. In this work, we seek to understand how to shape our future by better understanding our past. We study factors that shape NLP as a field, including culture, incentives, and infrastructure by conducting long-form interviews with 26 NLP researchers of varying seniority, research area, institution, and social identity. Our interviewees identify cyclical patterns in the field, as well as new shifts without historical parallel, including changes in benchmark culture and software infrastructure. We complement this discussion with quantitative analysis of citation, authorship, and language use in the ACL Anthology over time. We conclude by discussing shared visions, concerns, and hopes for the future of NLP. We hope that this study of our field's past and present can prompt informed discussion of our community's implicit norms and more deliberate action to consciously shape the future.
翻訳日:2023-10-12 21:19:09 公開日:2023-10-11
# InstructRetro: Retrieval-Augmented Pretrainingのインストラクションチューニング

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining ( http://arxiv.org/abs/2310.07713v1 )

ライセンス: Link先を確認
Boxin Wang, Wei Ping, Lawrence McAfee, Peng Xu, Bo Li, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 自動回帰型大言語モデル (LLM) の検索による事前学習は, 外部データベースを活用することにより, 難易度と事実精度が向上することを示す。 しかし、既存の事前訓練された検索拡張LDMのサイズは依然として制限されており(例えばRetroは7.5Bパラメータを持つ)、命令チューニングとゼロショットの一般化の有効性を制限している。 そこで,本研究では,学習前最大のLLMであるRetro 48Bを紹介する。 具体的には、13兆のトークンから検索することでRetro拡張法を用いて、さらに1000億のトークンに対して43B GPTモデルを事前訓練し続けます。 得られた基礎モデルであるレトロ48bは、パープレキシティの点でオリジナルの43b gptを大きく上回っている。 レトロでの命令チューニングの後、instructretroはゼロショット質問応答(qa)タスクでチューニングされたgptよりも大幅な改善を示す。 具体的には、InstructRetroの平均的な改善は、8つの短期QAタスクでGPTよりも7%、そして4つの挑戦的な長期QAタスクでGPTよりも10%である。 驚いたことに、instructretroアーキテクチャからエンコーダを外すことができ、デコーダバックボーンを直接使用でき、同等の結果を得ることができる。 我々は、検索による事前学習が、そのデコーダをQAの文脈をうまく組み込むことを仮定する。 この結果から,学習前の検索を継続することで,より優れたGPTデコーダをQAに提供できる可能性が示唆された。

Pretraining auto-regressive large language models (LLMs) with retrieval demonstrates better perplexity and factual accuracy by leveraging external databases. However, the size of existing pretrained retrieval-augmented LLM is still limited (e.g., Retro has 7.5B parameters), which limits the effectiveness of instruction tuning and zero-shot generalization. In this work, we introduce Retro 48B, the largest LLM pretrained with retrieval before instruction tuning. Specifically, we continue to pretrain the 43B GPT model on additional 100 billion tokens using the Retro augmentation method by retrieving from 1.2 trillion tokens. The obtained foundation model, Retro 48B, largely outperforms the original 43B GPT in terms of perplexity. After instruction tuning on Retro, InstructRetro demonstrates significant improvement over the instruction tuned GPT on zero-shot question answering (QA) tasks. Specifically, the average improvement of InstructRetro is 7% over its GPT counterpart across 8 short-form QA tasks, and 10% over GPT across 4 challenging long-form QA tasks. Surprisingly, we find that one can ablate the encoder from InstructRetro architecture and directly use its decoder backbone, while achieving comparable results. We hypothesize that pretraining with retrieval makes its decoder good at incorporating context for QA. Our results highlights the promising direction to obtain a better GPT decoder for QA through continued pretraining with retrieval before instruction tuning.
翻訳日:2023-10-12 21:18:49 公開日:2023-10-11
# 中央にある: 置換自己一貫性は大規模言語モデルにおけるリストワイズランキングを改善する

Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models ( http://arxiv.org/abs/2310.07712v1 )

ライセンス: Link先を確認
Raphael Tang, Xinyu Zhang, Xueguang Ma, Jimmy Lin, Ferhan Ture(参考訳) 大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示し、特にリストのランキングを複雑にする。 そこで我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。 私たちのキーとなるアイデアは、位置バイアスの少ない注文非依存のランキングを生成するプロンプトにおいて、異なるリストの注文をマージすることです。 まず、入力プロンプトが与えられたら、プロンプト内のリストを何度もシャッフルして、命令を同じに保持しながらLSMに渡します。 次に、得られたランキングのサンプルを、それらすべてに最も近い中央ランクを計算して集約し、プロセスの即時順序バイアスを和らげる。 理論的には,提案手法の頑健さを証明し,ランダム摂動の存在下での真のランクへの収束を示す。 経験的に, 5つのリストランキングデータセットにおいて, gpt-3.5では最大7-18%, llama v2 (70b) では8-16%のスコア改善を行い, それまでのパスリランキングを上回った。 私たちのコードはhttps://github.com/castorini/perm-scです。

Large language models (LLMs) exhibit positional bias in how they use context, which especially complicates listwise ranking. To address this, we propose permutation self-consistency, a form of self-consistency over ranking list outputs of black-box LLMs. Our key idea is to marginalize out different list orders in the prompt to produce an order-independent ranking with less positional bias. First, given some input prompt, we repeatedly shuffle the list in the prompt and pass it through the LLM while holding the instructions the same. Next, we aggregate the resulting sample of rankings by computing the central ranking closest in distance to all of them, marginalizing out prompt order biases in the process. Theoretically, we prove the robustness of our method, showing convergence to the true ranking in the presence of random perturbations. Empirically, on five list-ranking datasets in sorting and passage reranking, our approach improves scores from conventional inference by up to 7-18% for GPT-3.5 and 8-16% for LLaMA v2 (70B), surpassing the previous state of the art in passage reranking. Our code is at https://github.com/castorini/perm-sc.
翻訳日:2023-10-12 21:18:24 公開日:2023-10-11
# 成長する脳 : リカレントニューラルネットワークにおける解剖学的・機能的モジュラリティの融合

Growing Brains: Co-emergence of Anatomical and Functional Modularity in Recurrent Neural Networks ( http://arxiv.org/abs/2310.07711v1 )

ライセンス: Link先を確認
Ziming Liu, Mikail Khona, Ila R. Fiete, Max Tegmark(参考訳) 構成タスクで訓練されたリカレントニューラルネットワーク(RNN)は機能的なモジュラリティを示し、ニューロンは活動類似性と共有計算サブタスクへの参加によってクラスタ化することができる。 脳とは異なり、これらのRNNは解剖学的モジュラリティを示しておらず、機能的クラスタリングは強い再帰結合と機能的クラスタの空間的局在と相関している。 入力に短命に依存できる機能的モジュラリティとは対照的に、解剖学的にモジュール化されたネットワークは、将来同じサブタスクを解決するためのロバストな基盤を形成する。 脳に似た解剖学的モジュラリティを育成できるかどうかを調べるために、脳にインスパイアされたモジュラートレーニング(bimt)という機械学習手法を、一連の構成認知課題を解決するために訓練されたネットワークに適用する。 機能的および解剖学的クラスタリングが同時に出現し、機能的に類似したニューロンが空間的局所化および相互接続されるようになる。 さらに、標準の$L_1$や非正規化設定と比較すると、タスク性能とネットワーク幅を最適にバランスさせることで、優れたパフォーマンスを示す。 RNNにおける脳に似た組織の実現に加えて、BIMTはニューロモルフィックコンピューティングの応用とニューラルネットワークアーキテクチャの解釈可能性の向上を約束していることも示唆している。

Recurrent neural networks (RNNs) trained on compositional tasks can exhibit functional modularity, in which neurons can be clustered by activity similarity and participation in shared computational subtasks. Unlike brains, these RNNs do not exhibit anatomical modularity, in which functional clustering is correlated with strong recurrent coupling and spatial localization of functional clusters. Contrasting with functional modularity, which can be ephemerally dependent on the input, anatomically modular networks form a robust substrate for solving the same subtasks in the future. To examine whether it is possible to grow brain-like anatomical modularity, we apply a recent machine learning method, brain-inspired modular training (BIMT), to a network being trained to solve a set of compositional cognitive tasks. We find that functional and anatomical clustering emerge together, such that functionally similar neurons also become spatially localized and interconnected. Moreover, compared to standard $L_1$ or no regularization settings, the model exhibits superior performance by optimally balancing task performance and network sparsity. In addition to achieving brain-like organization in RNNs, our findings also suggest that BIMT holds promise for applications in neuromorphic computing and enhancing the interpretability of neural network architectures.
翻訳日:2023-10-12 21:18:00 公開日:2023-10-11
# DiPmark: 大規模言語モデルのためのステルスで効率的かつ回復力のある透かし

DiPmark: A Stealthy, Efficient and Resilient Watermark for Large Language Models ( http://arxiv.org/abs/2310.07710v1 )

ライセンス: Link先を確認
Yihan Wu, Zhengmian Hu, Hongyang Zhang, Heng Huang(参考訳) ウォーターマーキング技術は、データに隠蔽情報を埋め込むことで、データをセキュアにする方法を提供する。 ドメインにおける最大の課題は、透かし中に元のデータの分布を保存することである。 本研究は,dip(distribution-preserving)ウォーターマークの重要性を強調し,既存のウォーターマークフレームワークを拡張し,洗練する。 現在の戦略とは対照的に、提案したDiPmarkは、透かし(ステルス)中のオリジナルのトークン分布を保存し、言語モデルAPIやウェイト(効率)にアクセスせずに検出可能であり、トークンの適度な変更(レジリエント)に対して堅牢である。 これは、新しい再重み付け戦略と、コンテキストに基づいてユニークな \textit{i.i.d.} 暗号を割り当てるハッシュ関数を組み合わせることで達成される。 このアプローチの実証ベンチマークは、そのステルス性、効率性、レジリエンスを核としており、品質の維持を要求される透かしタスクに対する堅牢なソリューションとなっている。

Watermarking techniques offer a promising way to secure data via embedding covert information into the data. A paramount challenge in the domain lies in preserving the distribution of original data during watermarking. Our research extends and refines existing watermarking framework, placing emphasis on the importance of a distribution-preserving (DiP) watermark. Contrary to the current strategies, our proposed DiPmark preserves the original token distribution during watermarking (stealthy), is detectable without access to the language model API or weights (efficient), and is robust to moderate changes of tokens (resilient). This is achieved by incorporating a novel reweight strategy, combined with a hash function that assigns unique \textit{i.i.d.} ciphers based on the context. The empirical benchmarks of our approach underscore its stealthiness, efficiency, and resilience, making it a robust solution for watermarking tasks that demand impeccable quality preservation.
翻訳日:2023-10-12 21:17:37 公開日:2023-10-11
# MatFormer: 弾性推論のためのNested Transformer

MatFormer: Nested Transformer for Elastic Inference ( http://arxiv.org/abs/2310.07707v1 )

ライセンス: Link先を確認
Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen, Inderjit Dhillon, Yulia Tsvetkov, Hannaneh Hajishirzi, Sham Kakade, Ali Farhadi, Prateek Jain(参考訳) Transformerモデルは、マルチアクセラレータクラスタからスタンドアロンの携帯電話まで、幅広い設定でデプロイされる。 これらのシナリオにおける様々な推論の制約は、様々なサイズのモデルの一連のモデルとして、PaLM、Llama、ViTsといった基礎モデルをトレーニングする必要がある。 大幅なトレーニングコストのため、レイテンシ、コスト、正確性など、関連するトレードオフに対するよりきめ細かい制御を制限するため、トレーニングとサポート対象モデルのサイズはごくわずかである。 この本では、さまざまなデプロイメント制約に対して弾力性を提供するように設計された入れ子型トランスフォーマーアーキテクチャであるmatformerを紹介している。 MatFormerモデルの各Feed Forward Network(FFN)ブロックは、ネストされた小さなFFNブロックで共同最適化される。 このトレーニング手順は、レイヤー間のモデルの粒度の混合、すなわち、トレーニングされたユニバーサルマットフォーマーモデルは、明示的に最適化されなかった数百の正確なより小さなモデルの抽出を可能にする。 異なるモデルクラス(デコーダとエンコーダ)、モダリティ(言語とビジョン)、スケール(最大2.6bのパラメータ)において、matformerの有効性を実証的に実証する。 2.6BデコーダのみのMatFormer言語モデル(MatLM)により、1.5Bから2.6Bまでの小さなモデルを抽出できることがわかった。 さらに,MatchFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。 最後に,matformerから抽出した精度と一貫性を備えたサブモデルによる投機的復号により,推論遅延がさらに低減されることを示す。

Transformer models are deployed in a wide range of settings, from multi-accelerator clusters to standalone mobile phones. The diverse inference constraints in these scenarios necessitate practitioners to train foundation models such as PaLM 2, Llama, & ViTs as a series of models of varying sizes. Due to significant training costs, only a select few model sizes are trained and supported, limiting more fine-grained control over relevant tradeoffs, including latency, cost, and accuracy. This work introduces MatFormer, a nested Transformer architecture designed to offer elasticity in a variety of deployment constraints. Each Feed Forward Network (FFN) block of a MatFormer model is jointly optimized with a few nested smaller FFN blocks. This training procedure allows for the Mix'n'Match of model granularities across layers -- i.e., a trained universal MatFormer model enables extraction of hundreds of accurate smaller models, which were never explicitly optimized. We empirically demonstrate MatFormer's effectiveness across different model classes (decoders & encoders), modalities (language & vision), and scales (up to 2.6B parameters). We find that a 2.6B decoder-only MatFormer language model (MatLM) allows us to extract smaller models spanning from 1.5B to 2.6B, each exhibiting comparable validation loss and one-shot downstream evaluations to their independently trained counterparts. Furthermore, we observe that smaller encoders extracted from a universal MatFormer-based ViT (MatViT) encoder preserve the metric-space structure for adaptive large-scale retrieval. Finally, we showcase that speculative decoding with the accurate and consistent submodels extracted from MatFormer can further reduce inference latency.
翻訳日:2023-10-12 21:17:18 公開日:2023-10-11
# インタラクティブ環境における予測と計画を組み合わせたピクセル状態値ネットワーク

Pixel State Value Network for Combined Prediction and Planning in Interactive Environments ( http://arxiv.org/abs/2310.07706v1 )

ライセンス: Link先を確認
Sascha Rosbach, Stefan M. Leupold, Simon Gro{\ss}johann and Stefan Roth(参考訳) 都市環境で動作する自動運転車は、他の交通参加者と確実に対話しなければならない。 計画アルゴリズムは、オブジェクトの確率的、マルチモーダル、インタラクティブな振る舞いを予測する別々の予測モジュールを使用することが多い。 予測と計画を2つの別々のモジュールとして設計することは、特にこれらのモジュールの相互依存のために大きな課題をもたらす。 本研究は,予測と計画を組み合わせた深層学習手法を提案する。 U-Netアーキテクチャの条件付きGANをトレーニングし、2つの高解像度画像シーケンスを予測する。 シーケンスは、主にコンテキスト理解のトレーニングに使用される明示的な動作予測と、キネマティックリーチビリティ、オブジェクトダイナミクス、安全性、運転快適性の計画に適したピクセル状態値を表す。 モデルは、実世界の運転データを利用して、サンプリングベースのモデル予測プランナーによってレンダリングされたターゲットイメージでオフラインでトレーニングすることができる。 本研究は, 複雑な状況下での直感的な挙動を示すものである。

Automated vehicles operating in urban environments have to reliably interact with other traffic participants. Planning algorithms often utilize separate prediction modules forecasting probabilistic, multi-modal, and interactive behaviors of objects. Designing prediction and planning as two separate modules introduces significant challenges, particularly due to the interdependence of these modules. This work proposes a deep learning methodology to combine prediction and planning. A conditional GAN with the U-Net architecture is trained to predict two high-resolution image sequences. The sequences represent explicit motion predictions, mainly used to train context understanding, and pixel state values suitable for planning encoding kinematic reachability, object dynamics, safety, and driving comfort. The model can be trained offline on target images rendered by a sampling-based model-predictive planner, leveraging real-world driving data. Our results demonstrate intuitive behavior in complex situations, such as lane changes amidst conflicting objectives.
翻訳日:2023-10-12 21:16:50 公開日:2023-10-11
# Ferret:どんな粒度でも、どんな場所でも見れます

Ferret: Refer and Ground Anything Anywhere at Any Granularity ( http://arxiv.org/abs/2310.07704v1 )

ライセンス: Link先を確認
Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang(参考訳) 画像内の任意の形状や粒度の空間的参照を理解でき、オープン語彙記述を正確にグラウンド化できる新しいマルチモーダル大言語モデル(MLLM)であるFeretを紹介する。 llmパラダイムにおける参照と接地を統一するために、フェレットは画像内の領域を表現するために、離散座標と連続的な特徴を統合する新しい強力なハイブリッド領域表現を用いる。 そこで本研究では,多目的領域の連続的な特徴を抽出するために,異なる形状の空間認識型ビジュアルサンプリング器を提案する。 その結果、フェレットはポイント、バウンディングボックス、フリーフォーム形状などの様々な領域入力を受け付けることができる。 モデルロバスト性を促進するために,階層的な空間的知識を豊富に含む1.1Mサンプルを含む包括的参照・地上調整データセットであるGRITを95Kのハード・ネガティブ・データでキュレートする。 その結果得られたモデルは、古典的な参照および接地タスクにおいて優れたパフォーマンスを達成するだけでなく、地域ベースおよびローカライゼーション要求のマルチモーダルチャットにおいて、既存のmllmを大きく上回っている。 また,画像の詳細な記述能力が向上し,幻覚の顕著な緩和効果が示された。 コードとデータはhttps://github.com/apple/ml-ferretで入手できる。

We introduce Ferret, a new Multimodal Large Language Model (MLLM) capable of understanding spatial referring of any shape or granularity within an image and accurately grounding open-vocabulary descriptions. To unify referring and grounding in the LLM paradigm, Ferret employs a novel and powerful hybrid region representation that integrates discrete coordinates and continuous features jointly to represent a region in the image. To extract the continuous features of versatile regions, we propose a spatial-aware visual sampler, adept at handling varying sparsity across different shapes. Consequently, Ferret can accept diverse region inputs, such as points, bounding boxes, and free-form shapes. To bolster the desired capability of Ferret, we curate GRIT, a comprehensive refer-and-ground instruction tuning dataset including 1.1M samples that contain rich hierarchical spatial knowledge, with 95K hard negative data to promote model robustness. The resulting model not only achieves superior performance in classical referring and grounding tasks, but also greatly outperforms existing MLLMs in region-based and localization-demanded multimodal chatting. Our evaluations also reveal a significantly improved capability of describing image details and a remarkable alleviation in object hallucination. Code and data will be available at https://github.com/apple/ml-ferret
翻訳日:2023-10-12 21:16:35 公開日:2023-10-11
# ScaleCrafter: 拡散モデルによるチューニング不要な高解像度ビジュアル生成

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models ( http://arxiv.org/abs/2310.07702v1 )

ライセンス: Link先を確認
Yingqing He, Shaoshu Yang, Haoxin Chen, Xiaodong Cun, Menghan Xia, Yong Zhang, Xintao Wang, Ran He, Qifeng Chen, Ying Shan(参考訳) 本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高い解像度で画像を生成する能力について検討する。 さらに、生成された画像は任意の画像アスペクト比を持つべきである。 解像度512×512のトレーニング画像を用いて,高解像度の1024×1024の画像を直接生成する場合,物体の繰り返しや不適切な物体構造の持続的問題を観察する。 注意ベースや共同拡散アプローチのような高分解能生成のための既存の研究は、これらの問題にうまく対処できない。 新しい視点として、拡散モデルにおけるU-Netの構造成分を調べ、その重要な原因を畳み込みカーネルの限られた知覚場として同定する。 このキーとなる観察に基づいて,推論中に畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。 さらに,超高解像度画像生成(4096×4096)が可能な分散畳み込みと雑音減衰型分類器フリーガイダンスを提案する。 特に、私たちのアプローチではトレーニングや最適化は不要です。 広汎な実験により,本手法は繰り返し問題にうまく対処でき,特にテクスチャ細部において高分解能画像合成における最先端性能を実現することができることが示された。 我々の研究は、低解像度画像に基づいてトレーニングされた事前学習拡散モデルが、さらなるチューニングを伴わずに、高解像度画像生成に直接使用できることを示唆している。

In this work, we investigate the capability of generating images from pre-trained diffusion models at much higher resolutions than the training image sizes. In addition, the generated images should have arbitrary image aspect ratios. When generating images directly at a higher resolution, 1024 x 1024, with the pre-trained Stable Diffusion using training images of resolution 512 x 512, we observe persistent problems of object repetition and unreasonable object structures. Existing works for higher-resolution generation, such as attention-based and joint-diffusion approaches, cannot well address these issues. As a new perspective, we examine the structural components of the U-Net in diffusion models and identify the crucial cause as the limited perception field of convolutional kernels. Based on this key observation, we propose a simple yet effective re-dilation that can dynamically adjust the convolutional perception field during inference. We further propose the dispersed convolution and noise-damped classifier-free guidance, which can enable ultra-high-resolution image generation (e.g., 4096 x 4096). Notably, our approach does not require any training or optimization. Extensive experiments demonstrate that our approach can address the repetition issue well and achieve state-of-the-art performance on higher-resolution image synthesis, especially in texture details. Our work also suggests that a pre-trained diffusion model trained on low-resolution images can be directly used for high-resolution visual generation without further tuning, which may provide insights for future research on ultra-high-resolution image and video synthesis.
翻訳日:2023-10-12 21:16:09 公開日:2023-10-11
# LauraGPT: GPTによる聴取、聴取、理解、再生

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT ( http://arxiv.org/abs/2310.04673v3 )

ライセンス: Link先を確認
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang(参考訳) Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。 しかし、同様のフレームワークをオーディオタスクに適用する研究は限られている。 これまで提案されていた音声タスクの大規模言語モデルは、十分な量的評価を欠くか、音声コンテンツの認識と理解のタスクに限定されるか、あるいは既存の最先端(sota)モデルを大幅に過小評価している。 本稿では,音声認識,理解,生成のための統一GPTモデルであるLauraGPTを提案する。 LauraGPTは、音声入力とテキスト入力の両方を処理し、どちらのモードでも出力を生成できる汎用言語モデルである。 コンテンツ、セマンティクス、パラ言語学、音声信号分析に関する幅広いタスクを実行することができる。 その注目すべきタスクには、自動音声認識、音声対テキスト翻訳、テキスト対音声合成、機械翻訳、音声強調、自動音声キャプション、音声感情認識、音声言語理解などがある。 この目的を達成するために、音声に連続的と離散的な機能を組み合わせる。 入力音声をオーディオエンコーダを用いて連続表現に符号化し、離散コーデック符号から出力音声を復号化する。 次に、教師付きマルチタスク学習アプローチを用いて、複数の音声-テキスト、テキスト-音声、音声-音声、テキスト-テキストタスクに対して、大きなデコーダのみのトランスフォーマベースの言語モデルを微調整する。 広範囲な実験により、lauragptは様々なオーディオ処理ベンチマークで既存のsomaモデルよりも競争力や優れた性能を達成していることが示された。

Generative Pre-trained Transformer (GPT) models have achieved remarkable performance on various natural language processing tasks. However, there has been limited research on applying similar frameworks to audio tasks. Previously proposed large language models for audio tasks either lack sufficient quantitative evaluations, or are limited to tasks for recognizing and understanding audio content, or significantly underperform existing state-of-the-art (SOTA) models. In this paper, we propose LauraGPT, a unified GPT model for audio recognition, understanding, and generation. LauraGPT is a versatile language model that can process both audio and text inputs and generate outputs in either modalities. It can perform a wide range of tasks related to content, semantics, paralinguistics, and audio-signal analysis. Some of its noteworthy tasks include automatic speech recognition, speech-to-text translation, text-to-speech synthesis, machine translation, speech enhancement, automated audio captioning, speech emotion recognition, and spoken language understanding. To achieve this goal, we use a combination of continuous and discrete features for audio. We encode input audio into continuous representations using an audio encoder and decode output audio from discrete codec codes. We then fine-tune a large decoder-only Transformer-based language model on multiple audio-to-text, text-to-audio, audio-to-audio, and text-to-text tasks using a supervised multitask learning approach. Extensive experiments show that LauraGPT achieves competitive or superior performance compared to existing SOTA models on various audio processing benchmarks.
翻訳日:2023-10-12 16:48:43 公開日:2023-10-11
# LauraGPT: GPTによる聴取、聴取、理解、再生

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT ( http://arxiv.org/abs/2310.04673v2 )

ライセンス: Link先を確認
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang(参考訳) Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。 しかし、同様のフレームワークをオーディオタスクに適用する研究は限られている。 これまで提案されていた音声タスクの大規模言語モデルは、十分な量的評価を欠くか、音声コンテンツの認識と理解のタスクに限定されるか、あるいは既存の最先端(sota)モデルを大幅に過小評価している。 本稿では,音声認識,理解,生成のための統一GPTモデルであるLauraGPTを提案する。 LauraGPTは、音声入力とテキスト入力の両方を処理し、どちらのモードでも出力を生成できる汎用言語モデルである。 コンテンツ、セマンティクス、パラ言語学、音声信号分析に関する幅広いタスクを実行することができる。 その注目すべきタスクには、自動音声認識、音声対テキスト翻訳、テキスト対音声合成、機械翻訳、音声強調、自動音声キャプション、音声感情認識、音声言語理解などがある。 この目的を達成するために、音声に連続的と離散的な機能を組み合わせる。 入力音声をオーディオエンコーダを用いて連続表現に符号化し、離散コーデック符号から出力音声を復号化する。 次に、教師付きマルチタスク学習アプローチを用いて、複数の音声-テキスト、テキスト-音声、音声-音声、テキスト-テキストタスクに対して、大きなデコーダのみのトランスフォーマベースの言語モデルを微調整する。 広範囲な実験により、lauragptは様々なオーディオ処理ベンチマークで既存のsomaモデルよりも競争力や優れた性能を達成していることが示された。

Generative Pre-trained Transformer (GPT) models have achieved remarkable performance on various natural language processing tasks. However, there has been limited research on applying similar frameworks to audio tasks. Previously proposed large language models for audio tasks either lack sufficient quantitative evaluations, or are limited to tasks for recognizing and understanding audio content, or significantly underperform existing state-of-the-art (SOTA) models. In this paper, we propose LauraGPT, a unified GPT model for audio recognition, understanding, and generation. LauraGPT is a versatile language model that can process both audio and text inputs and generate outputs in either modalities. It can perform a wide range of tasks related to content, semantics, paralinguistics, and audio-signal analysis. Some of its noteworthy tasks include automatic speech recognition, speech-to-text translation, text-to-speech synthesis, machine translation, speech enhancement, automated audio captioning, speech emotion recognition, and spoken language understanding. To achieve this goal, we use a combination of continuous and discrete features for audio. We encode input audio into continuous representations using an audio encoder and decode output audio from discrete codec codes. We then fine-tune a large decoder-only Transformer-based language model on multiple audio-to-text, text-to-audio, audio-to-audio, and text-to-text tasks using a supervised multitask learning approach. Extensive experiments show that LauraGPT achieves competitive or superior performance compared to existing SOTA models on various audio processing benchmarks.
翻訳日:2023-10-12 16:48:11 公開日:2023-10-11
# LauraGPT: GPTによる聴取、聴取、理解、再生

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT ( http://arxiv.org/abs/2310.04673v1 )

ライセンス: Link先を確認
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang(参考訳) Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。 しかし、同様のフレームワークをオーディオタスクに適用する研究は限られている。 これまで提案されていた音声タスクの大規模言語モデルは、十分な量的評価を欠くか、音声コンテンツの認識と理解のタスクに限定されるか、あるいは既存の最先端(sota)モデルを大幅に過小評価している。 本稿では,音声認識,理解,生成のための統一GPTモデルであるLauraGPTを提案する。 LauraGPTは、音声入力とテキスト入力の両方を処理し、どちらのモードでも出力を生成できる汎用言語モデルである。 コンテンツ、セマンティクス、パラ言語学、音声信号分析に関する幅広いタスクを実行することができる。 その注目すべきタスクには、自動音声認識、音声対テキスト翻訳、テキスト対音声合成、機械翻訳、音声強調、自動音声キャプション、音声感情認識、音声言語理解などがある。 この目的を達成するために、音声に連続的と離散的な機能を組み合わせる。 入力音声をオーディオエンコーダを用いて連続表現に符号化し、離散コーデック符号から出力音声を復号化する。 次に、教師付きマルチタスク学習アプローチを用いて、複数の音声-テキスト、テキスト-音声、音声-音声、テキスト-テキストタスクに対して、大きなデコーダのみのトランスフォーマベースの言語モデルを微調整する。 広範囲な実験により、lauragptは様々なオーディオ処理ベンチマークで既存のsomaモデルよりも競争力や優れた性能を達成していることが示された。

Generative Pre-trained Transformer (GPT) models have achieved remarkable performance on various natural language processing tasks. However, there has been limited research on applying similar frameworks to audio tasks. Previously proposed large language models for audio tasks either lack sufficient quantitative evaluations, or are limited to tasks for recognizing and understanding audio content, or significantly underperform existing state-of-the-art (SOTA) models. In this paper, we propose LauraGPT, a unified GPT model for audio recognition, understanding, and generation. LauraGPT is a versatile language model that can process both audio and text inputs and generate outputs in either modalities. It can perform a wide range of tasks related to content, semantics, paralinguistics, and audio-signal analysis. Some of its noteworthy tasks include automatic speech recognition, speech-to-text translation, text-to-speech synthesis, machine translation, speech enhancement, automated audio captioning, speech emotion recognition, and spoken language understanding. To achieve this goal, we use a combination of continuous and discrete features for audio. We encode input audio into continuous representations using an audio encoder and decode output audio from discrete codec codes. We then fine-tune a large decoder-only Transformer-based language model on multiple audio-to-text, text-to-audio, audio-to-audio, and text-to-text tasks using a supervised multitask learning approach. Extensive experiments show that LauraGPT achieves competitive or superior performance compared to existing SOTA models on various audio processing benchmarks.
翻訳日:2023-10-12 16:47:40 公開日:2023-10-11
# ブラックホール蒸発の単位(半)因果量子回路表現

Unitary (semi)causal quantum-circuit representation of black hole evaporation ( http://arxiv.org/abs/2310.04744v2 )

ライセンス: Link先を確認
Bogus{\l}aw Broda(参考訳) 事象の地平線 (semicausality) によって課される因果関係を尊重するブラックホールの一元進化(蒸発)の一般的な構造が導出され、量子回路の言語で表される。 対応する絡み合いエントロピーとエントロピー曲線の進化に対する結果が決定されている。 一般的なスキームの例として、キュービット玩具モデルの2つのファミリー、テンソル製品モデルと制御された非製品モデルが議論されている。

A general structure of unitary evolution (evaporation) of the black hole, respecting causality imposed by the event horizon (semicausality), has been derived and presented in the language of quantum circuits. The resulting consequences for the evolution of the corresponding entanglement entropy and the entropy curve have been determined. As an illustration of the general scheme two families of qubit toy models have been discussed: tensor product models and controlled non-product models.
翻訳日:2023-10-12 15:56:15 公開日:2023-10-11
# ブラックホール蒸発の単位(半)因果量子回路表現

Unitary (semi)causal quantum-circuit representation of black hole evaporation ( http://arxiv.org/abs/2310.04744v1 )

ライセンス: Link先を確認
Bogus{\l}aw Broda(参考訳) 事象の地平線 (semicausality) によって課される因果関係を尊重するブラックホールの一元進化(蒸発)の一般的な構造が導出され、量子回路の言語で表される。 対応する絡み合いエントロピーとエントロピー曲線の進化に対する結果が決定されている。 一般的なスキームの例として、キュービット玩具モデルの2つのファミリー、テンソル製品モデルと制御された非製品モデルが議論されている。

A general structure of unitary evolution (evaporation) of the black hole, respecting causality imposed by the event horizon (semicausality), has been derived and presented in the language of quantum circuits. The resulting consequences for the evolution of the corresponding entanglement entropy and the entropy curve have been determined. As an illustration of the general scheme two families of qubit toy models have been discussed: tensor product models and controlled non-product models.
翻訳日:2023-10-12 15:56:05 公開日:2023-10-11
# IPMix:ロバスト分類器の学習のためのラベル保存データ拡張法

IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v2 )

ライセンス: Link先を確認
Zhenglin Huang, Xianan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang(参考訳) データ拡張は、過剰フィッティングを防止し、高精度畳み込みニューラルネットワーク分類器のトレーニングに有効であることが証明されている。 しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分布が変化する際のロバスト性も必要となる。 従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。 ipmixは3つのレベルのデータ拡張(イメージレベル、パッチレベル、ピクセルレベル)をコヒーレントでラベル保存技術に統合し、計算オーバーヘッドの少ないトレーニングデータの多様性を高める。 堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成し、マルチスケール情報融合にランダム混合法を採用する。 実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。 さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。

Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O.
翻訳日:2023-10-12 15:35:22 公開日:2023-10-11
# IPMix:ロバスト分類器の学習のためのラベル保存データ拡張法

IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v1 )

ライセンス: Link先を確認
Zhenglin Huang, Xianan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang(参考訳) データ拡張は、過剰フィッティングを防止し、高精度畳み込みニューラルネットワーク分類器のトレーニングに有効であることが証明されている。 しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分布が変化する際のロバスト性も必要となる。 従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。 ipmixは3つのレベルのデータ拡張(イメージレベル、パッチレベル、ピクセルレベル)をコヒーレントでラベル保存技術に統合し、計算オーバーヘッドの少ないトレーニングデータの多様性を高める。 堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成し、マルチスケール情報融合にランダム混合法を採用する。 実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。 さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。

Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O.
翻訳日:2023-10-12 15:34:54 公開日:2023-10-11
# 楕円バウンディングボックスを用いた細胞検出

Cell Tracking-by-detection using Elliptical Bounding Boxes ( http://arxiv.org/abs/2310.04895v2 )

ライセンス: Link先を確認
Lucas N. Kirsten, Cl\'audio R. Jung(参考訳) 細胞の検出と追跡は生物分析において最重要である。 最近のアプローチは、モデルごとの追跡進化パラダイムに依存している。これは通常、エンドツーエンドのディープラーニングモデルをトレーニングして、将来性のある結果とともにフレーム上のセルを検出し追跡する。 しかし、このような手法には大量の注釈付きデータが必要であり、取得には時間がかかり、しばしば特別なアノテーションを必要とする。 本研究は,アノテートデータの要求を緩和する古典的な追跡・検出パラダイムに基づく新しいアプローチを提案する。 より正確には、細胞形状を配向楕円体として近似し、汎用目的指向オブジェクト検出器を使用して各フレーム内の細胞を識別する。 次に, 楕円が二次元ガウス分布と関連していることを考慮し, 確率距離測定値を用いて時間セル類似性を探索する大域的データアソシエーションアルゴリズムを用いる。 提案手法は,より広範なデータアノテーションを必要とする最先端技術と競合して検出・追跡できることを示す。 私たちのコードは、https://github.com/LucasKirsten/Deep-Cell-Tracking-EBBで利用可能です。

Cell detection and tracking are paramount for bio-analysis. Recent approaches rely on the tracking-by-model evolution paradigm, which usually consists of training end-to-end deep learning models to detect and track the cells on the frames with promising results. However, such methods require extensive amounts of annotated data, which is time-consuming to obtain and often requires specialized annotators. This work proposes a new approach based on the classical tracking-by-detection paradigm that alleviates the requirement of annotated data. More precisely, it approximates the cell shapes as oriented ellipses and then uses generic-purpose oriented object detectors to identify the cells in each frame. We then rely on a global data association algorithm that explores temporal cell similarity using probability distance metrics, considering that the ellipses relate to two-dimensional Gaussian distributions. Our results show that our method can achieve detection and tracking results competitively with state-of-the-art techniques that require considerably more extensive data annotation. Our code is available at: https://github.com/LucasKirsten/Deep-Cell-Tracking-EBB.
翻訳日:2023-10-12 14:49:25 公開日:2023-10-11
# 楕円バウンディングボックスを用いた細胞検出

Cell Tracking-by-detection using Elliptical Bounding Boxes ( http://arxiv.org/abs/2310.04895v1 )

ライセンス: Link先を確認
Lucas N. Kirsten, Cl\'audio R. Jung(参考訳) 細胞の検出と追跡は生物分析において最重要である。 最近のアプローチは、モデルごとの追跡進化パラダイムに依存している。これは通常、エンドツーエンドのディープラーニングモデルをトレーニングして、将来性のある結果とともにフレーム上のセルを検出し追跡する。 しかし、このような手法には大量の注釈付きデータが必要であり、取得には時間がかかり、しばしば特別なアノテーションを必要とする。 本研究は,アノテートデータの要求を緩和する古典的な追跡・検出パラダイムに基づく新しいアプローチを提案する。 より正確には、細胞形状を配向楕円体として近似し、汎用目的指向オブジェクト検出器を使用して各フレーム内の細胞を識別する。 次に, 楕円が二次元ガウス分布と関連していることを考慮し, 確率距離測定値を用いて時間セル類似性を探索する大域的データアソシエーションアルゴリズムを用いる。 提案手法は,より広範なデータアノテーションを必要とする最先端技術と競合して検出・追跡できることを示す。 私たちのコードは、https://github.com/LucasKirsten/Deep-Cell-Tracking-EBBで利用可能です。

Cell detection and tracking are paramount for bio-analysis. Recent approaches rely on the tracking-by-model evolution paradigm, which usually consists of training end-to-end deep learning models to detect and track the cells on the frames with promising results. However, such methods require extensive amounts of annotated data, which is time-consuming to obtain and often requires specialized annotators. This work proposes a new approach based on the classical tracking-by-detection paradigm that alleviates the requirement of annotated data. More precisely, it approximates the cell shapes as oriented ellipses and then uses generic-purpose oriented object detectors to identify the cells in each frame. We then rely on a global data association algorithm that explores temporal cell similarity using probability distance metrics, considering that the ellipses relate to two-dimensional Gaussian distributions. Our results show that our method can achieve detection and tracking results competitively with state-of-the-art techniques that require considerably more extensive data annotation. Our code is available at: https://github.com/LucasKirsten/Deep-Cell-Tracking-EBB.
翻訳日:2023-10-12 14:49:08 公開日:2023-10-11
# 量子コンピューティングと可視化: 破壊的な技術変革

Quantum Computing and Visualization: A Disruptive Technological Change Ahead ( http://arxiv.org/abs/2310.04937v2 )

ライセンス: Link先を確認
E. Wes Bethel and Mercy G. Amankwah and Jan Balewski and Roel Van Beeumen and Daan Camps and Daniel Huang and Talita Perciano(参考訳) この可視化ビューポイントの記事の焦点は、量子コンピューティング(QC)の背景を提供し、可視化がQCを理解するのにどのように役立つかを探求し、将来両方の技術の成長と成熟を伴う可視化にどのように役立つかを検討することである。 急速に進化するテクノロジーの世界において、QCは古典的コンピューティングの成長限界を克服するための有望な経路として現れつつある。 場合によっては、QCプラットフォームは、問題をより迅速に解決したり、既知のどの古典的プラットフォームでも難易度の高いものにすることができる。 古典コンピューティングプラットフォームのさらなるパフォーマンス向上はムーアの法則スケーリングの縮小によって制限されるため、QCプラットフォームは現在のエクサスケールクラスのプラットフォーム分野の潜在的な後継と見なされるかもしれない。 現在のQCハードウェアプラットフォームはまだ規模が限られているが、量子コンピューティングの分野は、ハードウェア能力、量子アルゴリズムを開発するためのソフトウェア環境、次世代の科学者やエンジニアを訓練するための教育プログラムの観点から、堅牢で急速に進歩している。 この記事では、QCの概念を簡潔に紹介した後、可視化の分野とQCの相互作用について検討する。 まず、可視化は、重ね合わせ状態における単一量子ビットの量子状態の表現と、絡み合った状態における多重量子ビットを示す手段を提供することで、qcにおいて重要な役割を果たした。 第2に、ビジュアルデータ探索と分析の分野が、この破壊的新技術によって潜在的に恩恵を受ける可能性がある方法がいくつかある。

The focus of this Visualization Viewpoints article is to provide some background on Quantum Computing (QC), to explore ideas related to how visualization helps in understanding QC, and examine how QC might be useful for visualization with the growth and maturation of both technologies in the future. In a quickly evolving technology landscape, QC is emerging as a promising pathway to overcome the growth limits in classical computing. In some cases, QC platforms offer the potential to vastly outperform the familiar classical computer by solving problems more quickly or that may be intractable on any known classical platform. As further performance gains for classical computing platforms are limited by diminishing Moore's Law scaling, QC platforms might be viewed as a potential successor to the current field of exascale-class platforms. While present-day QC hardware platforms are still limited in scale, the field of quantum computing is robust and rapidly advancing in terms of hardware capabilities, software environments for developing quantum algorithms, and educational programs for training the next generation of scientists and engineers. After a brief introduction to QC concepts, the focus of this article is to explore the interplay between the fields of visualization and QC. First, visualization has played a role in QC by providing the means to show representations of the quantum state of single-qubits in superposition states and multiple-qubits in entangled states. Second, there are a number of ways in which the field of visual data exploration and analysis may potentially benefit from this disruptive new technology though there are challenges going forward.
翻訳日:2023-10-12 14:15:53 公開日:2023-10-11
# 量子コンピューティングと可視化: 破壊的な技術変革

Quantum Computing and Visualization: A Disruptive Technological Change Ahead ( http://arxiv.org/abs/2310.04937v1 )

ライセンス: Link先を確認
E. Wes Bethel and Mercy G. Amankwah and Jan Balewski and Roel Van Beeumen and Daan Camps and Daniel Huang and Talita Perciano(参考訳) この可視化ビューポイントの記事の焦点は、量子コンピューティング(QC)の背景を提供し、可視化がQCを理解するのにどのように役立つかを探求し、将来両方の技術の成長と成熟を伴う可視化にどのように役立つかを検討することである。 急速に進化するテクノロジーの世界において、QCは古典的コンピューティングの成長限界を克服するための有望な経路として現れつつある。 場合によっては、QCプラットフォームは、問題をより迅速に解決したり、既知のどの古典的プラットフォームでも難易度の高いものにすることができる。 古典コンピューティングプラットフォームのさらなるパフォーマンス向上はムーアの法則スケーリングの縮小によって制限されるため、QCプラットフォームは現在のエクサスケールクラスのプラットフォーム分野の潜在的な後継と見なされるかもしれない。 現在のQCハードウェアプラットフォームはまだ規模が限られているが、量子コンピューティングの分野は、ハードウェア能力、量子アルゴリズムを開発するためのソフトウェア環境、次世代の科学者やエンジニアを訓練するための教育プログラムの観点から、堅牢で急速に進歩している。 この記事では、QCの概念を簡潔に紹介した後、可視化の分野とQCの相互作用について検討する。 まず、可視化は、重ね合わせ状態における単一量子ビットの量子状態の表現と、絡み合った状態における多重量子ビットを示す手段を提供することで、qcにおいて重要な役割を果たした。 第2に、ビジュアルデータ探索と分析の分野が、この破壊的新技術によって潜在的に恩恵を受ける可能性がある方法がいくつかある。

The focus of this Visualization Viewpoints article is to provide some background on Quantum Computing (QC), to explore ideas related to how visualization helps in understanding QC, and examine how QC might be useful for visualization with the growth and maturation of both technologies in the future. In a quickly evolving technology landscape, QC is emerging as a promising pathway to overcome the growth limits in classical computing. In some cases, QC platforms offer the potential to vastly outperform the familiar classical computer by solving problems more quickly or that may be intractable on any known classical platform. As further performance gains for classical computing platforms are limited by diminishing Moore's Law scaling, QC platforms might be viewed as a potential successor to the current field of exascale-class platforms. While present-day QC hardware platforms are still limited in scale, the field of quantum computing is robust and rapidly advancing in terms of hardware capabilities, software environments for developing quantum algorithms, and educational programs for training the next generation of scientists and engineers. After a brief introduction to QC concepts, the focus of this article is to explore the interplay between the fields of visualization and QC. First, visualization has played a role in QC by providing the means to show representations of the quantum state of single-qubits in superposition states and multiple-qubits in entangled states. Second, there are a number of ways in which the field of visual data exploration and analysis may potentially benefit from this disruptive new technology though there are challenges going forward.
翻訳日:2023-10-12 14:15:25 公開日:2023-10-11
# Video-Teller:フュージョンとデカップリングによるクロスモーダルジェネレーションの強化

Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling ( http://arxiv.org/abs/2310.04991v3 )

ライセンス: Link先を確認
Haogeng Liu, Qihang Fan, Tingkai Liu, Linjie Yang, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang(参考訳) 本稿では,マルチモーダル融合と細粒度モダリティアライメントを利用した映像言語基盤モデルであるvideo-tellerを提案する。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。 大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。 視覚情報と聴覚情報を効果的に統合するために、Video-Tellerは画像ベースのBLIP-2モデルを構築し、フレームとASRテキスト間で情報を融合するカスケードQ-Formerを導入する。 ビデオ要約をよりよくガイドするために, 逐次qフォーマの出力埋め込みを事前学習されたテキスト自動エンコーダによって作成されたキャプション/要約埋め込みに合わせるように訓練する, 細粒度モーダリティアライメント目標を提案する。 実験の結果,提案するビデオ言語基礎モデルが,映像の正確な理解とコヒーレントで正確な言語記述の生成に有効であることが示された。 微粒なアライメントによってモデルの能力(MSR-VTTでのCIDErスコアの4%改善)が向上し、トレーニングのパラメータが13%、推論のコストがゼロになったことに注意する必要がある。

This paper proposes Video-Teller, a video-language foundation model that leverages multi-modal fusion and fine-grained modality alignment to significantly enhance the video-to-text generation task. Video-Teller boosts the training efficiency by utilizing frozen pretrained vision and language modules. It capitalizes on the robust linguistic capabilities of large language models, enabling the generation of both concise and elaborate video descriptions. To effectively integrate visual and auditory information, Video-Teller builds upon the image-based BLIP-2 model and introduces a cascaded Q-Former which fuses information across frames and ASR texts. To better guide video summarization, we introduce a fine-grained modality alignment objective, where the cascaded Q-Former's output embedding is trained to align with the caption/summary embedding created by a pretrained text auto-encoder. Experimental results demonstrate the efficacy of our proposed video-language foundation model in accurately comprehending videos and generating coherent and precise language descriptions. It is worth noting that the fine-grained alignment enhances the model's capabilities (4% improvement of CIDEr score on MSR-VTT) with only 13% extra parameters in training and zero additional cost in inference.
翻訳日:2023-10-12 13:47:27 公開日:2023-10-11
# Video-Teller:フュージョンとデカップリングによるクロスモーダルジェネレーションの強化

Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling ( http://arxiv.org/abs/2310.04991v2 )

ライセンス: Link先を確認
Haogeng Liu, Qihang Fan, Tingkai Liu, Linjie Yang, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang(参考訳) 本稿では,マルチモーダル融合と細粒度モダリティアライメントを利用した映像言語基盤モデルであるvideo-tellerを提案する。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。 大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。 視覚情報と聴覚情報を効果的に統合するために、Video-Tellerは画像ベースのBLIP-2モデルを構築し、フレームとASRテキスト間で情報を融合するカスケードQ-Formerを導入する。 ビデオ要約をよりよくガイドするために, 逐次qフォーマの出力埋め込みを事前学習されたテキスト自動エンコーダによって作成されたキャプション/要約埋め込みに合わせるように訓練する, 細粒度モーダリティアライメント目標を提案する。 実験の結果,提案するビデオ言語基礎モデルが,映像の正確な理解とコヒーレントで正確な言語記述の生成に有効であることが示された。 微粒なアライメントによってモデルの能力(MSR-VTTでのCIDErスコアの4%改善)が向上し、トレーニングのパラメータが13%、推論のコストがゼロになったことに注意する必要がある。

This paper proposes Video-Teller, a video-language foundation model that leverages multi-modal fusion and fine-grained modality alignment to significantly enhance the video-to-text generation task. Video-Teller boosts the training efficiency by utilizing frozen pretrained vision and language modules. It capitalizes on the robust linguistic capabilities of large language models, enabling the generation of both concise and elaborate video descriptions. To effectively integrate visual and auditory information, Video-Teller builds upon the image-based BLIP-2 model and introduces a cascaded Q-Former which fuses information across frames and ASR texts. To better guide video summarization, we introduce a fine-grained modality alignment objective, where the cascaded Q-Former's output embedding is trained to align with the caption/summary embedding created by a pretrained text auto-encoder. Experimental results demonstrate the efficacy of our proposed video-language foundation model in accurately comprehending videos and generating coherent and precise language descriptions. It is worth noting that the fine-grained alignment enhances the model's capabilities (4% improvement of CIDEr score on MSR-VTT) with only 13% extra parameters in training and zero additional cost in inference.
翻訳日:2023-10-12 13:47:02 公開日:2023-10-11
# Video-Teller:フュージョンとデカップリングによるクロスモーダルジェネレーションの強化

Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling ( http://arxiv.org/abs/2310.04991v1 )

ライセンス: Link先を確認
Haogeng Liu, Qihang Fan, Tingkai Liu, Linjie Yang, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang(参考訳) 本稿では,マルチモーダル融合と細粒度モダリティアライメントを利用した映像言語基盤モデルであるvideo-tellerを提案する。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。 大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。 視覚情報と聴覚情報を効果的に統合するために、Video-Tellerは画像ベースのBLIP-2モデルを構築し、フレームとASRテキスト間で情報を融合するカスケードQ-Formerを導入する。 ビデオ要約をよりよくガイドするために, 逐次qフォーマの出力埋め込みを事前学習されたテキスト自動エンコーダによって作成されたキャプション/要約埋め込みに合わせるように訓練する, 細粒度モーダリティアライメント目標を提案する。 実験の結果,提案するビデオ言語基礎モデルが,映像の正確な理解とコヒーレントで正確な言語記述の生成に有効であることが示された。 微粒なアライメントによってモデルの能力(MSR-VTTでのCIDErスコアの4%改善)が向上し、トレーニングのパラメータが13%、推論のコストがゼロになったことに注意する必要がある。

This paper proposes Video-Teller, a video-language foundation model that leverages multi-modal fusion and fine-grained modality alignment to significantly enhance the video-to-text generation task. Video-Teller boosts the training efficiency by utilizing frozen pretrained vision and language modules. It capitalizes on the robust linguistic capabilities of large language models, enabling the generation of both concise and elaborate video descriptions. To effectively integrate visual and auditory information, Video-Teller builds upon the image-based BLIP-2 model and introduces a cascaded Q-Former which fuses information across frames and ASR texts. To better guide video summarization, we introduce a fine-grained modality alignment objective, where the cascaded Q-Former's output embedding is trained to align with the caption/summary embedding created by a pretrained text auto-encoder. Experimental results demonstrate the efficacy of our proposed video-language foundation model in accurately comprehending videos and generating coherent and precise language descriptions. It is worth noting that the fine-grained alignment enhances the model's capabilities (4% improvement of CIDEr score on MSR-VTT) with only 13% extra parameters in training and zero additional cost in inference.
翻訳日:2023-10-12 13:46:23 公開日:2023-10-11
# Compresso: コンパクトな大規模言語モデルを学ぶコラボレーティブなプロンプティングによる構造化プルーニング

Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models ( http://arxiv.org/abs/2310.05015v1 )

ライセンス: Link先を確認
Song Guo, Jiahang Xu, Li Lyna Zhang, Mao Yang(参考訳) LLM(Large Language Models)の顕著な成功にもかかわらず、大規模なサイズは、特にリソース制約のあるハードウェアにおいて、重大なデプロイメント上の課題を生じさせる。 既存のLLM圧縮手法は量子化に重点を置いているが、トレーニングベースのアプローチやデータ収集のコストが高いため、プルーニングは探索されていない。 単発プルーニング法は, コスト効率が高く, データフリーであるが, LLMプルーニングでは主流となっているが, 構造化プルーニング条件下での性能低下を招いた。 本研究では,コンプレッソと呼ばれるLLMの構造解析のための新しいパラダイムを提案する。 提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。 Compressoは、命令チューニングプロセス中にローランド適応(LoRA)を$L_0$正規化することによる、高価なトレーニングコストとデータ収集の課題に対処する。 そして、LLMとプルーニングアルゴリズムの協調を促進する共同プロンプトを導入して、プルーニングアルゴリズムをさらに強化し、全体的な性能を大幅に向上させる。 この結果、コンプレッソはLLaMA-7Bを5.4Bに引き上げ、オリジナルの性能を維持し、LLaMA-7Bを2.62%上回った。 広範囲な実験により、compressoは様々なスパース率で1ショットのプルーニングベースラインを大きく上回り、2.21%、11.43%、7.04%、および4.81%の共通意味推論、読解理解、mmlu、bbhベンチマークをそれぞれ上回った。

Despite the remarkable success of Large Language Models (LLMs), the massive size poses significant deployment challenges, particularly on resource-constrained hardware. While existing LLM compression methods focus on quantization, pruning remains relatively unexplored due to the high cost of training-based approaches and data collection challenges. One-shot pruning methods, although cost-effective and data-free, have become dominant in LLM pruning, but lead to performance decline under the structured pruning setting. In this work, we introduce a new paradigm for structurally pruning LLMs, called Compresso. Our approach, through the collaboration of the proposed resource-efficient pruning algorithm and the LLM itself, learns optimal pruning decisions during the training process. Compresso addresses the challenges of expensive training costs and data collection by incorporating Low-Rank Adaptation (LoRA) into the $L_0$ regularization during the instruction tuning process. Then, we further augment the pruning algorithm by introducing a collaborative prompt that fosters collaboration between the LLM and the pruning algorithm, significantly boosting the overall performance. To this end, Compresso prunes LLaMA-7B to 5.4B, maintaining original performance and even surpassing LLaMA-7B in reading comprehension by 2.62%. Extensive experiments demonstrate that Compresso significantly outperforms one-shot pruning baselines across various sparsity ratios, achieving up to 2.21%, 11.43%, 7.04%, and 4.81% higher scores on the commonsense reasoning, reading comprehension, MMLU, and BBH benchmarks, respectively.
翻訳日:2023-10-12 13:37:00 公開日:2023-10-11
# ゼロショット・リレーション・エクストラクタとしての大規模言語モデルの再検討

Revisiting Large Language Models as Zero-shot Relation Extractors ( http://arxiv.org/abs/2310.05028v1 )

ライセンス: Link先を確認
Guozheng Li and Peng Wang and Wenjun Ke(参考訳) 関係抽出(re)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを含む。 近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、データやパラメータのチューニングを伴わずにテキストから関係を抽出できることが示されている。 この研究は、ゼロショット関係抽出器としてChatGPTのようなLLMの研究に焦点を当てている。 一方,既存のREプロンプトの欠点を分析し,ゼロショットREを改善するためにチェーン・オブ・シント(CoT)などの最近のプロンプト技術を取り入れようとしている。 本稿では,LLMを用いてRE入力を効率的な質問応答(QA)形式に変換する簡易なプロンプトであるSmise-and-ask(\textsc{SumAsk})プロンプトを提案する。 一方,ゼロショット RE 上での LLM の能力を検討するため,様々なベンチマークや設定に関する総合的な実験を行っている。 具体的には、以下の結果が得られます。 i) \textsc{SumAsk} は、モデルサイズ、ベンチマーク、設定の異なる LLM のパフォーマンスを一貫して改善します。 (二)ChatGPTによるゼロショットプロンプトは、ゼロショット及び完全教師付き手法と比較して、競争力又は優れた結果が得られる。 三 LLMは、重なり合う関係の抽出において有望な性能を提供する。 (四)異なる関係について、そのパフォーマンスは大きく異なる。 小さな言語モデルとは異なり、LLMは問題なし(NoTA)の関係を扱うのに効果的である。

Relation extraction (RE) consistently involves a certain degree of labeled or unlabeled data even if under zero-shot setting. Recent studies have shown that large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt, which provides the possibility of extracting relations from text without any data and parameter tuning. This work focuses on the study of exploring LLMs, such as ChatGPT, as zero-shot relation extractors. On the one hand, we analyze the drawbacks of existing RE prompts and attempt to incorporate recent prompt techniques such as chain-of-thought (CoT) to improve zero-shot RE. We propose the summarize-and-ask (\textsc{SumAsk}) prompting, a simple prompt recursively using LLMs to transform RE inputs to the effective question answering (QA) format. On the other hand, we conduct comprehensive experiments on various benchmarks and settings to investigate the capabilities of LLMs on zero-shot RE. Specifically, we have the following findings: (i) \textsc{SumAsk} consistently and significantly improves LLMs performance on different model sizes, benchmarks and settings; (ii) Zero-shot prompting with ChatGPT achieves competitive or superior results compared with zero-shot and fully supervised methods; (iii) LLMs deliver promising performance in extracting overlapping relations; (iv) The performance varies greatly regarding different relations. Different from small language models, LLMs are effective in handling challenge none-of-the-above (NoTA) relation.
翻訳日:2023-10-12 13:27:41 公開日:2023-10-11
# Compresso: コンパクトな大規模言語モデルを学ぶコラボレーティブなプロンプティングによる構造化プルーニング

Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models ( http://arxiv.org/abs/2310.05015v2 )

ライセンス: Link先を確認
Song Guo, Jiahang Xu, Li Lyna Zhang, Mao Yang(参考訳) LLM(Large Language Models)の顕著な成功にもかかわらず、大規模なサイズは、特にリソース制約のあるハードウェアにおいて、重大なデプロイメント上の課題を生じさせる。 既存のLLM圧縮手法は量子化に重点を置いているが、トレーニングベースのアプローチやデータ収集のコストが高いため、プルーニングは探索されていない。 単発プルーニング法は, コスト効率が高く, データフリーであるが, LLMプルーニングでは主流となっているが, 構造化プルーニング条件下での性能低下を招いた。 本研究では,コンプレッソと呼ばれるLLMの構造解析のための新しいパラダイムを提案する。 提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。 Compressoは、命令チューニングプロセス中にローランド適応(LoRA)を$L_0$正規化することによる、高価なトレーニングコストとデータ収集の課題に対処する。 そして、LLMとプルーニングアルゴリズムの協調を促進する共同プロンプトを導入して、プルーニングアルゴリズムをさらに強化し、全体的な性能を大幅に向上させる。 この結果、コンプレッソはLLaMA-7Bを5.4Bに引き上げ、オリジナルの性能を維持し、LLaMA-7Bを2.62%上回った。 広範囲な実験により、compressoは様々なスパース率で1ショットのプルーニングベースラインを大きく上回り、2.21%、11.43%、7.04%、および4.81%の共通意味推論、読解理解、mmlu、bbhベンチマークをそれぞれ上回った。

Despite the remarkable success of Large Language Models (LLMs), the massive size poses significant deployment challenges, particularly on resource-constrained hardware. While existing LLM compression methods focus on quantization, pruning remains relatively unexplored due to the high cost of training-based approaches and data collection challenges. One-shot pruning methods, although cost-effective and data-free, have become dominant in LLM pruning, but lead to performance decline under the structured pruning setting. In this work, we introduce a new paradigm for structurally pruning LLMs, called Compresso. Our approach, through the collaboration of the proposed resource-efficient pruning algorithm and the LLM itself, learns optimal pruning decisions during the training process. Compresso addresses the challenges of expensive training costs and data collection by incorporating Low-Rank Adaptation (LoRA) into the $L_0$ regularization during the instruction tuning process. Then, we further augment the pruning algorithm by introducing a collaborative prompt that fosters collaboration between the LLM and the pruning algorithm, significantly boosting the overall performance. To this end, Compresso prunes LLaMA-7B to 5.4B, maintaining original performance and even surpassing LLaMA-7B in reading comprehension by 2.62%. Extensive experiments demonstrate that Compresso significantly outperforms one-shot pruning baselines across various sparsity ratios, achieving up to 2.21%, 11.43%, 7.04%, and 4.81% higher scores on the commonsense reasoning, reading comprehension, MMLU, and BBH benchmarks, respectively.
翻訳日:2023-10-12 13:25:12 公開日:2023-10-11
# ゼロショット・リレーション・エクストラクタとしての大規模言語モデルの再検討

Revisiting Large Language Models as Zero-shot Relation Extractors ( http://arxiv.org/abs/2310.05028v3 )

ライセンス: Link先を確認
Guozheng Li and Peng Wang and Wenjun Ke(参考訳) 関係抽出(re)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを含む。 近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、データやパラメータのチューニングを伴わずにテキストから関係を抽出できることが示されている。 この研究は、ゼロショット関係抽出器としてChatGPTのようなLLMの研究に焦点を当てている。 一方,既存のREプロンプトの欠点を分析し,ゼロショットREを改善するためにチェーン・オブ・シント(CoT)などの最近のプロンプト技術を取り入れようとしている。 本稿では,LLMを用いてRE入力を効率的な質問応答(QA)形式に変換する簡易なプロンプトであるSmise-and-ask(\textsc{SumAsk})プロンプトを提案する。 一方,ゼロショット RE 上での LLM の能力を検討するため,様々なベンチマークや設定に関する総合的な実験を行っている。 具体的には、以下の結果が得られます。 i) \textsc{SumAsk} は、モデルサイズ、ベンチマーク、設定の異なる LLM のパフォーマンスを一貫して改善します。 (二)ChatGPTによるゼロショットプロンプトは、ゼロショット及び完全教師付き手法と比較して、競争力又は優れた結果が得られる。 三 LLMは、重なり合う関係の抽出において有望な性能を提供する。 (四)異なる関係について、そのパフォーマンスは大きく異なる。 小さな言語モデルとは異なり、LLMは問題なし(NoTA)の関係を扱うのに効果的である。

Relation extraction (RE) consistently involves a certain degree of labeled or unlabeled data even if under zero-shot setting. Recent studies have shown that large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt, which provides the possibility of extracting relations from text without any data and parameter tuning. This work focuses on the study of exploring LLMs, such as ChatGPT, as zero-shot relation extractors. On the one hand, we analyze the drawbacks of existing RE prompts and attempt to incorporate recent prompt techniques such as chain-of-thought (CoT) to improve zero-shot RE. We propose the summarize-and-ask (\textsc{SumAsk}) prompting, a simple prompt recursively using LLMs to transform RE inputs to the effective question answering (QA) format. On the other hand, we conduct comprehensive experiments on various benchmarks and settings to investigate the capabilities of LLMs on zero-shot RE. Specifically, we have the following findings: (i) \textsc{SumAsk} consistently and significantly improves LLMs performance on different model sizes, benchmarks and settings; (ii) Zero-shot prompting with ChatGPT achieves competitive or superior results compared with zero-shot and fully supervised methods; (iii) LLMs deliver promising performance in extracting overlapping relations; (iv) The performance varies greatly regarding different relations. Different from small language models, LLMs are effective in handling challenge none-of-the-above (NoTA) relation.
翻訳日:2023-10-12 13:14:25 公開日:2023-10-11
# ゼロショット・リレーション・エクストラクタとしての大規模言語モデルの再検討

Revisiting Large Language Models as Zero-shot Relation Extractors ( http://arxiv.org/abs/2310.05028v2 )

ライセンス: Link先を確認
Guozheng Li and Peng Wang and Wenjun Ke(参考訳) 関係抽出(re)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを含む。 近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、データやパラメータのチューニングを伴わずにテキストから関係を抽出できることが示されている。 この研究は、ゼロショット関係抽出器としてChatGPTのようなLLMの研究に焦点を当てている。 一方,既存のREプロンプトの欠点を分析し,ゼロショットREを改善するためにチェーン・オブ・シント(CoT)などの最近のプロンプト技術を取り入れようとしている。 本稿では,LLMを用いてRE入力を効率的な質問応答(QA)形式に変換する簡易なプロンプトであるSmise-and-ask(\textsc{SumAsk})プロンプトを提案する。 一方,ゼロショット RE 上での LLM の能力を検討するため,様々なベンチマークや設定に関する総合的な実験を行っている。 具体的には、以下の結果が得られます。 i) \textsc{SumAsk} は、モデルサイズ、ベンチマーク、設定の異なる LLM のパフォーマンスを一貫して改善します。 (二)ChatGPTによるゼロショットプロンプトは、ゼロショット及び完全教師付き手法と比較して、競争力又は優れた結果が得られる。 三 LLMは、重なり合う関係の抽出において有望な性能を提供する。 (四)異なる関係について、そのパフォーマンスは大きく異なる。 小さな言語モデルとは異なり、LLMは問題なし(NoTA)の関係を扱うのに効果的である。

Relation extraction (RE) consistently involves a certain degree of labeled or unlabeled data even if under zero-shot setting. Recent studies have shown that large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt, which provides the possibility of extracting relations from text without any data and parameter tuning. This work focuses on the study of exploring LLMs, such as ChatGPT, as zero-shot relation extractors. On the one hand, we analyze the drawbacks of existing RE prompts and attempt to incorporate recent prompt techniques such as chain-of-thought (CoT) to improve zero-shot RE. We propose the summarize-and-ask (\textsc{SumAsk}) prompting, a simple prompt recursively using LLMs to transform RE inputs to the effective question answering (QA) format. On the other hand, we conduct comprehensive experiments on various benchmarks and settings to investigate the capabilities of LLMs on zero-shot RE. Specifically, we have the following findings: (i) \textsc{SumAsk} consistently and significantly improves LLMs performance on different model sizes, benchmarks and settings; (ii) Zero-shot prompting with ChatGPT achieves competitive or superior results compared with zero-shot and fully supervised methods; (iii) LLMs deliver promising performance in extracting overlapping relations; (iv) The performance varies greatly regarding different relations. Different from small language models, LLMs are effective in handling challenge none-of-the-above (NoTA) relation.
翻訳日:2023-10-12 13:13:58 公開日:2023-10-11
# 電池寿命予測におけるセル内差とセル間差の学習

Learning Intra- and Inter-Cell Differences for Accurate Battery Lifespan Prediction across Diverse Conditions ( http://arxiv.org/abs/2310.05052v2 )

ライセンス: Link先を確認
Han Zhang, Yuqi Li, Shun Zheng, Ziheng Lu, Xiaofan Gui, Wei Xu, Jiang Bian(参考訳) バッテリ寿命予測は、バッテリ研究開発にとって重要な実用的価値である。 現在、多くのデータ駆動モデルは、寿命を予測するために特定の電池からの初期の電気信号に依存している。 一般的な欠点は、ほとんどの既存手法が特定の老化条件に基づいて開発されており、モデルの性能を制限するだけでなく、様々な条件下での劣化予測の有効性を低下させることである。 その結果、これらのモデルは、他の条件下で利用可能な豊富な歴史的データから完全に恩恵を受けることを見逃すことが多い。 本稿では, 対象電池の電気信号と基準電池の電気信号の違いを, 材料や経年条件によらず明示的に把握し, 目標電池の寿命を予測するアプローチを提案する。 このセル間の差異を通じて、機能空間を拡大するだけでなく、普遍的なバッテリー寿命予測フレームワークの道を開く。 注目すべきは、セル間差とセル内差を組み合わせたモデルが、さまざまな条件に照らし合わせ、すべてのアクセス可能なデータセットを使用して効率と精度を目立たせることだ。 このアプローチの必須の応用は、古い電池のデータを有効に活用し、新しい電池が過去の電池から得た洞察を活かすことである。 この作業は、バッテリデータの利用戦略を強化するだけでなく、将来的にはよりスマートなバッテリ管理システムのステージも設定する。

Battery life prediction holds significant practical value for battery research and development. Currently, many data-driven models rely on early electrical signals from specific target batteries to predict their lifespan. A common shortfall is that most existing methods are developed based on specific aging conditions, which not only limits their model's capability but also diminishes their effectiveness in predicting degradation under varied conditions. As a result, these models often miss out on fully benefiting from the rich historical data available under other conditions. Here, to address above, we introduce an approach that explicitly captures differences between electrical signals of a target battery and a reference battery, irrespective of their materials and aging conditions, to forecast the target battery life. Through this inter-cell difference, we not only enhance the feature space but also pave the way for a universal battery life prediction framework. Remarkably, our model that combines the inter- and intra-cell differences shines across diverse conditions, standing out in its efficiency and accuracy using all accessible datasets. An essential application of our approach is its capability to leverage data from older batteries effectively, enabling newer batteries to capitalize on insights gained from past batteries. This work not only enriches the battery data utilization strategy but also sets the stage for smarter battery management system in the future.
翻訳日:2023-10-12 13:06:32 公開日:2023-10-11
# 電池寿命予測におけるセル内差とセル間差の学習

Learning Intra- and Inter-Cell Differences for Accurate Battery Lifespan Prediction across Diverse Conditions ( http://arxiv.org/abs/2310.05052v1 )

ライセンス: Link先を確認
Han Zhang, Yuqi Li, Shun Zheng, Ziheng Lu, Xiaofan Gui, Wei Xu, Jiang Bian(参考訳) バッテリ寿命予測は、バッテリ研究開発にとって重要な実用的価値である。 現在、多くのデータ駆動モデルは、寿命を予測するために特定の電池からの初期の電気信号に依存している。 一般的な欠点は、ほとんどの既存手法が特定の老化条件に基づいて開発されており、モデルの性能を制限するだけでなく、様々な条件下での劣化予測の有効性を低下させることである。 その結果、これらのモデルは、他の条件下で利用可能な豊富な歴史的データから完全に恩恵を受けることを見逃すことが多い。 本稿では, 対象電池の電気信号と基準電池の電気信号の違いを, 材料や経年条件によらず明示的に把握し, 目標電池の寿命を予測するアプローチを提案する。 このセル間の差異を通じて、機能空間を拡大するだけでなく、普遍的なバッテリー寿命予測フレームワークの道を開く。 注目すべきは、セル間差とセル内差を組み合わせたモデルが、さまざまな条件に照らし合わせ、すべてのアクセス可能なデータセットを使用して効率と精度を目立たせることだ。 このアプローチの必須の応用は、古い電池のデータを有効に活用し、新しい電池が過去の電池から得た洞察を活かすことである。 この作業は、バッテリデータの利用戦略を強化するだけでなく、将来的にはよりスマートなバッテリ管理システムのステージも設定する。

Battery life prediction holds significant practical value for battery research and development. Currently, many data-driven models rely on early electrical signals from specific target batteries to predict their lifespan. A common shortfall is that most existing methods are developed based on specific aging conditions, which not only limits their model's capability but also diminishes their effectiveness in predicting degradation under varied conditions. As a result, these models often miss out on fully benefiting from the rich historical data available under other conditions. Here, to address above, we introduce an approach that explicitly captures differences between electrical signals of a target battery and a reference battery, irrespective of their materials and aging conditions, to forecast the target battery life. Through this inter-cell difference, we not only enhance the feature space but also pave the way for a universal battery life prediction framework. Remarkably, our model that combines the inter- and intra-cell differences shines across diverse conditions, standing out in its efficiency and accuracy using all accessible datasets. An essential application of our approach is its capability to leverage data from older batteries effectively, enabling newer batteries to capitalize on insights gained from past batteries. This work not only enriches the battery data utilization strategy but also sets the stage for smarter battery management system in the future.
翻訳日:2023-10-12 13:06:09 公開日:2023-10-11
# InstructDET:一般化命令による参照対象検出の多様化

InstructDET: Diversifying Referring Object Detection with Generalized Instructions ( http://arxiv.org/abs/2310.05136v3 )

ライセンス: Link先を確認
Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song, Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song(参考訳) InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。 参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。 各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。 共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。 構築したデータセットをInDETと名付けます。 基礎モデルからのイメージ、bbx、一般化された命令を含む。 我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。 InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。 基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。

We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions.
翻訳日:2023-10-12 12:15:14 公開日:2023-10-11
# InstructDET:一般化命令による参照対象検出の多様化

InstructDET: Diversifying Referring Object Detection with Generalized Instructions ( http://arxiv.org/abs/2310.05136v2 )

ライセンス: Link先を確認
Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song, Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song(参考訳) InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。 参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。 各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。 共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。 構築したデータセットをInDETと名付けます。 基礎モデルからのイメージ、bbx、一般化された命令を含む。 我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。 InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。 基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。

We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions.
翻訳日:2023-10-12 12:14:47 公開日:2023-10-11
# InstructDET:一般化命令による参照対象検出の多様化

InstructDET: Diversifying Referring Object Detection with Generalized Instructions ( http://arxiv.org/abs/2310.05136v1 )

ライセンス: Link先を確認
Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song, Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song(参考訳) InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。 参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。 各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。 共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。 構築したデータセットをInDETと名付けます。 基礎モデルからのイメージ、bbx、一般化された命令を含む。 我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。 InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。 基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。

We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions.
翻訳日:2023-10-12 12:14:20 公開日:2023-10-11
# モデルベース強化学習のためのマルチタイムステップモデル

Multi-timestep models for Model-based Reinforcement Learning ( http://arxiv.org/abs/2310.05672v2 )

ライセンス: Link先を確認
Abdelhakim Benechehab, Giuseppe Paolo, Albert Thomas, Maurizio Filippone, Bal\'azs K\'egl(参考訳) モデルベース強化学習(mbrl)では、ほとんどのアルゴリズムはデータに基づいて学習されたワンステップダイナミクスモデルからの軌道をシミュレートする。 このアプローチの批判的な課題は、軌道の長さが大きくなるにつれて1ステップの予測誤差を複合することである。 本稿では,マルチタイムステップの目標を用いて,ワンステップモデルのトレーニングを行う。 我々の目標は、様々な将来の地平線における損失関数(例えば負の対に似た)の重み付き和である。 私たちは様々な重みのプロファイルを探索し、テストします。 指数関数的に減衰する重みは、長い水平R2スコアを大幅に改善するモデルにつながる。 この改善は、モデルがノイズデータで評価された場合に特に顕著である。 最後に,ソフトアクター・クリティカル(SAC)エージェントを純粋バッチ強化学習(RL)および反復バッチRLシナリオに使用することにより,我々のマルチステップモデルが標準ワンステップモデルより優れ,あるいは適合していることを発見した。 これは特に、実世界のアプリケーションにおける我々のアプローチの可能性を強調した、考慮された環境のノイズのあるバリエーションで明らかだった。

In model-based reinforcement learning (MBRL), most algorithms rely on simulating trajectories from one-step dynamics models learned on data. A critical challenge of this approach is the compounding of one-step prediction errors as length of the trajectory grows. In this paper we tackle this issue by using a multi-timestep objective to train one-step models. Our objective is a weighted sum of a loss function (e.g., negative log-likelihood) at various future horizons. We explore and test a range of weights profiles. We find that exponentially decaying weights lead to models that significantly improve the long-horizon R2 score. This improvement is particularly noticeable when the models were evaluated on noisy data. Finally, using a soft actor-critic (SAC) agent in pure batch reinforcement learning (RL) and iterated batch RL scenarios, we found that our multi-timestep models outperform or match standard one-step models. This was especially evident in a noisy variant of the considered environment, highlighting the potential of our approach in real-world applications.
翻訳日:2023-10-12 11:26:50 公開日:2023-10-11
# クエリベース演算子ネットワークによる振動周波数応答予測

Vibroacoustic Frequency Response Prediction with Query-based Operator Networks ( http://arxiv.org/abs/2310.05469v2 )

ライセンス: Link先を確認
Jan van Delden, Julius Schultz, Christopher Blech, Sabine C. Langer, Timo L\"uddecke(参考訳) 航空機や車、家などの機械構造における振動波の伝播を理解することは、ユーザーの健康と快適性を確保するために重要である。 このようなシステムを分析するため、設計者や技術者は、有限要素法のような高価な数値シミュレーションによって計算される周波数領域の動的応答を主に検討した。 対照的に、データ駆動サロゲートモデルはこれらのシミュレーションを高速化し、設計最適化、不確実性定量化、設計空間探索といったタスクを容易にする。 本研究では, 振動板の周波数応答を推定し, ビーディングの形状が変化する場合の周波数応答を推定する。 このベンチマークは12,000のプレート測地と関連する数値解を持ち、予測品質の定量化のための評価指標を導入する。 周波数応答予測課題に対処するために,プレート測地を周波数応答関数にマッピングするように訓練した新しい周波数クエリー演算子モデルを提案する。 形状符号化のための演算子学習と暗黙モデルの統合により,周波数応答の共振ピークの予測を効果的に行う。 我々はこの手法を振動板ベンチマークで評価し、deeponets、フーリエニューラルネットワークオペレーター、より伝統的なニューラルネットワークアーキテクチャよりも優れていることを突き止めた。 コードとデータセットはhttps://eckerlab.org/code/delden2023_plateから利用できる。

Understanding vibroacoustic wave propagation in mechanical structures like airplanes, cars and houses is crucial to ensure health and comfort of their users. To analyze such systems, designers and engineers primarily consider the dynamic response in the frequency domain, which is computed through expensive numerical simulations like the finite element method. In contrast, data-driven surrogate models offer the promise of speeding up these simulations, thereby facilitating tasks like design optimization, uncertainty quantification, and design space exploration. We present a structured benchmark for a representative vibroacoustic problem: Predicting the frequency response for vibrating plates with varying forms of beadings. The benchmark features a total of 12,000 plate geometries with an associated numerical solution and introduces evaluation metrics to quantify the prediction quality. To address the frequency response prediction task, we propose a novel frequency query operator model, which is trained to map plate geometries to frequency response functions. By integrating principles from operator learning and implicit models for shape encoding, our approach effectively addresses the prediction of resonance peaks of frequency responses. We evaluate the method on our vibrating-plates benchmark and find that it outperforms DeepONets, Fourier Neural Operators and more traditional neural network architectures. The code and dataset are available from https://eckerlab.org/code/delden2023_plate.
翻訳日:2023-10-12 11:26:33 公開日:2023-10-11
# 画像に基づく3次元物体検出の公平かつ包括的比較に向けて

Towards Fair and Comprehensive Comparisons for Image-Based 3D Object Detection ( http://arxiv.org/abs/2310.05447v2 )

ライセンス: Link先を確認
Xinzhu Ma, Yongtao Wang, Yinmin Zhang, Zhiyi Xia, Yuan Meng, Zhihui Wang, Haojie Li, Wanli Ouyang(参考訳) 本研究では,モジュール設計のコードベースを構築し,強固なトレーニングレシピを定式化し,誤り診断ツールボックスの設計を行い,画像に基づく3次元物体検出の現在の方法について議論する。 特に、2Dオブジェクト検出のような他の高度に成熟したタスクとは異なり、画像ベースの3Dオブジェクト検出のコミュニティはいまだ進化しており、様々なトレーニングレシピやトリックを採用する方法が不公平な評価と比較をもたらす。 さらに悪いことに、これらのトリックは、提案された設計をパフォーマンスに圧倒し、誤った結論に至る可能性がある。 この問題に対処するため、モジュール設計のコードベースを構築し、コミュニティのための統一的なトレーニング標準を定式化しています。 さらに,検出モデルの詳細な特徴量を測定するためのエラー診断ツールボックスも設計する。 これらのツールを用いて、さまざまな設定下で現在の手法を詳細に分析し、KITTI-3DデータセットとnuScenesデータセットの結論の相違など、いくつかのオープンな質問について議論する。 この研究が、画像に基づく3Dオブジェクト検出の今後の研究を促進することを期待している。 我々のコードは \url{https://github.com/OpenGVLab/3dodi} でリリースされる。

In this work, we build a modular-designed codebase, formulate strong training recipes, design an error diagnosis toolbox, and discuss current methods for image-based 3D object detection. In particular, different from other highly mature tasks, e.g., 2D object detection, the community of image-based 3D object detection is still evolving, where methods often adopt different training recipes and tricks resulting in unfair evaluations and comparisons. What is worse, these tricks may overwhelm their proposed designs in performance, even leading to wrong conclusions. To address this issue, we build a module-designed codebase and formulate unified training standards for the community. Furthermore, we also design an error diagnosis toolbox to measure the detailed characterization of detection models. Using these tools, we analyze current methods in-depth under varying settings and provide discussions for some open questions, e.g., discrepancies in conclusions on KITTI-3D and nuScenes datasets, which have led to different dominant methods for these datasets. We hope that this work will facilitate future research in image-based 3D object detection. Our codes will be released at \url{https://github.com/OpenGVLab/3dodi}
翻訳日:2023-10-12 11:26:10 公開日:2023-10-11
# 大規模言語モデル事前学習のための効率的なパラメータ探索と並列化のためのスケーリング研究

Scaling Studies for Efficient Parameter Search and Parallelism for Large Language Model Pre-training ( http://arxiv.org/abs/2310.05350v2 )

ライセンス: Link先を確認
Michael Benington, Leo Phan, Chris Pierre Paul, Evan Shoemaker, Priyanka Ranade, Torstein Collett, Grant Hodgson Perez, Christopher Krieger(参考訳) aiアクセラレータの処理能力とメモリの制約は、マシンラーニングのワークロード(トレーニングや推論など)が望ましい時間枠内で実行可能なスケールに大きく影響します。 最先端のトランスフォーマーベースのモデルをトレーニングするには、gpuによる高速インターコネクトを備えた高性能コンピュータを使用する必要がある。 データセットとモデルのサイズが拡大するにつれて、AIの計算要求とメモリ要求も増加し続ける。 これらの課題は、分散アルゴリズムと回路ベースの最適化技術の開発に影響を与え、マルチノード環境で段階的にモデルをスケールし、ニューラルネットワークのコスト関数を効率的に最小化し、より高速な収束を実現し、より多くのパラメータを利用可能なリソースに格納することができる。 本研究では,5億8000万個のパラメータから13億個のパラメータを含む5個のエンコーダデコーダLLMのデータの処理と事前学習を最適化するための並列および分散機械学習アルゴリズムの開発に焦点を当てた。 我々は,3つのML並列化手法の関係を定量化するための詳細な研究を行い,特にMicrosoft DeepSpeed Zero Redundancy Optimizer (ZeRO) の段階について検討した。

AI accelerator processing capabilities and memory constraints largely dictate the scale in which machine learning workloads (e.g., training and inference) can be executed within a desirable time frame. Training a state of the art, transformer-based model today requires use of GPU-accelerated high performance computers with high-speed interconnects. As datasets and models continue to increase in size, computational requirements and memory demands for AI also continue to grow. These challenges have inspired the development of distributed algorithm and circuit-based optimization techniques that enable the ability to progressively scale models in multi-node environments, efficiently minimize neural network cost functions for faster convergence, and store more parameters into a set number of available resources. In our research project, we focus on parallel and distributed machine learning algorithm development, specifically for optimizing the data processing and pre-training of a set of 5 encoder-decoder LLMs, ranging from 580 million parameters to 13 billion parameters. We performed a fine-grained study to quantify the relationships between three ML parallelism methods, specifically exploring Microsoft DeepSpeed Zero Redundancy Optimizer (ZeRO) stages.
翻訳日:2023-10-12 11:25:48 公開日:2023-10-11
# セマンティックセグメンテーションにおける古典的テスト時間適応手法の批判的考察

A Critical Look at Classic Test-Time Adaptation Methods in Semantic Segmentation ( http://arxiv.org/abs/2310.05341v3 )

ライセンス: Link先を確認
Chang'an Yi, Haotian Chen, Yifan Zhang, Yonghui Xu, Lizhen Cui(参考訳) テスト時間適応(TTA)は、当初トレーニングデータに基づいてトレーニングされたモデルを、テストデータの潜在的分散シフトに適応することを目的としている。 しかし、既存のTTA研究の多くは分類作業に重点を置いており、意味的セグメンテーションのためのTTAの探索において顕著なギャップを残している。 この分類に重点を置いていると、多くの新参者や技術者は、分類用に設計された古典的なTTAメソッドがセグメント化に直接適用できると誤って仮定するかもしれない。 それでも、この仮定は未検証のままであり、オープンな疑問を呈している。 そこで我々は,セグメント化TTAの独特な課題を明らかにし,従来のTTA戦略がこの課題に効果的に対処できるかどうかを,体系的に実証研究する。 我々の総合的な結果は、3つの重要な観察につながった。 まず、分類ttaで一般的に使用される古典的なバッチノルム更新戦略は、わずかなパフォーマンス改善しか与えず、場合によっては結果に悪影響を及ぼす場合もある。 バッチ再正規化のような高度な分布推定手法を適用しても、問題は未解決のままである。 第二に、教師学生方式は、ノイズの多い擬似ラベルの存在下でセグメンテーションTTAの訓練安定性を向上させる。 しかし、TTAを使わずにオリジナルのモデルと比べて直接的に性能が向上することはない。 第3に、セグメンテーションTTAは、TTAの分類よりもかなり複雑である、厳しい長い尾の不均衡問題に悩まされる。 この長尾チャレンジは、擬似ラベルの精度が高い場合でもセグメンテーションTTA性能に大きな影響を与える。 これらの観測から,分割のためのTTAは重要な課題であり,従来のTTA手法ではこの問題にうまく対処できないと結論付けた。

Test-time adaptation (TTA) aims to adapt a model, initially trained on training data, to potential distribution shifts in the test data. Most existing TTA studies, however, focus on classification tasks, leaving a notable gap in the exploration of TTA for semantic segmentation. This pronounced emphasis on classification might lead numerous newcomers and engineers to mistakenly assume that classic TTA methods designed for classification can be directly applied to segmentation. Nonetheless, this assumption remains unverified, posing an open question. To address this, we conduct a systematic, empirical study to disclose the unique challenges of segmentation TTA, and to determine whether classic TTA strategies can effectively address this task. Our comprehensive results have led to three key observations. First, the classic batch norm updating strategy, commonly used in classification TTA, only brings slight performance improvement, and in some cases it might even adversely affect the results. Even with the application of advanced distribution estimation techniques like batch renormalization, the problem remains unresolved. Second, the teacher-student scheme does enhance training stability for segmentation TTA in the presence of noisy pseudo-labels. However, it cannot directly result in performance improvement compared to the original model without TTA. Third, segmentation TTA suffers a severe long-tailed imbalance problem, which is substantially more complex than that in TTA for classification. This long-tailed challenge significantly affects segmentation TTA performance, even when the accuracy of pseudo-labels is high. In light of these observations, we conclude that TTA for segmentation presents significant challenges, and simply using classic TTA methods cannot address this problem well.
翻訳日:2023-10-12 11:25:29 公開日:2023-10-11
# パーソナライズされたオウムはより危険か? 対話システムにおけるペルソナバイアスの評価

Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems ( http://arxiv.org/abs/2310.05280v2 )

ライセンス: Link先を確認
Yixin Wan, Jieyu Zhao, Aman Chadha, Nanyun Peng, Kai-Wei Chang(参考訳) 大規模言語モデルの最近の進歩は、会話における一般的な人格や特定の人格を模倣するなど、フリーフォームの指示に従うことを可能にする。 一般的なパーソナラは人口統計グループ(例えばアジア人)の個人を指し、特定のパーソナラは歴史的人物の実際の名前である。 ペルソナの採用により、対話システムはユーザに対してより魅力的で親しみやすいものになる一方で、モデル応答における社会的バイアスを悪化させ、さらにユーザとのインタラクションを通じて社会的な危害を生じさせる潜在的なリスクもある。 本稿では,有害な対話モデル行動の異なる人格的適応に対する感受性を規定する「人格バイアス」を体系的に研究する。 我々は、ペルソナバイアスを有害表現と有害合意のバイアスに分類し、攻撃性、有害継続性、配慮、ステレオタイプ合意、有害合意の5つの側面におけるパーソナバイアスを測定する包括的な評価枠組みを確立する。 さらに,汎用型および特定型モデルペルソナの包括的リストを持つ体系化されたペルソナデータセットであるuniversalpersonaを用いて,パーソナバイアスを総合的に調査する。 blender、chatgpt、alpaca、vicunaの4つの異なるモデルのベンチマークによって、これらの対話システムにおける重要なペルソナバイアスが明らかになった。

Recent advancements in Large Language Models empower them to follow freeform instructions, including imitating generic or specific demographic personas in conversations. Generic personas refer to an individual from a demographic group (e.g. an Asian person), whereas specific personas can be actual names of historical figures. While the adoption of personas allows dialogue systems to be more engaging and approachable to users, it also carries the potential risk of exacerbating social biases in model responses, further causing societal harms through interactions with users. In this paper, we systematically study "persona biases", which we define to be the sensitivity of harmful dialogue model behaviors to different persona adoptions. We categorize persona biases into biases in harmful expression and harmful agreement, as well as establish a comprehensive evaluation framework to measure persona biases in five aspects: Offensiveness, Toxic Continuation, Regard, Stereotype Agreement, and Toxic Agreement. Additionally, we propose to comprehensively investigate persona biases through experimenting with UniversalPersona, a systematized persona dataset with a comprehensive list of both generic and specific model personas. Through benchmarking on four different models, including Blender, ChatGPT, Alpaca, and Vicuna, our study uncovers significant persona biases in these dialogue systems.Findings of our study underscores the immediate need to revisit the use of persona traits in dialogue agents, to ensure their safe application.
翻訳日:2023-10-12 11:25:00 公開日:2023-10-11
# メタCoT:大規模言語モデルを用いた混合タスクシナリオにおける一般化可能なチェーン・オブ・サート・プロンプト

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models ( http://arxiv.org/abs/2310.06692v2 )

ライセンス: Link先を確認
Anni Zou, Zhuosheng Zhang, Hai Zhao, Xiangru Tang(参考訳) 大規模言語モデル (LLM) は、中間的推論連鎖が解を導出する根拠となるように、チェーン・オブ・シンクレット (CoT) のプロンプトを活用することで、顕著な推論能力を示した。 しかし、現在のCoTメソッドは単に一歩ずつ考えるような一般的なプロンプトを使うか、あるいは手作りのタスク固有のデモに強く依存して、パフォーマンスと一般化の間に不可避のギャップを埋める。 このギャップを埋めるために,入力のタイプが不明な混合タスクシナリオにおいて,一般化可能なCoTプロンプト手法であるMeta-CoTを提案する。 Meta-CoTはまず、入力された質問に基づいてシナリオを分類し、その後、対応するデータプールから様々なデモを自動パターンで構築する。 meta-cotは10のベンチマーク推論タスクと優れた一般化能力を同時に享受する。 特にMeta-CoTはSVAMP(93.7%)の最先端の結果を、追加のプログラム支援手法なしで達成している。 5つの分散データセットに関するさらなる実験は、meta-cotの安定性と汎用性を検証する。

Large language models (LLMs) have unveiled remarkable reasoning capabilities by exploiting chain-of-thought (CoT) prompting, which generates intermediate reasoning chains to serve as the rationale for deriving the answer. However, current CoT methods either simply employ general prompts such as Let's think step by step, or heavily rely on handcrafted task-specific demonstrations to attain preferable performances, thereby engendering an inescapable gap between performance and generalization. To bridge this gap, we propose Meta-CoT, a generalizable CoT prompting method in mixed-task scenarios where the type of input questions is unknown. Meta-CoT firstly categorizes the scenario based on the input question and subsequently constructs diverse demonstrations from the corresponding data pool in an automatic pattern. Meta-CoT simultaneously enjoys remarkable performances on ten public benchmark reasoning tasks and superior generalization capabilities. Notably, Meta-CoT achieves the state-of-the-art result on SVAMP (93.7%) without any additional program-aided methods. Our further experiments on five out-of-distribution datasets verify the stability and generality of Meta-CoT.
翻訳日:2023-10-12 11:16:20 公開日:2023-10-11
# 多様なフィードバックを伴う構成型大規模言語モデル

Constructive Large Language Models Alignment with Diverse Feedback ( http://arxiv.org/abs/2310.06450v2 )

ライセンス: Link先を確認
Tianshu Yu, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang, Yongbin Li(参考訳) 大規模言語モデル(LLMs)に関する最近の研究では、有害なコンテンツの影響を減らすために、これらのモデルを人的価値と整合させることに重点が置かれている。 しかしながら、現在のアライメント手法は、好み、注釈付きラベル、自然言語批判など、人間のフィードバックの特異な形態にのみ依存し、これらのフィードバックタイプを組み合わせる潜在的な利点を見越す。 この制限は、十分なトレーニングデータが利用できる場合でも、最適以下のパフォーマンスをもたらす。 本稿では,コンストラクティブ・アンド・ディバース・フィードバック(CDF)を,コンストラクティブ・ラーニング理論に着想を得て,LCMアライメントを向上させる新しい手法として紹介する。 私たちのアプローチでは、トレーニングデータセット内のさまざまな難易度の問題に合わせた3種類のフィードバックを収集する。 具体的には,簡単な問題に対する批判的フィードバック,中級問題に対する洗練フィードバック,難しい問題に対する選好フィードバックを活用している。 この多様なフィードバックでモデルをトレーニングすることで、より少ないトレーニングデータを用いて、アライメント性能の向上を実現します。 CDFの有効性を評価するため,質問応答,ダイアログ生成,テキスト要約という3つの下流タスクにおいて,従来の手法と比較して評価を行った。 実験の結果,CDFは訓練データセットが小さい場合でも優れた性能を発揮することが示された。

In recent research on large language models (LLMs), there has been a growing emphasis on aligning these models with human values to reduce the impact of harmful content. However, current alignment methods often rely solely on singular forms of human feedback, such as preferences, annotated labels, or natural language critiques, overlooking the potential advantages of combining these feedback types. This limitation leads to suboptimal performance, even when ample training data is available. In this paper, we introduce Constructive and Diverse Feedback (CDF) as a novel method to enhance LLM alignment, inspired by constructivist learning theory. Our approach involves collecting three distinct types of feedback tailored to problems of varying difficulty levels within the training dataset. Specifically, we exploit critique feedback for easy problems, refinement feedback for medium problems, and preference feedback for hard problems. By training our model with this diversified feedback, we achieve enhanced alignment performance while using less training data. To assess the effectiveness of CDF, we evaluate it against previous methods in three downstream tasks: question answering, dialog generation, and text summarization. Experimental results demonstrate that CDF achieves superior performance even with a smaller training dataset.
翻訳日:2023-10-12 11:15:59 公開日:2023-10-11
# aiインキュベーションのためのコンテキストバンディットによるアンサンブルアクティブラーニング

Ensemble Active Learning by Contextual Bandits for AI Incubation in Manufacturing ( http://arxiv.org/abs/2310.06306v2 )

ライセンス: Link先を確認
Yingyan Zeng, Xiaoyu Chen, Ran Jin(参考訳) 教師付き学習者のためのデータ品質を維持するために、ストリーミングデータ取得におけるアノテーションの努力を省くことは難しいが重要だ。 本稿では,文脈的盗賊によるアノテーションのサンプルを積極的に取得するためのアンサンブル能動的学習法を提案し,探索・探索バランスを強制し,AIモデリング性能の向上につながる。

It is challenging but important to save annotation efforts in streaming data acquisition to maintain data quality for supervised learning base learners. We propose an ensemble active learning method to actively acquire samples for annotation by contextual bandits, which is will enforce the exploration-exploitation balance and leading to improved AI modeling performance.
翻訳日:2023-10-12 11:15:38 公開日:2023-10-11
# musechat:ビデオのための会話型音楽推薦システム

MuseChat: A Conversational Music Recommendation System for Videos ( http://arxiv.org/abs/2310.06282v2 )

ライセンス: Link先を確認
Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang(参考訳) 本研究では,イノベーティブな対話型音楽レコメンデーションシステムMuseChatを紹介する。 このユニークなプラットフォームは、インタラクティブなユーザーエンゲージメントを提供するだけでなく、入力ビデオ用にカスタマイズされた音楽も提案するので、ユーザーは自分の楽曲を洗練し、パーソナライズすることができる。 対照的に、以前のシステムはコンテンツ互換性を重視しており、しばしばユーザーの個人の好みのニュアンスを見落としていた。 例えば、すべてのデータセットは、基本的な音楽とビデオのペアリングや、テキストによる音楽記述とのペアリングのみを提供する。 このギャップに対処するため、我々の研究は3つの貢献をしている。 まず,事前学習された音楽タグとアーティスト情報を活用した,ユーザとレコメンデーションシステムとの双方向インタラクションをシミュレートする会話合成手法を考案する。 このインタラクションでは,ユーザがシステムにビデオを送ると,適切な楽曲を合理的に提案する。 その後、ユーザは音楽の好みを伝達し、システムは推論で洗練された音楽レコメンデーションを提示する。 第2に,ビデオからの視覚的な手がかりと一致させたり,視覚情報を調和させたり,従来推奨されていた音楽からのフィードバックやユーザのテキスト入力などにより,音楽にマッチするマルチモーダルレコメンデーションエンジンを導入する。 第3に、音楽表現とテキストデータをLarge Language Model(Vicuna-7B)でブリッジする。 このアライメントは、musechatに音楽のレコメンデーションと、その根拠となる推論を人間のコミュニケーションに似た方法で提供させる。 評価の結果,MuseChatは音楽検索タスクにおける既存の最先端モデルを超え,自然言語フレームワーク内でのレコメンデーションプロセスの統合の先駆けとなった。

We introduce MuseChat, an innovative dialog-based music recommendation system. This unique platform not only offers interactive user engagement but also suggests music tailored for input videos, so that users can refine and personalize their music selections. In contrast, previous systems predominantly emphasized content compatibility, often overlooking the nuances of users' individual preferences. For example, all the datasets only provide basic music-video pairings or such pairings with textual music descriptions. To address this gap, our research offers three contributions. First, we devise a conversation-synthesis method that simulates a two-turn interaction between a user and a recommendation system, which leverages pre-trained music tags and artist information. In this interaction, users submit a video to the system, which then suggests a suitable music piece with a rationale. Afterwards, users communicate their musical preferences, and the system presents a refined music recommendation with reasoning. Second, we introduce a multi-modal recommendation engine that matches music either by aligning it with visual cues from the video or by harmonizing visual information, feedback from previously recommended music, and the user's textual input. Third, we bridge music representations and textual data with a Large Language Model(Vicuna-7B). This alignment equips MuseChat to deliver music recommendations and their underlying reasoning in a manner resembling human communication. Our evaluations show that MuseChat surpasses existing state-of-the-art models in music retrieval tasks and pioneers the integration of the recommendation process within a natural language framework.
翻訳日:2023-10-12 11:15:31 公開日:2023-10-11
# 自動ニューロン説明におけるプロンプトチューニングの重要性

The Importance of Prompt Tuning for Automated Neuron Explanations ( http://arxiv.org/abs/2310.06200v2 )

ライセンス: Link先を確認
Justin Lee, Tuomas Oikarinen, Arjun Chatha, Keng-Chi Chang, Yilan Chen, Tsui-Wei Weng(参考訳) 近年の進歩は大規模言語モデル(LLM)の能力を大幅に向上させたが、モデルとその安全性に対する我々の理解は、それほど速くは進まなかった。 本稿では,個々のニューロンを研究することで,LSMを深く理解することを目的とする。 我々は、GPT-4のような大きな言語モデルが言語モデルの各ニューロンの動作を説明するのに有用であることを示す以前の研究に基づいて構築した。 具体的には,説明の生成に用いられるプロンプトの効果を分析し,より自然な方法で説明プロンプトを再構成することで,ニューロン説明の質を大幅に改善し,計算コストを大幅に削減できることを示す。 我々は,新しいプロンプトの効果を3つの異なる方法で示し,自動評価と人的評価の両方を取り入れた。

Recent advances have greatly increased the capabilities of large language models (LLMs), but our understanding of the models and their safety has not progressed as fast. In this paper we aim to understand LLMs deeper by studying their individual neurons. We build upon previous work showing large language models such as GPT-4 can be useful in explaining what each neuron in a language model does. Specifically, we analyze the effect of the prompt used to generate explanations and show that reformatting the explanation prompt in a more natural way can significantly improve neuron explanation quality and greatly reduce computational cost. We demonstrate the effects of our new prompts in three different ways, incorporating both automated and human evaluations.
翻訳日:2023-10-12 11:15:04 公開日:2023-10-11
# 局所情報時間進化による大規模多体量子ダイナミクス

Efficient Large-Scale Many-Body Quantum Dynamics via Local-Information Time Evolution ( http://arxiv.org/abs/2310.06036v2 )

ライセンス: Link先を確認
Claudia Artiaco, Christoph Fleckenstein, David Aceituno, Thomas Klein Kvorning, Jens H. Bardarson(参考訳) 多体系の絡み合いの時間進化は急速に広がり、シミュレーションの精度は小さなシステムや小さな時間スケールに制限される。 しかし、量子情報は局所的なスケールに戻ることなく大規模に流れる傾向にあり、その詳細な大規模構造は局所的な観測物に直接影響を与えない。 これにより、すべての局所観測性を保持し、大規模かつ大規模の量子力学へのアクセスを可能にする方法で、大規模量子情報の除去が可能になる。 この目的のために、最近導入された情報格子を用いて、異なるスケールで量子情報を整理し、制御された方法で長距離量子相関を体系的に破棄するために使用する局所情報と情報電流を定義できる。 我々のアプローチは、システムを最大スケールまでサブシステムに分解し、ノイマン方程式を並列に解くことでサブシステム密度行列を進化させることに依存している。 重要なことは、大規模な情報を捨てる際には、情報の流れを保存する必要がある。 情報流の微視的詳細を仮定することなくこれを実現するため,情報流を正確に得るために,最大規模の状態を使いながら情報を破棄する第2の尺度を導入する。 その結果得られたアルゴリズムは局所情報時間発展 (lite) と呼ばれ、様々な流体力学挙動を持つ閉・開両量子系における多体量子力学の研究に適している。 混合フィールドIsingモデルにおけるエネルギー輸送の結果を示し,そこではパワーロー指数とエネルギー拡散定数を正確に決定する。 さらに,多体システムにおける絡み合いの空間的および時間的挙動について,洞察力のある結果を提供する。

During time evolution of many-body systems entanglement spreads rapidly, limiting exact simulations to small-scale systems or small timescales. Quantum information tends, however, to flow towards larger scales without returning to local scales, such that its detailed large-scale structure does not directly affect local observables. This allows for the removal of large-scale quantum information in a way that preserves all local observables and gives access to large-scale and large-time quantum dynamics. To this end, we use the recently introduced information lattice to organize quantum information into different scales, allowing us to define local information and information currents which we employ to systematically discard long-range quantum correlations in a controlled way. Our approach relies on decomposing the system into subsystems up to a maximum scale and time evolving the subsystem density matrices by solving the subsystem von Neumann equations in parallel. Importantly, the information flow needs to be preserved during the discarding of large-scale information. To achieve this without the need to make assumptions about the microscopic details of the information current, we introduce a second scale at which information is discarded while using the state at the maximum scale to accurately obtain the information flow. The resulting algorithm, which we call local-information time evolution (LITE), is highly versatile and suitable for investigating many-body quantum dynamics in both closed and open quantum systems with diverse hydrodynamic behaviors. We present results for the energy transport in the mixed-field Ising model, where we accurately determine the power-law exponent and the energy diffusion constant. Furthermore, the information lattice framework employed here promises to offer insightful results about the spatial and temporal behavior of entanglement in many-body systems.
翻訳日:2023-10-12 11:14:52 公開日:2023-10-11
# 乾燥可能なアバター服-rgb-d入力による動的衣服による忠実な全身テレプレゼンス

Drivable Avatar Clothing: Faithful Full-Body Telepresence with Dynamic Clothing Driven by Sparse RGB-D Input ( http://arxiv.org/abs/2310.05917v2 )

ライセンス: Link先を確認
Donglai Xiang, Fabian Prada, Zhe Cao, Kaiwen Guo, Chenglei Wu, Jessica Hodgins, Timur Bagautdinov(参考訳) 衣服は人間の外見の重要な部分であるが、フォトリアリスティックなアバターをモデル化することは困難である。 本研究では,RGB-D入力と体と顔の動きを忠実に駆動できる,動的に動くゆるい衣服を備えたアバターを提案する。 そこで本研究では,粗い衣服の形状を精度良く追跡できるニューラル・イテレーティブ・ニアスポイント(n-icp)アルゴリズムを提案する。 粗い追跡結果から、入力されたRGB-D画像をテクセル整列した特徴に再マップし、乾燥可能なアバターモデルに入力し、外観の詳細を忠実に再構築する。 我々は,最近の画像駆動合成ベースラインに対して提案手法を評価し,N-ICPアルゴリズムの包括的解析を行う。 本手法は,高忠実で忠実な衣料品のダイナミクスと外観を生み出す能力を維持しつつ,新しいテスト環境に一般化できることを実証する。

Clothing is an important part of human appearance but challenging to model in photorealistic avatars. In this work we present avatars with dynamically moving loose clothing that can be faithfully driven by sparse RGB-D inputs as well as body and face motion. We propose a Neural Iterative Closest Point (N-ICP) algorithm that can efficiently track the coarse garment shape given sparse depth input. Given the coarse tracking results, the input RGB-D images are then remapped to texel-aligned features, which are fed into the drivable avatar models to faithfully reconstruct appearance details. We evaluate our method against recent image-driven synthesis baselines, and conduct a comprehensive analysis of the N-ICP algorithm. We demonstrate that our method can generalize to a novel testing environment, while preserving the ability to produce high-fidelity and faithful clothing dynamics and appearance.
翻訳日:2023-10-12 11:14:25 公開日:2023-10-11
# HyperAttention: 近距離時間におけるLong-context Attention

HyperAttention: Long-context Attention in Near-Linear Time ( http://arxiv.org/abs/2310.05869v2 )

ライセンス: Link先を確認
Insu Han, Rajesh Jayaram, Amin Karbasi, Vahab Mirrokni, David P. Woodruff, Amir Zandieh(参考訳) 本稿では,Large Language Models (LLMs) における長期文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttention という近似的な注意機構を提案する。 最近の研究は、最悪の場合、注意行列の項目が有界であるか、行列が低い安定階数でない限り、二次時間が必要であることを示唆している。 本研究では,(1)正規化注意行列における最大カラムノルム,(2)大規模エントリの検出・削除後の非正規化注意行列における行ノルムの割合の2つのパラメータを紹介する。 これらの細かいパラメータを使って問題の難しさを捉える。 従来の下界にもかかわらず、行列が非有界なエントリや大きな安定なランクを持つ場合であっても、上記のパラメータが小さい場合であっても線形時間サンプリングアルゴリズムを実現できる。 HyperAttentionは、他の高速な低レベル実装、特にFlashAttentionと簡単に統合できるモジュラーデザインを備えている。 経験的に、大きなエントリを識別するためにlocality sensitive hashing(lsh)を使用することで、hyperattentionは既存のメソッドを上回り、flashattentionのような最先端ソリューションと比べて大幅にスピードが向上する。 様々な長コンテキスト長のデータセットにおけるハイパーアテンションの実証的性能を検証する。 例えば、HyperAttentionは32kコンテキスト長でChatGLM2の推論時間を50%速くし、パープレキシティは5.6から6.3に増加する。 例えば131kのような大きなコンテキスト長では、HyperAttentionは単一の注意層上で5倍のスピードアップを提供する。

We present an approximate attention mechanism named HyperAttention to address the computational challenges posed by the growing complexity of long contexts used in Large Language Models (LLMs). Recent work suggests that in the worst-case scenario, quadratic time is necessary unless the entries of the attention matrix are bounded or the matrix has low stable rank. We introduce two parameters which measure: (1) the max column norm in the normalized attention matrix, and (2) the ratio of row norms in the unnormalized attention matrix after detecting and removing large entries. We use these fine-grained parameters to capture the hardness of the problem. Despite previous lower bounds, we are able to achieve a linear time sampling algorithm even when the matrix has unbounded entries or a large stable rank, provided the above parameters are small. HyperAttention features a modular design that easily accommodates integration of other fast low-level implementations, particularly FlashAttention. Empirically, employing Locality Sensitive Hashing (LSH) to identify large entries, HyperAttention outperforms existing methods, giving significant speed improvements compared to state-of-the-art solutions like FlashAttention. We validate the empirical performance of HyperAttention on a variety of different long-context length datasets. For example, HyperAttention makes the inference time of ChatGLM2 50\% faster on 32k context length while perplexity increases from 5.6 to 6.3. On larger context length, e.g., 131k, with causal masking, HyperAttention offers 5-fold speedup on a single attention layer.
翻訳日:2023-10-12 11:14:07 公開日:2023-10-11
# Google Earth Engine (GEE) を用いた選択型水力貯水池の降雨変動と水残量の分析 : スリランカとベトナムの2つの熱帯地域を事例として

Analysis of Rainfall Variability and Water Extent of Selected Hydropower Reservoir Using Google Earth Engine (GEE): A Case Study from Two Tropical Countries, Sri Lanka and Vietnam ( http://arxiv.org/abs/2310.05682v2 )

ライセンス: Link先を確認
Punsisi Rajakaruna, Surajit Ghosh, Bunyod Holmatov(参考訳) 本研究では,ベトナムとスリランカの熱帯モンスーン地域における降雨パターンの総合的リモートセンシング分析と水力貯水量選択について述べる。 本研究の目的は,リモートセンシングされた降雨データと貯水池水深の動的変化(月々)の関係を理解することである。 この分析は、高解像度の光学画像とSentinel-1 Synthetic Aperture Radar (SAR)データを用いて、特にモンスーン季節の異なる気象条件下で水域を観測・監視する。 両国の年間平均降雨量を決定し,1981年から2022年までの気候ハザード群赤外降雨量(chirps)データを用いて,月平均降雨量の時空間変動を地域・貯水池レベルで調べた。 2017年から2022年まで、ベトナムとスリランカのセンチネル-1 SAR Ground Range Detected (GRD) 画像を用いて、選択された貯水池に対して水深を推定した。 画像は事前処理され、地形補正と改良されたリーフィルタを用いて修正される。 自動しきい値アルゴリズムであるotsuは、vvとvhの偏光データを利用して水と陸を区別する。 接続画素カウント閾値を適用して結果精度を向上させる。 その結果, 降雨パターンと貯水量との関係が明らかとなり, モンスーンシーズンの降水量が増加し, その後の数ヶ月で水量も増加した。 本研究は,熱帯モンスーン地域での降雨変動が貯水池の水資源に与える影響を理解するのに寄与する。 予備的な知見は水資源管理戦略に影響を与え、水力発電、洪水管理、灌水に関するこれらの国の意思決定プロセスを支援する。

This study presents a comprehensive remote sensing analysis of rainfall patterns and selected hydropower reservoir water extent in two tropical monsoon countries, Vietnam and Sri Lanka. The aim is to understand the relationship between remotely sensed rainfall data and the dynamic changes (monthly) in reservoir water extent. The analysis utilizes high-resolution optical imagery and Sentinel-1 Synthetic Aperture Radar (SAR) data to observe and monitor water bodies during different weather conditions, especially during the monsoon season. The average annual rainfall for both countries is determined, and spatiotemporal variations in monthly average rainfall are examined at regional and reservoir basin levels using the Climate Hazards Group InfraRed Precipitation with Station (CHIRPS) dataset from 1981 to 2022. Water extents are derived for selected reservoirs using Sentinel-1 SAR Ground Range Detected (GRD) images in Vietnam and Sri Lanka from 2017 to 2022. The images are pre-processed and corrected using terrain correction and refined Lee filter. An automated thresholding algorithm, OTSU, distinguishes water and land, taking advantage of both VV and VH polarization data. The connected pixel count threshold is applied to enhance result accuracy. The results indicate a clear relationship between rainfall patterns and reservoir water extent, with increased precipitation during the monsoon season leading to higher water extents in the later months. This study contributes to understanding how rainfall variability impacts reservoir water resources in tropical monsoon regions. The preliminary findings can inform water resource management strategies and support these countries' decision-making processes related to hydropower generation, flood management, and irrigation.
翻訳日:2023-10-12 11:12:37 公開日:2023-10-11