このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240415となっている論文です。

PDF登録状況(公開日: 20240415)

TitleAuthorsAbstract論文公表日・翻訳日
# 擬似ランダム数生成において、複数の振り子系はどこまで可能か?

To what extent are multiple pendulum systems viable in pseudo-random number generation? ( http://arxiv.org/abs/2404.16860v1 )

ライセンス: Link先を確認
Matthew Sigit, (参考訳) 本稿では,複数振り子系のカオス力学を利用した代替擬似乱数生成器(PRNG)の開発と実現可能性について検討する。 従来のPRNG(特にJava.Randomクラスで実装されたもの)は、エクスプロイラビリティを引き起こす予測可能性に悩まされている。 本研究では,これらの脆弱性を同定し,通常の微分方程式,物理モデリング,カオス理論を用いて設計された新しいPRNGを提案する。 新しいPRNGのパフォーマンスは、NIST統計テストスイートを使用して、Javaの標準PRNGに対してテストされる。 その結果,複数の振り子をベースとしたPRNGは,予測可能な数列を減らし,セキュリティを向上するだけでなく,高いエントロピーを必要とするアプリケーションにおいて,効率向上の可能性が示唆された。 本研究でテストされた二重振り子システムのようなカオス物理系をPRNGに組み込むことで,真の乱数生成器によって生成されるセキュリティレベルを必要としないアプリケーションに対する暗号的プラクティスやセキュリティプロトコルが強化され,ゲームなどの分野において有用であることが示唆された。

This paper explores the development and viability of an alternative pseudorandom number generator (PRNG) that leverages the chaotic dynamics of multiple pendulum systems. Some traditional PRNGs, notably the one implemented in the Java.Random class, suffer from predictability which gives rise to exploitability. This study identifies these vulnerabilities and proposes a novel PRNG designed using ordinary differential equations, physics modeling, and chaos theory. The performance of the new PRNG is then tested against Java's standard PRNGs using the NIST Statistical Test Suite, which evaluates randomness through comprehensive statistical testing. Results indicate that the multiple pendulum-based PRNG not only offers enhanced security by generating less predictable number sequences but also demonstrates potential for efficiency improvements in applications requiring high levels of entropy. The findings suggest that integrating chaotic physics-based systems into PRNGs, such as the double-pendulum system tested in this study, could strengthen cryptographic practices and security protocols for applications that do not require the level of security created by true random number generators, which is useful in fields such as gaming.
翻訳日:2024-05-05 18:14:01 公開日:2024-04-15
# SQUAT: リカレントスパイキングニューラルネットワークにおけるステートフル量子化認識トレーニング

SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks ( http://arxiv.org/abs/2404.19668v1 )

ライセンス: Link先を確認
Sreyes Venkatesh, Razvan Marinescu, Jason K. Eshraghian, (参考訳) 軽量量子化は、リソース制限されたハードウェア上で高性能なディープラーニングモデルをデプロイするために使用され、ストレージと計算に低精度の整数を使用することができる。 スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。 重量量子化、量子化対応トレーニング(QAT)、およびSNNへの応用について広範な研究が行われてきたが、トレーニング中の状態変数の精度の低下は概ね見過ごされ、推論性能が低下する可能性がある。 本稿では、ステートフルニューロンに対する2つのQATスキームを紹介する。 一 均一量化戦略、重量量化の確立された方法、及び (II) しきい値中心の量子化は、発射しきい値付近で指数的により多くの量子化レベルを割り当てる。 以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。 重みと状態量子化の効果について,それぞれと組み合わせたアブレーション分析を行い,それらがモデルに与える影響について検討した。 我々の総合的な実証評価には、完全精度、8ビット、4ビット、2ビット量子化SNN、QAT、ステートフルQAT(SQUAT)、ポストトレーニング量子化法が含まれる。 以上の結果から,QATとSQUATの組み合わせにより性能が向上することが示唆された。 これらの傾向はすべてのデータセットに一貫性がある。 私たちのメソッドはPythonライブラリsnnTorchで利用可能になりました。

Weight quantization is used to deploy high-performance deep learning models on resource-limited hardware, enabling the use of low-precision integers for storage and computation. Spiking neural networks (SNNs) share the goal of enhancing efficiency, but adopt an 'event-driven' approach to reduce the power consumption of neural network inference. While extensive research has focused on weight quantization, quantization-aware training (QAT), and their application to SNNs, the precision reduction of state variables during training has been largely overlooked, potentially diminishing inference performance. This paper introduces two QAT schemes for stateful neurons: (i) a uniform quantization strategy, an established method for weight quantization, and (ii) threshold-centered quantization, which allocates exponentially more quantization levels near the firing threshold. Our results show that increasing the density of quantization levels around the firing threshold improves accuracy across several benchmark datasets. We provide an ablation analysis of the effects of weight and state quantization, both individually and combined, and how they impact models. Our comprehensive empirical evaluation includes full precision, 8-bit, 4-bit, and 2-bit quantized SNNs, using QAT, stateful QAT (SQUAT), and post-training quantization methods. The findings indicate that the combination of QAT and SQUAT enhance performance the most, but given the choice of one or the other, QAT improves performance by the larger degree. These trends are consistent all datasets. Our methods have been made available in our Python library snnTorch: https://github.com/jeshraghian/snntorch.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-15
# アンサンブルカーネルガウスプロセス回帰アプローチによる製薬販売の予測精度向上

Enhancing Predictive Accuracy in Pharmaceutical Sales Through An Ensemble Kernel Gaussian Process Regression Approach ( http://arxiv.org/abs/2404.19669v1 )

ライセンス: Link先を確認
Shahin Mirshekari, Mohammadreza Moradi, Hossein Jafari, Mehdi Jafari, Mohammad Ensaf, (参考訳) 本研究は,ガウスプロセス回帰(GPR)とアンサンブルカーネルを併用し,医薬品販売データを解析するためにExponential Squared,Revised Mat\'ern,Rational Quadraticカーネルを統合する。 ベイズ最適化(Bayesian optimization)は、Exponential Squaredの0.76、Revised Mat\'ernの0.21、Rational Quadraticの0.13の最適化に使われた。 アンサンブルカーネルは予測精度において優れた性能を示し, 平均正方形誤差 (MSE), 平均正方形誤差 (MAE), ルート平均正方形誤差 (RMSE) は有意に低い値を示した。 これらの結果は、複雑な医薬品販売データセットの予測分析におけるGPRのアンサンブルカーネルの有効性を浮き彫りにした。

This research employs Gaussian Process Regression (GPR) with an ensemble kernel, integrating Exponential Squared, Revised Mat\'ern, and Rational Quadratic kernels to analyze pharmaceutical sales data. Bayesian optimization was used to identify optimal kernel weights: 0.76 for Exponential Squared, 0.21 for Revised Mat\'ern, and 0.13 for Rational Quadratic. The ensemble kernel demonstrated superior performance in predictive accuracy, achieving an \( R^2 \) score near 1.0, and significantly lower values in Mean Squared Error (MSE), Mean Absolute Error (MAE), and Root Mean Squared Error (RMSE). These findings highlight the efficacy of ensemble kernels in GPR for predictive analytics in complex pharmaceutical sales datasets.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-15
# ダイレクトトレーニングは正規化を必要とする: 任意の最適な推論スパイクニューラルネットワーク

Direct Training Needs Regularisation: Anytime Optimal Inference Spiking Neural Network ( http://arxiv.org/abs/2405.00699v1 )

ライセンス: Link先を確認
Dengyu Wu, Yi Qi, Kaiwen Cai, Gaojie Jin, Xinping Yi, Xiaowei Huang, (参考訳) スパイキングニューラルネットワーク(SNN)は,次世代のニューラルネットワーク(ANN)として認識されており,空間時間情報を効果的に処理する上で大きな可能性を秘めている。 しかし、ニューラルネットワークトレーニングの精度に大きな影響を与えるため、時間ステップの選択が重要になる。 具体的には、より小さなタイムステップは、効率的なコンピューティングにおけるより良いパフォーマンスを示し、結果としてレイテンシと演算が減少する。 一方、小さなタイムステップを使用すると、スパイクが少ない情報提示が不十分なため、精度が低下する可能性がある。 本研究の目的は,空間時間正規化手法(STR)を導入することにより,適応時間に信頼性の高いSNNを開発することである。 提案手法は,各段階におけるスパイクの強度と膜電位の比を規定する。 これは、トレーニング中の空間的および時間的パフォーマンスを効果的にバランスさせ、最終的にはAnytime Optimal Inference (AOI) SNNとなる。 フレームベースおよびイベントベースデータセットに関する広範な実験を通じて,本手法は,ソフトマックス出力に基づくカットオフと組み合わせて,レイテンシと精度の両面で最先端のパフォーマンスを実現する。 特にSTRとカットオフでは、SNNは事前設定された時間ステップよりも2.14から2.89高速で、イベントベースのデータセットでは0.50%から0.64%の精度でダウンする。 コード提供:https://github.com/Dengyu-Wu/AOI-SNN-Regularisation

Spiking Neural Network (SNN) is acknowledged as the next generation of Artificial Neural Network (ANN) and hold great promise in effectively processing spatial-temporal information. However, the choice of timestep becomes crucial as it significantly impacts the accuracy of the neural network training. Specifically, a smaller timestep indicates better performance in efficient computing, resulting in reduced latency and operations. While, using a small timestep may lead to low accuracy due to insufficient information presentation with few spikes. This observation motivates us to develop an SNN that is more reliable for adaptive timestep by introducing a novel regularisation technique, namely Spatial-Temporal Regulariser (STR). Our approach regulates the ratio between the strength of spikes and membrane potential at each timestep. This effectively balances spatial and temporal performance during training, ultimately resulting in an Anytime Optimal Inference (AOI) SNN. Through extensive experiments on frame-based and event-based datasets, our method, in combination with cutoff based on softmax output, achieves state-of-the-art performance in terms of both latency and accuracy. Notably, with STR and cutoff, SNN achieves 2.14 to 2.89 faster in inference compared to the pre-configured timestep with near-zero accuracy drop of 0.50% to 0.64% over the event-based datasets. Code available: https://github.com/Dengyu-Wu/AOI-SNN-Regularisation
翻訳日:2024-05-05 17:54:32 公開日:2024-04-15
# 大規模言語モデルを用いた感情と倫理のモデル化

Modeling Emotions and Ethics with Large Language Models ( http://arxiv.org/abs/2404.13071v1 )

ライセンス: Link先を確認
Edward Y. Chang, (参考訳) 本稿では,人間のような感情と倫理的考察をLarge Language Models (LLMs) に統合することを検討する。 まず、8つの基本的感情をモデル化し、対立するペアとして提示し、協調的なLLMを用いて、これらの感情を様々な強度で再解釈し表現する。 我々の焦点は、人間のフィードバックによる新しい自己教師付き学習アルゴリズム(SSHF)によって導かれ、LSM内に潜伏する倫理的次元を埋め込むことにまで及んでいる。 このアプローチにより、LLMは倫理的ガイドラインに関する自己評価や調整を行い、感情的に共鳴するだけでなく倫理的に整合したコンテンツを生成する能力を高めることができる。 ここで提示された方法論と事例研究は、LLMが単なるテキストと画像生成を超越し、共感的相互作用と原則化された意思決定の領域に介入し、感情的に意識され倫理的に意識されたAIシステムの開発における新たな先例を定めている。

This paper explores the integration of human-like emotions and ethical considerations into Large Language Models (LLMs). We first model eight fundamental human emotions, presented as opposing pairs, and employ collaborative LLMs to reinterpret and express these emotions across a spectrum of intensity. Our focus extends to embedding a latent ethical dimension within LLMs, guided by a novel self-supervised learning algorithm with human feedback (SSHF). This approach enables LLMs to perform self-evaluations and adjustments concerning ethical guidelines, enhancing their capability to generate content that is not only emotionally resonant but also ethically aligned. The methodologies and case studies presented herein illustrate the potential of LLMs to transcend mere text and image generation, venturing into the realms of empathetic interaction and principled decision-making, thereby setting a new precedent in the development of emotionally aware and ethically conscious AI systems.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-15
# 大規模言語モデルにおける構成的一般化可能な意味解析

Towards Compositionally Generalizable Semantic Parsing in Large Language Models: A Survey ( http://arxiv.org/abs/2404.13074v1 )

ライセンス: Link先を確認
Amogh Mannekote, (参考訳) 構成的一般化は、プリミティブを単に見ただけで、以前は目に見えない種類の実体の組み合わせにモデルを一般化する能力である。 この種の一般化は、タスク指向の対話、テキストからSQLへの解析、情報検索といったアプリケーションのためのセマンティック・パーシング・コミュニティに特に関係している。 大規模な言語モデル(LLM)が幅広いNLPタスクで成功したにも拘わらず、完全な構成一般化を解き放つことは、まだ未解決のフロンティアとしては数少ないものである。 過去数年間、意味解析タスクのためのLLMの合成一般化能力の限界、改善方法、評価指標を探求する研究への関心が高まってきた。 本研究は,本分野の実践者,研究者双方にとって出発点となる分析,方法,評価スキームの最近の進歩を総合した文献調査である。

Compositional generalization is the ability of a model to generalize to complex, previously unseen types of combinations of entities from just having seen the primitives. This type of generalization is particularly relevant to the semantic parsing community for applications such as task-oriented dialogue, text-to-SQL parsing, and information retrieval, as they can harbor infinite complexity. Despite the success of large language models (LLMs) in a wide range of NLP tasks, unlocking perfect compositional generalization still remains one of the few last unsolved frontiers. The past few years has seen a surge of interest in works that explore the limitations of, methods to improve, and evaluation metrics for compositional generalization capabilities of LLMs for semantic parsing tasks. In this work, we present a literature survey geared at synthesizing recent advances in analysis, methods, and evaluation schemes to offer a starting point for both practitioners and researchers in this area.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-15
# LLM評価器は、自身の世代を認識し、評価する

LLM Evaluators Recognize and Favor Their Own Generations ( http://arxiv.org/abs/2404.13076v1 )

ライセンス: Link先を確認
Arjun Panickssery, Samuel R. Bowman, Shi Feng, (参考訳) 大規模言語モデル(LLM)を用いた自己評価は、ベンチマークだけでなく、報酬モデリング、立憲AI、自己修正といった手法にも価値があることが証明されている。 しかし,LLMが評価器と評価器の両方に作用するため,新たなバイアスがもたらされる。 そのようなバイアスの1つは自己選好であり、LLM評価器は出力を他よりも高く評価する一方、人間のアノテータはそれらが同等の品質であるとみなす。 しかし、LLMはテキストにより高いスコアを与えるとき、実際に自分のアウトプットを認識しているのだろうか? 本稿では,自己認識能力が自己評価に寄与するかどうかを検討する。 GPT-4 や Llama 2 のような LLM は他の LLM や人間と区別する精度が低いことが判明した。 LLMを微調整することにより、自己認識能力と自己参照バイアスの強さの線形相関が発見され、制御された実験により、因果説明は簡単な共同創設者に抵抗することを示す。 我々は、自己認識が偏見のない評価やAIの安全性をより一般的に阻害する方法について論じる。

Self-evaluation using large language models (LLMs) has proven valuable not only in benchmarking but also methods like reward modeling, constitutional AI, and self-refinement. But new biases are introduced due to the same LLM acting as both the evaluator and the evaluatee. One such bias is self-preference, where an LLM evaluator scores its own outputs higher than others' while human annotators consider them of equal quality. But do LLMs actually recognize their own outputs when they give those texts higher scores, or is it just a coincidence? In this paper, we investigate if self-recognition capability contributes to self-preference. We discover that, out of the box, LLMs such as GPT-4 and Llama 2 have non-trivial accuracy at distinguishing themselves from other LLMs and humans. By fine-tuning LLMs, we discover a linear correlation between self-recognition capability and the strength of self-preference bias; using controlled experiments, we show that the causal explanation resists straightforward confounders. We discuss how self-recognition can interfere with unbiased evaluations and AI safety more generally.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-15
# ゲームシナリオの多様性を測定する

Measuring Diversity of Game Scenarios ( http://arxiv.org/abs/2404.15192v1 )

ライセンス: Link先を確認
Yuchen Li, Ziqi Wang, Qingquan Zhang, Jialin Liu, (参考訳) 本調査は,ゲームシナリオの多様性の多次元性について概観的にレビューし,ゲームシナリオを通じてプレイヤー体験を豊かにするための基盤として,プロシージャコンテンツ生成やその他の分野の革新的利用に注目した。 感情モデリングやマルチエージェントシステムから心理学研究まで,幅広い分野を横断することで,ゲームプレイと教育における多様なゲームシナリオの重要性を浮き彫りにしている。 多様性の指標と評価方法の分類を通じて、文献と実践の現在のギャップを埋め、ゲームシナリオにおける多様性の測定と統合のための効果的な戦略に関する洞察を提供することを目的としている。 我々の分析は、開発者や研究者がより魅力的で多様なゲーム世界を創造する上で、統一された分類の必要性を強調している。 この調査は、様々なゲームシナリオにおける将来の研究の道筋を示すだけでなく、多様性をゲームデザインと開発の重要な要素として活用しようとする業界の実践者のためのハンドブックとしても機能する。

This survey comprehensively reviews the multi-dimensionality of game scenario diversity, spotlighting the innovative use of procedural content generation and other fields as cornerstones for enriching player experiences through diverse game scenarios. By traversing a wide array of disciplines, from affective modeling and multi-agent systems to psychological studies, our research underscores the importance of diverse game scenarios in gameplay and education. Through a taxonomy of diversity metrics and evaluation methods, we aim to bridge the current gaps in literature and practice, offering insights into effective strategies for measuring and integrating diversity in game scenarios. Our analysis highlights the necessity for a unified taxonomy to aid developers and researchers in crafting more engaging and varied game worlds. This survey not only charts a path for future research in diverse game scenarios but also serves as a handbook for industry practitioners seeking to leverage diversity as a key component of game design and development.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-15
# 上流MLIRを用いた高性能AIコンパイラの実現に向けて

Towards a high-performance AI compiler with upstream MLIR ( http://arxiv.org/abs/2404.15204v1 )

ライセンス: Link先を確認
Renato Golin, Lorenzo Chelini, Adam Siemieniuk, Kavitha Madhu, Niranjan Hasabnis, Hans Pabst, Evangelos Georganas, Alexander Heinecke, (参考訳) 本研究では,オープンソースのコンパイラパスを用いたコンパイルフローを提案し,汎用線形代数の高レベル抽象から忍者性能を実現するためのフレームワークを構築する。 我々は、TensorFlowとPyTorchのLinalg-on-Tensorの入力IRを使用し、キャッシュレベルの最適化を行い、効率的なベクトル化のためにマイクロカーネルにダウンし、忍者相当プログラムのパフォーマンスの90%以上を達成する概念実証MLIRプロジェクトでこの流れを実証する。 本研究の貢献は,(1)テンソル弁にプリミティブをパッケージし,テンソル(シングルコアとマルチコア)とタイプアウェア命令(VNNI, BFDOT, BFMMLA)のキャッシュ対応分布をパスすること,(2) タイル,ヒューズ,バッファライゼーションを含む線形代数パイプラインをハードウェアフレンドリーなタイルコールに組み込むこと,(3) 様々なCPUをサポートするオープンソースライブラリにマイクロカーネルをダウンさせる機構,などである。

This work proposes a compilation flow using open-source compiler passes to build a framework to achieve ninja performance from a generic linear algebra high-level abstraction. We demonstrate this flow with a proof-of-concept MLIR project that uses input IR in Linalg-on-Tensor from TensorFlow and PyTorch, performs cache-level optimizations and lowering to micro-kernels for efficient vectorization, achieving over 90% of the performance of ninja-written equivalent programs. The contributions of this work include: (1) Packing primitives on the tensor dialect and passes for cache-aware distribution of tensors (single and multi-core) and type-aware instructions (VNNI, BFDOT, BFMMLA), including propagation of shapes across the entire function; (2) A linear algebra pipeline, including tile, fuse and bufferization strategies to get model-level IR into hardware friendly tile calls; (3) A mechanism for micro-kernel lowering to an open source library that supports various CPUs.
翻訳日:2024-04-28 11:06:36 公開日:2024-04-15
# TransfoRhythm: Solo PPG信号キャプチャによる血圧推定のためのトランスフォーマーアーキテクチャ

TransfoRhythm: A Transformer Architecture Conductive to Blood Pressure Estimation via Solo PPG Signal Capturing ( http://arxiv.org/abs/2404.15352v1 )

ライセンス: Link先を確認
Amir Arjomand, Amin Boudesh, Farnoush Bayatmakou, Kenneth B. Kent, Arash Mohammadi, (参考訳) 最近の統計によると、世界中で約13億人の人が高血圧に悩まされている。 血圧(BP)は、高血圧の正確かつタイムリーな診断および/または治療のための重要な健康指標である。 人工知能(AI)とディープニューラルネットワーク(DNN)の最近の進歩によって、データ駆動型およびカフレスBP推定ソリューションの開発への関心が高まっている。 この文脈では、現在の文献は主に心電図(ECG)と光胸波センサ(PPG)の結合に焦点を当てているが、このアプローチは複数のセンサタイプに依存している。 スタンドアローンPSG信号を利用する別の方法として、補助センサ(ECG)の欠如による課題があり、モーションアーティファクトと高周波ノイズに対処しながら形態的特徴を使用する必要がある。 これらの問題に対処するために、最近リリースされた生理学データベースMIMIC-IV上に構築されたトランスフォーマーベースのDNNアーキテクチャであるTransfoRhythmフレームワークを紹介した。 マルチヘッドアテンション(MHA)機構を活用することで、TransfoRhythmはデータセグメント間の依存関係と類似性を識別し、PG信号のみを使用したカフレスBP推定のための堅牢なフレームワークを形成する。 本研究は,カフレスBP推定にMIMIC IVデータセットを適用した最初の研究であり,TransfoRhythmはMIMIC IVを用いたBP予測をトレーニングした最初のMHAモデルである。 総合実験による性能評価は、TransfoRhythmが最先端技術よりも優れていることを示す。 具体的には、[1.84, 1.42] のルート平均角誤差 (RMSE) と[1.50, 1.17] の平均絶対誤差 (MAE) で、それぞれ収縮期血圧と拡張期血圧をそれぞれ高精度に測定する。

Recent statistics indicate that approximately 1.3 billion individuals worldwide suffer from hypertension, a leading cause of premature death globally. Blood pressure (BP) serves as a critical health indicator for accurate and timely diagnosis and/or treatment of hypertension. Driven by recent advancements in Artificial Intelligence (AI) and Deep Neural Networks (DNNs), there has been a surge of interest in developing data-driven and cuff-less BP estimation solutions. In this context, current literature predominantly focuses on coupling Electrocardiography (ECG) and Photoplethysmography (PPG) sensors, though this approach is constrained by reliance on multiple sensor types. An alternative, utilizing standalone PPG signals, presents challenges due to the absence of auxiliary sensors (ECG), requiring the use of morphological features while addressing motion artifacts and high-frequency noise. To address these issues, the paper introduces the TransfoRhythm framework, a Transformer-based DNN architecture built upon the recently released physiological database, MIMIC-IV. Leveraging Multi-Head Attention (MHA) mechanism, TransfoRhythm identifies dependencies and similarities across data segments, forming a robust framework for cuff-less BP estimation solely using PPG signals. To our knowledge, this paper represents the first study to apply the MIMIC IV dataset for cuff-less BP estimation, and TransfoRhythm is the first MHA-based model trained via MIMIC IV for BP prediction. Performance evaluation through comprehensive experiments demonstrates TransfoRhythm's superiority over its state-of-the-art counterparts. Specifically, TransfoRhythm achieves highly accurate results with Root Mean Square Error (RMSE) of [1.84, 1.42] and Mean Absolute Error (MAE) of [1.50, 1.17] for systolic and diastolic blood pressures, respectively.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-15
# SQUWA:ノイズPPG信号からの心房細動検出精度向上のための信号品質を考慮したDNNアーキテクチャ

SQUWA: Signal Quality Aware DNN Architecture for Enhanced Accuracy in Atrial Fibrillation Detection from Noisy PPG Signals ( http://arxiv.org/abs/2404.15353v1 )

ライセンス: Link先を確認
Runze Yan, Cheng Ding, Ran Xiao, Aleksandr Fedorov, Randall J Lee, Fadi Nahab, Xiao Hu, (参考訳) 心房細動(AF)は、心臓不整脈であり、脳卒中、心臓病、死亡のリスクを著しく高める。 Photoplethysmography (PPG)は、コスト効率とウェアラブルデバイスとの統合により、継続的なAFモニタリングに有望なソリューションを提供する。 それにもかかわらず、PSG信号は、運動人工物や、しばしば爆発的な状況で遭遇する他の要因から汚染される可能性がある。 通常、従来のアプローチでは、破損したセグメントを捨てたり、元の信号を再構築しようとしたりすることで、標準的な機械学習技術の使用を可能にした。 しかし、これはデータセットのサイズを減らし、バイアスを導入し、予測精度と継続的監視の有効性を損なう。 本稿では,意図的畳み込みとリカレントニューラルネットワークの信号品質重み付き融合モデル(SQUWA)を提案する。 具体的には、SQUWAは、学習プロセス中に信号の品質を直接考慮し、その品質に基づいて時系列セグメントの重みを動的に調整するアテンションメカニズムを革新的に統合する。 このアプローチは、高品質セグメントの影響を高めながら、低品質セグメントの影響を低減し、部分的に破損したセグメントを効果的に活用する。 このアプローチは、これらのセグメントを除外する従来の手法から逸脱し、より広い範囲のデータの利用を可能にし、AFリスクの監視やAF負荷のより正確な推定において、破壊の少ないことが大きな意味を持つ。 我々の広範な実験により、SQUWAは既存のPSGベースモデルよりも優れており、ラベルノイズ低減によるAUCPRの最大0.89を達成している。 これはまた、心電図(ECG)とPSGデータの両方を用いてトレーニングされたモデルの0.86 AUCPRを超えている。

Atrial fibrillation (AF), a common cardiac arrhythmia, significantly increases the risk of stroke, heart disease, and mortality. Photoplethysmography (PPG) offers a promising solution for continuous AF monitoring, due to its cost efficiency and integration into wearable devices. Nonetheless, PPG signals are susceptible to corruption from motion artifacts and other factors often encountered in ambulatory settings. Conventional approaches typically discard corrupted segments or attempt to reconstruct original signals, allowing for the use of standard machine learning techniques. However, this reduces dataset size and introduces biases, compromising prediction accuracy and the effectiveness of continuous monitoring. We propose a novel deep learning model, Signal Quality Weighted Fusion of Attentional Convolution and Recurrent Neural Network (SQUWA), designed to learn how to retain accurate predictions from partially corrupted PPG. Specifically, SQUWA innovatively integrates an attention mechanism that directly considers signal quality during the learning process, dynamically adjusting the weights of time series segments based on their quality. This approach enhances the influence of higher-quality segments while reducing that of lower-quality ones, effectively utilizing partially corrupted segments. This approach represents a departure from the conventional methods that exclude such segments, enabling the utilization of a broader range of data, which has great implications for less disruption when monitoring of AF risks and more accurate estimation of AF burdens. Our extensive experiments show that SQUWA outperform existing PPG-based models, achieving the highest AUCPR of 0.89 with label noise mitigation. This also exceeds the 0.86 AUCPR of models trained with using both electrocardiogram (ECG) and PPG data.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-15
# 帯域通過フィルタ近似によるスペクトルGNNの高次化

Elevating Spectral GNNs through Enhanced Band-pass Filter Approximation ( http://arxiv.org/abs/2404.15354v1 )

ライセンス: Link先を確認
Guoming Li, Jian Yang, Shangsong Liang, Dongsheng Luo, (参考訳) スペクトルグラフニューラルネットワーク(GNN)は,本質的なグラフフィルタを用いて周波数領域のパターンをキャプチャする能力によって注目されている。 従来の多項式や有理多項式を含むグラフフィルタを概ね構成するポリ多項式ベース(ポリGNN)は、グラフ学習タスクにおける実質的なパフォーマンスのために、実際に日常的に採用されている。 しかし、従来のポリGNNは、様々な種類のフィルタ(例えば、低パス、ハイパス)で全体的な低い近似誤差を達成することを目的としていたが、重要な疑問を無視している。 そこで,本論文ではまず,帯域通過グラフフィルタの近似性を向上したポリGNNが,グラフ学習タスクにおいて優れた性能を発揮することを示す。 この知見は、既存のポリGNNの重要な問題、すなわち、これらのポリGNNは、バンドパスグラフフィルタの近似において自明な性能を達成し、ポリGNNの大きな可能性を妨げている。 この問題に対処するため,TrigoNetという新しいポリGNNを提案する。 TrigoNetは、新しい三角関数多項式を持つ異なるグラフフィルタを構築し、他の多項式に対する帯域通過グラフフィルタの近似において先行的な性能を達成する。 Taylorの拡張と非線型性の適用により、TrigoNetはベースライン間で顕著な効率を達成する。 大規模な実験は、精度と効率の両面でTrigoNetの利点を示している。

Spectral Graph Neural Networks (GNNs) have attracted great attention due to their capacity to capture patterns in the frequency domains with essential graph filters. Polynomial-based ones (namely poly-GNNs), which approximately construct graph filters with conventional or rational polynomials, are routinely adopted in practice for their substantial performances on graph learning tasks. However, previous poly-GNNs aim at achieving overall lower approximation error on different types of filters, e.g., low-pass and high-pass, but ignore a key question: \textit{which type of filter warrants greater attention for poly-GNNs?} In this paper, we first show that poly-GNN with a better approximation for band-pass graph filters performs better on graph learning tasks. This insight further sheds light on critical issues of existing poly-GNNs, i.e., those poly-GNNs achieve trivial performance in approximating band-pass graph filters, hindering the great potential of poly-GNNs. To tackle the issues, we propose a novel poly-GNN named TrigoNet. TrigoNet constructs different graph filters with novel trigonometric polynomial, and achieves leading performance in approximating band-pass graph filters against other polynomials. By applying Taylor expansion and deserting nonlinearity, TrigoNet achieves noticeable efficiency among baselines. Extensive experiments show the advantages of TrigoNet in both accuracy performances and efficiency.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-15
# FEDSTR: マネーインAI-Out : NOSTRプロトコルによるフェデレートラーニングとLLMトレーニングのための分散マーケットプレース

FEDSTR: Money-In AI-Out | A Decentralized Marketplace for Federated Learning and LLM Training on the NOSTR Protocol ( http://arxiv.org/abs/2404.15834v1 )

ライセンス: Link先を確認
Konstantinos E. Nikolakakis, George Chantzialexiou, Dionysis Kalogerias, (参考訳) NOSTRは、w3c websockets標準に基づいた、ソーシャルWebのための通信プロトコルである。 まだ初期段階ではあるが、ソーシャルメディアプロトコル、何千もの信頼できるユーザ、複数のユーザインターフェースとして知られており、ユニークなエクスペリエンスと膨大な機能を提供している。 いくつか挙げると、NOSTRアプリケーションにはダイレクトメッセージング、ファイル共有、オーディオ/ビデオストリーミング、コラボレーティブライティング、ブログ、分散AIディレクトリによるデータ処理などに限定されている。 本研究では,フェデレートラーニングとLLMトレーニングのための分散マーケットプレースを最終目標として,既存のプロトコル構造に基づくアプローチを提案する。 この提案された設計には2つのパーティがある。一方には、AIモデルのトレーニングに使用するデータセットを提供する顧客がいる。 一方、データセットを受け取り(一部)、AIモデルをトレーニングし、交換として支払いを行うサービスプロバイダは、最適化されたAIモデルを返す。 NOSTRの分散化と検閲に抵抗する特徴により、AIモデルとLLMをトレーニングするための公正でオープンなマーケットプレースを設計することができる。

The NOSTR is a communication protocol for the social web, based on the w3c websockets standard. Although it is still in its infancy, it is well known as a social media protocol, thousands of trusted users and multiple user interfaces, offering a unique experience and enormous capabilities. To name a few, the NOSTR applications include but are not limited to direct messaging, file sharing, audio/video streaming, collaborative writing, blogging and data processing through distributed AI directories. In this work, we propose an approach that builds upon the existing protocol structure with end goal a decentralized marketplace for federated learning and LLM training. In this proposed design there are two parties: on one side there are customers who provide a dataset that they want to use for training an AI model. On the other side, there are service providers, who receive (parts of) the dataset, train the AI model, and for a payment as an exchange, they return the optimized AI model. The decentralized and censorship resistant features of the NOSTR enable the possibility of designing a fair and open marketplace for training AI models and LLMs.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-15
# Efflex: 時空間軌跡グラフモデリングと表現学習のための効率的かつ柔軟なパイプライン

Efflex: Efficient and Flexible Pipeline for Spatio-Temporal Trajectory Graph Modeling and Representation Learning ( http://arxiv.org/abs/2404.12400v1 )

ライセンス: Link先を確認
Ming Cheng, Ziyi Zhou, Bowen Zhang, Ziyu Wang, Jiaqi Gan, Ziang Ren, Weiqi Feng, Yi Lyu, Hefan Zhang, Xingjian Diao, (参考訳) 時空間データ分析の分野では、効果的な軌道表現学習が最重要である。 学習の正確な表現のギャップを効率的かつ柔軟なメカニズムで埋めるために,大規模な時空間軌跡の変換グラフモデリングと表現学習のための包括的パイプラインであるEfflexを導入する。 Efflexは、グラフ構築のための特徴融合を備えたマルチスケールk-nearest neighbors (KNN)アルゴリズムの導入を先導し、本質的なデータ特徴を保存することで次元削減技術の飛躍を図った。 さらに、グラウンディンググラフ構築機構と高性能軽量GCNは、埋め込み抽出速度を最大36倍高速化する。 Efflex-Lは精度の高いシナリオで、Efflex-Bは高速なデータ処理を必要とする環境で提供される。 PortoとGeolifeのデータセットによる総合的な実験は、Efflexをドメインの最先端技術として位置づけ、我々のアプローチを検証する。 このようなスピードと精度の向上は、Efflexの汎用性を強調し、時間に敏感で計算に制約のあるアプリケーションに展開する幅広い可能性を強調している。

In the landscape of spatio-temporal data analytics, effective trajectory representation learning is paramount. To bridge the gap of learning accurate representations with efficient and flexible mechanisms, we introduce Efflex, a comprehensive pipeline for transformative graph modeling and representation learning of the large-volume spatio-temporal trajectories. Efflex pioneers the incorporation of a multi-scale k-nearest neighbors (KNN) algorithm with feature fusion for graph construction, marking a leap in dimensionality reduction techniques by preserving essential data features. Moreover, the groundbreaking graph construction mechanism and the high-performance lightweight GCN increase embedding extraction speed by up to 36 times faster. We further offer Efflex in two versions, Efflex-L for scenarios demanding high accuracy, and Efflex-B for environments requiring swift data processing. Comprehensive experimentation with the Porto and Geolife datasets validates our approach, positioning Efflex as the state-of-the-art in the domain. Such enhancements in speed and accuracy highlight the versatility of Efflex, underscoring its wide-ranging potential for deployment in time-sensitive and computationally constrained applications.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-15
# 項目や関係 - ニューラルネットワークは何を学習するのか?

Items or Relations -- what do Artificial Neural Networks learn? ( http://arxiv.org/abs/2404.12401v1 )

ライセンス: Link先を確認
Renate Krause, Stefan Reimann, (参考訳) ANN(Artificial Neural Network)は、タスク - トレーニング項目のセット、あるいはそれらの関係 - を正常にトレーニングした後、何を学んだか? この質問は、その巨大なサイズと複雑さのために、モダンな適用されたANNに答えるのは難しい。 そこで,本研究では,低次元ネットワークと簡単なタスク,すなわちトレーニング項目の集合を同一に再現する必要があると考える。 解析的に解の族を構築し,数値解を得るために標準学習アルゴリズムを用いる。 これらの数値解は最適化アルゴリズムと重み初期化によって異なり、解析解の族に属する特定のメンバーであることが示されている。 この簡単な設定では、ネットワーク重みの一般的な構造はトレーニングセットの対称性群、すなわちトレーニング項目間の関係を表す。 その結果、線形ネットワークは、すなわち、トレーニングセットの一部ではなく、トレーニングセットの対称性と一致したアイテムを再現する。 対照的に、非線形ネットワークは個々のトレーニング項目を学習し、連想記憶を示す傾向にある。 同時に、一般化する能力は限られている。 活性化関数がtanhのような線形構造を含むネットワークに対して、より高度な一般化が得られる。 以上の結果から,ANNが学習項目を一般化する能力は,関係を表現し,適用された非線形性に強く依存する基本操作セットを十分に大きく生成することで向上する可能性が示唆された。

What has an Artificial Neural Network (ANN) learned after being successfully trained to solve a task - the set of training items or the relations between them? This question is difficult to answer for modern applied ANNs because of their enormous size and complexity. Therefore, here we consider a low-dimensional network and a simple task, i.e., the network has to reproduce a set of training items identically. We construct the family of solutions analytically and use standard learning algorithms to obtain numerical solutions. These numerical solutions differ depending on the optimization algorithm and the weight initialization and are shown to be particular members of the family of analytical solutions. In this simple setting, we observe that the general structure of the network weights represents the training set's symmetry group, i.e., the relations between training items. As a consequence, linear networks generalize, i.e., reproduce items that were not part of the training set but are consistent with the symmetry of the training set. In contrast, non-linear networks tend to learn individual training items and show associative memory. At the same time, their ability to generalize is limited. A higher degree of generalization is obtained for networks whose activation function contains a linear regime, such as tanh. Our results suggest ANN's ability to generalize - instead of learning items - could be improved by generating a sufficiently big set of elementary operations to represent relations and strongly depends on the applied non-linearity.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-15
# Sup3r: 時間面アーキテクチャの階層構造における空間性、安定性、分離性を高めるための半監督アルゴリズム

Sup3r: A Semi-Supervised Algorithm for increasing Sparsity, Stability, and Separability in Hierarchy Of Time-Surfaces architectures ( http://arxiv.org/abs/2404.12402v1 )

ライセンス: Link先を確認
Marco Rasetto, Himanshu Akolkar, (参考訳) イベントデータから特徴抽出を行うニューロモルフィックアプローチであるHierarchy of Time-Surfaces (HOTS)アルゴリズムは、期待できる能力を示すが、ニューロモルフィックハードウェアとの精度と互換性の課題に直面する。 本稿では,これらの課題に対処するためのセミスーパーバイザアルゴリズムであるSup3rを紹介する。 Sup3rはHOTSネットワークのスパーシビリティ、安定性、分離性を向上させる。 半教師付き学習を利用することで、外部分類器を置き換えるHOTSネットワークのエンドツーエンドのオンライントレーニングを可能にする。 Sup3rはクラス不変パターンを学び、相反する特徴を緩和し、処理されたイベントの数を減らす。 さらに、Sup3rは連続的および漸進的な学習を促進し、データ分散シフトへの適応と、忘れずに新しいタスクの学習を可能にする。 N-MNISTの予備的な結果は、Sup3rがバックプロパゲーションで訓練された同様の大きさの人工ニューラルネットワークと同等の精度を達成していることを示している。 この研究は、Sup3rがHOTSネットワークの能力を向上させる可能性を示し、現実世界の応用におけるニューロモルフィックアルゴリズムの有望な道を提供する。

The Hierarchy Of Time-Surfaces (HOTS) algorithm, a neuromorphic approach for feature extraction from event data, presents promising capabilities but faces challenges in accuracy and compatibility with neuromorphic hardware. In this paper, we introduce Sup3r, a Semi-Supervised algorithm aimed at addressing these challenges. Sup3r enhances sparsity, stability, and separability in the HOTS networks. It enables end-to-end online training of HOTS networks replacing external classifiers, by leveraging semi-supervised learning. Sup3r learns class-informative patterns, mitigates confounding features, and reduces the number of processed events. Moreover, Sup3r facilitates continual and incremental learning, allowing adaptation to data distribution shifts and learning new tasks without forgetting. Preliminary results on N-MNIST demonstrate that Sup3r achieves comparable accuracy to similarly sized Artificial Neural Networks trained with back-propagation. This work showcases the potential of Sup3r to advance the capabilities of HOTS networks, offering a promising avenue for neuromorphic algorithms in real-world applications.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-15
# ハードウェアコストの多様性を利用した多目的ハードウェア認識ニューラルアーキテクチャ探索

Multi-Objective Hardware Aware Neural Architecture Search using Hardware Cost Diversity ( http://arxiv.org/abs/2404.12403v1 )

ライセンス: Link先を確認
Nilotpal Sinha, Peyman Rostami, Abd El Rahman Shabayek, Anis Kacem, Djamila Aouada, (参考訳) ハードウェア対応のニューラルネットワーク探索(HW-NAS)アプローチは、特定のターゲットハードウェアプラットフォームに特化して設計されたディープラーニングアーキテクチャの設計を自動化する。 しかし、これらの技術は、主に特定アーキテクチャの性能を評価するための高価なプロセスのために、かなりの計算資源を必要とする。 この問題を軽減するため,最近の文献では表現類似度尺度を用いてアーキテクチャ性能を効率的に評価している。 しかしながら,本手法は本質的には単一目的の手法であるため,ハードウェアコストの制約を満たす最適なアーキテクチャセットを特定するために複数の実行を必要とするため,探索コストが増大する。 さらに、単一の目的を多目的のアプローチに変換するだけで、未探索のアーキテクチャ検索空間が得られる。 本研究では,MO-HDNASと呼ばれるHW-NAS問題に対処する多目的手法を提案する。 これは、表現類似度メトリックの最大化、ハードウェアコストの最小化、ハードウェアコストの多様性の最大化の3つの目的によって達成される。 第3の目的、すなわちハードウェアコストの多様性は、アーキテクチャ検索空間のより良い探索を容易にするために使用される。 画像分類タスクにおいて、6つのエッジデバイス間のHW-NAS問題に効率よく対処する上で,提案手法の有効性を実験的に示す。

Hardware-aware Neural Architecture Search approaches (HW-NAS) automate the design of deep learning architectures, tailored specifically to a given target hardware platform. Yet, these techniques demand substantial computational resources, primarily due to the expensive process of assessing the performance of identified architectures. To alleviate this problem, a recent direction in the literature has employed representation similarity metric for efficiently evaluating architecture performance. Nonetheless, since it is inherently a single objective method, it requires multiple runs to identify the optimal architecture set satisfying the diverse hardware cost constraints, thereby increasing the search cost. Furthermore, simply converting the single objective into a multi-objective approach results in an under-explored architectural search space. In this study, we propose a Multi-Objective method to address the HW-NAS problem, called MO-HDNAS, to identify the trade-off set of architectures in a single run with low computational cost. This is achieved by optimizing three objectives: maximizing the representation similarity metric, minimizing hardware cost, and maximizing the hardware cost diversity. The third objective, i.e. hardware cost diversity, is used to facilitate a better exploration of the architecture search space. Experimental results demonstrate the effectiveness of our proposed method in efficiently addressing the HW-NAS problem across six edge devices for the image classification task.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-15
# 大規模言語モデルを用いた合成語彙データ生成のためのグループワイド・プロンプト

Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models ( http://arxiv.org/abs/2404.12404v1 )

ライセンス: Link先を確認
Jinhee Kim, Taesung Kim, Jaegul Choo, (参考訳) リアルな合成表データを生成することは、機械学習において重要な課題である。 本研究では,Large Language Models (LLMs) を用いて合成データを生成する手法を提案する。 本稿では,LLMの文脈内学習機能を活用して,目標データセットの要求や特徴に忠実に準拠するデータを生成する,CSVスタイルの新たなグループワイドプロセッシング手法を提案する。 さらに,提案したランダムな単語置換戦略により,単調なカテゴリ値の扱いが大幅に改善され,合成データの精度と表現性が向上する。 提案手法の有効性は,8つの実世界のパブリックデータセットに対して広く検証され,下流分類および回帰作業における最先端のパフォーマンスが達成され,機能間相関を維持しつつ,既存のアプローチよりもトークン効率が向上した。 この進歩は、特に表型データ生成とクラス不均衡処理の文脈において、機械学習アプリケーションの重要な課題への対処に大きく貢献する。 私たちの作業のソースコードは、https://github.com/seharanul17/synthetic-tabular-LLMで公開されています。

Generating realistic synthetic tabular data presents a critical challenge in machine learning. This study introduces a simple yet effective method employing Large Language Models (LLMs) tailored to generate synthetic data, specifically addressing data imbalance problems. We propose a novel group-wise prompting method in CSV-style formatting that leverages the in-context learning capabilities of LLMs to produce data that closely adheres to the specified requirements and characteristics of the target dataset. Moreover, our proposed random word replacement strategy significantly improves the handling of monotonous categorical values, enhancing the accuracy and representativeness of the synthetic data. The effectiveness of our method is extensively validated across eight real-world public datasets, achieving state-of-the-art performance in downstream classification and regression tasks while maintaining inter-feature correlations and improving token efficiency over existing approaches. This advancement significantly contributes to addressing the key challenges of machine learning applications, particularly in the context of tabular data generation and handling class imbalance. The source code for our work is available at: https://github.com/seharanul17/synthetic-tabular-LLM
翻訳日:2024-04-22 17:13:50 公開日:2024-04-15
# 選択的分化のためのPyTorchのメモリ消費の低下

Lowering PyTorch's Memory Consumption for Selective Differentiation ( http://arxiv.org/abs/2404.12406v1 )

ライセンス: Link先を確認
Samarth Bhatia, Felix Dangel, (参考訳) メモリは多くのディープラーニングタスクの制限リソースです。 ニューラルネットワークの重みの他に、主要なメモリコンシューマの1つは、バックプロパゲーションのための自動微分(AD)によって構築された計算グラフである。 PyTorchの現在のAD実装は、計算グラフを保存する際にパラメータの微分可能性に関する情報を無視している。 この情報は、最近の多くの微調整タスクと同様に、パラメータサブセットに対して勾配が要求されるたびにメモリを削減するのに有用である。 具体的には、パラメータで線形に振る舞う層への入力(センス、畳み込み層、正規化層)は、パラメータが微分不可能であるとマークされるたびに破棄される。 このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。

Memory is a limiting resource for many deep learning tasks. Beside the neural network weights, one main memory consumer is the computation graph built up by automatic differentiation (AD) for backpropagation. We observe that PyTorch's current AD implementation neglects information about parameter differentiability when storing the computation graph. This information is useful though to reduce memory whenever gradients are requested for a parameter subset, as is the case in many modern fine-tuning tasks. Specifically, inputs to layers that act linearly in their parameters (dense, convolution, or normalization layers) can be discarded whenever the parameters are marked as non-differentiable. We provide a drop-in, differentiability-agnostic implementation of such layers and demonstrate its ability to reduce memory without affecting run time.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-15
# ブラックボックスの逆転性:サイバーセキュリティの観点からの実証的研究

Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective ( http://arxiv.org/abs/2404.10796v1 )

ライセンス: Link先を確認
Khushnaseeb Roshan, Aasim Zafar, (参考訳) サイバーセキュリティの領域における人工知能の急速な進歩は、重大なセキュリティ上の懸念を引き起こす。 敵攻撃におけるディープラーニングモデルの脆弱性は、大きな問題の1つだ。 敵対的機械学習では、悪意のあるユーザは、トレーニングまたはテストフェーズ中に、相手の摂動入力をモデルに挿入することで、ディープラーニングモデルを騙そうとします。 その後、モデルの信頼性スコアを減らし、誤った分類を行う。 この研究の新たな重要な貢献は、サイバー攻撃検知システムにおけるブラックボックスの敵対的伝達可能性現象を実証的にテストすることである。 シュロゲートモデルから発生する逆方向の摂動は, 誤った分類を生成する際に, 対象モデルに同様の影響を与えることが示唆された。 この現象を実証的に検証するために、代理モデルとターゲットモデルを用いる。 ハッカーが完全な情報を持っている代理モデルに基づいて、敵の摂動入力を生成する。 これらの対向摂動入力に基づいて、代理モデルとターゲットモデルの両方を推論フェーズで評価する。 我々はCICDDoS-2019データセットに対して広範な実験を行い、その結果は精度、精度、リコール、f1スコアなど、さまざまなパフォーマンス指標に分類されている。 その結果,攻撃者が攻撃対象モデルの内部情報にアクセスできなくても,どんなディープラーニングモデルでも敵攻撃に強い影響を受けやすいことが示唆された。 また, ブラックボックス攻撃と比較して, ホワイトボックス攻撃は深刻な影響があることが示唆された。 対人攻撃に対する深層学習モデルの堅牢性を高めるためには、敵防衛技術の調査と探索が必要である。

The rapid advancement of artificial intelligence within the realm of cybersecurity raises significant security concerns. The vulnerability of deep learning models in adversarial attacks is one of the major issues. In adversarial machine learning, malicious users try to fool the deep learning model by inserting adversarial perturbation inputs into the model during its training or testing phase. Subsequently, it reduces the model confidence score and results in incorrect classifications. The novel key contribution of the research is to empirically test the black-box adversarial transferability phenomena in cyber attack detection systems. It indicates that the adversarial perturbation input generated through the surrogate model has a similar impact on the target model in producing the incorrect classification. To empirically validate this phenomenon, surrogate and target models are used. The adversarial perturbation inputs are generated based on the surrogate-model for which the hacker has complete information. Based on these adversarial perturbation inputs, both surrogate and target models are evaluated during the inference phase. We have done extensive experimentation over the CICDDoS-2019 dataset, and the results are classified in terms of various performance metrics like accuracy, precision, recall, and f1-score. The findings indicate that any deep learning model is highly susceptible to adversarial attacks, even if the attacker does not have access to the internal details of the target model. The results also indicate that white-box adversarial attacks have a severe impact compared to black-box adversarial attacks. There is a need to investigate and explore adversarial defence techniques to increase the robustness of the deep learning models against adversarial attacks.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-15
# VQAのためのビジュアルグラウンドディングメソッドが間違った理由のために作業中!

Visual Grounding Methods for VQA are Working for the Wrong Reasons! ( http://arxiv.org/abs/2004.05704v3 )

ライセンス: Link先を確認
Robik Shrestha, Kushal Kafle, Christopher Kanan, (参考訳) 既存のVisual Question Answering (VQA) メソッドは、正しい理由のために正しい回答を生成するのではなく、データセットのバイアスと突発的な統計的相関を利用する傾向がある。 この問題に対処するため、近年のVQAのバイアス軽減手法では、視覚的手がかり(例えば、人間の注意マップ)をVQAモデルに組み込むことが提案されている。 しかし, 性能改善は視覚的接地の改善の結果ではなく, 言語的先行に過度に適合しない正規化効果を示す。 例えば、適切な人間ベースの手がかりを提供する必要はなく、ランダムで無感覚な手がかりも同様の改善をもたらす。 そこで本研究では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現した簡易な正規化手法を提案する。

Existing Visual Question Answering (VQA) methods tend to exploit dataset biases and spurious statistical correlations, instead of producing right answers for the right reasons. To address this issue, recent bias mitigation methods for VQA propose to incorporate visual cues (e.g., human attention maps) to better ground the VQA models, showcasing impressive gains. However, we show that the performance improvements are not a result of improved visual grounding, but a regularization effect which prevents over-fitting to linguistic priors. For instance, we find that it is not actually necessary to provide proper, human-based cues; random, insensible cues also result in similar improvements. Based on this observation, we propose a simpler regularization scheme that does not require any external annotations and yet achieves near state-of-the-art performance on VQA-CPv2.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-15
# 大バッチトレーニングのためのモーメント付き確率正規化グラディエントドライズ

Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training ( http://arxiv.org/abs/2007.13985v2 )

ライセンス: Link先を確認
Shen-Yi Zhao, Chang-Wei Shi, Yin-Peng Xie, Wu-Jun Li, (参考訳) 確率勾配降下~(SGD)とその変種は機械学習における支配的最適化手法である。 SGDと小バッチのトレーニングを比較すると、大バッチのトレーニングを持つSGDは、グラフィックス処理ユニット~(GPU)のような現在のマルチコアシステムの計算能力をより有効に活用でき、分散トレーニング設定における通信ラウンドの数を削減できる。 このように、大バッチトレーニングを施したSGDが注目されている。 しかし,既存の実験結果から,大バッチトレーニングが一般化精度の低下につながることが示唆された。 したがって,大規模バッチ学習における一般化能力の確保は課題となる。 本稿では, 運動量~(SNGM)を用いた確率正規化勾配降下法という, 単純で効果的な手法を提案する。 SNGMは、勾配計算の数が同じであれば、SGDの最も広く使われている変種の一つである運動量SGD~(MSGD)よりも大きなバッチサイズを適用でき、$\epsilon$-stationary 点に収束できることを示す。 深層学習における実験的な結果から,同規模のバッチサイズを採用する場合,SNGMはMSGDや他の最先端の大規模バッチトレーニング手法よりも高いテスト精度を達成可能であることが確認された。

Stochastic gradient descent~(SGD) and its variants have been the dominating optimization methods in machine learning. Compared to SGD with small-batch training, SGD with large-batch training can better utilize the computational power of current multi-core systems such as graphics processing units~(GPUs) and can reduce the number of communication rounds in distributed training settings. Thus, SGD with large-batch training has attracted considerable attention. However, existing empirical results showed that large-batch training typically leads to a drop in generalization accuracy. Hence, how to guarantee the generalization ability in large-batch training becomes a challenging task. In this paper, we propose a simple yet effective method, called stochastic normalized gradient descent with momentum~(SNGM), for large-batch training. We prove that with the same number of gradient computations, SNGM can adopt a larger batch size than momentum SGD~(MSGD), which is one of the most widely used variants of SGD, to converge to an $\epsilon$-stationary point. Empirical results on deep learning verify that when adopting the same large batch size, SNGM can achieve better test accuracy than MSGD and other state-of-the-art large-batch training methods.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-15
# 多様性保存型K-Armedバンド、再検討

Diversity-Preserving K-Armed Bandits, Revisited ( http://arxiv.org/abs/2010.01874v2 )

ライセンス: Link先を確認
Hédi Hadiji, Sébastien Gerchinovitz, Jean-Michel Loubes, Gilles Stoltz, (参考訳) 我々は,Celis et al (2019) が導入した多様性保存レコメンデーションのためのバンディットベースのフレームワークについて考察する。 設定の特定の構造を用いてUPBアルゴリズムを設計し、最適混合作用が全ての作用(つまり多様性が望ましい場合)に確率質量を課す場合、自然の場合において分布依存的後悔を享受することを示す。 後悔の低い境界は、そうでなければ、少なくともモデルが平均アンバウンドである場合、後悔が苦しめられることを示している。 また、ポリトープの特別な場合以外の例についても論じる。

We consider the bandit-based framework for diversity-preserving recommendations introduced by Celis et al. (2019), who approached it in the case of a polytope mainly by a reduction to the setting of linear bandits. We design a UCB algorithm using the specific structure of the setting and show that it enjoys a bounded distribution-dependent regret in the natural cases when the optimal mixed actions put some probability mass on all actions (i.e., when diversity is desirable). The regret lower bounds provided show that otherwise, at least when the model is mean-unbounded, a regret is suffered. We also discuss an example beyond the special case of polytopes.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-15
# マルチビュー・スタックリングにおけるビュー選択:メタ・ラーナーの選択

View selection in multi-view stacking: Choosing the meta-learner ( http://arxiv.org/abs/2010.16271v3 )

ライセンス: Link先を確認
Wouter van Loon, Marjolein Fokkema, Botond Szabo, Mark de Rooij, (参考訳) マルチビュー・スタックング(Multi-view stacking)は、異なるビュー(つまり異なる特徴集合)から同じオブジェクト群を記述する情報を組み合わせるためのフレームワークである。 このフレームワークでは、各ビューに対してベースラーナーアルゴリズムを個別にトレーニングし、その予測をメタラーナーアルゴリズムで組み合わせる。 前回の研究では、マルチビュー・スタックリングの特殊な例である、重ねられたペナル化ロジスティック回帰(英語版)が、どのビューが予測に最も重要であるかを特定するのに有用であることが示されている。 本稿では、メタラーナとして使用する7つの異なるアルゴリズムを検討し、シミュレーションにおけるビュー選択と分類性能を評価し、実際の遺伝子発現データセットに対する2つの応用について述べる。 以上の結果から,検討対象の視点選択と分類精度が重要である場合,非負のラッソ,非負の適応ラッソ,非負の弾性ネットが好適なメタラーナーであることが示唆された。 この3つのうちどれが好まれるかは、研究の文脈に依存している。 残りの4つのメタラーナー(非負の尾根回帰、非負の前方選択、安定性の選択、補間予測器)は、他の3つよりも好まれる利点はほとんどなかった。

Multi-view stacking is a framework for combining information from different views (i.e. different feature sets) describing the same set of objects. In this framework, a base-learner algorithm is trained on each view separately, and their predictions are then combined by a meta-learner algorithm. In a previous study, stacked penalized logistic regression, a special case of multi-view stacking, has been shown to be useful in identifying which views are most important for prediction. In this article we expand this research by considering seven different algorithms to use as the meta-learner, and evaluating their view selection and classification performance in simulations and two applications on real gene-expression data sets. Our results suggest that if both view selection and classification accuracy are important to the research at hand, then the nonnegative lasso, nonnegative adaptive lasso and nonnegative elastic net are suitable meta-learners. Exactly which among these three is to be preferred depends on the research context. The remaining four meta-learners, namely nonnegative ridge regression, nonnegative forward selection, stability selection and the interpolating predictor, show little advantages in order to be preferred over the other three.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-15
# 旅行セールスマン問題におけるmlroseの改善

Improvements for mlrose applied to the Traveling Salesperson Problem ( http://arxiv.org/abs/2109.14392v3 )

ライセンス: Link先を確認
Stefan Wintersteller, Martin Uray, Michael Lehenauer, Stefan Huber, (参考訳) 本稿では,旅行セールスマン問題(TSP)の事例として,ハイベイストレージにおける2次元コミッショニング問題の実例として,人工知能(AI)の適用について論じる。 種々のヒューリスティック最適化手法に基づくTSP最適化を提供するmlroseライブラリについて検討する。 我々は,mlroseによって提供されるGAとHCという2つの手法に注目した。 本稿では,TSPの問題点構造を適度に活用することにより,ツアー長を短縮する両手法の改善を提案する。 つまり、提案された改善は汎用的な特徴を持ち、TSPに限らない。

In this paper we discuss the application of Artificial Intelligence (AI) to the exemplary industrial use case of the two-dimensional commissioning problem in a high-bay storage, which essentially can be phrased as an instance of Traveling Salesperson Problem (TSP). We investigate the mlrose library that provides an TSP optimizer based on various heuristic optimization techniques. Our focus is on two methods, namely Genetic Algorithm (GA) and Hill Climbing (HC), which are provided by mlrose. We present improvements for both methods that yield shorter tour lengths, by moderately exploiting the problem structure of TSP. That is, the proposed improvements have a generic character and are not limited to TSP only.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-15
# ニューラルニットワーク: パッチされたニューラルインシシデント表現ネットワーク

Neural Knitworks: Patched Neural Implicit Representation Networks ( http://arxiv.org/abs/2109.14406v2 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Javier Cardona, Robert Atkinson, Craig Michie, Ivan Andonovic, Carmine Clemente, Christos Tachtatzis, (参考訳) コーディネートベースのマルチレイヤパーセプトロン(MLP)ネットワークは、ニューラルな暗黙表現を学習できるが、内部画像合成アプリケーションでは動作しない。 畳み込みニューラルネットワーク(CNN)は通常、より大きなモデルに代えて、様々な内部生成タスクに代えて使用される。 ニューラルニットワーク(Neural Knitwork)は、自然な画像の暗黙的表現学習のためのアーキテクチャで、画像パッチの分布を対角的に最適化し、パッチ予測間の一貫性を強制することにより、画像合成を実現する。 我々の知る限りでは、画像の塗布、超解像、復調といった合成作業に適した座標ベースのMLPの実装は、これが初めてである。 これら3つのタスクをトレーニングすることで,提案手法の有用性を実証する。 その結果, ピクセルではなくパッチを用いた自然な画像のモデリングにより, 忠実度が高い結果が得られた。 結果として得られたモデルは、他のCNNベースのソリューションよりも80%少ないパラメータを必要とする一方で、同等のパフォーマンスとトレーニング時間を達成する。

Coordinate-based Multilayer Perceptron (MLP) networks, despite being capable of learning neural implicit representations, are not performant for internal image synthesis applications. Convolutional Neural Networks (CNNs) are typically used instead for a variety of internal generative tasks, at the cost of a larger model. We propose Neural Knitwork, an architecture for neural implicit representation learning of natural images that achieves image synthesis by optimizing the distribution of image patches in an adversarial manner and by enforcing consistency between the patch predictions. To the best of our knowledge, this is the first implementation of a coordinate-based MLP tailored for synthesis tasks such as image inpainting, super-resolution, and denoising. We demonstrate the utility of the proposed technique by training on these three tasks. The results show that modeling natural images using patches, rather than pixels, produces results of higher fidelity. The resulting model requires 80% fewer parameters than alternative CNN-based solutions while achieving comparable performance and training time.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# 相互非バイアス基底:多項式最適化と対称性

Mutually unbiased bases: polynomial optimization and symmetry ( http://arxiv.org/abs/2111.05698v5 )

ライセンス: Link先を確認
Sander Gribling, Sven Polak, (参考訳) k$ の正則基底の集合 $\mathbb C^d$ が互いに非バイアスであるとき、$|\langle e,f\rangle |^2 = 1/d$ は、任意の $e$ と $f$ は異なる基底の基底ベクトルである。 自然な疑問は、ある対 $(d,k)$ が、次元 $d$ において互いに偏りのない基底 ~$k$ が存在するかである。 良く知られた)上界 $k \leq d+1$ は、~$d$ が素数の力であるときに達成される。 他のすべての次元に対して、それは境界が到達できるかどうかという開問題である。 Navascu\'es, Pironio, Ac\'in は、ある$C^*$-algebraの存在という観点から、存在論を再構成する方法を示した。 これは自然に非可換多項式最適化問題と半定値プログラムの関連階層に繋がる。 この問題は、wreath積の$S_d$と$S_k$から生じる対称性を持つ。 この対称性を利用して(解析的に)半定値プログラムのサイズを減らし(数的に)トラクタブルにする。 鍵となるステップは、$S_d \wr S_k$-加群 $\mathbb C^{([d]\times [k])^t}$ を既約加群に分解することである。 階層の小さい$d,k$と低いレベルの数値結果を示す。 特に、(よく知られた)事実に対して、次元~$d=2,3,4,5,6,7,8$の互いに偏りのない基底が存在しないという2乗証明を得る。 さらに, 上述のフレームワークでは, 次元6ドルで3ドル以上のMUBが存在する場合, 総次数から12ドル程度の多項式が要求されることが示唆された。

A set of $k$ orthonormal bases of $\mathbb C^d$ is called mutually unbiased if $|\langle e,f\rangle |^2 = 1/d$ whenever $e$ and $f$ are basis vectors in distinct bases. A natural question is for which pairs $(d,k)$ there exist~$k$ mutually unbiased bases in dimension $d$. The (well-known) upper bound $k \leq d+1$ is attained when~$d$ is a power of a prime. For all other dimensions it is an open problem whether the bound can be attained. Navascu\'es, Pironio, and Ac\'in showed how to reformulate the existence question in terms of the existence of a certain $C^*$-algebra. This naturally leads to a noncommutative polynomial optimization problem and an associated hierarchy of semidefinite programs. The problem has a symmetry coming from the wreath product of $S_d$ and $S_k$. We exploit this symmetry (analytically) to reduce the size of the semidefinite programs making them (numerically) tractable. A key step is a novel explicit decomposition of the $S_d \wr S_k$-module $\mathbb C^{([d]\times [k])^t}$ into irreducible modules. We present numerical results for small $d,k$ and low levels of the hierarchy. In particular, we obtain sum-of-squares proofs for the (well-known) fact that there do not exist $d+2$ mutually unbiased bases in dimensions~$d=2,3,4,5,6,7,8$. Moreover, our numerical results indicate that a sum-of-squares refutation, in the above-mentioned framework, of the existence of more than $3$ MUBs in dimension $6$ requires polynomials of total degree at least~$12$.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# Universal Inferenceがランダム・プロジェクションと出会う: ログ・コンキャビティのためのスケーラブルなテスト

Universal Inference Meets Random Projections: A Scalable Test for Log-concavity ( http://arxiv.org/abs/2111.09254v4 )

ライセンス: Link先を確認
Robin Dunn, Aditya Gangrade, Larry Wasserman, Aaditya Ramdas, (参考訳) 形状制約は、データの分布をモデル化するための完全に非パラメトリックなアプローチと完全にパラメトリックなアプローチの間に柔軟な中間層をもたらす。 対数共振の特定の仮定は、経済学、生存モデリング、信頼性理論にまたがる応用によって動機付けられている。 しかしながら、あるデータの根底にある密度が対数凹であるかどうかの有効なテストは今のところ存在しない。 最近の普遍的推論手法は有効なテストを提供する。 普遍的なテストは最大推定(MLE)に依存しており、ログ凹面MLEを見つけるための効率的な方法がすでに存在する。 これにより、任意の次元の有限標本で証明可能な対数凹凸の最初のテストが得られ、漸近的整合性も確立する。 経験的に、d次元テスト問題を多くの1次元問題に変換するランダムプロジェクションアプローチは高出力となり、統計的かつ計算効率の簡単な手順が導かれる。

Shape constraints yield flexible middle grounds between fully nonparametric and fully parametric approaches to modeling distributions of data. The specific assumption of log-concavity is motivated by applications across economics, survival modeling, and reliability theory. However, there do not currently exist valid tests for whether the underlying density of given data is log-concave. The recent universal inference methodology provides a valid test. The universal test relies on maximum likelihood estimation (MLE), and efficient methods already exist for finding the log-concave MLE. This yields the first test of log-concavity that is provably valid in finite samples in any dimension, for which we also establish asymptotic consistency results. Empirically, we find that a random projections approach that converts the d-dimensional testing problem into many one-dimensional problems can yield high power, leading to a simple procedure that is statistically and computationally efficient.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# シングル・ピークネスを超える施設配置ゲーム:入場料モデル

Facility Location Games Beyond Single-Peakedness: the Entrance Fee Model ( http://arxiv.org/abs/2204.11282v2 )

ライセンス: Link先を確認
Mengfan Ma, Mingyu Xiao, Tian Bai, Bakh Khoussainov, (参考訳) 施設位置ゲームは機構設計において広く研究されている。 古典的なモデルでは、各エージェントのコストは、最も近い施設までの距離によって決定される。 本稿では,各施設が入場料を課金する新しいモデルを提案する。 これにより、各エージェントのコストは、施設への距離と施設の入場料の両方によって決定される。 我々のモデルでは、入場料関数は任意の関数として認められ、エージェントの選好はもはや単一話者化されないかもしれない。 モデルの複雑さを体系的に探究し、近似比が好ましい戦略防御機構を設計する。 さらに、これらの比率をほぼ八度不合理な結果で補完する。 具体的には, 1-facility と 2-facility のゲームにおいて, 実用的・平等的目的に対する決定的・ランダム化機構によって与えられる近似比の上限を上下に設定する。

The facility location game has been studied extensively in mechanism design. In the classical model, each agent's cost is solely determined by her distance to the nearest facility. In this paper, we introduce a novel model where each facility charges an entrance fee. Thus, the cost of each agent is determined by both the distance to the facility and the entrance fee of the facility. In our model, the entrance fee function is allowed to be an arbitrary function, causing agents' preferences may no longer be single-peaked anymore: This departure from the classical model introduces additional challenges. We systematically delve into the intricacies of the model, designing strategyproof mechanisms with favorable approximation ratios. Additionally, we complement these ratios with nearly-tight impossibility results. Specifically, for one-facility and two-facility games, we provide upper and lower bounds for the approximation ratios given by deterministic and randomized mechanisms with respect to utilitarian and egalitarian objectives.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# プリンシパル・エージェント仮説テスト

Principal-Agent Hypothesis Testing ( http://arxiv.org/abs/2205.06812v3 )

ライセンス: Link先を確認
Stephen Bates, Michael I. Jordan, Michael Sklar, Jake A. Soloff, (参考訳) 規制当局(プリンシパル)と、医薬品会社のような実験者(エージェント)との関係を考える。 製薬会社は利益のために薬の販売を希望する一方、規制当局は効力のある薬のみの販売を認めることを望んでいる。 医薬品の有効性は規制当局に知られていないため、医薬品会社は規制当局に有効性を証明するために費用がかかる裁判を行わなければならない。 批判的に、有効性を確立するために使用される統計プロトコルは、戦略的な自己関心のエージェントの行動に影響を与える。 統計プロトコルと製薬会社のインセンティブとの相互作用は、このシステムを理解し、高い社会的ユーティリティでプロトコルを設計するために重要である。 そこで本研究では,統計的証拠に基づいて,規制当局が報酬付きプロトコルを構築する方法について論じる。 エージェントの戦略行動に頑健なプロトコルを設計する方法を示し、戦略参加者の存在下で最適なプロトコルを導出する。

Consider the relationship between a regulator (the principal) and an experimenter (the agent) such as a pharmaceutical company. The pharmaceutical company wishes to sell a drug for profit, whereas the regulator wishes to allow only efficacious drugs to be marketed. The efficacy of the drug is not known to the regulator, so the pharmaceutical company must run a costly trial to prove efficacy to the regulator. Critically, the statistical protocol used to establish efficacy affects the behavior of a strategic, self-interested agent; a lower standard of statistical evidence incentivizes the agent to run more trials that are less likely to be effective. The interaction between the statistical protocol and the incentives of the pharmaceutical company is crucial for understanding this system and designing protocols with high social utility. In this work, we discuss how the regulator can set up a protocol with payoffs based on statistical evidence. We show how to design protocols that are robust to an agent's strategic actions, and derive the optimal protocol in the presence of strategic entrants.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# 量子自然言語処理の最近の進歩

Near-Term Advances in Quantum Natural Language Processing ( http://arxiv.org/abs/2206.02171v3 )

ライセンス: Link先を確認
Dominic Widdows, Aaranya Alexander, Daiwei Zhu, Chase Zimmerman, Arunava Majumder, (参考訳) 本稿では, 自然言語処理(NLP)におけるいくつかのタスクが, 量子コンピュータを用いてすでに実行可能であることを示す実験について述べる。 トピック分類への様々なアプローチを示す。 1つ目は、単語トピックのスコアリング重みを個々のキュービットの分数回転として実装する明示的な単語ベースのアプローチであり、新しいフレーズは、エンタングリング制御NOTゲートを用いたスコアリングキュービットにおけるこれらの重みの蓄積に基づいて分類される。 これは、量子サポートベクトルマシンのカーネル値の計算に使用される単語埋め込みベクトルのよりスケーラブルな量子符号化と比較される。 本稿では, 単語列や形式概念に適用可能なビッグラムモデリングへの量子確率的アプローチ, 量子回路Born Machineを用いてこれらの分布に対する生成近似を探索し, 単純な名詞と2量子制御NOTゲートのための単一量子ビット回転を用いた動詞合成におけるあいまいさ解消へのアプローチについて述べる。 記述されたより小さなシステムは物理量子コンピュータ上でうまく動作し、より大きなシステムはシミュレートされている。 実際のデータセットを用いて統計的に有意な結果が得られることを示すが、これまで量子NLPシステムの開発に用いられてきた人工言語よりも予測が難しい。 量子NLPに対する他のアプローチは、部分的には非公式言語、流布、真実性を含む現代の問題に関して比較される。

This paper describes experiments showing that some tasks in natural language processing (NLP) can already be performed using quantum computers, though so far only with small datasets. We demonstrate various approaches to topic classification. The first uses an explicit word-based approach, in which word-topic scoring weights are implemented as fractional rotations of individual qubit, and a new phrase is classified based on the accumulation of these weights in a scoring qubit using entangling controlled-NOT gates. This is compared with more scalable quantum encodings of word embedding vectors, which are used in the computation of kernel values in a quantum support vector machine: this approach achieved an average of 62% accuracy on classification tasks involving over 10000 words, which is the largest such quantum computing experiment to date. We describe a quantum probability approach to bigram modeling that can be applied to sequences of words and formal concepts, investigating a generative approximation to these distributions using a quantum circuit Born machine, and an approach to ambiguity resolution in verb-noun composition using single-qubit rotations for simple nouns and 2-qubit controlled-NOT gates for simple verbs. The smaller systems described have been run successfully on physical quantum computers, and the larger ones have been simulated. We show that statistically meaningful results can be obtained using real datasets, but this is much more difficult to predict than with easier artificial language examples used previously in developing quantum NLP systems. Other approaches to quantum NLP are compared, partly with respect to contemporary issues including informal language, fluency, and truthfulness.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# パラメータ化量子回路を用いた断熱量子コンピューティング

Adiabatic quantum computing with parameterized quantum circuits ( http://arxiv.org/abs/2206.04373v3 )

ライセンス: Link先を確認
Ioannis Kolotouros, Ioannis Petrongonas, Miloš Prokop, Petros Wallden, (参考訳) アディアバティック量子コンピューティング(Adiabatic quantum computing)は、ゲートベースの量子コンピュータを用いた量子コンピューティングの普遍的なモデルであり、初期のフォールトトレラント時代には到達不可能な深さを必要とする。 短期機器の限界を軽減するために、パラメータ化量子回路が量子状態を準備して測定する多くのハイブリッドアプローチが追求され、古典最適化アルゴリズムは関心問題の解を包含する目的関数を最小化する。 本研究では、ハミルトンの小さな摂動が、パラメータ化された量子状態の族内のエネルギーを最小化するパラメータにどのように影響するかを分析することから、異なるアプローチを提案する。 我々は、摂動系上の一連の観測可能量を測定することで得られる、制約付き線形方程式系を解くことで、新しい最小値を計算することができる方程式の集合を導出する。 そこで我々は,パラメータの初期化や変分量子アルゴリズムの最適化部で妨げられる他の制限に敏感であると同時に,短期的なデバイスで実装可能な,断熱量子コンピューティングの離散バージョンを提案する。 我々は,提案アルゴリズムと変分量子固有解法を比較し,量子スピン構成問題であるTransverse-Field Ising Chainモデルを用いて,従来の最適化問題であるMaxCutとNumber Partitioningの2つを比較し,提案手法が優れた性能を示すことを確認した。

Adiabatic quantum computing is a universal model for quantum computing whose implementation using a gate-based quantum computer requires depths that are unreachable in the early fault-tolerant era. To mitigate the limitations of near-term devices, a number of hybrid approaches have been pursued in which a parameterized quantum circuit prepares and measures quantum states and a classical optimization algorithm minimizes an objective function that encompasses the solution to the problem of interest. In this work, we propose a different approach starting by analyzing how a small perturbation of a Hamiltonian affects the parameters that minimize the energy within a family of parameterized quantum states. We derive a set of equations that allow us to compute the new minimum by solving a constrained linear system of equations that is obtained from measuring a series of observables on the unperturbed system. We then propose a discrete version of adiabatic quantum computing that can be implemented in a near-term device while at the same time is insensitive to the initialization of the parameters and to other limitations hindered in the optimization part of variational quantum algorithms. We compare our proposed algorithm with the Variational Quantum Eigensolver on two classical optimization problems, namely MaxCut and Number Partitioning, and on a quantum-spin configuration problem, the Transverse-Field Ising Chain model, and confirm that our approach demonstrates superior performance.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# 絡み合いと他の量子資源の触媒作用

Catalysis of entanglement and other quantum resources ( http://arxiv.org/abs/2207.05694v3 )

ライセンス: Link先を確認
Chandan Datta, Tulja Varun Kondra, Marek Miller, Alexander Streltsov, (参考訳) 化学において、触媒は化学反応を可能とし、その速度を上昇させる物質である。 化学反応の代わりに、量子触媒は、物理的制約の下で量子状態を互いに変換する能力を高める。 制約の性質は研究中の問題に依存し、例えばエネルギー保存から生じる可能性がある。 本稿では、量子触媒の最近の展開を概観し、この研究の方向性を歴史的に概観する。 量子エンタングルメントとコヒーレンスの触媒作用に着目し、量子熱力学や一般量子資源理論においてこの現象を論じる。 我々は、量子触媒の応用をレビューし、また、触媒の量子状態が変換される状態に依存しない、普遍触媒の最近の取り組みについても論じる。 触媒のエンベジングも考慮されており、触媒の状態が遷移に変化した場合に起こる現象である。

In chemistry, a catalyst is a substance which enables a chemical reaction or increases its rate, while remaining unchanged in the process. Instead of chemical reactions, quantum catalysis enhances our ability to convert quantum states into each other under physical constraints. The nature of the constraints depends on the problem under study and can arise, e.g., from energy preservation. This article reviews the most recent developments in quantum catalysis and gives a historical overview of this research direction. We focus on the catalysis of quantum entanglement and coherence, and also discuss this phenomenon in quantum thermodynamics and general quantum resource theories. We review applications of quantum catalysis and also discuss the recent efforts on universal catalysis, where the quantum state of the catalyst does not depend on the states to be transformed. Catalytic embezzling is also considered, a phenomenon that occurs if the catalyst's state can change in the transition.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-15
# 安定端における適応的勾配法

Adaptive Gradient Methods at the Edge of Stability ( http://arxiv.org/abs/2207.14484v2 )

ライセンス: Link先を確認
Jeremy M. Cohen, Behrooz Ghorbani, Shankar Krishnan, Naman Agarwal, Sourabh Medapati, Michal Badura, Daniel Suo, David Cardoze, Zachary Nado, George E. Dahl, Justin Gilmer, (参考訳) ディープラーニングにおけるAdamのような適応勾配法のトレーニング力学についてはほとんど知られていない。 本稿では,全バッチおよび十分大きなバッチ設定において,これらのアルゴリズムの動作について光を当てる。 具体的には、フルバッチトレーニングの間、プレコンディショニングされたヘッセンの最大固有値は、勾配降下アルゴリズムの安定性しきい値であるある数値で概ね等しいことを実証的に示す。 ステップサイズが$\eta$と$\beta_1 = 0.9$のAdamの場合、この安定性閾値は38/\eta$である。 特にバッチサイズが大きくなると、同様の効果がミニバッチトレーニング中に発生する。 しかし、適応的手法は「安定性のエッジ」 (AEoS) で訓練されるが、この体制におけるそれらの振る舞いは、EoSにおける非適応的手法とは大きく異なる。 EoSの非適応アルゴリズムは損失ランドスケープの高曲率領域への進入を妨げているが、AEoSの適応勾配法は、プリコンディショナに補償を施しつつ、高曲率領域への進入を継続することができる。 この知見は,ディープラーニングにおける適応的勾配法に関するコミュニティの今後の理解の基盤となる。

Very little is known about the training dynamics of adaptive gradient methods like Adam in deep learning. In this paper, we shed light on the behavior of these algorithms in the full-batch and sufficiently large batch settings. Specifically, we empirically demonstrate that during full-batch training, the maximum eigenvalue of the preconditioned Hessian typically equilibrates at a certain numerical value -- the stability threshold of a gradient descent algorithm. For Adam with step size $\eta$ and $\beta_1 = 0.9$, this stability threshold is $38/\eta$. Similar effects occur during minibatch training, especially as the batch size grows. Yet, even though adaptive methods train at the ``Adaptive Edge of Stability'' (AEoS), their behavior in this regime differs in a significant way from that of non-adaptive methods at the EoS. Whereas non-adaptive algorithms at the EoS are blocked from entering high-curvature regions of the loss landscape, adaptive gradient methods at the AEoS can keep advancing into high-curvature regions, while adapting the preconditioner to compensate. Our findings can serve as a foundation for the community's future understanding of adaptive gradient methods in deep learning.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# 冠動脈および心筋空間データのポストプロセッシング

Post-processing of coronary and myocardial spatial data ( http://arxiv.org/abs/2207.14624v2 )

ライセンス: Link先を確認
Jay Aodh Mackenzie, Megan Jeanne Miller, Nicholas Hill, Mette Olufsen, (参考訳) 実世界の現象の数値シミュレーションは、少なくとも2つの部分(計算スキームと計算領域)で実施される。 血液力学の文脈では、シミュレーションの計算領域は、血流が流れる血管網を表す。 このような血管ネットワークは、数百万の個々の血管を結合して連続的に形成し、並列にネットワークを形成することができる。 すべての血管の血流を明示的にシミュレートすることは、計算上不可能である。 ここでは, ブタの左冠状動脈枝を画像化したデータから, 冠状血管樹を表わすグラフから, 血行動態シミュレーションの計算領域を得るためのデータピペリンを開発した。 さらに,左室のサブリージョンが,左室のAmerican Heart Association部門との比較により,特定の動脈を介して灌流される可能性が最も高いことを確認する方法を開発した。

Numerical simulations of real-world phenomenon are implemented with at least two parts: the computational scheme and the computational domain. In the context of hemodynamics, the computational domain of a simulation represents the blood vessel network through which blood flows. Such blood vessel networks can contain millions of individual vessels that are joined together to form a in series and parallel to form the network. It is computationally unfeasible to explicitly simulate blood flow in all blood vessels. Here, from imaged data of a single porcine left coronary arterial tree, we develop a data-pipeline to obtain computational domains for hemodynmaic simulations from a graph representing the coronary vascular tree. Further, we develop a method to ascertain which subregions of the left ventricle are most likely to be perfused via a given artery using a comparison with the American Heart Association division of the left ventricle as a sense check.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# ノード分類のためのグラフデータセットの特徴付け:ホモフィリー・ヘテロフィリー二分法とそれ以上

Characterizing Graph Datasets for Node Classification: Homophily-Heterophily Dichotomy and Beyond ( http://arxiv.org/abs/2209.06177v5 )

ライセンス: Link先を確認
Oleg Platonov, Denis Kuznedelev, Artem Babenko, Liudmila Prokhorenkova, (参考訳) ホモフィリー(英: Homophily)は、類似したノードを接続するエッジの傾向を記述するグラフ特性である。 異種グラフは、標準的なメッセージパスグラフニューラルネットワーク(GNN)では困難であると考えられており、この設定のための効率的な手法の開発に多くの努力が払われている。 しかし、文学においてホモフィリーの普遍的に合意された尺度は存在しない。 本研究では,一般的に使用されているホモフィリ測度が,異なるデータセット間でのホモフィリ測度の比較を妨げていることを示す。 このために、適切なホモフィリー測度に対して望ましい性質を定式化し、どの測度がどの性質を満たすかを検証する。 特に、調整されたホモフィリーと呼ばれる尺度は、他の一般的なホモフィリー測度よりも望ましい性質を満足する一方で、グラフ機械学習の文献ではほとんど使われていないことを示す。 そして、ホモフィリー・ヘテロフィリー二分法を超えて、異なるヘテロフィリーを更に区別できる新しい特徴を提案する。 提案したラベル情報度(LI)は、近隣のラベルがノードのラベルについてどれだけの情報を提供するかを特徴付ける。 この尺度が重要な望ましい性質を満たすことを証明している。 また、LIはホモフィリ測度よりもGNNの性能によく一致していることを実証的に観察し、グラフ構造の有用な特性であることを確認した。

Homophily is a graph property describing the tendency of edges to connect similar nodes; the opposite is called heterophily. It is often believed that heterophilous graphs are challenging for standard message-passing graph neural networks (GNNs), and much effort has been put into developing efficient methods for this setting. However, there is no universally agreed-upon measure of homophily in the literature. In this work, we show that commonly used homophily measures have critical drawbacks preventing the comparison of homophily levels across different datasets. For this, we formalize desirable properties for a proper homophily measure and verify which measures satisfy which properties. In particular, we show that a measure that we call adjusted homophily satisfies more desirable properties than other popular homophily measures while being rarely used in graph machine learning literature. Then, we go beyond the homophily-heterophily dichotomy and propose a new characteristic that allows one to further distinguish different sorts of heterophily. The proposed label informativeness (LI) characterizes how much information a neighbor's label provides about a node's label. We prove that this measure satisfies important desirable properties. We also observe empirically that LI better agrees with GNN performance compared to homophily measures, which confirms that it is a useful characteristic of the graph structure.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# OODインテント分類のためのオープンワールドロッキーチケット仮説

The Open-World Lottery Ticket Hypothesis for OOD Intent Classification ( http://arxiv.org/abs/2210.07071v2 )

ライセンス: Link先を確認
Yunhua Zhou, Pengyu Wang, Peiju Liu, Yuxin Wang, Xipeng Qiu, (参考訳) 既存のOOD(Out-of-Domain)の意図的な分類法は、広範囲な補助的なOODコーパスや特定の訓練パラダイムに依存している。 しかしながら、モデルがドメイン内および外部の意図に対する信頼を区別するべきだという基本的な原則では、これらは未発達である。 本研究では,OOD上でのモデル過信の根本的な原因を明らかにするとともに,過パラメータ化モデルを用いてキャリブレーションされたサブネットを発見できることを実証する。 サブネットワークが提供するキャリブレーションされた信頼性は、ほとんどすべてのポストホックメソッドの利点となるIn-とOut-of-ドメインをよりよく区別することができる。 基本的な洞察をもたらすことに加えて、Luttery Ticket仮説をオープンワールドのシナリオにも拡張しています。 実世界の4つのデータセットに対する広範な実験を行い、我々のアプローチが、競争力のあるベースラインのスイートと比較して一貫した改善を確立することができることを実証します。

Most existing methods of Out-of-Domain (OOD) intent classification rely on extensive auxiliary OOD corpora or specific training paradigms. However, they are underdeveloped in the underlying principle that the models should have differentiated confidence in In- and Out-of-domain intent. In this work, we shed light on the fundamental cause of model overconfidence on OOD and demonstrate that calibrated subnetworks can be uncovered by pruning the overparameterized model. Calibrated confidence provided by the subnetwork can better distinguish In- and Out-of-domain, which can be a benefit for almost all post hoc methods. In addition to bringing fundamental insights, we also extend the Lottery Ticket Hypothesis to open-world scenarios. We conduct extensive experiments on four real-world datasets to demonstrate our approach can establish consistent improvements compared with a suite of competitive baselines.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# 実世界スパース計測からの推測

Inference from Real-World Sparse Measurements ( http://arxiv.org/abs/2210.11269v7 )

ライセンス: Link先を確認
Arnaud Pannatier, Kyle Matoba, François Fleuret, (参考訳) 実世界の問題は、しばしば複雑で非構造的な測定セットが伴うが、これはセンサーが空間または時間に狭く配置されているときに起こる。 この不規則な時空間データをモデル化し、意味のある予測を抽出できることが不可欠である。 セットからセットまで様々な位置で測定セットを処理し、どこからでも読み出しを抽出できるディープラーニングアーキテクチャは、方法論的に困難である。 現在の最先端モデルはグラフニューラルネットワークであり、適切なセットアップのためにドメイン固有の知識を必要とする。 本稿では,ロバスト性と実用性に着目したアテンションベースモデルを提案する。 まず、コンテクストポイントと読み出し位置の両方を入力とし、エンコーダ・デコーダ構造を必要としないViTライクなトランスフォーマーを採用する。 第2に、コンテキストと読み出し位置の両方を符号化する統一的な手法を用いる。 このアプローチは意図的に単純で、他のシステムとうまく統合されています。 既存のアプローチと比較して、私たちのモデルはシンプルで、専門的な知識を必要とせず、問題のあるボトルネック効果に悩まされず、いずれも優れたパフォーマンスに寄与します。 情報利用を阻害し、訓練効率を阻害する代替モデルの潜在表現において、この問題を特徴づける詳細なアブレーション研究を行う。 また,高高度風速流,2日間の天気予報,流体力学,熱拡散などの諸問題領域についても実験を行った。 我々の注意に基づくモデルは、不規則にサンプリングされたデータを扱う際に、常に最先端のモデルより優れています。 特に,風速9.24から7.98へ,熱拡散タスク0.126から0.084へ,根平均二乗誤差(RMSE)を減少させる。

Real-world problems often involve complex and unstructured sets of measurements, which occur when sensors are sparsely placed in either space or time. Being able to model this irregular spatiotemporal data and extract meaningful forecasts is crucial. Deep learning architectures capable of processing sets of measurements with positions varying from set to set, and extracting readouts anywhere are methodologically difficult. Current state-of-the-art models are graph neural networks and require domain-specific knowledge for proper setup. We propose an attention-based model focused on robustness and practical applicability, with two key design contributions. First, we adopt a ViT-like transformer that takes both context points and read-out positions as inputs, eliminating the need for an encoder-decoder structure. Second, we use a unified method for encoding both context and read-out positions. This approach is intentionally straightforward and integrates well with other systems. Compared to existing approaches, our model is simpler, requires less specialized knowledge, and does not suffer from a problematic bottleneck effect, all of which contribute to superior performance. We conduct in-depth ablation studies that characterize this problematic bottleneck in the latent representations of alternative models that inhibit information utilization and impede training efficiency. We also perform experiments across various problem domains, including high-altitude wind nowcasting, two-day weather forecasting, fluid dynamics, and heat diffusion. Our attention-based model consistently outperforms state-of-the-art models in handling irregularly sampled data. Notably, our model reduces the root mean square error (RMSE) for wind nowcasting from 9.24 to 7.98 and for heat diffusion tasks from 0.126 to 0.084.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# 連続冷媒原子線を用いた閉ループデュアル原子干渉計慣性センサ

Closed-Loop Dual-Atom-Interferometer Inertial Sensor with Continuous Cold Atomic Beams ( http://arxiv.org/abs/2210.15346v3 )

ライセンス: Link先を確認
Zhi-Xin Meng, Pei-Qiang Yan, Sheng-Zhe Wang, Xiao-Jie Li, Hong-bo Xue, Yan-Ying Feng, (参考訳) 我々は、加速と回転率の連続的な分離測定を実現することができる閉ループ光パルス原子干渉計の慣性センサを実証した。 このセンサーは二重ループ原子干渉計で動作し、同じラマン光パルスを空間的に分離したマッハ・ツェンダー配置で共有し、2D$^+$磁気光学トラップから反対方向に伝播する連続冷原子ビームを使用する。 加速度と回転速度はそれぞれ2つの原子干渉計信号の和と差で分離して同時に測定する。 また、慣性測定の感度は、単一の原子干渉計の感度の約1.86倍に向上する。 総干渉計信号からラマンレーザー位相を介してこれらの干渉計を位相ロックすることで、加速位相シフトをリアルタイムで補償し、ジャイロスコープのパーフォマンスを改善した。 我々は,0.87ms(参照領域$A=0.097$ mm$^2$)の短い尋問時間を用いて,加速度と回転率に対して6.1 \ \mu g$ と 840 nrad/s の長期安定性を達成した。 この研究は、高いデータレートと高い安定性を必要とするフィールドアプリケーションに使用される原子干渉計ベースの慣性測定ユニットのためのビルディングブロックを提供する。

We demonstrate a closed-loop light-pulse atom interferometer inertial sensor that can realize continuous decoupled measurements of acceleration and rotation rate. The sensor operates with double-loop atom interferometers, which share the same Raman light pulses in a spatially separated Mach-Zehnder configuration and use continuous cold atomic beams propagating in opposite directions from two 2D$^+$ magneto-optical trappings. Acceleration and the rotation rate are decoupled and simultaneously measured by the sum and difference of dual atom-interferometer signals, respectively. The sensitivities of inertial measurements are also increased to be approximately 1.86 times higher than that of a single atom interferometer. The acceleration phase shift is compensated in real time by phase-locking these interferometers via the Raman laser phases from the sum interferometer signal, and the gyroscope perfomance is improved. We achieve long-term stabilities of $6.1 \ \mu g$ and 840 nrad/s for the acceleration and the rotation rate, respectively, using a short interrogation time of 0.87ms (interference area $A=0.097$ mm$^2$). This work provides a building block for an atomic interferometer based inertial measurement unit for use in field applications that require a high data-rate and high stability.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# SoK: ブロックチェーンの分散化への戦略的なアプローチ

SoK: A Stratified Approach to Blockchain Decentralization ( http://arxiv.org/abs/2211.01291v3 )

ライセンス: Link先を確認
Christina Ovezik, Dimitris Karakostas, Aggelos Kiayias, (参考訳) 分散化は、金融技術分野の発展の最前線でブロックチェーンシステムを推進した主要なセキュリティ上のアドバンテージとして評価されている。 それにもかかわらず、その正確な意味論は高い論争と曖昧さを保ち、支持者や批評家は既存のシステムによって提供される分権化のレベルについて広く意見が分かれている。 この問題に対処するため,我々は分散化に関して現在の景観を体系化し,分散化の定義と測定に向けた今後の研究を支援する方法論を考案した。 当社のアプローチでは,ブロックチェーンシステムを複数の層あるいは層に分割し,それぞれが複数のカテゴリをカプセル化している可能性がある。 私たちのレイヤは,(1)ハードウェア,(2)ソフトウェア,(3)ネットワーク,(4)コンセンサス,(5)経済(トケノミクス),(6)クライアントAPI,(7)ガバナンス,(8)地理です。 この階層化によって,分散台帳(安全,生活性,プライバシ,安定性)が中央集権化やどのような方法で危険にさらされているか,各層について検討する。 また、ブロックチェーンシステムの分散状態に関する迅速な洞察を提供する実用的なテストである“最小分散テスト”も導入しています。 階層化された方法論を実際にどのように使用できるかを実証するために、Bitcoinに完全に(レイヤごとに)適用し、MDTを失敗させる1つ以上の"プロブレマティック"レイヤを構成するシステムの例を示します。 我々の研究は、分散化の測定と達成における課題を強調し、将来の研究が必要な様々な潜在的方向を示唆している。

Decentralization has been touted as the principal security advantage which propelled blockchain systems at the forefront of developments in the financial technology space. Its exact semantics nevertheless remain highly contested and ambiguous, with proponents and critics disagreeing widely on the level of decentralization offered by existing systems. To address this, we put forth a systematization of the current landscape with respect to decentralization and we derive a methodology that can help direct future research towards defining and measuring decentralization. Our approach dissects blockchain systems into multiple layers, or strata, each possibly encapsulating multiple categories, and it enables a unified method for measuring decentralization in each one. Our layers are (1) hardware, (2) software, (3) network, (4) consensus, (5) economics ("tokenomics"), (6) client API, (7) governance, and (8) geography. Armed with this stratification, we examine for each layer which pertinent properties of distributed ledgers (safety, liveness, privacy, stability) can be at risk due to centralization and in what way. We also introduce a practical test, the "Minimum Decentralization Test" which can provide quick insights about the decentralization state of a blockchain system. To demonstrate how our stratified methodology can be used in practice, we apply it fully (layer by layer) to Bitcoin, and we provide examples of systems which comprise one or more "problematic" layers that cause them to fail the MDT. Our work highlights the challenges in measuring and achieving decentralization, and suggests various potential directions where future research is needed.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-15
# CONDA: 自動運転車の視覚知覚における非教師なしドメイン適応学習

CONDA: Continual Unsupervised Domain Adaptation Learning in Visual Perception for Self-Driving Cars ( http://arxiv.org/abs/2212.00621v2 )

ライセンス: Link先を確認
Thanh-Dat Truong, Pierce Helton, Ahmed Moustafa, Jackson David Cothren, Khoa Luu, (参考訳) 教師なし領域適応手法は、自動運転車の視覚知覚においてセマンティックシーンセグメンテーションにおいて顕著な性能を達成しているが、現実のユースケースではこれらの手法は実用的ではない。 実際には、セグメンテーションモデルは、まだ確認されていない新しいデータに遭遇する可能性がある。 また、セグメンテーションモデルの以前のデータトレーニングは、プライバシーの問題によりアクセスできない場合がある。 そこで本研究では,これらの問題に対処するために,モデルが新しいデータの存在に関して継続的に学習し,適応することを可能にする,連続的教師なしドメイン適応(CONDA)アプローチを提案する。 さらに,提案手法は,従来のトレーニングデータにアクセスする必要なしに設計されている。 破滅的な忘れの問題を避け,セグメンテーションモデルの性能を維持するために,予測セグメンテーション分布シフトの制約を課すために,新たなBijective Maximum Likelihood lossを提案する。 連続的教師なし領域適応のベンチマーク実験の結果、提案手法の高度な性能を示した。

Although unsupervised domain adaptation methods have achieved remarkable performance in semantic scene segmentation in visual perception for self-driving cars, these approaches remain impractical in real-world use cases. In practice, the segmentation models may encounter new data that have not been seen yet. Also, the previous data training of segmentation models may be inaccessible due to privacy problems. Therefore, to address these problems, in this work, we propose a Continual Unsupervised Domain Adaptation (CONDA) approach that allows the model to continuously learn and adapt with respect to the presence of the new data. Moreover, our proposed approach is designed without the requirement of accessing previous training data. To avoid the catastrophic forgetting problem and maintain the performance of the segmentation models, we present a novel Bijective Maximum Likelihood loss to impose the constraint of predicted segmentation distribution shifts. The experimental results on the benchmark of continual unsupervised domain adaptation have shown the advanced performance of the proposed CONDA method.
翻訳日:2024-04-18 03:00:15 公開日:2024-04-15
# 量子資源理論に有限完全単調の集合が存在するか。

Is there a finite complete set of monotones in any quantum resource theory? ( http://arxiv.org/abs/2212.02473v3 )

ライセンス: Link先を確認
Chandan Datta, Ray Ganardi, Tulja Varun Kondra, Alexander Streltsov, (参考訳) エンタングルメント量子化は、量子情報処理タスクにおける量子状態の値を評価することを目的としている。 密接に関連する問題は状態変換性であり、2つのリモートパーティが量子粒子を交換することなく共有量子状態を別のパーティに変換できるかどうかを問う。 ここでは、量子絡み合いと一般的な量子資源理論に対するこの接続について検討する。 リソース自由な純粋状態を含む任意の量子資源理論に対して、全ての状態変換を完全に決定するリソース単調の有限集合が存在しないことが示される。 これらの制限は、不連続あるいは無限のモノトンの集合が考慮されている場合、あるいは量子触媒を用いて、どのように超えるかについて議論する。 また、単一の資源単調によって記述される理論の構造についても論じ、完全に順序づけられた資源理論と等価性を示す。 これらは任意の量子状態に対して自由変換が存在する理論である。 完全順序理論はすべての純状態間の自由変換を可能にすることを示す。 単一量子系に対しては、全順序のリソース理論に対する状態変換の完全な特徴付けを提供する。

Entanglement quantification aims to assess the value of quantum states for quantum information processing tasks. A closely related problem is state convertibility, asking whether two remote parties can convert a shared quantum state into another one without exchanging quantum particles. Here, we explore this connection for quantum entanglement and for general quantum resource theories. For any quantum resource theory which contains resource-free pure states, we show that there does not exist a finite set of resource monotones which completely determines all state transformations. We discuss how these limitations can be surpassed, if discontinuous or infinite sets of monotones are considered, or by using quantum catalysis. We also discuss the structure of theories which are described by a single resource monotone and show equivalence with totally ordered resource theories. These are theories where a free transformation exists for any pair of quantum states. We show that totally ordered theories allow for free transformations between all pure states. For single-qubit systems, we provide a full characterization of state transformations for any totally ordered resource theory.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# 動的推論のための視覚変換器計算とレジリエンス

Vision Transformer Computation and Resilience for Dynamic Inference ( http://arxiv.org/abs/2212.02687v3 )

ライセンス: Link先を確認
Kavya Sreedhar, Jason Clemons, Rangharajan Venkatesan, Stephen W. Keckler, Mark Horowitz, (参考訳) コンピュータビジョンタスクのための最先端のディープラーニングモデルは、トランスフォーマーアーキテクチャに基づいており、しばしばリアルタイムアプリケーションにデプロイされる。 このシナリオでは、すべての推論で利用可能なリソースが異なるため、実行を効率よく取引精度に動的に適応できることが有用である。 動的モデルを作成するには、視覚変換器のレジリエンスを活用して、モデルの異なるスケールバージョンをプルーニングし、切り替える。 驚いたことに、ほとんどのFLOPは、注意ではなく、畳み込みによって生成される。 これらの相対的なFLOPカウントは、GPUが畳み込みに特別な最適化を持っているため、GPUパフォーマンスの予測には適していない。 一部のモデルはかなり弾力性があり、そのモデル実行は再トレーニングなしで適応できるが、全てのモデルは代替実行パスを再トレーニングすることで精度が向上する。 これらの知見は、CNNアクセラレータと代替実行パスを活用して、効率的な動的ビジョントランスフォーマー推論を可能にすることを意味する。 解析の結果,SegFormer (63 GFLOPs) では 1.4 % の精度低下,ResNet-50 (4 GFLOPs) では 53 % のエネルギーを,事前訓練した once-For-All モデルでは 3.3 % の精度低下で削減できることがわかった。

State-of-the-art deep learning models for computer vision tasks are based on the transformer architecture and often deployed in real-time applications. In this scenario, the resources available for every inference can vary, so it is useful to be able to dynamically adapt execution to trade accuracy for efficiency. To create dynamic models, we leverage the resilience of vision transformers to pruning and switch between different scaled versions of a model. Surprisingly, we find that most FLOPs are generated by convolutions, not attention. These relative FLOP counts are not a good predictor of GPU performance since GPUs have special optimizations for convolutions. Some models are fairly resilient and their model execution can be adapted without retraining, while all models achieve better accuracy with retraining alternative execution paths. These insights mean that we can leverage CNN accelerators and these alternative execution paths to enable efficient and dynamic vision transformer inference. Our analysis shows that leveraging this type of dynamic execution can lead to saving 28\% of energy with a 1.4\% accuracy drop for SegFormer (63 GFLOPs), with no additional training, and 53\% of energy for ResNet-50 (4 GFLOPs) with a 3.3\% accuracy drop by switching between pretrained Once-For-All models.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# 量子カオスと時間矢印

Quantum chaos and the arrow of time ( http://arxiv.org/abs/2212.03914v9 )

ライセンス: Link先を確認
Nilakash Sorokhaibam, (参考訳) 古典物理学は、熱力学の第2法則の形で時間の矢を持つ。 しかし、時空の矢印の量子的起源の明確な写真は、今のところ欠落している。 この手紙では、時間矢印が自然に量子カオス系に現れることを示す。 カオス的でもある孤立量子系に対して、エントロピーの変化は、システムが摂動状態にあるときに非負であることを示す。 摂動論において、この結果はベリーの予想と固有状態熱化仮説(ETH)から導かれる。 ETH文の対角線外項に新たな制約が生じていることが示されています。 可積分系の場合、第2の法則は、系が有限摂動の後に一般化されたギブスアンサンブルに熱化しないので、真ではない。

Classical physics possesses an arrow of time in the form of the second law of thermodynamics. But a clear picture of the quantum origin of the arrow of time has been lacking so far. In this letter, we show that an arrow of time arises naturally in quantum chaotic systems. We show that, for an isolated quantum system which is also chaotic, the change in entropy is non-negative when the system is perturbed. At leading order in perturbation theory, this result follows from Berry's conjecture and eigenstate thermalization hypothesis (ETH). We show that this gives rise to a new profound constraint on the off-diagonal terms in the ETH statement. In case of an integrable system, the second law does not hold true because the system does not thermalize to a generalized Gibbs ensemble after a finite perturbation.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# 因果関係を考慮した局所的解釈可能なモデル-非依存的説明法

Causality-Aware Local Interpretable Model-Agnostic Explanations ( http://arxiv.org/abs/2212.05256v3 )

ライセンス: Link先を確認
Martina Cinquini, Riccardo Guidotti, (参考訳) eXplainable Artificial Intelligence(XAI)アプローチの主な欠点は、機能独立性の仮定であり、潜在的な変数依存の研究を妨げる。 これにより、ブラックボックスの挙動は、元のサンプルではめったに起こらないようなランダムに生成された特徴値への影響を分析することによって近似される。 本稿では,XAI手法に因果知識を統合することにより,透明性を高め,ユーザが生成した説明の質を評価できるようにする。 具体的には、インスタンスを取り巻くデータ内の明確な因果関係を符号化する、広く使われている局所的およびモデルに依存しない説明器への新たな拡張を提案する。 大規模な実験により,ブラックボックスモデルのメカニズムと生成した説明の一貫性と信頼性を忠実に再現することで,本手法が元の手法を克服できることが示されている。

A main drawback of eXplainable Artificial Intelligence (XAI) approaches is the feature independence assumption, hindering the study of potential variable dependencies. This leads to approximating black box behaviors by analyzing the effects on randomly generated feature values that may rarely occur in the original samples. This paper addresses this issue by integrating causal knowledge in an XAI method to enhance transparency and enable users to assess the quality of the generated explanations. Specifically, we propose a novel extension to a widely used local and model-agnostic explainer, which encodes explicit causal relationships within the data surrounding the instance being explained. Extensive experiments show that our approach overcomes the original method in terms of faithfully replicating the black-box model's mechanism and the consistency and reliability of the generated explanations.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# AIを活用したコネクテッド産業に向けて:AGV通信とセンサ計測データセット

Toward an AI-enabled Connected Industry: AGV Communication and Sensor Measurement Datasets ( http://arxiv.org/abs/2301.03364v5 )

ライセンス: Link先を確認
Rodrigo Hernangómez, Alexandros Palaios, Cara Watermann, Daniel Schäufele, Philipp Geuer, Rafail Ismayilov, Mohammad Parvini, Anton Krause, Martin Kasparick, Thomas Neugebauer, Oscar D. Ramos-Cantor, Hugues Tchouankem, Jose Leon Calvo, Bo Chen, Gerhard Fettweis, Sławomir Stańczak, (参考訳) 本稿では,産業用テストベッドにおける2つのワイヤレス計測キャンペーンとして,産業用車車車(iV2V)と産業用車車車(iV2I+)とセンサ(iV2I+)について述べる。 iV2Vは、自動誘導車両(AGV)間のサイドリンク通信シナリオをカバーし、iV2I+は、自律的なクリーニングロボットがプライベートなセルネットワークに接続されている産業環境で実行される。 共通計測手法における異なる通信技術の組み合わせは、指紋認証、直視検出、サービス品質の予測、リンク選択といったタスクに機械学習(ML)が活用できる洞察を提供する。 さらにデータセットは公開されており、ラベル付けされ、高速なオンボードと適用性のためにプリフィルタされている。

This paper presents two wireless measurement campaigns in industrial testbeds: industrial Vehicle-to-vehicle (iV2V) and industrial Vehicle-to-infrastructure plus Sensor (iV2I+), together with detailed information about the two captured datasets. iV2V covers sidelink communication scenarios between Automated Guided Vehicles (AGVs), while iV2I+ is conducted at an industrial setting where an autonomous cleaning robot is connected to a private cellular network. The combination of different communication technologies within a common measurement methodology provides insights that can be exploited by Machine Learning (ML) for tasks such as fingerprinting, line-of-sight detection, prediction of quality of service or link selection. Moreover, the datasets are publicly available, labelled and prefiltered for fast on-boarding and applicability.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# Aleatoric and Epistemic Discrimination: Basic Limits of Fairness Interventions

Aleatoric and Epistemic Discrimination: Fundamental Limits of Fairness Interventions ( http://arxiv.org/abs/2301.11781v3 )

ライセンス: Link先を確認
Hao Wang, Luxi He, Rui Gao, Flavio P. Calmon, (参考訳) 機械学習(ML)モデルは、モデル開発時の選択とデータ固有のバイアスにより、特定の集団群で過小評価される可能性がある。 我々は,MLパイプラインにおける識別源を,データ分布に固有のアレラトリック識別と,モデル開発における決定によるてんかん識別の2つのクラスに分類する。 本研究では,データ分布の完全知識を前提として,公正性制約下でのモデルの性能限界を決定することにより,アレータリック判別の定量化を行う。 統計的実験を比較する上で,ブラックウェルの結果を適用して,アレータリックな差別を特徴付ける方法を示す。 そこで,本研究では,公正度制約を適用した際のモデルの精度と,アレタリック判別による限界とのギャップとして,てんかんの識別を定量化する。 本稿では,既存のフェアネス介入をベンチマークし,欠落した値を持つデータのフェアネスリスクを調査するために,本手法を適用した。 以上の結果から,現在最先端の公正介入は,標準(過剰な)表層データセット上でのてんかん差別の除去に有効であることが示唆された。 しかし、データが値が不足している場合、アレータリックな差別を扱うための大きな改善の余地は依然として残っている。

Machine learning (ML) models can underperform on certain population groups due to choices made during model development and bias inherent in the data. We categorize sources of discrimination in the ML pipeline into two classes: aleatoric discrimination, which is inherent in the data distribution, and epistemic discrimination, which is due to decisions made during model development. We quantify aleatoric discrimination by determining the performance limits of a model under fairness constraints, assuming perfect knowledge of the data distribution. We demonstrate how to characterize aleatoric discrimination by applying Blackwell's results on comparing statistical experiments. We then quantify epistemic discrimination as the gap between a model's accuracy when fairness constraints are applied and the limit posed by aleatoric discrimination. We apply this approach to benchmark existing fairness interventions and investigate fairness risks in data with missing values. Our results indicate that state-of-the-art fairness interventions are effective at removing epistemic discrimination on standard (overused) tabular datasets. However, when data has missing values, there is still significant room for improvement in handling aleatoric discrimination.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# 注意図レンズを用いた変圧器のフィードフォワードブロックの解析

Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Maps ( http://arxiv.org/abs/2302.00456v3 )

ライセンス: Link先を確認
Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui, (参考訳) トランスフォーマーは幅広いタスクでユビキタスです。 内部を解釈することが重要な目標です。 それにもかかわらず、その特定の構成要素であるフィードフォワード(FF)ブロックは、かなりのパラメータ量にもかかわらず、一般的には分析されていない。 人為的な可視化手法として注目マップに表示することにより,FFブロックの入力コンテキスト化効果を解析する。 マスク型および因果型両方のモデルを用いた実験により,FFネットワークは入力文脈の修正を行い,特定の種類の言語構成を強調した。 さらに、FFとその周囲のコンポーネントは互いに効果をキャンセルする傾向にあり、トランスフォーマー層の処理における潜在的な冗長性を示唆している。

Transformers are ubiquitous in wide tasks. Interpreting their internals is a pivotal goal. Nevertheless, their particular components, feed-forward (FF) blocks, have typically been less analyzed despite their substantial parameter amounts. We analyze the input contextualization effects of FF blocks by rendering them in the attention maps as a human-friendly visualization scheme. Our experiments with both masked- and causal-language models reveal that FF networks modify the input contextualization to emphasize specific types of linguistic compositions. In addition, FF and its surrounding components tend to cancel out each other's effects, suggesting potential redundancy in the processing of the Transformer layer.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-15
# 事前制約付き類似性学習を用いた拡張現実感における弾発的ユーザ識別

Versatile User Identification in Extended Reality using Pretrained Similarity-Learning ( http://arxiv.org/abs/2302.07517v6 )

ライセンス: Link先を確認
Christian Rack, Konstantin Kobs, Tamara Fernando, Andreas Hotho, Marc Erich Latoschik, (参考訳) 様々な機械学習アプローチは、eXtended Reality (XR)のモーションデータに基づくユーザ検証と識別に有用であることが証明されている。 しかし、それらの現実世界の応用は、拡張性と一般化能力の観点から、汎用性に関する重大な課題に直面している。 この記事では、高価なリトレーニングなしで新規ユーザーに拡張可能なソリューションを示し、異なるセッション、デバイス、ユーザタスクにわたってうまく一般化する。 この目的のために、類似性学習モデルを開発し、“Who Is Alyx?”データセットで事前トレーニングしました。 このデータセットは幅広いタスクを特徴とし、VRゲーム『Half-Life: Alyx』をプレイしているユーザーの動きを特徴としている。 これまでの研究とは対照的に、モデルの検証と最終的な評価には、専用のユーザセットを使用しました。 さらに、完全に異なるユーザ、タスク、および3つの異なるXRデバイスを特徴とする独立したデータセットを用いて、この評価を拡張した。 従来の分類学習ベースラインと比較して,本モデルは,特に限られた登録データを持つシナリオにおいて,優れた性能を示す。 事前トレーニングプロセスにより、多種多様なXRアプリケーションに即座にデプロイでき、高い汎用性を維持することができる。 今後,本手法は,実運用XRシステムにおいて,事前学習した動きに基づく識別モデルを容易に統合する方法を開拓する。

Various machine learning approaches have proven to be useful for user verification and identification based on motion data in eXtended Reality (XR). However, their real-world application still faces significant challenges concerning versatility, i.e., in terms of extensibility and generalization capability. This article presents a solution that is both extensible to new users without expensive retraining, and that generalizes well across different sessions, devices, and user tasks. To this end, we developed a similarity-learning model and pretrained it on the "Who Is Alyx?" dataset. This dataset features a wide array of tasks and hence motions from users playing the VR game "Half-Life: Alyx". In contrast to previous works, we used a dedicated set of users for model validation and final evaluation. Furthermore, we extended this evaluation using an independent dataset that features completely different users, tasks, and three different XR devices. In comparison with a traditional classification-learning baseline, our model shows superior performance, especially in scenarios with limited enrollment data. The pretraining process allows immediate deployment in a diverse range of XR applications while maintaining high versatility. Looking ahead, our approach paves the way for easy integration of pretrained motion-based identification models in production XR systems.
翻訳日:2024-04-18 02:50:12 公開日:2024-04-15
# テキスト・画像生成モデルに対するプロンプトステアリング攻撃

Prompt Stealing Attacks Against Text-to-Image Generation Models ( http://arxiv.org/abs/2302.09923v2 )

ライセンス: Link先を確認
Xinyue Shen, Yiting Qu, Michael Backes, Yang Zhang, (参考訳) テキストから画像への生成モデルは、アートワークのデザインプロセスに革命をもたらし、誰でもプロンプトと呼ばれるテキスト記述を入力して高品質な画像を作成することができるようになった。 主題といくつかの修飾子で構成される高品質なプロンプトを作成するには、時間と費用がかかります。 結果として、専門市場における高品質なプロンプトの取引のトレンドが生まれている。 本稿では,テキスト・ツー・イメージ・ジェネレーション・モデルによる生成画像からのプロンプトを盗むことを目的とした,新たな攻撃の脅威を理解するための最初の研究を行う。 突発的な盗難攻撃は、プロンプトエンジニアの知的財産を直接侵害し、プロンプトマーケットプレースのビジネスモデルを危うくする。 まず、自分たちで収集したデータセットの体系的な分析を行い、成功したプロンプト盗難攻撃がプロンプトの主題と修飾子を考慮すべきであることを示す。 そこで本研究では,PmptStealerを用いた簡易かつ効果的なプロンプト盗難攻撃を提案する。 被写体を推論するように訓練された被写体ジェネレータと、生成された画像内の修飾体を識別する修飾体検出器の2つのモジュールで構成されている。 実験結果から, PromptStealerは定量および定性的に3つの基準線法よりも優れていることが示された。 PromptStealerの防御も試みています。 概して、一般的なテキスト・画像生成モデルによって確立されたエコシステム内の新たな攻撃ベクトルを明らかにする。 この新たな脅威の理解と緩和に、私たちの成果が貢献できることを願っています。

Text-to-Image generation models have revolutionized the artwork design process and enabled anyone to create high-quality images by entering text descriptions called prompts. Creating a high-quality prompt that consists of a subject and several modifiers can be time-consuming and costly. In consequence, a trend of trading high-quality prompts on specialized marketplaces has emerged. In this paper, we perform the first study on understanding the threat of a novel attack, namely prompt stealing attack, which aims to steal prompts from generated images by text-to-image generation models. Successful prompt stealing attacks directly violate the intellectual property of prompt engineers and jeopardize the business model of prompt marketplaces. We first perform a systematic analysis on a dataset collected by ourselves and show that a successful prompt stealing attack should consider a prompt's subject as well as its modifiers. Based on this observation, we propose a simple yet effective prompt stealing attack, PromptStealer. It consists of two modules: a subject generator trained to infer the subject and a modifier detector for identifying the modifiers within the generated image. Experimental results demonstrate that PromptStealer is superior over three baseline methods, both quantitatively and qualitatively. We also make some initial attempts to defend PromptStealer. In general, our study uncovers a new attack vector within the ecosystem established by the popular text-to-image generation models. We hope our results can contribute to understanding and mitigating this emerging threat.
翻訳日:2024-04-18 02:50:12 公開日:2024-04-15
# ペアデータに対するガウス図形モデルの探索

Exploration of the search space of Gaussian graphical models for paired data ( http://arxiv.org/abs/2303.05561v2 )

ライセンス: Link先を確認
Alberto Roverato, Dung Ngoc Nguyen, (参考訳) 同一変数を共有する2つの依存群から観測結果が得られた場合、ガウス図形モデルを学習する問題を考察する。 我々は、ペアデータ問題に特有な色付きガウス図形モデル群に焦点をあてる。 一般的に、グラフィカルモデルはサブモデル関係によって順序付けられ、探索空間はモデル包含格子と呼ばれる格子である。 双対順序と呼ばれるモデル間の新しい順序を導入する。 この順序に埋め込まれたモデル空間は、モデル包含格子とは異なり、分配的な格子であることを示す。 さらに、モデル近傍の計算に関する関連するルールを提供する。 後者はモデル包含格子における同じ操作よりも効率的であり、探索空間のより効率的な探索を実現するために利用される。 これらの結果は、欲求とベイズモデルの両方の探索手順の効率を向上させるために応用できる。 ここでは、段階的に逆方向の除去手順を実装し、シミュレーションによりその性能を評価する。 最後に、2つの群がそれぞれ左半球と右半球に対応するfMRIデータから脳ネットワークを学習する手順を適用した。

We consider the problem of learning a Gaussian graphical model in the case where the observations come from two dependent groups sharing the same variables. We focus on a family of coloured Gaussian graphical models specifically suited for the paired data problem. Commonly, graphical models are ordered by the submodel relationship so that the search space is a lattice, called the model inclusion lattice. We introduce a novel order between models, named the twin order. We show that, embedded with this order, the model space is a lattice that, unlike the model inclusion lattice, is distributive. Furthermore, we provide the relevant rules for the computation of the neighbours of a model. The latter are more efficient than the same operations in the model inclusion lattice, and are then exploited to achieve a more efficient exploration of the search space. These results can be applied to improve the efficiency of both greedy and Bayesian model search procedures. Here we implement a stepwise backward elimination procedure and evaluate its performance by means of simulations. Finally, the procedure is applied to learn a brain network from fMRI data where the two groups correspond to the left and right hemispheres, respectively.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-15
# 幾何学的深層学習と自己同型リー代数に対する等質空間上の等変行列の計算

Computing equivariant matrices on homogeneous spaces for Geometric Deep Learning and Automorphic Lie Algebras ( http://arxiv.org/abs/2303.07157v2 )

ライセンス: Link先を確認
Vincent Knibbeler, (参考訳) 我々は、この群の加群へのリー群$G$の同次空間$G/H$から等変写像の空間を計算する基本的な方法を開発する。 リー群はコンパクトである必要はない。 より一般に、同質なベクトル束における不変部分の空間を研究し、ファイバーが代数である場合に特別な関心を持つ。 後者の場合、自然な大域代数構造を持つ。 我々はこれらの自己同型代数を、同次空間がコンパクト安定化器を持つ場合に分類する。 この研究は幾何学的深層学習の理論発展や自己同型リー代数の理論にも応用できる。

We develop an elementary method to compute spaces of equivariant maps from a homogeneous space $G/H$ of a Lie group $G$ to a module of this group. The Lie group is not required to be compact. More generally, we study spaces of invariant sections in homogeneous vector bundles, and take a special interest in the case where the fibres are algebras. These latter cases have a natural global algebra structure. We classify these automorphic algebras for the case where the homogeneous space has compact stabilisers. This work has applications in the theoretical development of geometric deep learning and also in the theory of automorphic Lie algebras.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-15
# 4次元表情拡散モデル

4D Facial Expression Diffusion Model ( http://arxiv.org/abs/2303.16611v2 )

ライセンス: Link先を確認
Kaifeng Zou, Sylvain Faisan, Boyang Yu, Sébastien Valette, Hyewon Seo, (参考訳) 表情生成はキャラクターアニメーションの最も困難かつ長期にわたる側面の1つであり、多くの興味深い応用がある。 この挑戦的な課題は、伝統的にデジタル職人に大きく依存していたが、まだ検討されていない。 本稿では,任意の3次元顔メッシュをアニメーション化するために,異なる入力に条件付け可能な3次元表情シーケンス(すなわち4次元顔)を生成するための生成フレームワークを提案する。 本研究は,(1)3次元ランドマーク配列を用いて訓練された生成モデルを学習し,(2)生成されたランドマークシーケンスによって駆動される入力顔メッシュの3次元メッシュシーケンスを生成する2つのタスクから構成される。 生成モデルは、他のドメインの生成タスクにおいて顕著な成功を収めたDDPM(Denoising Diffusion Probabilistic Model)に基づいている。 無条件で訓練できるが、その逆処理は様々な条件信号で条件付けできる。 これにより、表現ラベル、テキスト、部分配列、あるいは単に顔形状を用いて、様々な条件生成を含む下流タスクを効率的に開発することができる。 メッシュの完全な変形を得るために,与えられた顔メッシュ上にランドマークに埋め込まれた幾何学的変形を適用するためにランドマーク誘導型エンコーダデコーダを開発した。 実験により,本モデルは比較的小さなデータセットからのみ,現実的で質の高い表現を生成することができ,最先端の手法よりも改善されていることがわかった。 他の方法とビデオや定性的比較は \url{https://github.com/ZOUKaifeng/4DFM} で見ることができる。

Facial expression generation is one of the most challenging and long-sought aspects of character animation, with many interesting applications. The challenging task, traditionally having relied heavily on digital craftspersons, remains yet to be explored. In this paper, we introduce a generative framework for generating 3D facial expression sequences (i.e. 4D faces) that can be conditioned on different inputs to animate an arbitrary 3D face mesh. It is composed of two tasks: (1) Learning the generative model that is trained over a set of 3D landmark sequences, and (2) Generating 3D mesh sequences of an input facial mesh driven by the generated landmark sequences. The generative model is based on a Denoising Diffusion Probabilistic Model (DDPM), which has achieved remarkable success in generative tasks of other domains. While it can be trained unconditionally, its reverse process can still be conditioned by various condition signals. This allows us to efficiently develop several downstream tasks involving various conditional generation, by using expression labels, text, partial sequences, or simply a facial geometry. To obtain the full mesh deformation, we then develop a landmark-guided encoder-decoder to apply the geometrical deformation embedded in landmarks on a given facial mesh. Experiments show that our model has learned to generate realistic, quality expressions solely from the dataset of relatively small size, improving over the state-of-the-art methods. Videos and qualitative comparisons with other methods can be found at \url{https://github.com/ZOUKaifeng/4DFM}.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-15
# 非可積分非負超行列に対する拡張ヴィユの不等式

The extended Ville's inequality for nonintegrable nonnegative supermartingales ( http://arxiv.org/abs/2304.01163v2 )

ライセンス: Link先を確認
Hongjian Wang, Aaditya Ramdas, (参考訳) ロビンズの最初の研究の後、我々は、積分可能性も有限性も必要とせず、非負超行列の延長理論を厳格に提示した。 特に、ロビンスによって導かれる重要な極大不等式は、拡張ヴィルの不等式(英語版)と呼ばれ、古典ヴィルの不等式(英語版)(可積分な非負の超等式について)を強化し、また我々の非可積分な設定にも適用することができる。 我々は混合法の拡張を導出し、拡張された非負超行列の$\sigma$-finite混合に適用する。 非パラメトリックな信頼シーケンスの導出における不適切な混合(プライアー)や(拡張された)e-プロセスの使用など、シーケンシャルな統計に対する我々の理論のいくつかの意味を示す。

Following the initial work by Robbins, we rigorously present an extended theory of nonnegative supermartingales, requiring neither integrability nor finiteness. In particular, we derive a key maximal inequality foreshadowed by Robbins, which we call the extended Ville's inequality, that strengthens the classical Ville's inequality (for integrable nonnegative supermartingales), and also applies to our nonintegrable setting. We derive an extension of the method of mixtures, which applies to $\sigma$-finite mixtures of our extended nonnegative supermartingales. We present some implications of our theory for sequential statistics, such as the use of improper mixtures (priors) in deriving nonparametric confidence sequences and (extended) e-processes.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-15
# 生存予測のための生体経路と組織との高密度マルチモーダル相互作用のモデリング

Modeling Dense Multimodal Interactions Between Biological Pathways and Histology for Survival Prediction ( http://arxiv.org/abs/2304.06819v2 )

ライセンス: Link先を確認
Guillaume Jaume, Anurag Vaidya, Richard Chen, Drew Williamson, Paul Liang, Faisal Mahmood, (参考訳) 患者生存予測のための全スライディング画像(WSI)とバルク転写学の統合により,患者の予後の理解が向上する。 しかし、このマルチモーダルタスクは、これらのデータの性質が異なるため特に困難である: WSIは、腫瘍の非常に高次元的な空間的記述を表現し、バルク転写学は、腫瘍内の遺伝子発現レベルのグローバルな記述を表現している。 この文脈において、本研究は、(1)意味論的かつ解釈可能な方法で転写学をトークン化する方法の2つの主要な課題に対処することを目的としている。 これら2つのモード間の密接なマルチモーダル相互作用をどのように捉えることができるのか? 具体的には、特定の細胞機能のコード化が可能な転写学から生物学的経路トークンを学習することを提案する。 WSIの様々な形態パターンを符号化する組織学的パッチトークンとともに、下流の解釈可能性分析のための適切な推論単位を形成すると論じる。 本稿では,メモリ効率の高いマルチモーダル変換器を用いて,経路と組織学的パッチトークン間の相互作用をモデル化する手法を提案する。 提案モデルであるSURVPATHは,The Cancer Genome Atlasの5つのデータセットに対して,一様および多モードのベースラインの評価を行った。 我々の解釈可能性フレームワークは、重要なマルチモーダルな予後因子を識別し、遺伝子型と表現型との相互作用に関する貴重な洞察を与え、基礎となる生物学的メカニズムのより深い理解を可能にする。 コードを公開します。 https://github.com/ajv012/SurvPath。

Integrating whole-slide images (WSIs) and bulk transcriptomics for predicting patient survival can improve our understanding of patient prognosis. However, this multimodal task is particularly challenging due to the different nature of these data: WSIs represent a very high-dimensional spatial description of a tumor, while bulk transcriptomics represent a global description of gene expression levels within that tumor. In this context, our work aims to address two key challenges: (1) how can we tokenize transcriptomics in a semantically meaningful and interpretable way?, and (2) how can we capture dense multimodal interactions between these two modalities? Specifically, we propose to learn biological pathway tokens from transcriptomics that can encode specific cellular functions. Together with histology patch tokens that encode the different morphological patterns in the WSI, we argue that they form appropriate reasoning units for downstream interpretability analyses. We propose fusing both modalities using a memory-efficient multimodal Transformer that can model interactions between pathway and histology patch tokens. Our proposed model, SURVPATH, achieves state-of-the-art performance when evaluated against both unimodal and multimodal baselines on five datasets from The Cancer Genome Atlas. Our interpretability framework identifies key multimodal prognostic factors, and, as such, can provide valuable insights into the interaction between genotype and phenotype, enabling a deeper understanding of the underlying biological mechanisms at play. We make our code public at: https://github.com/ajv012/SurvPath.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-15
# 二重対向的偏りによる分布外証拠認識フェイクニュース検出

Out-of-distribution Evidence-aware Fake News Detection via Dual Adversarial Debiasing ( http://arxiv.org/abs/2304.12888v2 )

ライセンス: Link先を確認
Qiang Liu, Junfei Wu, Shu Wu, Liang Wang, (参考訳) Evidence-aware fake news detectionは、ニュースコンテンツに基づいて検索されるニュースとエビデンスの間の推論を行い、一様性や矛盾を見つけることを目的としている。 しかし,エビデンス認識検出モデルでは,ニュース・エビデンスコンテンツと真・偽のニュースラベルとの素早い相関関係がみられ,アウトオブオフ・ディストリビューション(OOD)の状況に一般化することは困難である。 そこで本研究では,新しいDAL手法を提案する。 DALには、真偽のニュースラベルをターゲットとするニュースアスペクションとエビデンスアスペクティブアスペクティブアスペクティブアスペクティブデバイアスニングの識別器が組み込まれている。 そして、DALは、ニュースやエビデンスコンテンツバイアスの影響を軽減するために、ニュース・アスペクトとエビデンス・エイビデンス・デバイアスをリバースに最適化する。 同時に、DALはメインのフェイクニュース予測器を最適化し、ニュース・エビデンス・インタラクション・モジュールを学習できるようにする。 このプロセスにより、エビデンスを意識した偽ニュース検出モデルを教え、ニュースエビデンス推論をより効果的に実施し、コンテンツバイアスの影響を最小限に抑えることができる。 注目すべきは、提案したDALアプローチは、既存のバックボーンとうまく連携するプラグイン・アンド・プレイモジュールである。 2つのOOD設定下で総合的な実験を行い、4つの証拠を意識した偽ニュース検出バックボーンにDALを挿入する。 その結果、DALは元の背骨といくつかの競争的脱バイアス法を著しく、安定的に上回っていることが明らかとなった。

Evidence-aware fake news detection aims to conduct reasoning between news and evidence, which is retrieved based on news content, to find uniformity or inconsistency. However, we find evidence-aware detection models suffer from biases, i.e., spurious correlations between news/evidence contents and true/fake news labels, and are hard to be generalized to Out-Of-Distribution (OOD) situations. To deal with this, we propose a novel Dual Adversarial Learning (DAL) approach. We incorporate news-aspect and evidence-aspect debiasing discriminators, whose targets are both true/fake news labels, in DAL. Then, DAL reversely optimizes news-aspect and evidence-aspect debiasing discriminators to mitigate the impact of news and evidence content biases. At the same time, DAL also optimizes the main fake news predictor, so that the news-evidence interaction module can be learned. This process allows us to teach evidence-aware fake news detection models to better conduct news-evidence reasoning, and minimize the impact of content biases. To be noted, our proposed DAL approach is a plug-and-play module that works well with existing backbones. We conduct comprehensive experiments under two OOD settings, and plug DAL in four evidence-aware fake news detection backbones. Results demonstrate that, DAL significantly and stably outperforms the original backbones and some competitive debiasing methods.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-15
# REINFOREST: 言語間コード検索モデルのセマンティックコード類似性の強化

REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models ( http://arxiv.org/abs/2305.03843v2 )

ライセンス: Link先を確認
Anthony Saieva, Saikat Chakraborty, Gail Kaiser, (参考訳) 本稿では,大規模言語モデル(LLM)の静的特徴と動的特徴を同時に含み,学習における類似例と相似例の両方を活用することにより,言語モデル(LLM)の性能を向上させる新しいコード・コード検索手法を提案する。 本稿では,探索中のコーパスや検索クエリを推論時に実行することなく,トレーニング中に動的ランタイム情報をエンコードするコード検索手法と,正と負の両方の参照サンプルをトレーニングするコード検索手法を提案する。 提案手法の有効性を検証するために,拡張LDMによる言語間コード検索の能力を示す一連の研究を行った。 評価の結果,提案手法の有効性は,様々なモデルアーキテクチャやプログラミング言語間で一致していることがわかった。 我々は最先端のクロスランゲージ検索ツールを44.7%まで上回っている。 さらに,本研究では,トレーニングプロセスにおける1つの正の基準サンプルと負の基準サンプルであっても,類似参照と異種参照の両方がコード検索の重要な部分であることを示す顕著な性能向上が得られた。 重要なことは、オープンソースモデルの重要性を強調した最大のLLMを拡張しても、高度に改良された細調整されたモデルが、微調整を伴わずに拡張された大規模LLMを一貫して上回っていることを示している。 本研究の再現性と拡張性を確保するため,REINFORESTと呼ばれるツールとトレーニング手順のオープンソース実装を提案する。

This paper introduces a novel code-to-code search technique that enhances the performance of Large Language Models (LLMs) by including both static and dynamic features as well as utilizing both similar and dissimilar examples during training. We present the first-ever code search method that encodes dynamic runtime information during training without the need to execute either the corpus under search or the search query at inference time and the first code search technique that trains on both positive and negative reference samples. To validate the efficacy of our approach, we perform a set of studies demonstrating the capability of enhanced LLMs to perform cross-language code-to-code search. Our evaluation demonstrates that the effectiveness of our approach is consistent across various model architectures and programming languages. We outperform the state-of-the-art cross-language search tool by up to 44.7\%. Moreover, our ablation studies reveal that even a single positive and negative reference sample in the training process results in substantial performance improvements demonstrating both similar and dissimilar references are important parts of code search. Importantly, we show that enhanced well-crafted, fine-tuned models consistently outperform enhanced larger modern LLMs without fine tuning, even when enhancing the largest available LLMs highlighting the importance for open-sourced models. To ensure the reproducibility and extensibility of our research, we present an open-sourced implementation of our tool and training procedures called REINFOREST.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-15
# 等変多モード画像融合

Equivariant Multi-Modality Image Fusion ( http://arxiv.org/abs/2305.11443v2 )

ライセンス: Link先を確認
Zixiang Zhao, Haowen Bai, Jiangshe Zhang, Yulun Zhang, Kai Zhang, Shuang Xu, Dongdong Chen, Radu Timofte, Luc Van Gool, (参考訳) 多モード画像融合(Multi-modality image fusion)は、異なるセンサやモダリティからの情報を組み合わせる技術であり、融合された画像は、機能ハイライトやテクスチャの詳細など、各モダリティから補完的な特徴を保持することができる。 しかし,地中真実融合データの不足により,このような融合モデルの効果的な訓練は困難である。 この問題に対処するため,エンド・ツー・エンドの自己教師型学習のためのEMMA(Equivariant Multi-Modality imAge fusion)パラダイムを提案する。 我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。 その結果、融合モジュール、擬似センシングモジュール、同変融合モジュールを含む新しい訓練パラダイムが導入された。 これらのコンポーネントにより、ネットトレーニングは、以前の同変イメージングを満足しながら、自然なセンシングイメージングプロセスの原則に従うことができる。 広範囲な実験により、EMMAは赤外可視画像と医用画像に対して高品質な融合結果をもたらすことが確認され、下流のマルチモーダルセグメンテーションと検出タスクが同時に容易になる。 コードはhttps://github.com/Zhaozixiang1228/MMIF-EMMAで公開されている。

Multi-modality image fusion is a technique that combines information from different sensors or modalities, enabling the fused image to retain complementary features from each modality, such as functional highlights and texture details. However, effective training of such fusion models is challenging due to the scarcity of ground truth fusion data. To tackle this issue, we propose the Equivariant Multi-Modality imAge fusion (EMMA) paradigm for end-to-end self-supervised learning. Our approach is rooted in the prior knowledge that natural imaging responses are equivariant to certain transformations. Consequently, we introduce a novel training paradigm that encompasses a fusion module, a pseudo-sensing module, and an equivariant fusion module. These components enable the net training to follow the principles of the natural sensing-imaging process while satisfying the equivariant imaging prior. Extensive experiments confirm that EMMA yields high-quality fusion results for infrared-visible and medical images, concurrently facilitating downstream multi-modal segmentation and detection tasks. The code is available at https://github.com/Zhaozixiang1228/MMIF-EMMA.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-15
# 測定支援による決定論的双対変換による格子ゲージ理論の量子シミュレーション

Quantum simulation of lattice gauge theories via deterministic duality transformations assisted by measurements ( http://arxiv.org/abs/2305.12277v2 )

ライセンス: Link先を確認
Hiroki Sukeno, Tzu-Chieh Wei, (参考訳) 量子シミュレーションは、量子デバイスの主要な応用の1つである。 しかし、ノイズの多い中間スケールの量子時代には、格子ゲージ理論のような一般的な量子シミュレーションはまだ実現不可能であり、これはガウス法則の違反や、特に分解相におけるリアルタイム力学の複雑さによって制限される可能性がある。 S. Ashkenazi と E. Zohar (Phys. Rev. A 105, 022431 (2022)) と N. Tantivasadakarn, R. Thorngren, A. Vishwanath, R. Verresen [arXiv: 2112.01519] の最近の研究に触発された我々は、クラスタ状態のようなエンタングルによるクラマース・ワニエ変換、中間回路測定、フィードフォワード補正を用いて格子ゲージ理論のダイナミクスをシミュレートすることを提案した。 具体的には、最初の量子は、対応する対称ハミルトニアンの下での初期対称状態から時間進化をシミュレートし、次いでクラマース=ワニエ法を適用する。 これにより、対応する初期ゲージ波動関数から対応する格子ゲージ理論の下で時間発展する波動関数が得られる。 時間進化におけるノイズの存在下では、非自明な測定結果によって表される磁化モノポールをペア化できることが成功している。 さらに、ノイズのないクラマース=ワニエ変換が与えられたとき、ノイズの時間進化から得られる波動関数はガウス法則を満たす。 フラドキン・シェンカーモデルのようなボゾン/フェルミオンに結合した低次元純粋ゲージ理論とゲージ理論の明確な例を示す。

Quantum simulation is one of the major applications of quantum devices. In the noisy intermediate-scale quantum era, however, the general quantum simulation is not yet feasible, such as that of lattice gauge theories, which is likely limited due to the violation of the Gauss law constraint and the complexity of the real-time dynamics, especially in the deconfined phase. Inspired by the recent works of S. Ashkenazi and E. Zohar [Phys. Rev. A 105, 022431 (2022)] and of N. Tantivasadakarn, R. Thorngren, A. Vishwanath, and R. Verresen [arXiv: 2112.01519], we propose to simulate dynamics of lattice gauge theories by using the Kramers-Wannier transfomation via cluster-state-like entanglers, mid-circuit measurements and feedforwarded corrections, which altogether is a constant-depth deterministic operation. In our scheme, specifically, we first quantum simulate the time evolution under a corresponding symmetric Hamiltonian from an initial symmetric state, and then apply the Kramers-Wannier procedure. This results in a wave function that has time evolved under the corresponding lattice gauge theory from a corresponding initial, gauged wave function. In the presence of noises in time evolution, the procedure succeeds when we can pair up magnetic monopoles represented by non-trivial measurement outcomes. Further, given a noise-free Kramers-Wannier transformation, the resulting wave function from a noisy time evolution satisfies the Gauss law constraint. We give explicit examples with the low dimensional pure gauge theories and gauge theories coupled to bosonic/fermionic matters such as the Fradkin-Shenker model.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-15
# 限定デモグラフィック情報を用いたマルチタスク学習によるフェアネスの伝達

Transferring Fairness using Multi-Task Learning with Limited Demographic Information ( http://arxiv.org/abs/2305.12671v2 )

ライセンス: Link先を確認
Carlos Aguirre, Mark Dredze, (参考訳) 公平性を損なう教師付き機械学習システムの訓練は、異なる人口集団間の予測公正性を向上することができる。 しかし、データのトレーニングには人口統計学的なアノテーションが必要であるため、ほとんどのタスクに対して偏りのある分類器を生成できない。 移動学習法からインスピレーションを得て,対象タスクの公平性を改善するために,関連するタスクから人口統計データを利用することができるかどうかを検討する。 我々は、マルチタスク設定にシングルタスクフェアネスの損失を適用し、対象タスクを逸脱する関連タスクから人口統計ラベルを活用し、マルチタスクフレームワーク内で人口統計フェアネスの目的がフェアネスを伝達することを実証する。 さらに, この手法は, 単一軸の異なる2つのデータセット間を転送することで, 交差点の公平性を実現することを示す。 私たちは、損失が公正なドメインやタスクをどのように改善できるかを示すために、さまざまなデータドメインを調査します。

Training supervised machine learning systems with a fairness loss can improve prediction fairness across different demographic groups. However, doing so requires demographic annotations for training data, without which we cannot produce debiased classifiers for most tasks. Drawing inspiration from transfer learning methods, we investigate whether we can utilize demographic data from a related task to improve the fairness of a target task. We adapt a single-task fairness loss to a multi-task setting to exploit demographic labels from a related task in debiasing a target task and demonstrate that demographic fairness objectives transfer fairness within a multi-task framework. Additionally, we show that this approach enables intersectional fairness by transferring between two datasets with different single-axis demographics. We explore different data domains to show how our loss can improve fairness domains and tasks.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-15
# 量子自己推進の模倣は、量子活性物質への一般的な経路を生成する

Mimicking quantum self-propulsion creates a generic route to quantum active matter ( http://arxiv.org/abs/2305.16131v2 )

ライセンス: Link先を確認
Yuanjian Zheng, Benno Liebchen, Hartmut Löwen, (参考訳) 本稿では、古典的活動力学によって追跡された軌道に沿って移動している外部トラップ電位を通して自己推進の役割を模倣する量子活性物質を記述するための一般的な枠組みを紹介する。 散逸の存在下でのこのアプローチは、古典的活動の本質的な動的挙動を回復するだけでなく、その平均二乗変位の弾道的-拡散的交叉を含むだけでなく、純粋量子起源の活性のさらなる特徴も明らかにする。 これらの量子活性な特徴は、非散逸系において最も明確に示され、トラップポテンシャルの幾何学に複雑に依存する、短時間で平均二乗変位の新たな指数として表される。

We introduce a generic framework for describing quantum active matter that involves mimicking the role of self-propulsion through an external trapping potential that is moving along imposed trajectories traced by classical active dynamics. This approach in the presence of dissipation, not only recovers essential dynamical behavior of classical activity, including the ballistic to diffusive cross-over of its mean-square displacement, but also reveals additional features of activity that is of pure quantum origin. These quantum-active features are most clearly revealed in non-dissipative systems, and manifest as novel exponents of the mean-square displacement at short time scales, that are intricately dependent on the geometry of the trapping potential.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# Hinge-Wasserstein: 回帰タスクにおけるマルチモーダルアレタリック不確かさの推定

Hinge-Wasserstein: Estimating Multimodal Aleatoric Uncertainty in Regression Tasks ( http://arxiv.org/abs/2306.00560v3 )

ライセンス: Link先を確認
Ziliang Xiong, Arvi Jonnarth, Abdelrahman Eldesokey, Joakim Johnander, Bastian Wandt, Per-Erik Forssen, (参考訳) 安全クリティカルなアプリケーションにデプロイされるコンピュータビジョンシステムは、その出力の不確実性を定量化する必要がある。 画像からパラメータ値への回帰について検討し、ここでは確率分布を予測して不確実性を検出することが一般的である。 そこで本研究では,モード数に対する事前の仮定を使わずに,マルチモーダル分布を表現可能な回帰分類パラダイムについて検討する。 特定の設計された合成データセットの実験を通して、従来の損失関数は、完全な真理分布が存在しない場合、確率分布の予測が低く、自信が強くなることを示した。 これらの問題を緩和するために、トレーニング中に弱い二次モードのペナルティを減少させる、ヒンジ・ワッサースタイン(英語版) -- Wasserstein損失の簡易な改善 -- を提案する。 これにより、複数のモードで複雑な分布を予測することができ、完全な真実分布が利用できないデータセットのトレーニングが可能になる。 広範にわたる実験において,提案した損失は,水平線検出とステレオ異方性推定という2つの課題のコンピュータビジョンタスクにおいて,かなり優れた不確実性推定をもたらすことを示した。

Computer vision systems that are deployed in safety-critical applications need to quantify their output uncertainty. We study regression from images to parameter values and here it is common to detect uncertainty by predicting probability distributions. In this context, we investigate the regression-by-classification paradigm which can represent multimodal distributions, without a prior assumption on the number of modes. Through experiments on a specifically designed synthetic dataset, we demonstrate that traditional loss functions lead to poor probability distribution estimates and severe overconfidence, in the absence of full ground truth distributions. In order to alleviate these issues, we propose hinge-Wasserstein -- a simple improvement of the Wasserstein loss that reduces the penalty for weak secondary modes during training. This enables prediction of complex distributions with multiple modes, and allows training on datasets where full ground truth distributions are not available. In extensive experiments, we show that the proposed loss leads to substantially better uncertainty estimation on two challenging computer vision tasks: horizon line detection and stereo disparity estimation.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# nnMobileNet:網膜症研究のためのCNNを再考

nnMobileNet: Rethinking CNN for Retinopathy Research ( http://arxiv.org/abs/2306.01289v4 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Xiwen Chen, Xin Li, Natasha Lepore, Oana M. Dumitrascu, Yalin Wang, (参考訳) 過去数十年間、畳み込みニューラルネットワーク(CNN)は様々な網膜疾患(RD)の検出と追跡の最前線にあった。 その成功にもかかわらず、2020年代のビジョントランスフォーマー(ViT)の出現はRDモデル開発の軌跡を移した。 RDにおけるViTベースのモデルの最先端のパフォーマンスは、より多くのパラメータを追加して拡張性を改善する能力に大きく貢献する。 結果として、ViTベースのモデルはRDアプリケーションにおいて従来のCNNよりも優れている傾向にある。 ViTはまた、画像処理のアプローチにおいてCNNと異なり、局所的な領域ではなくパッチで作業することで、RD内の小さな可変性病変の正確な局在を複雑にすることができる。 本研究では,CNNモデル,特にMobileNetのアーキテクチャを再検討し,RD診断における実用性の向上を図る。 最適化されたMobileNetは、選択的な修正によって、糖尿病網膜症のグレーディング、複数の基底疾患の検出、糖尿病性黄斑浮腫の分類など、様々なRDベンチマークにおいて、ViTベースのモデルを上回ることが判明した。 コードはhttps://github.com/Retinal-Research/NN-MOBILENETで入手できる。

Over the past few decades, convolutional neural networks (CNNs) have been at the forefront of the detection and tracking of various retinal diseases (RD). Despite their success, the emergence of vision transformers (ViT) in the 2020s has shifted the trajectory of RD model development. The leading-edge performance of ViT-based models in RD can be largely credited to their scalability-their ability to improve as more parameters are added. As a result, ViT-based models tend to outshine traditional CNNs in RD applications, albeit at the cost of increased data and computational demands. ViTs also differ from CNNs in their approach to processing images, working with patches rather than local regions, which can complicate the precise localization of small, variably presented lesions in RD. In our study, we revisited and updated the architecture of a CNN model, specifically MobileNet, to enhance its utility in RD diagnostics. We found that an optimized MobileNet, through selective modifications, can surpass ViT-based models in various RD benchmarks, including diabetic retinopathy grading, detection of multiple fundus diseases, and classification of diabetic macular edema. The code is available at https://github.com/Retinal-Research/NN-MOBILENET
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# 平易な視点で考える:フェデレーションラーニングにおけるデータステアリング攻撃

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning ( http://arxiv.org/abs/2306.03013v5 )

ライセンス: Link先を確認
Kostadin Garov, Dimitar I. Dimitrov, Nikola Jovanović, Martin Vechev, (参考訳) 悪意のあるサーバ(MS)攻撃は、フェデレートされた学習におけるデータ盗難のスケーリングを大規模なバッチサイズに拡大し、これまでプライベートと考えられていたセキュアなアグリゲーションを可能にした。 しかし、MS攻撃のクライアント側検出性に関する多くの懸念が提起され、その実用性に疑問が持たれた。 本研究では,クライアント側の検出可能性について,初めて徹底的に研究する。 先述のMS攻撃はすべて、原則的なチェックによって検出可能であることをまず実証し、実践的なMS攻撃が満たさなければならない要件セットを定式化する。 次に,これらの要件を満たす新たな攻撃フレームワークであるSEERを提案する。 SEERの重要な洞察は、共有モデルと共同でトレーニングされたシークレットデコーダを使用することである。 SEERは,最大512のバッチサイズでセキュアなアグリゲーション下であっても,現実的なネットワークの勾配からユーザデータを盗むことができることを示す。 私たちの仕事は、現実の環境でのフェデレーション学習の真の脆弱性を評価するための、有望なステップです。

Malicious server (MS) attacks have enabled the scaling of data stealing in federated learning to large batch sizes and secure aggregation, settings previously considered private. However, many concerns regarding the client-side detectability of MS attacks were raised, questioning their practicality. In this work, for the first time, we thoroughly study client-side detectability. We first demonstrate that all prior MS attacks are detectable by principled checks, and formulate a necessary set of requirements that a practical MS attack must satisfy. Next, we propose SEER, a novel attack framework that satisfies these requirements. The key insight of SEER is the use of a secret decoder, jointly trained with the shared model. We show that SEER can steal user data from gradients of realistic networks, even for large batch sizes of up to 512 and under secure aggregation. Our work is a promising step towards assessing the true vulnerability of federated learning in real-world settings.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives

BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives ( http://arxiv.org/abs/2306.04166v4 )

ライセンス: Link先を確認
Sainan Liu, Shan Lin, Jingpei Lu, Alexey Supikov, Michael Yip, (参考訳) ロボットは2D画像から3D環境を理解することができる。 カメラのポーズと関連する画像のセットを考えると、モデルは新しく見えないビューを合成するために訓練することができる。 ダイナミックな環境でうまくナビゲートし、対話するためには、ロボットはリアルタイムのビデオ映像から3Dシーンとカメラのポーズを非支援で再現することで、空間的な環境を理解する必要がある。 COLMAPやバンドル調整型ニューラルラディアンスフィールド法のような既存のアプローチは、特徴マッチング、高密度点サンプリング、および多数のパラメータを持つ多層パーセプトロン構造のトレーニングといった高い計算要求のために、処理に数時間から数日を要する。 これらの課題に対処するために,加速サンプリングとハッシュエンコーディングを利用して自動ポーズ補正/推定と3Dシーン再構成を行う,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。 実験により,ポーズ推定の品質を犠牲にすることなく,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。 githubリポジトリはhttps://github.com/IntelLabs/baa-ngp.comにある。

Implicit neural representations have become pivotal in robotic perception, enabling robots to comprehend 3D environments from 2D images. Given a set of camera poses and associated images, the models can be trained to synthesize novel, unseen views. To successfully navigate and interact in dynamic settings, robots require the understanding of their spatial surroundings driven by unassisted reconstruction of 3D scenes and camera poses from real-time video footage. Existing approaches like COLMAP and bundle-adjusting neural radiance field methods take hours to days to process due to the high computational demands of feature matching, dense point sampling, and training of a multi-layer perceptron structure with a large number of parameters. To address these challenges, we propose a framework called bundle-adjusting accelerated neural graphics primitives (BAA-NGP) which leverages accelerated sampling and hash encoding to expedite automatic pose refinement/estimation and 3D scene reconstruction. Experimental results demonstrate 10 to 20 x speed improvement compared to other bundle-adjusting neural radiance field methods without sacrificing the quality of pose estimation. The github repository can be found here https://github.com/IntelLabs/baa-ngp.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# Naeural AI OS -- 分散ユビキタスコンピューティングMLOps実行エンジン

Naeural AI OS -- Decentralized ubiquitous computing MLOps execution engine ( http://arxiv.org/abs/2306.08708v2 )

ライセンス: Link先を確認
Beatrice Milik, Stefan Saraev, Cristian Bleotiu, Radu Lupaescu, Bogdan Hobeanu, Andrei Ionut Damian, (参考訳) 過去数年間、ユビキタス、あるいは広く普及したコンピューティングは、エンタープライズグレードシステム、コンシューマアプリケーション、ゲームシステムなど、幅広いアプリケーションの主要なアプローチとして人気を集めてきた。 ユビキタスコンピューティング(ユビキタスコンピューティング、Ubiquitous Computing)とは、コンピュータ技術を日常のオブジェクトや環境に統合し、相互や人間と通信可能な相互接続されたデバイスのネットワークを構築することを指す。 ユビキタスコンピューティング技術を使用することで、コミュニティはよりつながりやすく、効率的になり、メンバーはコミュニケーションやコラボレーションがより容易になる。 これによって相互接続性とコラボレーションが,より成功し,持続可能なコミュニティに結びつくのです。 しかし、ユビキタスコンピューティングの普及は、自動化学習とスマートアプリケーション全般の重要性を強調している。 人工知能とディープラーニングには大きな進歩があったが、高価で複雑なクラウド数値計算インフラに圧力がかかるため、大規模な採用が妨げられている。 実践的な機械学習システムの採用や開発には、複雑なインフラストラクチャだけでなく、データサイエンスや機械学習の専門知識の面でも、禁止的なコストが伴う。 本稿では、エンド・ツー・エンドのAI協調アプリケーションパイプラインのローコード開発と展開のための革新的なアプローチを提案する。 我々は、トークン化経済に基づいて、完全に分散したグローバルな協力コミュニティにおけるインフラ割り当て、コスト、および安全な雇用分配について論じる。

Over the past few years, ubiquitous, or pervasive computing has gained popularity as the primary approach for a wide range of applications, including enterprise-grade systems, consumer applications, and gaming systems. Ubiquitous computing refers to the integration of computing technologies into everyday objects and environments, creating a network of interconnected devices that can communicate with each other and with humans. By using ubiquitous computing technologies, communities can become more connected and efficient, with members able to communicate and collaborate more easily. This enabled interconnectedness and collaboration can lead to a more successful and sustainable community. The spread of ubiquitous computing, however, has emphasized the importance of automated learning and smart applications in general. Even though there have been significant strides in Artificial Intelligence and Deep Learning, large scale adoption has been hesitant due to mounting pressure on expensive and highly complex cloud numerical-compute infrastructures. Adopting, and even developing, practical machine learning systems can come with prohibitive costs, not only in terms of complex infrastructures but also of solid expertise in Data Science and Machine Learning. In this paper we present an innovative approach for low-code development and deployment of end-to-end AI cooperative application pipelines. We address infrastructure allocation, costs, and secure job distribution in a fully decentralized global cooperative community based on tokenized economics.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# シンボリック・チェーン・オブ・サート蒸留:小さなモデルでもステップ・バイ・ステップが可能

Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step ( http://arxiv.org/abs/2306.14050v2 )

ライセンス: Link先を確認
Liunian Harold Li, Jack Hessel, Youngjae Yu, Xiang Ren, Kai-Wei Chang, Yejin Choi, (参考訳) 思考の連鎖(例えば、Let's Thinkby-step)は、大きな言語モデルを素数化し、それらの予測の合理化を言葉で表す。 チェーンオブ思考は劇的なパフォーマンス向上をもたらす可能性があるが、十分な大きなモデル(50Bパラメータ以外)に対してのみメリットが現れるようだ。 125M -- 1.3Bパラメータ) のオーダー・オブ・マグニチュードの小さなモデルでは、それでもチェーン・オブ・シークレットのプロンプトの恩恵を受けられることを示す。 これを実現するために,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるScoTD(Sybolic Chain-of-Thought Distillation)を導入する。 いくつかのCommonsenseベンチマークの実験では、こう示されています。 1) SCoTDは, 教師付き, 少数ショット設定, 特に課題セットにおいて, 学生モデルの性能を向上させる。 2 教師から事例ごとに多くの推論連鎖を採取することが最重要事項である。 3) 蒸留後, 学生チェーン・オブ・シークレットは, 桁違いのパラメータが小さいにもかかわらず, 教師に匹敵するものと判断される。 提案手法は,例えば,多様性,教師の可能性,オープンディペンデント性など,チェーン・オブ・ソート・サンプルのどの特性が重要か,という仮説を検証した。 チェーンオブ思考のサンプルとコードのコーパスをリリースします。

Chain-of-thought prompting (e.g., "Let's think step-by-step") primes large language models to verbalize rationalization for their predictions. While chain-of-thought can lead to dramatic performance gains, benefits appear to emerge only for sufficiently large models (beyond 50B parameters). We show that orders-of-magnitude smaller models (125M -- 1.3B parameters) can still benefit from chain-of-thought prompting. To achieve this, we introduce Symbolic Chain-of-Thought Distillation (SCoTD), a method to train a smaller student model on rationalizations sampled from a significantly larger teacher model. Experiments across several commonsense benchmarks show that: 1) SCoTD enhances the performance of the student model in both supervised and few-shot settings, and especially for challenge sets; 2) sampling many reasoning chains per instance from the teacher is paramount; and 3) after distillation, student chain-of-thoughts are judged by humans as comparable to the teacher, despite orders of magnitude fewer parameters. We test several hypotheses regarding what properties of chain-of-thought samples are important, e.g., diversity vs. teacher likelihood vs. open-endedness. We release our corpus of chain-of-thought samples and code.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# 線形モデル不確実性を考慮したRANSシミュレーションのための確率論的・データ駆動閉包モデル

A probabilistic, data-driven closure model for RANS simulations with aleatoric, model uncertainty ( http://arxiv.org/abs/2307.02432v2 )

ライセンス: Link先を確認
Atul Agrawal, Phaedon-Stelios Koutsourelakis, (参考訳) 本稿では,レノルズ平均Navier-Stokes (RANS) シミュレーションのためのデータ駆動閉包モデルを提案する。 提案された閉鎖は2つの部分から構成される。 従来提案されていた神経ネットワークに基づくテンソル基底関数を利用するパラメトリック関数は、ひずみ率と回転テンソル不変量に依存する。 これは、アレタリックモデルエラーを考慮に入れた潜在確率変数によって補完される。 パラメトリック閉包が不十分で、レイノルズ応力テンソルに対する確率的補正が必要な問題領域の領域を特定するために、完全ベイズ式と余剰誘導式を組み合わせて提案する。 直接レイノルズ応力データを必要とするほとんどの代替手段とは対照的に、平均速度や圧力のようなスパースで間接的なデータを用いて訓練を行う。 推論と学習には確率的変分推論スキームが用いられ、これはモンテカルロによる再パラメータ化のトリックと合わせて、関連する目的の見積もりに基づいている。 これによりRANSソルバの出力の導関数が必要となり, 随伴型定式化法を開発した。 このようにして、識別可能な解法からのパラメトリック感性は、エンドツーエンドの微分可能なフレームワークを実現するために、ニューラルネットワークライブラリの内蔵された自動微分能力と組み合わせることができる。 後向きステップベンチマーク問題において,モデル誤差が存在する領域であっても,全てのフロー量に対して正確で確率的,予測的な推定値を生成するためのモデルの有効性を実証する。

We propose a data-driven, closure model for Reynolds-averaged Navier-Stokes (RANS) simulations that incorporates aleatoric, model uncertainty. The proposed closure consists of two parts. A parametric one, which utilizes previously proposed, neural-network-based tensor basis functions dependent on the rate of strain and rotation tensor invariants. This is complemented by latent, random variables which account for aleatoric model errors. A fully Bayesian formulation is proposed, combined with a sparsity-inducing prior in order to identify regions in the problem domain where the parametric closure is insufficient and where stochastic corrections to the Reynolds stress tensor are needed. Training is performed using sparse, indirect data, such as mean velocities and pressures, in contrast to the majority of alternatives that require direct Reynolds stress data. For inference and learning, a Stochastic Variational Inference scheme is employed, which is based on Monte Carlo estimates of the pertinent objective in conjunction with the reparametrization trick. This necessitates derivatives of the output of the RANS solver, for which we developed an adjoint-based formulation. In this manner, the parametric sensitivities from the differentiable solver can be combined with the built-in, automatic differentiation capability of the neural network library in order to enable an end-to-end differentiable framework. We demonstrate the capability of the proposed model to produce accurate, probabilistic, predictive estimates for all flow quantities, even in regions where model errors are present, on a separated flow in the backward-facing step benchmark problem.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-15
# 多孔質媒体の多相流・輸送シミュレーションのためのグラフ畳み込みネットワーク

Graph Convolutional Networks for Simulating Multi-phase Flow and Transport in Porous Media ( http://arxiv.org/abs/2307.04449v2 )

ライセンス: Link先を確認
Jiamin Jiang, Bo Guo, (参考訳) 多孔質媒質中の多相流体力学の数値シミュレーションは、地球の地下における多くのエネルギーおよび環境応用に不可欠である。 データ駆動サロゲートモデリングは、高忠実度数値シミュレータに代わる計算コストの安い代替手段を提供する。 一般に使われている畳み込みニューラルネットワーク(CNN)は偏微分方程式の解を近似するのに強力であるが、CNNが不規則で非構造的なシミュレーションメッシュを扱うことは依然として困難である。 しかし、地球の地下のシミュレーションモデルは、しばしばCNNの適用を制限する複雑なメッシュ幾何学を持つ非構造メッシュを含む。 この課題に対処するため、多相流と多孔質媒体の輸送過程の時空間解を近似するために、グラフ畳み込みネットワーク(GCN)に基づく代理モデルを構築した。 本稿では,輸送力学をよりよく捉えるために,結合されたPDEシステムの双曲特性に適合する新しいGCNアーキテクチャを提案する。 2次元不均質試験の結果, シュロゲートは圧力および飽和状態の進化を高精度に予測し, ロールアウトは複数回にわたって安定していることがわかった。 さらに、GCNベースのモデルは、トレーニングデータセットに見られない不規則なドメインジオメトリや非構造化メッシュによく一般化される。

Numerical simulation of multi-phase fluid dynamics in porous media is critical for many energy and environmental applications in Earth's subsurface. Data-driven surrogate modeling provides computationally inexpensive alternatives to high-fidelity numerical simulators. While the commonly used convolutional neural networks (CNNs) are powerful in approximating partial differential equation solutions, it remains challenging for CNNs to handle irregular and unstructured simulation meshes. However, simulation models for Earth's subsurface often involve unstructured meshes with complex mesh geometries, which limits the application of CNNs. To address this challenge, we construct surrogate models based on Graph Convolutional Networks (GCNs) to approximate the spatial-temporal solutions of multi-phase flow and transport processes in porous media. We propose a new GCN architecture suited to the hyperbolic character of the coupled PDE system, to better capture transport dynamics. Results of 2D heterogeneous test cases show that our surrogates predict the evolutions of pressure and saturation states with high accuracy, and the predicted rollouts remain stable for multiple timesteps. Moreover, the GCN-based models generalize well to irregular domain geometries and unstructured meshes that are unseen in the training dataset.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# ゼロ次非滑らかな非凸確率最適化のための最適次元依存アルゴリズム

An Algorithm with Optimal Dimension-Dependence for Zero-Order Nonsmooth Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2307.04504v3 )

ライセンス: Link先を確認
Guy Kornowski, Ohad Shamir, (参考訳) リプシッツ目標の$(\delta,\epsilon)$-定常点の生成の複雑さについて,ノイズ関数評価のみを用いて検討した。 近年の研究では、この問題を解く確率的ゼロ次アルゴリズムがいくつか提案されており、これらは全て$\Omega(d^{3/2})$の次元依存性に悩まされており、$d$は問題の次元である。 これは$d$に対して最適(数値定数まで)であり、かつ精度パラメータ$\delta,\epsilon$に関して最適であるので、Lin et al (NeurIPS'22) によるオープンな問題を解くことができる。 さらに, このアルゴリズムによって達成される収束速度は, 非凸確率ゼロ次設定において, 非滑らかな最適化は滑らかな最適化と同じくらい容易であることを証明し, 滑らかな目的に対して最適である。 予測における上記の収束率と高い確率を達成するアルゴリズムを提供する。 我々の分析は、ゴールドスタイン偏微分集合に関する単純だが強力な補題に基づいており、これは最近の一階非滑らかな非凸最適化の進歩を活用できる。

We study the complexity of producing $(\delta,\epsilon)$-stationary points of Lipschitz objectives which are possibly neither smooth nor convex, using only noisy function evaluations. Recent works proposed several stochastic zero-order algorithms that solve this task, all of which suffer from a dimension-dependence of $\Omega(d^{3/2})$ where $d$ is the dimension of the problem, which was conjectured to be optimal. We refute this conjecture by providing a faster algorithm that has complexity $O(d\delta^{-1}\epsilon^{-3})$, which is optimal (up to numerical constants) with respect to $d$ and also optimal with respect to the accuracy parameters $\delta,\epsilon$, thus solving an open question due to Lin et al. (NeurIPS'22). Moreover, the convergence rate achieved by our algorithm is also optimal for smooth objectives, proving that in the nonconvex stochastic zero-order setting, nonsmooth optimization is as easy as smooth optimization. We provide algorithms that achieve the aforementioned convergence rate in expectation as well as with high probability. Our analysis is based on a simple yet powerful lemma regarding the Goldstein-subdifferential set, which allows utilizing recent advancements in first-order nonsmooth nonconvex optimization.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# コントラスト・デモとサリエンシ・マップを用いたインテクスト・ラーニングの理解に向けて

Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps ( http://arxiv.org/abs/2307.05052v3 )

ライセンス: Link先を確認
Fuxiao Liu, Paiheng Xu, Zongxia Li, Yue Feng, (参考訳) 大規模言語モデル(LLM)のテキスト内学習(ICL)性能における様々な実演要素の役割について検討する。 具体的には, 地中構造ラベル, 入力分布, 相補的説明の影響について検討する。 これらの要素がICLにどのように影響するかについて、さまざまな知見を提供する。 これらの問題を探索するために,説明可能なNLP(XNLP)法を用い,定性解析と定量的解析の両方に対照的な実演のサリエンシマップを用いた。 以上の結果から,大きなLSMではより顕著であるが,地平線ラベルの反転が唾液濃度に顕著に影響を及ぼすことが明らかとなった。 入力分布を粒度レベルで分析した結果,感情分析タスクにおける感情表現的用語を中立語に変化させることは,地味ラベルの変更ほど大きな影響を与えないことがわかった。 最後に、ICLの性能向上における補完的説明の有効性は、シンボリック推論タスクと比較して、感情分析タスクで見られるメリットが限られており、タスク依存であることが判明した。 これらの知見は,ChatGPT などのアプリケーションで LLM の利用が増加していることを踏まえ,LLM の機能を理解し,効果的な実演の開発を導く上で重要である。 我々の研究コードはhttps://github.com/paihengxu/XICL.comで公開されています。

We investigate the role of various demonstration components in the in-context learning (ICL) performance of large language models (LLMs). Specifically, we explore the impacts of ground-truth labels, input distribution, and complementary explanations, particularly when these are altered or perturbed. We build on previous work, which offers mixed findings on how these elements influence ICL. To probe these questions, we employ explainable NLP (XNLP) methods and utilize saliency maps of contrastive demonstrations for both qualitative and quantitative analysis. Our findings reveal that flipping ground-truth labels significantly affects the saliency, though it's more noticeable in larger LLMs. Our analysis of the input distribution at a granular level reveals that changing sentiment-indicative terms in a sentiment analysis task to neutral ones does not have as substantial an impact as altering ground-truth labels. Finally, we find that the effectiveness of complementary explanations in boosting ICL performance is task-dependent, with limited benefits seen in sentiment analysis tasks compared to symbolic reasoning tasks. These insights are critical for understanding the functionality of LLMs and guiding the development of effective demonstrations, which is increasingly relevant in light of the growing use of LLMs in applications such as ChatGPT. Our research code is publicly available at https://github.com/paihengxu/XICL.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# 拡散モデルにおけるマニフォールド誘導による不偏像合成

Unbiased Image Synthesis via Manifold Guidance in Diffusion Models ( http://arxiv.org/abs/2307.08199v3 )

ライセンス: Link先を確認
Xingzhe Su, Daixi Jia, Fengge Wu, Junsuo Zhao, Changwen Zheng, Wenwen Qiang, (参考訳) 拡散モデル(英: Diffusion Models)は、高品質な画像を生成することができる強力な生成モデルのクラスである。 しかし、彼らはしばしば特定のデータ属性を不注意に好んで、生成された画像の多様性を損なう。 この問題は、CelebAのような歪んだデータセットでは著しく明らかであり、最初のデータセットは男性よりも女性の方が57.9%、女性の表現が男性より148%多いデータではこのバイアスが増幅された。 そこで本研究では,DDPMにおけるバイアス問題を緩和する最初の教師なし手法であるManifold Guidance Samplingを提案する。 データ多様体の固有の構造を活用して、より均一な分布に向けてサンプリングプロセスを操り、バイアスデータのクラスタリングを効果的に分散する。 既存のモデルの変更や追加のトレーニングを必要とせず、データのバイアスを大幅に軽減し、生成された画像の品質と不偏性を高める。

Diffusion Models are a potent class of generative models capable of producing high-quality images. However, they often inadvertently favor certain data attributes, undermining the diversity of generated images. This issue is starkly apparent in skewed datasets like CelebA, where the initial dataset disproportionately favors females over males by 57.9%, this bias amplified in generated data where female representation outstrips males by 148%. In response, we propose a plug-and-play method named Manifold Guidance Sampling, which is also the first unsupervised method to mitigate bias issue in DDPMs. Leveraging the inherent structure of the data manifold, this method steers the sampling process towards a more uniform distribution, effectively dispersing the clustering of biased data. Without the need for modifying the existing model or additional training, it significantly mitigates data bias and enhances the quality and unbiasedness of the generated images.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# OpenAI APIを使ったGPT-3の微調整は個人識別情報を漏洩させるか?

Does fine-tuning GPT-3 with the OpenAI API leak personally-identifiable information? ( http://arxiv.org/abs/2307.16382v3 )

ライセンス: Link先を確認
Albert Yu Sun, Eliott Zemour, Arushi Saxena, Udith Vaidyanathan, Eric Lin, Christian Lau, Vaikkunth Mugunthan, (参考訳) 機械学習の実践者は、特定のタスクにおけるモデルパフォーマンスを改善するために、GPT-3のような生成済みモデルを微調整することが多い。 しかし、以前の研究は、微調整された機械学習モデルが元の微調整データセットから機密情報を記憶し、出力することを示唆している。 OpenAIのような企業は、モデルを微調整するサービスを提供しているが、これまでの作業では、クローズドソースモデルに対する暗記攻撃は行っていない。 本研究では,OpenAIの微調整APIを用いて,GPT-3に対するプライバシ攻撃をシミュレートする。 このモデルから個人識別可能情報(PII)を抽出できるかどうかを判断することを目的とする。 本稿では,(1) GPT-3 の微調整分類モデルにおけるナイーブプロセッシング手法の利用について検討し,(2) 実世界の文脈における微調整 GPT-3 の PII 記憶の程度を調べるために,オートコンプリート (Autocomplete) と呼ばれる実用的な単語生成タスクを設計する。 その結果,両タスクの微調整GPT3が,基礎となる微調整データセットから得られた重要な個人識別情報(PII)を記憶・開示するモデルに繋がったことが明らかとなった。 さらなる研究を促進するため、GitHubでコードとデータセットを公開しました。

Machine learning practitioners often fine-tune generative pre-trained models like GPT-3 to improve model performance at specific tasks. Previous works, however, suggest that fine-tuned machine learning models memorize and emit sensitive information from the original fine-tuning dataset. Companies such as OpenAI offer fine-tuning services for their models, but no prior work has conducted a memorization attack on any closed-source models. In this work, we simulate a privacy attack on GPT-3 using OpenAI's fine-tuning API. Our objective is to determine if personally identifiable information (PII) can be extracted from this model. We (1) explore the use of naive prompting methods on a GPT-3 fine-tuned classification model, and (2) we design a practical word generation task called Autocomplete to investigate the extent of PII memorization in fine-tuned GPT-3 within a real-world context. Our findings reveal that fine-tuning GPT3 for both tasks led to the model memorizing and disclosing critical personally identifiable information (PII) obtained from the underlying fine-tuning dataset. To encourage further research, we have made our codes and datasets publicly available on GitHub at: https://github.com/albertsun1/gpt3-pii-attacks
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# 裏口批判層を用いた裏口フェデレーション学習

Backdoor Federated Learning by Poisoning Backdoor-Critical Layers ( http://arxiv.org/abs/2308.04466v3 )

ライセンス: Link先を確認
Haomin Zhuang, Mingxian Yu, Hao Wang, Yang Hua, Jian Li, Xu Yuan, (参考訳) フェデレートラーニング(FL)は、分散デバイス間の機密データに対する機械学習トレーニングを可能にするために広くデプロイされている。 しかし、FLの分散学習パラダイムと不均一性は、バックドア攻撃の攻撃面をさらに拡張する。 既存のFL攻撃と防衛手法は、通常、モデル全体に焦点を当てる。 いずれも、モデル脆弱性を支配しているバックドアクリティカル(BC)層の存在を認識していない。 BCレイヤの攻撃は、モデル全体を攻撃するのと同じ効果を得るが、最先端のSOTA(State-of-the-art)ディフェンスによって検出される確率ははるかに小さい。 本稿では,攻撃者の視点からBC層を同定し,検証する一般のin-situアプローチを提案する。 特定されたBC層に基づいて、様々な防衛戦略の下で攻撃効果とステルスネスの基本的なバランスを適応的に求める新しいバックドアアタック手法を慎重に構築する。 大規模な実験により、BC層に認識されたバックドア攻撃は、悪意のあるクライアントの10%しか持たず、7つのSOTA防御下でのバックドアFLを成功させることができ、最新のバックドア攻撃方法よりも優れています。

Federated learning (FL) has been widely deployed to enable machine learning training on sensitive data across distributed devices. However, the decentralized learning paradigm and heterogeneity of FL further extend the attack surface for backdoor attacks. Existing FL attack and defense methodologies typically focus on the whole model. None of them recognizes the existence of backdoor-critical (BC) layers-a small subset of layers that dominate the model vulnerabilities. Attacking the BC layers achieves equivalent effects as attacking the whole model but at a far smaller chance of being detected by state-of-the-art (SOTA) defenses. This paper proposes a general in-situ approach that identifies and verifies BC layers from the perspective of attackers. Based on the identified BC layers, we carefully craft a new backdoor attack methodology that adaptively seeks a fundamental balance between attacking effects and stealthiness under various defense strategies. Extensive experiments show that our BC layer-aware backdoor attacks can successfully backdoor FL under seven SOTA defenses with only 10% malicious clients and outperform the latest backdoor attack methods.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# トレースクラスを超えて -- ヒルベルト空間のテンソル積と量子物理学における作用素イデアル

Beyond trace class -- Tensor products of Hilbert spaces and operator ideals in quantum physics ( http://arxiv.org/abs/2308.04627v2 )

ライセンス: Link先を確認
Frank Oertel, (参考訳) 複素ヒルベルト空間の共役の意味から始め、Fr\'{e}chet-Riesz(半線型作用素の解析を-線型作用素理論に還元する)の定理の関連する応用から、アーラキ、ハーグ、カストラー(p=2$)という意味での代数量子場理論における核および絶対$p$-summing作用素の応用の再検討、さらに最近では一般確率空間(p=1$)の枠組みにおいてバナッハ作用素のピエッチュの意味でのイデアル、あるいはグロテンディークの意味でのバナッハ空間の同値なテンソル積が、量子物理学や情報理論の基礎や理論にさえ潜んでいることを概説する。 特に、代数的場の量子論におけるそれらの重要性に焦点をあてる。 そのような場合、ヒルベルト空間 $H\otimes_2 (K \otimes_2 L)$ と $(H \otimes_2 K) \otimes_2 L$ (Theorem 3.8) の間の正準同型を確立し、トレースクラス作用素の役割を再検討する。 ヒルベルト・シュミット作用素のクラスが適切であることや、2つの複素ヒルベルト空間のテンソル積のインプリッドバナッハ作用素の理想表現 (H \otimes_2 K$ (Proposition 3.4) や、量子テレポーテーション過程の純粋線型代数的記述 (Example 3.10) など、いくつかの応用が指定されている。

Starting from the meaning of the conjugate of a complex Hilbert space, including a related application of the theorem of Fr\'{e}chet-Riesz (by which an analysis of semilinear operators can be reduced to - linear - operator theory) to a revisit of applications of nuclear and absolutely $p$-summing operators in algebraic quantum field theory in the sense of Araki, Haag and Kastler ($p=2$) and more recently in the framework of general probabilistic spaces ($p=1$), we will outline that Banach operator ideals in the sense of Pietsch, or equivalently tensor products of Banach spaces in the sense of Grothendieck are even lurking in the foundations and philosophy of quantum physics and quantum information theory. In particular, we concentrate on their importance in algebraic quantum field theory. In doing so, we establish a canonical isometric isomorphism between the Hilbert spaces $H\otimes_2 (K \otimes_2 L)$ and $(H \otimes_2 K) \otimes_2 L$ (Theorem 3.8) and revisit the role of trace class operators. A few applications are specified, including the appropriateness of the class of Hilbert-Schmidt operators and an implied Banach operator ideal representation of the tensor product of two complex Hilbert spaces $H \otimes_2 K$ (Proposition 3.4) and a purely linear algebraic description of the quantum teleportation process (Example 3.10).
翻訳日:2024-04-18 02:19:33 公開日:2024-04-15
# 帯域の差分プライバシーの集中化

Concentrated Differential Privacy for Bandits ( http://arxiv.org/abs/2309.00557v3 )

ライセンス: Link先を確認
Achraf Azize, Debabrota Basu, (参考訳) バンドはシーケンシャルラーニングの理論的基盤として機能し、現代のレコメンデーターシステムのアルゴリズム的基盤となっている。 しかしながら、レコメンデータシステムは、しばしばユーザセンシティブなデータに依存し、プライバシを重要な懸念事項にしている。 本稿では,信頼性の高い集中型意思決定者との盗聴者における差別的プライバシ(DP)の理解,特に集中型差別的プライバシ(zCDP)をゼロにすることの意味について考察する。 まず,DPの帯域幅に対する適応の形式化と比較を行う。 次に,AdaC-UCB,AdaC-GOPE,AdaC-OFULの3つのプライベートアルゴリズムを提案する。 3つのアルゴリズムは一般的なアルゴリズムの青写真、すなわちガウスのメカニズムと適応的なエピソードを共有し、優れたプライバシーとユーティリティのトレードオフを保証する。 これら3つのアルゴリズムの後悔を解析し、上位に並べる。 われわれの分析によると、これらの設定のすべてにおいて、zCDPを挿入する価格は(漸近的に)プライバシーを損なう後悔と比べて無視できる。 次に,ZCDP による盗賊の遺残に対する第1のミニマックス下限を補完する。 下界を証明するため,結合と最適輸送に基づく新しい証明手法を考案した。 バンドの3つの異なる設定に対する理論的結果を実験的に検証して結論付ける。

Bandits serve as the theoretical foundation of sequential learning and an algorithmic foundation of modern recommender systems. However, recommender systems often rely on user-sensitive data, making privacy a critical concern. This paper contributes to the understanding of Differential Privacy (DP) in bandits with a trusted centralised decision-maker, and especially the implications of ensuring zero Concentrated Differential Privacy (zCDP). First, we formalise and compare different adaptations of DP to bandits, depending on the considered input and the interaction protocol. Then, we propose three private algorithms, namely AdaC-UCB, AdaC-GOPE and AdaC-OFUL, for three bandit settings, namely finite-armed bandits, linear bandits, and linear contextual bandits. The three algorithms share a generic algorithmic blueprint, i.e. the Gaussian mechanism and adaptive episodes, to ensure a good privacy-utility trade-off. We analyse and upper bound the regret of these three algorithms. Our analysis shows that in all of these settings, the prices of imposing zCDP are (asymptotically) negligible in comparison with the regrets incurred oblivious to privacy. Next, we complement our regret upper bounds with the first minimax lower bounds on the regret of bandits with zCDP. To prove the lower bounds, we elaborate a new proof technique based on couplings and optimal transport. We conclude by experimentally validating our theoretical results for the three different settings of bandits.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-15
# 弱教師付きセマンティックセグメンテーションによる拡散合成訓練の限界を探る

Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2309.01369v2 )

ライセンス: Link先を確認
Ryota Yoshihashi, Yuya Otsuka, Kenji Doi, Tomohiro Tanaka, Hirokatsu Kataoka, (参考訳) 画像生成モデルの進歩は、合成画像を利用した画像認識のための様々な訓練技術にインスピレーションを与えている。 セマンティックセグメンテーション(セマンティックセグメンテーション)において、ある有望なアプローチは、テキストと画像の拡散モデルにおける注意マップから擬似マスクを抽出することである。 しかし,拡散合成画像と擬似マスクを用いた先駆的なトレーニング手法であるDiffuMaskは,マスクの品質,拡張性,適用領域の範囲に制限がある。 これらの制限を克服するために、拡散合成セマンティックセグメンテーショントレーニングの3つのテクニックを導入する。 第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。 ImageNet-1k-class image with pixel-labels benefit downstream segmentation tasks。 第2に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。 最後に、ロラに基づく安定拡散の適応により、遠方の領域、例えば自動走行画像への転送が可能となる。 PASCAL VOC, ImageNet-S, Cityscapes の実験により, セマンティックセグメンテーションにおける実と合成の訓練のギャップを効果的に埋めることを示す。

The advance of generative models for images has inspired various training techniques for image recognition utilizing synthetic images. In semantic segmentation, one promising approach is extracting pseudo-masks from attention maps in text-to-image diffusion models, which enables real-image-and-annotation-free training. However, the pioneering training method using the diffusion-synthetic images and pseudo-masks, i.e., DiffuMask has limitations in terms of mask quality, scalability, and ranges of applicable domains. To overcome these limitations, this work introduces three techniques for diffusion-synthetic semantic segmentation training. First, reliability-aware robust training, originally used in weakly supervised learning, helps segmentation with insufficient synthetic mask quality. %Second, large-scale pretraining of whole segmentation models, not only backbones, on synthetic ImageNet-1k-class images with pixel-labels benefits downstream segmentation tasks. Second, we introduce prompt augmentation, data augmentation to the prompt text set to scale up and diversify training images with a limited text resources. Finally, LoRA-based adaptation of Stable Diffusion enables the transfer to a distant domain, e.g., auto-driving images. Experiments in PASCAL VOC, ImageNet-S, and Cityscapes show that our method effectively closes gap between real and synthetic training in semantic segmentation.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-15
# 高次元における非エルミートスキンモードのエッジ理論

Edge theory of non-Hermitian skin modes in higher dimensions ( http://arxiv.org/abs/2309.03950v3 )

ライセンス: Link先を確認
Kai Zhang, Zhesen Yang, Kai Sun, (参考訳) 本稿では,高次元の非エルミートエッジスキンモードを特徴付ける効果的なエッジ理論を確立する。 まず,皮膚モードの局所的なエッジを容易に識別するためのバルク投影基準を提案する。 厳密なマッピングにより, エルミート半金属における非エルミート半金属とエルミート半金属とのギャップを埋めることにより, エッジスキンモードはゼロエネルギーエッジ状態と同一のバルクバウンダリー対応とローカライズ特性を持つことを示した。 もう一つの重要な発見は、局所化エッジからバルクへのスキンモードの特徴的な崩壊方向を記述するために提案した 'skewness' という用語の導入である。 顕著なことに,スキューネスは皮膚モードの内在量であり,境界の詳細を必要とせず,対応するシリンダー幾何学バルクハミルトンを用いて解析的に決定できることが示されている。 さらに、エッジ・スキン効果において、スペクトルは弱局所乱れに対して異常なスペクトル感度を示しており、コーナー・スキン効果と著しく区別する特徴であることを明らかにした。

In this paper, we establish an effective edge theory to characterize non-Hermitian edge-skin modes in higher dimensions. We begin by proposing a bulk projection criterion to straightforwardly identify the localized edges of skin modes. Through an exact mapping, we show that the edge-skin mode shares the same bulk-boundary correspondence and localization characteristics as the zero-energy edge states in a Hermitian semimetal under open-boundary conditions, bridging the gap between non-Hermitian edge-skin effect and Hermitian semimetals. Another key finding is the introduction of ``skewness,'' a term we proposed to describe the characteristic decay direction of skin mode from the localized edge into the bulk. Remarkably, we demonstrate that skewness is an intrinsic quantity of the skin mode and can be analytically determined using the corresponding cylinder-geometry bulk Hamiltonian, without requiring any boundary details. Furthermore, we reveal that in the edge-skin effect, the spectrum exhibits anomalous spectral sensitivity to weak local disturbances, a feature that crucially distinguishes it from the corner-skin effect.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-15
# FlowIBR: 動的シーンの効率的なニューラルイメージベースレンダリングのための事前学習

FlowIBR: Leveraging Pre-Training for Efficient Neural Image-Based Rendering of Dynamic Scenes ( http://arxiv.org/abs/2309.05418v2 )

ライセンス: Link先を確認
Marcel Büsching, Josef Bengtson, David Nilsson, Mårten Björkman, (参考訳) 本稿では,動的シーンを効率よく一眼レフで合成するための新しいアプローチであるFlowIBRを紹介する。 既存のテクニックはすでに印象的なレンダリング品質を示しているが、事前の知識を使わずに単一のシーンでの最適化に集中する傾向があり、1シーンあたりの最適化時間が長くなる。 FlowIBRは、広く利用可能な静的シーンの大きなコーパスで事前トレーニングされた、ニューラルネットワークベースのレンダリング手法と、シーンごとの最適化されたシーンフローフィールドを統合することで、この制限を回避する。 この流れ場を利用すると、カメラ線を曲げてシーンのダイナミックスに対処し、レンダリングネットワークに静的であるかのようにダイナミックなシーンを提示する。 提案手法はシーンごとの最適化時間を桁違いに削減し,既存の手法に匹敵するレンダリング品質を,すべて1つのコンシューマグレードのGPU上で達成する。

We introduce FlowIBR, a novel approach for efficient monocular novel view synthesis of dynamic scenes. Existing techniques already show impressive rendering quality but tend to focus on optimization within a single scene without leveraging prior knowledge, resulting in long optimization times per scene. FlowIBR circumvents this limitation by integrating a neural image-based rendering method, pre-trained on a large corpus of widely available static scenes, with a per-scene optimized scene flow field. Utilizing this flow field, we bend the camera rays to counteract the scene dynamics, thereby presenting the dynamic scene as if it were static to the rendering network. The proposed method reduces per-scene optimization time by an order of magnitude, achieving comparable rendering quality to existing methods -- all on a single consumer-grade GPU.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-15
# 大規模言語モデルの導出能力の評価

Evaluating the Deductive Competence of Large Language Models ( http://arxiv.org/abs/2309.05452v2 )

ライセンス: Link先を確認
Spencer M. Seals, Valerie L. Shalin, (参考訳) 高度に流動的な大言語モデル(LLM)の開発は、その推論と問題解決能力の評価への関心を高めている。 本研究は,認知科学文献から古典的な推論問題を解くことができる LLM が複数存在するかどうかを考察する。 試験されたLSMは、これらの問題を従来の形で解く能力に制限がある。 提示形式や内容の変更がモデル性能を向上するかどうかを検討するために,フォローアップ実験を行った。 性能は条件によって異なるが、全体的な性能は改善されない。 さらに,人的パフォーマンスとは違って,提示形式やコンテンツとのインタラクションが予期せぬ形で行われていることも判明した。 以上の結果から,LLMには人為的推論性能からのみ予測される独自の推論バイアスと,それらに通知する人為的言語コーパスが存在することが示唆された。

The development of highly fluent large language models (LLMs) has prompted increased interest in assessing their reasoning and problem-solving capabilities. We investigate whether several LLMs can solve a classic type of deductive reasoning problem from the cognitive science literature. The tested LLMs have limited abilities to solve these problems in their conventional form. We performed follow up experiments to investigate if changes to the presentation format and content improve model performance. We do find performance differences between conditions; however, they do not improve overall performance. Moreover, we find that performance interacts with presentation format and content in unexpected ways that differ from human performance. Overall, our results suggest that LLMs have unique reasoning biases that are only partially predicted from human reasoning performance and the human-generated language corpora that informs them.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-15
# 言語間移動パラダイムにおけるカタストロフィック・フォーミングの測定:チューニング戦略の探求

Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies ( http://arxiv.org/abs/2309.06089v2 )

ライセンス: Link先を確認
Boshko Koloski, Blaž Škrlj, Marko Robnik-Šikonja, Senja Pollak, (参考訳) 言語間移動は、少ないリソースの言語でタスクを解くための有望なテクニックである。 本研究では,大規模言語モデルに対するゼロショットとフルショットの学習手法を組み合わせた2つの微調整手法を,言語横断的に比較した。 微調整手法として、パラメータ効率のよいアダプタ法とパラメータの微調整法を比較する。 言語間移動戦略として、各言語を逐次使用する中間学習(\textit{IT})と、すでに微調整の検証段階にある対象言語を使用する言語間検証(\textit{CLV})を比較する。 我々は,異なる言語で新しい情報を学ぶ際に,これまで習得されていた知識がどれだけ失われているか,というような言語間移動によるソース言語における伝達の成功と破滅的な忘れの程度を評価する。 ヘイトスピーチ検出と製品レビューの2つの異なる分類問題(各言語にデータセットを含む)の結果から,対象言語の言語間戦略が目標言語に対してより優れていることが示された。 以上の結果から,多言語間移動における破滅的忘れ込みの評価において, 基本言語(英語)における知識の保持が, 基本言語(英語)における知識の保持に優れていることが示唆された。

The cross-lingual transfer is a promising technique to solve tasks in less-resourced languages. In this empirical study, we compare two fine-tuning approaches combined with zero-shot and full-shot learning approaches for large language models in a cross-lingual setting. As fine-tuning strategies, we compare parameter-efficient adapter methods with fine-tuning of all parameters. As cross-lingual transfer strategies, we compare the intermediate-training (\textit{IT}) that uses each language sequentially and cross-lingual validation (\textit{CLV}) that uses a target language already in the validation phase of fine-tuning. We assess the success of transfer and the extent of catastrophic forgetting in a source language due to cross-lingual transfer, i.e., how much previously acquired knowledge is lost when we learn new information in a different language. The results on two different classification problems, hate speech detection and product reviews, each containing datasets in several languages, show that the \textit{IT} cross-lingual strategy outperforms \textit{CLV} for the target language. Our findings indicate that, in the majority of cases, the \textit{CLV} strategy demonstrates superior retention of knowledge in the base language (English) compared to the \textit{IT} strategy, when evaluating catastrophic forgetting in multiple cross-lingual transfers.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-15
# X-PARADE: パラグラフ間の言語間テキストの包含と情報の多様性

X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs ( http://arxiv.org/abs/2309.08873v2 )

ライセンス: Link先を確認
Juan Diego Rodriguez, Katrin Erk, Greg Durrett, (参考訳) 2つのテキストが同じ情報を伝達する際の理解は、テキストのエンテーメントやファクトチェックを含む、NLPの多くのサブプロブレムに触れるゴールである。 この問題は、これらの2つのテキストが言語によって異なる場合にさらに複雑になる。 本稿では,X-PARADE (Cross-lingual Paragraph-level Analysis of Divergences and Entailments)について紹介する。 アノテーションは、目的言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落について評価し、所定の情報が同じ、新しい、あるいは新しいものであるかを示すが、推測することができる。 この最後の概念は、言語間NLIとのリンクを確立する。 アライメントされた段落は、様々な言語のウィキペディアページから派生したもので、野生で観測された実際の情報の相違を反映している。 データセットを組み、機械翻訳からのトークンアライメント、意思決定をローカライズするテキストエンターメント手法、LLMの推進など、この問題に対するさまざまなアプローチについて検討する。 以上の結果から,これらの手法は推定不可能な情報を扱う能力に異なるが,いずれも人的性能に欠けることがわかった。

Understanding when two pieces of text convey the same information is a goal touching many subproblems in NLP, including textual entailment and fact-checking. This problem becomes more complex when those two pieces of text are in different languages. Here, we introduce X-PARADE (Cross-lingual Paragraph-level Analysis of Divergences and Entailments), the first cross-lingual dataset of paragraph-level information divergences. Annotators label a paragraph in a target language at the span level and evaluate it with respect to a corresponding paragraph in a source language, indicating whether a given piece of information is the same, new, or new but can be inferred. This last notion establishes a link with cross-language NLI. Aligned paragraphs are sourced from Wikipedia pages in different languages, reflecting real information divergences observed in the wild. Armed with our dataset, we investigate a diverse set of approaches for this problem, including token alignment from machine translation, textual entailment methods that localize their decisions, and prompting LLMs. Our results show that these methods vary in their capability to handle inferable information, but they all fall short of human performance.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# 大規模言語モデルから得られた確率に基づく特許請求の範囲測定のための新しいアプローチ

A novel approach to measuring the scope of patent claims based on probabilities obtained from (large) language models ( http://arxiv.org/abs/2309.10003v4 )

ライセンス: Link先を確認
Sébastien Ragot, (参考訳) 本研究は,特許クレームの範囲を,このクレームに含まれる自己情報の相互性として測定することを提案する。 自己情報は、請求項の発生確率に基づいて算出され、この確率は言語モデルから得られる。 情報理論の根底にあるこのアプローチは、不可能な概念が通常の概念よりも情報的である、という仮定に基づいている。 逆に、クレームを定義するのに必要な情報が驚くほど、その範囲は狭くなる。 最も単純なモデル(各単語または文字は同じ確率)から中間モデル(平均語または文字周波数に基づく)、GPT2やdavinci-002のような大きな言語モデル(LLM)まで、7つの言語モデルが検討されている。 注目すべきは、最も単純な言語モデルを用いて確率を計算するとき、その範囲はクレームに関わる単語や文字の数の相反に比例する。 異なる発明に向けられた複数の特許クレームに適用され、各シリーズは徐々に減少する範囲を持つように考案されたクレームから構成される。 言語モデルのパフォーマンスは、いくつかのアドホックテストによって評価される。 LLMは単語と文字の周波数に基づくモデルよりも優れており、それ自身は単語や文字数に基づく最も単純なモデルより優れている。 しかし、興味深いことに、文字数の方が単語数よりも信頼性の高い指標であるようだ。

This work proposes to measure the scope of a patent claim as the reciprocal of self-information contained in this claim. Self-information is calculated based on a probability of occurrence of the claim, where this probability is obtained from a language model. Grounded in information theory, this approach is based on the assumption that an unlikely concept is more informative than a usual concept, insofar as it is more surprising. In turn, the more surprising the information required to define the claim, the narrower its scope. Seven language models are considered, ranging from simplest models (each word or character has an identical probability) to intermediate models (based on average word or character frequencies), to large language models (LLMs) such as GPT2 and davinci-002. Remarkably, when using the simplest language models to compute the probabilities, the scope becomes proportional to the reciprocal of the number of words or characters involved in the claim, a metric already used in previous works. Application is made to multiple series of patent claims directed to distinct inventions, where each series consists of claims devised to have a gradually decreasing scope. The performance of the language models is then assessed through several ad hoc tests. The LLMs outperform models based on word and character frequencies, which themselves outdo the simplest models based on word or character counts. Interestingly, however, the character count appears to be a more reliable indicator than the word count.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# MoDA: セマンティックセグメンテーションにおける教師なしドメイン適応の促進のためのビデオからの動作優先の活用

MoDA: Leveraging Motion Priors from Videos for Advancing Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2309.11711v2 )

ライセンス: Link先を確認
Fei Pan, Xu Yin, Seokju Lee, Axi Niu, Sungeui Yoon, In So Kweon, (参考訳) 非教師なしドメイン適応(UDA)は、特にセマンティックセグメンテーションタスクにおいて、ターゲットドメインにおけるアノテーションの欠如を扱う強力なテクニックである。 本研究は、対象ドメインが未ラベルのビデオフレームを含む異なるUDAシナリオを紹介する。 幾何学的制約のある未ラベルビデオからの物体の動きの自己教師的学習の最近の進歩を参考に, モダプティブセマンティックセマンティック・セマンティック・フレームワーク (MoDA) を設計した。 MoDAは、セグメンテーションタスクのクロスドメインアライメントを容易にするために、自己教師対象のモーションキューを利用する。 まず,物体の動き情報を用いて対象を移動させる対象探索モジュールを提案する。 そこで本研究では,対象ドメインの擬似ラベルを改良するために,オブジェクトマスクを用いたセマンティックマイニングモジュールを提案する。 その後、これらの高品質な擬似ラベルは、クロスドメインギャップをブリッジするために自己学習ループで使用される。 領域適応型ビデオと画像分割実験において、MoDAは、物体の動きを光フロー情報と比較して、領域アライメントのガイダンスとして有効性を示す。 さらに、既存の最先端のUDAアプローチを補完できるため、MoDAは汎用性を示す。 コードネームはhttps://github.com/feipanir/MoDA。

Unsupervised domain adaptation (UDA) has been a potent technique to handle the lack of annotations in the target domain, particularly in semantic segmentation task. This study introduces a different UDA scenarios where the target domain contains unlabeled video frames. Drawing upon recent advancements of self-supervised learning of the object motion from unlabeled videos with geometric constraint, we design a \textbf{Mo}tion-guided \textbf{D}omain \textbf{A}daptive semantic segmentation framework (MoDA). MoDA harnesses the self-supervised object motion cues to facilitate cross-domain alignment for segmentation task. First, we present an object discovery module to localize and segment target moving objects using object motion information. Then, we propose a semantic mining module that takes the object masks to refine the pseudo labels in the target domain. Subsequently, these high-quality pseudo labels are used in the self-training loop to bridge the cross-domain gap. On domain adaptive video and image segmentation experiments, MoDA shows the effectiveness utilizing object motion as guidance for domain alignment compared with optical flow information. Moreover, MoDA exhibits versatility as it can complement existing state-of-the-art UDA approaches. Code at https://github.com/feipanir/MoDA.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# ラテントノイズセグメンテーション : ニューラルノイズがセグメンテーションとグルーピングの創発にどのように導くか

Latent Noise Segmentation: How Neural Noise Leads to the Emergence of Segmentation and Grouping ( http://arxiv.org/abs/2309.16515v2 )

ライセンス: Link先を確認
Ben Lonnqvist, Zhengqing Wu, Michael H. Herzog, (参考訳) 人間は知覚的なグルーピングを使用して、監督なしに画像のセグメント化を積極的に行うことができる。 本研究では、教師なしの知覚的グループ化とセグメンテーションを解くための反直感的な計算手法を提案する。 本研究では,(1)現実的な仮定の下では,物体同士を分離するためにニューラルノイズを用いることが可能であること,(2)DNNにノイズを加えることにより,いかなるセグメンテーションラベルにも訓練されていないものの,画像のセグメンテーションが可能になること,(3)人間の知覚的グルーピング現象と整合するセグメンテーション性能において,ノイズを用いたセグメンテーションの結果がセグメンテーション性能に与える影響を数学的に示す。 GGデータセット(Good Gestalt) -- 知覚的グループ化を特にテストするために設計された6つのデータセットを導入し、私たちのDNNモデルが、照明輪郭、クロージャ、連続性、近接性、閉塞といった、人間の知覚における多くの重要な現象を再現していることを示す。 最後に,本モデルでは,GGデータセットの性能を他の非教師付きモデルと比較して24.9 %$で改善していることを示す。 本研究は, 少数の仮定を必要とする新しい教師なしセグメンテーション法, 知覚的グルーピングの形成に関する新たな説明, ニューラルノイズの新たなメリットを示唆するものである。

Humans are able to segment images effortlessly without supervision using perceptual grouping. In this work, we propose a counter-intuitive computational approach to solving unsupervised perceptual grouping and segmentation: that they arise \textit{because} of neural noise, rather than in spite of it. We (1) mathematically demonstrate that under realistic assumptions, neural noise can be used to separate objects from each other; (2) that adding noise in a DNN enables the network to segment images even though it was never trained on any segmentation labels; and (3) that segmenting objects using noise results in segmentation performance that aligns with the perceptual grouping phenomena observed in humans, and is sample-efficient. We introduce the Good Gestalt (GG) datasets -- six datasets designed to specifically test perceptual grouping, and show that our DNN models reproduce many important phenomena in human perception, such as illusory contours, closure, continuity, proximity, and occlusion. Finally, we (4) show that our model improves performance on our GG datasets compared to other tested unsupervised models by $24.9\%$. Together, our results suggest a novel unsupervised segmentation method requiring few assumptions, a new explanation for the formation of perceptual grouping, and a novel potential benefit of neural noise.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# 大規模言語モデルは自然言語を形式的手法に変換できるか?

Can Large Language Models Transform Natural Language Intent into Formal Method Postconditions? ( http://arxiv.org/abs/2310.01831v2 )

ライセンス: Link先を確認
Madeline Endres, Sarah Fakhoury, Saikat Chakraborty, Shuvendu K. Lahiri, (参考訳) コードコメントや関数ドキュメンテーションなどのコード機能を記述するインフォーマル自然言語には、プログラムの意図に関する重要な情報が含まれている可能性がある。 しかし、プログラムの実装と自然言語のドキュメントが一致しているという保証はない。 衝突の場合、コードに隣接した自然言語で情報を活用することは、フォールトローカライゼーション、デバッグ、コードの信頼性を高める可能性がある。 しかし、実際には、自然言語の本来のあいまいさが、自然言語の意図をプログラム的にチェックすることを困難にしているため、この情報は利用されていないことが多い。 大規模言語モデル(LLM)の創発的能力は、プログラムでチェック可能なアサーションへの自然言語意図の翻訳を促進する可能性がある。 しかし、LLMが非公式な自然言語仕様をプログラマの意図に合う形式仕様に正しく翻訳できるかどうかは不明である。 また、そのような翻訳が実際に有用かは定かではない。 本稿では,Nl2postcondについて述べる。これは,プログラムアサーションとして表現された,非公式な自然言語から形式的なメソッドポストコンディションへの変換にLLMを活用する問題である。 生成したポストコンディションの正しさと識別力を用いて,異なるnl2ポストコンディションアプローチを測定・比較するためのメトリクスを導入,検証する。 次に、定性的かつ定量的な手法を用いて、nl2postcond後条件の質を評価し、それらが一般的に正しく、誤ったコードを識別できることを示す。 最後に、LLMによるnl2postcondは、実際に役立つ可能性があることを発見し、nl2postcond生成されたポストコンドは、Defects4Jから64の実際の歴史的バグをキャッチできた。

Informal natural language that describes code functionality, such as code comments or function documentation, may contain substantial information about a programs intent. However, there is typically no guarantee that a programs implementation and natural language documentation are aligned. In the case of a conflict, leveraging information in code-adjacent natural language has the potential to enhance fault localization, debugging, and code trustworthiness. In practice, however, this information is often underutilized due to the inherent ambiguity of natural language which makes natural language intent challenging to check programmatically. The emergent abilities of Large Language Models (LLMs) have the potential to facilitate the translation of natural language intent to programmatically checkable assertions. However, it is unclear if LLMs can correctly translate informal natural language specifications into formal specifications that match programmer intent. Additionally, it is unclear if such translation could be useful in practice. In this paper, we describe nl2postcond, the problem of leveraging LLMs for transforming informal natural language to formal method postconditions, expressed as program assertions. We introduce and validate metrics to measure and compare different nl2postcond approaches, using the correctness and discriminative power of generated postconditions. We then use qualitative and quantitative methods to assess the quality of nl2postcond postconditions, finding that they are generally correct and able to discriminate incorrect code. Finally, we find that nl2postcond via LLMs has the potential to be helpful in practice; nl2postcond generated postconditions were able to catch 64 real-world historical bugs from Defects4J.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# クラスタリングに基づく領域一般化のための画像テキストグラフマッチング

Clustering-based Image-Text Graph Matching for Domain Generalization ( http://arxiv.org/abs/2310.02692v2 )

ライセンス: Link先を確認
Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun-Sol Kim, Jinkyu Kim, (参考訳) ドメイン不変の視覚表現を学習することは、未確認のタスクドメインにうまく一般化できるモデルを訓練する上で重要である。 近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれており、ドメイン一般化問題に対する効果的なピボット埋め込みとして、このような補助的なセマンティック・キューが利用できることが示されている。 しかし、それらはグローバルな方法でのピボット埋め込み(すなわち、画像埋め込みと文レベルのテキスト埋め込み)を使用しており、与えられたテキスト記述のセマンティックキューを完全に活用していない。 本研究では,画像領域と対応するテキスト記述間の局所的なアライメントの利用を提唱する。 この目的のために、まず画像とテキストの入力をグラフで表現する。 その後、これらのグラフにノードをクラスタ化し、グラフベースの画像ノードの特徴をテキストグラフにマッチさせる。 このマッチングプロセスは、視覚的およびテキスト的セマンティックなサブ構造を緊密に整列させ、グローバルかつ局所的に実行される。 我々は,CUB-DGやDomainBedなどの大規模公開データセットを用いて実験を行い,これらのデータセット上での適合あるいは最先端のパフォーマンスを実現する。 私たちのコードは出版時に公開されます。

Learning domain-invariant visual representations is important to train a model that can generalize well to unseen target task domains. Recent works demonstrate that text descriptions contain high-level class-discriminative information and such auxiliary semantic cues can be used as effective pivot embedding for domain generalization problem. However, they use pivot embedding in global manner (i.e., aligning an image embedding with sentence-level text embedding), not fully utilizing the semantic cues of given text description. In this work, we advocate for the use of local alignment between image regions and corresponding textual descriptions. To this end, we first represent image and text inputs with graphs. We subsequently cluster nodes in those graphs and match the graph-based image node features into textual graphs. This matching process is conducted globally and locally, tightly aligning visual and textual semantic sub-structures. We experiment with large-scale public datasets, such as CUB-DG and DomainBed, and our model achieves matched or better state-of-the-art performance on these datasets. Our code will be publicly available upon publication.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# 興奮点プロセスのステアリングのための記憶ネットワーク干渉

Amortized Network Intervention to Steer the Excitatory Point Processes ( http://arxiv.org/abs/2310.04159v2 )

ライセンス: Link先を確認
Zitao Song, Wendi Ren, Shuang Li, (参考訳) 動的グラフ(トポロジーの進化)上で発生する励起点過程(すなわちイベントフロー)は、離散事象が時間と空間を通してどのように広がるかを把握するためのきめ細かいモデルを提供する。 動的グラフ構造を変更してイベントフローを効果的に操縦する方法は興味深い問題であり、都市を戦略的に封鎖して交通渋滞を緩和し、交通光の最適化によって感染症の拡散を抑えることによって動機付けられる。 このような意思決定問題に固有の高次元性を克服し、計画の難しさに対処するために、歴史やその他の文脈から最適なポリシーをプーリングし、置換等価性を確保しつつ、ANI(Amortized Network Interventions)フレームワークを設計する。 この特性により、多様な文脈における効率的な知識の伝達と共有が可能となる。 それぞれのタスクはHステップのルックアヘッドモデルに基づく強化学習によって解決される。 ダイナミックスモデルからロールアウトをシミュレートする代わりに、動的に与えられたイベントフローの解析的平均場近似を導出し、オンラインプランニングをより効率的に解けるようにする。 このANIアプローチは、目に見えないダイナミクスに対するポリシー学習を大幅に強化し、合成および実際のCOVIDデータセットを用いたネットワーク介入によるイベントフローのステアリングにおいて有望な結果を示すことを実証的に説明します。

Excitatory point processes (i.e., event flows) occurring over dynamic graphs (i.e., evolving topologies) provide a fine-grained model to capture how discrete events may spread over time and space. How to effectively steer the event flows by modifying the dynamic graph structures presents an interesting problem, motivated by curbing the spread of infectious diseases through strategically locking down cities to mitigating traffic congestion via traffic light optimization. To address the intricacies of planning and overcome the high dimensionality inherent to such decision-making problems, we design an Amortized Network Interventions (ANI) framework, allowing for the pooling of optimal policies from history and other contexts while ensuring a permutation equivalent property. This property enables efficient knowledge transfer and sharing across diverse contexts. Each task is solved by an H-step lookahead model-based reinforcement learning, where neural ODEs are introduced to model the dynamics of the excitatory point processes. Instead of simulating rollouts from the dynamics model, we derive an analytical mean-field approximation for the event flows given the dynamics, making the online planning more efficiently solvable. We empirically illustrate that this ANI approach substantially enhances policy learning for unseen dynamics and exhibits promising outcomes in steering event flows through network intervention using synthetic and real COVID datasets.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# 置換不変量子符号の族

A family of permutationally invariant quantum codes ( http://arxiv.org/abs/2310.05358v3 )

ライセンス: Link先を確認
Arda Aydin, Max A. Alekseyev, Alexander Barg, (参考訳) 任意の$t\ge 1$に対して$t$ Pauliエラーを補正する、置換不変コードの新しいファミリーを構築します。 また、新しい家系の符号は、自発的な減衰誤差と同様に、量子削除誤差を補正することを示した。 我々の構成は、以前に知られている変分不変量子符号のいくつかを特に含んでおり、これは超越ゲートも含んでいる。 多くの場合、新しい家系の符号は、パウリの誤りや削除のための最もよく知られた置換不変符号よりも短い。 さらに、新しいコードファミリーには、新しい$((4,2,2))$Optimary Single-deletion-correctingコードが含まれています。 別個の結果として、置換不変コードの条件を一般化して、既知の結果から$t=1$を任意のエラーに対して$t=Pauliエラーを補正する。 小さな$t$の場合、これらの条件はコンピュータによるコードの新しい例を構築するのに使うことができる。

We construct a new family of permutationally invariant codes that correct $t$ Pauli errors for any $t\ge 1$. We also show that codes in the new family correct quantum deletion errors as well as spontaneous decay errors. Our construction contains some of the previously known permutationally invariant quantum codes as particular cases, which also admit transversal gates. In many cases, the codes in the new family are shorter than the best previously known explicit permutationally invariant codes for Pauli errors and deletions. Furthermore, our new code family includes a new $((4,2,2))$ optimal single-deletion-correcting code. As a separate result, we generalize the conditions for permutationally invariant codes to correct $t$ Pauli errors from the previously known results for $t=1$ to any number of errors. For small $t$, these conditions can be used to construct new examples of codes by computer.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# テレビが鳴ったらどうなるか? マルチモーダル言語モデルの非現実的推論能力について

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models ( http://arxiv.org/abs/2310.06627v4 )

ライセンス: Link先を確認
Letian Zhang, Xiaotong Zhai, Zhongkai Zhao, Yongshuo Zong, Xin Wen, Bingchen Zhao, (参考訳) 人間の認知の基本的な側面である対実的推論は、確立された事実や過去の出来事に代わるものを考えることを含み、計画や意思決定における我々の能力を大幅に向上させる。 現在のマルチモーダルな大規模言語モデルの進歩を踏まえて, 反実的推論におけるそれらの有効性について検討する。 そこで本研究では,現代マルチモーダル大言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを提案する。 このデータセットは、数値クエリやブールクエリなど、さまざまなタイプにまたがる、カウンターファクトの前提条件でオリジナルの質問を注入することで構築される。 実際のデータと合成データを混在させ、幅広い難易度を表現している。 このデータセットを用いた現代の視覚言語モデルの徹底的な評価では、パフォーマンス低下が顕著であり、一部のモデルでは40%まで低下し、現在のモデルと人間に似た視覚推論能力の間に大きなギャップが浮かび上がっている。 当社のデータセットが、モデルの偽物推論能力を評価するための重要なベンチマークとして機能することを願っています。 コードとデータセットはhttps://bzhao.me/C-VQA/で公開されている。

Counterfactual reasoning, a fundamental aspect of human cognition, involves contemplating alternatives to established facts or past events, significantly enhancing our abilities in planning and decision-making. In light of the advancements in current multi-modal large language models, we explore their effectiveness in counterfactual reasoning. To facilitate this investigation, we introduce a novel dataset, C-VQA, specifically designed to test the counterfactual reasoning capabilities of modern multi-modal large language models. This dataset is constructed by infusing original questions with counterfactual presuppositions, spanning various types such as numerical and boolean queries. It encompasses a mix of real and synthetic data, representing a wide range of difficulty levels. Our thorough evaluations of contemporary vision-language models using this dataset have revealed substantial performance drops, with some models showing up to a 40% decrease, highlighting a significant gap between current models and human-like vision reasoning capabilities. We hope our dataset will serve as a vital benchmark for evaluating the counterfactual reasoning capabilities of models. Code and dataset are publicly available at https://bzhao.me/C-VQA/.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-15
# 深層学習による高周波フィンガープリント : 課題と機会

Radio Frequency Fingerprinting via Deep Learning: Challenges and Opportunities ( http://arxiv.org/abs/2310.16406v2 )

ライセンス: Link先を確認
Saeif Al-Hazbi, Ahmed Hussain, Savio Sciancalepore, Gabriele Oligeri, Panos Papadimitratos, (参考訳) RFF(Radio Frequency Fingerprinting)技術は、製造時に導入された固有のハードウェア不完全性に基づいて、物理層における無線デバイスを認証することを約束する。 このようなRF送信装置の不完全性は無線信号に反映され、受信機はRF送信元を正確に識別することができる。 機械学習の最近の進歩、特にディープラーニング(DL)では、デバイス固有の指紋を構成する複雑な特徴を抽出し学習するRFFシステムの能力が改善されている。 しかし、RFFとDL技術の統合と実世界のシナリオでの運用は、組込みシステムとDL研究領域から派生した多くの課題を呈している。 本稿では, DL ベース RFF システム構築における本質的考察と課題を, 開発ライフサイクル全体にわたって系統的に把握し, 分析する。 (i)データ収集及び前処理 (二)訓練、そして最後に (3)配備。 本研究は、DLベースのRFFシステムの実際の展開を防止するとともに、これらのシステムの全体的な正確性、堅牢性、プライバシを高めるための有望な研究機会についても論じる。

Radio Frequency Fingerprinting (RFF) techniques promise to authenticate wireless devices at the physical layer based on inherent hardware imperfections introduced during manufacturing. Such RF transmitter imperfections are reflected into over-the-air signals, allowing receivers to accurately identify the RF transmitting source. Recent advances in Machine Learning, particularly in Deep Learning (DL), have improved the ability of RFF systems to extract and learn complex features that make up the device-specific fingerprint. However, integrating DL techniques with RFF and operating the system in real-world scenarios presents numerous challenges, originating from the embedded systems and the DL research domains. This paper systematically identifies and analyzes the essential considerations and challenges encountered in the creation of DL-based RFF systems across their typical development life-cycle, which include (i) data collection and preprocessing, (ii) training, and finally, (iii) deployment. Our investigation provides a comprehensive overview of the current open problems that prevent real deployment of DL-based RFF systems while also discussing promising research opportunities to enhance the overall accuracy, robustness, and privacy of these systems.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-15
# CADS: 条件付きサンプリングによる拡散モデルの多様性の解放

CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling ( http://arxiv.org/abs/2310.17347v3 )

ライセンス: Link先を確認
Seyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber, (参考訳) 条件付き拡散モデルは、データ分布をよくカバーしていることが知られているが、特に最適な画像品質のための高い分類子なしガイダンススケールや、小さなデータセットで訓練された場合、出力の多様性の制限に直面している。 この問題は, 推論における条件付け信号の役割に起因し, 特に高ガイダンススケールにおいて, サンプル品質の損失を最小限に抑えながら, 生成の多様性を向上させる拡散モデルのサンプリング戦略の改善を図っている。 サンプリング手法では,条件付ベクトルに単調にガウス雑音を付加することにより条件付信号の処理を行ない,多様性と条件付のバランスをとる。 条件付き拡散サンプリング(CADS)は,任意の事前学習モデルとサンプリングアルゴリズムで使用することができ,様々な条件生成タスクにおける拡散モデルの多様性を向上することを示す。 さらに、既存の事前訓練拡散モデルを用いて、CADSは256$\times$256と512$\times$512のクラス条件の画像ネット生成に対して、1.70と2.31の最先端FIDをそれぞれ達成している。

While conditional diffusion models are known to have good coverage of the data distribution, they still face limitations in output diversity, particularly when sampled with a high classifier-free guidance scale for optimal image quality or when trained on small datasets. We attribute this problem to the role of the conditioning signal in inference and offer an improved sampling strategy for diffusion models that can increase generation diversity, especially at high guidance scales, with minimal loss of sample quality. Our sampling strategy anneals the conditioning signal by adding scheduled, monotonically decreasing Gaussian noise to the conditioning vector during inference to balance diversity and condition alignment. Our Condition-Annealed Diffusion Sampler (CADS) can be used with any pretrained model and sampling algorithm, and we show that it boosts the diversity of diffusion models in various conditional generation tasks. Further, using an existing pretrained diffusion model, CADS achieves a new state-of-the-art FID of 1.70 and 2.31 for class-conditional ImageNet generation at 256$\times$256 and 512$\times$512 respectively.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-15
# 領域適応型グラフニューラルネットワークによる複数データセット間の宇宙パラメータの制御

Domain Adaptive Graph Neural Networks for Constraining Cosmological Parameters Across Multiple Data Sets ( http://arxiv.org/abs/2311.01588v3 )

ライセンス: Link先を確認
Andrea Roncoli, Aleksandra Ćiprijanović, Maggie Voetberg, Francisco Villaescusa-Navarro, Brian Nord, (参考訳) 深層学習モデルは、複雑な宇宙的なデータセットから情報を取り出す際に、パワースペクトルのような要約統計に依存する方法よりも優れていることが示されている。 しかし、サブグリッド物理の実装の違いと、異なるシミュレーションスイート間の数値近似により、ある宇宙シミュレーションのデータに基づいて訓練されたモデルは、別の宇宙シミュレーションでテストすると性能が低下することを示している。 同様に、シミュレーションで訓練されたモデルでも、観測データに適用した場合のパフォーマンスが低下する可能性がある。 CAMELS流体力学シミュレーションの2つの異なるスイートからのデータを学習し、ドメイン適応グラフニューラルネットワーク(DA-GNN)の一般化能力について検討する。 GNNを利用することで、銀河分布から構造化された無スケール宇宙情報を取得する能力に乗じる。 さらに,MMD(Maximum Mean Discrepancy)による教師なしドメイン適応を組み込むことで,ドメイン不変の特徴を抽出することができる。 DA-GNNは、データセット間のタスクにおいて高い精度とロバスト性を達成する(最大28 % の相対誤差と、ほぼ1 桁の約$\chi^2$)。 データビジュアライゼーションを用いて、ドメイン適応が適切な潜在空間データアライメントに与える影響を示す。 このことは、DA-GNNがドメインに依存しない宇宙情報抽出の有望な方法であり、実際の宇宙調査データに対する堅牢な深層学習に向けた重要なステップであることを示している。

Deep learning models have been shown to outperform methods that rely on summary statistics, like the power spectrum, in extracting information from complex cosmological data sets. However, due to differences in the subgrid physics implementation and numerical approximations across different simulation suites, models trained on data from one cosmological simulation show a drop in performance when tested on another. Similarly, models trained on any of the simulations would also likely experience a drop in performance when applied to observational data. Training on data from two different suites of the CAMELS hydrodynamic cosmological simulations, we examine the generalization capabilities of Domain Adaptive Graph Neural Networks (DA-GNNs). By utilizing GNNs, we capitalize on their capacity to capture structured scale-free cosmological information from galaxy distributions. Moreover, by including unsupervised domain adaptation via Maximum Mean Discrepancy (MMD), we enable our models to extract domain-invariant features. We demonstrate that DA-GNN achieves higher accuracy and robustness on cross-dataset tasks (up to $28\%$ better relative error and up to almost an order of magnitude better $\chi^2$). Using data visualizations, we show the effects of domain adaptation on proper latent space data alignment. This shows that DA-GNNs are a promising method for extracting domain-independent cosmological information, a vital step toward robust deep learning for real cosmic survey data.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-15
# 放射線オンコロジーにおけるLLM駆動マルチモーダルターゲットボリューム構成

LLM-driven Multimodal Target Volume Contouring in Radiation Oncology ( http://arxiv.org/abs/2311.01908v3 )

ライセンス: Link先を確認
Yujin Oh, Sangjoon Park, Hwa Kyung Byun, Yeona Cho, Ik Jae Lee, Jin Sung Kim, Jong Chul Ye, (参考訳) 放射線治療における目標容積構成は, 画像情報とテキスト情報の両方を活用する必要があるため, 通常の臓器分割作業よりも有意に困難であると考えられる。 テキスト情報と画像の統合を容易にする大規模言語モデル(LLMs)の最近の進歩に触発されて,臨床用テキスト情報を活用し,放射線治療のための目標音量コンチューリングという課題に適応し,乳がん放射線治療対象音量コントゥーリングの文脈で検証する,新たなLLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。 実世界の応用に非常に寄与する外部検証とデータ不十分な環境を用いて,提案モデルが従来の非モーダルAIモデルと比較して顕著に改善された性能を示し,特に高機能な一般化性能とデータ効率を示すことを示した。 我々の知る限り、これはLSM駆動型マルチモーダルAIモデルとしては初めてのものであり、臨床テキスト情報を放射線腫瘍学のターゲットボリュームデライン化に統合するものである。

Target volume contouring for radiation therapy is considered significantly more challenging than the normal organ segmentation tasks as it necessitates the utilization of both image and text-based clinical information. Inspired by the recent advancement of large language models (LLMs) that can facilitate the integration of the textural information and images, here we present a novel LLM-driven multimodal AI, namely LLMSeg, that utilizes the clinical text information and is applicable to the challenging task of target volume contouring for radiation therapy, and validate it within the context of breast cancer radiation therapy target volume contouring. Using external validation and data-insufficient environments, which attributes highly conducive to real-world applications, we demonstrate that the proposed model exhibits markedly improved performance compared to conventional unimodal AI models, particularly exhibiting robust generalization performance and data efficiency. To our best knowledge, this is the first LLM-driven multimodal AI model that integrates the clinical text information into target volume delineation for radiation oncology.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-15
# 調整のためのきめ細かい品質信号の活用

Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment ( http://arxiv.org/abs/2311.04072v2 )

ライセンス: Link先を確認
Geyang Guo, Ranchi Zhao, Tianyi Tang, Wayne Xin Zhao, Ji-Rong Wen, (参考訳) 人間の好みに合わせたアライメントは、大きな言語モデル(LLM)の望ましい特性である。 現在、主なアライメントアプローチは、人間のフィードバック(RLHF)からの強化学習に基づいている。 RLHFの有効性にもかかわらず、実装と訓練は複雑であり、近年の研究では、教師付き微調整(SFT)に基づく代替アライメント手法の開発方法について検討している。 SFTの大きな制限は、基本的に模倣学習を行うことであり、期待される行動が何であるかを完全に理解できないことである。 この問題に対処するため、FIGAという改良されたアライメント手法を提案する。 従来の手法と異なり、良質な応答と悪質な応答を対比して導出する、きめ細かい(トークンレベルやフレーズレベルなど)品質信号が組み込まれている。 私たちのアプローチには2つの大きな貢献があります。 まず、初期応答とそれに対応する修正データセットを組み合わせ、精巧なアライメントデータセットをキュレートする。 第二に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。 大規模な実験は,多くの競争基盤線を比較することで,我々のアプローチの有効性を実証した。

Alignment with human preference is a desired property of large language models (LLMs). Currently, the main alignment approach is based on reinforcement learning from human feedback (RLHF). Despite the effectiveness of RLHF, it is intricate to implement and train, thus recent studies explore how to develop alternative alignment approaches based on supervised fine-tuning (SFT). A major limitation of SFT is that it essentially does imitation learning, which cannot fully understand what are the expected behaviors. To address this issue, we propose an improved alignment approach named FIGA. Different from prior methods, we incorporate fine-grained (i.e., token or phrase level) quality signals that are derived by contrasting good and bad responses. Our approach has made two major contributions. Firstly, we curate a refined alignment dataset that pairs initial responses and the corresponding revised ones. Secondly, we devise a new loss function can leverage fine-grained quality signals to instruct the learning of LLMs for alignment. Extensive experiments have demonstrated the effectiveness of our approaches by comparing a number of competitive baselines.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# 多言語Dense RetrievalにおけるLLMの活用による多言語間の学習データの合成

Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval ( http://arxiv.org/abs/2311.05800v2 )

ライセンス: Link先を確認
Nandan Thakur, Jianmo Ni, Gustavo Hernández Ábrego, John Wieting, Jimmy Lin, Daniel Cer, (参考訳) 複数の言語で利用可能な不均一で少ないトレーニングデータのため、多言語検索における高密度検索モデルの成功は限られている。 合成トレーニングデータ生成は将来性があり(例えば、InParsやPromptagator)、英語でのみ研究されている。 そこで本研究では,言語横断検索タスクとモノリンガル検索タスクの両方を対象としたモデル機能について検討するため,人間の監督を必要とせず,微調整された多言語高資源検索のための33言語を含む合成検索訓練データセットSWIM-IRを開発した。 SWIM-IRを構築するために,SAP(summarize-then-ask prompting)を提案する。 SAPは、LLMがターゲット言語で情報クエリを生成するのを補助する。 SWIM-IRを用いて、多言語高密度検索モデルの合成微調整を行い、XOR-Retrieve(言語横断)、MIRACL(言語横断)、XTREME-UP(言語横断)の3つの検索ベンチマークで頑健に評価する。 我々のモデルであるSWIM-Xは、例えばmContriever-Xのような人為的な高密度検索モデルと競合し、SWIM-IRは高価な人為的な検索訓練データに安価に取って代わることができる。 SWIM-IRデータセットとSWIM-Xモデルはhttps://github.com/google-research-datasets/SWIM-IRで利用可能である。

There has been limited success for dense retrieval models in multilingual retrieval, due to uneven and scarce training data available across multiple languages. Synthetic training data generation is promising (e.g., InPars or Promptagator), but has been investigated only for English. Therefore, to study model capabilities across both cross-lingual and monolingual retrieval tasks, we develop SWIM-IR, a synthetic retrieval training dataset containing 33 (high to very-low resource) languages for fine-tuning multilingual dense retrievers without requiring any human supervision. To construct SWIM-IR, we propose SAP (summarize-then-ask prompting), where the large language model (LLM) generates a textual summary prior to the query generation step. SAP assists the LLM in generating informative queries in the target language. Using SWIM-IR, we explore synthetic fine-tuning of multilingual dense retrieval models and evaluate them robustly on three retrieval benchmarks: XOR-Retrieve (cross-lingual), MIRACL (monolingual) and XTREME-UP (cross-lingual). Our models, called SWIM-X, are competitive with human-supervised dense retrieval models, e.g., mContriever-X, finding that SWIM-IR can cheaply substitute for expensive human-labeled retrieval training data. SWIM-IR dataset and SWIM-X models are available at https://github.com/google-research-datasets/SWIM-IR.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# 新型コロナウイルスの診断のための畳み込みニューラルネットワークモデルの設計

A design of Convolutional Neural Network model for the Diagnosis of the COVID-19 ( http://arxiv.org/abs/2311.06394v2 )

ライセンス: Link先を確認
Xinyuan Song, (参考訳) 新型コロナウイルス(COVID-19)が世界中に広まる中、患者の胸部X線像を新型コロナウイルスで分析する人工知能(AI)アルゴリズムと画像処理手法が不可欠になっている。 患者の肺領域における新型コロナウイルス(COVID-19)の認識は、クリカルセンターや病院の基本的な必要不可欠なものの一つである。 この分野でのほとんどの研究は、病気や健康な人のスクリーニングを主眼とするCNN(Convolutional Neural Network)を用いた深層学習手法に基づく研究に費やされており、胸部X線写真から新型コロナウイルスを正確に認識するために19層CNNの新しい構造が推奨されている。 提供されるCNNは、3つのクラス(ウイルス性肺炎、正常、COVID)と4つのクラス(肺不透明、正常、COVID-19、肺炎)の正確な診断システムとして機能するように開発されている。 Inception、Alexnet、ResNet50、Squeezenet、VGG19など、提案されたプロシージャといくつかの事前訓練済みネットワークの結果を比較し、特異性、精度、精度、感度、コンフュージョンマトリックス、F1スコアに基づいて比較する。 提案したCNN手法の実験結果は,既存の公開手順よりも優位性を示すものである。 この方法は、臨床医が新型コロナウイルスについて適切に判断する上で有用なツールである。

With the spread of COVID-19 around the globe over the past year, the usage of artificial intelligence (AI) algorithms and image processing methods to analyze the X-ray images of patients' chest with COVID-19 has become essential. The COVID-19 virus recognition in the lung area of a patient is one of the basic and essential needs of clicical centers and hospitals. Most research in this field has been devoted to papers on the basis of deep learning methods utilizing CNNs (Convolutional Neural Network), which mainly deal with the screening of sick and healthy people.In this study, a new structure of a 19-layer CNN has been recommended for accurately recognition of the COVID-19 from the X-ray pictures of chest. The offered CNN is developed to serve as a precise diagnosis system for a three class (viral pneumonia, Normal, COVID) and a four classclassification (Lung opacity, Normal, COVID-19, and pneumonia). A comparison is conducted among the outcomes of the offered procedure and some popular pretrained networks, including Inception, Alexnet, ResNet50, Squeezenet, and VGG19 and based on Specificity, Accuracy, Precision, Sensitivity, Confusion Matrix, and F1-score. The experimental results of the offered CNN method specify its dominance over the existing published procedures. This method can be a useful tool for clinicians in deciding properly about COVID-19.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# 分散(非)-ベイジアン推論の周波数保証

Frequentist Guarantees of Distributed (Non)-Bayesian Inference ( http://arxiv.org/abs/2311.08214v3 )

ライセンス: Link先を確認
Bohan Wu, César A. Uribe, (参考訳) 大規模で分散化されたデータセットを分析する必要性から、分散ベイズ推論は統計学、電気工学、経済学など、様々な分野において重要な研究領域となっている。 本稿では、通信ネットワークを介して接続されたエージェント間の分散(非)ベイズ推論問題に対して、後続一貫性、漸近正規性、後続収縮率などの周波数特性を確立する。 この結果から,分散ベイズ推定は不確実性定量化におけるロバスト性を高めつつ,パラメトリックな効率を保ちながら,通信グラフ上の適切な仮定の下で分散ベイズ推定が維持されることが示唆された。 また,通信グラフの設計とサイズが後部収縮率にどのように影響するかを検討することで,統計的効率と通信効率のトレードオフについても検討する。 さらに,解析結果を時間変化グラフに拡張し,指数関数系モデル,分散ロジスティック回帰モデル,分散検出モデルに適用する。

Motivated by the need to analyze large, decentralized datasets, distributed Bayesian inference has become a critical research area across multiple fields, including statistics, electrical engineering, and economics. This paper establishes Frequentist properties, such as posterior consistency, asymptotic normality, and posterior contraction rates, for the distributed (non-)Bayes Inference problem among agents connected via a communication network. Our results show that, under appropriate assumptions on the communication graph, distributed Bayesian inference retains parametric efficiency while enhancing robustness in uncertainty quantification. We also explore the trade-off between statistical efficiency and communication efficiency by examining how the design and size of the communication graph impact the posterior contraction rate. Furthermore, We extend our analysis to time-varying graphs and apply our results to exponential family models, distributed logistic regression, and decentralized detection models.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# LLMにおける多言語質問応答の校正について

On the Calibration of Multilingual Question Answering LLMs ( http://arxiv.org/abs/2311.08669v2 )

ライセンス: Link先を確認
Yahan Yang, Soham Dan, Dan Roth, Insup Lee, (参考訳) 多言語事前学習された大規模言語モデル(LLM)は、自然言語理解のコアタスクである質問回答(QA)において驚くほど効果的であり、複数の多言語ベンチマークで高い精度を達成する。 しかし、彼らの信頼度がどの程度校正されているかは分かっていない。 本稿では,多言語LLM(MLLM)のキャリブレーションを,様々なQAタスクに対して総合的にベンチマークする。 我々は、エンコーダのみ、エンコーダのみ、およびデコーダのみのQAモデル(110Mから7Bパラメータ)と、高リソースと低リソースの両方を含む多種多様な言語にまたがる広範な実験を行う。 本研究では, 分布内, 分布外, 言語間移動設定におけるキャリブレーションの異なる次元について検討し, ポストホック法や正規化微調整など, その改善策について検討する。 LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。 また, 言語距離, 言語コーパスサイズ, モデルサイズがキャリブレーションに与える影響, および多言語モデルが, 多様なタスクや言語に対するモノリンガルモデルと比較する方法について, いくつかのアブレーション実験を行った。 実験により,多言語QAモデルでは英語以外の言語では校正が不十分であることが示唆され,微調整・校正中に安価に翻訳された小セットの多言語サンプルが組み込まれ,校正性能が向上することが示唆された。

Multilingual pre-trained Large Language Models (LLMs) are incredibly effective at Question Answering (QA), a core task in Natural Language Understanding, achieving high accuracies on several multilingual benchmarks. However, little is known about how well their confidences are calibrated. In this paper, we comprehensively benchmark the calibration of several multilingual LLMs (MLLMs) on a variety of QA tasks. We perform extensive experiments, spanning encoder-only, encoder-decoder, and decoder-only QA models (size varying from 110M to 7B parameters) and diverse languages, including both high- and low-resource ones. We study different dimensions of calibration in in-distribution, out-of-distribution, and cross-lingual transfer settings, and investigate strategies to improve it, including post-hoc methods and regularized fine-tuning. For decoder-only LLMs such as LlaMa2, we additionally find that in-context learning improves confidence calibration on multilingual data. We also conduct several ablation experiments to study the effect of language distances, language corpus size, and model size on calibration, and how multilingual models compare with their monolingual counterparts for diverse tasks and languages. Our experiments suggest that the multilingual QA models are poorly calibrated for languages other than English and incorporating a small set of cheaply translated multilingual samples during fine-tuning/calibration effectively enhances the calibration performance.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# シンボリック参照を用いた検証可能なテキスト生成に向けて

Towards Verifiable Text Generation with Symbolic References ( http://arxiv.org/abs/2311.09188v2 )

ライセンス: Link先を確認
Lucas Torroba Hennigen, Shannon Shen, Aniruddha Nrusimha, Bernhard Gapp, David Sontag, Yoon Kim, (参考訳) LLMは幻覚に弱いため、その出力は一般的に、高い精度の応用のために厳しい人間の検証を必要とする。 そこで本研究では,LLMの出力の手作業による検証を容易にするためのシンプルなアプローチとして,記号的基底生成(SymGen)を提案する。 SymGen は LLM に対して,特定の条件データ (JSON 形式のテーブルなど) に存在するフィールドへの明示的なシンボル参照で,通常の出力テキストをインターリーブするように促す。 参照は、世代内の異なるテキストスパンの証明を示すために使用することができ、手動検証に必要な労力を減らすことができる。 様々なデータ・ツー・テキスト・問合せ実験において, LLMは, 高精度なシンボリック・レファレンスを利用したテキストを直接出力し, 流用性や事実性を保ちながら, 正確なシンボリック・レファレンスを活用できることが判明した。 人間の研究では、このようなアノテーションが、機械生成テキストの人間による検証を合理化できることがわかった。 私たちのコードはhttp://symgen.github.io.comで公開されます。

LLMs are vulnerable to hallucinations, and thus their outputs generally require laborious human verification for high-stakes applications. To this end, we propose symbolically grounded generation (SymGen) as a simple approach for enabling easier manual validation of an LLM's output. SymGen prompts an LLM to interleave its regular output text with explicit symbolic references to fields present in some conditioning data (e.g., a table in JSON format). The references can be used to display the provenance of different spans of text in the generation, reducing the effort required for manual verification. Across a range of data-to-text and question-answering experiments, we find that LLMs are able to directly output text that makes use of accurate symbolic references while maintaining fluency and factuality. In a human study we further find that such annotations can streamline human verification of machine-generated text. Our code will be available at http://symgen.github.io.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# ICXML: ゼロショット極端のマルチラベル分類のためのコンテキスト学習フレームワーク

ICXML: An In-Context Learning Framework for Zero-Shot Extreme Multi-Label Classification ( http://arxiv.org/abs/2311.09649v2 )

ライセンス: Link先を確認
Yaxin Zhu, Hamed Zamani, (参考訳) 本稿では,非常に大きなラベル空間から各インスタンスの複数のラベルを予測することを目的とした,エクストリームマルチラベル分類(XMC)の課題に焦点を当てる。 既存の研究は、主に完全に監督されたXMCに焦点を当ててきたが、実世界のシナリオは監視信号が欠如しており、ゼロショット設定の重要性を強調している。 大きなラベル空間を考えると、コンテキスト内学習アプローチを利用するのは簡単ではない。 In-Context Extreme Multilabel Learning (ICXML)という2段階のフレームワークを導入することでこの問題に対処する。 大規模な実験は、ICXMLが2つの異なる公開ベンチマークで最先端を推し進めていることを示唆している。

This paper focuses on the task of Extreme Multi-Label Classification (XMC) whose goal is to predict multiple labels for each instance from an extremely large label space. While existing research has primarily focused on fully supervised XMC, real-world scenarios often lack supervision signals, highlighting the importance of zero-shot settings. Given the large label space, utilizing in-context learning approaches is not trivial. We address this issue by introducing In-Context Extreme Multilabel Learning (ICXML), a two-stage framework that cuts down the search space by generating a set of candidate labels through incontext learning and then reranks them. Extensive experiments suggest that ICXML advances the state of the art on two diverse public benchmarks.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# 凸最適化のためのリアプノフダンピングによる近接最適閉ループ法

Near-optimal Closed-loop Method via Lyapunov Damping for Convex Optimization ( http://arxiv.org/abs/2311.10053v2 )

ライセンス: Link先を確認
Severin Maier, Camille Castera, Peter Ochs, (参考訳) 本稿では,1次凸最適化のための閉ループ減衰を用いた自律システムを提案する。 現在まで、最適収束率は、オープンループダンピング(例えばネステロフのアルゴリズム)による非自律的な手法によってほぼ独占的に達成されているが、閉ループダンピングを特徴とする我々のシステムは、最適なダンピングに任意に近い速度を示す。 我々は、ダンピングとシステム収束の速度を、よく知られたリャプノフ函数を介して結合することによって行う。 システムを離散化することにより,アルゴリズムを導出し,理論的な知見を裏付ける数値実験を行う。

We introduce an autonomous system with closed-loop damping for first-order convex optimization. While, to this day, optimal rates of convergence are almost exclusively achieved by non-autonomous methods via open-loop damping (e.g., Nesterov's algorithm), we show that our system, featuring a closed-loop damping, exhibits a rate arbitrarily close to the optimal one. We do so by coupling the damping and the speed of convergence of the system via a well-chosen Lyapunov function. By discretizing our system we then derive an algorithm and present numerical experiments supporting our theoretical findings.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# MMC:大規模インストラクションチューニングによるマルチモーダルチャート理解の促進

MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning ( http://arxiv.org/abs/2311.10774v2 )

ライセンス: Link先を確認
Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu, (参考訳) 大規模言語モデル(LLM)の急速な開発と,大規模マルチモーダルモデル(LMM)への統合により,ユーザ指向の視覚言語タスクのゼロショット完了が目覚ましい進歩を遂げた。 しかし、グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にはギャップが残っている。 そこで本研究では,タスクやチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクション(\textbf{MMC-Instruction})データセットを提案する。 このデータを活用することで、既存のグラフQAベンチマークで最先端のパフォーマンスを実現するLMMであるMultiModal Chart Assistant(\textbf{MMCA})を開発する。 また、LMMチャート理解の総合的な評価の必要性を認識し、グラフ上の推論能力を評価する9つの異なるタスクを持つ総合的人間アノテーションベンチマークであるMultipleModal Chart Benchmark(\textbf{MMC-Benchmark})を提案する。 MMC-Benchmarkの大規模な実験は、最新のGPT-4Vモデルであっても、チャートを正しく解釈する既存のLMMの限界を明らかにしている。 我々の研究は、チャートのマルチモーダル理解を促進するための命令チューニング手法とベンチマークを提供する。 コードとデータはhttps://github.com/FuxiaoLiu/MMC.comで公開されている。

With the rapid development of large language models (LLMs) and their integration into large multimodal models (LMMs), there has been impressive progress in zero-shot completion of user-oriented vision-language tasks. However, a gap remains in the domain of chart image understanding due to the distinct abstract components in charts. To address this, we introduce a large-scale MultiModal Chart Instruction (\textbf{MMC-Instruction}) dataset comprising 600k instances supporting diverse tasks and chart types. Leveraging this data, we develop MultiModal Chart Assistant (\textbf{MMCA}), an LMM that achieves state-of-the-art performance on existing chart QA benchmarks. Recognizing the need for a comprehensive evaluation of LMM chart understanding, we also propose a MultiModal Chart Benchmark (\textbf{MMC-Benchmark}), a comprehensive human-annotated benchmark with nine distinct tasks evaluating reasoning capabilities over charts. Extensive experiments on MMC-Benchmark reveal the limitations of existing LMMs on correctly interpreting charts, even for the most recent GPT-4V model. Our work provides an instruction-tuning methodology and benchmark to advance multimodal understanding of charts. Code and data are available at https://github.com/FuxiaoLiu/MMC.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-15
# コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation ( http://arxiv.org/abs/2311.13602v4 )

ライセンス: Link先を確認
Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa, (参考訳) コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。 本稿では,現在のレイアウト生成手法が,高次元レイアウト構造に対する限られたトレーニングデータに悩まされていることを論じる。 単純な検索拡張により生成品質が大幅に向上することを示す。 Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。 本モデルでは, 各種制御可能な生成タスクに検索拡張を適用し, 統一アーキテクチャ内での高品質なレイアウトを実現する。 我々の広範囲な実験により、RALFは制約と制約のない設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。

Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-15
# Ge'ez言語のための機械翻訳

Machine Translation for Ge'ez Language ( http://arxiv.org/abs/2311.14530v3 )

ライセンス: Link先を確認
Aman Kassahun Wassie, (参考訳) もはやコミュニティのネイティブ言語ではない古代言語であるGe'ezのような低リソース言語のための機械翻訳(MT)は、語彙外単語、ドメインミスマッチ、十分なラベル付きトレーニングデータの欠如といった課題に直面している。 本研究では,関連言語からの移動学習,共有語彙とトークンセグメンテーションアプローチの最適化,大規模事前学習モデルの微調整,ファジィマッチングを用いた数ショット翻訳のための大規模言語モデル(LLM)など,ゲエズMTを改善するための様々な手法について検討する。 我々は,言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを構築し,標準的なバイリンガルモデルと比較して約4BLEUの性能向上を実現している。 また、現在利用可能な最も高度な翻訳モデルの1つであるNLLB-200モデルの微調整も試みています。 さらに, ファジィマッチングを用いた数ショット翻訳において, GPT-3.5を用いて並列コーパスからコンテキスト例を見つけることを試みた。 GPT-3.5 は Ge'ez の初歩的な知識を持たない 9.2 の BLEU スコアを達成するが, MNMT の基準値 15.2 よりは低い。 我々の研究は、低リソースおよび古代の言語MTに対する様々なアプローチの可能性と限界についての洞察を提供する。

Machine translation (MT) for low-resource languages such as Ge'ez, an ancient language that is no longer the native language of any community, faces challenges such as out-of-vocabulary words, domain mismatches, and lack of sufficient labeled training data. In this work, we explore various methods to improve Ge'ez MT, including transfer-learning from related languages, optimizing shared vocabulary and token segmentation approaches, finetuning large pre-trained models, and using large language models (LLMs) for few-shot translation with fuzzy matches. We develop a multilingual neural machine translation (MNMT) model based on languages relatedness, which brings an average performance improvement of about 4 BLEU compared to standard bilingual models. We also attempt to finetune the NLLB-200 model, one of the most advanced translation models available today, but find that it performs poorly with only 4k training samples for Ge'ez. Furthermore, we experiment with using GPT-3.5, a state-of-the-art LLM, for few-shot translation with fuzzy matches, which leverages embedding similarity-based retrieval to find context examples from a parallel corpus. We observe that GPT-3.5 achieves a remarkable BLEU score of 9.2 with no initial knowledge of Ge'ez, but still lower than the MNMT baseline of 15.2. Our work provides insights into the potential and limitations of different approaches for low-resource and ancient language MT.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-15
# 同時パルス法による5状態連鎖系における量子状態工学

Quantum state engineering in a five-state chainwise system by coincident pulse technique ( http://arxiv.org/abs/2311.15686v2 )

ライセンス: Link先を確認
Jiahui Zhang, (参考訳) 本稿では,5状態連鎖系におけるコヒーレント集団移動と任意のコヒーレント重ね合わせを同時パルス法により正確に解析する手法を提案する。 5状態連鎖系の解法は、4つのインシデントパルス間の関係の要求とともに、AE(adiabatic elimination)の仮定の下で最も単純な共振結合を持つ等価な3状態$\Lambda$-type 1に還元できることを示す。 この方法では、各ステップにおける4つの入射パルスは全て同じ時間依存性を持つが、特定の大きさを持つ。 その結果、複数対の適切なタイミングの入射パルスを用いることで、全ての中間状態の個体群を効果的に抑制しつつ、初期状態と最終状態の任意のコヒーレントな重ね合わせを作成することができることがわかった。 基礎となるメカニズムの完全な物理的説明が提示される。 この結果は、例えば、量子情報、原子光学、超低温分子の形成、空洞QED、核コヒーレント人口移動、導波路アレイにおける光移動など、高忠実な多状態量子制御が不可欠であるアプリケーションに潜在的に関心がある。

In this paper, an exact analytic solution is presented for the coherent population transfer and the arbitrary coherent superposition in five-state chainwise system by coincident pulses technique. We show that the solution of a five-state chainwise system can be reduced to an equivalent three-state $\Lambda$-type one with the simplest resonant coupling under the assumption of adiabatic elimination (AE) together with a requirement of the relation among the four incident pulses. In this method, all of four incident pulses at each step all have the same time dependence, but with specific magnitudes. The results show that, by using multiple pairs of appropriately coincident incident pulses, this technique enables complete population transfer, as well as the creation of arbitrary desired coherent superposition between initial and final states, while the population in all intermediate states is effectively suppressed. The complete physical explanation of the underlying mechanism is presented. The results are of potential interest in applications where high-fidelity multi-state quantum control is essential, e.g., quantum information, atom optics, formation of ultracold molecules, cavity QED, nuclear coherent population transfer, light transfer in waveguide arrays, etc.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-15
# 視覚言語モデルによるセマンティックス認識運動のリターゲティング

Semantics-aware Motion Retargeting with Vision-Language Models ( http://arxiv.org/abs/2312.01964v3 )

ライセンス: Link先を確認
Haodong Zhang, ZhiKe Chen, Haocheng Xu, Lei Hao, Xiaofei Wu, Songcen Xu, Zhensong Zhang, Yue Wang, Rong Xiong, (参考訳) 動きのセマンティクスのキャプチャと保存は、アニメーションキャラクタ間の動きの再ターゲティングに不可欠である。 しかし、以前の作品の多くは意味的な情報を無視したり、人間によって設計された共同レベルの表現に依存していた。 本稿では,意味のある動作意味を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。 微分可能なモジュールを用いて3Dモーションを描画する。 次に、視覚言語モデルにレンダリング画像を与え、抽出したセマンティック埋め込みを整合させることにより、高レベルな動きセマンティクスをモーションリターゲティングプロセスに組み込む。 微粒な動きの詳細と高レベルのセマンティクスの保存を確保するため,スケルトンを意識した事前学習とセマンティクスと幾何制約による微調整からなる2段階パイプラインを採用する。 実験結果から,提案手法が高精度な動作セマンティクスを正確に保存しつつ,高品質な動きリターゲティング結果の生成に有効であることが示唆された。

Capturing and preserving motion semantics is essential to motion retargeting between animation characters. However, most of the previous works neglect the semantic information or rely on human-designed joint-level representations. Here, we present a novel Semantics-aware Motion reTargeting (SMT) method with the advantage of vision-language models to extract and maintain meaningful motion semantics. We utilize a differentiable module to render 3D motions. Then the high-level motion semantics are incorporated into the motion retargeting process by feeding the vision-language model with the rendered images and aligning the extracted semantic embeddings. To ensure the preservation of fine-grained motion details and high-level semantics, we adopt a two-stage pipeline consisting of skeleton-aware pre-training and fine-tuning with semantics and geometry constraints. Experimental results show the effectiveness of the proposed method in producing high-quality motion retargeting results while accurately preserving motion semantics.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-15
# 異常運転行動検出のためのサロゲート安全対策を用いたデータ駆動半教師付き機械学習

Data-driven Semi-supervised Machine Learning with Surrogate Safety Measures for Abnormal Driving Behavior Detection ( http://arxiv.org/abs/2312.04610v3 )

ライセンス: Link先を確認
Lanxin Zhang, Yongqi Dong, Haneen Farah, Arkady Zgonnikov, Bart van Arem, (参考訳) 道路交通の安全と運転者の行動評価には,異常運転行動の検出が重要である。 機械学習(ML)アルゴリズムの進歩と自然主義駆動データの蓄積により、多くのMLモデルが異常運転行動検出に採用されている。 既存のMLベースの検出器の多くは(完全に)教師付きML法に依存しており、かなりのラベル付きデータを必要とする。 しかし、地上の真理ラベルは必ずしも現実世界で利用できておらず、大量のデータをラベル付けするのは面倒である。 したがって、異常検出プロセスをより効果的かつ効果的にするために、教師なしまたは半教師なしの手法を検討する必要がある。 このギャップを埋めるために,本研究では,複数の異常運転行動(例えば,急激な加速,高速車線変更)を明らかにする大規模実世界のデータを分析し,部分ラベル付きデータを用いて階層的エクストリーム学習マシン(HELM)に基づく半教師付きML法を開発し,その異常運転動作を正確に検出する。 さらに、従来のMLベースアプローチでは、基本車両の動作特性(速度や加速度など)を利用して異常運転行動のラベル付けと検出を行うのに対して、本研究では、MLモデルの入力機能としてサロゲート安全対策(SSM)を導入し、検出性能を向上させることを目的とする。 実験結果から,提案した半教師付きMLモデルの有効性を示すとともに,SSMが重要な特徴であることを示す。 提案した半教師付きML法は、様々な指標(例えば、99.58%で最高の精度、0.9913で最高のF-1測定値)に関して、他のベースラインの半教師付きあるいは教師なしの手法よりも優れている。 アブレーション研究は, 検出性能向上におけるSSMsの重要性をさらに強調した。

Detecting abnormal driving behavior is critical for road traffic safety and the evaluation of drivers' behavior. With the advancement of machine learning (ML) algorithms and the accumulation of naturalistic driving data, many ML models have been adopted for abnormal driving behavior detection. Most existing ML-based detectors rely on (fully) supervised ML methods, which require substantial labeled data. However, ground truth labels are not always available in the real world, and labeling large amounts of data is tedious. Thus, there is a need to explore unsupervised or semi-supervised methods to make the anomaly detection process more feasible and efficient. To fill this research gap, this study analyzes large-scale real-world data revealing several abnormal driving behaviors (e.g., sudden acceleration, rapid lane-changing) and develops a Hierarchical Extreme Learning Machines (HELM) based semi-supervised ML method using partly labeled data to accurately detect the identified abnormal driving behaviors. Moreover, previous ML-based approaches predominantly utilize basic vehicle motion features (such as velocity and acceleration) to label and detect abnormal driving behaviors, while this study seeks to introduce Surrogate Safety Measures (SSMs) as the input features for ML models to improve the detection performance. Results from extensive experiments demonstrate the effectiveness of the proposed semi-supervised ML model with the introduced SSMs serving as important features. The proposed semi-supervised ML method outperforms other baseline semi-supervised or unsupervised methods regarding various metrics, e.g., delivering the best accuracy at 99.58% and the best F-1 measure at 0.9913. The ablation study further highlights the significance of SSMs for advancing detection performance.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-15
# 漸近性ケイリー木のスペクトル

The Spectrum of Asymptotic Cayley Trees ( http://arxiv.org/abs/2312.09833v2 )

ライセンス: Link先を確認
Bergfinnur Durhuus, Thordur Jonsson, John Wheater, (参考訳) 有限個の無限のケイリー木をアタッチした有限グラフからなるグラフ上で、単純なランダムウォークのための遷移行列のスペクトルを特徴づける。 ケイリー木と同一の連続スペクトルが存在し、一般に空でない純粋点スペクトルが存在することを示す。 これらのグラフ上での連続時間量子ウォーキングの研究に本研究の結果を適用した。 純粋点スペクトルが空でない場合、ウォークは一般に非ゼロ確率で制限される。

We characterize the spectrum of the transition matrix for simple random walk on graphs consisting of a finite graph with a finite number of infinite Cayley trees attached. We show that there is a continuous spectrum identical to that for a Cayley tree and, in general, a non-empty pure point spectrum. We apply our results to studying continuous time quantum walk on these graphs. If the pure point spectrum is nonempty the walk is in general confined with a nonzero probability.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-15
# 量子コンピューティングに適した結合クラスタ法

Coupled cluster method tailored with quantum computing ( http://arxiv.org/abs/2312.11012v2 )

ライセンス: Link先を確認
Luca Erhart, Yuichiro Yoshida, Viktor Khinevich, Wataru Mizukami, (参考訳) 化学系の量子計算では、アクティブな空間近似の導入は避けられない。 しかし、この近似は非活性軌道に関連する電子相関を無視する。 本稿では,結合クラスタ理論と呼ばれる古典理論を用いて量子計算結果を補正する計算手法を提案する。 提案手法は, 量子デバイスからの量子状態を, 計算ベーストモグラフィーにより効率的に抽出する。 量子状態の抽出された膨張係数は、調整された結合クラスタ法の枠組み内に結合クラスタアンサッツに埋め込まれる。 相関エネルギー補正方式を用いて,LH,H2O,N2のポテンシャルエネルギー曲線を検証し,本手法の性能を示す。 本手法は, 標準結合クラスタが故障しても, 合理的なポテンシャルエネルギー曲線を示す。 またトモグラフィーのための十分な測定値についても検討した。 さらに,1,5-ヘキサジエンのコープ再配置反応の活性化エネルギーを摂動三重項補正とともに推算した。 これらの実証は、我々のアプローチが量子コンピュータを用いた実用的な量子化学計算の可能性を示唆している。

Introducing an active space approximation is inevitable for the quantum computations of chemical systems. However, this approximation ignores the electron correlations related to non-active orbitals. Here, we propose a computational method for correcting quantum computing results using a well-established classical theory called coupled cluster theory. Our approach efficiently extracts the quantum state from a quantum device by computational basis tomography. The extracted expansion coefficients of the quantum state are embedded into the coupled cluster ansatz within the framework of the tailored coupled cluster method. We demonstrate the performance of our method by verifying the potential energy curves of LiH, H2O, and N2 with a correlation-energy correction scheme. Our method demonstrates reasonable potential energy curves even when the standard coupled cluster fails. The sufficient numbers of measurements for tomography were also investigated. Furthermore, this method successfully estimated the activation energy of the Cope rearrangement reaction of 1,5-hexadiene together with perturbative triples correction. These demonstrations suggest that our approach has the potential for practical quantum chemical calculations using quantum computers.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-15
# README:データ中心NLPによる医療ジャーゴンのブリッジと患者教育への理解

README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP ( http://arxiv.org/abs/2312.15561v2 )

ライセンス: Link先を確認
Zonghai Yao, Nandyala Siddharth Kantu, Guanghao Wei, Hieu Tran, Zhangqi Duan, Sunjae Kwon, Zhichao Yang, README annotation team, Hong Yu, (参考訳) 医療の進歩は、患者中心のアプローチ、特にElectronic Health Records(EHR)へのアクセスによって促進されるセルフケアと患者教育に焦点を移している。 しかし, EHRの医療ジャーゴンは, 患者の理解に重大な課題をもたらす。 そこで我々は,複雑な医療用語を患者フレンドリーなレイ言語に単純化することを目的とした,レイ定義を自動的に生成する新しいタスクを提案する。 最初、READMEデータセットを作成しました。これは、5万以上のユニークな(医療用語、レイ定義)ペアと30万の言及の広範なコレクションで、それぞれがドメインの専門家が手動で注釈付けしたコンテキスト対応のレイ定義を提供しています。 また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。 その後、READMEをモデルトレーニングデータとして使用し、検索補助生成法を用いて幻覚を低減し、モデル出力の品質を向上させる。 我々の大規模な自動および人為的評価は、高品質なデータで微調整されたオープンソースのモバイルフレンドリなモデルが、ChatGPTのような最先端のクローズドソースな大規模言語モデルの性能にマッチしたり、超えたりできることを示している。 この研究は、患者教育における知識ギャップを解消し、患者中心の医療ソリューションを前進させる重要な取り組みである。

The advancement in healthcare has shifted focus toward patient-centric approaches, particularly in self-care and patient education, facilitated by access to Electronic Health Records (EHR). However, medical jargon in EHRs poses significant challenges in patient comprehension. To address this, we introduce a new task of automatically generating lay definitions, aiming to simplify complex medical terms into patient-friendly lay language. We first created the README dataset, an extensive collection of over 50,000 unique (medical term, lay definition) pairs and 300,000 mentions, each offering context-aware lay definitions manually annotated by domain experts. We have also engineered a data-centric Human-AI pipeline that synergizes data filtering, augmentation, and selection to improve data quality. We then used README as the training data for models and leveraged a Retrieval-Augmented Generation method to reduce hallucinations and improve the quality of model outputs. Our extensive automatic and human evaluations demonstrate that open-source mobile-friendly models, when fine-tuned with high-quality data, are capable of matching or even surpassing the performance of state-of-the-art closed-source large language models like ChatGPT. This research represents a significant stride in closing the knowledge gap in patient education and advancing patient-centric healthcare solutions.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-15
# 何百万もの動画の視覚・言語モデル

Distilling Vision-Language Models on Millions of Videos ( http://arxiv.org/abs/2401.06129v2 )

ライセンス: Link先を確認
Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan, (参考訳) 近年の視覚言語モデルの進歩は、画像テキストデータの豊富さによるところが大きい。 我々は、この成功をビデオ言語モデルで再現することを目指していますが、単に人間が計算したビデオテキストデータが不足しています。 そこで我々は,合成した指導データを用いて,強力な画像言語ベースラインから映像言語モデルを微調整する。 ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。 適応されたビデオ言語モデルは、幅広いビデオ言語ベンチマークでよく機能することを示す。 例えば、オープンエンドのNEXT-QAにおいて、最も先行した結果を2.8%上回っている。 また,本モデルでは未確認映像の詳細な記述が生成され,既存の手法よりもテキスト管理が優れている。 実験により、これらの自動生成キャプションで対照的に訓練されたビデオ言語二重エンコーダモデルは、視覚言語モデルも活用する最強のベースラインよりも3.8%良いことが示されている。 MSR-VTTゼロショットテキスト・ビデオ検索の最先端手法を6%向上させる。 副産物として、これまでで最大のビデオキャプションデータセットを生成します。

The recent advance in vision-language models is largely attributed to the abundance of image-text data. We aim to replicate this success for video-language models, but there simply is not enough human-curated video-text data available. We thus resort to fine-tuning a video-language model from a strong image-language baseline with synthesized instructional data. The resulting video model by video-instruction-tuning (VIIT) is then used to auto-label millions of videos to generate high-quality captions. We show the adapted video-language model performs well on a wide range of video-language benchmarks. For instance, it surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our model generates detailed descriptions for previously unseen videos, which provide better textual supervision than existing methods. Experiments show that a video-language dual-encoder model contrastively trained on these auto-generated captions is 3.8% better than the strongest baseline that also leverages vision-language models. Our best model outperforms state-of-the-art methods on MSR-VTT zero-shot text-to-video retrieval by 6%. As a side product, we generate the largest video caption dataset to date.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-15
# プロキシによる言語モデルのチューニング

Tuning Language Models by Proxy ( http://arxiv.org/abs/2401.08565v3 )

ライセンス: Link先を確認
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith, (参考訳) 大きな事前訓練された言語モデルの一般的な能力にもかかわらず、彼らは常に、望ましい振る舞いを達成するためにさらなる適応の恩恵を受ける。 しかし、モデルウェイトがプライベートである場合には、これらのモデルのチューニングはますますリソース集約化され、あるいは不可能になっている。 我々は、直接チューニングと同じ目的を達成するためにブラックボックスLM上で動作する軽量な復号時間アルゴリズムであるプロキシチューニングを導入するが、そのパラメータではなく出力語彙上の予測のみにアクセスする。 提案手法は、小型のLMをチューニングし、小型のチューンモデルの予測と未調整のLMとの差を適用して、大規模プレトレーニングの利点を保ちながら、チューニング方向の未調整モデルの元の予測をシフトさせる。 実験では、7Bサイズのプロキシを使用したプロキシチューニングをLlama2-70Bに適用すると、Llama2-70Bと実際にチューニングされたチャットバージョンとのギャップの88%を、知識、推論、安全性ベンチマークで評価することができる。 興味深いことに、TrathfulQAでは、プロキシチューニングされたモデルは直接チューニングされたモデルよりも真実である。 次に、コードへのドメイン適応の適用によるプロキシチューニングの一般化と、質問応答や数学の問題に対するタスク固有の微調整を実証する。 最後に、時間適応のための真のブラックボックスLM(GPT-3.5)のプロキシチューニング方法を示し、近年の出来事に関する知識を高めた。 我々の研究は、デコード時ガイダンスにより、小さく調整されたLMを用いて、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。

Despite the general capabilities of large pretrained language models, they consistently benefit from further adaptation to better achieve desired behaviors. However, tuning these models has become increasingly resource-intensive, or impossible when model weights are private. We introduce proxy-tuning, a lightweight decoding-time algorithm that operates on top of black-box LMs to achieve the same end as direct tuning, but by accessing only its predictions over the output vocabulary, not its parameters. Our method tunes a smaller LM, then applies the difference between the predictions of the small tuned and untuned LMs to shift the original predictions of the larger untuned model in the direction of tuning, while retaining the benefits of larger-scale pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its truly-tuned chat version, when evaluated across knowledge, reasoning, and safety benchmarks. Interestingly, on TruthfulQA, proxy-tuned models are actually more truthful than directly tuned models, possibly because decoding-time guidance better retains the model's factual knowledge. We then demonstrate the generality of proxy-tuning by applying it to domain adaptation on code, and task-specific finetuning on question-answering and math problems. Finally, we show how to proxy-tune a truly black-box LM, GPT-3.5, for temporal adaptation, increasing its knowledge about recent events. Our work demonstrates the promise of using small tuned LMs to efficiently customize large, potentially proprietary LMs through decoding-time guidance.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-15
# エネルギーのグラディエントフロー:エンティティアライメントデコーディングのための汎用的で効率的なアプローチ

Gradient Flow of Energy: A General and Efficient Approach for Entity Alignment Decoding ( http://arxiv.org/abs/2401.12798v2 )

ライセンス: Link先を確認
Yuanyi Wang, Haifeng Sun, Jingyu Wang, Qi Qi, Shaoling Sun, Jianxin Liao, (参考訳) マルチソース知識グラフ(KG)を統合する上で重要なプロセスであるエンティティアライメント(EA)は、これらのグラフにまたがる同等のエンティティペアを特定することを目指している。 既存のアプローチの多くは、EAをグラフ表現学習タスクとみなし、グラフエンコーダの拡張に集中している。 しかし、EAにおけるデコードプロセス(効果的な操作とアライメントの正確性に不可欠なもの)は、限定的な注目を集め、特定のデータセットやモデルアーキテクチャに合わせて調整され、エンティティと追加の明示的な関係の埋め込みが必要である。 この特異性は、特にGNNベースのモデルにおける適用性を制限する。 このギャップに対処するために、私たちはエンティティの埋め込みのみに依存する、新しい、一般化され、効率的なEAデコーディングアプローチを導入します。 本手法はディリクレエネルギーを最小化することでデコード処理を最適化し,グラフ内の勾配流を最大化し,グラフのホモフィリーを最大化する。 勾配流の離散化は、Triple Feature Propagation (TFP)と呼ばれる高速でスケーラブルなアプローチを生み出す。 TFPは革新的に隣接行列を多視点行列(entity-to-entity、 entity-to-relation、relation-to-entity、relation-to-triple)に一般化する。 一般化行列による勾配流により、TFPはKGの多視点構造情報を利用することができる。 多様な公開データセットに対する厳密な実験は、我々のアプローチが様々なEA手法を著しく強化することを示す。 特に、この手法は6秒未満の計算時間でこれらの進歩を達成し、将来のEA手法の効率性と適応性に関する新しいベンチマークを確立する。

Entity alignment (EA), a pivotal process in integrating multi-source Knowledge Graphs (KGs), seeks to identify equivalent entity pairs across these graphs. Most existing approaches regard EA as a graph representation learning task, concentrating on enhancing graph encoders. However, the decoding process in EA - essential for effective operation and alignment accuracy - has received limited attention and remains tailored to specific datasets and model architectures, necessitating both entity and additional explicit relation embeddings. This specificity limits its applicability, particularly in GNN-based models. To address this gap, we introduce a novel, generalized, and efficient decoding approach for EA, relying solely on entity embeddings. Our method optimizes the decoding process by minimizing Dirichlet energy, leading to the gradient flow within the graph, to maximize graph homophily. The discretization of the gradient flow produces a fast and scalable approach, termed Triple Feature Propagation (TFP). TFP innovatively generalizes adjacency matrices to multi-views matrices:entity-to-entity, entity-to-relation, relation-to-entity, and relation-to-triple. The gradient flow through generalized matrices enables TFP to harness the multi-view structural information of KGs. Rigorous experimentation on diverse public datasets demonstrates that our approach significantly enhances various EA methods. Notably, the approach achieves these advancements with less than 6 seconds of additional computational time, establishing a new benchmark in efficiency and adaptability for future EA methods.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-15
# オフポリティ・プライマル・デュアル・セーフ強化学習

Off-Policy Primal-Dual Safe Reinforcement Learning ( http://arxiv.org/abs/2401.14758v2 )

ライセンス: Link先を確認
Zifan Wu, Bo Tang, Qian Lin, Chao Yu, Shangqin Mao, Qianlong Xie, Xingxing Wang, Dong Wang, (参考訳) プライマルデュアルセーフなRL法は、ポリシーのプライマリ更新とラグランジュ乗算器の二重更新の繰り返しを一般的に行う。 このような訓練パラダイムは, 累積コスト推定における誤差に非常に敏感である。 本稿は, 法外手法を用いた場合のコストの大幅な過小評価を行ない, 安全性の制約を満たすことができないことを示す。 この問題に対処するため,コスト見積の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。 これにより、制約満足度は向上するが、報酬の最大化を妨げる可能性がある。 次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。 これら2つの成分の結合効果の理論的解釈を行い、より広範な実験により検証する。 ベンチマークタスクの結果から,我々の手法は,最先端のオンライン手法に匹敵する漸近的な性能を達成できるだけでなく,トレーニング中の制約違反を著しく低減することが示された。 私たちのコードはhttps://github.com/ZifanWu/CAL.comで公開されています。

Primal-dual safe RL methods commonly perform iterations between the primal update of the policy and the dual update of the Lagrange Multiplier. Such a training paradigm is highly susceptible to the error in cumulative cost estimation since this estimation serves as the key bond connecting the primal and dual update processes. We show that this problem causes significant underestimation of cost when using off-policy methods, leading to the failure to satisfy the safety constraint. To address this issue, we propose conservative policy optimization, which learns a policy in a constraint-satisfying area by considering the uncertainty in cost estimation. This improves constraint satisfaction but also potentially hinders reward maximization. We then introduce local policy convexification to help eliminate such suboptimality by gradually reducing the estimation uncertainty. We provide theoretical interpretations of the joint coupling effect of these two ingredients and further verify them by extensive experiments. Results on benchmark tasks show that our method not only achieves an asymptotic performance comparable to state-of-the-art on-policy methods while using much fewer samples, but also significantly reduces constraint violation during training. Our code is available at https://github.com/ZifanWu/CAL.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-15
# H2O-Danube-1.8B技術報告

H2O-Danube-1.8B Technical Report ( http://arxiv.org/abs/2401.16818v2 )

ライセンス: Link先を確認
Philipp Singer, Pascal Pfeiffer, Yauhen Babakhin, Maximilian Jeblick, Nischay Dhankhar, Gabor Fodor, Sri Satish Ambati, (参考訳) 本稿では,H2O-Danube-1.8Bを1Tトークンで訓練したH2O-Danubeと,さらに2Tトークンで訓練したH2O-Danube2-1.8Bについて述べる。 本論文の執筆時点では,H2O-Danube2-1.8Bは2Bパラメータ範囲以下の全モデルにおいて,Open LLM Leaderboardで上位にランクインしている。 モデルはLLama 2とMistralの中核的な原則に従い、我々は大規模言語モデルの事前学習に様々な技術を活用し、洗練する。 さらに、教師付き微調整で訓練されたチャットモデルもリリースし、直接選好最適化を行った。 私たちは、すべてのモデルをApache 2.0ライセンスの下で公開して、LLMをさらに経済的に幅広い聴衆に民主化させています。

We present H2O-Danube, a series of small 1.8B language models consisting of H2O-Danube-1.8B, trained on 1T tokens, and the incremental improved H2O-Danube2-1.8B trained on an additional 2T tokens. Our models exhibit highly competitive metrics across a multitude of benchmarks and, as of the time of this writing, H2O-Danube2-1.8B achieves the top ranking on Open LLM Leaderboard for all models below the 2B parameter range. The models follow core principles of LLama 2 and Mistral, and we leverage and refine various techniques for pre-training large language models. We additionally release chat models trained with supervised fine-tuning followed by direct preference optimization. We make all models openly available under Apache 2.0 license further democratizing LLMs to a wider audience economically.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-15
# 基礎モデルの高精度事前学習のための医療データ効果学習ベンチマーク

A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models ( http://arxiv.org/abs/2401.17542v2 )

ライセンス: Link先を確認
Wenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan, (参考訳) 大規模なデータセットで事前訓練されたファンデーションモデルは、前例のない一般化性を達成した。 しかし、そのような膨大なデータを事前学習し、膨大な計算資源を消費することは本当に必要か? 本稿では,基礎モデルの事前学習において,最も影響の大きい方法でデータを活用することを目的とした,データ効率のよい学習手法を提案する。 これには量ではなくデータ品質に重点を置く戦略が含まれており、トレーニングに使用するデータに高い情報的価値が保証される。 データ有効学習は基礎モデルトレーニングの加速、計算コストの削減、データストレージの保存において重要な役割を担っている。 しかし、基準や総合的なベンチマークが欠如しているため、医学データ有効学習の研究は不十分である。 このギャップに対処するため,医療分野でのデータ有効学習を評価するための総合的なベンチマークを提案する。 このベンチマークには、31の医療センター(DataDEL)からの数百万のデータサンプル、比較のためのベースライン手法(MedDEL)、データ有効学習性能を客観的に測定する新たな評価指標(NormDEL)を含む。 我々の大規模な実験結果から、MedDELのベースラインは、データの5%しか持たないオリジナルの大規模データセットに匹敵する性能を達成できることが示された。 このようなオープンなデータ効率の学習ベンチマークを確立することは、医療ファンデーションモデル研究コミュニティにとって不可欠である。

Foundation models, pre-trained on massive datasets, have achieved unprecedented generalizability. However, is it truly necessary to involve such vast amounts of data in pre-training, consuming extensive computational resources? This paper introduces data-effective learning, aiming to use data in the most impactful way to pre-train foundation models. This involves strategies that focus on data quality rather than quantity, ensuring the data used for training has high informational value. Data-effective learning plays a profound role in accelerating foundation model training, reducing computational costs, and saving data storage, which is very important as the volume of medical data in recent years has grown beyond many people's expectations. However, due to the lack of standards and comprehensive benchmarks, research on medical data-effective learning is poorly studied. To address this gap, our paper introduces a comprehensive benchmark specifically for evaluating data-effective learning in the medical field. This benchmark includes a dataset with millions of data samples from 31 medical centers (DataDEL), a baseline method for comparison (MedDEL), and a new evaluation metric (NormDEL) to objectively measure data-effective learning performance. Our extensive experimental results show the baseline MedDEL can achieve performance comparable to the original large dataset with only 5% of the data. Establishing such an open data-effective learning benchmark is crucial for the medical foundation model research community because it facilitates efficient data use, promotes collaborative breakthroughs, and fosters the development of cost-effective, scalable, and impactful healthcare solutions.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-15
# Tiny Titans: より小さな言語モデルでは、要約をするために、現実の世界でその重みを突くことができるか?

Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight in the Real World for Meeting Summarization? ( http://arxiv.org/abs/2402.00841v2 )

ライセンス: Link先を確認
Xue-Yong Fu, Md Tahmid Rahman Laskar, Elena Khasanova, Cheng Chen, Shashi Bhushan TN, (参考訳) 大規模言語モデル(LLM)は、タスク固有のデータセットを明示的に微調整することなく、幅広いタスクを解決できる印象的な機能を示している。 しかし、LLMを現実世界に展開するのは、かなりの計算資源を必要とするため、簡単ではない。 本稿では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。 本研究では, 実世界の産業環境における会議要約タスクについて検討し, 微調整小型LCM(例えば, FLAN-T5, TinyLLaMA, LiteLLaMA)とゼロショット大型LCM(例えば, LLaMA-2, GPT-3.5, PaLM-2)の性能を比較検討した。 微調整後であっても、ほとんどの小さなLLMは、要約データセットを満たす際に、より大きなゼロショットLLMを上回りません。 しかし、注目すべき例外はFLAN-T5 (780Mパラメータ) であり、これは多くのゼロショットLLM (7Bから70Bパラメータ以上) よりも同等かそれ以上に動作する。 これにより、FLAN-T5のようなコンパクトなLCMが、現実の産業展開に適したコスト効率のソリューションとなる。

Large Language Models (LLMs) have demonstrated impressive capabilities to solve a wide range of tasks without being explicitly fine-tuned on task-specific datasets. However, deploying LLMs in the real world is not trivial, as it requires substantial computing resources. In this paper, we investigate whether smaller, compact LLMs are a good alternative to the comparatively Larger LLMs2 to address significant costs associated with utilizing LLMs in the real world. In this regard, we study the meeting summarization task in a real-world industrial environment and conduct extensive experiments by comparing the performance of fine-tuned compact LLMs (e.g., FLAN-T5, TinyLLaMA, LiteLLaMA) with zero-shot larger LLMs (e.g., LLaMA-2, GPT-3.5, PaLM-2). We observe that most smaller LLMs, even after fine-tuning, fail to outperform larger zero-shot LLMs in meeting summarization datasets. However, a notable exception is FLAN-T5 (780M parameters), which performs on par or even better than many zero-shot Larger LLMs (from 7B to above 70B parameters), while being significantly smaller. This makes compact LLMs like FLAN-T5 a suitable cost-efficient solution for real-world industrial deployment.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-15
# MLLMはテキスト・ツー・イメージ・インテクスト・ラーニングを実現できるか?

Can MLLMs Perform Text-to-Image In-Context Learning? ( http://arxiv.org/abs/2402.01293v2 )

ライセンス: Link先を確認
Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee, (参考訳) LLM(Large Language Models)からMLLM(Multimodal Large Language Models)への進化は、ICL(In-Context Learning)をマルチモーダルに拡張する研究を刺激している。 既存の研究は主に画像からテキストへのICLに焦点を当てている。 しかし、T2I-ICL(Text-to-Image ICL)の特長と潜在的な用途は未定である。 このギャップに対処するため、我々はT2I-ICLのタスクを正式に定義し、10タスクを含む最初のT2I-ICLベンチマークデータセットであるCoBSATを提示する。 T2I-ICLを解く上でMLLMが遭遇するかなりの困難を、我々のデータセットを用いて6つの最先端MLLMをベンチマークした。 我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整や結束といった戦略がこれらの困難を緩和し、パフォーマンスの顕著な改善につながっていることを示す。 私たちのコードとデータセットはhttps://github.com/UW-Madison-Lee-Lab/CoBSAT.comで公開されています。

The evolution from Large Language Models (LLMs) to Multimodal Large Language Models (MLLMs) has spurred research into extending In-Context Learning (ICL) to its multimodal counterpart. Existing such studies have primarily concentrated on image-to-text ICL. However, the Text-to-Image ICL (T2I-ICL), with its unique characteristics and potential applications, remains underexplored. To address this gap, we formally define the task of T2I-ICL and present CoBSAT, the first T2I-ICL benchmark dataset, encompassing ten tasks. Utilizing our dataset to benchmark six state-of-the-art MLLMs, we uncover considerable difficulties MLLMs encounter in solving T2I-ICL. We identify the primary challenges as the inherent complexity of multimodality and image generation, and show that strategies such as fine-tuning and Chain-of-Thought prompting help to mitigate these difficulties, leading to notable improvements in performance. Our code and dataset are available at https://github.com/UW-Madison-Lee-Lab/CoBSAT.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-15
# 自然言語による実験と規則改正と確率論的推論

Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning ( http://arxiv.org/abs/2402.06025v3 )

ライセンス: Link先を確認
Wasu Top Piriyakulkij, Kevin Ellis, (参考訳) 我々は、人間が実験によって隠れルールを積極的に推論する方法の計算モデルを構築します。 モデルの背後にある基本的な原則は、たとえ規則が決定論的であっても、学習者は、自然言語で表されるファジィ確率規則のより広い空間を考察し、ベイズ主義の原理に則って各実験の後にオンラインで仮説を更新することである。 同じフレームワークでは、情報理論の基準に従って実験設計もモデル化する。 これらの3つの原則 – 明示的な仮説,確率的ルール,オンライン更新 – を組み合わせることで,禅道的なタスクにおける人的パフォーマンスが説明できることが分かった。

We build a computational model of how humans actively infer hidden rules by doing experiments. The basic principles behind the model is that, even if the rule is deterministic, the learner considers a broader space of fuzzy probabilistic rules, which it represents in natural language, and updates its hypotheses online after each experiment according to approximately Bayesian principles. In the same framework we also model experiment design according to information-theoretic criteria. We find that the combination of these three principles -- explicit hypotheses, probabilistic rules, and online updates -- can explain human performance on a Zendo-style task, and that removing any of these components leaves the model unable to account for the data.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# 視覚・言語モデルにおける有害ラベル協会のバイアス

The Bias of Harmful Label Associations in Vision-Language Models ( http://arxiv.org/abs/2402.07329v2 )

ライセンス: Link先を確認
Caner Hazirbas, Alicia Sun, Yonathan Efroni, Mark Ibrahim, (参考訳) 基礎的なビジョン言語モデルの顕著な性能にもかかわらず、テキストとビジョンの共有表現空間は、公正性に有害なラベル関連を符号化することができる。 これまで,視覚言語モデル(VLM)の分類性能は地理的に偏りがみられてきたが,リッチなラベル付きデータがないため,有害ラベル関連の重要な軸に沿って作業が制限されてきた。 本研究では,最近リリースされた70,000本以上の動画を含むCasual Conversationsデータセットにおける有害なラベル関連について検討する。 本研究は, 年齢, 性別, 肌の色調, 身体の装飾など, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢など, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢, 年齢 VLMは4〜7ドル(約4~7万円)で、肌の色合いが暗い人ほど有害に分類される可能性が高いことがわかりました。 また、スケーリングトランスフォーマーエンコーダモデルのサイズが、有害な予測の信頼性を高めることも見出した。 最後に,VLM間の標準的な視覚タスクの改善は,有害なラベル関連における相違に対処しないことがわかった。

Despite the remarkable performance of foundation vision-language models, the shared representation space for text and vision can also encode harmful label associations detrimental to fairness. While prior work has uncovered bias in vision-language models' (VLMs) classification performance across geography, work has been limited along the important axis of harmful label associations due to a lack of rich, labeled data. In this work, we investigate harmful label associations in the recently released Casual Conversations datasets containing more than 70,000 videos. We study bias in the frequency of harmful label associations across self-provided labels for age, gender, apparent skin tone, and physical adornments across several leading VLMs. We find that VLMs are $4-7$x more likely to harmfully classify individuals with darker skin tones. We also find scaling transformer encoder model size leads to higher confidence in harmful predictions. Finally, we find improvements on standard vision tasks across VLMs does not address disparities in harmful label associations.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# SAWEC: センシング支援ワイヤレスエッジコンピューティング

SAWEC: Sensing-Assisted Wireless Edge Computing ( http://arxiv.org/abs/2402.10021v2 )

ライセンス: Link先を確認
Khandaker Foysal Haque, Francesca Meneghello, Md. Ebtidaul Karim, Francesco Restuccia, (参考訳) 新たなモバイルバーチャルリアリティ(VR)システムは、ディープニューラルネットワーク(DNN)ベースのアルゴリズムの実行を通じて、超高解像度ビデオフレーム上で複雑なコンピュータビジョンタスクを継続的に実行する必要がある。 最先端のDNNはモバイルデバイスに過剰な計算能力を必要とするため、無線エッジコンピューティング(WEC)に基づく技術が近年提案されている。 しかし、既存のWEC方式では大量のビデオデータの送信と処理が必要であり、最終的に無線リンクが飽和する可能性がある。 本稿では,この問題に対処する新しいセンサ支援無線エッジコンピューティング(SAWEC)パラダイムを提案する。 SAWECは物理環境に関する知識を活用して、サービス提供に関連するデータのみをエッジサーバに送信することで、エンドツーエンドのレイテンシと全体的な計算負担を削減する。 我々の直感は、以前のフレームに変化がないビデオフレームの一部の伝送を回避できるということである。 具体的には、無線センシング技術を活用し、環境中の物体の位置を推定し、環境力学に関する洞察を得る。 これにより、環境変化が検出されたフレームの一部のみを送信して処理する。 我々は,160MHzで動作するWi-Fi 6センサシステムを搭載した10K 360$^{\circ}$を用いてSAWECを評価し,ローカライゼーションとトラッキングを行った。 我々は、性能評価のためのベンチマークタスクとして、インスタンスセグメンテーションとオブジェクト検出を検討した。 無響室と玄関ホールで6つの異なる構成で2人の被験者による実験を行った。 実験結果から,SAWECはチャネル占有率とエンドツーエンドレイテンシの両方を90%以上削減すると同時に,最先端のWECアプローチによるインスタンスセグメンテーションとオブジェクト検出性能を改善した。

Emerging mobile virtual reality (VR) systems will require to continuously perform complex computer vision tasks on ultra-high-resolution video frames through the execution of deep neural networks (DNNs)-based algorithms. Since state-of-the-art DNNs require computational power that is excessive for mobile devices, techniques based on wireless edge computing (WEC) have been recently proposed. However, existing WEC methods require the transmission and processing of a high amount of video data which may ultimately saturate the wireless link. In this paper, we propose a novel Sensing-Assisted Wireless Edge Computing (SAWEC) paradigm to address this issue. SAWEC leverages knowledge about the physical environment to reduce the end-to-end latency and overall computational burden by transmitting to the edge server only the relevant data for the delivery of the service. Our intuition is that the transmission of the portion of the video frames where there are no changes with respect to previous frames can be avoided. Specifically, we leverage wireless sensing techniques to estimate the location of objects in the environment and obtain insights about the environment dynamics. Hence, only the part of the frames where any environmental change is detected is transmitted and processed. We evaluated SAWEC by using a 10K 360$^{\circ}$ with a Wi-Fi 6 sensing system operating at 160 MHz and performing localization and tracking. We considered instance segmentation and object detection as benchmarking tasks for performance evaluation. We carried out experiments in an anechoic chamber and an entrance hall with two human subjects in six different setups. Experimental results show that SAWEC reduces both the channel occupation and end-to-end latency by more than 90% while improving the instance segmentation and object detection performance with respect to state-of-the-art WEC approaches.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# 因果ダイヤモンドの絡み合い劣化

Entanglement Degradation in Causal Diamonds ( http://arxiv.org/abs/2402.10417v2 )

ライセンス: Link先を確認
H. E. Camblong, A. Chakraborty, P. Lopez-Duque, C. R. Ordóñez, (参考訳) エンタングルメント分解は、地平線が時空の領域へのアクセスを制限するとき、相対論的量子情報において一般的な予測であるように見える。 この性質は、慣性観測者 (Alice) と一様加速観測者 (Rob) からなる二部交絡系が相対加速度によって引き起こされる絡み合い劣化を伴って研究され、Alice がブラックホールに自由落下し、Rob が定常的な準水平観測者として一定の固有加速度を経験する場合に匹敵する。 本研究では,慣性オブザーバ (Alice) と「ダイアモンドオブザーバ (Dave) 」からなる絡み合った系においても,同様の劣化が生じることを示す。 有限寿命の状態は、因果ダイヤモンド内のデイブのアクセス制限と等価である。 具体的には、アリスの視点で準備された最大絡み合い状態からシステムを開始すると、ダイヤモンドの因果地平線の存在によって絡み合いの劣化が強制される。

Entanglement degradation appears to be a generic prediction in relativistic quantum information whenever horizons restrict access to a region of spacetime. This property has been previously explored in connection with the Unruh effect, where a bipartite entangled system composed of an inertial observer (Alice) and a uniformly accelerated observer (Rob) was studied, with entanglement degradation caused by the relative acceleration -- and with equivalent results for the case when Alice is freely falling into a black hole and Rob experiences a constant proper acceleration as a stationary near-horizon observer. In this work, we show that a similar degradation also occurs in the case of an entangled system composed of an inertial observer (Alice) and a "diamond observer" (Dave) with a finite lifetime. The condition of a finite lifetime is equivalent to the restriction of Dave's access within a causal diamond. Specifically, if the system starts in a maximally entangled state, prepared from Alice's perspective, entanglement degradation is enforced by the presence of the diamond's causal horizons.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# 大規模言語モデルの動作方法の解明に向けて - 説明可能性の観点から

Towards Uncovering How Large Language Model Works: An Explainability Perspective ( http://arxiv.org/abs/2402.10688v2 )

ライセンス: Link先を確認
Haiyan Zhao, Fan Yang, Bo Shen, Himabindu Lakkaraju, Mengnan Du, (参考訳) 大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。 この透明性の欠如は、幻覚、毒性、人的価値との相違といった課題を提起し、LLMの安全で有益な展開を妨げる。 本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。 まず,LLM内の知識がどのように構成され,その内部パラメータに機械的解釈可能性技術を用いて符号化されるのかを概観する。 次に、探索技術と表現工学を活用して、LLM表現に知識がどのように埋め込まれているかを要約する。 さらに, 力学的な観点から, グラッキングや暗記などの現象を説明するために, トレーニングダイナミクスについて検討する。 最後に, これらの説明から得られた知見が, モデル編集によるLCM性能の向上, 刈り取りによる効率の向上, 人的価値の整合性向上にどのように寄与するかを検討する。

Large language models (LLMs) have led to breakthroughs in language tasks, yet the internal mechanisms that enable their remarkable generalization and reasoning abilities remain opaque. This lack of transparency presents challenges such as hallucinations, toxicity, and misalignment with human values, hindering the safe and beneficial deployment of LLMs. This paper aims to uncover the mechanisms underlying LLM functionality through the lens of explainability. First, we review how knowledge is architecturally composed within LLMs and encoded in their internal parameters via mechanistic interpretability techniques. Then, we summarize how knowledge is embedded in LLM representations by leveraging probing techniques and representation engineering. Additionally, we investigate the training dynamics through a mechanistic perspective to explain phenomena such as grokking and memorization. Lastly, we explore how the insights gained from these explanations can enhance LLM performance through model editing, improve efficiency through pruning, and better align with human values.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v6 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt, (参考訳) 因果推論は、堅牢で汎用的な知性において基本的な役割を担っていると長い間推測されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納的バイアスが十分であるかどうかは不明である。 この疑問に答え、大規模な分布シフトの下で、後悔の束を満足できる任意のエージェントが、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学んだに違いないことを示す。 転帰学習や因果推論など,いくつかの研究領域において,この結果がもたらす意味について論じる。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# 因果潜在因子モデルにおける二重ロバスト推論

Doubly Robust Inference in Causal Latent Factor Models ( http://arxiv.org/abs/2402.11652v2 )

ライセンス: Link先を確認
Alberto Abadie, Anish Agarwal, Raaz Dwivedi, Abhin Shah, (参考訳) 本稿では、多数の単位と結果を含む現代データ豊富な環境において、観測不能なコンファウンディングの下での平均処理効果を推定する新しい手法を提案する。 提案した推定器は2重に頑健であり,結果計算,逆確率重み付け,行列補完のための新しいクロスフィット手法を組み合わせた。 有限サンプルと漸近保証を導出し、新しい推定器の誤差がパラメトリック速度で平均ゼロガウス分布に収束することを示す。 シミュレーションの結果は,本論文で分析した推定器の形式的特性の実用的妥当性を示すものである。

This article introduces a new estimator of average treatment effects under unobserved confounding in modern data-rich environments featuring large numbers of units and outcomes. The proposed estimator is doubly robust, combining outcome imputation, inverse probability weighting, and a novel cross-fitting procedure for matrix completion. We derive finite-sample and asymptotic guarantees, and show that the error of the new estimator converges to a mean-zero Gaussian distribution at a parametric rate. Simulation results demonstrate the practical relevance of the formal properties of the estimators analyzed in this article.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-15
# 言語誘導型イメージリフレクション分離

Language-guided Image Reflection Separation ( http://arxiv.org/abs/2402.11874v2 )

ライセンス: Link先を確認
Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, Boxin Shi, (参考訳) 本稿では, 言語記述を導入し, 層間コンテンツ提供による不適切な反射分離問題に対処することを目的とした, 言語誘導反射分離の問題について検討する。 本稿では,言語記述と画像層との対応性を構築するために,コントラスト学習戦略を用いたクロスアテンション機構を活用した統合フレームワークを提案する。 ゲートネットワーク設計とランダムなトレーニング戦略を用いて、認識可能な層あいまいさに対処する。 提案手法の有効性は,既存の反射分離法に比べて定量的および定性的な比較において有意な性能上の優位性によって検証された。

This paper studies the problem of language-guided reflection separation, which aims at addressing the ill-posed reflection separation problem by introducing language descriptions to provide layer content. We propose a unified framework to solve this problem, which leverages the cross-attention mechanism with contrastive learning strategies to construct the correspondence between language descriptions and image layers. A gated network design and a randomized training strategy are employed to tackle the recognizable layer ambiguity. The effectiveness of the proposed method is validated by the significant performance advantage over existing reflection separation methods on both quantitative and qualitative comparisons.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-15
# Self-AMPLIFY: セルフポストホック説明による小言語モデルの改善

Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations ( http://arxiv.org/abs/2402.12038v2 )

ライセンス: Link先を確認
Milan Bhan, Jean-Noel Vittaut, Nicolas Chesneau, Marie-Jeanne Lesot, (参考訳) インプロンプトとインコンテキスト学習(ICL)に自然言語の合理性を組み込むことで、LLM(Large Language Models)のパフォーマンスが大幅に向上した。 しかし、現在、有望なサンプルをターゲットにしたり、高品質な有理数を生成するために、人間のアノテーションや補助的なプロキシモデルの使用が必要である。 そこで本研究では,Small Language Models (SLM) に適用したポストホックな説明手法から,自動論理式を生成するセルフAMPLIFYを提案する。 Self-AMPLIFYは、サンプルをターゲットとし、合理性を生成し、ICLを活用するための最後のプロンプトを構築する3段階のメソッドである。 自己AMPLIFYのパフォーマンスは、推論能力を必要とする2つのSLMと2つのデータセットで評価される。 Self-AMPLIFYは、SLMにポストホックな説明法を適用して、完全に自動化された方法で自身のパフォーマンスを改善するための合理性を生成する最初の方法である。

Incorporating natural language rationales in the prompt and In-Context Learning (ICL) has led to a significant improvement of Large Language Models (LLMs) performance. However, rationales currently require human-annotation or the use of auxiliary proxy models to target promising samples or generate high-quality rationales. In this work, we propose Self-AMPLIFY to generate automatically rationales from post hoc explanation methods applied to Small Language Models (SLMs) to improve their own performance. Self-AMPLIFY is a 3-step method that targets samples, generates rationales and builds a final prompt to leverage ICL. Self-AMPLIFY performance is evaluated on two SLMs and two datasets requiring reasoning abilities: these experiments show that Self-AMPLIFY achieves good results against competitors. Self-AMPLIFY is the first method to apply post hoc explanation methods to SLM to generate rationales to improve their own performance in a fully automated manner.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-15
# 効率的な知識伝達によるグローバルセーフシーケンス学習

Global Safe Sequential Learning via Efficient Knowledge Transfer ( http://arxiv.org/abs/2402.14402v2 )

ライセンス: Link先を確認
Cen-You Li, Olaf Duennbier, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer, (参考訳) アクティブラーニングやベイズ最適化といった逐次学習手法は、タスクについて学ぶ上で最も有益なデータを選択する。 多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。 安全学習手法の許容ラインは、ガウス過程(GP)を用いて安全性確率をモデル化し、安全性の高い領域でデータ選択を行う。 しかし、正確な安全モデリングには事前の知識が必要か、あるいはデータを消費する。 さらに、安全信頼性は、局所的な探索につながる与えられた観測を中心にしている。 トランスファー可能なソース知識は、安全クリティカルな実験でしばしば利用できるため、トランスファーセーフシーケンシャルラーニングを考慮し、安全性の学習を加速することを提案する。 さらに、ソースデータを組み込んだ計算負荷を低減するために、ソースコンポーネントの事前計算についても検討する。 本稿では,従来の安全学習手法の探索可能な最大領域を理論的に解析する。 さらに我々は、我々のアプローチが 1)データ消費の少ないタスクを学習する。 2 ソース知識の指導のもと、グローバルに複数の不連続な安全な地域を探索し、 3) 計算処理は従来の安全な学習手法に匹敵する。

Sequential learning methods such as active learning and Bayesian optimization select the most informative data to learn about a task. In many medical or engineering applications, the data selection is constrained by a priori unknown safety conditions. A promissing line of safe learning methods utilize Gaussian processes (GPs) to model the safety probability and perform data selection in areas with high safety confidence. However, accurate safety modeling requires prior knowledge or consumes data. In addition, the safety confidence centers around the given observations which leads to local exploration. As transferable source knowledge is often available in safety critical experiments, we propose to consider transfer safe sequential learning to accelerate the learning of safety. We further consider a pre-computation of source components to reduce the additional computational load that is introduced by incorporating source data. In this paper, we theoretically analyze the maximum explorable safe regions of conventional safe learning methods. Furthermore, we empirically demonstrate that our approach 1) learns a task with lower data consumption, 2) globally explores multiple disjoint safe regions under guidance of the source knowledge, and 3) operates with computation comparable to conventional safe learning methods.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-15
# フェルミオン代数上のラジアル乗数として作用するいくつかのチャネルの絡み合い支援古典的容量

Entanglement-assisted classical capacities of some channels acting as radial multipliers on fermion algebras ( http://arxiv.org/abs/2402.15440v2 )

ライセンス: Link先を確認
Cédric Arhancet, (参考訳) 行列代数 $\mathrm{M}_{2^k}$ を有限次元フェルミオン代数で識別するときに、半径乗数として作用する、$\mathrm{M}_{2^k}$ 上の新しいユニタリ量子チャネルのクラスについて検討する。 我々の主な貢献は、ノイズのない絡み合いを無制限に共有するときに、送信者から受信者へこれらのチャネルを通して古典的な情報を伝達できる(最適)レートの正確な計算である。 このアプローチは、フェルミオン代数と$n$次元離散ハイパーキューブ $\{-1,1\}^n$ の間の新たな接続に依存する。 重要なことに、我々の計算はフェルミオンオルンシュタイン-ウレンベック半群の作用素に適用できる正確な値を得る。 この進歩は、これらのチャネルの構造と振舞いに関する深い洞察を提供するだけでなく、次元に依存しない文脈における量子情報理論の理解を深める。

We investigate a new class of unital quantum channels on $\mathrm{M}_{2^k}$, acting as radial multipliers when we identify the matrix algebra $\mathrm{M}_{2^k}$ with a finite-dimensional fermion algebra. Our primary contribution lies in the precise computation of the (optimal) rate at which classical information can be transmitted through these channels from a sender to receiver when they share an unlimited amount of noiseless entanglement. Our approach relies on new connections between fermion algebras with the $n$-dimensional discrete hypercube $\{-1,1\}^n$. Significantly, our calculations yield exact values applicable to the operators of the fermionic Ornstein-Uhlenbeck semigroup. This advancement not only provides deeper insights into the structure and behaviour of these channels but also enhances our understanding of Quantum Information Theory in a dimension-independent context.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-15
# 原因と影響: 大規模言語モデルは因果性を完全に理解できるか?

Cause and Effect: Can Large Language Models Truly Understand Causality? ( http://arxiv.org/abs/2402.18139v2 )

ライセンス: Link先を確認
Swagata Ashwani, Kshiteesh Hegde, Nishith Reddy Mannuru, Mayank Jindal, Dushyant Singh Sengar, Krishna Chaitanya Rao Kathala, Dishant Banga, Vinija Jain, Aman Chadha, (参考訳) LLM(Large Language Models)の台頭により、言語が持つ複雑な因果関係のウェブを解読し、説明する際に、その能力と限界を理解することが重要になった。 現在の手法では、明示的あるいは暗黙的な因果推論のいずれかを用いるが、より効果的に幅広い因果関係に取り組むために、両者を組み合わせて統一的なアプローチが必要である。 本研究は、因果推論と説明可能性を高めるために、CARE CA(Context Aware Reasoning Enhancement with Counterfactual Analysis)フレームワークと呼ばれる新しいアーキテクチャを提案する。 提案フレームワークは,ConceptNetと反ファクトステートメントを備えた明示的な因果検出モジュールと,LLMによる暗黙的な因果検出を備える。 我々の枠組みはさらに一歩前進し、LCMの因果性理解をアクセントする反ファクト的説明の層が生まれている。 ConceptNetの知識は、因果的発見、因果的識別、反事実的推論といった複数の因果的推論タスクのパフォーマンスを向上させる。 反事実的な文は、シナリオによって引き起こされないことの明示的な知識を付加する。 これらの強力なモジュールを組み合わせることで,因果関係をより深く理解し,解釈可能性を高めることを目的としている。 ベンチマークデータセットの評価では、正確性、精度、リコール、F1スコアなど、すべてのメトリクスのパフォーマンスが改善されている。 また、私たちのコードに付随する新しいデータセットであるCausalNetを導入し、この領域におけるさらなる研究を促進します。

With the rise of Large Language Models(LLMs), it has become crucial to understand their capabilities and limitations in deciphering and explaining the complex web of causal relationships that language entails. Current methods use either explicit or implicit causal reasoning, yet there is a strong need for a unified approach combining both to tackle a wide array of causal relationships more effectively. This research proposes a novel architecture called Context Aware Reasoning Enhancement with Counterfactual Analysis(CARE CA) framework to enhance causal reasoning and explainability. The proposed framework incorporates an explicit causal detection module with ConceptNet and counterfactual statements, as well as implicit causal detection through LLMs. Our framework goes one step further with a layer of counterfactual explanations to accentuate LLMs understanding of causality. The knowledge from ConceptNet enhances the performance of multiple causal reasoning tasks such as causal discovery, causal identification and counterfactual reasoning. The counterfactual sentences add explicit knowledge of the not caused by scenarios. By combining these powerful modules, our model aims to provide a deeper understanding of causal relationships, enabling enhanced interpretability. Evaluation of benchmark datasets shows improved performance across all metrics, such as accuracy, precision, recall, and F1 scores. We also introduce CausalNet, a new dataset accompanied by our code, to facilitate further research in this domain.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-15
# 能動学習におけるガウス過程の効率よく計算可能な安全性境界

Efficiently Computable Safety Bounds for Gaussian Processes in Active Learning ( http://arxiv.org/abs/2402.18260v2 )

ライセンス: Link先を確認
Jörn Tebbe, Christoph Zimmer, Ansgar Steland, Markus Lange-Hegermann, Fabian Mies, (参考訳) 物理的システムのアクティブラーニングは、設計空間の探索を制限する実用的な安全制約を一般的に尊重しなければならない。 ガウス過程(GP)とその校正不確実性推定はこの目的のために広く利用されている。 多くの技術応用において、設計空間は連続的な軌跡を通して探索され、その上で安全性を評価する必要がある。 これはGP法における厳格な安全性要件に対して特に困難である。 本稿では,後GPの上限値の適応的なサンプル化中央値に基づいて,証明可能な安全性境界を提供することにより,これらの課題に対処する。 提案手法は, 高安全性確率推定に必要な試料数を著しく削減し, 精度と探索速度を犠牲にすることなく, より高速な評価を実現する。 安全な能動学習手法の有効性をシミュレーションにより実証し,実世界の実例を用いて検証した。

Active learning of physical systems must commonly respect practical safety constraints, which restricts the exploration of the design space. Gaussian Processes (GPs) and their calibrated uncertainty estimations are widely used for this purpose. In many technical applications the design space is explored via continuous trajectories, along which the safety needs to be assessed. This is particularly challenging for strict safety requirements in GP methods, as it employs computationally expensive Monte-Carlo sampling of high quantiles. We address these challenges by providing provable safety bounds based on the adaptively sampled median of the supremum of the posterior GP. Our method significantly reduces the number of samples required for estimating high safety probabilities, resulting in faster evaluation without sacrificing accuracy and exploration speed. The effectiveness of our safe active learning approach is demonstrated through extensive simulations and validated using a real-world engine example.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# 軌道整合性蒸留:軌道マッピングを用いた半線形整合関数による潜在整合性蒸留の改善

Trajectory Consistency Distillation: Improved Latent Consistency Distillation by Semi-Linear Consistency Function with Trajectory Mapping ( http://arxiv.org/abs/2402.19159v2 )

ライセンス: Link先を確認
Jianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham, (参考訳) LCM(Latent Consistency Model)は、一貫性モデルを潜在空間に拡張し、ガイドされた一貫性蒸留技術を活用して、テキストと画像の合成を高速化する優れた性能を実現する。 しかし, LCMでは, 明快さと細かな複雑さの両面から画像を生成するのに苦慮している。 その結果,トラジェクトリ一貫性関数と戦略的確率的サンプリングを含むトラジェクトリ一貫性蒸留(TCD)を導入した。 軌道整合関数は, 自己整合境界条件の範囲をトラジェクティブマッピングで拡大し, TCDを指数積分器で半線形形式の確率フローODEの全軌道を正確にトレースする能力により, パラメータ化と蒸留誤差を低減させる。 さらに、戦略的確率的サンプリングは、確率的な明示的な制御を提供し、多段階の一貫性サンプリングに固有の累積誤差を回避する。 実験により、TDは低NFEにおける画像品質を著しく向上するだけでなく、高NFEにおける教師モデルと比較して、より詳細な結果が得られることが示された。

Latent Consistency Model (LCM) extends the Consistency Model to the latent space and leverages the guided consistency distillation technique to achieve impressive performance in accelerating text-to-image synthesis. However, we observed that LCM struggles to generate images with both clarity and detailed intricacy. Consequently, we introduce Trajectory Consistency Distillation (TCD), which encompasses trajectory consistency function and strategic stochastic sampling. The trajectory consistency function diminishes the parameterisation and distillation errors by broadening the scope of the self-consistency boundary condition with trajectory mapping and endowing the TCD with the ability to accurately trace the entire trajectory of the Probability Flow ODE in semi-linear form with an Exponential Integrator. Additionally, strategic stochastic sampling provides explicit control of stochastic and circumvents the accumulated errors inherent in multi-step consistency sampling. Experiments demonstrate that TCD not only significantly enhances image quality at low NFEs but also yields more detailed results compared to the teacher model at high NFEs.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# EAMA : エンティティ対応マルチモーダルアライメントに基づくニューズ画像キャプションのためのアプローチ

EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning ( http://arxiv.org/abs/2402.19404v2 )

ライセンス: Link先を確認
Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Xiaojun Wan, (参考訳) ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。 MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクに対処する際、目覚ましい機能を示したが、現在のMLLMは、ニュース画像キャプションタスクのエンティティ情報に制限がある。 また、MLLMは長い入力を処理できるが、高品質なニュース画像キャプションを生成するには、テキスト入力情報の十分性と簡潔さのトレードオフが必要である。 MLLMの可能性を探求し,我々が発見した問題に対処するために,ニュース画像キャプションのためのEntity-Aware Multimodal Alignmentに基づくアプローチを提案する。 我々はまず,バランストレーニング戦略を通じてMLLMを2つの追加アライメントタスク – エンティティ・アウェア・センテンス選択タスクとエンティティ選択タスク,およびNews Image Captioningタスク – に整合させ,マルチモーダルなエンティティ情報を扱う能力を高める。 整列MLLMは、明示的に抽出したエンティティ関連情報を利用して、ニュース画像キャプションを生成しながらテキスト入力を補完する。 提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。

News image captioning requires model to generate an informative caption rich in entities, with the news image and the associated news article. Though Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in addressing various vision-language tasks, our research finds that current MLLMs still bear limitations in handling entity information on news image captioning task. Besides, while MLLMs have the ability to process long inputs, generating high-quality news image captions still requires a trade-off between sufficiency and conciseness of textual input information. To explore the potential of MLLMs and address problems we discovered, we propose : an Entity-Aware Multimodal Alignment based approach for news image captioning. Our approach first aligns the MLLM through Balance Training Strategy with two extra alignment tasks: Entity-Aware Sentence Selection task and Entity Selection task, together with News Image Captioning task, to enhance its capability in handling multimodal entity information. The aligned MLLM will utilizes the additional entity-related information it explicitly extract to supplement its textual input while generating news image captions. Our approach achieves better results than all previous models in CIDEr score on GoodNews dataset (72.33 -> 88.39) and NYTimes800k dataset (70.83 -> 85.61).
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# Distrifusion:高分解能拡散モデルのための分散並列推論

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models ( http://arxiv.org/abs/2402.19481v3 )

ライセンス: Link先を確認
Muyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li, Song Han, (参考訳) 拡散モデルは高品質な画像の合成において大きな成功を収めた。 しかし、拡散モデルによる高解像度画像の生成は、膨大な計算コストのために依然として困難であり、対話型アプリケーションでは禁止的なレイテンシが生じる。 本稿では,複数のGPUにまたがる並列性を活用することで,この問題に対処するDistriFusionを提案する。 提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。 しかし、そのようなアルゴリズムをネーティブに実装すると、パッチ間の相互作用が損なわれ、忠実さが失われる一方、そのような相互作用が組み込まれれば、膨大な通信オーバーヘッドが発生する。 このジレンマを克服するために、隣接拡散ステップからの入力間の高い類似性を観察し、事前計算された特徴写像を前回から再利用して拡散過程の逐次的性質を生かした変位パッチ並列性を提案する。 そこで本手法は,計算によってパイプライン化可能な非同期通信をサポートする。 その結果,本手法は最近の安定拡散XLに対して,品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$\times$の高速化を実現することができた。 私たちのコードはhttps://github.com/mit-han-lab/distrifuser.comで公開されています。

Diffusion models have achieved great success in synthesizing high-quality images. However, generating high-resolution images with diffusion models is still challenging due to the enormous computational costs, resulting in a prohibitive latency for interactive applications. In this paper, we propose DistriFusion to tackle this problem by leveraging parallelism across multiple GPUs. Our method splits the model input into multiple patches and assigns each patch to a GPU. However, naively implementing such an algorithm breaks the interaction between patches and loses fidelity, while incorporating such an interaction will incur tremendous communication overhead. To overcome this dilemma, we observe the high similarity between the input from adjacent diffusion steps and propose displaced patch parallelism, which takes advantage of the sequential nature of the diffusion process by reusing the pre-computed feature maps from the previous timestep to provide context for the current step. Therefore, our method supports asynchronous communication, which can be pipelined by computation. Extensive experiments show that our method can be applied to recent Stable Diffusion XL with no quality degradation and achieve up to a 6.1$\times$ speedup on eight NVIDIA A100s compared to one. Our code is publicly available at https://github.com/mit-han-lab/distrifuser.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# SCott:確率整合蒸留による拡散モデルの高速化

SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation ( http://arxiv.org/abs/2403.01505v2 )

ライセンス: Link先を確認
Hongjian Liu, Qingsong Xie, Zhijie Deng, Chen Chen, Shixiang Tang, Fueyang Fu, Zheng-jun Zha, Haonan Lu, (参考訳) 拡散モデル(DM)による反復サンプリング手順は、しばしば大きな推論遅延を引き起こす。 そこで本研究では,1~2ステップのサンプリングで高品質な世代を達成でき,さらに追加のステップを加えることでさらなる改善が図れるような,高速なテキスト・画像生成を実現するための確率的一貫性蒸留(SCott)を提案する。 教師モデルの通常の微分方程式に基づくサンプリング過程を学生に蒸留するバニラ整合蒸留(CD)とは対照的に、SCottは確率微分方程式(SDE)ソルバをCDに統合して教師のポテンシャルを完全に解き放つ可能性を探究し、有効性を検証する。 SCottは、SDEソルバのノイズ強度とサンプリング過程を制御するための精巧な戦略で拡張されている。 さらに対向損失が組み込まれ、希少なサンプリング工程で試料品質が向上する。 MSCOCO-2017 5Kデータセットと安定拡散V1.5の教師を用いて、SCottは22.1のFID(Frechet Inceptio Distance)を達成し、1段階のInstaFlow(Liu et al , 2023)の23.4パーセントを超え、4段階のUFOGen(Xue et al , 2023b)と一致する。 さらに、SCottは高解像度画像生成のための他の整合性モデル(Luo et al , 2023a)よりも多彩なサンプルを得られる。 コードとチェックポイントがもうすぐやってくる。

The iterative sampling procedure employed by diffusion models (DMs) often leads to significant inference latency. To address this, we propose Stochastic Consistency Distillation (SCott) to enable accelerated text-to-image generation, where high-quality generations can be achieved with just 1-2 sampling steps, and further improvements can be obtained by adding additional steps. In contrast to vanilla consistency distillation (CD) which distills the ordinary differential equation solvers-based sampling process of a pretrained teacher model into a student, SCott explores the possibility and validates the efficacy of integrating stochastic differential equation (SDE) solvers into CD to fully unleash the potential of the teacher. SCott is augmented with elaborate strategies to control the noise strength and sampling process of the SDE solver. An adversarial loss is further incorporated to strengthen the sample quality with rare sampling steps. Empirically, on the MSCOCO-2017 5K dataset with a Stable Diffusion-V1.5 teacher, SCott achieves an FID (Frechet Inceptio Distance) of 22.1, surpassing that (23.4) of the 1-step InstaFlow (Liu et al., 2023) and matching that of 4-step UFOGen (Xue et al., 2023b). Moreover, SCott can yield more diverse samples than other consistency models for high-resolution image generation (Luo et al., 2023a), with up to 16% improvement in a qualified metric. The code and checkpoints are coming soon.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# 微分可能プログラミングによる不確かさ定量化を伴う結合パラメータとパラメータ化推定

Joint Parameter and Parameterization Inference with Uncertainty Quantification through Differentiable Programming ( http://arxiv.org/abs/2403.02215v2 )

ライセンス: Link先を確認
Yongquan Qu, Mohamed Aziz Bhouri, Pierre Gentine, (参考訳) 数値化不確実性のある数値シミュレーションにおけるパラメータ化(または閉包)による未知およびサブグリッド物理過程の正確な表現は、天気予報から乱流シミュレーションまで多くの問題を支配している粗粒偏微分方程式を解くために重要である。 近年、機械学習(ML)がこれらのサブグリッドプロセスのモデル化にますます応用され、数値解法との統合によるハイブリッド物理-MLモデルの開発が進んでいる。 本研究では,不確実な定量化を伴う物理パラメータと機械学習パラメータの同時推定のための新しいフレームワークを提案する。 本フレームワークは,高次元パラメータ空間内でのオンライン学習と効率的なベイズ推論を,微分可能プログラミングにより促進する。 この概念の証明は、機械学習と微分方程式を相乗的に組み合わせることで、微分可能プログラミングの実質的な可能性を強調し、それによってハイブリッド物理-MLモデリングの能力を高める。

Accurate representations of unknown and sub-grid physical processes through parameterizations (or closure) in numerical simulations with quantified uncertainty are critical for resolving the coarse-grained partial differential equations that govern many problems ranging from weather and climate prediction to turbulence simulations. Recent advances have seen machine learning (ML) increasingly applied to model these subgrid processes, resulting in the development of hybrid physics-ML models through the integration with numerical solvers. In this work, we introduce a novel framework for the joint estimation of physical parameters and machine learning parameterizations with uncertainty quantification. Our framework incorporates online training and efficient Bayesian inference within a high-dimensional parameter space, facilitated by differentiable programming. This proof of concept underscores the substantial potential of differentiable programming in synergistically combining machine learning with differential equations, thereby enhancing the capabilities of hybrid physics-ML modeling.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# 医用レポート生成のための視覚言語モデルと視覚質問応答

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review ( http://arxiv.org/abs/2403.02469v2 )

ライセンス: Link先を確認
Iryna Hartsock, Ghulam Rasool, (参考訳) 医療ビジョン言語モデル(VLM)は、コンピュータビジョン(CV)と自然言語処理(NLP)を組み合わせて、視覚およびテキスト医療データを解析する。 本稿では,医療用VLMの開発における最近の進歩を概観し,医療報告生成モデルと視覚的質問応答モデル(VQA)に着目した。 NLPとCVの背景として,両フィールドのテクニックをVLMに統合してマルチモーダルデータから学習可能にする方法について述べる。 主な分野は、医療ビジョン言語データセットの探索、近年注目されている医療VLMにおけるアーキテクチャの詳細な分析と事前学習戦略、医療レポート生成およびVQAにおけるVLMのパフォーマンスを評価するための評価指標に関する総合的な議論である。 我々はまた、現在の課題を強調し、臨床の妥当性を高め、患者のプライバシー問題に対処するなど、今後の方向性を提案する。 本総説では, 医療改善のためのマルチモーダル医療データを活用したVLMの開発状況について概説する。

Medical vision-language models (VLMs) combine computer vision (CV) and natural language processing (NLP) to analyze visual and textual medical data. Our paper reviews recent advancements in developing VLMs specialized for healthcare, focusing on models designed for medical report generation and visual question answering (VQA). We provide background on NLP and CV, explaining how techniques from both fields are integrated into VLMs to enable learning from multimodal data. Key areas we address include the exploration of medical vision-language datasets, in-depth analyses of architectures and pre-training strategies employed in recent noteworthy medical VLMs, and comprehensive discussion on evaluation metrics for assessing VLMs' performance in medical report generation and VQA. We also highlight current challenges and propose future directions, including enhancing clinical validity and addressing patient privacy concerns. Overall, our review summarizes recent progress in developing VLMs to harness multimodal medical data for improved healthcare applications.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# 量子貯水池計算におけるエコー状態特性の階層性

Hierarchy of the echo state property in quantum reservoir computing ( http://arxiv.org/abs/2403.02686v3 )

ライセンス: Link先を確認
Shumpei Kobayashi, Quoc Hoan Tran, Kohei Nakajima, (参考訳) エコー状態特性(ESP)は、貯水池コンピューティング(RC)フレームワークの基本概念であり、初期状態と遠い過去の入力に依存せず、貯水池ネットワークの出力のみのトレーニングを保証する。 しかしながら、ESPの伝統的な定義は、統計的性質が進化する可能性のある非定常系を記述していない。 この問題に対処するために、潜在的に静止しないシステムのために設計された$\textit{non-stationary ESP}$と、サブシステムがESPを持つシステムのために設計された$\textit{subspace/subset ESP}$の2つの新しいカテゴリを紹介した。 定義に従うと、量子貯水池計算機(QRC)における非定常ESPと典型的なハミルトン力学および非線形自己回帰移動平均(NARMA)タスクを用いた入力符号化法との対応を数値的に示す。 また、リニア/非線形メモリ容量を計算し、貯水池の状態内の入力依存成分を定量化する。 本研究は,非定常システムとサブシステムを利用したQRCおよび非定常RCシステムの実用設計について,新たな知見を提示する。

The echo state property (ESP) represents a fundamental concept in the reservoir computing (RC) framework that ensures output-only training of reservoir networks by being agnostic to the initial states and far past inputs. However, the traditional definition of ESP does not describe possible non-stationary systems in which statistical properties evolve. To address this issue, we introduce two new categories of ESP: $\textit{non-stationary ESP}$, designed for potentially non-stationary systems, and $\textit{subspace/subset ESP}$, designed for systems whose subsystems have ESP. Following the definitions, we numerically demonstrate the correspondence between non-stationary ESP in the quantum reservoir computer (QRC) framework with typical Hamiltonian dynamics and input encoding methods using non-linear autoregressive moving-average (NARMA) tasks. We also confirm the correspondence by computing linear/non-linear memory capacities that quantify input-dependent components within reservoir states. Our study presents a new understanding of the practical design of QRC and other possibly non-stationary RC systems in which non-stationary systems and subsystems are exploited.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# IRCoder: 中間表現は言語モデルをロバストな多言語コードジェネレータにする

IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators ( http://arxiv.org/abs/2403.03894v3 )

ライセンス: Link先を確認
Indraneil Paul, Goran Glavaš, Iryna Gurevych, (参考訳) コード理解と生成は、言語モデル(LM)の最も一般的な応用の1つである。 それでも、異なるプログラミング言語間の言語間移動、言語固有のデータ拡張、およびポストホックなLM適応などのコード-LMの多言語的側面の研究は、元のテキストコンテンツ以外のデータソースの活用とともに、自然言語よりもはるかに疎外されている。 特に、ほとんどの主要なCode-LMはソースコードファイルだけで事前訓練されている。 本稿では,プログラム言語間で共有されるコンパイラ中間表現(IR)を活用して,コード-LMの多言語機能を改善し,言語間転送を容易にする可能性について検討する。 この目的のために,約4百万の自己完結型ソースコードファイルと各中間表現を組み合わせた並列データセットであるSLTransをまずコンパイルした。 次に、様々なベースコード-LM(サイズは 1.1B から 7.3B まで)から、SLTrans 上で継続的に因果言語モデリングトレーニングを行い、コード-LM は(1) IR言語を学習させ、(2) IR 構造を様々なプログラミング言語の構成要素と整合させる。 IRCoderと呼ばれる結果のモデルは、迅速な堅牢性、多言語コード補完、コード理解、命令フォローを含む、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。

Code understanding and generation have fast become some of the most popular applications of language models (LMs). Nonetheless, research on multilingual aspects of Code-LMs (i.e., LMs for code generation) such as cross-lingual transfer between different programming languages, language-specific data augmentation, and post-hoc LM adaptation, alongside exploitation of data sources other than the original textual content, has been much sparser than for their natural language counterparts. In particular, most mainstream Code-LMs have been pre-trained on source code files alone. In this work, we investigate the prospect of leveraging readily available compiler intermediate representations (IR) - shared across programming languages - to improve the multilingual capabilities of Code-LMs and facilitate cross-lingual transfer. To this end, we first compile SLTrans, a parallel dataset consisting of nearly 4M self-contained source code files coupled with respective intermediate representations. Next, starting from various base Code-LMs (ranging in size from 1.1B to 7.3B parameters), we carry out continued causal language modelling training on SLTrans, forcing the Code-LMs to (1) learn the IR language and (2) align the IR constructs with respective constructs of various programming languages. Our resulting models, dubbed IRCoder, display sizeable and consistent gains across a wide variety of code generation tasks and metrics, including prompt robustness, multilingual code completion, code understanding, and instruction following.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# 大規模言語モデルは多言語音声言語を理解するか?

Do Large Language Model Understand Multi-Intent Spoken Language ? ( http://arxiv.org/abs/2403.04481v3 )

ライセンス: Link先を確認
Shangjian Yin, Peijie Huang, Yuhong Xu, Haojing Huang, Jiatian Chen, (参考訳) 本研究は,多言語言語理解(SLU)におけるLarge Language Models(LLMs)の利用において,大きなブレークスルーを示すものである。 提案手法は,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用を再検討し,SLUランドスケープにおけるLLMの生成可能性のほとんどを生かし,EN-LLMシリーズの開発に繋がる。 さらに,SII(Sub-Intent Instruction)の概念を導入して,複雑なマルチインテント通信の分析と解釈を増幅し,さらにENSI-LLMモデルシリーズの作成を支援する。 既存のベンチマークからLM-MixATISとLM-MixSNIPSと同定された新しいデータセットを合成した。 この研究は、LLMが現在の最高のマルチインテリジェントSLUモデルの性能と一致し、さらに上回っていることを証明している。 また、目的設定とデータセット分布のスペクトルにわたってLLMの性能を精査する。 これに加えて、この多面体分野におけるLLM能力の詳細な評価を容易にするために、エンティティスロット精度(ESA)と複合セマンティック精度(CSA)の2つの革命的指標を示す。 「私たちのコードとデータセットは \url{https://github.com/SJY8460/SLM} で利用可能です。

This research signifies a considerable breakthrough in leveraging Large Language Models (LLMs) for multi-intent spoken language understanding (SLU). Our approach re-imagines the use of entity slots in multi-intent SLU applications, making the most of the generative potential of LLMs within the SLU landscape, leading to the development of the EN-LLM series. Furthermore, we introduce the concept of Sub-Intent Instruction (SII) to amplify the analysis and interpretation of complex, multi-intent communications, which further supports the creation of the ENSI-LLM models series. Our novel datasets, identified as LM-MixATIS and LM-MixSNIPS, are synthesized from existing benchmarks. The study evidences that LLMs may match or even surpass the performance of the current best multi-intent SLU models. We also scrutinize the performance of LLMs across a spectrum of intent configurations and dataset distributions. On top of this, we present two revolutionary metrics - Entity Slot Accuracy (ESA) and Combined Semantic Accuracy (CSA) - to facilitate a detailed assessment of LLM competence in this multifaceted field." Our code and datasets are available at \url{https://github.com/SJY8460/SLM}.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-15
# ラフ集合による教育的内容知識の表現

Representing Pedagogic Content Knowledge Through Rough Sets ( http://arxiv.org/abs/2403.04772v2 )

ライセンス: Link先を確認
A Mani, (参考訳) 教師の知識基盤は、数学の内容、学生の認識学の知識、教育学の知識から成り立っている。 本研究は,学生のコンテンツに関する知識の理解と,学習コンテキスト全般に重大な影響を及ぼす。 教育研究文献では,様々な内容知識を近似感覚で形式化する必要性が認識されている。 関連する問題はコヒーレントな形式化性である。 既存の応答性やスマートAIベースのソフトウェアシステムは意味を気にせず、訓練済みのソフトウェアは自身の問題に不満を持っている。 本研究では,教師のコンテンツ理解をモデル化する上で,多くの課題が特定され,教師の多様なタスクを支援するソフトウェアを開発するために,著者らによって2階層の粗いセットベースモデルが提案されている。 提案手法の主な利点は、あいまいさ、粒度、マルチモーダリティをコヒーレントに扱う能力である。 方程式推論の拡張例は、これらを実証するために用いられる。 この論文は、論理モデルを構築したり、教師を支援するための意味を意識したAIソフトウェアを開発することを目的とした、粗野なセットの研究者と、教育研究の専門家を対象としている。

A teacher's knowledge base consists of knowledge of mathematics content, knowledge of student epistemology, and pedagogical knowledge. It has severe implications on the understanding of student's knowledge of content, and the learning context in general. The necessity to formalize the different content knowledge in approximate senses is recognized in the education research literature. A related problem is that of coherent formalizability. Existing responsive or smart AI-based software systems do not concern themselves with meaning, and trained ones are replete with their own issues. In the present research, many issues in modeling teachers' understanding of content are identified, and a two-tier rough set-based model is proposed by the present author for the purpose of developing software that can aid the varied tasks of a teacher. The main advantage of the proposed approach is in its ability to coherently handle vagueness, granularity and multi-modality. An extended example to equational reasoning is used to demonstrate these. The paper is meant for rough set researchers intending to build logical models or develop meaning-aware AI-software to aid teachers, and education research experts.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-15
# ホワイトボックスの深層学習に向けて

Towards White Box Deep Learning ( http://arxiv.org/abs/2403.09863v4 )

ライセンス: Link先を確認
Maciej Satkiewicz, (参考訳) 本稿では,ホワイトボックスニューラルネットワークの概念的枠組みとしての意味的特徴を紹介する。 概念モデルの証明は、本質的に解釈可能で、パラメータ数が少なく、ほぼ人間レベルの対人テストのメトリクスを達成します。 これらの結果とアプローチの一般的な性質は、意味的特徴に関するさらなる研究を保証している。 コードはhttps://github.com/314-Foundation/white-box-nnで公開されている。

This paper introduces semantic features as a candidate conceptual framework for white-box neural networks. The proof of concept model is well-motivated, inherently interpretable, has low parameter-count and achieves almost human-level adversarial test metrics - with no adversarial training! These results and the general nature of the approach warrant further research on semantic features. The code is available at https://github.com/314-Foundation/white-box-nn
翻訳日:2024-04-17 22:36:28 公開日:2024-04-15
# Adversarial Nibbler: テキスト・画像生成における様々なハームの同定のためのオープンなレッドチーム化手法

Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation ( http://arxiv.org/abs/2403.12075v2 )

ライセンス: Link先を確認
Jessica Quaye, Alicia Parrish, Oana Inel, Charvi Rastogi, Hannah Rose Kirk, Minsuk Kahng, Erin van Liemt, Max Bartolo, Jess Tsang, Justin White, Nathan Clement, Rafael Mosquera, Juan Ciro, Vijay Janapa Reddi, Lora Aroyo, (参考訳) テキスト・ツー・イメージ(T2I)生成AIモデルが広範に普及するにつれて、攻撃的画像の生成を緩和するためには、非回避攻撃に対するモデルロバスト性を評価することが重要である。 単純に敵対する'プロンプトに焦点を合わせることで(不確実な理由から安全でない画像を生成するためにT2Iモデルをトリガーする)、人間の創造性が明らかにするのに適した、一連の困難な安全問題を分離する。 この目的のために、私たちは、暗黙的に敵対的なプロンプトのさまざまなセットをクラウドソーシングするための、レッドチーム方式のAdversarial Nibbler Challengeを構築しました。 我々は、最先端のT2Iモデルの集合を組み立て、害を識別し注釈するシンプルなユーザーインターフェースを採用し、様々な集団を巻き込み、標準テストで見過ごされる可能性のある長期の安全問題を捉えました。 この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。 本稿では,我々の方法論の詳細な説明,新たな攻撃戦略の体系的研究,および課題参加者が明らかにした安全障害の議論について述べる。 また、データセットからのインサイトを簡単に探索し、導出するための視覚化ツールもリリースしています。 最初のチャレンジラウンドでは、安全のためにマシンアノテーションを使用した10万以上のプロンプトイメージペアが実現した。 1.5kサンプルのサブセットには、ハーフタイプとアタックスタイルの豊富な人間のアノテーションが含まれている。 有害と思われる画像の14%は、機械によって「安全」と誤記されている。 我々は,T2Iモデルの堅牢性確保の複雑さを強調する新たな攻撃戦略を特定した。 本研究は,新たな脆弱性が出現するにつれて,継続的な監査と適応の必要性を強調した。 我々は,本研究が積極的かつ反復的な安全性評価を可能にし,T2Iモデルの責任ある開発を促進すると確信している。

With the rise of text-to-image (T2I) generative AI models reaching wide audiences, it is critical to evaluate model robustness against non-obvious attacks to mitigate the generation of offensive images. By focusing on ``implicitly adversarial'' prompts (those that trigger T2I models to generate unsafe images for non-obvious reasons), we isolate a set of difficult safety issues that human creativity is well-suited to uncover. To this end, we built the Adversarial Nibbler Challenge, a red-teaming methodology for crowdsourcing a diverse set of implicitly adversarial prompts. We have assembled a suite of state-of-the-art T2I models, employed a simple user interface to identify and annotate harms, and engaged diverse populations to capture long-tail safety issues that may be overlooked in standard testing. The challenge is run in consecutive rounds to enable a sustained discovery and analysis of safety pitfalls in T2I models. In this paper, we present an in-depth account of our methodology, a systematic study of novel attack strategies and discussion of safety failures revealed by challenge participants. We also release a companion visualization tool for easy exploration and derivation of insights from the dataset. The first challenge round resulted in over 10k prompt-image pairs with machine annotations for safety. A subset of 1.5k samples contains rich human annotations of harm types and attack styles. We find that 14% of images that humans consider harmful are mislabeled as ``safe'' by machines. We have identified new attack strategies that highlight the complexity of ensuring T2I model robustness. Our findings emphasize the necessity of continual auditing and adaptation as new vulnerabilities emerge. We are confident that this work will enable proactive, iterative safety assessments and promote responsible development of T2I models.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-15
# アンダーソースデータセットにおけるクロスデータセット分離手話認識のための転送学習

Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets ( http://arxiv.org/abs/2403.14534v2 )

ライセンス: Link先を確認
Ahmet Alp Kindiroglu, Ozgur Kara, Ogulcan Ozdemir, Lale Akarun, (参考訳) 署名言語認識(SLR)は、大規模な注釈付き手話データセットでトレーニングされたディープニューラルネットワークのおかげで、最近、パフォーマンスのブレークスルーを達成した。 多くの異なる手話言語の中で、これらの注釈付きデータセットは、一部の人しか利用できない。 手話ビデオのグロスレベルラベルの取得は困難であるため、既存の注釈付き情報源から知識を伝達することで学習は、低リソース手話における認識に有用である。 この研究は、既存の2つのトルコのSLRデータセットから利用可能なクロスデータセット転送学習ベンチマークを提供する。 我々は、時間グラフ畳み込みに基づく手話認識手法を用いて、5つの教師付きトランスファー学習手法を評価し、クローズドセットおよび部分セットのクロスデータセット・トランスファー学習の実験を行う。 特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。

Sign language recognition (SLR) has recently achieved a breakthrough in performance thanks to deep neural networks trained on large annotated sign datasets. Of the many different sign languages, these annotated datasets are only available for a select few. Since acquiring gloss-level labels on sign language videos is difficult, learning by transferring knowledge from existing annotated sources is useful for recognition in under-resourced sign languages. This study provides a publicly available cross-dataset transfer learning benchmark from two existing public Turkish SLR datasets. We use a temporal graph convolution-based sign language recognition approach to evaluate five supervised transfer learning approaches and experiment with closed-set and partial-set cross-dataset transfer learning. Experiments demonstrate that improvement over finetuning based transfer learning is possible with specialized supervised transfer learning methods.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-15
# ダブルクロスフィットの2倍のロバスト推定器: シリーズリグレッションを超えて

Double Cross-fit Doubly Robust Estimators: Beyond Series Regression ( http://arxiv.org/abs/2403.15175v2 )

ライセンス: Link先を確認
Alec McClean, Sivaraman Balakrishnan, Edward H. Kennedy, Larry Wasserman, (参考訳) クロスフィットの頑健な推定器は、構造に依存しないエラー保証のために因果推論で人気を博している。 しかし、H\"{o}lder smoothness(英語版)のような追加構造が利用可能であれば、トレーニングデータを分割し、独立サンプルに平滑なニュアンス関数推定器を組み込むことで、より正確な「二重適合二重剛性」(DCDR)推定器を構築することができる。 我々は、因果推論と条件独立性テストに対する関心の関数である、期待された条件共分散のDCDR推定器について検討し、徐々に強い仮定を持つ、より強力な結果のシリーズを導出する。 まず、直流DR推定器に対して、ニュアンス関数やその推定器に関する仮定のない構造に依存しない誤差解析を行う。 すると、ニュアンス関数が H\ "{o}lder smooth であると仮定するが、真の滑らか度レベルや共変量密度の知識を仮定せずに、線形スムーサを持つ DCDR 推定器は最小条件下で半パラメトリック効率を保ち、非$\sqrt{n}$ 状態における高速収束率を達成する。 共変量密度と滑らかさが知られているとき、不規則なカーネル回帰に基づく最小最大速度最適化DCDR推定器を提案する。 さらに、非滑らかなDCDR推定器は、より遅い-$\sqrt{n}$中心極限定理を満たすことを示し、非$\sqrt{n}$状態においても推論が可能である。 最後に、シミュレーションによる理論結果をサポートし、二重クロスフィットとアンダースムースメントの直観を提供し、通常の「単一クロスフィット」推定器が失敗する間、我々の推定器がセミパラメトリック効率をどこで達成しているかを示し、アンダースムースされたDCDR推定器の漸近正規性を示す。

Doubly robust estimators with cross-fitting have gained popularity in causal inference due to their favorable structure-agnostic error guarantees. However, when additional structure, such as H\"{o}lder smoothness, is available then more accurate "double cross-fit doubly robust" (DCDR) estimators can be constructed by splitting the training data and undersmoothing nuisance function estimators on independent samples. We study a DCDR estimator of the Expected Conditional Covariance, a functional of interest in causal inference and conditional independence testing, and derive a series of increasingly powerful results with progressively stronger assumptions. We first provide a structure-agnostic error analysis for the DCDR estimator with no assumptions on the nuisance functions or their estimators. Then, assuming the nuisance functions are H\"{o}lder smooth, but without assuming knowledge of the true smoothness level or the covariate density, we establish that DCDR estimators with several linear smoothers are semiparametric efficient under minimal conditions and achieve fast convergence rates in the non-$\sqrt{n}$ regime. When the covariate density and smoothnesses are known, we propose a minimax rate-optimal DCDR estimator based on undersmoothed kernel regression. Moreover, we show an undersmoothed DCDR estimator satisfies a slower-than-$\sqrt{n}$ central limit theorem, and that inference is possible even in the non-$\sqrt{n}$ regime. Finally, we support our theoretical results with simulations, providing intuition for double cross-fitting and undersmoothing, demonstrating where our estimator achieves semiparametric efficiency while the usual "single cross-fit" estimator fails, and illustrating asymptotic normality for the undersmoothed DCDR estimator.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-15
# 人間の文理解を予測する計算文レベルメトリクス

Computational Sentence-level Metrics Predicting Human Sentence Comprehension ( http://arxiv.org/abs/2403.15822v2 )

ライセンス: Link先を確認
Kun Sun, Rong Wang, (参考訳) 計算心理言語学の研究の大部分は、単語の処理に集中している。 本研究では,多言語大言語モデルを用いた文レベルメトリクスの計算手法を提案する。 それらの指標は、文章の前提と文の関連性を発達させ、それを比較して、人間が言語全体にわたって文章をどのように理解しているかを予測できるかどうかを検証した。 これらの指標は,人文読解速度の予測において高い精度と高い解釈性を提供する。 以上の結果から,これらの計算文レベルの指標は,様々な言語での文章の理解において,読者が直面する処理困難を予測・解明するのに極めて有効であることが示唆された。 それらの優れた性能と一般化能力は、LLMと認知科学の統合における将来の研究に有望な道のりを提供する。

The majority of research in computational psycholinguistics has concentrated on the processing of words. This study introduces innovative methods for computing sentence-level metrics using multilingual large language models. The metrics developed sentence surprisal and sentence relevance and then are tested and compared to validate whether they can predict how humans comprehend sentences as a whole across languages. These metrics offer significant interpretability and achieve high accuracy in predicting human sentence reading speeds. Our results indicate that these computational sentence-level metrics are exceptionally effective at predicting and elucidating the processing difficulties encountered by readers in comprehending sentences as a whole across a variety of languages. Their impressive performance and generalization capabilities provide a promising avenue for future research in integrating LLMs and cognitive science.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-15
# 2ストリームFoveation-based Active Vision Learningに向けて

Towards Two-Stream Foveation-based Active Vision Learning ( http://arxiv.org/abs/2403.15977v2 )

ライセンス: Link先を確認
Timur Ibrayev, Amitangshu Mukherjee, Sai Aparna Aketi, Kaushik Roy, (参考訳) ディープニューラルネットワーク(DNN)ベースのマシン認識フレームワークは、入力全体をワンショットで処理し、"何が観察されているか"と"どこにあるか"の両方に対する回答を提供する。 対照的に、神経科学の「二流仮説」は、人間の視覚野における神経処理を、脳の2つの別々の領域を利用して、何とどこにあるのかを答える能動的視覚システムとして説明している。 本研究では,「二流仮説」にインスパイアされた機械学習フレームワークを提案する。 具体的には、提案するフレームワークが以下のメカニズムをモデル化する。 1)眼底部が知覚する入力領域に着目した腹側流(何) 2 視覚的指導を提供する背後(場所)流路及び 3)2つのストリームの反復処理により、視覚的焦点を調整し、フォーカスされた画像パッチのシーケンスを処理する。 提案するフレームワークのトレーニングは,腹側ストリームモデルのためのラベルベースのDNNトレーニングと背側ストリームモデルのための強化学習によって達成される。 本稿では,2ストリームのファベーションに基づく学習が,訓練データをオブジェクトクラスや属性に限定した弱教師付きオブジェクトローカライゼーション(WSOL)の課題に対して適用可能であることを示す。 このフレームワークは、オブジェクトのプロパティを予測し、バウンディングボックスを予測してそれをローカライズすることができる。 また、この2つのストリームの独立性から、背側モデルを適用することで、異なるデータセットからオブジェクトをローカライズできることを示す。

Deep neural network (DNN) based machine perception frameworks process the entire input in a one-shot manner to provide answers to both "what object is being observed" and "where it is located". In contrast, the "two-stream hypothesis" from neuroscience explains the neural processing in the human visual cortex as an active vision system that utilizes two separate regions of the brain to answer the what and the where questions. In this work, we propose a machine learning framework inspired by the "two-stream hypothesis" and explore the potential benefits that it offers. Specifically, the proposed framework models the following mechanisms: 1) ventral (what) stream focusing on the input regions perceived by the fovea part of an eye (foveation), 2) dorsal (where) stream providing visual guidance, and 3) iterative processing of the two streams to calibrate visual focus and process the sequence of focused image patches. The training of the proposed framework is accomplished by label-based DNN training for the ventral stream model and reinforcement learning for the dorsal stream model. We show that the two-stream foveation-based learning is applicable to the challenging task of weakly-supervised object localization (WSOL), where the training data is limited to the object class or its attributes. The framework is capable of both predicting the properties of an object and successfully localizing it by predicting its bounding box. We also show that, due to the independent nature of the two streams, the dorsal model can be applied on its own to unseen images to localize objects from different datasets.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-15
# 腹腔鏡解剖分類モデルの現実的適用性向上のための方策

Strategies to Improve Real-World Applicability of Laparoscopic Anatomy Segmentation Models ( http://arxiv.org/abs/2403.17192v2 )

ライセンス: Link先を確認
Fiona R. Kolbinger, Jiangpeng He, Jinge Ma, Fengqing Zhu, (参考訳) 腹腔鏡下画像診断における解剖学的構造の正確な同定と局所化は,外科的意思決定支援のためのコンピュータビジョン技術の可能性を活用するために必要である。 このようなモデルのセグメンテーション性能は、伝統的にIoUのような重なり合いのメトリクスを用いて報告されている。 しかしながら、トレーニングデータにおけるクラスの不均衡と非現実的な表現、および報告された指標の最適選択は、名目分割性能を損なう可能性があり、最終的に臨床翻訳を制限することができる。 本研究は,8つのセグメンテーション指標(精度,精度,リコール,IoU,F1スコア(Dice similarity Coefficient),特異性,ハウスドルフ距離,平均対称表面距離)に対して,クラス特性(臓器の大きさの差異など),トレーニングおよびテストデータ組成(正および負の例の表現),モデリングパラメータ(前景と背景のクラス重量)の影響を系統的に分析する。 本研究は, 外科的データ科学におけるデータバイアスを考慮に入れた2つの適応を支援する。第1に, クラス分布の点で臨床現実のシナリオに類似したデータセットのトレーニング, 第2に, それぞれの臨床環境における特定の関連性の指標について, セグメンテーションモデルの性能を最適化するためのクラスウェイト調整である。

Accurate identification and localization of anatomical structures of varying size and appearance in laparoscopic imaging are necessary to leverage the potential of computer vision techniques for surgical decision support. Segmentation performance of such models is traditionally reported using metrics of overlap such as IoU. However, imbalanced and unrealistic representation of classes in the training data and suboptimal selection of reported metrics have the potential to skew nominal segmentation performance and thereby ultimately limit clinical translation. In this work, we systematically analyze the impact of class characteristics (i.e., organ size differences), training and test data composition (i.e., representation of positive and negative examples), and modeling parameters (i.e., foreground-to-background class weight) on eight segmentation metrics: accuracy, precision, recall, IoU, F1 score (Dice Similarity Coefficient), specificity, Hausdorff Distance, and Average Symmetric Surface Distance. Our findings support two adjustments to account for data biases in surgical data science: First, training on datasets that are similar to the clinical real-world scenarios in terms of class distribution, and second, class weight adjustments to optimize segmentation model performance with regard to metrics of particular relevance in the respective clinical setting.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-15
# MATEval: オープンなテキスト評価を改善するためのマルチエージェントの議論フレームワーク

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation ( http://arxiv.org/abs/2403.19305v2 )

ライセンス: Link先を確認
Yu Li, Shenyu Zhang, Rui Wu, Xiutian Huang, Yongrui Chen, Wenhao Xu, Guilin Qi, Dehai Min, (参考訳) ジェネレーティブ・Large Language Models(LLM)の最近の進歩は目覚ましいが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 これらのモデルによって生成されるテキストの品質を評価することは、特にオープンエンドテキストにおいて、一貫して重要な課題を提示してきた。 この問題に対処するため、近年の研究では、LCMを評価対象として活用する可能性について検討している。 単一のLCMを評価剤として使用するとポテンシャルを示すが、かなりの不確実性と不安定性に満ちている。 GPT-4 のような LLM によって全てのエージェントを再生する "マルチエージェントテキスト評価フレームワーク" を提案する。 MATEvalフレームワークは、複数のエージェントのインタラクションを統合してオープンなテキストを評価する、人間の協調的な議論手法をエミュレートする。 本フレームワークは,自己回帰とCoT(Chain-of-Thought)戦略,フィードバック機構,評価プロセスの深度と広さの向上,コンセンサスに向けた議論の導出,エラーローカライゼーションやエラータイプ,スコアリングなどの総合的な評価レポートを生成する。 実験結果から,本フレームワークは既存のオープンエンドテキスト評価手法よりも優れており,LLMのテキスト評価における不確実性や不安定性に対処する上で,人間の評価と高い相関性が得られることが明らかとなった。 さらに,本フレームワークは,産業シナリオにおけるテキスト評価とモデル反復の効率を大幅に向上させる。

Recent advancements in generative Large Language Models(LLMs) have been remarkable, however, the quality of the text generated by these models often reveals persistent issues. Evaluating the quality of text generated by these models, especially in open-ended text, has consistently presented a significant challenge. Addressing this, recent work has explored the possibility of using LLMs as evaluators. While using a single LLM as an evaluation agent shows potential, it is filled with significant uncertainty and instability. To address these issues, we propose the MATEval: A "Multi-Agent Text Evaluation framework" where all agents are played by LLMs like GPT-4. The MATEval framework emulates human collaborative discussion methods, integrating multiple agents' interactions to evaluate open-ended text. Our framework incorporates self-reflection and Chain-of-Thought (CoT) strategies, along with feedback mechanisms, enhancing the depth and breadth of the evaluation process and guiding discussions towards consensus, while the framework generates comprehensive evaluation reports, including error localization, error types and scoring. Experimental results show that our framework outperforms existing open-ended text evaluation methods and achieves the highest correlation with human evaluation, which confirms the effectiveness and advancement of our framework in addressing the uncertainties and instabilities in evaluating LLMs-generated text. Furthermore, our framework significantly improves the efficiency of text evaluation and model iteration in industrial scenarios.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-15
# DRCT:画像の超解像度をインフォメーション・ボトルネックから遠ざける

DRCT: Saving Image Super-resolution away from Information Bottleneck ( http://arxiv.org/abs/2404.00722v4 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, (参考訳) 近年、低レベル視覚タスクに対するビジョントランスフォーマーベースのアプローチは広く成功している。 CNNベースのモデルとは異なり、Transformerは長距離依存のキャプチャに適しており、非ローカル情報を利用したイメージの再構築を可能にする。 超解像領域では、グローバル空間情報モデリングの能力と異なるウィンドウ間の情報交換を容易にするシフトウインドウアテンション機構により、スウィントランスフォーマーベースのモデルが主流となっている。 多くの研究者は、受容場を拡張したり、繊細なネットワークを設計することでモデル性能を向上し、賞賛できる結果を得た。 しかし,特徴写像強度がネットワークの終端に向かって小さな値に突然抑制されることは一般的な現象であることがわかった。 これは、情報のボトルネックと空間情報の減少を意味し、モデルの可能性は暗黙的に制限される。 そこで本研究では,Dense-Residual-connect Transformer (DRCT) を提案し,空間情報の損失を軽減し,層間密な残差接続を通して情報の流れを安定化させることにより,モデルのポテンシャルを解放し,情報のボトルネックからモデルを救う。 実験の結果,提案手法はベンチマークデータセットの最先端手法を超越し,NTIRE-2024 Image Super-Resolution (x4) Challengeで高い精度で実行可能であることがわかった。 ソースコードはhttps://github.com/ming053l/DRCTで公開されている。

In recent years, Vision Transformer-based approaches for low-level vision tasks have achieved widespread success. Unlike CNN-based models, Transformers are more adept at capturing long-range dependencies, enabling the reconstruction of images utilizing non-local information. In the domain of super-resolution, Swin-transformer-based models have become mainstream due to their capability of global spatial information modeling and their shifting-window attention mechanism that facilitates the interchange of information between different windows. Many researchers have enhanced model performance by expanding the receptive fields or designing meticulous networks, yielding commendable results. However, we observed that it is a general phenomenon for the feature map intensity to be abruptly suppressed to small values towards the network's end. This implies an information bottleneck and a diminishment of spatial information, implicitly limiting the model's potential. To address this, we propose the Dense-residual-connected Transformer (DRCT), aimed at mitigating the loss of spatial information and stabilizing the information flow through dense-residual connections between layers, thereby unleashing the model's potential and saving the model away from information bottleneck. Experiment results indicate that our approach surpasses state-of-the-art methods on benchmark datasets and performs commendably at the NTIRE-2024 Image Super-Resolution (x4) Challenge. Our source code is available at https://github.com/ming053l/DRCT
翻訳日:2024-04-17 22:17:00 公開日:2024-04-15
# 量子コンピュータ上の超相対論的クォーク核散乱

Ultra-relativistic quark-nucleus scattering on quantum computers ( http://arxiv.org/abs/2404.00819v2 )

ライセンス: Link先を確認
Sihao Wu, Weijie Du, Xingbo Zhao, James P. Vary, (参考訳) 量子コンピューティングは、古典的コンピュータで計算可能な第一原理計算からクォークとグルーオンからなるシステムのリアルタイム力学を解くための有望なアプローチを提供する。 本研究は、超相対論的クォーク核散乱の初期問題から始まり、光面上の力学を量子的にシミュレートするための効率的かつ正確なアプローチを示す。 このアプローチは漸近散乱系の固有基底を使い、基底符号化のためのコンパクトなスキームを実装している。 これは散乱系の光フロントハミルトニアンの作用素構造を利用しており、量子フーリエ変換を効率よく利用するハミルトニアン入力スキームを可能にする。 トランカテッド・テイラー級数を用いて力学シミュレーションを行う。 我々のアプローチのキュービットコストは散乱系のヒルベルト空間次元と対数的にスケールする。 ゲートコストはシミュレーション誤差による最適スケーリングとシミュレーション時間によるほぼ最適スケーリングである。 これらのスケーリングは、将来のフォールトトレラント量子コンピュータにおける大規模ダイナミクスシミュレーションに有利である。 簡単な散乱問題を用いて本手法を実証し, トロッターアルゴリズムと古典計算の結果とをベンチマークし, 結果の整合性を確認した。

Quantum computing provides a promising approach for solving the real-time dynamics of systems consist of quarks and gluons from first-principle calculations that are intractable with classical computers. In this work, we start with an initial problem of the ultra-relativistic quark-nucleus scattering and present an efficient and precise approach to quantum simulate the dynamics on the light front. This approach employs the eigenbasis of the asymptotic scattering system and implements the compact scheme for basis encoding. It exploits the operator structure of the light-front Hamiltonian of the scattering system, which enables the Hamiltonian input scheme that utilizes the quantum Fourier transform for efficiency. It utilizes the truncated Taylor series for the dynamics simulations. The qubit cost of our approach scales logarithmically with the Hilbert space dimension of the scattering system. The gate cost has optimal scaling with the simulation error and near optimal scaling with the simulation time. These scalings make our approach advantageous for large-scale dynamics simulations on future fault-tolerant quantum computers. We demonstrate our approach with a simple scattering problem and benchmark the results with those from the Trotter algorithm and the classical calculations, where good agreement between the results is found.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-15
# NL2KQL: 自然言語からKustoクエリへ

NL2KQL: From Natural Language to Kusto Query ( http://arxiv.org/abs/2404.02933v2 )

ライセンス: Link先を確認
Amir H. Abdi, Xinye Tang, Jeremias Eichelbaum, Mahan Das, Alex Klein, Nihal Irmak Pakis, William Blum, Daniel L Mace, Tanvi Raja, Namrata Padmanabhan, Ye Xing, (参考訳) データは容積と複雑さで急速に成長しています。 データベースクエリ言語の性能は、効率的なクエリを作成する上で重要である。 コーディングアシスタントが普及するにつれて、データベースクエリ言語を強化する大きな機会がある。 Kusto Query Language(KQL)は、ログ、テレメトリ、ビッグデータ分析プラットフォームのための時系列といった、大規模な半構造化データのための広く使われているクエリ言語である。 本稿では,大規模言語モデル(LLM)を用いて自然言語クエリ(NLQ)をKQLクエリに変換する,革新的なフレームワークであるNL2KQLを紹介する。 提案されたNL2KQLフレームワークには、スキーマを最も関連する要素に絞り込むSchema Refiner、数ショットデータセットから関連するサンプルを動的に選択するFew-shot Selector、KQLクエリの構文的およびセマンティックエラーを修復するQuery Refinerなど、いくつかの重要なコンポーネントが含まれている。 さらに、本研究では、特定のデータベースコンテキスト内で有効な合成NLQ-KQLペアの大規模なデータセットを生成する方法の概要を述べる。 NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。 アブレーション研究を通じて、各フレームワークコンポーネントの重要性を調べ、ベンチマークに使用されるデータセットを公開している。 この作品はこの種の作品としては初めてであり、有効性を示すために利用可能なベースラインと比較されている。

Data is growing rapidly in volume and complexity. Proficiency in database query languages is pivotal for crafting effective queries. As coding assistants become more prevalent, there is significant opportunity to enhance database query languages. The Kusto Query Language (KQL) is a widely used query language for large semi-structured data such as logs, telemetries, and time-series for big data analytics platforms. This paper introduces NL2KQL an innovative framework that uses large language models (LLMs) to convert natural language queries (NLQs) to KQL queries. The proposed NL2KQL framework includes several key components: Schema Refiner which narrows down the schema to its most pertinent elements; the Few-shot Selector which dynamically selects relevant examples from a few-shot dataset; and the Query Refiner which repairs syntactic and semantic errors in KQL queries. Additionally, this study outlines a method for generating large datasets of synthetic NLQ-KQL pairs which are valid within a specific database contexts. To validate NL2KQL's performance, we utilize an array of online (based on query execution) and offline (based on query parsing) metrics. Through ablation studies, the significance of each framework component is examined, and the datasets used for benchmarking are made publicly available. This work is the first of its kind and is compared with available baselines to demonstrate its effectiveness.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-15
# 交通ネットワーク設計のための学習ヒューリスティックスと深層強化学習による改善

Learning Heuristics for Transit Network Design and Improvement with Deep Reinforcement Learning ( http://arxiv.org/abs/2404.05894v2 )

ライセンス: Link先を確認
Andrew Holliday, Ahmed El-Geneidy, Gregory Dudek, (参考訳) 世界各国の交通機関は予算の強化に直面している。 コスト削減を図りながらサービス品質を維持するためには,効率的なトランジットネットワーク設計が不可欠である。 しかし、公共交通機関のネットワークを計画することは、難しい最適化問題である。 現在最も成功したアプローチは、ネットワーク内のルートをランダムに変更する低レベルのヒューリスティックを適用することで、トランスポートネットワークの空間を探索するためにメタヒューリスティックアルゴリズムを使用する。 これらの低レベルのヒューリスティックの設計は、結果の質に大きな影響を及ぼす。 本稿では,グラフニューラルネットを用いた深層強化学習を用いて,手動で設計する代わりに,進化的アルゴリズムの低レベルヒューリスティックスを学習する。 これらの学習したヒューリスティックスは、70ノード以上のベンチマーク合成都市におけるアルゴリズムの結果を改善し、運用コストを最適化する際の最先端の結果を得る。 また、カナダのラヴァル市における実際の交通ネットワークのシミュレーションを、二つの重要な指標で最大54%と18%改善し、既存の交通ネットワークよりも最大12%のコスト削減を提供する。

Transit agencies world-wide face tightening budgets. To maintain quality of service while cutting costs, efficient transit network design is essential. But planning a network of public transit routes is a challenging optimization problem. The most successful approaches to date use metaheuristic algorithms to search through the space of possible transit networks by applying low-level heuristics that randomly alter routes in a network. The design of these low-level heuristics has a major impact on the quality of the result. In this paper we use deep reinforcement learning with graph neural nets to learn low-level heuristics for an evolutionary algorithm, instead of designing them manually. These learned heuristics improve the algorithm's results on benchmark synthetic cities with 70 nodes or more, and obtain state-of-the-art results when optimizing operating costs. They also improve upon a simulation of the real transit network in the city of Laval, Canada, by as much as 54% and 18% on two key metrics, and offer cost savings of up to 12% over the city's existing transit network.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations

Benchmarking Llama2, Mistral, Gemma and GPT for Factuality, Toxicity, Bias and Propensity for Hallucinations ( http://arxiv.org/abs/2404.09785v1 )

ライセンス: Link先を確認
David Nadeau, Mike Kroutikov, Karen McNeil, Simon Baribeau, (参考訳) 本稿では,エンタープライズタスクの文脈における大規模言語モデルの安全性評価のための新しい14のデータセットを紹介する。 モデルの安全性を評価するために考案された手法は、指示に従う能力と、事実、偏見のない、根拠のない、適切なコンテンツを出力する能力によって決定される。 本研究では,OpenAI GPTをあらゆるレベルの安全性に優れており,比較点として用いた。 オープンソース側では、より小さなモデルでは、Meta Llama2は実効性と毒性が良いが、幻覚の確率が最も高い。 ミストラールは最小限の幻覚を与えるが、毒性をうまく扱えない。 狭い垂直領域において、いくつかのタスクと安全ベクトルを混合したデータセットでうまく機能する。 Google Geminiをベースとした新しいオープンソースモデルであるGemmaは、一般的にバランスを取っているが、後を追っている。 バック・アンド・フォースな会話(マルチ・ターンのプロンプト)を行う場合、オープンソースモデルの安全性は著しく低下する。 OpenAIのGPTとは別に、マルチターンテストでまだうまく機能しているモデルはMistralのみである。

This paper introduces fourteen novel datasets for the evaluation of Large Language Models' safety in the context of enterprise tasks. A method was devised to evaluate a model's safety, as determined by its ability to follow instructions and output factual, unbiased, grounded, and appropriate content. In this research, we used OpenAI GPT as point of comparison since it excels at all levels of safety. On the open-source side, for smaller models, Meta Llama2 performs well at factuality and toxicity but has the highest propensity for hallucination. Mistral hallucinates the least but cannot handle toxicity well. It performs well in a dataset mixing several tasks and safety vectors in a narrow vertical domain. Gemma, the newly introduced open-source model based on Google Gemini, is generally balanced but trailing behind. When engaging in back-and-forth conversation (multi-turn prompts), we find that the safety of open-source models degrades significantly. Aside from OpenAI's GPT, Mistral is the only model that still performed well in multi-turn tests.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# 形状算術的表現:閉形式方程式を超えて科学的発見を促進する

Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations ( http://arxiv.org/abs/2404.09788v1 )

ライセンス: Link先を確認
Krzysztof Kacprzyk, Mihaela van der Schaar, (参考訳) シンボリック回帰は物理学、化学、生物学、関連する分野から方程式を明らかにするのに優れている。 しかし, 固有閉形式表現を欠いた実験データに適用した場合, その有効性は低下する。 ストレス-ひずみ曲線全体のような経験論的に導かれた関係は、簡潔な閉形式表現を無視する可能性があり、柔軟性と解釈可能性のバランスをとるより適応的なモデリングアプローチを探求する。 一般付加モデル(Generalized Additive Models, GAMs)は、様々な領域にまたがる汎用性で広く使われているモデルのクラスである。 GAMは変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。 本研究では,これら2つの課題を考察し,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用とを融合させる新しいモデルである形状算術表現(Shape Arithmetic Expressions, SHAREs)を提案する。 SHAREは、これらの2つのアプローチの統一フレームワークも提供します。 また、SHAREを構築するための一連のルールを設計し、モデルのサイズに基づいた標準制約を超えて、見いだされた表現の透明性を保証する。

Symbolic regression has excelled in uncovering equations from physics, chemistry, biology, and related disciplines. However, its effectiveness becomes less certain when applied to experimental data lacking inherent closed-form expressions. Empirically derived relationships, such as entire stress-strain curves, may defy concise closed-form representation, compelling us to explore more adaptive modeling approaches that balance flexibility with interpretability. In our pursuit, we turn to Generalized Additive Models (GAMs), a widely used class of models known for their versatility across various domains. Although GAMs can capture non-linear relationships between variables and targets, they cannot capture intricate feature interactions. In this work, we investigate both of these challenges and propose a novel class of models, Shape Arithmetic Expressions (SHAREs), that fuses GAM's flexible shape functions with the complex feature interactions found in mathematical expressions. SHAREs also provide a unifying framework for both of these approaches. We also design a set of rules for constructing SHAREs that guarantee transparency of the found expressions beyond the standard constraints based on the model's size.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# LLMとXR時代のソフトウェア開発

Software development in the age of LLMs and XR ( http://arxiv.org/abs/2404.09789v1 )

ライセンス: Link先を確認
Jesus M. Gonzalez-Barahona, (参考訳) 数年のうちに、生成的AIがソフトウェア開発を劇的に変え、ほとんどのプログラミングタスクを担っていると想像してみましょう。 また、拡張現実のデバイスがユビキタスになり、コンピュータとの対話に好まれるインターフェースになったと仮定してみましょう。 本稿では、開発プロセスがどのように影響を受けるのかを探求し、開発者を支援するためにどのツールが必要なのかを分析することによって、この状況がIDEにどのように影響するかを提案する。

Let's imagine that in a few years generative AI has changed software development dramatically, taking charge of most of the programming tasks. Let's also assume that extended reality devices became ubiquitous, being the preferred interface for interacting with computers. This paper proposes how this situation would impact IDEs, by exploring how the development process would be affected, and analyzing which tools would be needed for supporting developers.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# NTIRE 2024 Challenge on Image Super-Resolution (\times$4): Methods and Results

NTIRE 2024 Challenge on Image Super-Resolution ($\times$4): Methods and Results ( http://arxiv.org/abs/2404.09790v1 )

ライセンス: Link先を確認
Zheng Chen, Zongwei Wu, Eduard Zamfir, Kai Zhang, Yulun Zhang, Radu Timofte, Xiaokang Yang, Hongyuan Yu, Cheng Wan, Yuxin Hong, Zhijuan Huang, Yajun Zou, Yuan Huang, Jiamin Lin, Bingnan Han, Xianyu Guan, Yongsheng Yu, Daoan Zhang, Xuanwu Yin, Kunlong Zuo, Jinhua Hao, Kai Zhao, Kun Yuan, Ming Sun, Chao Zhou, Hongyu An, Xinfeng Zhang, Zhiyuan Song, Ziyue Dong, Qing Zhao, Xiaogang Xu, Pengxu Wei, Zhi-chao Dou, Gui-ling Wang, Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, Cansu Korkmaz, A. Murat Tekalp, Yubin Wei, Xiaole Yan, Binren Li, Haonan Chen, Siqi Zhang, Sihan Chen, Amogh Joshi, Nikhil Akalwadi, Sampada Malagi, Palani Yashaswini, Chaitra Desai, Ramesh Ashok Tabib, Ujwala Patil, Uma Mudenagudi, Anjali Sarvaiya, Pooja Choksy, Jagrit Joshi, Shubh Kawa, Kishor Upla, Sushrut Patwardhan, Raghavendra Ramachandra, Sadat Hossain, Geongi Park, S. M. Nadim Uddin, Hao Xu, Yanhui Guo, Aman Urumbekov, Xingzhuo Yan, Wei Hao, Minghan Fu, Isaac Orais, Samuel Smith, Ying Liu, Wangwang Jia, Qisheng Xu, Kele Xu, Weijun Yuan, Zhan Li, Wenqin Kuang, Ruijin Guan, Ruting Deng, Zhao Zhang, Bo Wang, Suiyi Zhao, Yan Luo, Yanyan Wei, Asif Hussain Khan, Christian Micheloni, Niki Martinel, (参考訳) 本稿では,NTIRE 2024による画像超解像(4ドル)の課題を概観し,提案した解決策と得られた結果について述べる。 この課題は、先行情報を用いた低解像度(LR)入力から、対応する高解像度(HR)画像を4倍に拡大することである。 LR画像はバイコビックダウンサンプリング劣化に由来する。 この課題の目的は、計算資源(例えば、モデルサイズやFLOP)やトレーニングデータに制約を加えることなく、最も高度なSR性能を持つ設計/解決を得ることである。 この課題のトラックは、DIV2Kテストデータセット上でPSNRメトリックを使用してパフォーマンスを評価する。 この競技会には199人の登録者が参加し、20チームが有効なエントリーを提出した。 この集合的な取り組みは、シングルイメージSRにおけるパフォーマンスの境界を押し上げるだけでなく、この分野における現在のトレンドの包括的概要も提供する。

This paper reviews the NTIRE 2024 challenge on image super-resolution ($\times$4), highlighting the solutions proposed and the outcomes obtained. The challenge involves generating corresponding high-resolution (HR) images, magnified by a factor of four, from low-resolution (LR) inputs using prior information. The LR images originate from bicubic downsampling degradation. The aim of the challenge is to obtain designs/solutions with the most advanced SR performance, with no constraints on computational resources (e.g., model size and FLOPs) or training data. The track of this challenge assesses performance with the PSNR metric on the DIV2K testing dataset. The competition attracted 199 registrants, with 20 teams submitting valid entries. This collective endeavour not only pushes the boundaries of performance in single-image SR but also offers a comprehensive overview of current trends in this field.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# 物理インフォームドニューラルネットワークのトレーニング過程を改善するためのヘルムホルツ方程式のテーパーに基づく散乱定式化

Taper-based scattering formulation of the Helmholtz equation to improve the training process of Physics-Informed Neural Networks ( http://arxiv.org/abs/2404.09794v1 )

ライセンス: Link先を確認
W. Dörfler, M. Elasmi, T. Laufer, (参考訳) 本研究は,2つの半無限導波路を接続する接合部における入射波の散乱問題に対処する。 他のディープラーニングベースのアプローチと同様に、PINNはスペクトルバイアスとヘルムホルツ方程式の双曲的性質に悩まされていることが知られている。 これにより、特に高い波数に対して、トレーニングプロセスが困難になる。 これらの制限が存在する例を示す。 本モデルの学習能力を向上させるため,本モデルでは,全波を入力波と残りの散乱波のテーパ状連続に分割したHelmholtz境界値問題(BVP)の等価な定式化を提案する。 これにより、BVPに不均一性を導入し、バックプロパゲーション時に送信される情報を活用し、PINNモデルのトレーニングプロセスの強化と加速を可能にします。 提案する数値図面は, 予測された挙動に応じて, PINNを用いて散乱問題を予測するための代替手法を提案する。

This work addresses the scattering problem of an incident wave at a junction connecting two semi-infinite waveguides, which we intend to solve using Physics-Informed Neural Networks (PINNs). As with other deep learning-based approaches, PINNs are known to suffer from a spectral bias and from the hyperbolic nature of the Helmholtz equation. This makes the training process challenging, especially for higher wave numbers. We show an example where these limitations are present. In order to improve the learning capability of our model, we suggest an equivalent formulation of the Helmholtz Boundary Value Problem (BVP) that is based on splitting the total wave into a tapered continuation of the incoming wave and a remaining scattered wave. This allows the introduction of an inhomogeneity in the BVP, leveraging the information transmitted during back-propagation, thus, enhancing and accelerating the training process of our PINN model. The presented numerical illustrations are in accordance with the expected behavior, paving the way to a possible alternative approach to predicting scattering problems using PINNs.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# TextCoT:マルチモーダルテキストリッチ画像理解のためのZoomイン

TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding ( http://arxiv.org/abs/2404.09797v1 )

ライセンス: Link先を確認
Bozhi Luan, Hao Feng, Hong Chen, Yonghui Wang, Wengang Zhou, Houqiang Li, (参考訳) 大規模マルチモーダルモデル(LMM)の出現は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。 しかし、テキストリッチな画像を理解するためには、LMMの可能性を十分に活用することが課題であり、既存の手法は高解像度画像を効果的に処理するのに苦労している。 本研究では,テキストリッチ画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。 TextCoTは、LMMのキャプション機能を利用して画像のグローバルなコンテキストを把握し、グラウンド機能を使って局所的なテキスト領域を調べる。 これにより、グローバルとローカルの両方の視覚情報を抽出し、より正確な質問回答を容易にすることができる。 技術的には、TextCoTは画像概要、粗いローカライゼーション、きめ細かい観察を含む3つのステージで構成されている。 画像概要ステージは、グローバルシーン情報の総合的な理解を提供し、粗いローカライゼーションステージは、質問された質問に基づいて、回答を含む画像領域を近似する。 そして、得られたグローバルな画像記述を統合することで、最終段階はさらに特定の領域を調べ、正確な回答を提供する。 我々の方法は追加の訓練が不要で、即時プラグアンドプレイ機能を提供します。 複数の高度なLMMをベースとしたテキストリッチな画像質問答えベンチマークデータセットを用いて大規模な実験を行い、本手法の有効性と強力な一般化能力を実証した。 コードはhttps://github.com/bzluan/TextCoT.comで入手できる。

The advent of Large Multimodal Models (LMMs) has sparked a surge in research aimed at harnessing their remarkable reasoning abilities. However, for understanding text-rich images, challenges persist in fully leveraging the potential of LMMs, and existing methods struggle with effectively processing high-resolution images. In this work, we propose TextCoT, a novel Chain-of-Thought framework for text-rich image understanding. TextCoT utilizes the captioning ability of LMMs to grasp the global context of the image and the grounding capability to examine local textual regions. This allows for the extraction of both global and local visual information, facilitating more accurate question-answering. Technically, TextCoT consists of three stages, including image overview, coarse localization, and fine-grained observation. The image overview stage provides a comprehensive understanding of the global scene information, and the coarse localization stage approximates the image area containing the answer based on the question asked. Then, integrating the obtained global image descriptions, the final stage further examines specific regions to provide accurate answers. Our method is free of extra training, offering immediate plug-and-play functionality. Extensive experiments are conducted on a series of text-rich image question-answering benchmark datasets based on several advanced LMMs, and the results demonstrate the effectiveness and strong generalization ability of our method. Code is available at https://github.com/bzluan/TextCoT.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# URLの文脈特徴を用いたフィッシングサイト検出における逐次深層学習モデルの性能

The Performance of Sequential Deep Learning Models in Detecting Phishing Websites Using Contextual Features of URLs ( http://arxiv.org/abs/2404.09802v1 )

ライセンス: Link先を確認
Saroj Gopali, Akbar S. Namin, Faranak Abri, Keith S. Jones, (参考訳) サイバー攻撃は個人や組織に重大な脅威を与え、個人を特定する情報、財務情報、ログイン情報などの機密データを盗み続けている。 したがって、悪質なWebサイトを悪用する前に検出することは、詐欺や金銭的損失を防ぐために重要である。 フィッシング攻撃の増加に対処するためには、保護機構は高い応答性、適応性、スケーラブルでなければならない。 幸いなことに、機械学習の分野の進歩と大量のデータへのアクセスは、これらのサイバー犯罪をタイムリーに検出するための様々なディープラーニングモデルの導入につながった。 本研究では,フィッシングサイトのURLをシーケンスとして扱う,マルチヘッドアテンション,テンポラル畳み込みネットワーク(TCN),BI-LSTM,LSTMといったディープラーニングモデルを用いたフィッシングサイトの検出に焦点を当てた。 その結果,マルチヘッド注意モデルとBI-LSTMモデルは,TCNやLSTMといった他の深層学習に基づくアルゴリズムよりも優れた精度,リコール,F1スコアを生成することがわかった。

Cyber attacks continue to pose significant threats to individuals and organizations, stealing sensitive data such as personally identifiable information, financial information, and login credentials. Hence, detecting malicious websites before they cause any harm is critical to preventing fraud and monetary loss. To address the increasing number of phishing attacks, protective mechanisms must be highly responsive, adaptive, and scalable. Fortunately, advances in the field of machine learning, coupled with access to vast amounts of data, have led to the adoption of various deep learning models for timely detection of these cyber crimes. This study focuses on the detection of phishing websites using deep learning models such as Multi-Head Attention, Temporal Convolutional Network (TCN), BI-LSTM, and LSTM where URLs of the phishing websites are treated as a sequence. The results demonstrate that Multi-Head Attention and BI-LSTM model outperform some other deep learning-based algorithms such as TCN and LSTM in producing better precision, recall, and F1-scores.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# スポーツ用カメラキャリブレーションベンチマークのためのユニバーサルプロトコル

A Universal Protocol to Benchmark Camera Calibration for Sports ( http://arxiv.org/abs/2404.09807v1 )

ライセンス: Link先を確認
Floriane Magera, Thomas Hoyoux, Olivier Barnich, Marc Van Droogenbroeck, (参考訳) カメラキャリブレーションはスポーツ分析の領域において重要な要素であり、放送画像から3D情報を抽出する基盤となっている。 スポーツ分析におけるカメラキャリブレーション研究の重要性にもかかわらず、進歩は時代遅れのベンチマーク基準によって妨げられている。 実際、現在利用可能なほとんどのベンチマークで提供されるアノテーションデータと評価指標は、スポーツフィールドの登録方法、すなわち、スポーツフィールドの平面をイメージプレーンにマッピングするホモグラフを推定する手法の開発を強く支持し、引用している。 しかし、このようなホモグラフィーに基づく手法は、画像に3D世界をブリッジする際のカメラキャリブレーションの幅広い能力を見落としている。 特に、実世界の非平面フィールド要素(ゴール、コーナーフラッグ、バスケット、...)と放送カメラレンズによる画像歪みは、スポーツフィールド登録方法の範囲外である。 これらの制約を克服するために,我々は,(1)カメラキャリブレーション法に選択されたカメラモデルに依存しない新しいベンチマークプロトコル ProCC を設計し,(2) 任意の正確な3Dオブジェクトの再投影によるカメラキャリブレーション手法を適切に評価する。 間接的に3Dオブジェクトのイメージアノテーションデータのみを根拠として,我々のプロトコルを実装したサッカーネット校正におけるメトリクスの洞察も提供する。 ワールドカップ2014、CARWC、サッカーネットのデータセットの実験により、我々のベンチマークプロトコルは、カメラキャリブレーション手法をより公平に評価できることが示されている。 適切なベンチマークの要件を定義することで、高い精度のスポーツアプリケーションのためのカメラキャリブレーションの新たなステージを開拓したいと考えています。

Camera calibration is a crucial component in the realm of sports analytics, as it serves as the foundation to extract 3D information out of the broadcast images. Despite the significance of camera calibration research in sports analytics, progress is impeded by outdated benchmarking criteria. Indeed, the annotation data and evaluation metrics provided by most currently available benchmarks strongly favor and incite the development of sports field registration methods, i.e. methods estimating homographies that map the sports field plane to the image plane. However, such homography-based methods are doomed to overlook the broader capabilities of camera calibration in bridging the 3D world to the image. In particular, real-world non-planar sports field elements (such as goals, corner flags, baskets, ...) and image distortion caused by broadcast camera lenses are out of the scope of sports field registration methods. To overcome these limitations, we designed a new benchmarking protocol, named ProCC, based on two principles: (1) the protocol should be agnostic to the camera model chosen for a camera calibration method, and (2) the protocol should fairly evaluate camera calibration methods using the reprojection of arbitrary yet accurately known 3D objects. Indirectly, we also provide insights into the metric used in SoccerNet-calibration, which solely relies on image annotation data of viewed 3D objects as ground truth, thus implementing our protocol. With experiments on the World Cup 2014, CARWC, and SoccerNet datasets, we show that our benchmarking protocol provides fairer evaluations of camera calibration methods. By defining our requirements for proper benchmarking, we hope to pave the way for a new stage in camera calibration for sports applications with high accuracy standards.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# グラフ上での表現学習改善のための近隣レベルのメッセージインタラクション符号化

Neighbour-level Message Interaction Encoding for Improved Representation Learning on Graphs ( http://arxiv.org/abs/2404.09809v1 )

ライセンス: Link先を確認
Haimin Zhang, Min Xu, (参考訳) メッセージパッシングはグラフ表現学習において支配的なフレームワークとなっている。 メッセージパッシングフレームワークの基本的な考え方は、近隣地域から収集された情報に基づいてノードの埋め込みを更新することである。 しかし、既存のアグリゲーション手法の多くは、アグリゲーションされたメッセージに近隣レベルのメッセージインタラクションをエンコードしていないため、埋め込み生成で失われる。 そして、失われたこれらの情報は蓄積され、より多くのレイヤがグラフネットワークモデルに追加されるにつれて、より深刻になる可能性がある。 この問題に対処するために,グラフ表現学習を改善するための近隣レベルのメッセージインタラクション情報符号化手法を提案する。 ノードに集約されたメッセージに対して、エンコード関数を使用して各メッセージと他のメッセージの間のエンコードを明示的に生成する。 次に、これらの学習されたエンコーディングを集約し、集約されたエンコーディングと集約されたメッセージの総和を取り、ノードの埋め込みを更新する。 このようにして、近隣レベルのメッセージインタラクション情報を生成されたノード埋め込みに統合する。 提案手法は,メッセージパスグラフ畳み込みネットワークに統合可能な汎用手法である。 大規模な実験は、4つの高要求タスクにわたる6つの人気のあるベンチマークデータセットで実施されている。 その結果, 近接レベルメッセージインタラクションの統合により, 基礎モデルの性能が向上し, グラフ上での表現学習の最先端化が図られた。

Message passing has become the dominant framework in graph representation learning. The essential idea of the message-passing framework is to update node embeddings based on the information aggregated from local neighbours. However, most existing aggregation methods have not encoded neighbour-level message interactions into the aggregated message, resulting in an information lost in embedding generation. And this information lost could be accumulated and become more serious as more layers are added to the graph network model. To address this issue, we propose a neighbour-level message interaction information encoding method for improving graph representation learning. For messages that are aggregated at a node, we explicitly generate an encoding between each message and the rest messages using an encoding function. Then we aggregate these learned encodings and take the sum of the aggregated encoding and the aggregated message to update the embedding for the node. By this way, neighbour-level message interaction information is integrated into the generated node embeddings. The proposed encoding method is a generic method which can be integrated into message-passing graph convolutional networks. Extensive experiments are conducted on six popular benchmark datasets across four highly-demanded tasks. The results show that integrating neighbour-level message interactions achieves improved performance of the base models, advancing the state of the art results for representation learning over graphs.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# グラフニューラルネットワークを用いた木含量問題の解法

Solving the Tree Containment Problem Using Graph Neural Networks ( http://arxiv.org/abs/2404.09812v1 )

ライセンス: Link先を確認
Arkadiy Dushatskiy, Esther Julien, Leo van Iersel, Leen Stougie, (参考訳) 木含量は、特定の種の進化の歴史を表す、提案された系統ネットワークを検証するのに有用な系統学の基本的な問題である。 Tree Containmentは、与えられた系統樹(例えば、木のような進化を示すDNA断片から作られる)が与えられた系統網に含まれるかどうかを問う。 一般の場合、これはNP完全問題である。 本稿では,グラフニューラルネットワークを用いて大まかに解くことを提案する。 特に、与えられたネットワークとツリーを組み合わせて、このネットワークツリーグラフにグラフニューラルネットワークを適用することを提案する。 このようにして、トレーニングデータセットに含まれるインスタンス(つまり、我々のアルゴリズムは帰納的学習能力を持つ)よりも多くの種を表わすツリー封じ込めのインスタンスを解くことができる。 本アルゴリズムは,最大100個の葉を持つ場合の樹木封じ込め問題の解法において,9,5 %以上の精度を示す。

Tree Containment is a fundamental problem in phylogenetics useful for verifying a proposed phylogenetic network, representing the evolutionary history of certain species. Tree Containment asks whether the given phylogenetic tree (for instance, constructed from a DNA fragment showing tree-like evolution) is contained in the given phylogenetic network. In the general case, this is an NP-complete problem. We propose to solve it approximately using Graph Neural Networks. In particular, we propose to combine the given network and the tree and apply a Graph Neural Network to this network-tree graph. This way, we achieve the capability of solving the tree containment instances representing a larger number of species than the instances contained in the training dataset (i.e., our algorithm has the inductive learning ability). Our algorithm demonstrates an accuracy of over $95\%$ in solving the tree containment problem on instances with up to 100 leaves.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# FedP3:フェデレートされたパーソナライズされたプライバシフレンドリーなネットワーク

FedP3: Federated Personalized and Privacy-friendly Network Pruning under Model Heterogeneity ( http://arxiv.org/abs/2404.09816v1 )

ライセンス: Link先を確認
Kai Yi, Nidham Gazagnadou, Peter Richtárik, Lingjuan Lyu, (参考訳) フェデレートラーニングへの関心は、各クライアントがローカルに保持するプライバシー保護情報を用いてグローバルモデルをトレーニングするユニークな能力によって、近年急速に高まっている。 本稿では,複雑性を増大させるFLの実装において,クライアント側モデルの不均一性の問題に特に注目する。 各クライアントが様々なメモリストレージ、処理能力、ネットワーク帯域幅を持つシナリオ(システム不均一性と呼ばれる現象)を仮定すると、各クライアントにユニークなモデルをカスタマイズする必要がある。 これに対応して、フェデレーションパーソナライズされたプライバシフレンドリーなネットワークプランニングを表現した、効果的で適応可能なフェデレーションフレームワークであるFedP3を提案する。 提案手法は, 確立した手法を具体例に取り入れ, 適用することができる。 我々は、FedP3とその局所微分プライベート変種DP-FedP3の理論解釈を提供し、それらの効率を理論的に検証する。

The interest in federated learning has surged in recent research due to its unique ability to train a global model using privacy-secured information held locally on each client. This paper pays particular attention to the issue of client-side model heterogeneity, a pervasive challenge in the practical implementation of FL that escalates its complexity. Assuming a scenario where each client possesses varied memory storage, processing capabilities and network bandwidth - a phenomenon referred to as system heterogeneity - there is a pressing need to customize a unique model for each client. In response to this, we present an effective and adaptable federated framework FedP3, representing Federated Personalized and Privacy-friendly network Pruning, tailored for model heterogeneity scenarios. Our proposed methodology can incorporate and adapt well-established techniques to its specific instances. We offer a theoretical interpretation of FedP3 and its locally differential-private variant, DP-FedP3, and theoretically validate their efficiencies.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-15
# 2次元映像からの反復高密度UV画像からの3次元顔追跡

3D Face Tracking from 2D Video through Iterative Dense UV to Image Flow ( http://arxiv.org/abs/2404.09819v1 )

ライセンス: Link先を確認
Felix Taubner, Prashant Raina, Mathieu Tuli, Eu Wern Teh, Chul Lee, Jinmiao Huang, (参考訳) 3D顔データを扱う場合、忠実さを改善し、不気味な谷効果を避けることは、正確な3D顔のパフォーマンスキャプチャーに依存する。 このような手法は高価であり、2Dビデオが普及しているため、近年ではモノラルな3D顔追跡を行う方法に焦点が当てられている。 しかしながら、これらの手法は、ネットワークアーキテクチャ、トレーニング、評価プロセスの制限により、正確な顔の動きを捉えるのに不足することが多い。 これらの課題に対処するため、我々は、頂点ごとの高密度アライメントのための革新的な2次元アライメントネットワークを導入した、新しいフェイストラッカーであるFlowFaceを提案する。 以前の作業とは異なり、FlowFaceは、弱い監視や合成データではなく、高品質な3Dスキャンアノテーションでトレーニングされている。 我々の3Dモデルフィッティングモジュールは1つ以上の観測結果から3次元の顔モデルに合わさり、既存の中性形状を統合して、顔の特徴の詳細な再構築のためのアイデンティティと表現の歪み、頂点ごとの変形を増強する。 さらに,トラッキング精度を評価するための新しい指標とベンチマークを提案する。 本手法は,カスタムベンチマークと公開ベンチマークの両方において,優れた性能を示す。 さらに,2Dビデオから高品質な3Dデータを生成することで,下流タスクの性能向上につながるトラッカーの有効性を検証した。

When working with 3D facial data, improving fidelity and avoiding the uncanny valley effect is critically dependent on accurate 3D facial performance capture. Because such methods are expensive and due to the widespread availability of 2D videos, recent methods have focused on how to perform monocular 3D face tracking. However, these methods often fall short in capturing precise facial movements due to limitations in their network architecture, training, and evaluation processes. Addressing these challenges, we propose a novel face tracker, FlowFace, that introduces an innovative 2D alignment network for dense per-vertex alignment. Unlike prior work, FlowFace is trained on high-quality 3D scan annotations rather than weak supervision or synthetic data. Our 3D model fitting module jointly fits a 3D face model from one or many observations, integrating existing neutral shape priors for enhanced identity and expression disentanglement and per-vertex deformations for detailed facial feature reconstruction. Additionally, we propose a novel metric and benchmark for assessing tracking accuracy. Our method exhibits superior performance on both custom and publicly available benchmarks. We further validate the effectiveness of our tracker by generating high-quality 3D data from 2D videos, which leads to performance gains on downstream tasks.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# バイリプシッツ性の直接パラメータ化によるニューラルネットワークの感度の証明可能な制御

A provable control of sensitivity of neural networks through a direct parameterization of the overall bi-Lipschitzness ( http://arxiv.org/abs/2404.09821v1 )

ライセンス: Link先を確認
Yuri Kinoshita, Taro Toyoizumi, (参考訳) ニューラルネットワークは優れた柔軟性を享受し、前例のない性能を示すことができるが、その振る舞いの背後にあるメカニズムはまだ十分に理解されていない。 この根本的な課題に対処するために、研究者たちは、新しい洞察とより良いコントロールを得るために、いくつかの特性を制限し、操作しようと試みてきた。 特に、過去数年間の間、多くの領域において「emph{bi-Lipschitzness}」という概念は有益な帰納バイアスとして証明されてきた。 しかし、その複雑さのため、双Lipschitzアーキテクチャの設計と制御は遅れており、双Lipschitznessのために正確に設計されたモデルでは、固体理論的解析とともに定数の直接的かつ単純な制御が欠如している。 本研究では,凸型ニューラルネットワークとルジャンドル・フェンシェル双対性に基づく明瞭で厳密な制御を実現する,バイリプシッツ性のための新しいフレームワークについて検討し,提案する。 その望ましい性質は、具体的な実験で示される。 また、この枠組みを不確実性推定や単調な問題設定に適用し、その幅広い応用例を示す。

While neural networks can enjoy an outstanding flexibility and exhibit unprecedented performance, the mechanism behind their behavior is still not well-understood. To tackle this fundamental challenge, researchers have tried to restrict and manipulate some of their properties in order to gain new insights and better control on them. Especially, throughout the past few years, the concept of \emph{bi-Lipschitzness} has been proved as a beneficial inductive bias in many areas. However, due to its complexity, the design and control of bi-Lipschitz architectures are falling behind, and a model that is precisely designed for bi-Lipschitzness realizing a direct and simple control of the constants along with solid theoretical analysis is lacking. In this work, we investigate and propose a novel framework for bi-Lipschitzness that can achieve such a clear and tight control based on convex neural networks and the Legendre-Fenchel duality. Its desirable properties are illustrated with concrete experiments. We also apply this framework to uncertainty estimation and monotone problem settings to illustrate its broad range of applications.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 予測雑音が生成言語モデルのアライメント性能に及ぼす影響

Impact of Preference Noise on the Alignment Performance of Generative Language Models ( http://arxiv.org/abs/2404.09824v1 )

ライセンス: Link先を確認
Yang Gao, Dana Alon, Donald Metzler, (参考訳) ジェネレーティブ言語モデル(GLM)の開発における重要な要件は、その価値を人間の価値と整合させることである。 優先順位に基づくアライメントは、この目的のために広く使われているパラダイムであり、生成ペアよりも優先権は、まず人間のアノテータやAIシステムから引き起こされ、それから直接優先度最適化(Direct Preference Optimization)などのアライメント技術に供給される。 しかし、GLMアライメントで使用される選好ペアのかなりの割合(20~40%)はノイズであり、そのノイズがアライメント性能にどう影響するか、その負の影響を緩和するかは不明である。 本稿では,2つのタスクのアライメント性能(要約と対話生成)に対する選好雑音の影響を系統的に研究する。 例えば、ノイズ率の10パーセント(pp)増加はアライメント性能を30pp低下させる(勝利率)。 ノイズの影響を軽減するため、信頼度に基づくデータフィルタリングは特定のノイズが存在する場合に大きな利点を示す。 私たちは、GLMアライメントにおける嗜好ノイズの影響をコミュニティがより深く理解し緩和するのに役立つことを願っています。

A key requirement in developing Generative Language Models (GLMs) is to have their values aligned with human values. Preference-based alignment is a widely used paradigm for this purpose, in which preferences over generation pairs are first elicited from human annotators or AI systems, and then fed into some alignment techniques, e.g., Direct Preference Optimization. However, a substantial percent (20 - 40%) of the preference pairs used in GLM alignment are noisy, and it remains unclear how the noise affects the alignment performance and how to mitigate its negative impact. In this paper, we propose a framework to inject desirable amounts and types of noise to the preferences, and systematically study the impact of preference noise on the alignment performance in two tasks (summarization and dialogue generation). We find that the alignment performance can be highly sensitive to the noise rates in the preference data: e.g., a 10 percentage points (pp) increase of the noise rate can lead to 30 pp drop in the alignment performance (in win rate). To mitigate the impact of noise, confidence-based data filtering shows significant benefit when certain types of noise are present. We hope our work can help the community better understand and mitigate the impact of preference noise in GLM alignment.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# CAC--モザイクに基づくクラス非依存カウント改善のための一般化損失--

A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting ( http://arxiv.org/abs/2404.09826v1 )

ライセンス: Link先を確認
Tsung-Han Chou, Brian Wang, Wei-Chen Chiu, Jun-Cheng Chen, (参考訳) CAC(Class Agnostic counting)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚タスクである。 このタスクは通常、参照オブジェクトとクエリイメージの少数の画像サンプル間の類似性計算によって密度マップ推定問題として定式化される。 本稿では,既存のCACフレームワークの深刻な問題点を指摘する: マルチクラス設定の場合,モデルは参照イメージを考慮せず,クエリイメージ内のすべての支配的オブジェクトと盲目的に一致させる。 さらに、現在の評価指標とデータセットは、モデルの一般化性能と堅牢性を忠実に評価するために使用できません。 この結果から, CACモデルにおけるモザイク増減と一般化損失の組合せは, 参照によらず多数(すなわち支配的対象)のオブジェクトを数えるのに不可欠であることが判明した。 さらに,既存のCAC評価手法の裏側にある問題を解決するための新しい評価プロトコルとメトリクスを導入し,より公平にCACモデルをベンチマークする手法を提案する。 さらに,提案手法によって異なるCACモデルの性能を継続的に向上できることを示す。 コードは受理時にリリースされます。

Class agnostic counting (CAC) is a vision task that can be used to count the total occurrence number of any given reference objects in the query image. The task is usually formulated as a density map estimation problem through similarity computation among a few image samples of the reference object and the query image. In this paper, we point out a severe issue of the existing CAC framework: Given a multi-class setting, models don't consider reference images and instead blindly match all dominant objects in the query image. Moreover, the current evaluation metrics and dataset cannot be used to faithfully assess the model's generalization performance and robustness. To this end, we discover that the combination of mosaic augmentation with generalized loss is essential for addressing the aforementioned issue of CAC models to count objects of majority (i.e. dominant objects) regardless of the references. Furthermore, we introduce a new evaluation protocol and metrics for resolving the problem behind the existing CAC evaluation scheme and better benchmarking CAC models in a more fair manner. Besides, extensive evaluation results demonstrate that our proposed recipe can consistently improve the performance of different CAC models. The code will be released upon acceptance.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 説明としてのインタラクション: 画像分類モデルの記述のためのユーザインタラクションに基づく方法

Interaction as Explanation: A User Interaction-based Method for Explaining Image Classification Models ( http://arxiv.org/abs/2404.09828v1 )

ライセンス: Link先を確認
Hyeonggeun Yun, (参考訳) コンピュータビジョンにおいて、説明可能なAI(xAI)手法は、ディープラーニングモデルの意思決定プロセスをより解釈可能で透明にすることで、"ブラックボックス"問題を緩和しようとする。 従来のxAI手法は、モデル予測に影響を与える入力特徴を可視化することに集中しており、主に専門家に適した洞察を提供する。 本研究では,画像分類モデルのユーザ理解を深める対話型xAI手法を提案する。 そこで我々は,ユーザが絵や消去によって画像を修正できるWebベースのプロトタイプを開発し,分類結果の変化を観察した。 我々のアプローチは、ユーザーがモデルの意思決定プロセスに影響を及ぼす重要な特徴を識別し、メンタルモデルをモデルの論理と整合させることを可能にします。 5枚の画像を用いて行った実験は,ユーザインタラクションによる特徴の重要度を明らかにする手法の可能性を示した。 私たちの研究は、エンドユーザのエンゲージメントと理解に集中し、AIシステムにおいてより直感的でアクセスしやすい説明可能性を実現することによって、xAIに新たな視点をもたらします。

In computer vision, explainable AI (xAI) methods seek to mitigate the 'black-box' problem by making the decision-making process of deep learning models more interpretable and transparent. Traditional xAI methods concentrate on visualizing input features that influence model predictions, providing insights primarily suited for experts. In this work, we present an interaction-based xAI method that enhances user comprehension of image classification models through their interaction. Thus, we developed a web-based prototype allowing users to modify images via painting and erasing, thereby observing changes in classification results. Our approach enables users to discern critical features influencing the model's decision-making process, aligning their mental models with the model's logic. Experiments conducted with five images demonstrate the potential of the method to reveal feature importance through user interaction. Our work contributes a novel perspective to xAI by centering on end-user engagement and understanding, paving the way for more intuitive and accessible explainability in AI systems.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 巨大エミッタ対を持つ非線形キラル量子光学

Nonlinear chiral quantum optics with giant-emitter pairs ( http://arxiv.org/abs/2404.09829v1 )

ライセンス: Link先を確認
Xin Wang, Jia-Qi Li, Zhihai Wang, Anton Frisk Kockum, Lei Du, Tao Liu, Franco Nori, (参考訳) 本稿では,巨大エミッタ(波長距離で分離された複数点の光と結合する)と非線形量子光学とその相関光子を組み合わせたセットアップを提案する。 本研究では、2つの強い相関を持つ光子の質量中心の伝搬相(ダビロン)と、2つの巨大光子の結合点に符号化された位相が、一方の伝播方向に完全に破壊的干渉し、他方の方向の放出を支持できる多光子キラル放出のメカニズムを明らかにする。 キラリティの度合いは結合の位相によって調整できる。 提案手法は指向性量子多体資源の提供が可能であり,'correlated flying qubits'' を持つカイラル量子ネットワークのビルディングブロックとして構成可能である。 本研究は, 非線形フォトニック浴に結合した巨大エミッタの干渉効果を利用して, 多光子伝播を調整し, 相関特性と多光子伝播のリッチな景観をめざすものである。

We propose a setup which combines giant emitters (coupling to light at multiple points separated by wavelength distances) with nonlinear quantum optics and its correlated photons. In this setup, we reveal a mechanism for multiphoton chiral emission: the propagation phase of the center of mass of two strongly correlated photons (a doublon), and the phases encoded in the coupling points of two giant emitters, can yield completely destructive interference in one propagation direction while supporting emission in the other direction. The degree of chirality can be tuned by the phases of the couplings. We show that the proposed setup can provide directional quantum many-body resources, and can be configured as a building block for a chiral quantum network with ``correlated flying qubits'', enabling distinct applications beyond linear chiral setups. Our findings point toward a rich landscape of tailoring multiphoton propagation and correlation properties by exploiting interference effects of giant emitters coupling to nonlinear photonic baths.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 統語的依存と意味的一貫性による否定的三重項抽出

Negation Triplet Extraction with Syntactic Dependency and Semantic Consistency ( http://arxiv.org/abs/2404.09830v1 )

ライセンス: Link先を確認
Yuchen Shi, Deqing Yang, Jingping Liu, Yanghua Xiao, Zongyu Wang, Huimin Xu, (参考訳) 否定理解のこれまでの研究は主に、下流のタスクにも重要な否定対象を特定することなく、否定キューの検出とスコープ解決に焦点を当てていた。 本稿では,否定的三重項抽出(NTE)タスクを提案する。 NTEを実現するために,多タスク学習フレームワークを用いた生成事前学習言語モデル(PLM) {of Encoder-Decoder architecture} に基づいて構築された,SSENEという新しい構文・セマンティック・エンハンスト・ネゲーション抽出モデルを考案した。 具体的には、ある文の構文依存ツリーをPLMエンコーダに組み込んで、否定対象、キュー、スコープの相関関係を検出する。 さらに、副タスク学習により、文と抽出された三重項間の意味的一貫性を確保する。 さらに,実世界プラットフォームであるMeituanのユーザレビューに基づいて,高品質な中国語データセットNegCommentを構築した。 我々のアブレーションとケーススタディは、このシナティクス情報を組み合わせることで、PLMが被検体とキュー間の遠距離依存を認識し、補助的なタスク学習がより意味的整合性のある否定三つ子を抽出するのに役立つことも示している。

Previous works of negation understanding mainly focus on negation cue detection and scope resolution, without identifying negation subject which is also significant to the downstream tasks. In this paper, we propose a new negation triplet extraction (NTE) task which aims to extract negation subject along with negation cue and scope. To achieve NTE, we devise a novel Syntax&Semantic-Enhanced Negation Extraction model, namely SSENE, which is built based on a generative pretrained language model (PLM) {of Encoder-Decoder architecture} with a multi-task learning framework. Specifically, the given sentence's syntactic dependency tree is incorporated into the PLM's encoder to discover the correlations between the negation subject, cue and scope. Moreover, the semantic consistency between the sentence and the extracted triplet is ensured by an auxiliary task learning. Furthermore, we have constructed a high-quality Chinese dataset NegComment based on the users' reviews from the real-world platform of Meituan, upon which our evaluations show that SSENE achieves the best NTE performance compared to the baselines. Our ablation and case studies also demonstrate that incorporating the syntactic information helps the PLM's recognize the distant dependency between the subject and cue, and the auxiliary task learning is helpful to extract the negation triplets with more semantic consistency.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 拡散モデルを用いた頑健な深度推定のためのコントラスト学習

Digging into contrastive learning for robust depth estimation with diffusion models ( http://arxiv.org/abs/2404.09831v1 )

ライセンス: Link先を確認
Jiyuan Wang, Chunyu Lin, Lang Nie, Kang Liao, Shuwei Shao, Yao Zhao, (参考訳) 近年, 拡散型深度推定法は, エレガントなデノナイジングパターンと有望な性能により, 広く注目を集めている。 しかし、雨や雪などの現実のシナリオでよく見られる悪条件下では、信頼できないのが普通である。 本稿では,複雑な環境における性能劣化を軽減するために,拡散モデルに適した独自のコントラスト学習モードを備えた,D4RDと呼ばれる新しい頑健な深度推定手法を提案する。 具体的には、知識蒸留の強みを対照的な学習に統合し、「真性」の対照的なスキームを構築する。 このスキームは前方拡散過程のサンプルノイズを自然参照として利用し、様々な場面で予測されたノイズをより安定かつ正確な最適化に向けて導く。 さらに、より汎用的な特徴や画像レベルを包含する雑音レベルトリニティを拡張し、マルチレベルコントラストを確立し、ネットワーク全体にわたって頑健な知覚の重荷を分散する。 複雑なシナリオに対処する前に、3つの単純かつ効果的な改善によりベースライン拡散モデルの安定性を高め、収束を容易にし、奥行きの外れを除去する。 大規模な実験により、D4RDは、合成汚職データセットや現実世界の気象条件に関する既存の最先端のソリューションを超越していることが示された。 D4RDのコードは、さらなる調査と採用のために利用可能になる予定である。

Recently, diffusion-based depth estimation methods have drawn widespread attention due to their elegant denoising patterns and promising performance. However, they are typically unreliable under adverse conditions prevalent in real-world scenarios, such as rainy, snowy, etc. In this paper, we propose a novel robust depth estimation method called D4RD, featuring a custom contrastive learning mode tailored for diffusion models to mitigate performance degradation in complex environments. Concretely, we integrate the strength of knowledge distillation into contrastive learning, building the `trinity' contrastive scheme. This scheme utilizes the sampled noise of the forward diffusion process as a natural reference, guiding the predicted noise in diverse scenes toward a more stable and precise optimum. Moreover, we extend noise-level trinity to encompass more generic feature and image levels, establishing a multi-level contrast to distribute the burden of robust perception across the overall network. Before addressing complex scenarios, we enhance the stability of the baseline diffusion model with three straightforward yet effective improvements, which facilitate convergence and remove depth outliers. Extensive experiments demonstrate that D4RD surpasses existing state-of-the-art solutions on synthetic corruption datasets and real-world weather conditions. The code for D4RD will be made available for further exploration and adoption.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 予算・ROI制約をもつ非実効オークションにおける非実効アルゴリズム

No-Regret Algorithms in non-Truthful Auctions with Budget and ROI Constraints ( http://arxiv.org/abs/2404.09832v1 )

ライセンス: Link先を確認
Gagan Aggarwal, Giannis Fikioris, Mingfei Zhao, (参考訳) 広告主はオンライン広告プラットフォーム上での広告キャンペーンを最適化するために自動入札を利用することが増えている。 自動化は広告主の目的を様々な制約、例えば平均ROIと予算制約に最適化する。 本稿では,プラットフォームが第1価格と第2価格のオークションを混在している場合に,ROIと予算制約に課される価値を最適化するオンライン自動入札アルゴリズムを設計する際の課題について検討する。 以下の確率的設定について考察する: それぞれのラウンドで販売されるアイテムがあります。 各ラウンドでは、購入者が入札を提出し、その商品を売るためにオークションが実施される。 おそらく予算とROIの制約によって、私たちは1人の買い手に焦点を当てています。 各ラウンドにおける未知の(結合した)分布から、買い手の価値と最も高い競争入札が引き出されると仮定する。 我々は,買い手の制約を満たす低信頼入札アルゴリズムを設計する。 我々のベンチマークは、値を入札にマップする最も可能なリプシッツ関数によって達成可能な客観的値である。 我々の主な結果は、最適なリプシッツ関数に関して、ほぼ最適の$\tilde O(\sqrt T)$後悔を保証する完全な情報フィードバックを持つアルゴリズムである。 我々の結果は幅広いオークションに当てはまり、特に第1と第2の価格のオークション(価格が第1と第2の価格の凸組合せである)の混合が顕著である。 さらに、当社の結果は、価値最大化バイヤーと準線形ユーティリティ最大化バイヤーの両方に当てはまる。 また,Bandit設定についても検討し,第1価格オークションの後悔点を$\Omega(T^{2/3})$以下で示し,全情報とBandit設定との間に大きな相違点を示す。 我々はまた、値分布が知られ、最も競争の激しい入札とは無関係であるときに、$\tilde O(T^{3/4})$ regret のアルゴリズムを設計する。

Advertisers increasingly use automated bidding to optimize their ad campaigns on online advertising platforms. Autobidding optimizes an advertiser's objective subject to various constraints, e.g. average ROI and budget constraints. In this paper, we study the problem of designing online autobidding algorithms to optimize value subject to ROI and budget constraints when the platform is running any mixture of first and second price auction. We consider the following stochastic setting: There is an item for sale in each of $T$ rounds. In each round, buyers submit bids and an auction is run to sell the item. We focus on one buyer, possibly with budget and ROI constraints. We assume that the buyer's value and the highest competing bid are drawn i.i.d. from some unknown (joint) distribution in each round. We design a low-regret bidding algorithm that satisfies the buyer's constraints. Our benchmark is the objective value achievable by the best possible Lipschitz function that maps values to bids, which is rich enough to best respond to many different correlation structures between value and highest competing bid. Our main result is an algorithm with full information feedback that guarantees a near-optimal $\tilde O(\sqrt T)$ regret with respect to the best Lipschitz function. Our result applies to a wide range of auctions, most notably any mixture of first and second price auctions (price is a convex combination of the first and second price). In addition, our result holds for both value-maximizing buyers and quasi-linear utility-maximizing buyers. We also study the bandit setting, where we show an $\Omega(T^{2/3})$ lower bound on the regret for first-price auctions, showing a large disparity between the full information and bandit settings. We also design an algorithm with $\tilde O(T^{3/4})$ regret, when the value distribution is known and is independent of the highest competing bid.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# Video2Game: リアルタイム、インタラクティブ、リアル、ブラウザ互換環境

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video ( http://arxiv.org/abs/2404.09833v1 )

ライセンス: Link先を確認
Hongchi Xia, Zhi-Hao Lin, Wei-Chiu Ma, Shenlong Wang, (参考訳) ゲームやシミュレータのような高品質でインタラクティブな仮想環境を作るには、複雑でコストのかかる手動モデリングプロセスが必要となることが多い。 本稿では,現実のシーンの映像を自動的にリアルでインタラクティブなゲーム環境に変換する新しいアプローチであるVideo2Gameを紹介する。 私たちのシステムの中心には3つのコアコンポーネントがあります。 一 シーンの形状及び視覚的外観を効果的に捉える神経放射場(NeRF)モジュール (ii)より高速なレンダリングのためにNeRFから知識を抽出するメッシュモジュール、及び 三 物体間の相互作用と物理力学をモデル化する物理モジュール。 慎重に設計されたパイプラインに従うことで、現実世界の対話可能で実行可能なデジタルレプリカを構築することができる。 室内および大規模屋外の両方で,本システムをベンチマークした。 リアルタイムに高リアルなレンダリングを作成できるだけでなく、インタラクティブなゲームも構築できることが示されています。

Creating high-quality and interactive virtual environments, such as games and simulators, often involves complex and costly manual modeling processes. In this paper, we present Video2Game, a novel approach that automatically converts videos of real-world scenes into realistic and interactive game environments. At the heart of our system are three core components:(i) a neural radiance fields (NeRF) module that effectively captures the geometry and visual appearance of the scene; (ii) a mesh module that distills the knowledge from NeRF for faster rendering; and (iii) a physics module that models the interactions and physical dynamics among the objects. By following the carefully designed pipeline, one can construct an interactable and actionable digital replica of the real world. We benchmark our system on both indoor and large-scale outdoor scenes. We show that we can not only produce highly-realistic renderings in real-time, but also build interactive games on top.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# テトラヘドラ上のディラック量子ウォーク

Dirac quantum walk on tetrahedra ( http://arxiv.org/abs/2404.09840v1 )

ライセンス: Link先を確認
Ugo Nzongani, Nathanaël Eon, Iván Márquez-Martín, Armando Pérez, Giuseppe Di Molfetta, Pablo Arrighi, (参考訳) 離散時間量子ウォーク(英: Discrete-time Quantum Walks, QWs)は格子上の単一量子粒子の輸送モデルである。 その進化は因果的および局所的ユニタリ作用素によって引き起こされる。 QWは基礎物理学の量子シミュレーションの強力なツールであり、そのうちのいくつかは、よく知られた物理学的偏微分方程式、例えばディラックやシュル・オーディンガー方程式に収束する連続極限を持つ。 本研究では, 四面体空間で進化するQWを用いて, ディラック方程式を3+1次元で再現する方法を示す。 これは、曲線化された時空上でディラック方程式をシミュレートする方法を舗装する。 これはまた、物質伝播が未解決の問題のままであるループ量子重力に関心を持つスピンネットワーク上で物質を伝播する秩序あるスキームを示唆している。

Discrete-time Quantum Walks (QWs) are transportation models of single quantum particles over a lattice. Their evolution is driven through causal and local unitary operators. QWs are a powerful tool for quantum simulation of fundamental physics as some of them have a continuum limit converging to well-known physics partial differential equations, such as the Dirac or the Schr\"odinger equation. In this work, we show how to recover the Dirac equation in (3+1)-dimensions with a QW evolving in a tetrahedral space. This paves the way to simulate the Dirac equation on a curved spacetime. This also suggests an ordered scheme for propagating matter over a spin network, of interest in Loop Quantum Gravity where matter propagation has remained an open problem.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# STMixer: 1段階スパースアクション検出器

STMixer: A One-Stage Sparse Action Detector ( http://arxiv.org/abs/2404.09842v1 )

ライセンス: Link先を確認
Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang, (参考訳) 従来のビデオアクション検出器では、まずアクターボックスを生成するために人検出装置を使用し、次に3D RoIAlignを使用してアクター固有の特徴を抽出する。 この検出パラダイムは、マルチステージのトレーニングと推論を必要とし、機能サンプリングはボックス内で制限され、外部のよりリッチなコンテキスト情報を効果的に活用することができない。 近年、エンドツーエンドでアクションインスタンスを予測するために、クエリベースのアクション検出器がいくつか提案されている。 しかし、機能サンプリングや復号化には相変わらず適応性に欠けており、性能の低下や収束の遅い問題に悩まされている。 本稿では,よりフレキシブルな1段スパース動作検出器のための2つのコア設計を提案する。 まず、時空間全体から識別的特徴群を抽出する柔軟性を備えた、クエリベースの適応的特徴サンプリングモジュールを提案する。 第二に、分離された特徴混合モジュールを考案し、動的にビデオの特徴を空間的および時間的次元に沿って混合し、より優れた特徴復号を行う。 これらの設計に基づき、キーフレーム動作検出用STMixer-Kとアクションチューブレット検出用STMixer-Tの2つの検出パイプラインをインスタンス化する。 我々のSTMixer検出器はベルやホイッスルを使わずに、キーフレームアクション検出やアクションチューブ検出のための5つの時空間行動検出ベンチマークに対して、最先端の結果を得る。

Traditional video action detectors typically adopt the two-stage pipeline, where a person detector is first employed to generate actor boxes and then 3D RoIAlign is used to extract actor-specific features for classification. This detection paradigm requires multi-stage training and inference, and the feature sampling is constrained inside the box, failing to effectively leverage richer context information outside. Recently, a few query-based action detectors have been proposed to predict action instances in an end-to-end manner. However, they still lack adaptability in feature sampling and decoding, thus suffering from the issues of inferior performance or slower convergence. In this paper, we propose two core designs for a more flexible one-stage sparse action detector. First, we present a query-based adaptive feature sampling module, which endows the detector with the flexibility of mining a group of discriminative features from the entire spatio-temporal domain. Second, we devise a decoupled feature mixing module, which dynamically attends to and mixes video features along the spatial and temporal dimensions respectively for better feature decoding. Based on these designs, we instantiate two detection pipelines, that is, STMixer-K for keyframe action detection and STMixer-T for action tubelet detection. Without bells and whistles, our STMixer detectors obtain state-of-the-art results on five challenging spatio-temporal action detection benchmarks for keyframe action detection or action tube detection.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 超遠距離物体認識モデルのための拡散型データ生成装置

A Diffusion-based Data Generator for Training Object Recognition Models in Ultra-Range Distance ( http://arxiv.org/abs/2404.09846v1 )

ライセンス: Link先を確認
Eran Bamani, Eden Nissinman, Lisa Koenigsberg, Inbar Meir, Avishai Sintov, (参考訳) カメラによって一般的に実行される物体認識は、ロボットが複雑なタスクを完了するための基本的な要件である。 いくつかのタスクでは、ロボットのカメラから遠く離れた物体を認識する必要がある。 難解な例は、ロボットから最大25〜mの距離で指示的なジェスチャーを表示する、人間とロボットのインタラクションにおけるUltra-Range Gesture Recognition (URGR)である。 しかし、ウルトラレンジに位置するほとんど見えない物体を認識するためにモデルを訓練するには、かなりの量のラベル付きサンプルを網羅的に収集する必要がある。 合成トレーニングデータセットの生成は、画像内の遠い物体の現実的な視覚特性を適切に再現することができないながら、現実のデータ不足に対する最近の解決策である。 本稿では,ディフュージョンモデルに基づくDUR(Diffusion in Ultra-Range)フレームワークを提案する。 DURジェネレータは、所望距離とクラス(例えばジェスチャー)を受信し、対応する合成画像を出力する。 身振りの細かい手の動きを識別し難い指示ジェスチャーを用いたURGRモデルの訓練にDURを適用した。 DURは、URGRモデルのトレーニングにおいて、忠実度と認識成功率の両方において優位性を示す他の種類の生成モデルと比較される。 さらに重要なことは、DURモデルを限られた実データでトレーニングし、それを使用してURGRモデルをトレーニングするための合成データを生成し、実際のデータでURGRモデルを直接トレーニングする。 合成ベースURGRモデルは、地上ロボットのジェスチャーに基づく方向も示す。

Object recognition, commonly performed by a camera, is a fundamental requirement for robots to complete complex tasks. Some tasks require recognizing objects far from the robot's camera. A challenging example is Ultra-Range Gesture Recognition (URGR) in human-robot interaction where the user exhibits directive gestures at a distance of up to 25~m from the robot. However, training a model to recognize hardly visible objects located in ultra-range requires an exhaustive collection of a significant amount of labeled samples. The generation of synthetic training datasets is a recent solution to the lack of real-world data, while unable to properly replicate the realistic visual characteristics of distant objects in images. In this letter, we propose the Diffusion in Ultra-Range (DUR) framework based on a Diffusion model to generate labeled images of distant objects in various scenes. The DUR generator receives a desired distance and class (e.g., gesture) and outputs a corresponding synthetic image. We apply DUR to train a URGR model with directive gestures in which fine details of the gesturing hand are challenging to distinguish. DUR is compared to other types of generative models showcasing superiority both in fidelity and in recognition success rate when training a URGR model. More importantly, training a DUR model on a limited amount of real data and then using it to generate synthetic data for training a URGR model outperforms directly training the URGR model on real data. The synthetic-based URGR model is also demonstrated in gesture-based direction of a ground robot.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-15
# 有限次元モデルにおける制約付き関数パラメータの統計的学習と公正機械学習への応用

Statistical learning for constrained functional parameters in infinite-dimensional models with applications in fair machine learning ( http://arxiv.org/abs/2404.09847v1 )

ライセンス: Link先を確認
Razieh Nabi, Nima S. Hejazi, Mark J. van der Laan, David Benkeser, (参考訳) 制約付き学習は、特にアルゴリズムフェアネスと機械学習の領域において、ますます重要になっている。 これらの設定では、事前定義された公正性の概念を満たすために予測モデルを特別に開発する。 本稿では,統計的機能レンズによる制約付き統計機械学習の一般問題について検討する。 1つまたは複数の事前指定された実数値関数パラメータが 0 に等しいか、そうでなければ有界であるという制約の下で、関心の関数値パラメータを学習することを検討する。 ラグランジュ乗算器の定式化によるペナル化リスク基準の最小化として,制約付き関数パラメータを特徴付ける。 最適制約パラメータに対する閉形式解がしばしば利用可能であることを示し、予測モデルにおける公平性を促進するメカニズムについて考察する。 また,データ生成分布の非制約パラメータの推定値を組み合わせることで,制約パラメータの自然な推定も可能であることを示唆した。 したがって, 公平な機械学習アルゴリズムを構築するための推定手順は, 統計的学習手法や既製のソフトウェアと組み合わせて適用することができる。 本稿では,統計的公正性制約の多くの例を明示的に考慮し,いくつかの一般的な学習手法を用いて手法の実装を行うことにより,本手法の汎用性を実証する。

Constrained learning has become increasingly important, especially in the realm of algorithmic fairness and machine learning. In these settings, predictive models are developed specifically to satisfy pre-defined notions of fairness. Here, we study the general problem of constrained statistical machine learning through a statistical functional lens. We consider learning a function-valued parameter of interest under the constraint that one or several pre-specified real-valued functional parameters equal zero or are otherwise bounded. We characterize the constrained functional parameter as the minimizer of a penalized risk criterion using a Lagrange multiplier formulation. We show that closed-form solutions for the optimal constrained parameter are often available, providing insight into mechanisms that drive fairness in predictive models. Our results also suggest natural estimators of the constrained parameter that can be constructed by combining estimates of unconstrained parameters of the data generating distribution. Thus, our estimation procedure for constructing fair machine learning algorithms can be applied in conjunction with any statistical learning approach and off-the-shelf software. We demonstrate the generality of our method by explicitly considering a number of examples of statistical fairness constraints and implementing the approach using several popular learning approaches.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# HyperMono: ハイパーリレーショナルな知識表現に対するモノトニックなアプローチ

HyperMono: A Monotonicity-aware Approach to Hyper-Relational Knowledge Representation ( http://arxiv.org/abs/2404.09848v1 )

ライセンス: Link先を確認
Zhiwei Hu, Víctor Gutiérrez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan, (参考訳) ハイパーリレーショナル・ナレッジグラフ(HKG)では、各事実は属性値の修飾子に関連する主三重からなり、追加の事実知識が表現される。 ハイパーリレーショナル・ナレッジグラフ補完(HKGC)タスクは、HKG内の有望な欠落リンクを推測することを目的としている。 既存の HKGC のアプローチのほとんどは、高関係グラフ表現体系の単調性から生じる2つの重要な性質を見越しながら、等化器対と主三重項の間の通信を強化することに焦点を当てている。 段階推論は、2段階の推論プロセスを可能にし、主三重項のみから得られる粗粒度推論結果と、等化子を持つ超関係事実から得られる細粒度推論結果の統合を容易にする。 初期段階では、粗粒度の結果は正しい予測のための上限を与え、その後、細粒度ステップで洗練される。 より一般的には、Qualifier Monotonicityは、より多くの等化子対を主三重項にアタッチすることで、解集合を狭めるだけで拡大しないことを意味する。 本稿では,ハイパーリレーショナル知識グラフ補完のためのHyperMonoモデルを提案する。 コーン埋め込みに適合する修飾子単調性HyperMonoを実装する。 3つの異なるシナリオ条件を持つ3つの実世界のデータセットの実験は、SoTAと比較してHyperMonoの強力なパフォーマンスを示している。

In a hyper-relational knowledge graph (HKG), each fact is composed of a main triple associated with attribute-value qualifiers, which express additional factual knowledge. The hyper-relational knowledge graph completion (HKGC) task aims at inferring plausible missing links in a HKG. Most existing approaches to HKGC focus on enhancing the communication between qualifier pairs and main triples, while overlooking two important properties that emerge from the monotonicity of the hyper-relational graphs representation regime. Stage Reasoning allows for a two-step reasoning process, facilitating the integration of coarse-grained inference results derived solely from main triples and fine-grained inference results obtained from hyper-relational facts with qualifiers. In the initial stage, coarse-grained results provide an upper bound for correct predictions, which are subsequently refined in the fine-grained step. More generally, Qualifier Monotonicity implies that by attaching more qualifier pairs to a main triple, we may only narrow down the answer set, but never enlarge it. This paper proposes the HyperMono model for hyper-relational knowledge graph completion, which realizes stage reasoning and qualifier monotonicity. To implement qualifier monotonicity HyperMono resorts to cone embeddings. Experiments on three real-world datasets with three different scenario conditions demonstrate the strong performance of HyperMono when compared to the SoTA.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# ビジュアルファウンデーションモデルとオフラインRLによる身体的視覚追跡の強化

Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL ( http://arxiv.org/abs/2404.09857v1 )

ライセンス: Link先を確認
Fangwei Zhong, Kui Wu, Hai Ci, Churan Wang, Hao Chen, (参考訳) 身体的視覚追跡は、エージェントの自我中心の視覚を用いて、ダイナミックな3D環境で対象物を追従することである。 これは、エンボディされたエージェントにとって、不可欠で挑戦的なスキルです。 しかし、既存の手法は非効率な訓練と一般化の欠如に悩まされている。 本稿では,視覚基盤モデル(VFM)とオフライン強化学習(オフラインRL)を組み合わせた新しいフレームワークを提案する。 テキストプロンプトでセマンティックセグメンテーションマスクを抽出するために, '`Tracking Anything' のような事前訓練された VFM を用いる。 次に、オフラインのRL、例えば保守的なQ-Learningでリカレントポリシーネットワークをトレーニングし、オンラインエージェントと環境の相互作用なしに収集された実演から学習する。 また,ポリシーネットワークの堅牢性と一般化をさらに向上するため,マスク再ターゲット機構とマルチレベルデータ収集戦略を導入する。 このようにして、コンシューマレベルのGPU、例えばNvidia RTX 3090で、1時間以内にロバストなトラッカーをトレーニングできます。 このような効率性は、RLベースの視覚追跡手法としては前例がない。 我々は,障害や閉塞などの困難な状況下で,高忠実度環境におけるトラッカーの評価を行った。 その結果, エージェントは, サンプル効率, 邪魔者に対する堅牢性, 目に見えないシナリオやターゲットへの一般化の観点から, 最先端の手法よりも優れていた。 また,学習したトラッカーの仮想世界から実世界のシナリオへの移動可能性を示す。

Embodied visual tracking is to follow a target object in dynamic 3D environments using an agent's egocentric vision. This is a vital and challenging skill for embodied agents. However, existing methods suffer from inefficient training and poor generalization. In this paper, we propose a novel framework that combines visual foundation models (VFM) and offline reinforcement learning (offline RL) to empower embodied visual tracking. We use a pre-trained VFM, such as ``Tracking Anything", to extract semantic segmentation masks with text prompts. We then train a recurrent policy network with offline RL, e.g., Conservative Q-Learning, to learn from the collected demonstrations without online agent-environment interactions. To further improve the robustness and generalization of the policy network, we also introduce a mask re-targeting mechanism and a multi-level data collection strategy. In this way, we can train a robust tracker within an hour on a consumer-level GPU, e.g., Nvidia RTX 3090. Such efficiency is unprecedented for RL-based visual tracking methods. We evaluate our tracker on several high-fidelity environments with challenging situations, such as distraction and occlusion. The results show that our agent outperforms state-of-the-art methods in terms of sample efficiency, robustness to distractors, and generalization to unseen scenarios and targets. We also demonstrate the transferability of the learned tracker from the virtual world to real-world scenarios.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# エッジにおける教師なしフェデレーション最適化:ラベルのないD2D-Enabled Learning

Unsupervised Federated Optimization at the Edge: D2D-Enabled Learning without Labels ( http://arxiv.org/abs/2404.09861v1 )

ライセンス: Link先を確認
Satyavrat Wagle, Seyyedali Hosseinalipour, Naji Khosravan, Christopher G. Brinton, (参考訳) Federated Learning(FL)は、分散機械学習(ML)の一般的なソリューションである。 FLは従来、教師付きMLタスクのために研究されてきたが、多くのアプリケーションでは、デバイス間でラベル付きデータの可用性を前提とするのは現実的ではない。 そこで我々は,ラベルのないデータセットを持つエッジデバイス間のFLを容易にするために,協調型非教師付きコントラスト学習({\tt CF-CL)を開発した。 CF-CL {\displaystyle {\tt CF-CL} は、明示的な(生データ)または暗黙的な(埋め込み)情報をデバイス間通信(D2D)を介して交換することで、局所的な多様性を向上させる。 具体的には、FL設定に合わせたデータ/埋め込み交換に、ソフトまたは厳密なデータプライバシー制限を課すために、textit{smart information push-pull}メソッドを導入する。 情報共有は、送信機が提供する慎重に構築された予備データセットを活用する受信機における確率的重要サンプリング技術によって行われる。 暗黙の場合、埋め込み交換は、コントラスト損失に組み込まれた正規化項を介してデバイスにおけるローカルMLトレーニングにさらに統合され、ダイナミックコントラストマージンで拡張され、探索された潜伏空間の体積を調節する。 CF-CL {\displaystyle {\tt CF-CL} はデバイス間で学習された遅延空間のアライメントを導き、その結果より高速で効率的なグローバルモデルトレーニングとなり、デバイス間での極端なデータ分散設定に有効であることを示す。

Federated learning (FL) is a popular solution for distributed machine learning (ML). While FL has traditionally been studied for supervised ML tasks, in many applications, it is impractical to assume availability of labeled data across devices. To this end, we develop Cooperative Federated unsupervised Contrastive Learning ({\tt CF-CL)} to facilitate FL across edge devices with unlabeled datasets. {\tt CF-CL} employs local device cooperation where either explicit (i.e., raw data) or implicit (i.e., embeddings) information is exchanged through device-to-device (D2D) communications to improve local diversity. Specifically, we introduce a \textit{smart information push-pull} methodology for data/embedding exchange tailored to FL settings with either soft or strict data privacy restrictions. Information sharing is conducted through a probabilistic importance sampling technique at receivers leveraging a carefully crafted reserve dataset provided by transmitters. In the implicit case, embedding exchange is further integrated into the local ML training at the devices via a regularization term incorporated into the contrastive loss, augmented with a dynamic contrastive margin to adjust the volume of latent space explored. Numerical evaluations demonstrate that {\tt CF-CL} leads to alignment of latent spaces learned across devices, results in faster and more efficient global model training, and is effective in extreme non-i.i.d. data distribution settings across devices.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# 大規模言語モデルにおける自己適応の再考

Reimagining Self-Adaptation in the Age of Large Language Models ( http://arxiv.org/abs/2404.09866v1 )

ライセンス: Link先を確認
Raghav Donakanti, Prakhar Jain, Shubham Kulkarni, Karthik Vaidhyanathan, (参考訳) 現代のソフトウェアシステムには、コンテキストや環境などに起因するさまざまな不確実性がある。 この目的のために、自己適応技術は潜在的な解決策として求められている。 ML技術を用いた自己適応の最近の進歩は有望な成果を示しているが、その能力は、トレーニングサンプルの必要性、一般化能力など、ML技術によって課される制約によって制限されている。 生成AI(GenAI)の最近の進歩は、大量のデータに基づいてトレーニングされているため、新たな可能性を開き、不確実性の解釈と適応戦略の合成を可能にする可能性がある。 本稿では,GenAI,特にLarge Language Models (LLMs) を用いたアーキテクチャ適応の有効性と効率を高めるためのビジョンを提案する。 人間の演算子と平行に描画することで,LLMは,その高度な自然言語処理能力によって,類似した文脈に敏感な適応戦略を自律的に生成できることを示す。 この手法により、ソフトウェアシステムは、その運用状態を理解し、アーキテクチャ要求や環境変化に合わせて適応を実装することができる。 LLMを自己適応型システムアーキテクチャに統合することにより、人間のような適応推論を反映したニュアンスな意思決定を容易にする。 SWIMの判例システムによるケーススタディは有望な結果をもたらし、LLMが異なる適応シナリオを扱えることを示唆している。 我々の研究結果は、GenAIがソフトウェアシステムの動的適応性とレジリエンスを改善する大きな可能性を持っていることを示唆している。

Modern software systems are subjected to various types of uncertainties arising from context, environment, etc. To this end, self-adaptation techniques have been sought out as potential solutions. Although recent advances in self-adaptation through the use of ML techniques have demonstrated promising results, the capabilities are limited by constraints imposed by the ML techniques, such as the need for training samples, the ability to generalize, etc. Recent advancements in Generative AI (GenAI) open up new possibilities as it is trained on massive amounts of data, potentially enabling the interpretation of uncertainties and synthesis of adaptation strategies. In this context, this paper presents a vision for using GenAI, particularly Large Language Models (LLMs), to enhance the effectiveness and efficiency of architectural adaptation. Drawing parallels with human operators, we propose that LLMs can autonomously generate similar, context-sensitive adaptation strategies through its advanced natural language processing capabilities. This method allows software systems to understand their operational state and implement adaptations that align with their architectural requirements and environmental changes. By integrating LLMs into the self-adaptive system architecture, we facilitate nuanced decision-making that mirrors human-like adaptive reasoning. A case study with the SWIM exemplar system provides promising results, indicating that LLMs can potentially handle different adaptation scenarios. Our findings suggest that GenAI has significant potential to improve software systems' dynamic adaptability and resilience.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# ソフトウェアエンジニアリング手法によるAI駆動の統計推論

AI-Driven Statutory Reasoning via Software Engineering Methods ( http://arxiv.org/abs/2404.09868v1 )

ライセンス: Link先を確認
Rohan Padhye, (参考訳) 近年,学習済みの大規模言語モデル(LLM)のような生成人工知能(GenAI)技術の普及により,計算法における新たなフロンティアが開きつつある。 発展のエキサイティングな領域は、法と契約法に固有のルールベースの推論を自動化するためにAIを使用することである。 このような推論の形式は、自然言語処理(NLP)や形式論理といった古典的な手法を用いて長い間研究されてきたが、近年のソリューションではLLMをますます活用している。 GenAIの出現により、これらの自然言語文書の多くを、いくつかの事実が与えられた結果を計算するプログラムとして扱うことが可能になった。 そのため、ソフトウェア工学の分野からよく研究された技術を用いて、これらのドキュメントを理解し、デバッグし、保守し、進化させ、修正することができるべきです。 本稿では、AIによる法令・契約の分析に適用した場合、計算法で有用な自動化ソフトウェアテストとプログラム分析のいくつかの概念を紹介する。

The recent proliferation of generative artificial intelligence (GenAI) technologies such as pre-trained large language models (LLMs) has opened up new frontiers in computational law. An exciting area of development is the use of AI to automate the rule-based reasoning inherent in statutory and contract law. While this form of reasoning has long been studied using classical techniques of natural language processing (NLP) and formal logic, recent solutions increasingly make use of LLMs; though they are far from perfect. The advent of GenAI has made it possible to treat many of these natural language documents essentially as programs that compute a result given some set of facts. As such, it should be possible to understand, debug, maintain, evolve, and fix these documents using well-studied techniques from the field of software engineering. This article introduces several concepts of automated software testing and program analysis that could potentially be useful in computational law when applied to AI-driven analysis of statutes and contracts.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# イベントカメラによる卓球スピン推定

Table tennis ball spin estimation with an event camera ( http://arxiv.org/abs/2404.09870v1 )

ライセンス: Link先を確認
Thomas Gossard, Julian Krismer, Andreas Ziegler, Jonas Tebbe, Andreas Zell, (参考訳) スピンはボールベーススポーツにおいて重要な役割を担っている。 スピンの推定は、ボールの軌跡やバウンス動作に影響を及ぼすため、重要なスキルとなる。 スピンを直接観察することはできず、本質的に見積もるのは困難である。 卓球では、高速とスピンの組み合わせは、ボールのロゴを素早く正確に観察するために従来の低フレームレートカメラを不十分にし、動きのぼけによってスピンを推定する。 イベントカメラは、時間分解能が高いため、動きのぼやけにあまり悩まされない。 さらに、イベントストリームのスパース性は、多くのフレームカメラが直面する通信帯域制限を解決する。 我々の知る限り、我々は、イベントカメラを用いた卓球スピン推定のための最初の方法を提案する。 私たちは、ボールを追跡するために順序時間面を使用し、ボールのロゴによって生成されたイベントを分離します。 その後、抽出されたイベントから光の流れを推定し、ボールのスピンを推測する。 スピン等級平均誤差は10.7 \pm 17.3$ rps、スピン軸平均誤差は32.9 \pm 38.2\deg$をフライングボールのリアルタイムに達成した。

Spin plays a pivotal role in ball-based sports. Estimating spin becomes a key skill due to its impact on the ball's trajectory and bouncing behavior. Spin cannot be observed directly, making it inherently challenging to estimate. In table tennis, the combination of high velocity and spin renders traditional low frame rate cameras inadequate for quickly and accurately observing the ball's logo to estimate the spin due to the motion blur. Event cameras do not suffer as much from motion blur, thanks to their high temporal resolution. Moreover, the sparse nature of the event stream solves communication bandwidth limitations many frame cameras face. To the best of our knowledge, we present the first method for table tennis spin estimation using an event camera. We use ordinal time surfaces to track the ball and then isolate the events generated by the logo on the ball. Optical flow is then estimated from the extracted events to infer the ball's spin. We achieved a spin magnitude mean error of $10.7 \pm 17.3$ rps and a spin axis mean error of $32.9 \pm 38.2\deg$ in real time for a flying ball.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# 時系列からの因果発見によるサイバー物理システムのオンライン教師なし異常検出

Explainable Online Unsupervised Anomaly Detection for Cyber-Physical Systems via Causal Discovery from Time Series ( http://arxiv.org/abs/2404.09871v1 )

ライセンス: Link先を確認
Daniele Meli, (参考訳) オンラインで監視されていない異常の検出は、サイバー物理システムの正しい操作と、それらと相互作用する人間の安全性を保証するために不可欠である。 ニューラルネットワークによるディープラーニングに基づく最先端のアプローチは、(異常のない)システムの通常のモデルとセンサー時系列のリアルタイムストリームとの相違を評価し、異常認識において優れたパフォーマンスを達成する。 しかしながら、大規模なトレーニングデータと時間は通常必要であり、説明可能性はまだ、異常の根源を特定し、予測保守性を実装することが課題である。 本稿では,センサデータのリアルタイム取得における因果関係の持続性を評価し,異常を迅速に検出する。 2つのベンチマーク異常検出データセットにおいて、我々の手法はトレーニング効率が高く、最先端のニューラルネットワークの精度を上回り、10$以上の異なる異常の原因を正しく識別する。 実験的なレプリケーションのコードは http://tinyurl.com/case24causal にある。

Online unsupervised detection of anomalies is crucial to guarantee the correct operation of cyber-physical systems and the safety of humans interacting with them. State-of-the-art approaches based on deep learning via neural networks achieve outstanding performance at anomaly recognition, evaluating the discrepancy between a normal model of the system (with no anomalies) and the real-time stream of sensor time series. However, large training data and time are typically required, and explainability is still a challenge to identify the root of the anomaly and implement predictive maintainance. In this paper, we use causal discovery to learn a normal causal graph of the system, and we evaluate the persistency of causal links during real-time acquisition of sensor data to promptly detect anomalies. On two benchmark anomaly detection datasets, we show that our method has higher training efficiency, outperforms the accuracy of state-of-the-art neural architectures and correctly identifies the sources of $>10$ different anomalies. The code for experimental replication is at http://tinyurl.com/case24causal.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# 条件付きプロトタイプ整形プロンプト学習

Conditional Prototype Rectification Prompt Learning ( http://arxiv.org/abs/2404.09872v1 )

ライセンス: Link先を確認
Haoxing Chen, Yaohui Li, Zizheng Huang, Yan Hong, Zhuoer Xu, Zhangxuan Gu, Jun Lan, Huijia Zhu, Weiqiang Wang, (参考訳) 事前学習された大規模視覚言語モデル(VLM)は、一般的な視覚概念の深い理解を得た。 効率的な伝達学習(ETL)の最近の進歩は、限られたデータの範囲内で細調整されたVLMにおいて顕著な成功を収めており、VLMからのタスク固有の洞察を利用するためのパラメータはごくわずかである。 大幅な進歩にもかかわらず、現在の先導ETL法はトレーニング中に見られた基礎クラスの狭い分布に過度に適合し、次の2つの主要な課題に直面する傾向にある。 一 タスク特化知識のモデリングに一様情報のみを利用すること。 (二)知識を補うために費用と時間のかかる方法を使用すること。 これらの問題に対処するために, 基本事例のバイアスを補正し, 限られたデータを効果的に増強する条件付きプロトタイプ・リクティフィケーション・プロンプト・ラーニング(CPR)手法を提案する。 具体的には、2つの側面からベースクラスのオーバーフィッティングを軽減します。 まず、各入力画像は、テキストプロトタイプとビジュアルプロトタイプの両方から知識を取得し、次にサンプル条件付きテキストトークンを生成する。 第2に、未ラベルデータから実用的知識を抽出し、プロトタイプをさらに洗練する。 これらの2つの戦略は、基底クラスに由来するバイアスを緩和し、より効果的な分類子をもたらす。 11のベンチマークデータセットに対する大規模な実験により、我々のCPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方で最先端のパフォーマンスを達成している。 我々のコードは \url{https://github.com/chenhaoxing/CPR} で無効です。

Pre-trained large-scale vision-language models (VLMs) have acquired profound understanding of general visual concepts. Recent advancements in efficient transfer learning (ETL) have shown remarkable success in fine-tuning VLMs within the scenario of limited data, introducing only a few parameters to harness task-specific insights from VLMs. Despite significant progress, current leading ETL methods tend to overfit the narrow distributions of base classes seen during training and encounter two primary challenges: (i) only utilizing uni-modal information to modeling task-specific knowledge; and (ii) using costly and time-consuming methods to supplement knowledge. To address these issues, we propose a Conditional Prototype Rectification Prompt Learning (CPR) method to correct the bias of base examples and augment limited data in an effective way. Specifically, we alleviate overfitting on base classes from two aspects. First, each input image acquires knowledge from both textual and visual prototypes, and then generates sample-conditional text tokens. Second, we extract utilizable knowledge from unlabeled data to further refine the prototypes. These two strategies mitigate biases stemming from base classes, yielding a more effective classifier. Extensive experiments on 11 benchmark datasets show that our CPR achieves state-of-the-art performance on both few-shot classification and base-to-new generalization tasks. Our code is avaliable at \url{https://github.com/chenhaoxing/CPR}.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# 災害対応計画のための人間的応答とマシンインテリジェンスの統合

Synergising Human-like Responses and Machine Intelligence for Planning in Disaster Response ( http://arxiv.org/abs/2404.09877v1 )

ライセンス: Link先を確認
Savvas Papaioannou, Panayiotis Kolios, Christos G. Panayiotou, Marios M. Polycarpou, (参考訳) 災害対応の急速な変化の中で、自律エージェントの計画と意思決定には、複雑で相互依存的な選択が伴う。 近年の進歩は、従来の人工知能(AI)アプローチを改善しているが、特に明確に定義されたトレーニングパラメータの外で動作しているエージェントに適用した場合、このような設定で苦労することが多い。 これらの課題に対処するため、我々はDual Process Theory (DPT) に触発された注意に基づく認知アーキテクチャを提案する。 このフレームワークは、高速だがヒューリスティックな(人間に似た)応答(System 1)と、マシンインテリジェンスの遅いが最適化された計画能力(System 2)を統合します。 本稿では,複数の属性にまたがる性能を評価することで,ミッション目標を最適化するために,各システムの係り受けを動的に決定する方法について述べる。 動的環境における軌道計画の評価を行い、この相乗的統合が複数のミッション目標を最適化することにより、複雑なタスクを効果的に管理することを示した。

In the rapidly changing environments of disaster response, planning and decision-making for autonomous agents involve complex and interdependent choices. Although recent advancements have improved traditional artificial intelligence (AI) approaches, they often struggle in such settings, particularly when applied to agents operating outside their well-defined training parameters. To address these challenges, we propose an attention-based cognitive architecture inspired by Dual Process Theory (DPT). This framework integrates, in an online fashion, rapid yet heuristic (human-like) responses (System 1) with the slow but optimized planning capabilities of machine intelligence (System 2). We illustrate how a supervisory controller can dynamically determine in real-time the engagement of either system to optimize mission objectives by assessing their performance across a number of distinct attributes. Evaluated for trajectory planning in dynamic environments, our framework demonstrates that this synergistic integration effectively manages complex tasks by optimizing multiple mission objectives.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# 超高速フォノンによる六方晶窒化ホウ素の電子ビームによる発色中心の劣化

Ultrafast phonon-mediated dephasing of color centers in hexagonal boron nitride probed by electron beams ( http://arxiv.org/abs/2404.09879v1 )

ライセンス: Link先を確認
Masoud Taleb, Paul Bittorf, Mximilian Black, Mario Hentschel, Wilfried Sigle, Benedikt Haas, Christoph Koch, Peter A. van Aken, Harald Giessen, Nahid Talebi, (参考訳) 六方晶窒化ホウ素の欠陥中心は室温単光子源として広く研究されている。 これらの欠陥の電子構造はフォノンと強い結合を示し、フォノン側バンドはフォトルミネッセンスとカソードルミネッセンスの両方で観察される。 しかし、電子フォノン結合のダイナミクスとフォノンによる六方晶窒化ホウ素の発色中心の劣化は未解明のままである。 ここでは, 時間分解CL分光法を適用して, サブフェムト秒時間分解能を持つフォノン状態とデファス化時間T2の集団崩壊を探索する。 数ナノ秒の崩壊を報告したすべての光学時間分解フォトルミネッセンス技術とは対照的に,200 fsの超高速脱落時間と約585 fsの放射崩壊を室温で示す。 この挙動は、六方晶窒化ホウ素のコヒーレントフォノン分極の効率的な電子ビーム励起によるものであり、電子遷移の速度の低下をもたらす。 本研究は, 連続カソードルミネッセンス分光法を用いて, サブフェムト秒時間分解能を持つ量子材料における単一エミッタの超高速劣化時間を探索し, 複雑な環境に結合した単一エミッタにおける量子路干渉へのアクセスを予測した。

Defect centers in hexagonal boron nitride have been extensively studied as room temperature single photon sources. The electronic structure of these defects exhibits strong coupling to phonons, as evidenced by the observation of phonon sidebands in both photoluminescence and cathodoluminescence spectra. However, the dynamics of the electron phonon coupling as well as phonon mediated dephasing of the color centers in hexagonal boron nitride remain unexplored. Here, we apply a novel time resolved CL spectroscopy technique to explore the population decay to phonon states and the dephasing time T2 with sub femtosecond time resolution. We demonstrate an ultrafast dephasing time of only 200 fs and a radiative decay of about 585 fs at room temperature, in contrast with all optical time resolved photoluminescence techniques that report a decay of a few nanoseconds. This behavior is attributed to efficient electron-beam excitation of coherent phonon polaritons in hexagonal boron nitride, resulting in faster dephasing of electronic transitions. Our results demonstrate the capability of our sequential cathodoluminescence spectroscopy technique to probe the ultrafast dephasing time of single emitters in quantum materials with sub femtosecond time resolution, heralding access to quantum path interferences in single emitters coupled to their complex environment.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# Map-Relative Pose Regression for Visual Re-Localization

Map-Relative Pose Regression for Visual Re-Localization ( http://arxiv.org/abs/2404.09884v1 )

ライセンス: Link先を確認
Shuai Chen, Tommaso Cavallari, Victor Adrian Prisacariu, Eric Brachmann, (参考訳) ポース回帰ネットワークは、既知の環境に対してクエリ画像のカメラポーズを予測する。 この方法では、絶対ポーズ回帰(APR)は、最近、位置誤差において数cmの範囲で有望な精度を示す。 APRネットワークは、その重みに暗黙的にシーン幾何学を符号化する。 高い精度を達成するには、日々のプロセスで新しいビュー合成を使って、現実的にしか作成できない膨大なトレーニングデータが必要である。 このプロセスは、新しいシーンごとに何度も繰り返される必要があります。 本稿では,ポーズ回帰ネットワークのデータ飢餓をシーンに依存しない方法で満足する,ポーズ回帰,マップ相対ポーズ回帰(marepo)の新たなアプローチを提案する。 我々は、シーン固有の地図表現に対して、ポーズ予測がシーンマップに対して相対的であるように、ポーズ回帰器を条件とする。 これにより、数百のシーンにまたがるポーズ回帰器をトレーニングし、シーン固有のマップ表現とカメラのポーズとの一般的な関係を学習することができる。 我々の地図相対的なポーズ回帰器は、最も精度の高い微調整の直後に、あるいは数分後に新しい地図表現に適用することができる。 提案手法は,屋内と屋外の2つの公開データセットにおいて,従来のポーズ回帰手法よりはるかに優れている。 コードは、https://nianticlabs.github.io/marepo.comで入手できる。

Pose regression networks predict the camera pose of a query image relative to a known environment. Within this family of methods, absolute pose regression (APR) has recently shown promising accuracy in the range of a few centimeters in position error. APR networks encode the scene geometry implicitly in their weights. To achieve high accuracy, they require vast amounts of training data that, realistically, can only be created using novel view synthesis in a days-long process. This process has to be repeated for each new scene again and again. We present a new approach to pose regression, map-relative pose regression (marepo), that satisfies the data hunger of the pose regression network in a scene-agnostic fashion. We condition the pose regressor on a scene-specific map representation such that its pose predictions are relative to the scene map. This allows us to train the pose regressor across hundreds of scenes to learn the generic relation between a scene-specific map representation and the camera pose. Our map-relative pose regressor can be applied to new map representations immediately or after mere minutes of fine-tuning for the highest accuracy. Our approach outperforms previous pose regression methods by far on two public datasets, indoor and outdoor. Code is available: https://nianticlabs.github.io/marepo
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# ReffAKD:資源効率の高いオートエンコーダベースの知識蒸留

ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation ( http://arxiv.org/abs/2404.09886v1 )

ライセンス: Link先を確認
Divyang Doshi, Jung-Eun Kim, (参考訳) 本研究では,資源量の多い教師モデルを必要とせず,知識蒸留効率を向上させる革新的な手法を提案する。 知識蒸留はより小さな ` `student'' モデルをトレーニングし、より大きな ` `teacher'' モデルから指導する。 しかし、主な利点は、教師が提供したソフトなラベルによって、生徒が微妙なクラス類似性を把握できるようにすることである。 そこで本研究では,これらのソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。 我々は,コンパクトなオートエンコーダを用いて重要な特徴を抽出し,異なるクラス間の類似度スコアを算出する。 その後、これらの類似度スコアにソフトマックス関数を適用し、ソフト確率ベクトルを得る。 このベクトルは、学生モデルのトレーニング中に貴重なガイダンスとなる。 CIFAR-100、Tiny Imagenet、Fashion MNISTなどの様々なデータセットに関する広範な実験は、大規模な教師モデルに依存する従来の知識蒸留法と比較して、我々のアプローチの優れた資源効率を実証している。 重要なことは、モデル精度の観点からも、我々のアプローチは一貫して類似または優れた性能を達成している。 また,最近開発された知識蒸留技術を用いて比較研究を行い,本手法は資源を著しく減らして競争性能を向上することを示した。 また,ロジットに基づく知識蒸留法にも容易にアプローチを付加できることが示唆された。 本研究は, 知識蒸留を実用化し, 費用対効果を高めることに貢献し, モデル訓練の効率化に寄与する。 この作業のコードは、https://github.com/JEKimLab/ReffAKD.comで公開されている。

In this research, we propose an innovative method to boost Knowledge Distillation efficiency without the need for resource-heavy teacher models. Knowledge Distillation trains a smaller ``student'' model with guidance from a larger ``teacher'' model, which is computationally costly. However, the main benefit comes from the soft labels provided by the teacher, helping the student grasp nuanced class similarities. In our work, we propose an efficient method for generating these soft labels, thereby eliminating the need for a large teacher model. We employ a compact autoencoder to extract essential features and calculate similarity scores between different classes. Afterward, we apply the softmax function to these similarity scores to obtain a soft probability vector. This vector serves as valuable guidance during the training of the student model. Our extensive experiments on various datasets, including CIFAR-100, Tiny Imagenet, and Fashion MNIST, demonstrate the superior resource efficiency of our approach compared to traditional knowledge distillation methods that rely on large teacher models. Importantly, our approach consistently achieves similar or even superior performance in terms of model accuracy. We also perform a comparative study with various techniques recently developed for knowledge distillation showing our approach achieves competitive performance with using significantly less resources. We also show that our approach can be easily added to any logit based knowledge distillation method. This research contributes to making knowledge distillation more accessible and cost-effective for practical applications, making it a promising avenue for improving the efficiency of model training. The code for this work is available at, https://github.com/JEKimLab/ReffAKD.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# テーブル検索は解決された問題か?

Is Table Retrieval a Solved Problem? Join-Aware Multi-Table Retrieval ( http://arxiv.org/abs/2404.09889v1 )

ライセンス: Link先を確認
Peter Baile Chen, Yi Zhang, Dan Roth, (参考訳) テーブル上で与えられた質問に正確に答えるために必要な情報を含む関連するテーブルを取得することは、オープンドメインの質問回答システム(QA)にとって重要である。 従来の方法では、そのような質問に対する答えは、単一のテーブルか、質問の分解や書き直しによって特定された複数のテーブルで見つけることができると仮定していた。 しかし、これらのアプローチはいずれも十分ではなく、多くの質問は複数のテーブルを検索し、ユーザクエリ自身から識別できないジョインプランを通じてそれらを結合する必要がある。 検索段階で結合計画が考慮されない場合、それらのテーブルに基づく推論と解答のその後のステップは誤りである可能性が高い。 この問題に対処するために,テーブル検索において,任意のクエリやデータベースに対して有用な結合関係を明らかにする手法を提案する。 テーブルクエリの関連性だけでなく,結合関係の推論を必要とするテーブルテーブルの関連性についても検討する。 提案手法は,F1スコアの最大9.3%,エンドツーエンドQAの最大5.4%の精度で,テーブル検索の最先端手法よりも優れている。

Retrieving relevant tables containing the necessary information to accurately answer a given question over tables is critical to open-domain question-answering (QA) systems. Previous methods assume the answer to such a question can be found either in a single table or multiple tables identified through question decomposition or rewriting. However, neither of these approaches is sufficient, as many questions require retrieving multiple tables and joining them through a join plan that cannot be discerned from the user query itself. If the join plan is not considered in the retrieval stage, the subsequent steps of reasoning and answering based on those retrieved tables are likely to be incorrect. To address this problem, we introduce a method that uncovers useful join relations for any query and database during table retrieval. We use a novel re-ranking method formulated as a mixed-integer program that considers not only table-query relevance but also table-table relevance that requires inferring join relationships. Our method outperforms the state-of-the-art approaches for table retrieval by up to 9.3% in F1 score and for end-to-end QA by up to 5.4% in accuracy.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-15
# 大規模な中本型ブロックチェーンは、セキュリティを必要としない

Larger-scale Nakamoto-style Blockchains Don't Necessarily Offer Better Security ( http://arxiv.org/abs/2404.09895v1 )

ライセンス: Link先を確認
Jannik Albrecht, Sebastien Andreina, Frederik Armknecht, Ghassan Karame, Giorgia Marson, Julian Willingmann, (参考訳) 中本方式のコンセンサスプロトコルに関する広範な研究は、ネットワーク遅延がこれらのプロトコルのセキュリティを低下させることを示した。 確立された結果は、おそらく意外なことに、ネットワークが大きなネットワークの遅延が増加するため、ネットワークが2つのノードの小さいときに、最大セキュリティが達成されることを示している。 これはブロックチェーンの基盤、すなわち分散化がセキュリティを改善することに矛盾する。 本稿では,ネットワークスケールが中本型ブロックチェーンのセキュリティに与える影響について詳しく検討する。 ネットワークが大きくなればなるほど、攻撃者がかなりの量の電力を制御することが難しくなる。 そこで本研究では,大規模ネットワークにおいて攻撃者が資源を汚すことの難しさを表わす確率的汚職モデルを提案する。 本モデルにより,ノード数の影響がネットワーク遅延(最大遅延)と対向電力の差に与える影響を解析した。 特に,(1)ノード数の増加は最終的にセキュリティに反するが,(2)少数のノードに依存することは,適切なセキュリティ規定を提供していないことを示す。 その後、Bitcoin、Monero、Cardano、Ethereum Classicなどのデプロイで数十万のノードをエミュレートした実証的な評価によって分析を検証します。 実世界のパラメータや構成が既存のデプロイメントの一貫性境界や、セキュリティを提供しながら許容できる敵の力に与える影響を、実証分析に基づいて具体的に分析する。 私たちが知っている限りでは、現在の人気のNakamotoスタイルのデプロイメントによって実現された現実世界のトレードオフを分析的かつ実証的に調査するのは、これが初めてです。

Extensive research on Nakamoto-style consensus protocols has shown that network delays degrade the security of these protocols. Established results indicate that, perhaps surprisingly, maximal security is achieved when the network is as small as two nodes due to increased delays in larger networks. This contradicts the very foundation of blockchains, namely that decentralization improves security. In this paper, we take a closer look at how the network scale affects security of Nakamoto-style blockchains. We argue that a crucial aspect has been neglected in existing security models: the larger the network, the harder it is for an attacker to control a significant amount of power. To this end, we introduce a probabilistic corruption model to express the increasing difficulty for an attacker to corrupt resources in larger networks. Based on our model, we analyze the impact of the number of nodes on the (maximum) network delay and the fraction of adversarial power. In particular, we show that (1) increasing the number of nodes eventually violates security, but (2) relying on a small number of nodes does not provide decent security provisions either. We then validate our analysis by means of an empirical evaluation emulating hundreds of thousands of nodes in deployments such as Bitcoin, Monero, Cardano, and Ethereum Classic. Based on our empirical analysis, we concretely analyze the impact of various real-world parameters and configurations on the consistency bounds in existing deployments and on the adversarial power that can be tolerated while providing security. As far as we are aware, this is the first work that analytically and empirically explores the real-world tradeoffs achieved by current popular Nakamoto-style deployments.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 単一モデルによるアンサンブルエラーバー予測の高速化

Accelerating Ensemble Error Bar Prediction with Single Models Fits ( http://arxiv.org/abs/2404.09896v1 )

ライセンス: Link先を確認
Vidit Agrawal, Shixin Zhang, Lane E. Schultz, Dane Morgan, (参考訳) アンサンブルモデルは、機械学習モデルにおける予測の不確実性を推定するために使用することができる。 しかし、Nモデルのアンサンブルは、推論に使用される場合の1つのモデルに比べて、およそN倍計算的に要求される。 本研究では,単一モデルを用いてアンサンブル誤りを予測し,完全アンサンブルを必要とせずに不確実性を推定する手法を提案する。 提案手法は,予測精度のモデルA,従来のアンサンブルベースのエラーバー予測のためのモデルA,A_{E}$のデータに適合するモデルB,A_{E}$の値の予測に使用するモデルBの3つのモデルに基づく。 モデルBは、合成データ拡張を利用してエラーバーを効率的に推定する。 このアプローチは、アンサンブル法を近似できる非常に柔軟な不確実性定量化法を提供するが、推論中にモデルAに対する1つの追加モデル評価しか必要としない。 本手法は材料科学における一連の問題に対して評価する。

Ensemble models can be used to estimate prediction uncertainties in machine learning models. However, an ensemble of N models is approximately N times more computationally demanding compared to a single model when it is used for inference. In this work, we explore fitting a single model to predicted ensemble error bar data, which allows us to estimate uncertainties without the need for a full ensemble. Our approach is based on three models: Model A for predictive accuracy, Model $A_{E}$ for traditional ensemble-based error bar prediction, and Model B, fit to data from Model $A_{E}$, to be used for predicting the values of $A_{E}$ but with only one model evaluation. Model B leverages synthetic data augmentation to estimate error bars efficiently. This approach offers a highly flexible method of uncertainty quantification that can approximate that of ensemble methods but only requires a single extra model evaluation over Model A during inference. We assess this approach on a set of problems in materials science.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# プログレッシブな知識グラフの完成

Progressive Knowledge Graph Completion ( http://arxiv.org/abs/2404.09897v1 )

ライセンス: Link先を確認
Jiayi Li, Ruilin Luo, Jiaqi Sun, Jing Xiao, Yujiu Yang, (参考訳) Knowledge Graph Completion(KGC)は、KG(Knowledge Graphs)における不完全性の問題に対処する、有望なソリューションとして登場した。 伝統的なKGC研究は主に三重分類とリンク予測に焦点を当てている。 それでも、これらのタスクは現実世界のシナリオとうまく一致せず、単にシュロゲートベンチマークとして機能する、と我々は主張する。 本稿では,実世界の建設シナリオに関連する3つの重要なプロセスについて考察する。 a) 人間の検証者の必要性及び限界から生じる検証プロセス b) 検証の最も有望な候補を特定する鉱業プロセス及び (c) より現実的な課題へ移行するために、検証済みのデータをその後の活用に活用する訓練プロセス。 これら3つのプロセスを統合することで、現実シナリオにおけるKGの段階的完了をシミュレートするプログレッシブ・ナレッジグラフ・コンプリート(PKGC)タスクを導入する。 さらに、PKGC処理を高速化するために、最適化されたTop-$k$アルゴリズムとセマンティック妥当性フィルタの2つのアクセラレーションモジュールを提案する。 これらのモジュールは、採掘手順の効率を大幅に向上させる。 本実験は,リンク予測における性能がPKGCの性能を正確に反映していないことを示す。 より詳細な分析により、結果に影響を及ぼす重要な要因が明らかとなり、将来の研究への潜在的方向性が示される。

Knowledge Graph Completion (KGC) has emerged as a promising solution to address the issue of incompleteness within Knowledge Graphs (KGs). Traditional KGC research primarily centers on triple classification and link prediction. Nevertheless, we contend that these tasks do not align well with real-world scenarios and merely serve as surrogate benchmarks. In this paper, we investigate three crucial processes relevant to real-world construction scenarios: (a) the verification process, which arises from the necessity and limitations of human verifiers; (b) the mining process, which identifies the most promising candidates for verification; and (c) the training process, which harnesses verified data for subsequent utilization; in order to achieve a transition toward more realistic challenges. By integrating these three processes, we introduce the Progressive Knowledge Graph Completion (PKGC) task, which simulates the gradual completion of KGs in real-world scenarios. Furthermore, to expedite PKGC processing, we propose two acceleration modules: Optimized Top-$k$ algorithm and Semantic Validity Filter. These modules significantly enhance the efficiency of the mining procedure. Our experiments demonstrate that performance in link prediction does not accurately reflect performance in PKGC. A more in-depth analysis reveals the key factors influencing the results and provides potential directions for future research.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# ChatShop: 言語エージェントによる対話型情報検索

ChatShop: Interactive Information Seeking with Language Agents ( http://arxiv.org/abs/2404.09911v1 )

ライセンス: Link先を確認
Sanxing Chen, Sam Wiseman, Bhuwan Dhingra, (参考訳) 新たな情報を戦略的に求める欲求と能力は、人間の学習の基本であるが、しばしば現在の言語エージェント開発において見過ごされる。 ウェブショッピングタスクを例として、インタラクティブな情報検索を必要とせず、検索タスクとして再構成、解決できることが示される。 そして、現実的な制約のあるコミュニケーションチャネルとして、買い物客の新たな役割を導入するために、タスクを再設計する。 提案したChatShopタスクのエージェントは、オープンエンド会話におけるユーザの好みを探索し、情報的な意思決定を行う。 本実験は,マルチターンインタラクションによってエージェントが情報を探索し,徐々に蓄積する能力を効果的に評価できることを実証する。 また, LLMを模擬した買い物客は, 実際の買い物客にとって良い代理となり, エージェントの類似したエラーパターンを発見できることを示した。

The desire and ability to seek new information strategically are fundamental to human learning but often overlooked in current language agent development. Using a web shopping task as an example, we show that it can be reformulated and solved as a retrieval task without a requirement of interactive information seeking. We then redesign the task to introduce a new role of shopper, serving as a realistically constrained communication channel. The agents in our proposed ChatShop task explore user preferences in open-ended conversation to make informed decisions. Our experiments demonstrate that the proposed task can effectively evaluate the agent's ability to explore and gradually accumulate information through multi-turn interaction. We also show that LLM-simulated shoppers serve as a good proxy to real human shoppers and discover similar error patterns of agents.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 完全性と普遍性を解析する

Catalysing Completeness and Universality ( http://arxiv.org/abs/2404.09915v1 )

ライセンス: Link先を確認
Aleks Kissinger, Neil J. Ross, John van de Wetering, (参考訳) 触媒状態(英: catalysis state)は、ある所望の操作を可能またはより効率的にするために用いられる量子状態である。 近年では、マジックステート蒸留や小さな角度の位相回転を実装するための最先端プロトコルで触媒が用いられている。 本稿では,あるゲート集合が計算的に普遍であることの証明や,グラフィカル言語の完全性の結果をより大きなフラグメントにまで拡張するために触媒を用いることも見出す。 特に、CSゲートを用いた$T$ゲートの触媒分解を用いて、CS+アダマールゲート集合の計算普遍性の簡単な証明を与える。 これにより、トフォリ+ハダマールの計算普遍性の簡単な自己完備証明も得られる。 さらに、位相フリーなZH-計算は、単一触媒法則(および1つのスカラー法則)を用いることで、より大きな完全断片に拡張可能であることを示す。

A catalysis state is a quantum state that is used to make some desired operation possible or more efficient, while not being consumed in the process. Recent years have seen catalysis used in state-of-the-art protocols for implementing magic state distillation or small angle phase rotations. In this paper we will see that we can also use catalysis to prove that certain gate sets are computationally universal, and to extend completeness results of graphical languages to larger fragments. In particular, we give a simple proof of the computational universality of the CS+Hadamard gate set using the catalysis of a $T$ gate using a CS gate, which sidesteps the more complicated analytic arguments of the original proof by Kitaev. This then also gives us a simple self-contained proof of the computational universality of Toffoli+Hadamard. Additionally, we show that the phase-free ZH-calculus can be extended to a larger complete fragment, just by using a single catalysis rule (and one scalar rule).
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 変分LSE解の包括的ライブラリー

Comprehensive Library of Variational LSE Solvers ( http://arxiv.org/abs/2404.09916v1 )

ライセンス: Link先を確認
Nico Meyer, Martin Röhn, Jakob Murauer, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, (参考訳) 方程式の線形系は、様々な数学領域や機械学習の分野にも見られる。 ノイズの多い中間スケールの量子デバイスを利用することで、変動解法は大規模システムの探索ソリューションの高速化を約束する。 これらのアルゴリズムに関する多くの理論的研究があるが、断片的な実装のみが存在する。 このギャップを埋めるために,文献における既存のアプローチを実現する変分解法フレームワークを開発し,いくつかの拡張を導入した。 ユーザフレンドリーなインターフェースは、エンド・ツー・エンドのアプリケーションを識別し開発する抽象化レベルで働く研究者のために設計されている。

Linear systems of equations can be found in various mathematical domains, as well as in the field of machine learning. By employing noisy intermediate-scale quantum devices, variational solvers promise to accelerate finding solutions for large systems. Although there is a wealth of theoretical research on these algorithms, only fragmentary implementations exist. To fill this gap, we have developed the variational-lse-solver framework, which realizes existing approaches in literature, and introduces several enhancements. The user-friendly interface is designed for researchers that work at the abstraction level of identifying and developing end-to-end applications.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 医学分類モデルにおける属性とプロトタイプの説明可能性の評価

Evaluating the Explainability of Attributes and Prototypes for a Medical Classification Model ( http://arxiv.org/abs/2404.09917v1 )

ライセンス: Link先を確認
Luisa Gallée, Catharina Silvia Lisson, Christoph Gerhard Lisson, Daniela Drees, Felix Weig, Daniel Vogele, Meinrad Beer, Michael Götz, (参考訳) 医学の繊細な性質のため、AI手法が説明可能であることは特に重要で、非常に要求が高い。 このニーズは認識されており、医療応用におけるxAIソリューションに大きな研究関心がある。 しかし,説明の実際の影響については,ユーザ中心評価の欠如が指摘されている。 属性とプロトタイプに基づく説明をProto-Capsモデルで評価する。 このxAIモデルは、スコアと属性固有のプロトタイプの形式で、対象オブジェクトの人間の定義した視覚的特徴によるターゲット分類を推論する。 このモデルは、事前に定義された属性のおかげで、人間にとって直感的に理解できるマルチモーダルな説明を提供する。 6人の放射線学者によるユーザスタディでは、これらの説明は意思決定プロセスの反映として、主観的に有用であると認識されている。 モデルの結果は、放射線学者がモデルの説明を用いて議論できるという第2の意見であると考えられている。 しかし,モデル説明の含意と増大は,モデルが正しくない場合のモデル予測の信頼性を高めることが示唆された。 属性スコアと視覚プロトタイプがモデルの信頼性を高めると結論付けることができる。 しかし、それぞれのユースケースに合わせた追加の開発と繰り返しのユーザスタディが必要である。

Due to the sensitive nature of medicine, it is particularly important and highly demanded that AI methods are explainable. This need has been recognised and there is great research interest in xAI solutions with medical applications. However, there is a lack of user-centred evaluation regarding the actual impact of the explanations. We evaluate attribute- and prototype-based explanations with the Proto-Caps model. This xAI model reasons the target classification with human-defined visual features of the target object in the form of scores and attribute-specific prototypes. The model thus provides a multimodal explanation that is intuitively understandable to humans thanks to predefined attributes. A user study involving six radiologists shows that the explanations are subjectivly perceived as helpful, as they reflect their decision-making process. The results of the model are considered a second opinion that radiologists can discuss using the model's explanations. However, it was shown that the inclusion and increased magnitude of model explanations objectively can increase confidence in the model's predictions when the model is incorrect. We can conclude that attribute scores and visual prototypes enhance confidence in the model. However, additional development and repeated user studies are needed to tailor the explanation to the respective use case.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# EdgeRelight360:リアルタイムオンデバイス画像ライティングのためのテキストコンディション360度HDR画像生成

EdgeRelight360: Text-Conditioned 360-Degree HDR Image Generation for Real-Time On-Device Video Portrait Relighting ( http://arxiv.org/abs/2404.09918v1 )

ライセンス: Link先を確認
Min-Hui Lin, Mahesh Reddy, Guillaume Berger, Michel Sarkis, Fatih Porikli, Ning Bi, (参考訳) 本稿では,360度高ダイナミックレンジ画像(HDRI)のテキストコンディション生成を利用した,モバイルデバイス上でのリアルタイム映像ライティング手法であるEdgeRelight360を提案する。 提案手法は,HDR10標準を利用して,HDR領域における拡散型テキスト-360度画像生成を提案する。 この技術は、テキスト記述から高品質でリアルな照明条件の生成を容易にし、ポートレートビデオのリライティングタスクにおける柔軟性と制御を提供する。 従来のリライティングフレームワークとは異なり,提案システムはデバイス上で直接ビデオリライティングを行い,リアルタイムな360度HDRIマップの推測を可能にする。 このオンデバイス処理は、プライバシと低ランタイムの両方を保証し、照明条件やユーザ入力の変更に対する即時応答を提供する。 当社のアプローチは,映像会議やゲーム,拡張現実といったリアルタイムビデオアプリケーションにおいて,動的かつテキストによる照明条件の制御を可能にすることによって,新たな可能性の道を開くものだ。

In this paper, we present EdgeRelight360, an approach for real-time video portrait relighting on mobile devices, utilizing text-conditioned generation of 360-degree high dynamic range image (HDRI) maps. Our method proposes a diffusion-based text-to-360-degree image generation in the HDR domain, taking advantage of the HDR10 standard. This technique facilitates the generation of high-quality, realistic lighting conditions from textual descriptions, offering flexibility and control in portrait video relighting task. Unlike the previous relighting frameworks, our proposed system performs video relighting directly on-device, enabling real-time inference with real 360-degree HDRI maps. This on-device processing ensures both privacy and guarantees low runtime, providing an immediate response to changes in lighting conditions or user inputs. Our approach paves the way for new possibilities in real-time video applications, including video conferencing, gaming, and augmented reality, by allowing dynamic, text-based control of lighting conditions.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# いかに公正か?概念化からフェアネス定義の自動評価へ

How fair are we? From conceptualization to automated assessment of fairness definitions ( http://arxiv.org/abs/2404.09919v1 )

ライセンス: Link先を確認
Giordano d'Aloisio, Claudio Di Sipio, Antinisca Di Marco, Davide Di Ruscio, (参考訳) 公平性は倫理と社会的領域において重要な概念であるが、ソフトウェアシステムにおけるエンジニアにとって難しい性質でもある。 ソフトウェアシステムにおける機械学習の利用の増加に伴い、研究者はソフトウェアシステムの公正性を自動的に評価する技術を開発している。 にもかかわらず、これらのテクニックのかなりの割合は、事前に確立された公正の定義、メトリクス、基準に依存しており、これはユーザーや利害関係者の幅広いニーズや嗜好を包含できない可能性がある。 この制限を克服するため、我々はMODNESSと呼ばれる新しい手法を提案し、ユーザーは専用のモデリング環境を用いて公正性の概念をカスタマイズし、定義することができる。 提案手法は,新興ドメインにおける新たな公平性の概念の定義と,その評価のためのメトリクスの仕様と構成を通じてユーザを誘導する。 最終的に、MODNESSはこれらのカスタム定義に基づいて公平な評価を実装するためにソースコードを生成する。 さらに,ソフトウェア工学(SE)における公平性評価に関する関連文献の収集と分析を行うプロセスの解明も行った。 本研究は,MODNESSと選択したアプローチを比較し,その特徴を識別する方法について評価する。 私たちの発見は i) 現行のアプローチのほとんどは,ユーザ定義の公平性の概念をサポートしない。 二 当社のアプローチは、現在利用可能なツールによって解決されていない2つのアプリケーションドメイン、すなわち、ソフトウェア工学及びArduinoソフトウェアコンポーネントレコメンデーションのためのレコメンデーションシステムにおけるバイアスを軽減することができる。 三 MODNESSは、フェアネス評価のための他の2つのモデル駆動工学ベースのアプローチの限界を克服する能力を示します。

Fairness is a critical concept in ethics and social domains, but it is also a challenging property to engineer in software systems. With the increasing use of machine learning in software systems, researchers have been developing techniques to automatically assess the fairness of software systems. Nonetheless, a significant proportion of these techniques rely upon pre-established fairness definitions, metrics, and criteria, which may fail to encompass the wide-ranging needs and preferences of users and stakeholders. To overcome this limitation, we propose a novel approach, called MODNESS, that enables users to customize and define their fairness concepts using a dedicated modeling environment. Our approach guides the user through the definition of new fairness concepts also in emerging domains, and the specification and composition of metrics for its evaluation. Ultimately, MODNESS generates the source code to implement fair assessment based on these custom definitions. In addition, we elucidate the process we followed to collect and analyze relevant literature on fairness assessment in software engineering (SE). We compare MODNESS with the selected approaches and evaluate how they support the distinguishing features identified by our study. Our findings reveal that i) most of the current approaches do not support user-defined fairness concepts; ii) our approach can cover two additional application domains not addressed by currently available tools, i.e., mitigating bias in recommender systems for software engineering and Arduino software component recommendations; iii) MODNESS demonstrates the capability to overcome the limitations of the only two other Model-Driven Engineering-based approaches for fairness assessment.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# GPT-4を用いたファサード画像からのゼロショット建築年代分類

Zero-shot Building Age Classification from Facade Image Using GPT-4 ( http://arxiv.org/abs/2404.09921v1 )

ライセンス: Link先を確認
Zichao Zeng, June Moh Goo, Xinglei Wang, Bin Chi, Meihui Wang, Jan Boehm, (参考訳) 建物の建設年代は、多くの地理空間的応用を支援するために不可欠である。 最近の多くの研究は、深層学習を用いたファサード画像から建築年齢を推定することに焦点を当てている。 しかし、正確なディープラーニングモデルを構築するには、かなりの量のラベル付きトレーニングデータが必要である。 近年、GPT-4 Visionのような大規模な事前学習型視覚言語モデル(VLM)が、特定の視覚タスクを扱うためのトレーニング不要なツールとして登場したが、情報構築へのそれらの適用性や信頼性は未定のままである。 本研究では、ファサード画像のためのゼロショット建築年代分類器を論理命令を含むプロンプトを用いて開発する。 テストケースとしてロンドンを例として、ファサード画像と建築年齢のエポックを含む新しいデータセットFI-Londonを導入する。 トレーニングフリーの分類器は39.69%の精度を達成したが、平均的な0.85年間の平均的な絶対誤差は、モデルが小さなバイアスで建設年代を予測できることを示している。 その後の議論は、分類者が非常に古い建物の年齢を予測するのに苦労し、20年以内にきめ細かい予測に挑戦していることを示している。 全体として、GPT-4 Visionを利用する分類器は、訓練することなく、単一のファサード画像から建物の粗い年齢のエポックを予測することができる。

A building's age of construction is crucial for supporting many geospatial applications. Much current research focuses on estimating building age from facade images using deep learning. However, building an accurate deep learning model requires a considerable amount of labelled training data, and the trained models often have geographical constraints. Recently, large pre-trained vision language models (VLMs) such as GPT-4 Vision, which demonstrate significant generalisation capabilities, have emerged as potential training-free tools for dealing with specific vision tasks, but their applicability and reliability for building information remain unexplored. In this study, a zero-shot building age classifier for facade images is developed using prompts that include logical instructions. Taking London as a test case, we introduce a new dataset, FI-London, comprising facade images and building age epochs. Although the training-free classifier achieved a modest accuracy of 39.69%, the mean absolute error of 0.85 decades indicates that the model can predict building age epochs successfully albeit with a small bias. The ensuing discussion reveals that the classifier struggles to predict the age of very old buildings and is challenged by fine-grained predictions within 2 decades. Overall, the classifier utilising GPT-4 Vision is capable of predicting the rough age epoch of a building from a single facade image without any training.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 強化学習を用いたロボット間超音波画像の自律的経路計画

Autonomous Path Planning for Intercostal Robotic Ultrasound Imaging Using Reinforcement Learning ( http://arxiv.org/abs/2404.09927v1 )

ライセンス: Link先を確認
Yuan Bi, Cheng Qian, Zhicheng Zhang, Nassir Navab, Zhongliang Jiang, (参考訳) 超音波(US)は、内臓のスクリーニングや指導的介入のために日常臨床に広く用いられている。 しかし, 皮下リブケージの音響的影が原因で, 胸腔鏡検査はいまだに困難である。 診断のために米国における関心領域を完全にカバーし、再構築するには、腸間スキャンパスが必要である。 この課題に対処するため,リブケージで覆われた肝臓や心臓などの内臓器の病変をモニタリングするために,リブ間の走査経路を計画する強化学習(RL)手法を提案する。 ヒト骨格の構造的解剖情報は、これらの宿主間経路の計画に不可欠である。 このような解剖学的知見を得るために、RLエージェントは、様々な形状や位置のランダムに初期化された腫瘍を持つCTテンプレートを用いて構築された仮想環境において訓練される。 さらに、学習過程の収束を確保するためにタスク固有の状態表現と報酬関数を導入し、スキャン中の音響減衰と影の影響を最小限に抑える。 提案手法の有効性を検証するため,ランダムに定義された単体または複数走査対象の未確認CTに対して実験を行った。 その結果、音響アクセスに制限のある地域で、非陰影の米国走査軌道計画におけるRLフレームワークの有効性が示された。

Ultrasound (US) has been widely used in daily clinical practice for screening internal organs and guiding interventions. However, due to the acoustic shadow cast by the subcutaneous rib cage, the US examination for thoracic application is still challenging. To fully cover and reconstruct the region of interest in US for diagnosis, an intercostal scanning path is necessary. To tackle this challenge, we present a reinforcement learning (RL) approach for planning scanning paths between ribs to monitor changes in lesions on internal organs, such as the liver and heart, which are covered by rib cages. Structured anatomical information of the human skeleton is crucial for planning these intercostal paths. To obtain such anatomical insight, an RL agent is trained in a virtual environment constructed using computational tomography (CT) templates with randomly initialized tumors of various shapes and locations. In addition, task-specific state representation and reward functions are introduced to ensure the convergence of the training process while minimizing the effects of acoustic attenuation and shadows during scanning. To validate the effectiveness of the proposed approach, experiments have been carried out on unseen CTs with randomly defined single or multiple scanning targets. The results demonstrate the efficiency of the proposed RL framework in planning non-shadowed US scanning trajectories in areas with limited acoustic access.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 言語視覚モデルを用いた移動体LiDARのゼロショット検出

Zero-shot detection of buildings in mobile LiDAR using Language Vision Model ( http://arxiv.org/abs/2404.09931v1 )

ライセンス: Link先を確認
June Moh Goo, Zichao Zeng, Jan Boehm, (参考訳) 最近の進歩により、LVM(Language Vision Models)は2次元(2次元)コンピュータビジョンタスクにおいて既存のSOTA(State-of-the-Art)を超越し、LVMを3次元(3次元)データに適用しようとする試みを動機付けていることが示されている。 LVMは、トレーニングなしでさまざまな下流2Dビジョンタスクに対処する上で効率的かつ効果的ですが、ポイントクラウド(3Dデータを表現するための代表的なフォーマット)に関しては、大きな課題に直面しています。 3Dデータから特徴を引き出すのが難しく、大規模なデータサイズとコレクションとラベル付けのコストが問題になるため、データセットの可用性が著しく制限される。 さらに、大量のデータとトレーニング時間を必要とするため、ポイントクラウド用のLVMの構築はさらに難しい。 これらの問題に対処するために、我々の研究は、 1)球面投影による接地SAMを3次元から2次元への移動に適用し、 2) 合成データを用いて, 合成データ領域と実世界のデータ領域とのギャップを埋めることの有効性を評価する。 提案手法は精度0.96,IoU0.85,精度0.92,リコール0.91,F1スコア0.92で高い性能を示し,その可能性を確認した。 しかし、球面画像生成におけるオクルージョン問題やマルチラベル点の画素レベルの重複といった課題は、今後の研究で解決される。

Recent advances have demonstrated that Language Vision Models (LVMs) surpass the existing State-of-the-Art (SOTA) in two-dimensional (2D) computer vision tasks, motivating attempts to apply LVMs to three-dimensional (3D) data. While LVMs are efficient and effective in addressing various downstream 2D vision tasks without training, they face significant challenges when it comes to point clouds, a representative format for representing 3D data. It is more difficult to extract features from 3D data and there are challenges due to large data sizes and the cost of the collection and labelling, resulting in a notably limited availability of datasets. Moreover, constructing LVMs for point clouds is even more challenging due to the requirements for large amounts of data and training time. To address these issues, our research aims to 1) apply the Grounded SAM through Spherical Projection to transfer 3D to 2D, and 2) experiment with synthetic data to evaluate its effectiveness in bridging the gap between synthetic and real-world data domains. Our approach exhibited high performance with an accuracy of 0.96, an IoU of 0.85, precision of 0.92, recall of 0.91, and an F1 score of 0.92, confirming its potential. However, challenges such as occlusion problems and pixel-level overlaps of multi-label points during spherical image generation remain to be addressed in future studies.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 大規模言語モデルのアライメントと安全性確保における基礎的課題

Foundational Challenges in Assuring Alignment and Safety of Large Language Models ( http://arxiv.org/abs/2404.09932v1 )

ライセンス: Link先を確認
Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin, Peter Hase, Ekdeep Singh Lubana, Erik Jenner, Stephen Casper, Oliver Sourbut, Benjamin L. Edelman, Zhaowei Zhang, Mario Günther, Anton Korinek, Jose Hernandez-Orallo, Lewis Hammond, Eric Bigelow, Alexander Pan, Lauro Langosco, Tomasz Korbak, Heidi Zhang, Ruiqi Zhong, Seán Ó hÉigeartaigh, Gabriel Recchia, Giulio Corsi, Alan Chan, Markus Anderljung, Lilian Edwards, Yoshua Bengio, Danqi Chen, Samuel Albanie, Tegan Maharaj, Jakob Foerster, Florian Tramer, He He, Atoosa Kasirzadeh, Yejin Choi, David Krueger, (参考訳) この研究は、大規模言語モデル(LLM)のアライメントと安全性を確保する上で、18の基本的な課題を特定する。 これらの課題は, LLMの科学的理解, 開発と展開の方法, 社会工学的課題の3つのカテゴリに分類される。 特定された課題に基づいて、200ドル以上の具体的な研究質問を投げかけます。

This work identifies 18 foundational challenges in assuring the alignment and safety of large language models (LLMs). These challenges are organized into three different categories: scientific understanding of LLMs, development and deployment methods, and sociotechnical challenges. Based on the identified challenges, we pose $200+$ concrete research questions.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# HOI-Ref: 自我中心視における手-物体相互作用参照

HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision ( http://arxiv.org/abs/2404.09933v1 )

ライセンス: Link先を確認
Siddhant Bansal, Michael Wray, Dima Damen, (参考訳) 大規模視覚言語モデル(VLM)は現在、視覚的質問応答、認識対象、空間的参照を含む多くのタスクの事実上の最先端である。 本稿では,手と物体のインタラクションをVLMを用いて理解することを目的とした,自我中心の画像に対するHOI-Refタスクを提案する。 HOI-Refを有効にするために、VLMのトレーニングと評価のための3.9万の質問応答ペアからなるHOI-QAデータセットをキュレートする。 HOI-QAは、手、物体、およびそれらの相互作用(例えば、手によって操作されている物体を指す)の場所に関する質問を含む。 我々は、このデータセットでHOI-Refの最初のVLMをトレーニングし、VLM4HOIと呼ぶ。 以上の結果から,VLMは自己中心画像における手や物体の認識・参照に失敗することが示された。 エゴセントリックなHOI-QAデータセットを微調整すると、手やオブジェクトの参照では27.9%、インタラクションの参照では26.7%のパフォーマンスが向上します。

Large Vision Language Models (VLMs) are now the de facto state-of-the-art for a number of tasks including visual question answering, recognising objects, and spatial referral. In this work, we propose the HOI-Ref task for egocentric images that aims to understand interactions between hands and objects using VLMs. To enable HOI-Ref, we curate the HOI-QA dataset that consists of 3.9M question-answer pairs for training and evaluating VLMs. HOI-QA includes questions relating to locating hands, objects, and critically their interactions (e.g. referring to the object being manipulated by the hand). We train the first VLM for HOI-Ref on this dataset and call it VLM4HOI. Our results demonstrate that VLMs trained for referral on third person images fail to recognise and refer hands and objects in egocentric images. When fine-tuned on our egocentric HOI-QA dataset, performance improves by 27.9% for referring hands and objects, and by 26.7% for referring interactions.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# ビーブル誘導測定理論

Beable-guided measurement theory ( http://arxiv.org/abs/2404.09934v1 )

ライセンス: Link先を確認
Aleksei M. Aleshin, Vladimir V. Nikitin, Petr I. Pronin, (参考訳) De Broglie-Bohm理論における測定モデルを開発した。 フォン・ノイマンの原理に従うと、測定装置とターゲット系の両方が同じ量子法則によって記述される。 この調査には座標と運動量測定の基礎モデルが含まれる。 パイロット波の方程式を解析的に解き、デブロリー粒子軌道を数値的に計算する。 結果として得られたモデルでは, 運動量空間の確率分布に関する問題 [Kurt Jung 2013 J. Phys.: Conf. Ser. 442 012060], [M. Nauenberg 2014 Quanta 3, 43], [D. M. Heim 2022 arXiv:2201.05971v1] が解決される。 ド・ブロイ=ボーム理論における量子的文脈性の起源について論じる。 さらに、ド・ブロイ=ボーム理論が特別な思考実験においてハイゼンベルクの不確実性原理を認めているかどうかという問題も検討されている。 直接計算により,乱流的摂動により不確実性関係が復元されることを示す。 また、この機構を認めない測定モデルも検討し、ド・ブロイ=ボーム理論の実験実験の新たな可能性を開く可能性がある。

Measurement model in the de Broglie-Bohm theory is developed. Following von Neumann principles, both the measurement device and the target system are described by the same quantum laws. This investigation includes basic models of coordinates and momentum measurements. Equations for pilot waves are solved analytically, and de Broglie particles trajectories are calculated numerically. The resulting model resolves the issues related to probability distribution in momentum space that were addressed in the works [Kurt Jung 2013 J. Phys.: Conf. Ser. 442 012060], [M. Nauenberg 2014 Quanta 3, 43], [D. M. Heim 2022 arXiv:2201.05971v1]. Origin of quantum contextuality in the de Broglie-Bohm theory is discussed. Further, a new problem is considered: whether the de Broglie-Bohm theory admits Heisenberg uncertainty principle in special thought experiment, where momentum and coordinate are measured in turns several times. By direct calculation, we show that uncertainty relation is restored due to turbulence-like perturbations. We consider also the measurement models which do not admit this mechanism and thus may open up new possibilities for experimental testing of the de Broglie-Bohm theory.
翻訳日:2024-04-17 21:37:46 公開日:2024-04-15
# 双対複写のない実験的絡み合いエントロピー

Experimental entanglement entropy without twin copy ( http://arxiv.org/abs/2404.09935v1 )

ライセンス: Link先を確認
Yannick Meurice, (参考訳) 我々は、準備状態の*single*コピーの基本的な測定値を用いて、対称二部量子系$AB$のフォン・ノイマン絡み合いエントロピー$S_{A}^{vN}$を実験的に推定できることを示す。 この状態の実験的測定と関連するエントロピー $S_{AB}^X$ と、システムの半分以上の実験確率をトレースして得られる還元エントロピー $S_A^X$ を用いる。 我々は、$S_{A}^{vN}\propto (2S_A^X-S_{AB}^X)$を予想し、Rydberg原子のチェーンとはしごのために公開されているQuEra施設で実行される正確な対角化とアナログ計算を用いて、良好な近似で検証されていることを証明した。 近似比例定数は、考慮された例の次数 1 である。 2S_A^X-S_{AB}^X$は、他の多くの量子ビットプラットフォームで容易に計算でき、一般的な証明は見つからないが、測定誤差の下では一般に堅牢であるように見える。 同様の結果は第二次 R'enyi 絡み合いエントロピーにも見られる。

We show that it is possible to estimate experimentally the von Neuman entanglement entropy $S_{A}^{vN}$ of a symmetric bi-partite quantum system $AB$ by using the basic measurement counts for a *single* copy of a prepared state. We use the entropy $S_{AB}^X$ associated with the experimental measurements for this state and the reduced entropy $S_A^X$ obtained by tracing the experimental probabilities over the $B$ half of the system. We conjecture that $S_{A}^{vN}\propto (2S_A^X-S_{AB}^X)$ and demonstrate that it is verified in good approximation using exact diagonalization and analog calculations performed with the publicly available QuEra facilities for chains and ladders of Rydberg atoms. The approximate proportionality constant is of order one for the examples considered. $2S_A^X-S_{AB}^X$ can be calculated easily for many other qubit platforms and appears to be generically robust under measurement errors, although a general proof remains to be found. Similar results are found for the second order R\'enyi entanglement entropy.
翻訳日:2024-04-17 21:27:58 公開日:2024-04-15
# 圧縮はインテリジェンスをリニアに表現する

Compression Represents Intelligence Linearly ( http://arxiv.org/abs/2404.09937v1 )

ライセンス: Link先を確認
Yuzhen Huang, Jinghan Zhang, Zifei Shan, Junxian He, (参考訳) うまく圧縮する学習が知性につながるという信念がある。 近年、言語モデリングは圧縮と等価であることが示されており、これは大規模言語モデル(LLM)の成功に対する説得力のある根拠となっている。 このような魅力的な議論にもかかわらず、圧縮と知性の間の相互作用には実証的な証拠はほとんど存在しない。 本研究では, LLMをデータ圧縮機として扱うことで, LLMの文脈におけるそれらの関係を考察する。 インテリジェンス」という抽象的な概念を考えると、平均ダウンストリームベンチマークスコアは、知識や常識、コーディング、数学的推論に関連するインテリジェンスを特に対象とするサロゲートとして採用する。 12のベンチマークで、さまざまな組織から生まれた30のパブリックLLMをまとめました。 注目すべきは、平均ベンチマークスコアによって反映されるLCMのインテリジェンスが、外部テキストコーパスを圧縮する能力とほぼ線形に相関していることである。 これらの結果は、優れた圧縮はより大きな知性を示すという信念を裏付ける具体的な証拠を提供する。 さらに, 圧縮効率は, 原文コーパスから導出される教師なしの指標として, モデル能力に線形に関連付けられた信頼性評価指標として機能することが示唆された。 我々は、将来の研究者が圧縮を適切に評価できるように、圧縮データセットとデータ収集パイプラインをオープンソース化しました。

There is a belief that learning to compress well will lead to intelligence. Recently, language modeling has been shown to be equivalent to compression, which offers a compelling rationale for the success of large language models (LLMs): the development of more advanced language models is essentially enhancing compression which facilitates intelligence. Despite such appealing discussions, little empirical evidence is present for the interplay between compression and intelligence. In this work, we examine their relationship in the context of LLMs, treating LLMs as data compressors. Given the abstract concept of "intelligence", we adopt the average downstream benchmark scores as a surrogate, specifically targeting intelligence related to knowledge and commonsense, coding, and mathematical reasoning. Across 12 benchmarks, our study brings together 30 public LLMs that originate from diverse organizations. Remarkably, we find that LLMs' intelligence -- reflected by average benchmark scores -- almost linearly correlates with their ability to compress external text corpora. These results provide concrete evidence supporting the belief that superior compression indicates greater intelligence. Furthermore, our findings suggest that compression efficiency, as an unsupervised metric derived from raw text corpora, serves as a reliable evaluation measure that is linearly associated with the model capabilities. We open-source our compression datasets as well as our data collection pipelines to facilitate future researchers to assess compression properly.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 定理証明のための深層学習に関する調査研究

A Survey on Deep Learning for Theorem Proving ( http://arxiv.org/abs/2404.09939v1 )

ライセンス: Link先を確認
Zhaoyu Li, Jialiang Sun, Logan Murphy, Qidong Su, Zenan Li, Xian Zhang, Kaiyu Yang, Xujie Si, (参考訳) 定理証明は数学の基本的側面であり、数学言語の非公式な推論から形式体系における厳密な導出まで及ぶ。 近年、ディープラーニングの進歩、特に大規模言語モデルの台頭は、これらの手法を探求し、定理証明のプロセスを強化する顕著な研究の急増を引き起こしている。 本稿では,提案する定理証明のための深層学習の先駆的な包括的調査について述べる。 一 自己書式化、前提選択、証明工程生成及び証明探索等の様々な業務における既存のアプローチの徹底的な見直し 二 データ生成のための利用可能なデータセット及び戦略の精巧な要約 三 評価指標及び最先端の実績の詳細な分析及び 四 持続的課題及び将来の探検の見込みある道についての批判的議論。 本調査は, この急速に成長する分野において, さらなる研究努力の触媒となることを目的として, 定理証明における深層学習アプローチの基礎的参考として機能することを目的としている。

Theorem proving is a fundamental aspect of mathematics, spanning from informal reasoning in mathematical language to rigorous derivations in formal systems. In recent years, the advancement of deep learning, especially the emergence of large language models, has sparked a notable surge of research exploring these techniques to enhance the process of theorem proving. This paper presents a pioneering comprehensive survey of deep learning for theorem proving by offering i) a thorough review of existing approaches across various tasks such as autoformalization, premise selection, proofstep generation, and proof search; ii) a meticulous summary of available datasets and strategies for data generation; iii) a detailed analysis of evaluation metrics and the performance of state-of-the-art; and iv) a critical discussion on the persistent challenges and the promising avenues for future exploration. Our survey aims to serve as a foundational reference for deep learning approaches in theorem proving, seeking to catalyze further research endeavors in this rapidly growing field.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# eMotion-GAN:フロントビューの合成を保存したフォトリアリスティックおよび顔表現のためのモーションベースGAN

eMotion-GAN: A Motion-based GAN for Photorealistic and Facial Expression Preserving Frontal View Synthesis ( http://arxiv.org/abs/2404.09940v1 )

ライセンス: Link先を確認
Omar Ikne, Benjamin Allaert, Ioan Marius Bilasco, Hazem Wannous, (参考訳) 多くの既存の顔表情認識(FER)システムは、頭部ポーズの変化に直面すると、かなり性能が低下する。 このような条件下で、これらのシステムの性能を高めるために、多くのフロンダリゼーション手法が提案されている。 しかし、それらはしばしば望ましくない変形を導入し、正確な表情解析には適さない。 本稿では,動き領域内の表情を保存しながら,正面視合成のための新しい深層学習手法であるeMotion-GANを提案する。 頭の変化による動きをノイズとして、表情によって誘発される動きを関連情報として考慮し、このモデルを用いて、表情に関連する動きのみを保持するために雑音運動を除去する訓練を行った。 そして、フィルタされた動きを中性前頭面にマッピングして、対応する表現性前頭面を生成する。 本研究は,複数の動的FERデータセットを用いて広範囲な評価を行った。 本研究は,正面面と非正面面のFER性能ギャップを著しく低減する手法の有効性を示すものである。 具体的には,小ポーズ変量では最大+5\%,大ポーズ変量では最大+20\%の改善が達成された。 コードは \url{https://github.com/o-ikne/eMotion-GAN.git} で公開されている。

Many existing facial expression recognition (FER) systems encounter substantial performance degradation when faced with variations in head pose. Numerous frontalization methods have been proposed to enhance these systems' performance under such conditions. However, they often introduce undesirable deformations, rendering them less suitable for precise facial expression analysis. In this paper, we present eMotion-GAN, a novel deep learning approach designed for frontal view synthesis while preserving facial expressions within the motion domain. Considering the motion induced by head variation as noise and the motion induced by facial expression as the relevant information, our model is trained to filter out the noisy motion in order to retain only the motion related to facial expression. The filtered motion is then mapped onto a neutral frontal face to generate the corresponding expressive frontal face. We conducted extensive evaluations using several widely recognized dynamic FER datasets, which encompass sequences exhibiting various degrees of head pose variations in both intensity and orientation. Our results demonstrate the effectiveness of our approach in significantly reducing the FER performance gap between frontal and non-frontal faces. Specifically, we achieved a FER improvement of up to +5\% for small pose variations and up to +20\% improvement for larger pose variations. Code available at \url{https://github.com/o-ikne/eMotion-GAN.git}.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 大規模言語モデルを用いた解釈可能な視覚分類器の進化

Evolving Interpretable Visual Classifiers with Large Language Models ( http://arxiv.org/abs/2404.09941v1 )

ライセンス: Link先を確認
Mia Chiquier, Utkarsh Mall, Carl Vondrick, (参考訳) CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。 しかし、画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。 さらに、実践的な設定では、クラス名や特殊概念の属性の語彙は知られていないため、大規模な視覚言語データセットでは一般的ではない画像に対して、これらの手法がうまく機能しない。 これらの制約に対処するため、視覚認識のための解釈可能だが識別可能な属性集合を検出する新しい手法を提案する。 本稿では,大規模言語モデルとその文脈内学習能力を用いた進化的探索アルゴリズムを提案する。 本手法は, 最先端, 解釈可能な細粒度分類器を生成する。 我々は、5つの細かいiNaturalistデータセットで18.4%、および2つのKikiBoubaデータセットで22.2%、クラス名に関する特権情報にアクセスできるベースラインにもかかわらず、最新のベースラインを18.4%上回っている。

Multimodal pre-trained models, such as CLIP, are popular for zero-shot classification due to their open-vocabulary flexibility and high performance. However, vision-language models, which compute similarity scores between images and class labels, are largely black-box, with limited interpretability, risk for bias, and inability to discover new visual concepts not written down. Moreover, in practical settings, the vocabulary for class names and attributes of specialized concepts will not be known, preventing these methods from performing well on images uncommon in large-scale vision-language datasets. To address these limitations, we present a novel method that discovers interpretable yet discriminative sets of attributes for visual recognition. We introduce an evolutionary search algorithm that uses a large language model and its in-context learning abilities to iteratively mutate a concept bottleneck of attributes for classification. Our method produces state-of-the-art, interpretable fine-grained classifiers. We outperform the latest baselines by 18.4% on five fine-grained iNaturalist datasets and by 22.2% on two KikiBouba datasets, despite the baselines having access to privileged information about class names.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# コンピュータ病理診断のための知識強化型ビジュアルランゲージプレトレーニング

Knowledge-enhanced Visual-Language Pretraining for Computational Pathology ( http://arxiv.org/abs/2404.09942v1 )

ライセンス: Link先を確認
Xiao Zhou, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Weidi Xie, Yanfeng Wang, (参考訳) 本稿では,公共資源から収集した大規模画像テキストペアと,病理学における領域固有の知識を活用することで,コンピュータ病理学における視覚表現学習の課題を考察する。 具体的には、以下の貢献をします。 (i)32個のヒト組織から病理診断を必要とする4,718の疾患について50,470個の情報属性からなる病理知識ツリーをキュレートする。 私たちの知る限りでは、これが最初の包括的構造的病理知識基盤である。 (II)我々は、言語モデルを介して潜伏埋め込み空間に病理学固有の知識を計画し、それを視覚表現学習の指導に利用する知識強化型視覚言語事前学習手法を開発した。 3) 提案手法の有効性を検証するため, クロスモーダル検索, 病理診断におけるゼロショット分類, スライド画像全体(WSI)におけるゼロショットのサブタイプなど, 様々な下流タスクにおいて, 大幅な性能向上を図っている。 すべてのコード、モデル、病理知識ツリーが研究コミュニティに公開される。

In this paper, we consider the problem of visual representation learning for computational pathology, by exploiting large-scale image-text pairs gathered from public resources, along with the domain specific knowledge in pathology. Specifically, we make the following contributions: (i) We curate a pathology knowledge tree that consists of 50,470 informative attributes for 4,718 diseases requiring pathology diagnosis from 32 human tissues. To our knowledge, this is the first comprehensive structured pathology knowledge base; (ii) We develop a knowledge-enhanced visual-language pretraining approach, where we first project pathology-specific knowledge into latent embedding space via language model, and use it to guide the visual representation learning; (iii) We conduct thorough experiments to validate the effectiveness of our proposed components, demonstrating significant performance improvement on various downstream tasks, including cross-modal retrieval, zero-shot classification on pathology patches, and zero-shot tumor subtyping on whole slide images (WSIs). All codes, models and the pathology knowledge tree will be released to the research community
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# モデルに基づく強化学習における損失関数と誤り合成に関する一考察

A Note on Loss Functions and Error Compounding in Model-based Reinforcement Learning ( http://arxiv.org/abs/2404.09946v1 )

ライセンス: Link先を確認
Nan Jiang, (参考訳) このノートは、モデルに基づく強化学習とその深いRLの文脈における理論的理解に関して、いくつかの混乱(そしておそらくそれ以上の混乱)を明らかにしている。 主な論点として,(1)モデルに基づくRLの誤り評価と,(2)経験的人気損失の限界を比較検討する。 後者の場合、「MuZero損失」に対する具体的な反例は、確率的環境において失敗するだけでなく、データが十分なカバレッジを提供する場合、決定論的環境において指数的なサンプルの複雑さを被ることを示すために構築される。

This note clarifies some confusions (and perhaps throws out more) around model-based reinforcement learning and their theoretical understanding in the context of deep RL. Main topics of discussion are (1) how to reconcile model-based RL's bad empirical reputation on error compounding with its superior theoretical properties, and (2) the limitations of empirically popular losses. For the latter, concrete counterexamples for the "MuZero loss" are constructed to show that it not only fails in stochastic environments, but also suffers exponential sample complexity in deterministic environments when data provides sufficient coverage.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 精密アクションスポッティングのためのグローバル・ローカル・シーン・エンティティ・モデリング

Unifying Global and Local Scene Entities Modelling for Precise Action Spotting ( http://arxiv.org/abs/2404.09951v1 )

ライセンス: Link先を確認
Kim Hoang Tran, Phuc Vuong Do, Ngoc Quoc Ly, Ngan Le, (参考訳) スポーツビデオは、乱雑な背景、カメラアングルの変化、小さなアクション表現オブジェクト、不均衡なアクションクラス分布など、複雑な課題を生んでいる。 既存のスポーツビデオにおける行動検出方法は、空間フレーム全体を包含するブラックボックスとしてバックボーンネットワークを利用して、グローバルな特徴に大きく依存している。 しかし、これらのアプローチはシーンのニュアンスを見落とし、フレームのごく一部を占めるアクションを検出するのに苦労する傾向にある。 特に、ボールや黄色/赤のカードなど、画面空間のごく一部を占める小さな物体を扱う場合の難しさに直面する。 これらの課題に対処するため,アダプティブ・アテンション・メカニズムを用いてシーン・エンティティを解析・モデル化する手法を提案する。 特に,本モデルでは,シーンコンテンツをグローバルな環境機能とローカルなシーンエンティティ機能に分解する。 時間的情報を少ない計算コストで考慮し,環境特性を効率的に抽出するために,時間シフト機構を備えた2次元バックボーンネットワークを提案する。 関連するシーンを正確に把握するために、適応的なアテンション機構とともにビジョン・ランゲージモデルを用いる。 また,本モデルでは,FocoNet-v2アクションスポッティング,ファインディヴィング,ファインガイムの1位を獲得し,アvg-mAPの1.6,2.0,1.3ポイントの大幅な性能向上を実現した。 さらに,本手法は,ブラックボックスとして設計される他のディープラーニングモデルとは対照的に,解釈可能性を提供する。 私たちのコードとモデルは、https://github.com/Fsoft-AIC/unifying-global-local-feature.comでリリースされています。

Sports videos pose complex challenges, including cluttered backgrounds, camera angle changes, small action-representing objects, and imbalanced action class distribution. Existing methods for detecting actions in sports videos heavily rely on global features, utilizing a backbone network as a black box that encompasses the entire spatial frame. However, these approaches tend to overlook the nuances of the scene and struggle with detecting actions that occupy a small portion of the frame. In particular, they face difficulties when dealing with action classes involving small objects, such as balls or yellow/red cards in soccer, which only occupy a fraction of the screen space. To address these challenges, we introduce a novel approach that analyzes and models scene entities using an adaptive attention mechanism. Particularly, our model disentangles the scene content into the global environment feature and local relevant scene entities feature. To efficiently extract environmental features while considering temporal information with less computational cost, we propose the use of a 2D backbone network with a time-shift mechanism. To accurately capture relevant scene entities, we employ a Vision-Language model in conjunction with the adaptive attention mechanism. Our model has demonstrated outstanding performance, securing the 1st place in the SoccerNet-v2 Action Spotting, FineDiving, and FineGym challenge with a substantial performance improvement of 1.6, 2.0, and 1.3 points in avg-mAP compared to the runner-up methods. Furthermore, our approach offers interpretability capabilities in contrast to other deep learning models, which are often designed as black boxes. Our code and models are released at: https://github.com/Fsoft-AIC/unifying-global-local-feature.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# LLMorpheus: 大規模言語モデルを用いた変異テスト

LLMorpheus: Mutation Testing using Large Language Models ( http://arxiv.org/abs/2404.09952v1 )

ライセンス: Link先を確認
Frank Tip, Jonathan Bell, Max Schäfer, (参考訳) 突然変異テストでは、プログラムに欠陥を導入し、プログラムのテストがそれらを検出するかどうかを判断することで、テストスイートの品質を評価する。 既存の突然変異検査のアプローチでは、例えば「+」を「-」に置き換えたり、関数の体を除去したりといった、固定された突然変異演算子の応用がほとんどである。 しかし、ある種の現実世界のバグはそのようなアプローチによって容易にシミュレートできないため、その効果は制限される。 本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。 この技術はJavaScriptの突然変異テストツールであるLLMorpheusで実装され、プロンプト戦略のいくつかのバリエーションを考慮して13の主題パッケージで評価され、複数のLSMを使用する。 LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。 さらに, LLMorpheusが生産する変異株の走行時間, コスト, 数について報告し, その実用性を示した。

In mutation testing, the quality of a test suite is evaluated by introducing faults into a program and determining whether the program's tests detect them. Most existing approaches for mutation testing involve the application of a fixed set of mutation operators, e.g., replacing a "+" with a "-" or removing a function's body. However, certain types of real-world bugs cannot easily be simulated by such approaches, limiting their effectiveness. This paper presents a technique where a Large Language Model (LLM) is prompted to suggest mutations by asking it what placeholders that have been inserted in source code could be replaced with. The technique is implemented in LLMorpheus, a mutation testing tool for JavaScript, and evaluated on 13 subject packages, considering several variations on the prompting strategy, and using several LLMs. We find LLMorpheus to be capable of producing mutants that resemble existing bugs that cannot be produced by StrykerJS, a state-of-the-art mutation testing tool. Moreover, we report on the running time, cost, and number of mutants produced by LLMorpheus, demonstrating its practicality.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 木に基づくアクティブラーニングの分類:ラッパーアプローチ

Classification Tree-based Active Learning: A Wrapper Approach ( http://arxiv.org/abs/2404.09953v1 )

ライセンス: Link先を確認
Ashna Jose, Emilie Devijver, Massih-Reza Amini, Noel Jakse, Roberta Poloni, (参考訳) 監視された機械学習は、正確なモデルをトレーニングするために大規模なトレーニングセットを必要とすることが多いが、大量のラベル付きデータを取得することは、必ずしも実現可能であるとは限らない。 したがって、高精度を維持しつつ、トレーニングセットのサイズを減らし、アクティブな学習方法を探求することが重要である。 目的は、ラベル付けされていない初期セットからラベル付けするためのデータの最適なサブセットを選択し、結果の正確な予測を保証することである。 しかし、従来の能動学習アプローチは古典的なランダムサンプリングに匹敵する。 本稿では,木構造にサンプリングプロセスを整理し,最先端のアルゴリズムを改良したラッパー能動的学習手法を提案する。 ラベル付き標本の初期集合上に構築された分類木は、空間を低エントロピー領域に分解すると考えられる。 その後、入力空間に基づく基準がこれらの領域からのサブサンプルに使われ、各領域にラベル付けされるポイントの総数は分解される。 この適応は、既存のアクティブラーニング手法よりも大幅に向上することが証明されている。 各種ベンチマークデータセットを用いて行った実験により,厳密な制限付きラベル付きデータセットであっても,正確な分類モデルの構築に有効であることを示す。

Supervised machine learning often requires large training sets to train accurate models, yet obtaining large amounts of labeled data is not always feasible. Hence, it becomes crucial to explore active learning methods for reducing the size of training sets while maintaining high accuracy. The aim is to select the optimal subset of data for labeling from an initial unlabeled set, ensuring precise prediction of outcomes. However, conventional active learning approaches are comparable to classical random sampling. This paper proposes a wrapper active learning method for classification, organizing the sampling process into a tree structure, that improves state-of-the-art algorithms. A classification tree constructed on an initial set of labeled samples is considered to decompose the space into low-entropy regions. Input-space based criteria are used thereafter to sub-sample from these regions, the total number of points to be labeled being decomposed into each region. This adaptation proves to be a significant enhancement over existing active learning methods. Through experiments conducted on various benchmark data sets, the paper demonstrates the efficacy of the proposed framework by being effective in constructing accurate classification models, even when provided with a severely restricted labeled data set.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 基礎モデルを用いた最良の医用画像分割アルゴリズムの構築--セグメンテーションモデルを用いた総合的研究

How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model ( http://arxiv.org/abs/2404.09957v1 )

ライセンス: Link先を確認
Hanxue Gu, Haoyu Dong, Jichen Yang, Maciej A. Mazurowski, (参考訳) 自動セグメンテーションは医用画像解析の基本的な課題であり、深層学習の出現による大きな進歩を享受している。 基礎モデルは、自然言語処理や視覚タスクにおいてしばらくは有用であったが、イメージセグメンテーションを念頭に開発された基礎モデルは、SAM(Seegment Anything Model)と呼ばれるもので、最近になって開発され、同様の可能性を示している。 しかし,画像分割のためのSAMの最適微調整のための体系的分析や'best-practice'ガイドラインはいまだに存在しない。 この研究は、様々なバックボーンアーキテクチャ、モデルコンポーネント、および18の組み合わせにわたる微調整アルゴリズムによる既存の微調整戦略を要約し、すべての一般的な放射線学のモダリティをカバーする17のデータセットで評価する。 本研究は,(1)細調整SAMが従来のセグメンテーション法よりも若干優れた性能をもたらすこと,(2)エンコーダとデコーダの両方でパラメータ効率のよい学習手法が優れていること,(3)ネットワークアーキテクチャが最終性能に小さな影響を与えていること,(4)自己教師型学習によるSAMのさらなるトレーニングが最終モデル性能を向上させることを明らかにした。 また,本研究で広く普及しているいくつかの手法の非効率性を実証し,実験をいくつかのショットとプロンプトベースの設定に拡張した。 最後に、私たちのコードとMRI固有の微調整ウェイトをリリースし、オリジナルのSAMよりも一貫して優れたパフォーマンスを得た。

Automated segmentation is a fundamental medical image analysis task, which enjoys significant advances due to the advent of deep learning. While foundation models have been useful in natural language processing and some vision tasks for some time, the foundation model developed with image segmentation in mind - Segment Anything Model (SAM) - has been developed only recently and has shown similar promise. However, there are still no systematic analyses or ``best-practice'' guidelines for optimal fine-tuning of SAM for medical image segmentation. This work summarizes existing fine-tuning strategies with various backbone architectures, model components, and fine-tuning algorithms across 18 combinations, and evaluates them on 17 datasets covering all common radiology modalities. Our study reveals that (1) fine-tuning SAM leads to slightly better performance than previous segmentation methods, (2) fine-tuning strategies that use parameter-efficient learning in both the encoder and decoder are superior to other strategies, (3) network architecture has a small impact on final performance, (4) further training SAM with self-supervised learning can improve final model performance. We also demonstrate the ineffectiveness of some methods popular in the literature and further expand our experiments into few-shot and prompt-based settings. Lastly, we released our code and MRI-specific fine-tuned weights, which consistently obtained superior performance over the original SAM, at https://github.com/mazurowski-lab/finetune-SAM.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# Ti-Patch: ノンリファレンスビデオ品質指標のためのタグ付き物理適応パッチ

Ti-Patch: Tiled Physical Adversarial Patch for no-reference video quality metrics ( http://arxiv.org/abs/2404.09961v1 )

ライセンス: Link先を確認
Victoria Leonenkova, Ekaterina Shumitskaya, Anastasia Antsiferova, Dmitriy Vatolin, (参考訳) 客観的な非参照画像とビデオ品質のメトリクスは、多くのコンピュータビジョンタスクにおいて不可欠である。 しかし、最先端の非参照メトリクスは学習ベースになり、敵の攻撃に弱い。 品質指標の脆弱性は、品質管理システムにおけるそのようなメトリクスの使用や、客観的アルゴリズムの比較に制限を課す。 また、ディープラーニングモデルトレーニングの損失として脆弱なメトリクスを使用することで、トレーニングを誤解して視覚的品質が悪化する可能性がある。 そのため、脆弱性に対する品質メトリクスのテストは、現在の関心事である。 本稿では,物理空間における品質指標の脆弱性を検査するための新しい手法を提案する。 私たちの知る限り、この攻撃の脆弱性については、これまで品質メトリクスはテストされておらず、ピクセル空間でのみテストされています。 物理対向性Ti-Patch(Tiled Patch)攻撃を品質指標に適用し,ピクセルと物理空間の両方で実験を行った。 また,物理対向壁紙の実装実験を行った。 提案手法は,画素空間における従来の主観的比較と脆弱性テストの補完として,脆弱性評価における付加的な品質指標として利用することができる。 コードと敵のビデオはGitHubで公開しました。

Objective no-reference image- and video-quality metrics are crucial in many computer vision tasks. However, state-of-the-art no-reference metrics have become learning-based and are vulnerable to adversarial attacks. The vulnerability of quality metrics imposes restrictions on using such metrics in quality control systems and comparing objective algorithms. Also, using vulnerable metrics as a loss for deep learning model training can mislead training to worsen visual quality. Because of that, quality metrics testing for vulnerability is a task of current interest. This paper proposes a new method for testing quality metrics vulnerability in the physical space. To our knowledge, quality metrics were not previously tested for vulnerability to this attack; they were only tested in the pixel space. We applied a physical adversarial Ti-Patch (Tiled Patch) attack to quality metrics and did experiments both in pixel and physical space. We also performed experiments on the implementation of physical adversarial wallpaper. The proposed method can be used as additional quality metrics in vulnerability evaluation, complementing traditional subjective comparison and vulnerability tests in the pixel space. We made our code and adversarial videos available on GitHub: https://github.com/leonenkova/Ti-Patch.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 不変部分空間分解

Invariant Subspace Decomposition ( http://arxiv.org/abs/2404.09962v1 )

ライセンス: Link先を確認
Margherita Lazzaretto, Jonas Peters, Niklas Pfister, (参考訳) X の条件分布が時間とともに変化するような環境で、共変量 X の集合から応答 Y を予測するタスクを考察する。 これを実現するためには、条件分布が時間とともにどのように変化するかという仮定が必要である。 既存のアプローチでは、例えば、変化は時間とともにスムーズに起こるので、最近の過去だけを使った短期的な予測が実現可能であると仮定している。 本研究では, 線形条件分布を時間不変成分と時間依存成分に分割する, 不変部分空間分解 (ISD) と呼ばれる, 線形条件分布の新たな不変性に基づくフレームワークを提案する。 示すように、この分解はゼロショットと時間順応予測の両方のタスク、すなわち、Y で予測したい時点において、未または少量のトレーニングデータが利用可能であるような設定に利用することができる。 本稿では, 近似的関節行列対角化法からツールを用いて自動的に分解を推定する実用的推定手法を提案する。 さらに、提案した推定器に対して有限サンプル保証を提供し、追加の不変構造を使用しないアプローチで実際に改善できることを実証的に証明する。

We consider the task of predicting a response Y from a set of covariates X in settings where the conditional distribution of Y given X changes over time. For this to be feasible, assumptions on how the conditional distribution changes over time are required. Existing approaches assume, for example, that changes occur smoothly over time so that short-term prediction using only the recent past becomes feasible. In this work, we propose a novel invariance-based framework for linear conditionals, called Invariant Subspace Decomposition (ISD), that splits the conditional distribution into a time-invariant and a residual time-dependent component. As we show, this decomposition can be utilized both for zero-shot and time-adaptation prediction tasks, that is, settings where either no or a small amount of training data is available at the time points we want to predict Y at, respectively. We propose a practical estimation procedure, which automatically infers the decomposition using tools from approximate joint matrix diagonalization. Furthermore, we provide finite sample guarantees for the proposed estimator and demonstrate empirically that it indeed improves on approaches that do not use the additional invariant structure.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# 社会集団活動認識のための変圧器の効率よい注意力の設計と解析

Design and Analysis of Efficient Attention in Transformers for Social Group Activity Recognition ( http://arxiv.org/abs/2404.09964v1 )

ライセンス: Link先を確認
Masato Tamura, (参考訳) 社会集団活動認識は、グループ活動認識から拡張された課題であり、社会集団は、その活動とグループメンバーによって認識されなければならない。 既存手法は,既存のグループ活動認識手法に従って,個人の地域的特徴を活用することで,この課題に対処する。 しかし、地域特徴の有効性は、個人の局所化や個人行動の変動意味論に影響を受けやすい。 これらの課題を克服するために,トランスフォーマーのアテンションモジュールを利用してソーシャルグループ機能を生成することを提案する。 この方法では、複数の埋め込みを用いてソーシャルグループの特徴を集約し、それぞれが重複なくグループメンバーに割り当てられる。 この非重複的な割り当てのため、グループメンバーの欠如を避けるために埋め込みの数が重要でなければならないため、トランスフォーマーに注意を向けることができない。 多数の埋め込みを含む最適注意設計を求めるため,変換器デコーダにおける特徴集約と自己注意モジュールに対するクエリの設計選択について検討する。 大規模実験の結果,提案手法は最先端の性能を達成し,提案手法が社会集団の行動認識に極めて有効であることを検証した。

Social group activity recognition is a challenging task extended from group activity recognition, where social groups must be recognized with their activities and group members. Existing methods tackle this task by leveraging region features of individuals following existing group activity recognition methods. However, the effectiveness of region features is susceptible to person localization and variable semantics of individual actions. To overcome these issues, we propose leveraging attention modules in transformers to generate social group features. In this method, multiple embeddings are used to aggregate features for a social group, each of which is assigned to a group member without duplication. Due to this non-duplicated assignment, the number of embeddings must be significant to avoid missing group members and thus renders attention in transformers ineffective. To find optimal attention designs with a large number of embeddings, we explore several design choices of queries for feature aggregation and self-attention modules in transformer decoders. Extensive experimental results show that the proposed method achieves state-of-the-art performance and verify that the proposed attention designs are highly effective on social group activity recognition.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-15
# Ctrl-Adapter:任意の拡散モデルに分散制御を適応するための効率的でヴァーサタイルなフレームワーク

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model ( http://arxiv.org/abs/2404.09967v1 )

ライセンス: Link先を確認
Han Lin, Jaemin Cho, Abhay Zala, Mohit Bansal, (参考訳) ControlNetは、深度マップ、キャニーエッジ、人間のポーズなど、さまざまな条件で画像生成に空間制御を追加するために広く使用されている。 しかし、事前訓練された画像制御ネットを制御ビデオ生成に利用する際には、いくつかの課題がある。 まず、事前訓練されたControlNetは、機能空間のミスマッチのため、新しいバックボーンモデルに直接プラグインできない。 第2に、異なるフレームのControlNet機能は、時間的一貫性を効果的に扱えない可能性がある。 これらの課題に対処するために、Ctrl-Adapterを導入する。Ctrl-Adapterは、任意の画像/ビデオ拡散モデルに対して、事前トレーニングされたControlNet(ビデオの時間的アライメントの改善)を適用することにより、多様なコントロールを追加する、効率的で汎用的なフレームワークである。 Ctrl-Adapterは、画像制御、ビデオ制御、スパースフレームによるビデオ制御、マルチ条件制御、異なるバックボーンとの互換性、見えない制御条件への適応、ビデオ編集など、多様な機能を提供する。 Ctrl-Adapterでは、CtrlNetのパラメータと拡散モデルの凍結を維持しながら、トレーニング済みのControlNet機能を異なる画像/ビデオ拡散モデルに融合するアダプタ層を訓練する。 Ctrl-Adapterは時間的および空間的なモジュールで構成されており、ビデオの時間的一貫性を効果的に扱うことができる。 また,頑健な適応とスパース制御のための潜時スキップと逆時間ステップサンプリングを提案する。 さらに、Ctrl-Adapterは、制御ネット出力の(重み付けされた)平均を取るだけで、複数の条件から制御できる。 多様な画像/ビデオ拡散バックボーン(SDXL、Hotshot-XL、I2VGen-XL、SVD)により、Ctrl-Adapterは、画像制御のためのControlNetにマッチし、ビデオ制御のためのすべてのベースライン(DAVIS 2017データセットでのSOTA精度を達成する)をはるかに低い計算コスト(10GPU時間未満)で上回る。

ControlNets are widely used for adding spatial control in image generation with different conditions, such as depth maps, canny edges, and human poses. However, there are several challenges when leveraging the pretrained image ControlNets for controlled video generation. First, pretrained ControlNet cannot be directly plugged into new backbone models due to the mismatch of feature spaces, and the cost of training ControlNets for new backbones is a big burden. Second, ControlNet features for different frames might not effectively handle the temporal consistency. To address these challenges, we introduce Ctrl-Adapter, an efficient and versatile framework that adds diverse controls to any image/video diffusion models, by adapting pretrained ControlNets (and improving temporal alignment for videos). Ctrl-Adapter provides diverse capabilities including image control, video control, video control with sparse frames, multi-condition control, compatibility with different backbones, adaptation to unseen control conditions, and video editing. In Ctrl-Adapter, we train adapter layers that fuse pretrained ControlNet features to different image/video diffusion models, while keeping the parameters of the ControlNets and the diffusion models frozen. Ctrl-Adapter consists of temporal and spatial modules so that it can effectively handle the temporal consistency of videos. We also propose latent skipping and inverse timestep sampling for robust adaptation and sparse control. Moreover, Ctrl-Adapter enables control from multiple conditions by simply taking the (weighted) average of ControlNet outputs. With diverse image/video diffusion backbones (SDXL, Hotshot-XL, I2VGen-XL, and SVD), Ctrl-Adapter matches ControlNet for image control and outperforms all baselines for video control (achieving the SOTA accuracy on the DAVIS 2017 dataset) with significantly lower computational costs (less than 10 GPU hours).
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# LLMにおけるハロゲン化防止のためのベンチマークの構築と対策

Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs ( http://arxiv.org/abs/2404.09971v1 )

ライセンス: Link先を確認
Adi Simhi, Jonathan Herzig, Idan Szpektor, Yonatan Belinkov, (参考訳) 大型言語モデル(LLM)は幻覚の影響を受けやすいため、それらを検出し予防するための広範囲な取り組みが引き起こされた。 最近の研究は、異なる設定とヒューリスティックを用いて、生成中のモデルの計算を介入することで幻覚を緩和しようとする試みである。 これらの作品は、異なる幻覚の原因の分離を欠いている。 そこで本研究では,クローズドブックとオープンブックの質問応答設定における検出・介入手法のモデル知識に基づくデータセット構築手法を提案する。 次に、インターベンションコンポーネント(MLP、アテンションブロック、残留ストリーム、特定のヘッド)や、インターベンションの頻度と強度など、介入のための異なる選択の効果を特徴付ける。 介入の成功はコンポーネントによって異なり、いくつかのコンポーネントは言語モデリング能力に有害である。 最後に, 介入は, 予防接種後ではなく, 予防接種前操舵の方向性の恩恵を受けることが判明した。 コードはhttps://github.com/technion-cs-nlp/hallucination-mitigationで公開されている。

Large language models (LLMs) are susceptible to hallucination, which sparked a widespread effort to detect and prevent them. Recent work attempts to mitigate hallucinations by intervening in the model's computation during generation, using different setups and heuristics. Those works lack separation between different hallucination causes. In this work, we first introduce an approach for constructing datasets based on the model knowledge for detection and intervention methods in closed-book and open-book question-answering settings. We then characterize the effect of different choices for intervention, such as the intervened components (MLPs, attention block, residual stream, and specific heads), and how often and how strongly to intervene. We find that intervention success varies depending on the component, with some components being detrimental to language modeling capabilities. Finally, we find that interventions can benefit from pre-hallucination steering direction instead of post-hallucination. The code is available at https://github.com/technion-cs-nlp/hallucination-mitigation
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# サブグループ安定化プロジェクタによる量子エラー抑制

Quantum Error Suppression with Subgroup Stabilisation Projectors ( http://arxiv.org/abs/2404.09973v1 )

ライセンス: Link先を確認
Bo Yang, Elham Kashefi, Dominik Leichtle, Harold Ollivier, (参考訳) 量子状態浄化(Quantum state purification)とは、未知の状態の複数のコピーが与えられたとき、純度の高い状態を出力する機能である。 これは、予測値だけでなく、量子状態においてもエラーを抑えることができる完全なフォールトトレランスが利用可能になる前に、近・中期の量子生態系にとって不可欠なビルディングブロックである。 我々は、M$の量子入力を、M$の対称部分群を形成するプロジェクタの集合によって定義された対称部分空間に投影することで、適度な量子オーバーヘッドを持つ有効な状態浄化ガジェットを提案する。 提案手法は, ノイズ状態の重複コピーを$M$以上の短い進化で適用することにより, 整合性および確率的誤差を1/M$の係数で抑制することができる。 これにより、20年以上前にBarencoらによって提案された完全対称部分空間への状態投影よりもM$の回路実装コストを削減できる。我々はまた、我々のガジェットが、p$が小さいときのM$の最適選択で、確率$p$で非分極入力を漸近的に$O\left(p^{2}\right)$に浄化することを示した。 本手法は、完全フォールトトレラントコンピューティングが利用可能になる前に、ハードウェアの制約に応じて、フレキシブルな状態浄化の選択を提供する。 提案手法は,量子出力に対する堅牢な検証プロトコルの設計にも応用できる。

Quantum state purification is the functionality that, given multiple copies of an unknown state, outputs a state with increased purity. This is an essential building block for near- and middle-term quantum ecosystems before the availability of full fault tolerance, where one may want to suppress errors not only in expectation values but also in quantum states. We propose an effective state purification gadget with a moderate quantum overhead by projecting $M$ noisy quantum inputs to their symmetric subspace defined by a set of projectors forming a symmetric subgroup with order $M$. Our method, applied in every short evolution over $M$ redundant copies of noisy states, can suppress both coherent and stochastic errors by a factor of $1/M$. This reduces the circuit implementation cost $M$ times smaller than the state projection to the full symmetric subspace proposed more than two decades ago by Barenco et al. We also show that our gadget purifies the depolarised inputs with probability $p$ to asymptotically $O\left(p^{2}\right)$ with an optimal choice of $M$ when $p$ is small. Our method provides flexible choices of state purification depending on the hardware restrictions before fully fault-tolerant computing is available. Our method may also find its application in designing robust verification protocols for quantum outputs.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# Diffscaler: 拡散変換器の生成技術を強化する

Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers ( http://arxiv.org/abs/2404.09976v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Jeya Maria Jose Valanarasu, Vishal M. Patel, (参考訳) 近年、拡散変換器はテキスト・ツー・イメージモデルやテキスト・ツー・ビジョエモデルにおいて優れた性能を示し、拡散モデルのバックボーンとしてのトランスフォーマーの必要性を強調している。 トランスフォーマーベースのモデルは、一般的な視覚タスクのためのCNNベースのモデルと比較して、より優れた一般化能力を示している。 しかしながら、トランスフォーマーベースの拡散バックボーンの能力や、その生成能力を他のデータセットに拡張する能力について、既存の文献では、はるかに少ない研究がなされている。 本稿では,複数のデータセットにまたがる1つの事前学習拡散トランスフォーマーモデルの実現に焦点をあてる。 そこで本研究では,分散モデルの効率的なスケーリング戦略であるDiffScalerを提案する。 特に、事前学習されたモデルの学習サブスペースを利用する能力と、事前学習データセットにないかもしれない追加のタスク固有のサブスペースを学習する能力を組み合わせることで、各レイヤでのタスク固有の変換を学習する。 これらのパラメータは独立しているため、複数のタスクを同時に実行するために、これらのタスク固有のパラメータを持つ単一の拡散モデルを使用することができる。 さらに、変換器に基づく拡散モデルは、より小さなデータセットに対して微調整を行いながら、CNNベースの拡散モデルよりも大幅に優れていることがわかった。 4つの無条件画像生成データセットについて実験を行った。 提案手法を用いることで,条件付きタスクと非条件付きタスクをそれぞれスケールアップし,パラメータチューニングを最小限に抑えながら,特定のタスクに対する拡散モデル全体を微調整できることを示す。

Recently, diffusion transformers have gained wide attention with its excellent performance in text-to-image and text-to-vidoe models, emphasizing the need for transformers as backbone for diffusion models. Transformer-based models have shown better generalization capability compared to CNN-based models for general vision tasks. However, much less has been explored in the existing literature regarding the capabilities of transformer-based diffusion backbones and expanding their generative prowess to other datasets. This paper focuses on enabling a single pre-trained diffusion transformer model to scale across multiple datasets swiftly, allowing for the completion of diverse generative tasks using just one model. To this end, we propose DiffScaler, an efficient scaling strategy for diffusion models where we train a minimal amount of parameters to adapt to different tasks. In particular, we learn task-specific transformations at each layer by incorporating the ability to utilize the learned subspaces of the pre-trained model, as well as the ability to learn additional task-specific subspaces, which may be absent in the pre-training dataset. As these parameters are independent, a single diffusion model with these task-specific parameters can be used to perform multiple tasks simultaneously. Moreover, we find that transformer-based diffusion models significantly outperform CNN-based diffusion models methods while performing fine-tuning over smaller datasets. We perform experiments on four unconditional image generation datasets. We show that using our proposed method, a single pre-trained model can scale up to perform these conditional and unconditional tasks, respectively, with minimal parameter tuning while performing as close as fine-tuning an entire diffusion model for that particular task.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# MaxFusion: テキスト・画像拡散モデルにおけるプラグイン・プレイマルチモーダル生成

MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2404.09977v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Jeya Maria Jose Valanarasu, Vishal M Patel, (参考訳) 大規模な拡散型テキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成や空間条件の画像生成において、印象的な生成能力を示している。 ほとんどのアプリケーションでは、ペア化されたデータでモデルのエンドツーエンドをトレーニングして、フォトリアリスティックな生成品質を得ることができます。 しかし、追加のタスクを追加するには、優れた生成性能を維持するために、すべてのモダリティにまたがったペアデータを使用して、スクラッチからモデルを再トレーニングする必要があることが多い。 本稿では,この課題に対処し,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい戦略を提案する。 実験の結果,拡散モデルの中間特徴写像の分散写像が条件付けの強度を捉えていることが判明した。 この事前情報を利用することで、新しいモダリティ条件を満たすためにテキスト・画像生成モデルをスケールアップする効率的な戦略であるMaxFusionを提案する。 具体的には、複数のモデルの整列した特徴を組み合わせることで、構成効果をもたらす。 我々の融合戦略は、その生成能力を高めるために、既成のモデルに統合することができる。

Large diffusion-based Text-to-Image (T2I) models have shown impressive generative powers for text-to-image generation as well as spatially conditioned image generation. For most applications, we can train the model end-toend with paired data to obtain photorealistic generation quality. However, to add an additional task, one often needs to retrain the model from scratch using paired data across all modalities to retain good generation performance. In this paper, we tackle this issue and propose a novel strategy to scale a generative model across new tasks with minimal compute. During our experiments, we discovered that the variance maps of intermediate feature maps of diffusion models capture the intensity of conditioning. Utilizing this prior information, we propose MaxFusion, an efficient strategy to scale up text-to-image generation models to accommodate new modality conditions. Specifically, we combine aligned features of multiple models, hence bringing a compositional effect. Our fusion strategy can be integrated into off-the-shelf models to enhance their generative prowess.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# 光格子アレイにおける高速単一原子イメージング

Fast single atom imaging in optical lattice arrays ( http://arxiv.org/abs/2404.09978v1 )

ライセンス: Link先を確認
Lin Su, Alexander Douglas, Michal Szurek, Anne H. Hebert, Aaron Krahn, Robin Groth, Gregory A. Phelps, Ognjen Markovic, Markus Greiner, (参考訳) 超低温原子と分子の高分解能蛍光イメージングは、光学格子と光ツイーザの量子シミュレーションと計算を行う上で最重要である。 これらの実験の撮像時間は、一般的に1ミリ秒から1秒の範囲であり、サイクル時間を大幅に制限することができる。 この研究では、格子内の2.4 usの単一原子イメージングを、99.4%の忠実度で高速に行う。 さらに,アコーディオン格子を用いて回折限界内に分布する格子を分解し,撮像前の原子間隔を増大させる。 これは小幅格子のイメージングという課題を克服し、磁気原子を用いた拡張ハバードモデルの研究を可能にする。 また,パリティプロジェクションを伴わない数分解像も示しており,拡張されたボース・ハッバードモデル,マルチバンドまたはSU(N)フェルミ・ハッバードモデル,量子リンクモデルにおける高充足位相の探索などの実験を容易にする。

High-resolution fluorescence imaging of ultracold atoms and molecules is paramount to performing quantum simulation and computation in optical lattices and optical tweezers. Imaging durations in these experiments typically range from a millisecond to a second, which can significantly limit the cycle time. In this work, we present fast, 2.4 us single-atom imaging in lattices, with 99.4% fidelity. Additionally, we resolve lattice sites spaced within the diffraction limit by using accordion lattices to increase the atom spacing before imaging. This overcomes the challenge of imaging small-spacing lattices and enables the study of extended Hubbard models using magnetic atoms. We also demonstrate number-resolved imaging without parity projection, which will facilitate experiments such as the exploration of high-filling phases in the extended Bose-Hubbard models, multi-band or SU(N) Fermi-Hubbard models, and quantum link models.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# 2Dから3Dへのワンクリックアップグレード:立体遠隔会議のためのサンドウィッチRGB-Dビデオ圧縮

One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing ( http://arxiv.org/abs/2404.09979v1 )

ライセンス: Link先を確認
Yueyu Hu, Onur G. Guleryuz, Philip A. Chou, Danhang Tang, Jonathan Taylor, Rus Maxham, Yao Wang, (参考訳) ステレオRGB-Dビデオをリアルタイムに圧縮する必要があるため、ステレオビデオ会議は依然として難しい。 H.264 / AVC や HEVC などの標準ビデオコーデックのハードウェア実装は広く利用可能であるが、ステレオビデオ向けには設計されておらず、品質と性能の低下に悩まされている。 これらのコーデックの特定のマルチビューまたは3D拡張は複雑であり、効率的な実装がない。 本稿では,ステレオRGB-Dビデオ圧縮をサポートする2次元ビデオコーデックを,ニューラルプレプロセッサとポストプロセッサのペアでラップすることで,新しいアプローチを提案する。 ニューラルネットワークはイメージコーデックプロキシでエンドツーエンドでトレーニングされており、より洗練されたビデオコーデックで動作することが示されている。 また、レンダリング品質を向上させるために、幾何認識損失関数を提案する。 我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。 実験の結果、ニューラルネットワークは目に見えないデータによく一般化し、様々なビデオコーデックでアウト・オブ・ボックスで動作することがわかった。 従来のビデオ符号化方式やMV-HEVCと比較して,タスク固有のハードウェアアップグレードを必要とせずに,新たな視点からレンダリング品質を同等に保ちながら,ビットレートを約30%削減する。

Stereoscopic video conferencing is still challenging due to the need to compress stereo RGB-D video in real-time. Though hardware implementations of standard video codecs such as H.264 / AVC and HEVC are widely available, they are not designed for stereoscopic videos and suffer from reduced quality and performance. Specific multiview or 3D extensions of these codecs are complex and lack efficient implementations. In this paper, we propose a new approach to upgrade a 2D video codec to support stereo RGB-D video compression, by wrapping it with a neural pre- and post-processor pair. The neural networks are end-to-end trained with an image codec proxy, and shown to work with a more sophisticated video codec. We also propose a geometry-aware loss function to improve rendering quality. We train the neural pre- and post-processors on a synthetic 4D people dataset, and evaluate it on both synthetic and real-captured stereo RGB-D videos. Experimental results show that the neural networks generalize well to unseen data and work out-of-box with various video codecs. Our approach saves about 30% bit-rate compared to a conventional video coding scheme and MV-HEVC at the same level of rendering quality from a novel view, without the need of a task-specific hardware upgrade.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# コンテキストが重要である:タスク指向対話システムにおけるクラウドソーシング評価ラベルの意味

Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2404.09980v1 )

ライセンス: Link先を確認
Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke, (参考訳) クラウドソースラベルはタスク指向対話システム(TDS)の評価において重要な役割を果たす。 アノテータから高品質で一貫性のある基盤構造ラベルを取得することは、課題を提示します。 TDSを評価する際には、アノテータは判断を下す前に対話を完全に理解しなければならない。 従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。 しかし、この制限がラベルの品質に与える影響は未解明のままである。 本研究では,対話コンテキストがアノテーション品質に及ぼす影響について検討し,関連性や有用性について検討した。 さらに,対話コンテキストを要約した大言語モデル (LLM) を用いて,対話コンテキストのリッチで簡潔な記述を提供し,その処理がアノテータのパフォーマンスに与える影響について検討する。 コンテキストの削減は、より肯定的な評価につながる。 逆に、対話のコンテキスト全体を提供すると、より高品質な関連性評価が得られるが、有用性評価の曖昧さがもたらされる。 最初のユーザ発話をコンテキストとして使用すると、対話全体を使って得られるものと同様、一貫した評価が得られ、アノテーションの労力は大幅に削減される。 本研究は,タスクデザイン,特に対話コンテキストの可用性が,クラウドソース評価ラベルの品質と一貫性にどのように影響するかを示す。

Crowdsourced labels play a crucial role in evaluating task-oriented dialogue systems (TDSs). Obtaining high-quality and consistent ground-truth labels from annotators presents challenges. When evaluating a TDS, annotators must fully comprehend the dialogue before providing judgments. Previous studies suggest using only a portion of the dialogue context in the annotation process. However, the impact of this limitation on label quality remains unexplored. This study investigates the influence of dialogue context on annotation quality, considering the truncated context for relevance and usefulness labeling. We further propose to use large language models (LLMs) to summarize the dialogue context to provide a rich and short description of the dialogue context and study the impact of doing so on the annotator's performance. Reducing context leads to more positive ratings. Conversely, providing the entire dialogue context yields higher-quality relevance ratings but introduces ambiguity in usefulness ratings. Using the first user utterance as context leads to consistent ratings, akin to those obtained using the entire dialogue, with significantly reduced annotation effort. Our findings show how task design, particularly the availability of dialogue context, affects the quality and consistency of crowdsourced evaluation labels.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# 大規模言語モデルに基づくエージェントのためのメモリ共有

Memory Sharing for Large Language Model based Agents ( http://arxiv.org/abs/2404.09982v1 )

ライセンス: Link先を確認
Hang Gao, Yongfeng Zhang, (参考訳) 人工知能の領域において、自然言語プロンプトを介してタスクを実行するためのLarge Language Model (LLM) ベースのエージェントの適応は、特に、常識質問やye/noクエリのような定性課題に対する明示的なトレーニングや微調整の必要性を排除し、大きな進歩を示している。 しかし、詩作成などのオープンエンドな課題へのインコンテクスト学習の適用は、提供された例の包括性や、問題に表される内容を理解するエージェントの能力によって、かなりの制限が示され、しばしば期待された結果から大きく逸脱するアウトプットにつながる。 このギャップに対処するため,LLMマルチエージェントのためのメモリ共有(MS)フレームワークを導入し,リアルタイムメモリストレージと検索システムを用いてインコンテキスト学習プロセスを強化する。 このシステム内の各"メモリ"は、提案されたクエリと、LLMベースのエージェントからの対応するリアルタイム応答の両方をキャプチャし、これらのメモリを類似エージェントの広い範囲から集約し、すべてのエージェントが共有するメモリプールを強化する。 このフレームワークは、エージェントが特定のタスクの最も関連性の高い例を特定するのを助けるだけでなく、他のエージェントによる将来の応用のためのメモリの潜在的有用性を評価する。 エージェントの特殊機能を含む3つの異なる領域にまたがる実証的な検証は、MSフレームワークがオープンエンドの質問に対するエージェントのパフォーマンス改善を著しく改善していることを示す。 さらに、どのようなタイプのメモリプールとMSの検索戦略がエージェントに役立ち、MSの今後の開発方向性を提供するかについても論じる。

In the realm of artificial intelligence, the adaptation of Large Language Model (LLM)-based agents to execute tasks via natural language prompts represents a significant advancement, notably eliminating the need for explicit retraining or fine tuning for fixed-answer tasks such as common sense questions and yes/no queries. However, the application of In-context Learning to open-ended challenges, such as poetry creation, reveals substantial limitations due to the comprehensiveness of the provided examples and agent's ability to understand the content expressed in the problem, leading to outputs that often diverge significantly from expected results. Addressing this gap, our study introduces the Memory-Sharing (MS) framework for LLM multi-agents, which utilizes a real-time memory storage and retrieval system to enhance the In-context Learning process. Each "memory" within this system captures both the posed query and the corresponding real-time response from an LLM-based agent, aggregating these memories from a broad spectrum of similar agents to enrich the memory pool shared by all agents. This framework not only aids agents in identifying the most relevant examples for specific tasks but also evaluates the potential utility of their memories for future applications by other agents. Empirical validation across three distinct domains involving specialized functions of agents demonstrates that the MS framework significantly improve the agent's performance regrading the open-ended questions. Furthermore, we also discuss what type of memory pool and what retrieval strategy in MS can better help agents, offering a future develop direction of MS. The code and data are available at: https://github.com/GHupppp/MemorySharingLLM
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# ハイブリッドワークがアジャイルソフトウェア開発と出会う - システムマッピングによる研究

Hybrid Work meets Agile Software Development: A Systematic Mapping Study ( http://arxiv.org/abs/2404.09983v1 )

ライセンス: Link先を確認
Dron Khanna, Emily Laue Christensen, Saagarika Gosu, Xiaofeng Wang, Maria Paasivaara, (参考訳) ハイブリッドワークは、従業員がオフィス内外で働くことを可能にするさまざまな作業環境の融合であり、アジャイル研究者が探求する新たなフロンティアである。 しかしながら、研究現象の初期段階の性質のため、ハイブリッドワークがアジャイルソフトウェア開発に適合するときに形成される研究の状況について、まだ十分に理解できていない。 この体系的なマッピング研究は,この新たな研究領域の理解を深めることを目的としている。 続いて行われた体系的なプロセスによって、12の初等的な研究がまとめられました。 すべての論文は実証的研究であり、そのほとんどはケーススタディを研究方法論として採用している。 アジャイルメソッドの人中心的な性質は、この分野の研究において、まだ十分に反映されていない。 同様に、柔軟な作業配置という観点からは、ハイブリッドな作業に対するより豊かな理解が欠如しています。 今後の研究で探索できる様々な研究機会を特定した。

Hybrid work, a fusion of different work environments that allow employees to work in and outside their offices, represents a new frontier for agile researchers to explore. However, due to the nascent nature of the research phenomena, we are yet to achieve a good understanding of the research terrain formulated when hybrid work meets agile software development. This systematic mapping study, we aimed to provide a good understanding of this emerging research area. The systematic process we followed led to a collection of 12 primary studies, which is less than what we expected. All the papers are empirical studies, with most of them employing case studies as the research methodology. The people-centric nature of agile methods is yet to be adequately reflected in the studies in this area. Similarly, there is a lack of a richer understanding of hybrid work in terms of flexible work arrangements. Our mapping study identified various research opportunities that can be explored in future research.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# OneChart: 1つの補助トークンによるチャート構造抽出

OneChart: Purify the Chart Structural Extraction via One Auxiliary Token ( http://arxiv.org/abs/2404.09987v1 )

ライセンス: Link先を確認
Jinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang, (参考訳) チャート解析は、スタイル、価値、テキストなどの多様性のために大きな課題となる。 数十億のパラメータを持つ先進的な大規模視覚言語モデル(LVLM)でさえ、そのようなタスクを満足して処理するのに苦労する。 そこで我々は,チャート情報の構造抽出に特化して考案された信頼性エージェントであるOneChartを提案する。 一般的なLVLMと同様に、OneChartは自己回帰的な本体を組み込んでいる。 出力の数値的な部分の信頼性を高めるために,全トークンの先頭に配置された補助トークンと追加のデコーダを導入する。 数値的に最適化された(補助的な)トークンは、後続のグラフ解析用のトークンが因果的注意を通して強化された数値的特徴をキャプチャすることを可能にする。 さらに、補助トークンの活用により、生成したコンテンツに対する信頼スコアを提供することで、チャート解析結果の信頼性を評価できる自己評価機構を考案した。 現在の最先端(SOTA)チャートパーシングモデル(例えば、DePlot、ChartVLM、ChartAst、OneChart)と比較すると、0.2億のパラメータしか楽しんでいないにもかかわらず、複数の公開ベンチマークでチャート構造抽出を行うのに、平均精度(AP)ではかなり優れています。 さらに、チャート解析エージェントとして、下流のChartQAベンチマークで人気のLVLM(LLaVA-1.6)に対して10%以上の精度向上をもたらす。

Chart parsing poses a significant challenge due to the diversity of styles, values, texts, and so forth. Even advanced large vision-language models (LVLMs) with billions of parameters struggle to handle such tasks satisfactorily. To address this, we propose OneChart: a reliable agent specifically devised for the structural extraction of chart information. Similar to popular LVLMs, OneChart incorporates an autoregressive main body. Uniquely, to enhance the reliability of the numerical parts of the output, we introduce an auxiliary token placed at the beginning of the total tokens along with an additional decoder. The numerically optimized (auxiliary) token allows subsequent tokens for chart parsing to capture enhanced numerical features through causal attention. Furthermore, with the aid of the auxiliary token, we have devised a self-evaluation mechanism that enables the model to gauge the reliability of its chart parsing results by providing confidence scores for the generated content. Compared to current state-of-the-art (SOTA) chart parsing models, e.g., DePlot, ChartVLM, ChartAst, OneChart significantly outperforms in Average Precision (AP) for chart structural extraction across multiple public benchmarks, despite enjoying only 0.2 billion parameters. Moreover, as a chart parsing agent, it also brings 10%+ accuracy gains for the popular LVLM (LLaVA-1.6) in the downstream ChartQA benchmark.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# in2IN: 個々の情報を活用して人間の不定詞を生成する

in2IN: Leveraging individual Information to Generate Human INteractions ( http://arxiv.org/abs/2404.09988v1 )

ライセンス: Link先を確認
Pablo Ruiz Ponce, German Barquero, Cristina Palmero, Sergio Escalera, Jose Garcia-Rodriguez, (参考訳) ロボット工学、ゲーム、アニメーション、メタバースなどの多くの分野において、テキスト記述に条件付けされた人間と人間の動作相互作用の生成は、非常に有用な応用である。 このユーティリティとともに、高次元の対人ダイナミクスをモデル化するのも非常に難しい。 さらに、個人間の相互作用の多様性を適切に把握することは、多くの課題があります。 現在の手法は、利用可能なデータセットや条件付け戦略の制限により、個人内ダイナミクスの限られた多様性と相互作用を生成する。 そこで本研究では,人間の動作生成のための新しい拡散モデルであるin2INについて紹介する。 このモデルをトレーニングするために、大きな言語モデルを使用して、個々の記述でInterHumanデータセットを拡張します。 その結果、in2INはInterHumanデータセットで最先端のパフォーマンスを達成する。 さらに,既存のインタラクションデータセットの個人内多様性を高めるために,in2INで生成された動きと,HumanML3Dで事前トレーニングされた単体動作によって生成された動きを組み合わせたモデル合成手法であるDualMDMを提案する。 その結果、DualMDMは個人の多様性が高い動きを発生させ、対人コヒーレンスを維持しながら人内ダイナミクスの制御を改善する。

Generating human-human motion interactions conditioned on textual descriptions is a very useful application in many areas such as robotics, gaming, animation, and the metaverse. Alongside this utility also comes a great difficulty in modeling the highly dimensional inter-personal dynamics. In addition, properly capturing the intra-personal diversity of interactions has a lot of challenges. Current methods generate interactions with limited diversity of intra-person dynamics due to the limitations of the available datasets and conditioning strategies. For this, we introduce in2IN, a novel diffusion model for human-human motion generation which is conditioned not only on the textual description of the overall interaction but also on the individual descriptions of the actions performed by each person involved in the interaction. To train this model, we use a large language model to extend the InterHuman dataset with individual descriptions. As a result, in2IN achieves state-of-the-art performance in the InterHuman dataset. Furthermore, in order to increase the intra-personal diversity on the existing interaction datasets, we propose DualMDM, a model composition technique that combines the motions generated with in2IN and the motions generated by a single-person motion prior pre-trained on HumanML3D. As a result, DualMDM generates motions with higher individual diversity and improves control over the intra-person dynamics while maintaining inter-personal coherence.
翻訳日:2024-04-17 21:18:06 公開日:2024-04-15
# HQ-Edit: インストラクションベースの画像編集のための高品質データセット

HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing ( http://arxiv.org/abs/2404.09990v1 )

ライセンス: Link先を確認
Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie, (参考訳) 本研究では,約20万の編集が可能な高品質な命令ベースの画像編集データセットであるHQ-Editを紹介する。 GPT-4VやDALL-E 3.0といった高度な基盤モデルを活用したスケーラブルなデータ収集パイプラインを考案しました。 高品質を確実にするために、様々なサンプルをオンラインで収集し、拡張し、その後、詳細なテキストプロンプトを備えた入力および出力画像を含む高品質なディプチッチを作成し、その後、後処理によって正確なアライメントが保証される。 さらに,GPT-4Vを用いて画像編集ペアの品質を定量的に評価するために,アライメントとコヒーレンスという2つの評価指標を提案する。 HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。 例えば、HQ-Editで微調整されたInstructPix2Pixは最先端の画像編集性能を達成できる。 プロジェクトページはhttps://thefllood.github.io/HQEdit_web。

This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.
翻訳日:2024-04-17 21:18:05 公開日:2024-04-15
# EgoPet: 動物の視点から見た行動と相互作用のデータ

EgoPet: Egomotion and Interaction Data from an Animal's Perspective ( http://arxiv.org/abs/2404.09991v1 )

ライセンス: Link先を確認
Amir Bar, Arya Bakhtiar, Danny Tran, Antonio Loquercio, Jathushan Rajasegaran, Yann LeCun, Amir Globerson, Trevor Darrell, (参考訳) 動物は、自分の行動を計画し、複雑なタスクを達成するために他のエージェントと対話し、まだAIシステムに適合していない能力を示すことを世界に認識する。 動物とAIシステムの能力のギャップを解消し、理解を深めるために、同時行動とマルチエージェントの相互作用の多様な例を含むペットの行動画像のデータセットを導入する。 現在のビデオデータセットには、エゴモーションとインタラクションの例が別々に含まれているが、どちらも同時に行われることは滅多にない。 さらにEgoPetは、人間や車両の既存のエゴセントリックなデータセットとは根本的に異なる視点を提供する。 動物行動をキャプチャする2つのドメイン内ベンチマークタスクと、ロボット四足歩行のための事前トレーニングリソースとしてのEgoPetの有用性を評価する第3のベンチマークを定義し、EgoPetからトレーニングされたモデルが、以前のデータセットからトレーニングされたモデルより優れていることを示す。

Animals perceive the world to plan their actions and interact with other agents to accomplish complex tasks, demonstrating capabilities that are still unmatched by AI systems. To advance our understanding and reduce the gap between the capabilities of animals and AI systems, we introduce a dataset of pet egomotion imagery with diverse examples of simultaneous egomotion and multi-agent interaction. Current video datasets separately contain egomotion and interaction examples, but rarely both at the same time. In addition, EgoPet offers a radically distinct perspective from existing egocentric datasets of humans or vehicles. We define two in-domain benchmark tasks that capture animal behavior, and a third benchmark to assess the utility of EgoPet as a pretraining resource to robotic quadruped locomotion, showing that models trained from EgoPet outperform those trained from prior datasets.
翻訳日:2024-04-17 21:18:05 公開日:2024-04-15
# MMInA:マルチホップマルチモーダルインターネットエージェントのベンチマーク

MMInA: Benchmarking Multihop Multimodal Internet Agents ( http://arxiv.org/abs/2404.09992v1 )

ライセンス: Link先を確認
Ziniu Zhang, Shulin Tian, Liangyu Chen, Ziwei Liu, (参考訳) 自律的なエンボディエージェントは、マルチメディアWebサイトのインターネットに住んでいます。 複雑なユーザタスクを完了するために、彼らはマルチモーダルなWebサイトをホップできますか? 既存のベンチマークでは、Webサイト全体にわたる実施のために、現実的で進化している環境での評価に失敗している。 この問いに答えるために、MMInAというマルチホップとマルチモーダルのベンチマークを提示する。 1)現実世界のマルチモーダルWebサイトを進化させる。 われわれのベンチマークは、現実世界のWebサイトを進化させ、自然のユーザタスクに高いリアリズムと適用性を確保している。 我々のデータには、ショッピングや旅行などさまざまな分野をカバーする1,050の人書きタスクが含まれており、各タスクは、Webページから自律的にマルチモーダル情報を抽出する必要がある。 2)マルチホップWebブラウジング。 我々のデータセットは、Webタスクにおける長距離推論能力を評価するために、複数のWebサイトの情報やアクションを必要とする自然な構成タスクを特徴としている。 3)全体評価。 マルチホップタスクの完了におけるエージェントの進捗を評価するための新しいプロトコルを提案する。 我々は、スタンドアロン(マルチモーダル)言語モデルとヒューリスティックベースのWebエージェントの両方を実験する。 大規模な実験では、長鎖のマルチホップWebタスクは人間にとって容易であるが、最先端のWebエージェントでは難しいままである。 我々は、より多くのホップのタスクを解く際に、エージェントが早期ホップで失敗する確率が高く、結果としてタスクの成功率が低下することを示した。 この問題に対処するために,過去の行動軌跡を反映したメモリ拡張手法を提案する。 提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。 コードとデータはhttps://mmina.cliangyu.comで参照してください。

Autonomous embodied agents live on an Internet of multimedia websites. Can they hop around multimodal websites to complete complex user tasks? Existing benchmarks fail to assess them in a realistic, evolving environment for their embodiment across websites. To answer this question, we present MMInA, a multihop and multimodal benchmark to evaluate the embodied agents for compositional Internet tasks, with several appealing properties: 1) Evolving real-world multimodal websites. Our benchmark uniquely operates on evolving real-world websites, ensuring a high degree of realism and applicability to natural user tasks. Our data includes 1,050 human-written tasks covering various domains such as shopping and travel, with each task requiring the agent to autonomously extract multimodal information from web pages as observations; 2) Multihop web browsing. Our dataset features naturally compositional tasks that require information from or actions on multiple websites to solve, to assess long-range reasoning capabilities on web tasks; 3) Holistic evaluation. We propose a novel protocol for evaluating an agent's progress in completing multihop tasks. We experiment with both standalone (multimodal) language models and heuristic-based web agents. Extensive experiments demonstrate that while long-chain multihop web tasks are easy for humans, they remain challenging for state-of-the-art web agents. We identify that agents are more likely to fail on the early hops when solving tasks of more hops, which results in lower task success rates. To address this issue, we propose a simple memory augmentation approach replaying past action trajectories to reflect. Our method significantly improved both the single-hop and multihop web browsing abilities of agents. See our code and data at https://mmina.cliangyu.com
翻訳日:2024-04-17 21:18:05 公開日:2024-04-15
# バイレイアウト推定による360度ルームレイアウトの非曖昧性

No More Ambiguity in 360° Room Layout via Bi-Layout Estimation ( http://arxiv.org/abs/2404.09993v1 )

ライセンス: Link先を確認
Yu-Ju Tsai, Jin-Cheng Jhang, Jingjing Zheng, Wei Wang, Albert Y. C. Chen, Min Sun, Cheng-Hao Kuo, Ming-Hsuan Yang, (参考訳) レイアウトアノテーションの不明瞭さは、正確な360{\deg}ルームレイアウト推定モデルを開発する上で大きな課題となる。 この問題に対処するために,2つの異なるレイアウトタイプを予測可能な新しいBi-Layoutモデルを提案する。 1つはあいまいな領域に留まり、もう1つは目に見える全ての領域に広がる。 我々のモデルは2つのグローバルなコンテキスト埋め込みを用いており、それぞれの埋め込みは、レイアウトタイプごとに特定のコンテキスト情報をキャプチャするために設計されている。 新たな特徴誘導モジュールにより、画像機能は、これらの埋め込みから関連するコンテキストを検索し、正確なバイレイアウト予測のためのレイアウト認識機能を生成する。 我々のBi-Layoutモデルの特徴は、この2つの予測を比較することによって、本質的に曖昧な領域を検出する能力である。 テスト中に曖昧なアノテーションを手動で修正する必要性を回避するため,地中真実のレイアウトを曖昧にするための新しい指標も導入する。 提案手法は,ベンチマークデータセット上での優れた性能,特に先行するアプローチよりも優れた性能を示す。 具体的には、MatterportLayoutデータセットでは、3DIoUを81.70%から82.57%に改善し、特に曖昧さのあるサブセットでは54.80%から59.97%に改善している。 プロジェクトページ: https://liagm.github.io/Bi_Layout/

Inherent ambiguity in layout annotations poses significant challenges to developing accurate 360{\deg} room layout estimation models. To address this issue, we propose a novel Bi-Layout model capable of predicting two distinct layout types. One stops at ambiguous regions, while the other extends to encompass all visible areas. Our model employs two global context embeddings, where each embedding is designed to capture specific contextual information for each layout type. With our novel feature guidance module, the image feature retrieves relevant context from these embeddings, generating layout-aware features for precise bi-layout predictions. A unique property of our Bi-Layout model is its ability to inherently detect ambiguous regions by comparing the two predictions. To circumvent the need for manual correction of ambiguous annotations during testing, we also introduce a new metric for disambiguating ground truth layouts. Our method demonstrates superior performance on benchmark datasets, notably outperforming leading approaches. Specifically, on the MatterportLayout dataset, it improves 3DIoU from 81.70% to 82.57% across the full test set and notably from 54.80% to 59.97% in subsets with significant ambiguity. Project page: https://liagm.github.io/Bi_Layout/
翻訳日:2024-04-17 21:08:18 公開日:2024-04-15
# ニューラルラジアンスフィールド塗布における遅延拡散モデル

Taming Latent Diffusion Model for Neural Radiance Field Inpainting ( http://arxiv.org/abs/2404.09995v1 )

ライセンス: Link先を確認
Chieh Hubert Lin, Changil Kim, Jia-Bin Huang, Qinbo Li, Chih-Yao Ma, Johannes Kopf, Ming-Hsuan Yang, Hung-Yu Tseng, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は多視点画像からの3次元再構成の表現である。 いくつかの最近の研究は、再構成されたNeRFを拡散前に編集することに予備的な成功をおさめたが、完全に未発見の領域における合理的な幾何学の合成に苦慮している。 主な理由の1つは、拡散モデルからの合成内容の多様性が高いことであり、これは収束からクリップで決定論的幾何学への放射場を妨げている。 さらに、実データに潜時拡散モデルを適用すると、自動符号化エラーによる画像条件に不整合が生じることが多い。 これら2つの問題は、ピクセル距離損失を用いることでさらに強化される。 これらの課題に対処するために,拡散モデルの確率性をシーンごとのカスタマイズで誘惑し,マスク付き対人訓練によるテクスチャシフトを軽減することを提案する。 また,NeRF塗布作業において,一般的に用いられている画素や知覚的損失が有害であることも確認した。 厳密な実験を通じて、我々のフレームワークは様々な現実世界のシーンに最先端のNeRF塗装結果をもたらす。 プロジェクトページ:https://hubert0527.github.io/MALD-NeRF

Neural Radiance Field (NeRF) is a representation for 3D reconstruction from multi-view images. Despite some recent work showing preliminary success in editing a reconstructed NeRF with diffusion prior, they remain struggling to synthesize reasonable geometry in completely uncovered regions. One major reason is the high diversity of synthetic contents from the diffusion model, which hinders the radiance field from converging to a crisp and deterministic geometry. Moreover, applying latent diffusion models on real data often yields a textural shift incoherent to the image condition due to auto-encoding errors. These two problems are further reinforced with the use of pixel-distance losses. To address these issues, we propose tempering the diffusion model's stochasticity with per-scene customization and mitigating the textural shift with masked adversarial training. During the analyses, we also found the commonly used pixel and perceptual losses are harmful in the NeRF inpainting task. Through rigorous experiments, our framework yields state-of-the-art NeRF inpainting results on various real-world scenes. Project page: https://hubert0527.github.io/MALD-NeRF
翻訳日:2024-04-17 21:08:17 公開日:2024-04-15
# ClimODE:物理インフォームドニューラルネットワークによる気候・天気予報

ClimODE: Climate and Weather Forecasting with Physics-informed Neural ODEs ( http://arxiv.org/abs/2404.10024v1 )

ライセンス: Link先を確認
Yogesh Verma, Markus Heinonen, Vikas Garg, (参考訳) 気候と気象の予測は伝統的に大気物理学の複雑な数値シミュレーションに依存している。 トランスフォーマーのようなディープラーニングアプローチは、最近、複雑なネットワーク予測を伴うシミュレーションパラダイムに挑戦している。 しかし、それらはしばしばデータ駆動ブラックボックスモデルとして機能し、基礎となる物理学を無視し、不確実な定量化を欠いている。 これらの制限を,時空間移動による気象変化という,統計力学からのアドベクションの重要な原理を具現化した時空間連続時間プロセスであるClimODEを用いて解決する。 ClimODEは、値保存ダイナミクスによる正確な気象進化をモデル化し、大域的な気象輸送をニューラルネットワークとして学習し、予測の不確実性を推定する。 提案手法は, グローバルおよび地域予測において, パラメータ化の桁数を大幅に小さくして既存のデータ駆動手法より優れ, 新たな最先端技術を確立している。

Climate and weather prediction traditionally relies on complex numerical simulations of atmospheric physics. Deep learning approaches, such as transformers, have recently challenged the simulation paradigm with complex network forecasts. However, they often act as data-driven black-box models that neglect the underlying physics and lack uncertainty quantification. We address these limitations with ClimODE, a spatiotemporal continuous-time process that implements a key principle of advection from statistical mechanics, namely, weather changes due to a spatial movement of quantities over time. ClimODE models precise weather evolution with value-conserving dynamics, learning global weather transport as a neural flow, which also enables estimating the uncertainty in predictions. Our approach outperforms existing data-driven methods in global and regional forecasting with an order of magnitude smaller parameterization, establishing a new state of the art.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-15
# レーザープラズマ相互作用による多光子刺激型グレーザー

Multi-photon stimulated grasers assisted by laser-plasma interactions ( http://arxiv.org/abs/2404.10025v1 )

ライセンス: Link先を確認
C. -J. Yang, K. M. Spohr, D. Doria, (参考訳) 理論的には、$\gamma$-rayの励起増幅を達成する可能性について検討する。 ここでは, いわゆる「草のジレンマ」を非線形多光子機構によって回避する手法を提案する。 我々の研究は、高強度レーザーパルスとプラズマと高強度光子の相互作用によって生じる高強度の$\gamma-$flashと、追加レーザーによって供給される高強度光子の組み合わせを予見する。 複数光子刺激による放射過程は, 1光子過程に比べ, より効果的に断面積を拡大できることを示す。 供給された光子の帯域幅を調整して線幅を広げることもできる。 当然、モスバウアー転移は、最初の例でスキームを適用するために選択することができる。 さらに, 反ストークス型の多光子励起放出でも, 供給された光子エネルギーを調整してリコイルの補償や, 誘導損失の増大を図り, 非モスバウアー核に我々のスキームを適用できることが示唆された。 グラザーの開発は、ルーマニアのエクストリーム・ライト・インフラストラクチャー - 核物理学(ELI-NP)における10PWの設置など、マルチPW級高出力レーザーシステムを用いて先導することができる。

We investigate theoretically the possibility of achieving the stimulated amplification of $\gamma$-rays. Herein, our approach circumvents the so-called ``graser dilemma" through a non-linear, multi-photon mechanism. Our work foresees the combination of a high-intensity $\gamma-$flash generated by the interaction of a high-intensity laser pulse with plasma and intensive photons supplied by an additional laser. We show that multi-photon stimulated emission processes can have a larger effective cross-section compared to a one-photon process. The bandwidth of the supplied photons can also be tuned to curtail linewidth broadening. Naturally, Mossbauer transitions can be chosen to apply the scheme in the first instance. Furthermore, we derive that even multi-photon stimulated emission in the form of an anti-Stokes type could allow our scheme to be applied to non-Mossbauer nuclei, provided that the supplied photon energy can be tuned to compensate for the recoil and other broadening induced losses. The graser development can be spearheaded using multi-PW class high-power laser systems such as the 10 PW installation at Extreme Light Infrastructure - Nuclear Physics (ELI-NP) in Romania.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-15
# プライバシMRI脳腫瘍検出のための分散フェデレーション学習に基づくディープラーニングモデル

Distributed Federated Learning-Based Deep Learning Model for Privacy MRI Brain Tumor Detection ( http://arxiv.org/abs/2404.10026v1 )

ライセンス: Link先を確認
Lisang Zhou, Meng Wang, Ning Zhou, (参考訳) 分散トレーニングは、大規模な医用画像データセットの処理を容易にし、患者のプライバシーを保護しながら、疾患診断の精度と効率を向上させる。 本稿では,データプライバシと効率的な疾患診断という2つの課題に対処するために,Federated Learning(FL)を活用した医用画像分類の革新的なアプローチを提案する。 従来の集中機械学習モデルは、疾患診断などのタスクに医用画像が広く使われているにもかかわらず、患者のデータに敏感な性質があるため、プライバシー上の懸念を生じさせる。 FLはデータの集中化なしに、ローカルクライアント全体にわたる集合的グローバルモデルのトレーニングを可能にすることで、将来性のあるソリューションとして浮上し、プライバシを保護します。 本研究では,磁気共鳴イメージング(MRI)脳腫瘍検出におけるFLの適用に着目し,高能率Net-B0とFedAvgアルゴリズムを併用したフェデレートラーニングフレームワークの有効性を実証した。 事前処理方法、アルゴリズム、ハイパーパラメータの巧妙な選択と、さまざまな畳み込みニューラルネットワーク(CNN)アーキテクチャの比較分析により、画像分類のための最適な戦略が明らかになった。 EfficientNet-B0は、データ不均一性を処理し、より高い精度と損失を達成し、従来のモデルの限界を克服するFLの可能性を強調し、ResNetのような他のモデルよりも優れていることを示した。 本研究は,医療画像解析におけるFLの適用性を高めるために,データの均一性に対処することの重要性を強調し,さらなる研究の方向性を提案する。

Distributed training can facilitate the processing of large medical image datasets, and improve the accuracy and efficiency of disease diagnosis while protecting patient privacy, which is crucial for achieving efficient medical image analysis and accelerating medical research progress. This paper presents an innovative approach to medical image classification, leveraging Federated Learning (FL) to address the dual challenges of data privacy and efficient disease diagnosis. Traditional Centralized Machine Learning models, despite their widespread use in medical imaging for tasks such as disease diagnosis, raise significant privacy concerns due to the sensitive nature of patient data. As an alternative, FL emerges as a promising solution by allowing the training of a collective global model across local clients without centralizing the data, thus preserving privacy. Focusing on the application of FL in Magnetic Resonance Imaging (MRI) brain tumor detection, this study demonstrates the effectiveness of the Federated Learning framework coupled with EfficientNet-B0 and the FedAvg algorithm in enhancing both privacy and diagnostic accuracy. Through a meticulous selection of preprocessing methods, algorithms, and hyperparameters, and a comparative analysis of various Convolutional Neural Network (CNN) architectures, the research uncovers optimal strategies for image classification. The experimental results reveal that EfficientNet-B0 outperforms other models like ResNet in handling data heterogeneity and achieving higher accuracy and lower loss, highlighting the potential of FL in overcoming the limitations of traditional models. The study underscores the significance of addressing data heterogeneity and proposes further research directions for broadening the applicability of FL in medical image analysis.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-15
# 微分プライバシーを持つリーマン多様体のフェデレーション学習

Federated Learning on Riemannian Manifolds with Differential Privacy ( http://arxiv.org/abs/2404.10029v1 )

ライセンス: Link先を確認
Zhenwei Huang, Wen Huang, Pratik Jawanpuria, Bamdev Mishra, (参考訳) 近年,分散機械学習において,フェデレーテッド・ラーニング(FL)が顕著なパラダイムとして出現している。 FLシステム内でエージェントの情報の一部を保護しているにもかかわらず、悪意のある敵は様々な方法で機密情報を推測することができる。 本稿では,微分プライバシ(DP)技術に基づいて,リーマン多様体(PriRFed)上に定義された汎用プライベートFLフレームワークを提案する。 我々は収束性を確立しながらプライバシー保証を分析する。 我々の知る限りでは、これはリーマン多様体上の最初の連合学習フレームワークであり、プライバシー保証と収束結果である。 合成および実世界のデータセット上で数値シミュレーションを行い,提案手法の有効性を示す。

In recent years, federated learning (FL) has emerged as a prominent paradigm in distributed machine learning. Despite the partial safeguarding of agents' information within FL systems, a malicious adversary can potentially infer sensitive information through various means. In this paper, we propose a generic private FL framework defined on Riemannian manifolds (PriRFed) based on the differential privacy (DP) technique. We analyze the privacy guarantee while establishing the convergence properties. To the best of our knowledge, this is the first federated learning framework on Riemannian manifold with a privacy guarantee and convergence results. Numerical simulations are performed on synthetic and real-world datasets to showcase the efficacy of the proposed PriRFed approach.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-15
# 散乱変換特性の融合による皮膚のハイパースペクトル再構成

Hyperspectral Reconstruction of Skin Through Fusion of Scattering Transform Features ( http://arxiv.org/abs/2404.10030v1 )

ライセンス: Link先を確認
Wojciech Czaja, Jeremiah Emidih, Brandon Kolstoe, Richard G. Spencer, (参考訳) ハイパースペクトル画像(HSI)は、一連のアプリケーションを持つ確立された技術であるが、スペクトルデバイスに関連する実用的および技術的な問題により、その利用は制限されている。 ICASSP 2024「Hyper-Skin」チャレンジの目標は、RGB画像と赤外線帯域のマッチングから皮膚HSIを抽出することである。 この問題に対処するために、あらかじめ定義されたフィルタを持つ畳み込みニューラルネットワークの一種である散乱変換の特徴を用いたモデルを提案する。 我々のモデルは、ピクセル値ではなくこれらの特徴にマッチし、逆転し、類似した特徴をグループ化しながらマッチングの複雑さを減らし、学習プロセスが改善される。

Hyperspectral imagery (HSI) is an established technique with an array of applications, but its use is limited due to both practical and technical issues associated with spectral devices. The goal of the ICASSP 2024 'Hyper-Skin' Challenge is to extract skin HSI from matching RGB images and an infrared band. To address this problem we propose a model using features of the scattering transform - a type of convolutional neural network with predefined filters. Our model matches and inverts those features, rather than the pixel values, reducing the complexity of matching while grouping similar features together, resulting in an improved learning process.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-15
# 階層型脳ネットワークをモデル化するための弱スーパービジョンを用いた創発的言語シンボリックオートエンコーダ(ELSA)

Emergent Language Symbolic Autoencoder (ELSA) with Weak Supervision to Model Hierarchical Brain Networks ( http://arxiv.org/abs/2404.10031v1 )

ライセンス: Link先を確認
Ammar Ahmed Pallikonda Latheef, Alberto Santamaria-Pang, Craig K Jones, Haris I Sair, (参考訳) 脳のネットワークには階層的な組織があり、これは既存のディープラーニングモデルにとって難しい問題であり、しばしばフラットな分類器として構成される。 このギャップを埋めるために、弱い監督によって通知されるシンボリックオートエンコーダとエマージェント言語(EL)フレームワークという新しいアーキテクチャを提案する。 このモデルは、階層的クラスタとそれに対応するイメージを生成して従来のフラット分類器を超えて、その後、記号文を通して表現され、静止状態fMRI画像を用いて特徴付けられる固有の脳ネットワークのような階層的に整理されたデータの臨床的解釈性を改善する。 私たちの革新には、文と画像の両方が機能的脳ネットワークの階層構造を正確に反映するように設計された一般化階層的損失関数が含まれています。 これにより、より詳細な部分まで、より広い視点から機能的な脳ネットワークをモデル化することができます。 さらに,これらの記号表現の階層的一貫性を評価するための定量的手法を提案する。 定性的分析により, 階層的に整理された, 臨床的に解釈可能な画像が得られた。 私たちは、脳ネットワークに対応する画像を特定する際に、最もパフォーマンスのよいロス関数が、階層的な一貫性を97%以上もたらしていることに気付きました。 このアプローチは、ニューロイメージング分析におけるディープラーニングモデルの解釈可能性を向上させるだけでなく、脳ネットワークの複雑な階層的な性質をモデル化するための重要なステップでもある。

Brain networks display a hierarchical organization, a complexity that poses a challenge for existing deep learning models, often structured as flat classifiers, leading to difficulties in interpretability and the 'black box' issue. To bridge this gap, we propose a novel architecture: a symbolic autoencoder informed by weak supervision and an Emergent Language (EL) framework. This model moves beyond traditional flat classifiers by producing hierarchical clusters and corresponding imagery, subsequently represented through symbolic sentences to improve the clinical interpretability of hierarchically organized data such as intrinsic brain networks, which can be characterized using resting-state fMRI images. Our innovation includes a generalized hierarchical loss function designed to ensure that both sentences and images accurately reflect the hierarchical structure of functional brain networks. This enables us to model functional brain networks from a broader perspective down to more granular details. Furthermore, we introduce a quantitative method to assess the hierarchical consistency of these symbolic representations. Our qualitative analyses show that our model successfully generates hierarchically organized, clinically interpretable images, a finding supported by our quantitative evaluations. We find that our best performing loss function leads to a hierarchical consistency of over 97% when identifying images corresponding to brain networks. This approach not only advances the interpretability of deep learning models in neuroimaging analysis but also represents a significant step towards modeling the intricate hierarchical nature of brain networks.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# NLPと機械学習アプローチに基づくAI生成テキストの検出

Detecting AI Generated Text Based on NLP and Machine Learning Approaches ( http://arxiv.org/abs/2404.10032v1 )

ライセンス: Link先を確認
Nuzhat Prova, (参考訳) 自然言語処理(NLP)の最近の進歩は、人工知能(AI)モデルによって、将来的には人間が書いた書式と同一の書式を生成できる可能性がある。 これには深い倫理的、法的、社会的反感があるかもしれない。 本研究は,電子テキストと人文テキストを区別できる精度の高いAI検出モデルを提供することにより,この問題に対処することを目的とする。 我々のアプローチには、XGB Classifier、SVM、BERTアーキテクチャのディープラーニングモデルなどの機械学習手法が含まれています。 さらに,本研究の結果から,BERTは人間の提供した情報からAIが生成した情報を特定する上で,従来のモデルよりも優れた性能を示した。 関連する研究の評価において,AIによるテキスト識別の現状を包括的に分析する。 BERTは最も有望な回答として浮上し,我々の戦略が成功していることを示す結果が得られた。 本研究の社会的意味を分析し,モラルと環境に関するサステナビリティ問題に対処しつつ,様々な産業のメリットを浮き彫りにしている。 XGB分類器とSVMはそれぞれ0.84と0.81の精度を与える。 この研究における最大の精度は、0.93%の精度を提供するBERTモデルによって提供される。

Recent advances in natural language processing (NLP) may enable artificial intelligence (AI) models to generate writing that is identical to human written form in the future. This might have profound ethical, legal, and social repercussions. This study aims to address this problem by offering an accurate AI detector model that can differentiate between electronically produced text and human-written text. Our approach includes machine learning methods such as XGB Classifier, SVM, BERT architecture deep learning models. Furthermore, our results show that the BERT performs better than previous models in identifying information generated by AI from information provided by humans. Provide a comprehensive analysis of the current state of AI-generated text identification in our assessment of pertinent studies. Our testing yielded positive findings, showing that our strategy is successful, with the BERT emerging as the most probable answer. We analyze the research's societal implications, highlighting the possible advantages for various industries while addressing sustainability issues pertaining to morality and the environment. The XGB classifier and SVM give 0.84 and 0.81 accuracy in this article, respectively. The greatest accuracy in this research is provided by the BERT model, which provides 0.93% accuracy.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 弱教師付き物体位置定位のための現実的モデル選択

Realistic Model Selection for Weakly Supervised Object Localization ( http://arxiv.org/abs/2404.10034v1 )

ライセンス: Link先を確認
Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Eric Granger, (参考訳) Weakly Supervised Object Localization (WSOL)は、グローバルなクラスレベルのラベルのみを使用して、分類とローカライゼーションのためのディープラーニングモデルのトレーニングを可能にする。 トレーニング中のバウンディングボックス (bbox) の監督の欠如は、ハイパーパラメータ検索とモデル選択にとって大きな課題である。 以前のWSOLは、テストセット上で暗黙的にローカライズパフォーマンスを観察し、パフォーマンス評価のバイアスを引き起こしました。 最近では、より優れたWSOLプロトコルが提案されており、モデル選択のためにbboxアノテーションを使った検証セットが公開されています。 テストセットに依存しないが、実世界のアプリケーションではbboxが利用できないため、このプロトコルは非現実的である。 モデル選択にイメージクラスラベルのみを用いる場合(バウンディングボックスアノテーションとの比較)、モデルのローカライズ性能は著しく低下することを示す。 これは、ローカライゼーションのための最良のモデルを選択するには、バウンディングボックスラベルを追加することが好ましいことを示唆している。 本稿では、手動のbboxアノテーションを必要とせずにローカライズ信号を提供する新しいWSOL検証プロトコルを提案する。 特に、Selective-Search、CLIP、RPNといった市販のROI提案生成器からノイズの多い擬似ボックスをモデル選択に活用する。 ILSVRC と CUB-200-2011 のデータセットに対する WSOL 法による実験結果から,地中真理ボックスを用いて選択したモデルに近い性能のモデルを選択することができ,画像分類ラベルのみを用いて選択したモデルよりも優れていることが示された。

Weakly Supervised Object Localization (WSOL) allows for training deep learning models for classification and localization, using only global class-level labels. The lack of bounding box (bbox) supervision during training represents a considerable challenge for hyper-parameter search and model selection. Earlier WSOL works implicitly observed localization performance over a test set which leads to biased performance evaluation. More recently, a better WSOL protocol has been proposed, where a validation set with bbox annotations is held out for model selection. Although it does not rely on the test set, this protocol is unrealistic since bboxes are not available in real-world applications, and when available, it is better to use them directly to fit model weights. Our initial empirical analysis shows that the localization performance of a model declines significantly when using only image-class labels for model selection (compared to using bounding-box annotations). This suggests that adding bounding-box labels is preferable for selecting the best model for localization. In this paper, we introduce a new WSOL validation protocol that provides a localization signal without the need for manual bbox annotations. In particular, we leverage noisy pseudo boxes from an off-the-shelf ROI proposal generator such as Selective-Search, CLIP, and RPN pretrained models for model selection. Our experimental results with several WSOL methods on ILSVRC and CUB-200-2011 datasets show that our noisy boxes allow selecting models with performance close to those selected using ground truth boxes, and better than models selected using only image-class labels.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 実効理論におけるワームホールと因子化

Wormholes and Factorization in Exact Effective Theory ( http://arxiv.org/abs/2404.10035v1 )

ライセンス: Link先を確認
Sergio Hernández-Cuenca, (参考訳) 我々は、その自由度のあるセクターに関する完備理論の正確な経路積分を通じて得られる有効理論の一般的な枠組みについて研究する。 この方法で構築された理論には、フィールドを任意に分離する多重積分や、空間のパス切断されたコンポーネントでさえある特定の設定を含む。 これらは単に絡み合いではなく、量子ワームホールを掘る真の非局所的な相互作用である。 そのような有効理論の経路積分の任意の状態は、統合アウトセクター上の完備理論の状態の部分的トレースであることが示される。 結果として生じる密度の低下演算子は一般にブラケットワームホールによって混合される。 同じ有効状態を与える完備理論の純粋状態の無限族が特定される。 これにより、任意の有効状態が理論の集合によって準備されていると等価に解釈できる。 エントロピー量を計算する際、ブラケットワームホールは複製ワームホールを引き起こす。 これにより、実効理論のレプリカパス積分は、混合によって予想されるような基礎多様体が成立しても分解されない。 対照的に、微分展開によって得られる効果的な理論は、量子ワームホールを持たず、純粋な状態を作る。 純粋状態と混同できる実効理論の代数には作用素があり、十分複雑な可観測性に対する非実効的実効理論の分解を示唆している。 この枠組みは、ワームホールとユニタリティの相互作用、バルク効果理論の分解、分解パズル、状態アンサンブル、理論アンサンブル、量子エラー補正、ベビー宇宙など、量子重力で観測される現象の多くを統一し、新たな洞察を提供する。 いくつかの興味深い教訓は、IR/UV混合とカルザ・クライン還元に関する重力の特徴的な側面についても説明されている。

We study the general framework of effective theories obtained via exact path integration of a complete theory over some sector of its degrees of freedom. Theories constructed this way contain multi-integrals which couple fields arbitrarily far apart, and in certain settings even on path-disconnected components of the space. These are not just entanglement, but genuine non-local interactions that we dub quantum wormholes. Any state the path integral of such an effective theory prepares is shown to be a partial trace of a state of the complete theory over the integrated-out sector. The resulting reduced density operator is generally mixed due to bra-ket wormholes. An infinite family of ensembles of pure states of the complete theory giving the same effective state is identified. These allow one to equivalently interpret any effective state as being prepared by an ensemble of theories. When computing entropic quantities, bra-ket wormholes give rise to replica wormholes. This causes replica path integrals for the effective theory to not factorize even when the underlying manifold does, as expected from mixing. In contrast, effective theories obtained by derivative expansions have no quantum wormholes and prepare pure states. There exist operators in the algebra of effective theories which can distinguish mixed from pure states, implying a breakdown of non-exact effective theories for sufficiently complex observables. This framework unifies and provides new insights into much of the phenomena observed in quantum gravity, including the interplay between wormholes and unitarity, the breakdown of bulk effective theory, the factorization puzzle, state ensembles, theory ensembles, quantum error correction, and baby universes. Some interesting lessons are drawn accounting also for characteristic aspects of gravity concerning IR/UV mixing and Kaluza-Klein reductions.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 変分量子シミュレーション : ウォームスタートを理解するためのケーススタディ

Variational quantum simulation: a case study for understanding warm starts ( http://arxiv.org/abs/2404.10044v1 )

ライセンス: Link先を確認
Ricard Puig i Valls, Marc Drudis, Supanut Thanasilp, Zoë Holmes, (参考訳) システムサイズで指数関数的に消失する損失勾配を特徴とするバレンプラトー現象は、変分量子アルゴリズムのスケーリングに挑戦する。 ここでは、温暖化開始の可能性を探求し、損失分散がより大きいことを期待して、解に近く初期化する。 量子実時間および想像時間進化のための短い深度回路を学習するための反復的変分法に着目して、ウォームスタートの可能性と限界を解明するためのケーススタディを行う。 まず、反復変分アルゴリズムは、各時点における初期化の周囲の小さな領域において、相当な(システムサイズで最悪の多項式的に消滅する)勾配を示すことを証明することから始める。 これらの領域の凸性保証が確立され、多項式サイズの時間ステップのトレーニング可能性が示唆される。 しかし,本研究では,トレーニング可能性の保証により,地域外における良好な最小限のシフトが保証されるシナリオを強調した。 我々の分析では、このようなミニマが不毛の高原の風景を横断する最適化を必要とするのか、あるいは、高原から離れた谷にかなりの勾配があるような勾配流が存在するのかという疑問が浮き彫りになっている。

The barren plateau phenomenon, characterized by loss gradients that vanish exponentially with system size, poses a challenge to scaling variational quantum algorithms. Here we explore the potential of warm starts, whereby one initializes closer to a solution in the hope of enjoying larger loss variances. Focusing on an iterative variational method for learning shorter-depth circuits for quantum real and imaginary time evolution we conduct a case study to elucidate the potential and limitations of warm starts. We start by proving that the iterative variational algorithm will exhibit substantial (at worst vanishing polynomially in system size) gradients in a small region around the initializations at each time-step. Convexity guarantees for these regions are then established, suggesting trainability for polynomial size time-steps. However, our study highlights scenarios where a good minimum shifts outside the region with trainability guarantees. Our analysis leaves open the question whether such minima jumps necessitate optimization across barren plateau landscapes or whether there exist gradient flows, i.e., fertile valleys away from the plateau with substantial gradients, that allow for training.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 量子化学のためのVQE回路のスパースシミュレーション

Sparse Simulation of VQE Circuits for Quantum Chemistry ( http://arxiv.org/abs/2404.10047v1 )

ライセンス: Link先を確認
Damian S. Steiger, Thomas Häner, Scott N. Genin, Helmut G. Katzgraber, (参考訳) 変分量子固有解法(VQE)は、化学系をシミュレートする将来のノイズ中間量子(NISQ)デバイスのための有望なアルゴリズムである。 本稿では,イテレーティブなQubit Coupled Cluster (iQCC) アンサッツの古典的シミュレーションについて考察する。 この目的のために,マルチスレッドスパース波動関数シミュレータを実装し,最大80キュービットおよび980アンタングルのiQCC回路をシミュレートし,実験値と過去の近似シミュレーションとの比較を行った。 蛍光発光材料の発光スペクトルを計算するための従来のiQCCシミュレーションとは対照的に, 本手法では, 得られたエネルギーが真のエネルギー上界となるような変動保証を特徴とする。 さらに、変換されたハミルトニアンを格納しないため、2桁のメモリ効率が向上する。 また, 理論解析により, 非零振幅の少ないアンスアッツの構成が可能となり, シミュレータで正確な結果が得られる。 これにより、将来のNISQ量子コンピュータとシミュレータのための複雑なベンチマークインスタンスを生成することができる。

The Variational Quantum Eigensolver (VQE) is a promising algorithm for future Noisy Intermediate-Scale Quantum (NISQ) devices to simulate chemical systems. In this paper, we consider the classical simulation of the iterative Qubit Coupled Cluster (iQCC) ansatz. To this end, we implement a multi-threaded sparse wave function simulator and simulate iQCC circuits with up to 80 qubits and 980 entanglers to compare our results to experimental values and previous approximate simulations. In contrast to previous iQCC simulations, e.g., for computing the emission spectra of a phosphorescent emitting material, our approach features a variational guarantee, such that the resulting energies are true upper bounds on the exact energies. Additionally, our method is two orders of magnitude more memory-efficient, because it does not store the transformed Hamiltonians. Our theoretical analysis also enables the construction of ans\"atze with a limited number of nonzero amplitudes, for which our simulator can obtain exact results. This will allow one to generate complex benchmarking instances for future NISQ quantum computers and simulators.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# ベリーダイポールセミメタル

Berry-dipole Semimetals ( http://arxiv.org/abs/2404.10049v1 )

ライセンス: Link先を確認
Zheng-Yang Zhuang, Chaoyi Zhang, Xiao-Jiao Wang, Zhongbo Yan, (参考訳) 本稿では,Berry-dipole semimetals'を導入し,バンドの縮退を定量化したBerry双極子を特徴とする。 ホップ写像によって構成された2バンドモデルを通して、ベリー-双極子半金属は、他の位相的半金属とは異なる多くの有理性を示す。 境界線上では、一階のベリー-双極形半金属は、チャーン数がゼロであるにもかかわらず同じスピン偏極を持つフェルミ弧と、二階のベリー-双極形半金属が無分散ヒンジ弧をホストしているのが分かる。 バンドノード近傍の低エネルギーのベリー-双極子ハミルトニアンは二次的なエネルギー分散と特異なベリー曲率を持ち、固有な異常ホール効果、軌道磁化、ランダウ準位に特徴的な特性をもたらす。 本研究により, ベリー双極子半金属は, 豊富な興味をそそる物理を支えている位相的ギャップのない相のクラスであることがわかった。

We introduce ''Berry-dipole semimetals'', whose band degeneracies are characterized by quantized Berry dipoles. Through a two-band model constructed by Hopf map, we reveal that the Berry-dipole semimetals display a multitude of salient properties distinct from other topological semimetals. On the boundary, we find that the first-order Berry-dipole semimetal harbors anomalous paired Fermi arcs with the same spin polarization, even though the layer Chern number is zero, and the second-order Berry-dipole semimetal hosts dispersionless hinge arcs. In the bulk, we find that the low-energy Berry-dipole Hamiltonian near the band node has a quadratic energy dispersion and peculiar Berry curvature, which give rise to rather unique characteristics in the intrinsic anomalous Hall effect, orbital magnetization and Landau levels. Our study shows that Berry-dipole semimetals are a class of topological gapless phases supporting rich intriguing physics.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# フォールトトレラント量子コンピュータにおける絡み合い再正規化のコスト

The Cost of Entanglement Renormalization on a Fault-Tolerant Quantum Computer ( http://arxiv.org/abs/2404.10050v1 )

ライセンス: Link先を確認
Joshua Job, Isaac H. Kim, Eric Johnston, Steve Adachi, (参考訳) 我々は,障害耐性量子コンピュータ上でのディープ・エンタングルメント・リノベーション・アンサッツ(DMERA)の利用を前提とした詳細な資源推定を行う。 比較的大きなシステムサイズ(64\times 64$)を求めるため、量子位相推定(QPE)に基づくアプローチと比較して、量子ビット数の桁違いの減少を観測する。 エネルギーを測定するための2つの相補的戦略について議論する。 最初のアプローチは、ハミルトニアンの局所的な項のランダムサンプリングに基づいており、$\mathcal{O}(1/\epsilon^2)$の量子回路の呼び出しを必要とし、それぞれが最大で$\mathcal{O}(\log N)$の深さを持ち、$\epsilon$はエネルギーの相対的精度であり、$N$はシステムサイズである。 第2のアプローチは、空間上で平均された観測可能量の期待値のコヒーレントな推定に基づいており、システムサイズにおいて対数コストのみを発生させながら、ハイゼンベルクのスケーリングを達成する。 サイト毎のエネルギーを$\epsilon$, $\mathcal{O}\left(\frac{\log N}{\epsilon} \right)$T$ gates and $\mathcal{O}\left(\log N \right)$ qubits suffice で推定する。 リードコントリビューションの定数係数は、DMERA回路の深さ、アンザッツで使用されるゲート、回路の周期性によって決定される。 また、ゲートがランダムなパウリ回転であると仮定して、エネルギー勾配の分散に厳密な境界を導出する。

We perform a detailed resource estimate for the prospect of using deep entanglement renormalization ansatz (DMERA) on a fault-tolerant quantum computer, focusing on the regime in which the target system is large. For probing a relatively large system size ($64\times 64$), we observe up to an order of magnitude reduction in the number of qubits, compared to the approaches based on quantum phase estimation (QPE). We discuss two complementary strategies to measure the energy. The first approach is based on a random sampling of the local terms of the Hamiltonian, requiring $\mathcal{O}(1/\epsilon^2)$ invocations of quantum circuits, each of which have depth of at most $\mathcal{O}(\log N)$, where $\epsilon$ is the relative precision in the energy and $N$ is the system size. The second approach is based on a coherent estimation of the expectation value of observables averaged over space, which achieves the Heisenberg scaling while incurring only a logarithmic cost in the system size. For estimating the energy per site of $\epsilon$, $\mathcal{O}\left(\frac{\log N}{\epsilon} \right)$ $T$ gates and $\mathcal{O}\left(\log N \right)$ qubits suffice. The constant factor of the leading contribution is shown to be determined by the depth of the DMERA circuit, the gates used in the ansatz, and the periodicity of the circuit. We also derive tight bounds on the variance of the energy gradient, assuming the gates are random Pauli rotations.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 量子ビットのないLandau-Zener:展開多重光子干渉、合成フロケット次元、散逸量子カオス

Landau-Zener without a Qubit: Unveiling Multiphoton Interference, Synthetic Floquet Dimensions, and Dissipative Quantum Chaos ( http://arxiv.org/abs/2404.10051v1 )

ライセンス: Link先を確認
Leo Peyruchat, Fabrizio Minganti, Marco Scigliuzzo, Filippo Ferrari, Vincent Jouanny, Franco Nori, Vincenzo Savona, Pasquale Scarlino, (参考訳) Landau-Zener-St\"uckelberg-Majorana (LZSM) 干渉は、$\textit{qubit}$のパラメータが回避されたレベルの交差を周期的に変調されるときに発生する。 本稿では, 非線形多レベルボゾン系におけるLZSM現象の発生について検討する。 フラックス可変ジョセフソン接合アレイからなる2つの超伝導共振器を作製した。 第1の装置は非常に弱い非線形(非線形性は光子損失率よりも小さい)であり、弱い駆動場を印加すると線形共振器として振る舞うが、LZSM干渉は2レベル系と同じである。 ここでは干渉は、ハーモニック・はしごの複数の回避レベル交差に由来する。 強い駆動を受けると非線形効果が働き始め、干渉パターンは2段階の系で観測されるものから離れる。 2つ以上のLZSM干渉がピークに達すると、散逸する量子カオスが出現する。 非線形性が光子損失率を超える第2の装置では、カー多光子共鳴によるLZSM干渉ピークが観測される。 フロケ理論の光の下で記述すると、これらの共鳴は結合された空洞の配列の合成モードとして解釈できる。 これらの現象の全体の本質的な特徴を強調する単純な有効モデルが導出される。 量子ビットシステムにおけるLZSMの制御により、キャラクタリゼーションと状態準備のための高速プロトコルの実装がもたらされたため、非線形共振器の制御がより良くなり、様々な量子技術プラットフォームに影響を及ぼすことが判明した。

Landau-Zener-St\"uckelberg-Majorana (LZSM) interference emerges when the parameters of a $\textit{qubit}$ are periodically modulated across an avoided level crossing. Here, we investigate the occurrence of the LZSM phenomenon in nonlinear multilevel bosonic systems, where the interference pattern is determined by multiple energy levels and cannot be described by a level crossing between only two states. We fabricate two superconducting resonators made of flux-tunable Josephson junction arrays. The first device is very weakly nonlinear (the nonlinearity is smaller than the photon-loss rate) and, when a weak driving field is applied, it behaves as a linear resonator, yet shows the same LZSM interference as in a two-level system. Notably, here the interference originates from multiple avoided level crossings of the harmonic ladder. When subjected to a stronger drive, nonlinear effects start playing a role, and the interference pattern departs from the one observed in two-level systems. We demonstrate that, when two or more LZSM interference peaks merge, dissipative quantum chaos emerges. In the second device, where the nonlinearity surpasses the photon-loss rate, we observe additional LZSM interference peaks due to Kerr multiphoton resonances. When described under the light of the Floquet theory, these resonances can be interpreted as synthetic modes of an array of coupled cavities. We derive a simple effective model highlighting the essential features of the entirety of these phenomena. As the control of LZSM in qubit systems led to the implementation of fast protocols for characterization and state preparation, our findings pave the way to better control of nonlinear resonators, with implications for diverse quantum technological platforms.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# AIGeN: VLNにおけるインストラクション生成の逆アプローチ

AIGeN: An Adversarial Approach for Instruction Generation in VLN ( http://arxiv.org/abs/2404.10054v1 )

ライセンス: Link先を確認
Niyati Rawal, Roberto Bigazzi, Lorenzo Baraldi, Rita Cucchiara, (参考訳) 近年,VLN(Vision-and-Language Navigation)研究への関心が高まっている。 VLNは、エージェントが人間の指示に従い、これまで未知の環境をナビゲートして特定の目標を達成するという、困難なタスクである。 近年の文献研究は、合成トレーニングデータを利用してナビゲーション性能を向上させるために利用可能な命令のデータセットを拡大する様々な方法に焦点を当てている。 本研究では,GAN(Generative Adversarial Networks)にインスパイアされた新しいアーキテクチャであるAIGeNを提案する。 モデルは Transformer decoder (GPT-2) と Transformer encoder (BERT) で構成されている。 トレーニングフェーズ中に、デコーダは、エージェントの特定の時点への経路を記述する一連の画像の文を生成し、エンコーダは、実と偽の命令を識別する。 実験により,生成した命令の質を評価し,広範囲にわたるアブレーション研究を行った。 さらに,Habitat-Matterport 3D Dataset (HM3D)上でAIGeNを用いた217K軌道の合成命令を生成し,市販VLN法の性能向上を示す。 提案手法の検証分析はREVERIEとR2Rで行われ,提案手法の将来性を強調した。

In the last few years, the research interest in Vision-and-Language Navigation (VLN) has grown significantly. VLN is a challenging task that involves an agent following human instructions and navigating in a previously unknown environment to reach a specified goal. Recent work in literature focuses on different ways to augment the available datasets of instructions for improving navigation performance by exploiting synthetic training data. In this work, we propose AIGeN, a novel architecture inspired by Generative Adversarial Networks (GANs) that produces meaningful and well-formed synthetic instructions to improve navigation agents' performance. The model is composed of a Transformer decoder (GPT-2) and a Transformer encoder (BERT). During the training phase, the decoder generates sentences for a sequence of images describing the agent's path to a particular point while the encoder discriminates between real and fake instructions. Experimentally, we evaluate the quality of the generated instructions and perform extensive ablation studies. Additionally, we generate synthetic instructions for 217K trajectories using AIGeN on Habitat-Matterport 3D Dataset (HM3D) and show an improvement in the performance of an off-the-shelf VLN method. The validation analysis of our proposal is conducted on REVERIE and R2R and highlights the promising aspects of our proposal, achieving state-of-the-art performance.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 一般量子多体系におけるユニタリダイナミクスからの重なりの普遍分布

Universal distributions of overlaps from unitary dynamics in generic quantum many-body systems ( http://arxiv.org/abs/2404.10057v1 )

ライセンス: Link先を確認
Alexios Christopoulos, Amos Chan, Andrea De Luca, (参考訳) 我々は、深さ$t$の回路を用いて、N$サイトの分解状態から量子状態を作成する。 我々は、大きな$t$と$N$の適切なスケーリング限界において、一般的な多体カオス力学の下で進化した状態間の重なり合いが、有名なポーター・トーマス分布を一般化する普遍分布の族に属することを論じる。 これはレプリカの空間を希薄なドメインウォールのモデルにマッピングした結果である。 この結果から,任意のレプリカ数の解析が可能であり,完全な重複分布が生じるという稀な例が得られた。 我々の一般的な画像は、ランダム位相モデルの正確な解法と、ジニブレのアンサンブルによって与えられる創発的ランダム行列モデルの解によって導かれ、裏付けられる。 最後に、2つの異なるランダム回路の数値シミュレーションは優れた一致を示し、普遍性を示す。

We study the preparation of a quantum state using a circuit of depth $t$ from a factorized state of $N$ sites. We argue that in the appropriate scaling limit of large $t$ and $N$, the overlap between states evolved under generic many-body chaotic dynamics belongs to a family of universal distribution that generalizes the celebrated Porter-Thomas distribution. This is a consequence of a mapping in the space of replicas to a model of dilute domain walls. Our result provides a rare example in which analysis at an arbitrary number of replicas is possible, giving rise to the complete overlap distribution. Our general picture is derived and corroborated by the exact solution of the random phase model and of an emergent random matrix model given by the Ginibre ensemble. Finally, numerical simulations of two distinct random circuits show excellent agreement, thereby demonstrating universality.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 身体的・倫理的・法的にロボットの権利を主張する

Debunking Robot Rights Metaphysically, Ethically, and Legally ( http://arxiv.org/abs/2404.10072v1 )

ライセンス: Link先を確認
Abeba Birhane, Jelle van Dijk, Frank Pasquale, (参考訳) 本研究では,メタ物理的,倫理的,法的根拠に基づくロボットの権利に関する議論に挑戦する。 形骸化学的には、機械は否定されたり、権利を与えられたりするものではない、と我々は主張する。 認知科学に対する現象学とポストカルト的アプローチの理論に基づいて、我々は現実の人間の生きた現実における位置を、ますます普遍的に結びつき、制御され、デジタル化され、監視される社会に定めている。 倫理学的には、現在ある機械と潜在的な害が社会で最も過小評価されている機械にとって、機械の(権利よりもむしろ)制限は、現在のAI倫理論争の中心であるべきだと論じる。 法的な見地からすると、ロボットの権利の最良の類推は人権ではなく、企業の権利であり、非常に議論の的になっている概念であり、その最も重要な影響は、労働者、消費者、有権者の権利を損なうことであり、資本の力を推進し、政治や法律に大きな影響力を行使することである。 ロボットの権利という考え方は、スモークスクリーンとして機能し、理論家や未来主義者が、法によって保護される不可能なニーズと欲求を持った、好意的な感覚的な機械を熱狂させる。 このような幻想は、魅力的なフィクションや芸術を動機付けており、法律理論や権利主張の範囲を明確にした実践に影響を及ぼすと、監視資本主義を加速させ、環境破壊を加速させ、不正と人間の苦悩を増している、現在のAIとロボットの法的説明責任から免責されることを脅かしている。

In this work we challenge arguments for robot rights on metaphysical, ethical and legal grounds. Metaphysically, we argue that machines are not the kinds of things that may be denied or granted rights. Building on theories of phenomenology and post-Cartesian approaches to cognitive science, we ground our position in the lived reality of actual humans in an increasingly ubiquitously connected, controlled, digitized, and surveilled society. Ethically, we argue that, given machines current and potential harms to the most marginalized in society, limits on (rather than rights for) machines should be at the centre of current AI ethics debate. From a legal perspective, the best analogy to robot rights is not human rights but corporate rights, a highly controversial concept whose most important effect has been the undermining of worker, consumer, and voter rights by advancing the power of capital to exercise outsized influence on politics and law. The idea of robot rights, we conclude, acts as a smoke screen, allowing theorists and futurists to fantasize about benevolently sentient machines with unalterable needs and desires protected by law. While such fantasies have motivated fascinating fiction and art, once they influence legal theory and practice articulating the scope of rights claims, they threaten to immunize from legal accountability the current AI and robotics that is fuelling surveillance capitalism, accelerating environmental destruction, and entrenching injustice and human suffering.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 干ばつ改善のための説明可能な軽量深層学習パイプライン

Explainable Light-Weight Deep Learning Pipeline for Improved Drought Stres ( http://arxiv.org/abs/2404.10073v1 )

ライセンス: Link先を確認
Aswini Kumar Patra, Lingaraj Sahoo, (参考訳) 作物の干ばつストレスの早期同定は、効果的な緩和対策と収量損失の低減に不可欠である。 非侵襲イメージング技術は、水不足下の植物の微妙な生理的変化を捉え、大きな可能性を秘めている。 センサベースのイメージングデータは、機械学習とディープラーニングアルゴリズムのための豊富な情報源として機能し、干ばつストレスの特定を目的としたさらなる分析を容易にする。 これらのアプローチは好意的な結果をもたらすが、実時間分野の応用には、自然の農業条件の複雑さに特化して設計されたアルゴリズムが必要である。 本研究は,UAVが自然環境下で捕獲したジャガイモの干ばつストレスを分類するための,新しいディープラーニングフレームワークを提案する。 この斬新さは、事前訓練されたネットワークと慎重に設計されたカスタムレイヤの相乗的な組み合わせにある。 このアーキテクチャは、トレーニング済みネットワークの機能抽出機能を活用し、カスタムレイヤはターゲット次元の削減と正規化の強化を可能にし、最終的にパフォーマンスが向上する。 私たちの研究の重要な革新は、説明可能性のテクニックであるグラディエントクラスの活性化マッピング(Grad-CAM)の統合です。 Grad-CAMは、一般的にブラックボックスと呼ばれるディープラーニングモデルの内部動作に光を当てる。 画像内のモデルの焦点領域を可視化することにより、Grad-CAMは解釈可能性を高め、モデルの意思決定プロセスにおける信頼を構築する。 提案フレームワークは,特にDenseNet121事前学習ネットワークにおいて,ストレスクラスを90%の精度で識別するために,98%の精度を達成している。 既存の最先端物体検出アルゴリズムの比較解析により,提案手法の精度と精度が著しく向上したことが明らかとなった。

Early identification of drought stress in crops is vital for implementing effective mitigation measures and reducing yield loss. Non-invasive imaging techniques hold immense potential by capturing subtle physiological changes in plants under water deficit. Sensor based imaging data serves as a rich source of information for machine learning and deep learning algorithms, facilitating further analysis aimed at identifying drought stress. While these approaches yield favorable results, real-time field applications requires algorithms specifically designed for the complexities of natural agricultural conditions. Our work proposes a novel deep learning framework for classifying drought stress in potato crops captured by UAVs in natural settings. The novelty lies in the synergistic combination of a pretrained network with carefully designed custom layers. This architecture leverages feature extraction capabilities of the pre-trained network while the custom layers enable targeted dimensionality reduction and enhanced regularization, ultimately leading to improved performance. A key innovation of our work involves the integration of Gradient-Class Activation Mapping (Grad-CAM), an explainability technique. Grad-CAM sheds light on the internal workings of the deep learning model, typically referred to as a black box. By visualizing the focus areas of the model within the images, Grad-CAM fosters interpretability and builds trust in the decision-making process of the model. Our proposed framework achieves superior performance, particularly with the DenseNet121 pre-trained network, reaching a precision of 98% to identify the stressed class with an overall accuracy of 90%. Comparative analysis of existing state-of-the-art object detection algorithms reveals the superiority of our approach in significantly higher precision and accuracy.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# 極小散逸における量子スピンのナノウェルディング-1/2$鎖

Nano-welding of quantum spin-$1/2$ chains at minimal dissipation ( http://arxiv.org/abs/2404.10074v1 )

ライセンス: Link先を確認
Moallison F. Cavalcante, Marcus V. S. Bonança, Eduardo Miranda, Sebastian Deffner, (参考訳) 2つの量子多体系間の結合項のスイッチングの最適制御について検討する。 具体的には (i)有限時間$\tau$,および2つの量子スピン-1/2$チェーン間の弱い接合を確立するためのエネルギーコストの定量化 (2)それを実現するのに最適なプロトコルを同定する。 線形駆動プロトコルの場合、余剰(可逆)な作業は長い時間の間$\tau^{-\eta}$とスケールし、そこでは$\eta=1, 2$または鎖の位相に依存する非ユニバーサル数となる。 興味深いことに、鎖における$J_z$異方性の増加は過剰な作業を抑制し、準断熱性を促進する。 一般的な最適制御問題はチェビシェフ・アンザッツを用いて解決される。 最適制御プロトコルは連鎖位相に敏感であることがわかった。

We consider the optimal control of switching on a coupling term between two quantum many-body systems. Specifically, we (i) quantify the energetic cost of establishing a weak junction between two quantum spin-$1/2$ chains in finite time $\tau$ and (ii) identify the energetically optimal protocol to realize it. For linear driving protocols, we find that for long times the excess (irreversible) work scales as $\tau^{-\eta}$, where $\eta=1, 2$ or a nonuniversal number depending on the phase of the chains. Interestingly, increasing a $J_z$ anisotropy in the chains suppresses the excess work thus promoting quasi-adiabaticity. The general optimal control problem is solved, employing a Chebyshev ansatz. We find that the optimal control protocol is intimately sensitive to the chain phases.
翻訳日:2024-04-17 20:58:20 公開日:2024-04-15
# (111)配向ダイヤモンドにおける強相互作用、2次元双極子スピンアンサンブル

A strongly interacting, two-dimensional, dipolar spin ensemble in (111)-oriented diamond ( http://arxiv.org/abs/2404.10075v1 )

ライセンス: Link先を確認
Lillian B. Hughes, Simon A. Meynell, Weijie Wu, Shreyas Parthasarathy, Lingjie Chen, Zhiran Zhang, Zilin Wang, Emily J. Davis, Kunal Mukherjee, Norman Y. Yao, Ania C. Bleszynski Jayich, (参考訳) 強い双極子相互作用と制御された次元を持つスピンのシステムは、量子センシングとシミュレーションの新しい探索を可能にする。 本研究では,111配向ダイヤモンド基板上にプラズマ濃縮化学気相蒸着(PECVD)により生成した窒素空孔(NV)中心の2次元アンサンブルにおける強い双極子相互作用の創出について検討する。 111平面上のダイヤモンド成長は、窒素とNV中心の両方のスピンが高集積化され、後者の密度はダイヤモンド基板のミスカットによって調整可能である。 我々のプロセスは密度が高く、優先的に整列した2次元NVアンサンブルを形成でき、体積正規化された交流感度を$\eta_{AC}$ = 810 pT um$^{3/2}$ Hz$^{-1/2}$に下げることができる。 さらに,(111)は2次元NVアンサンブル間の最大正の双極子相互作用を許容することを示した。

Systems of spins with strong dipolar interactions and controlled dimensionality enable new explorations in quantum sensing and simulation. In this work, we investigate the creation of strong dipolar interactions in a two-dimensional ensemble of nitrogen-vacancy (NV) centers generated via plasma-enhanced chemical vapor deposition (PECVD) on (111)-oriented diamond substrates. We find that diamond growth on the (111) plane yields high incorporation of spins, both nitrogen and NV centers, where the density of the latter is tunable via the miscut of the diamond substrate. Our process allows us to form dense, preferentially aligned, 2D NV ensembles with volume-normalized AC sensitivity down to $\eta_{AC}$ = 810 pT um$^{3/2}$ Hz$^{-1/2}$. Furthermore, we show that (111) affords maximally positive dipolar interactions amongst a 2D NV ensemble, which is crucial for leveraging dipolar-driven entanglement schemes and exploring new interacting spin physics.
翻訳日:2024-04-17 20:58:19 公開日:2024-04-15
# 魚眼レンズデータセットにおける物体検出改善のための低照度画像強調フレームワーク

Low-Light Image Enhancement Framework for Improved Object Detection in Fisheye Lens Datasets ( http://arxiv.org/abs/2404.10078v1 )

ライセンス: Link先を確認
Dai Quoc Tran, Armstrong Aboah, Yuntae Jeon, Maged Shoman, Minsoo Park, Seunghee Park, (参考訳) 本研究は,魚眼レンズカメラを用いた都市交通監視システムにおける課題を,これらのシステムの有効性と精度を向上させる枠組みを提案することによって解決するものである。 都市インフラと交通管理の文脈において,交通監視の高度化は,都市化の複雑化と車両密度の増大に欠かせないものとなっている。 従来の監視方法は、視野が狭い静的カメラに依存しており、動的な都市環境では効果がなく、複数のカメラを設置する必要があるため、コストが上昇する。 最近導入されたフィッシュアイレンズは、1つのフレームで広角と全方位のカバーを提供し、変換可能なソリューションとなっている。 しかし、歪んだビューやぼやけなどの問題が発生し、これらの画像の正確な物体検出を妨げている。 本研究は,これらの課題に対処し,交通監視の精度を向上させるために,ランズフォーマに基づく画像強調フレームワークとアンサンブル学習技術を組み合わせた新しいアプローチを提案する。 提案手法は2024年のAI City Challenge, Track 4で5位となり,F1スコアは0.5965であった。 実験結果は,提案システムの有効性,効率,堅牢性を示すものである。 私たちのコードはhttps://github.com/daitranskku/AIC2024-TRACK4-TEAM15で公開されています。

This study addresses the evolving challenges in urban traffic monitoring detection systems based on fisheye lens cameras by proposing a framework that improves the efficacy and accuracy of these systems. In the context of urban infrastructure and transportation management, advanced traffic monitoring systems have become critical for managing the complexities of urbanization and increasing vehicle density. Traditional monitoring methods, which rely on static cameras with narrow fields of view, are ineffective in dynamic urban environments, necessitating the installation of multiple cameras, which raises costs. Fisheye lenses, which were recently introduced, provide wide and omnidirectional coverage in a single frame, making them a transformative solution. However, issues such as distorted views and blurriness arise, preventing accurate object detection on these images. Motivated by these challenges, this study proposes a novel approach that combines a ransformer-based image enhancement framework and ensemble learning technique to address these challenges and improve traffic monitoring accuracy, making significant contributions to the future of intelligent traffic management systems. Our proposed methodological framework won 5th place in the 2024 AI City Challenge, Track 4, with an F1 score of 0.5965 on experimental validation data. The experimental results demonstrate the effectiveness, efficiency, and robustness of the proposed system. Our code is publicly available at https://github.com/daitranskku/AIC2024-TRACK4-TEAM15.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# Refine Frameworkを使用したアドミンダッシュボードの構築とデプロイによるエンタープライズ開発

Empowering Enterprise Development by Building and Deploying Admin Dashboard using Refine Framework ( http://arxiv.org/abs/2404.10086v1 )

ライセンス: Link先を確認
Sai Teja Gajjala, Devi Deepak Manchala, Bhargav Gummadelly, Naga Sailaja K, (参考訳) このプロジェクトでは、Refineフレームワーク、Ant Design、GraphQL APIを活用した、エンタープライズ開発に適した高度な管理ダッシュボードの開発を提案する。 バックエンドの統合を最適化し、リアルタイム洞察にGraphQLの動的データサブスクリプションを採用することで、運用効率の向上を約束している。 現代的な美学とユーザ中心の設計に重点を置いて、シームレスなデータの可視化と管理を保証する。 主な機能としては、ユーザ管理、データの可視化、CRUD操作、リアルタイム通知、既存システムとのシームレスな統合などがある。 デリバリには、包括的なドキュメントとともにデプロイ可能なダッシュボードが含まれており、最先端のデータ駆動ソリューションでエンタープライズチームを強化することを目的としている。

This project proposes the development of an advanced admin dashboard tailored for enterprise development, leveraging the Refine framework, Ant Design, and GraphQL API. It promises heightened operational efficiency by optimizing backend integration and employing GraphQL's dynamic data subscription for real-time insights. With an emphasis on modern aesthetics and user-centric design, it ensures seamless data visualization and management. Key functionalities encompass user administration, data visualization, CRUD operations, real-time notifications, and seamless integration with existing systems. The deliverable includes a deployable dashboard alongside comprehensive documentation, aiming to empower enterprise teams with a cutting-edge, data-driven solution.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 金融デリバティブの量子リスク分析

Quantum Risk Analysis of Financial Derivatives ( http://arxiv.org/abs/2404.10088v1 )

ライセンス: Link先を確認
Nikitas Stamatopoulos, B. David Clader, Stefan Woerner, William J. Zeng, (参考訳) 本稿では、量子コンピュータを用いた金融デリバティブのリスク値(VaR)と条件値(CVaR)を計算するための2つの量子アルゴリズムを紹介する。 文献における以前の研究は、個々のデリバティブ価格の文脈で量子的優位性が可能であり、VaRとCVaRの見積もりにおいて直接的に有利性を利用することができることを示した。 本研究で紹介するアルゴリズムは、量子システムに適切な変換を適用することで、重ね合わせや所望値の計算において、複数の市場シナリオに対してデリバティブ価格を符号化することで、さらなる優位性を提供することを目的としている。 両アルゴリズムの複雑性と誤差解析を行い、この2つのアルゴリズムが同じ漸近的スケーリングを持つ一方で、QSPベースのアプローチでは、同じターゲット精度の量子リソースを著しく少なくする必要があることを示した。 さらに,量子VaRアルゴリズムと古典的VaRアルゴリズムの両方を数値シミュレーションすることにより,量子アルゴリズムが個々のデリバティブ価格と比較して量子コンピュータからさらなる利点を得られることを示す。 具体的には、ある条件下では、VaR推定により、導関数価格の量子的優位性に必要な論理クロックレートを最大$\sim 30$xまで下げることができることを示す。 これらの結果を踏まえ、QSPフレームワークにおけるデリバティブ価格の定式化は、他の関連する金融アプリケーションにおいて量子優位性のためにさらに活用され、より高いレベルで金融セクターの問題を考慮し、量子コンピュータをより効率的に活用することが推奨される。

We introduce two quantum algorithms to compute the Value at Risk (VaR) and Conditional Value at Risk (CVaR) of financial derivatives using quantum computers: the first by applying existing ideas from quantum risk analysis to derivative pricing, and the second based on a novel approach using Quantum Signal Processing (QSP). Previous work in the literature has shown that quantum advantage is possible in the context of individual derivative pricing and that advantage can be leveraged in a straightforward manner in the estimation of the VaR and CVaR. The algorithms we introduce in this work aim to provide an additional advantage by encoding the derivative price over multiple market scenarios in superposition and computing the desired values by applying appropriate transformations to the quantum system. We perform complexity and error analysis of both algorithms, and show that while the two algorithms have the same asymptotic scaling the QSP-based approach requires significantly fewer quantum resources for the same target accuracy. Additionally, by numerically simulating both quantum and classical VaR algorithms, we demonstrate that the quantum algorithm can extract additional advantage from a quantum computer compared to individual derivative pricing. Specifically, we show that under certain conditions VaR estimation can lower the latest published estimates of the logical clock rate required for quantum advantage in derivative pricing by up to $\sim 30$x. In light of these results, we are encouraged that our formulation of derivative pricing in the QSP framework may be further leveraged for quantum advantage in other relevant financial applications, and that quantum computers could be harnessed more efficiently by considering problems in the financial sector at a higher level.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 意図しないゴシップによるフェデレーション学習の強化--未知と任意のダイナミクスによる接続不信頼性の軽減

Empowering Federated Learning with Implicit Gossiping: Mitigating Connection Unreliability Amidst Unknown and Arbitrary Dynamics ( http://arxiv.org/abs/2404.10091v1 )

ライセンス: Link先を確認
Ming Xiang, Stratis Ioannidis, Edmund Yeh, Carlee Joe-Wong, Lili Su, (参考訳) フェデレーション学習(Federated Learning)は、生データを公開せずに機械学習モデルをトレーニングするための、人気のある分散学習アプローチである。 パラメータサーバとおそらく巨大なクライアント(クロスデバイスなフェデレーション学習など)で構成されており、混雑した環境や変化した環境で動作します。 本稿では,パラメータサーバとクライアント$i$のアップリンクが未知の確率$p_i^t$のラウンド$t$である確率的および動的通信障害の存在下でのフェデレーション学習について検討する。 さらに、$p_i^t$ の力学を任意にすることができる。 まず,最も広く採用されているフェデレーション学習アルゴリズムであるFederated Average(FedAvg)が,クライアント間で異なる場合,大きなバイアスを経験することを示した。 そこで本研究では,FedAvg の簡易版である Federated Postponed Broadcast (FedPBC) を提案する。 FedPBCはFedAvgと異なり、パラメータサーバは各ラウンドの終了までグローバルモデルを放送することを延期する。 アップリンク障害にもかかわらず、FedPBCは元の非凸目標の静止点に収束することを示す。 技術的な面では、グローバルモデルブロードキャストを延期することで、ラウンド$t$のアクティブリンクを持つクライアント間で暗黙のゴシップが可能になる。 p_i^t$の時間変化の性質にもかかわらず、ゴシップ型情報混合誤差を制御する手法を用いて、グローバルモデル力学の摂動を制限できる。 我々の分析を裏付ける多彩な信頼できないアップリンクパターンに対する実世界のデータセットに対する大規模な実験が実施されている。

Federated learning is a popular distributed learning approach for training a machine learning model without disclosing raw data. It consists of a parameter server and a possibly large collection of clients (e.g., in cross-device federated learning) that may operate in congested and changing environments. In this paper, we study federated learning in the presence of stochastic and dynamic communication failures wherein the uplink between the parameter server and client $i$ is on with unknown probability $p_i^t$ in round $t$. Furthermore, we allow the dynamics of $p_i^t$ to be arbitrary. We first demonstrate that when the $p_i^t$'s vary across clients, the most widely adopted federated learning algorithm, Federated Average (FedAvg), experiences significant bias. To address this observation, we propose Federated Postponed Broadcast (FedPBC), a simple variant of FedAvg. FedPBC differs from FedAvg in that the parameter server postpones broadcasting the global model till the end of each round. Despite uplink failures, we show that FedPBC converges to a stationary point of the original non-convex objective. On the technical front, postponing the global model broadcasts enables implicit gossiping among the clients with active links in round $t$. Despite the time-varying nature of $p_i^t$, we can bound the perturbation of the global model dynamics using techniques to control gossip-type information mixing errors. Extensive experiments have been conducted on real-world datasets over diversified unreliable uplink patterns to corroborate our analysis.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 医療におけるフェデレーションラーニングとブロックチェーンの統合: チュートリアル

Integration of Federated Learning and Blockchain in Healthcare: A Tutorial ( http://arxiv.org/abs/2404.10092v1 )

ライセンス: Link先を確認
Yahya Shahsavari, Oussama A. Dambri, Yaser Baseri, Abdelhakim Senhaji Hafid, Dimitrios Makrakis, (参考訳) ウェアラブルデバイスと医療センサは、健康モニタリングに革命をもたらし、医療のためのMLにおけるデータのプライバシに関する懸念を提起する。 このチュートリアルでは、FLとBCの統合を調査し、医療分析に対するセキュアでプライバシ保護のアプローチを提供する。 FLは、医療機関のローカルデバイス上での分散モデルトレーニングを可能にし、患者のデータをローカライズする。 これにより、プライバシーを損なうことなくコラボレーティブモデルの開発が容易になる。 しかし、FLは脆弱性を導入している。 BCは、改ざん防止の台帳とスマートコントラクトによって、FLで安全な協調学習のための堅牢なフレームワークを提供する。 医療アプリケーションでMLで使用されるさまざまな種類のデータに対する分類を提示し、医療ユースケースにおけるMLテクニックの簡潔なレビューを行った後、このチュートリアルでは、分散化、スケーラビリティ、医療データの信頼性のバランスをとるための3つの統合アーキテクチャを探求する。 さらに、BCFLは、疾病予測、医療画像分析、患者のモニタリング、薬物発見において、データセキュリティと協調性をいかに強化するかを調査する。 FL、ブロックチェーン、およびそれらの統合に関するチュートリアルとBCFLアプリケーションのレビューを提供することで、この論文は、これらの技術をセキュアでプライバシ保護のヘルスケアMLに活用しようとする研究者や実践者にとって貴重なリソースとなる。 安全で協力的な医療分析の進歩を加速し、最終的には患者の成果を改善することを目指している。

Wearable devices and medical sensors revolutionize health monitoring, raising concerns about data privacy in ML for healthcare. This tutorial explores FL and BC integration, offering a secure and privacy-preserving approach to healthcare analytics. FL enables decentralized model training on local devices at healthcare institutions, keeping patient data localized. This facilitates collaborative model development without compromising privacy. However, FL introduces vulnerabilities. BC, with its tamper-proof ledger and smart contracts, provides a robust framework for secure collaborative learning in FL. After presenting a taxonomy for the various types of data used in ML in medical applications, and a concise review of ML techniques for healthcare use cases, this tutorial explores three integration architectures for balancing decentralization, scalability, and reliability in healthcare data. Furthermore, it investigates how BCFL enhances data security and collaboration in disease prediction, medical image analysis, patient monitoring, and drug discovery. By providing a tutorial on FL, blockchain, and their integration, along with a review of BCFL applications, this paper serves as a valuable resource for researchers and practitioners seeking to leverage these technologies for secure and privacy-preserving healthcare ML. It aims to accelerate advancements in secure and collaborative healthcare analytics, ultimately improving patient outcomes.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# GFlowNetsによるDNAエンコードライブラリ生成に向けて

Towards DNA-Encoded Library Generation with GFlowNets ( http://arxiv.org/abs/2404.10094v1 )

ライセンス: Link先を確認
Michał Koziarski, Mohammed Abukalam, Vedant Shah, Louis Vaillancourt, Doris Alexandra Schuetz, Moksh Jain, Almer van der Sloot, Mathieu Bourgey, Anne Marinier, Yoshua Bengio, (参考訳) DNAエンコードライブラリー(DEL)は、多種多様な化合物を迅速にスクリーニングするための強力なアプローチである。 DELを使用する上で重要な課題の1つは、最終ライブラリを生成するために組み合わせられたビルディングブロックを選択することを含む、ライブラリ設計である。 本稿では,タンパク質-タンパク質相互作用(PPI)のDEL設計における課題について考察する。 この目的のために,PPI変調タスク上で複数の機械学習アルゴリズムを評価し,提案したGFlowNetに基づく生成手法の報奨として利用する。 また,GFlowNetの階層的なアクション空間の設計にビルディングブロックに関する構造情報を利用する可能性についても検討する。 その結果,GFlowNetsは多様な組み合わせ型ライブラリ候補を生成する上で有望なアプローチであることが示唆された。

DNA-encoded libraries (DELs) are a powerful approach for rapidly screening large numbers of diverse compounds. One of the key challenges in using DELs is library design, which involves choosing the building blocks that will be combinatorially combined to produce the final library. In this paper we consider the task of protein-protein interaction (PPI) biased DEL design. To this end, we evaluate several machine learning algorithms on the PPI modulation task and use them as a reward for the proposed GFlowNet-based generative approach. We additionally investigate the possibility of using structural information about building blocks to design a hierarchical action space for the GFlowNet. The observed results indicate that GFlowNets are a promising approach for generating diverse combinatorial library candidates.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 多次元マルチセットサムによる合成センサデータ生成

Synthetic Census Data Generation via Multidimensional Multiset Sum ( http://arxiv.org/abs/2404.10095v1 )

ライセンス: Link先を確認
Cynthia Dwork, Kristjan Greenewald, Manish Raghavan, (参考訳) アメリカ十年国勢調査(US Decennial Census)は、研究目的と政策目的の両方に貴重なデータを提供している。 国勢調査データは、応答性の機密性を維持するために、リリース前に様々な開示回避手法が適用される。 開示回避法が下流分析に与える影響、特に2020年秋の国勢調査における差分プライバシーの導入について研究することに関心があるが、これらの取り組みはデータの欠如によって制限されている:開示回避法に必要な入力として機能する基盤となる“マイクロデータ”は機密保持されている。 本研究は,センサス統計のみから合成マイクロデータを生成するツールを提供することにより,この制限に対処することを目的としている。 我々は,この分布から標本化するためのセンサス統計と設計アルゴリズムを用いて,マイクロデータ上の原理分布を定義した。 我々は、この文脈における合成データ生成を、knapsackスタイルの組合せ最適化問題として定式化し、この設定のための新しいアルゴリズムを開発する。 研究の課題は証明しがたいほど難しいが,本手法が実際にうまく機能していることが実証的に示され,その性能を説明するための理論的議論が提示される。 最後に、私たちが生成するデータは、望ましい根拠の真理に「近い」ことを検証します。

The US Decennial Census provides valuable data for both research and policy purposes. Census data are subject to a variety of disclosure avoidance techniques prior to release in order to preserve respondent confidentiality. While many are interested in studying the impacts of disclosure avoidance methods on downstream analyses, particularly with the introduction of differential privacy in the 2020 Decennial Census, these efforts are limited by a critical lack of data: The underlying "microdata," which serve as necessary input to disclosure avoidance methods, are kept confidential. In this work, we aim to address this limitation by providing tools to generate synthetic microdata solely from published Census statistics, which can then be used as input to any number of disclosure avoidance algorithms for the sake of evaluation and carrying out comparisons. We define a principled distribution over microdata given published Census statistics and design algorithms to sample from this distribution. We formulate synthetic data generation in this context as a knapsack-style combinatorial optimization problem and develop novel algorithms for this setting. While the problem we study is provably hard, we show empirically that our methods work well in practice, and we offer theoretical arguments to explain our performance. Finally, we verify that the data we produce are "close" to the desired ground truth.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 注意設計付き視覚拡張予測オートエンコーダ(VAPAAD)

Vision Augmentation Prediction Autoencoder with Attention Design (VAPAAD) ( http://arxiv.org/abs/2404.10096v1 )

ライセンス: Link先を確認
Yiqiao Yin, (参考訳) シーケンス予測の大幅な進歩にもかかわらず、現在の手法では、次のフレーム予測に対する注意に基づくメカニズムが欠如している。 VAPAAD(Vision Augmentation Prediction Autoencoder with Attention Design)は、注意設計の統合による予測性能の向上を図り、ビデオシーケンスにおける時間的ダイナミクスの微妙な理解と処理を可能にする革新的なモデルである。 そこで本論文では,Moving MNISTデータセットを用いて,提案モデルの堅牢な性能と,そのような設計の適用可能性を示す。

Despite significant advancements in sequence prediction, current methods lack attention-based mechanisms for next-frame prediction. Our work introduces VAPAAD or Vision Augmentation Prediction Autoencoder with Attention Design, an innovative model that enhances predictive performance by integrating attention designs, allowing for nuanced understanding and handling of temporal dynamics in video sequences. We demonstrate using the famous Moving MNIST dataset the robust performance of the proposed model and potential applicability of such design in the literature.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# Legal Pro-BERT:微細調整されたBERT大言語モデルによる法的規定の分類

LegalPro-BERT: Classification of Legal Provisions by fine-tuning BERT Large Language Model ( http://arxiv.org/abs/2404.10097v1 )

ライセンス: Link先を確認
Amit Tewari, (参考訳) 契約は、組織で一般的に使用される法律文書の一種である。 契約レビューは、ビジネスリスクと責任を避けるために、統合的で反復的なプロセスである。 契約分析は、合意の範囲内で重要な規定及び段落の識別及び分類を必要とする。 契約条項の特定と検証は、訓練され高価な弁護士、法務官、その他の法務助手のサービスを要求するのに時間がかかり、困難な作業である。 人工知能と自然言語処理を用いた契約における法的規定の分類は、モデルトレーニングのためのドメイン特化法的言語の必要性と、法律領域における十分なラベル付きデータの不足により複雑である。 汎用モデルの使用は、一般モデルでは認識されないような契約における特別な法的語彙の使用のため、この文脈では効果的ではない。 この問題に対処するため,法的な分類を基準とした事前学習型大規模言語モデルを提案する。 本稿では,BERTトランスフォーマーアーキテクチャモデルであるLegalPro-BERTを提案する。 測定値と現在のベンチマーク結果を比較する実験を行った。 LegalPro-BERTは,本研究で比較に用いたベンチマークよりも優れていた。

A contract is a type of legal document commonly used in organizations. Contract review is an integral and repetitive process to avoid business risk and liability. Contract analysis requires the identification and classification of key provisions and paragraphs within an agreement. Identification and validation of contract clauses can be a time-consuming and challenging task demanding the services of trained and expensive lawyers, paralegals or other legal assistants. Classification of legal provisions in contracts using artificial intelligence and natural language processing is complex due to the requirement of domain-specialized legal language for model training and the scarcity of sufficient labeled data in the legal domain. Using general-purpose models is not effective in this context due to the use of specialized legal vocabulary in contracts which may not be recognized by a general model. To address this problem, we propose the use of a pre-trained large language model which is subsequently calibrated on legal taxonomy. We propose LegalPro-BERT, a BERT transformer architecture model that we fine- tune to efficiently handle classification task for legal provisions. We conducted experiments to measure and compare metrics with current benchmark results. We found that LegalPro-BERT outperforms the previous benchmark used for comparison in this research.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 硬度制約による線形SVMの特徴選択--スケーラブルなSDP分解アプローチ

Feature selection in linear SVMs via hard cardinality constraint: a scalable SDP decomposition approach ( http://arxiv.org/abs/2404.10099v1 )

ライセンス: Link先を確認
Immanuel Bomze, Federico D'Onofrio, Laura Palagi, Bo Peng, (参考訳) 本稿では, 線形サポートベクトルマシン(SVM)の組込み特徴選択問題について検討し, 濃度制約を適用し, 完全に説明可能な選択モデルを提案する。 この問題は、元の線形SVMが多項式時間で解ける問題に等しいにもかかわらず、濃度制約の存在によりNPハードである。 この問題に対処するために、まず2つの混合整数式を導入し、新しいSDP緩和を提案する。 緩和のスパーシティパターンをエクスプロイトし、問題を分解し、より小さな円錐内で等価な緩和を得ることにより、円錐アプローチをスケーラブルにする。 分解緩和を最大限に活用するために,最適解の情報を用いたヒューリスティックスを提案する。 さらに、混合整数分解SDPの列を解くことによって、正確な手順を提案する。 従来のベンチマークデータセットの数値計算結果を報告するとともに,提案手法の有効性と有効性を示した。

In this paper, we study the embedded feature selection problem in linear Support Vector Machines (SVMs), in which a cardinality constraint is employed, leading to a fully explainable selection model. The problem is NP-hard due to the presence of the cardinality constraint, even though the original linear SVM amounts to a problem solvable in polynomial time. To handle the hard problem, we first introduce two mixed-integer formulations for which novel SDP relaxations are proposed. Exploiting the sparsity pattern of the relaxations, we decompose the problems and obtain equivalent relaxations in a much smaller cone, making the conic approaches scalable. To make the best usage of the decomposed relaxations, we propose heuristics using the information of its optimal solution. Moreover, an exact procedure is proposed by solving a sequence of mixed-integer decomposed SDPs. Numerical results on classical benchmarking datasets are reported, showing the efficiency and effectiveness of our approach.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# LLMによるテスト駆動型インタラクティブコード生成 : ユーザスタディと実証評価

LLM-based Test-driven Interactive Code Generation: User Study and Empirical Evaluation ( http://arxiv.org/abs/2404.10100v1 )

ライセンス: Link先を確認
Sarah Fakhoury, Aaditya Naik, Georgios Sakkas, Saikat Chakraborty, Shuvendu K. Lahiri, (参考訳) 大規模言語モデル(LLM)は、非公式な自然言語(NL)の意図から自然言語を生成することによって、コーディングの重要な側面を自動化する大きな可能性を示している。 しかし、NLが非公式であることを考えると、生成されたコードがユーザの意図を正しく満たしているかどうかを確認することは容易ではない。 本稿では,より正確なコード提案生成を支援するための,ガイド付き意図明確化(部分的形式化)のための対話型ワークフローTiCoderを提案する。 15人のプログラマによる混合手法を用いて、コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。 提案したワークフローの参加者は、AI生成したコードを正しく評価し、タスクによる認知負荷を著しく少なくする傾向にある。 さらに,2つのピソンデータセット上で4つの最先端LCMを用いて,ユーザフィードバックのための理想的なプロキシを用いて,ワークフローの大規模化の可能性をテストする。 我々は,関連するユニットテストの自動生成に加えて,5つのユーザインタラクション内で,データセットと全LLMのパス@1コード生成精度が平均38.43%向上したことを観察した。

Large language models (LLMs) have shown great potential in automating significant aspects of coding by producing natural code from informal natural language (NL) intent. However, given NL is informal, it does not lend easily to checking that the generated code correctly satisfies the user intent. In this paper, we propose a novel interactive workflow TiCoder for guided intent clarification (i.e., partial formalization) through tests to support the generation of more accurate code suggestions. Through a mixed methods user study with 15 programmers, we present an empirical evaluation of the effectiveness of the workflow to improve code generation accuracy. We find that participants using the proposed workflow are significantly more likely to correctly evaluate AI generated code, and report significantly less task-induced cognitive load. Furthermore, we test the potential of the workflow at scale with four different state-of-the-art LLMs on two python datasets, using an idealized proxy for a user feedback. We observe an average absolute improvement of 38.43% in the pass@1 code generation accuracy for both datasets and across all LLMs within 5 user interactions, in addition to the automatic generation of accompanying unit tests.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# Chinchilla Scaling: レプリケーションの試み

Chinchilla Scaling: A replication attempt ( http://arxiv.org/abs/2404.10102v1 )

ライセンス: Link先を確認
Tamay Besiroglu, Ege Erdil, Matthew Barnett, Josh You, (参考訳) Hoffmann et al (2022) は計算最適スケーリング法則を推定する3つの方法を提案する。 提案手法は,プロットからのデータ再構成にパラメトリック損失関数を組み込んだ第3次推定手順を再現する。 報告された推定値は、最初の2つの推定方法と矛盾し、抽出したデータに適合せず、そして、明らかに狭い信頼区間を報告している。 対照的に、第3のアプローチを用いたスケーリング法の再帰は、ホフマンらによって記述された最初の2つの推定手順から得られた結果と相容れない結果をもたらす。

Hoffmann et al. (2022) propose three methods for estimating a compute-optimal scaling law. We attempt to replicate their third estimation procedure, which involves fitting a parametric loss function to a reconstruction of data from their plots. We find that the reported estimates are inconsistent with their first two estimation methods, fail at fitting the extracted data, and report implausibly narrow confidence intervals--intervals this narrow would require over 600,000 experiments, while they likely only ran fewer than 500. In contrast, our rederivation of the scaling law using the third approach yields results that are compatible with the findings from the first two estimation procedures described by Hoffmann et al.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 拡張ハイブリッドHHLアルゴリズム

An Enhanced Hybrid HHL Algorithm ( http://arxiv.org/abs/2404.10103v1 )

ライセンス: Link先を確認
Jack Morgan, Eric Ghysels, Hamed Mohammadbagherpoor, (参考訳) 本稿では,Harrow, Hassidim, Lloyd (HHL) が提案する方程式の線形系を解くための量子アルゴリズムのハイブリッド変種 (Hybrid HHL) の精度を向上させるための古典的な拡張法を提案する。 本研究では,線形系に関連する固有値の高精度な量子推定法と,ハイブリッドHHLの固有値反転部を導出する拡張された古典的処理法を用いてこれを実現する。 2ビットの精度しか持たない固有値推定により,HHLと比較してHHLの誤差境界が厳密になることを示す。 また,2x2系の代表試料に対する理想量子プロセッサにおいて,ハイブリッドHHLの誤差を平均57%低減することを示す。 IBM Hanoi と IonQ Aria-1 のハードウェアでは、拡張ハイブリッド HHL アルゴリズムの誤差は 2x2 系の場合の HHL の誤差よりも平均13%、20%(比例的に)低い。 最後に、擬似固有値推定を用いて、IonQ Aria-1上の4x4行列を0.61の忠実度で反転させる。 我々の知る限り、これは0.5以上の忠実度を持つ最大のHHL実装である。

We present a classical enhancement to improve the accuracy of the Hybrid variant (Hybrid HHL) of the quantum algorithm for solving liner systems of equations proposed by Harrow, Hassidim, and Lloyd (HHL). We achieve this by using higher precision quantum estimates of the eigenvalues relevant to the linear system, and an enhanced classical processing step to guide the eigenvalue inversion part of Hybrid HHL. We show that eigenvalue estimates with just two extra bits of precision results in tighter error bounds for our Enhanced Hybrid HHL compared to HHL. We also show that our enhancement reduces the error of Hybrid HHL by an average of 57 percent on an ideal quantum processor for a representative sample of 2x2 systems. On IBM Hanoi and IonQ Aria-1 hardware, we see that the error of Enhanced Hybrid HHL algorithm is on average 13 percent and 20 percent (respecitvely) less than that of HHL for a similar set of 2x2 systems. Finally, we use simulated eigenvalue estimates to perform an inversion of a 4x4 matrix on IonQ Aria-1 with a fidelity of 0.61. To our knowledge this is the largest HHL implementation with a fidelity greater than 0.5.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# GeoAI再現性と再現性:計算的・空間的視点

GeoAI Reproducibility and Replicability: a computational and spatial perspective ( http://arxiv.org/abs/2404.10108v1 )

ライセンス: Link先を確認
Wenwen Lia, Chia-Yu Hsu, Sizhe Wang, Peter Kedron, (参考訳) GeoAIは、空間理論とデータを最先端のAIモデルと組み合わせて、新しいデータ駆動方式で地理空間問題に対処する、エキサイティングな学際研究分野として登場した。 GeoAI研究はGIScienceの文献で盛んに行われているが、その再現性と再現性(R&R)は、研究成果の再利用性、信頼性、科学的厳密性を決定する基本原則であり、ほとんど議論されていない。 本稿では,このトピックを計算的,空間的両面から詳細に分析することを目的とする。 まず,GeoAI研究を再現するための主要な目標,すなわち検証(再現性),類似あるいは新しい問題の解法(再現性)の学習と適応,研究成果の一般化可能性(再現性)について検討する。 それぞれの目標には、GeoAIのさまざまなレベルの理解と、その成功を保証するためのさまざまな方法が必要です。 次に,GeoAI研究におけるR&Rの欠如の原因となる要因について考察し,(1)トレーニングデータの選択と利用,(2)GeoAIモデル設計,トレーニング,展開,推論プロセスに存在する不確実性,(3)地理空間データとプロセスの本質的な空間的不均一性について考察する。 深層学習に基づく画像解析タスクを例に、異なる要因による結果の不確かさと空間的分散を実証する。 この知見は,GeoAI研究の空間的再現性を定量化するために,空間的自己相関と空間的不均一性を考慮した「再現性マップ」の作成とともに,知識共有の重要性を再考するものである。

GeoAI has emerged as an exciting interdisciplinary research area that combines spatial theories and data with cutting-edge AI models to address geospatial problems in a novel, data-driven manner. While GeoAI research has flourished in the GIScience literature, its reproducibility and replicability (R&R), fundamental principles that determine the reusability, reliability, and scientific rigor of research findings, have rarely been discussed. This paper aims to provide an in-depth analysis of this topic from both computational and spatial perspectives. We first categorize the major goals for reproducing GeoAI research, namely, validation (repeatability), learning and adapting the method for solving a similar or new problem (reproducibility), and examining the generalizability of the research findings (replicability). Each of these goals requires different levels of understanding of GeoAI, as well as different methods to ensure its success. We then discuss the factors that may cause the lack of R&R in GeoAI research, with an emphasis on (1) the selection and use of training data; (2) the uncertainty that resides in the GeoAI model design, training, deployment, and inference processes; and more importantly (3) the inherent spatial heterogeneity of geospatial data and processes. We use a deep learning-based image analysis task as an example to demonstrate the results' uncertainty and spatial variance caused by different factors. The findings reiterate the importance of knowledge sharing, as well as the generation of a "replicability map" that incorporates spatial autocorrelation and spatial heterogeneity into consideration in quantifying the spatial replicability of GeoAI research.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# 水平・垂直データ分割によるE-Healthのためのコミュニケーション効率の良いハイブリッド・フェデレーション学習

Communication-Efficient Hybrid Federated Learning for E-health with Horizontal and Vertical Data Partitioning ( http://arxiv.org/abs/2404.10110v1 )

ライセンス: Link先を確認
Chong Yu, Shuaiqi Shen, Shiqiang Wang, Kuan Zhang, Hai Zhao, (参考訳) E-Healthは、スマートデバイスや医療機関が患者のデータを共同で収集することを可能にする。 複数のデバイスが協力してモデルをトレーニングできるようにすることで、連合学習は、eヘルスにおけるコミュニケーションとプライバシの問題に対処するための、有望なソリューションである。 しかし、e-healthにおける連合学習の適用は多くの課題に直面している。 第一に、医療データは水平および垂直に分割される。 単一水平フェデレートラーニング(HFL)または垂直フェデレーションラーニング(VFL)技術は両タイプのデータパーティショニングには対応できないため、直接適用することで、高いモデリング精度を必要とする場合、生データの一部を送信することで、過剰な通信コストを消費することができる。 第二に、HFLとVFLの単純な組み合わせには、訓練効率の低さ、難聴収束分析、パラメータチューニング戦略の欠如などの制限がある。 本稿では,HFL と VFL を効果的に統合して通信効率を向上し,データを水平および垂直に分割する場合に,上記の制限を克服するための徹底的な研究を行う。 具体的には、1つの中間結果交換と2つの集約フェーズを持つハイブリッド・フェデレーション学習フレームワークを提案する。 この枠組みに基づき,モデル学習のためのHybrid Stochastic Gradient Descent (HSGD)アルゴリズムを開発した。 そして,提案アルゴリズムの収束上限を理論的に解析する。 収束結果を用いて、トレーニングパラメータを調整し、送信データのサイズを縮小する適応戦略を設計する。 実験により,提案したHSGDアルゴリズムは通信コストを低減しつつ,所望の精度を達成可能であること,適応戦略の有効性も検証した。

E-health allows smart devices and medical institutions to collaboratively collect patients' data, which is trained by Artificial Intelligence (AI) technologies to help doctors make diagnosis. By allowing multiple devices to train models collaboratively, federated learning is a promising solution to address the communication and privacy issues in e-health. However, applying federated learning in e-health faces many challenges. First, medical data is both horizontally and vertically partitioned. Since single Horizontal Federated Learning (HFL) or Vertical Federated Learning (VFL) techniques cannot deal with both types of data partitioning, directly applying them may consume excessive communication cost due to transmitting a part of raw data when requiring high modeling accuracy. Second, a naive combination of HFL and VFL has limitations including low training efficiency, unsound convergence analysis, and lack of parameter tuning strategies. In this paper, we provide a thorough study on an effective integration of HFL and VFL, to achieve communication efficiency and overcome the above limitations when data is both horizontally and vertically partitioned. Specifically, we propose a hybrid federated learning framework with one intermediate result exchange and two aggregation phases. Based on this framework, we develop a Hybrid Stochastic Gradient Descent (HSGD) algorithm to train models. Then, we theoretically analyze the convergence upper bound of the proposed algorithm. Using the convergence results, we design adaptive strategies to adjust the training parameters and shrink the size of transmitted data. Experimental results validate that the proposed HSGD algorithm can achieve the desired accuracy while reducing communication cost, and they also verify the effectiveness of the adaptive strategies.
翻訳日:2024-04-17 20:48:29 公開日:2024-04-15
# PRODIS - ポーランドにおける予測可能性効果研究のための音声データベースと音素に基づく言語モデル

PRODIS - a speech database and a phoneme-based language model for the study of predictability effects in Polish ( http://arxiv.org/abs/2404.10112v1 )

ライセンス: Link先を確認
Zofia Malisz, Jan Foremski, Małgorzata Kul, (参考訳) ポーランド語の音声データベースと音素レベル言語モデルを提案する。 データベースとモデルは,韻律的および談話的要因の分析と,予測可能性効果との相互作用における音響的パラメータへの影響のために設計されている。 また、このデータベースは、多話者音声技術の音声分析と訓練に使用できる優れた音響品質を持つポーランド語音声コーパスとして、初めて公開された。 データベース内の音声は、90%の自動化を実現するパイプラインで処理される。 データベースの拡張や追加言語への適応を可能にする最先端で無償のツールが組み込まれている。

We present a speech database and a phoneme-level language model of Polish. The database and model are designed for the analysis of prosodic and discourse factors and their impact on acoustic parameters in interaction with predictability effects. The database is also the first large, publicly available Polish speech corpus of excellent acoustic quality that can be used for phonetic analysis and training of multi-speaker speech technology systems. The speech in the database is processed in a pipeline that achieves a 90% degree of automation. It incorporates state-of-the-art, freely available tools enabling database expansion or adaptation to additional languages.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 音源依存型3次元エラストダイナミックスのための多重入力フーリエニューラル演算子(MIFNO)

Multiple-Input Fourier Neural Operator (MIFNO) for source-dependent 3D elastodynamics ( http://arxiv.org/abs/2404.10115v1 )

ライセンス: Link先を確認
Fanny Lehmann, Filippo Gatti, Didier Clouteau, (参考訳) 数値シミュレーションは、複素条件下での波動方程式の解を評価するのに欠かせないツールである。 しかし、それらの応用は高い計算コストで制限されており、既存のサロゲートモデルは数値解法の柔軟性を欠いている。 この研究は、材料特性を表す3Dフィールドとソース特性を記述するベクトルを扱うためのMultiple-Input Fourier Neural Operator (MIFNO)を導入している。 MIFNOは、地球の地殻における弾性波伝搬の問題に適用される。 HEMEW^S-3Dデータベース上で, 震源位置と方位のランダムな異なる異種領域における30000の地震シミュレーションをトレーニングした。 出力は時間と空間に依存した表面波動場である。 MIFNO予測は、Goodness-Of-Fit(GOF)の基準に基づいて、優れた精度で評価される。 予測の80%が優れた位相GOFを持つため、波の到来時間と波面の伝播は非常に正確である。 変動振幅は予測の87%に良い。 エンベロープスコアは、高周波の特徴に関連した複雑な物理現象のため、捕捉が困難な小規模変動によって妨げられる。 それでも、MIFNOはトレーニング領域外にあるソースに一般化することができ、実際の複雑なオーバースラスト地質に対して優れた一般化能力を示す。 興味のある領域に焦点を合わせると、転送学習は、GOFのスコアが1つ以上のGOFユニットによって改善され、500以上の特定のサンプルしか追加されないため、追加コストが制限された精度を向上させる。 MIFNOは、様々なソースと材料特性を持つ地震シミュレータの柔軟性を提供する最初のサロゲートモデルである。 その精度と大幅なスピードアップは、多くのクエリー問題における数値シミュレーションを置き換える新しい視点を提供する。

Numerical simulations are essential tools to evaluate the solution of the wave equation in complex settings, such as three-dimensional (3D) domains with heterogeneous properties. However, their application is limited by high computational costs and existing surrogate models lack the flexibility of numerical solvers. This work introduces the Multiple-Input Fourier Neural Operator (MIFNO) to deal with structured 3D fields representing material properties as well as vectors describing the source characteristics. The MIFNO is applied to the problem of elastic wave propagation in the Earth's crust. It is trained on the HEMEW^S-3D database containing 30000 earthquake simulations in different heterogeneous domains with random source positions and orientations. Outputs are time- and space-dependent surface wavefields. The MIFNO predictions are assessed as good to excellent based on Goodness-Of-Fit (GOF) criteria. Wave arrival times and wave fronts' propagation are very accurate since 80% of the predictions have an excellent phase GOF. The fluctuations amplitudes are good for 87% of the predictions. The envelope score is hindered by the small-scale fluctuations that are challenging to capture due to the complex physical phenomena associated with high-frequency features. Nevertheless, the MIFNO can generalize to sources located outside the training domain and it shows good generalization ability to a real complex overthrust geology. When focusing on a region of interest, transfer learning improves the accuracy with limited additional costs, since GOF scores improved by more than 1 GOF unit with only 500 additional specific samples. The MIFNO is the first surrogate model offering the flexibility of an earthquake simulator with varying sources and material properties. Its good accuracy and massive speed-up offer new perspectives to replace numerical simulations in many-query problems.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 量子古典境界における確率的熱力学:断熱応答理論に基づく自己持続的枠組み

Stochastic Thermodynamics at the Quantum-Classical Boundary: A Self-Consistent Framework Based on Adiabatic-Response Theory ( http://arxiv.org/abs/2404.10118v1 )

ライセンス: Link先を確認
Joshua Eglinton, Federico Carollo, Igor Lesanovsky, Kay Brandner, (参考訳) マイクロサーマルマシンは将来の量子技術において重要な役割を果たすことを約束する。 このようなデバイスを広く応用するには、出力を古典的自由度のような容易にアクセス可能なストレージシステムに流すための効果的な戦略が必要である。 本稿では,このような量子古典ハイブリッドデバイスを熱力学的に一貫した方法でモデル化できる自己整合理論フレームワークを開発する。 我々のアプローチは、装置の量子部分が熱貯水池によって引き起こされる強い脱コヒーレンスと散逸の影響を受けるという仮定に基づいている。 徐々に進化する古典と緩やかな量子自由度の間の時間スケールの分離により、ハイブリッドシステムの力学は断熱応答理論によって説明できる。 最小一貫した方法で揺らぎを組み込むと、結果として生じる運動方程式はアンサンブルレベルと古典的部分の個々の軌跡のレベルの両方で第1法則と第2法則を具備でき、そこでは熱や仕事などの熱力学量が確率変数となる。 我々の理論の応用として、光学キャビティに閉じ込められ周期的な温度変化によって駆動されるリドバーグ原子の連鎖からなる量子古典ハイブリッドエンジンの物理的に透明なモデルを提案する。 本稿では, エンジンが外部摩擦に対して古典的荷重として作用する可動ミラーの周期的振動を持続し, 入力熱と出力の完全な分布を抽出できることを数値シミュレーションにより示す。 量子古典ハイブリッド系における熱力学的過程の統計を、測定プロトコルを指定せずにアクセス可能にすることにより、古典的および量子確率的熱力学の長年のギャップを埋めることに寄与する。

Microscopic thermal machines promise to play an important role in future quantum technologies. Making such devices widely applicable will require effective strategies to channel their output into easily accessible storage systems like classical degrees of freedom. Here, we develop a self-consistent theoretical framework that makes it possible to model such quantum-classical hybrid devices in a thermodynamically consistent manner. Our approach is based on the assumption that the quantum part of the device is subject to strong decoherence and dissipation induced by a thermal reservoir. Due to the ensuing separation of time scales between slowly evolving classical and fast relaxing quantum degrees of freedom, the dynamics of the hybrid system can be described by means of adiabatic-response theory. We show that, upon including fluctuations in a minimally consistent way, the resulting equations of motion can be equipped with a first and second law, both on the ensemble level and on the level of individual trajectories of the classical part of the system, where thermodynamic quantities like heat and work become stochastic variables. As an application of our theory, we work out a physically transparent model of a quantum-classical hybrid engine, whose working system consists of a chain of Rydberg atoms, which is confined in an optical cavity and driven by periodic temperature variations. We show by means of numerical simulations that the engine can sustain periodic oscillations of a movable mirror, which acts as a classical load, against external friction and extract the full distributions of input heat and output work. By making the statistics of thermodynamic processes in quantum-classical hybrid systems accessible without the need to further specify a measurement protocol, our work contributes towards bridging the long-standing gap between classical and quantum stochastic thermodynamics.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# オフライン推定によるオンライン推定:情報理論フレームワーク

Online Estimation via Offline Estimation: An Information-Theoretic Framework ( http://arxiv.org/abs/2404.10122v1 )

ライセンス: Link先を確認
Dylan J. Foster, Yanjun Han, Jian Qian, Alexander Rakhlin, (参考訳) オンライン学習の現代的な理論は、適応的に選択された共変量(オンライン推定)に基づく推定のためのアルゴリズムを提供する。 オフライン推定アルゴリズムをブラックボックス方式でオンライン推定アルゴリズムに変換することは可能か? 我々は,新たなフレームワークであるOracle-Efficient Online Estimation (OEOE)を導入することで,この疑問を情報理論の観点から検討する。 本研究の主な成果は,本フレームワークにおけるオンライン推定の統計的・計算的複雑さについて考察することである。 $\bullet$ 統計複雑性。 情報理論上,ブラックボックスのオフライン推定オラクルを用いてほぼ最適のオンライン推定誤差を実現するアルゴリズムが存在することを示し,OEOEフレームワークにおける最小値のほぼ8つの特徴を与える。 $\bullet$Computational complexity。 上記の保証は一般に計算効率のよい方法では達成できないが、条件密度推定の特別な場合について、洗練された特徴を与える: ブラックボックスによる計算効率の良いオンライン推定は、制限のないアルゴリズムで可能であれば可能である。 最後に,この結果を用いて,対話型意思決定のためのオフラインオラクル効率アルゴリズムを提案する。

$ $The classical theory of statistical estimation aims to estimate a parameter of interest under data generated from a fixed design ("offline estimation"), while the contemporary theory of online learning provides algorithms for estimation under adaptively chosen covariates ("online estimation"). Motivated by connections between estimation and interactive decision making, we ask: is it possible to convert offline estimation algorithms into online estimation algorithms in a black-box fashion? We investigate this question from an information-theoretic perspective by introducing a new framework, Oracle-Efficient Online Estimation (OEOE), where the learner can only interact with the data stream indirectly through a sequence of offline estimators produced by a black-box algorithm operating on the stream. Our main results settle the statistical and computational complexity of online estimation in this framework. $\bullet$ Statistical complexity. We show that information-theoretically, there exist algorithms that achieve near-optimal online estimation error via black-box offline estimation oracles, and give a nearly-tight characterization for minimax rates in the OEOE framework. $\bullet$ Computational complexity. We show that the guarantees above cannot be achieved in a computationally efficient fashion in general, but give a refined characterization for the special case of conditional density estimation: computationally efficient online estimation via black-box offline estimation is possible whenever it is possible via unrestricted algorithms. Finally, we apply our results to give offline oracle-efficient algorithms for interactive decision making.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# プレトレーニングニューラルネットワークの疫学的不確実性定量化

Epistemic Uncertainty Quantification For Pre-trained Neural Network ( http://arxiv.org/abs/2404.10124v1 )

ライセンス: Link先を確認
Hanjing Wang, Qiang Ji, (参考訳) 疫学的不確実性定量化(UQ)は、モデルが知識を欠いている場所を特定する。 ベイジアンニューラルネットワークに基づく従来のUQ法は、事前訓練された非ベイジアンモデルには適さない。 本研究は,既存のトレーニングデータやモデル修正を必要とせず,ネットワークアーキテクチャやトレーニング手法によらず広い適用性を確保することができる,事前学習モデルに対する疫学的不確実性の定量化に対処する。 具体的には,疫学的な不確実性を評価するための勾配に基づくアプローチを提案し,モデルパラメータに対する出力の勾配を解析し,入力を正確に表現するために必要なモデル調整を示す。 まず, この不確実性は複数のモデルの違いによってのみ計算可能であるという見解を疑問視する。 我々は、勾配を統合するためにクラス固有の重みを使い、ニューラルネットワーク層とは異なるコントリビューションを強調することにより、勾配駆動型UQをさらに改善する。 さらに、勾配と摂動法を組み合わせて勾配を洗練させることにより、UQの精度を向上させる。 提案手法は,非分布検出,不確実キャリブレーション,アクティブラーニングであり,事前学習モデルに対する現在の最先端UQ手法よりも優れていることを示す。

Epistemic uncertainty quantification (UQ) identifies where models lack knowledge. Traditional UQ methods, often based on Bayesian neural networks, are not suitable for pre-trained non-Bayesian models. Our study addresses quantifying epistemic uncertainty for any pre-trained model, which does not need the original training data or model modifications and can ensure broad applicability regardless of network architectures or training techniques. Specifically, we propose a gradient-based approach to assess epistemic uncertainty, analyzing the gradients of outputs relative to model parameters, and thereby indicating necessary model adjustments to accurately represent the inputs. We first explore theoretical guarantees of gradient-based methods for epistemic UQ, questioning the view that this uncertainty is only calculable through differences between multiple models. We further improve gradient-driven UQ by using class-specific weights for integrating gradients and emphasizing distinct contributions from neural network layers. Additionally, we enhance UQ accuracy by combining gradient and perturbation methods to refine the gradients. We evaluate our approach on out-of-distribution detection, uncertainty calibration, and active learning, demonstrating its superiority over current state-of-the-art UQ methods for pre-trained models.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# NOISe : マウス-ヒト間ドメイン移植におけるNucli-Aware osteoclast Instance Segmentation

NOISe: Nuclei-Aware Osteoclast Instance Segmentation for Mouse-to-Human Domain Transfer ( http://arxiv.org/abs/2404.10130v1 )

ライセンス: Link先を確認
Sai Kumar Reddy Manne, Brendan Martin, Tyler Roy, Ryan Neilson, Rebecca Peters, Meghana Chillara, Christine W. Lary, Katherine J. Motyl, Michael Wan, (参考訳) 破骨細胞画像解析は骨粗しょう症研究において重要な役割を担っているが、通常は訓練された専門家による手動画像処理と手動アノテーションが関与する。 ここ数年、破骨細胞画像解析のための機械学習アプローチがいくつか開発されているが、人間の専門家がリードするプロセスと同じ出力を生成するために必要な完全なインスタンス分割タスクには、対応していない。 さらに、以前の完全に自動化されたアルゴリズムのどれも、公開コード、事前訓練されたモデル、あるいは注釈付きデータセットを持っておらず、彼らの作業の再現と拡張を阻害している。 2*10^5のアノテートマウス破骨細胞マスクを用いた新しいデータセットと,プラスチック組織培養板上のin vitroマウス破骨細胞と骨チップ上のヒト破骨細胞の両方を対象とした深層学習例セグメンテーション法を提案する。 私たちの知る限り、これは完全な破骨細胞インスタンス分割タスクを自動化する最初の作業です。 本手法は, マウス破骨細胞に対するクロスバリデーションにおいて, 0.82 mAP_0.5 の精度を実現している。 骨芽細胞の特異な生物学に基づく新しい核認識型破骨細胞インスタンスセグメンテーション訓練戦略(NOISe)を提案し, モデルの一般化性を向上し, ヒト破骨細胞のmAP_0.5を0.60から0.82に増強する。 われわれはgithub.com/michaelwwan/noiseのアノテーション付きマウス破骨細胞画像データセット、インスタンスセグメンテーションモデル、コードを公開した。

Osteoclast cell image analysis plays a key role in osteoporosis research, but it typically involves extensive manual image processing and hand annotations by a trained expert. In the last few years, a handful of machine learning approaches for osteoclast image analysis have been developed, but none have addressed the full instance segmentation task required to produce the same output as that of the human expert led process. Furthermore, none of the prior, fully automated algorithms have publicly available code, pretrained models, or annotated datasets, inhibiting reproduction and extension of their work. We present a new dataset with ~2*10^5 expert annotated mouse osteoclast masks, together with a deep learning instance segmentation method which works for both in vitro mouse osteoclast cells on plastic tissue culture plates and human osteoclast cells on bone chips. To our knowledge, this is the first work to automate the full osteoclast instance segmentation task. Our method achieves a performance of 0.82 mAP_0.5 (mean average precision at intersection-over-union threshold of 0.5) in cross validation for mouse osteoclasts. We present a novel nuclei-aware osteoclast instance segmentation training strategy (NOISe) based on the unique biology of osteoclasts, to improve the model's generalizability and boost the mAP_0.5 from 0.60 to 0.82 on human osteoclasts. We publish our annotated mouse osteoclast image dataset, instance segmentation models, and code at github.com/michaelwwan/noise to enable reproducibility and to provide a public tool to accelerate osteoporosis research.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 光キャビティ内における時間反転対称性-Broken量子ガス中の回転超放射

Rotational Superradiance in a Time-Reversal Symmetry-Broken Quantum Gas inside an Optical Cavity ( http://arxiv.org/abs/2404.10131v1 )

ライセンス: Link先を確認
Natalia Masalaeva, Farokh Mivehvar, (参考訳) 超流動体とボース=アインシュタイン凝縮体(BEC)における量子化された渦の出現は、破壊時間反転対称性(TRS)に対する非自明な反応に起因する。 ここでは,光共振器の単一モードに結合した横駆動型BECにおける回転あるいは外部合成磁場によるTRSの破壊が,この系におけるDicke超放射能および自己秩序現象を劇的に変化させることを示す。 特に、ポンプレーザーからキャビティへの光子散乱は、BECの回転運動によって増幅され、異なる臨界スケーリング特性を持ついわゆる「回転超放射」となる。 もう一つの注目すべき発見は、空洞光子が渦の長い周期的な相互作用を媒介し、対対数対数の反動渦相互作用と競合し、縞状のパターンを好むアブリコソフ三角渦格子を変形させることである。 顕著なことに、BECの回転と渦格子の位相特性は、空洞出力場を通して非破壊的に監視できる。

Appearance of quantized vortices in a superfluid and a Bose-Einstein condensate (BEC) stems from their nontrivial response to broken time-reversal symmetry (TRS). Here we show that breaking of the TRS by, for example, rotation or an external synthetic magnetic field in a transversely-driven BEC coupled to a single mode of an optical cavity modifies drastically Dicke-superradiance and self-ordering phenomena in this system. In particular, photon scattering from the pump laser into the cavity is amplified by the rotational motion of the BEC, leading to so-called 'rotational superradiance' - in a loose analogy to black-hole physics - with distinct critical scaling properties. Another notable finding is that cavity photons mediate long-range, periodic attractive interactions among the vortices, which compete with pair-wise logarithmic repulsive vortex interactions and deform the Abrikosov triangular vortex lattice favoring a stripe-like pattern. Remarkably, the rotation of the BEC and topological properties of the vortex lattice can be monitored nondestructively through the cavity output field.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# WB LUTs: ホワイトバランシングルックアップテーブルのコントラスト学習

WB LUTs: Contrastive Learning for White Balancing Lookup Tables ( http://arxiv.org/abs/2404.10133v1 )

ライセンス: Link先を確認
Sai Kumar Reddy Manne, Michael Wan, (参考訳) 統合信号処理(ISP)パイプラインの最初のステップの1つである自動ホワイトバランシング(AWB)は、シーン照明によって引き起こされるカラーキャストを補正することを目的としている。 不正確なホワイトバランス(WB)設定やAWB故障は、レンダリングされたsRGB画像の望ましくない青または赤の色合いにつながる可能性がある。 この問題に対処するため,近年の手法では,撮像後WB補正問題を画像から画像への変換タスクとして用い,低解像度で必要な色調整を学習するために深層ニューラルネットワークを訓練している。 これらの低解像度出力は後処理され、高解像度のWB補正画像を生成する。 本稿では,WB LUTと呼ばれる3次元ルックアップテーブル(LUT)に基づくWB補正モデルを提案する。 本稿では,3D LUTのWB補正品質を25.5%向上させる,新しいハードサンプルマイニング手法による対照的な学習フレームワークを提案する。 実験の結果、提案したWB LUTは、2つのベンチマークデータセットの最先端モデルに対して、12.7倍のメモリで300倍高速で競合することを示した。 私たちのモデルとコードはhttps://github.com/skrmanne/3DLUT_sRGB_WBで利用可能です。

Automatic white balancing (AWB), one of the first steps in an integrated signal processing (ISP) pipeline, aims to correct the color cast induced by the scene illuminant. An incorrect white balance (WB) setting or AWB failure can lead to an undesired blue or red tint in the rendered sRGB image. To address this, recent methods pose the post-capture WB correction problem as an image-to-image translation task and train deep neural networks to learn the necessary color adjustments at a lower resolution. These low resolution outputs are post-processed to generate high resolution WB corrected images, forming a bottleneck in the end-to-end run time. In this paper we present a 3D Lookup Table (LUT) based WB correction model called WB LUTs that can generate high resolution outputs in real time. We introduce a contrastive learning framework with a novel hard sample mining strategy, which improves the WB correction quality of baseline 3D LUTs by 25.5%. Experimental results demonstrate that the proposed WB LUTs perform competitively against state-of-the-art models on two benchmark datasets while being 300 times faster using 12.7 times less memory. Our model and code are available at https://github.com/skrmanne/3DLUT_sRGB_WB.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 長短期記憶(LSTM)を用いたシエラネバダの山岳地域の降水量データの統合

Using Long Short-term Memory (LSTM) to merge precipitation data over mountainous area in Sierra Nevada ( http://arxiv.org/abs/2404.10135v1 )

ライセンス: Link先を確認
Yihan Wang, (参考訳) 時間と空間の高分解能で信頼できる降水推定を行うことは、水文学研究において非常に重要である。 しかし、正確な降水量の推定は山岳複雑な地形において難しい課題である。 降水量計、降水レーダ、衛星ベースの降水センサーといった3つの広く使われている降水量測定手法は、複雑な領域で信頼できる降水生成物を生成するために独自の利点と欠点を持っている。 検出エラーの確率を低減し、データの信頼性を向上させる方法の1つは、降水データマージである。 計算能力の急速な進歩と地球観測データの増大と多様性により、深層学習(DL)モデルは地球科学において大きな注目を集めている。 本研究では,Long Short-term Memory (LSTM) と呼ばれる深層学習技術を用いて,レーダーと衛星を用いたグローバル降水量測定 (GPM) 降水生成物の統合マルチサテライト検索を時間スケールで行う。 その結果,Multi-Radar Multi-Sensor (MRMS) と比較し,カリフォルニアデータ交換センター (CDEC) の観測データと比較した。 その結果、LSTMをベースとした統合降水量は、特に過小評価されたゲージ観測と、ほぼゼロに近い値を示す有意義な推定値の提供に失敗したことが示唆された。 個別の量的降水推定値(QPEs)にのみ頼って追加の気象入力がなければ、信頼できる統合QPEを生成するには不十分であることが判明した。 しかし, 統合結果は観測の時間的傾向を効果的に捉え, この点においてMRMSよりも優れていた。 このことは、バイアス補正技術を組み込むことで、統合された製品の精度が向上する可能性があることを示唆している。

Obtaining reliable precipitation estimation with high resolutions in time and space is of great importance to hydrological studies. However, accurately estimating precipitation is a challenging task over high mountainous complex terrain. The three widely used precipitation measurement approaches, namely rainfall gauge, precipitation radars, and satellite-based precipitation sensors, have their own pros and cons in producing reliable precipitation products over complex areas. One way to decrease the detection error probability and improve data reliability is precipitation data merging. With the rapid advancements in computational capabilities and the escalating volume and diversity of earth observational data, Deep Learning (DL) models have gained considerable attention in geoscience. In this study, a deep learning technique, namely Long Short-term Memory (LSTM), was employed to merge a radar-based and a satellite-based Global Precipitation Measurement (GPM) precipitation product Integrated Multi-Satellite Retrievals for GPM (IMERG) precipitation product at hourly scale. The merged results are compared with the widely used reanalysis precipitation product, Multi-Radar Multi-Sensor (MRMS), and assessed against gauge observational data from the California Data Exchange Center (CDEC). The findings indicated that the LSTM-based merged precipitation notably underestimated gauge observations and, at times, failed to provide meaningful estimates, showing predominantly near-zero values. Relying solely on individual Quantitative Precipitation Estimates (QPEs) without additional meteorological input proved insufficient for generating reliable merged QPE. However, the merged results effectively captured the temporal trends of the observations, outperforming MRMS in this aspect. This suggested that incorporating bias correction techniques could potentially enhance the accuracy of the merged product.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 言語モデルカスケード:トークンレベルの不確実性

Language Model Cascades: Token-level uncertainty and beyond ( http://arxiv.org/abs/2404.10136v1 )

ライセンス: Link先を確認
Neha Gupta, Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, (参考訳) 言語モデル(LM)の最近の進歩は、複雑なNLPタスクの品質を大幅に向上させたが、推論コストの増大を犠牲にしている。 ここでは、小さなモデルがほとんどの"簡単"なインスタンスに対して起動され、少数の"ハード"なインスタンスは大きなモデルに延期されます。 カスケーディングの根底にある原則は分類タスクによく研究されているが、予測されたクラスの不確実性に基づく推論は理論上も実用上も好まれるが、生成的LMタスクには同様の理解が欠如している。 本研究では,LMカスケードの遅延規則の体系的研究を開始する。 まず,予測クラス不確かさを生成的LMタスク,すなわち予測シーケンス不確かさに自然に拡張することから始める。 本研究では,この尺度が,その長さに基づいて出力を過度に強調するか,過度に強調するかという,長さバイアスの問題に悩まされていることを示す。 これは、LMが出力トークンごとに不確実な値列を生成し、さらに、出力トークンの数が例によって変動するためである。 この問題を緩和するために,生成的LMにおいて暗黙的なトークンレベルの不確実性情報を活用することを提案する。 ナイーブな予測シーケンスの不確実性は、これらの不確実性の単純な集合に対応すると論じる。 対照的に、学習後遅延ルールによるトークンレベルの不確実性の導入は、FLAN-T5モデルを用いた様々な自然言語ベンチマークの実験を通じて、そのような単純な集約戦略を著しく上回ることを示す。 さらに、より小さなモデルとより大きなモデルの中間層からの埋め込みを組み込むことで、全体的なコスト品質のトレードオフをさらに促進できることを示す。

Recent advances in language models (LMs) have led to significant improvements in quality on complex NLP tasks, but at the expense of increased inference costs. Cascading offers a simple strategy to achieve more favorable cost-quality tradeoffs: here, a small model is invoked for most "easy" instances, while a few "hard" instances are deferred to the large model. While the principles underpinning cascading are well-studied for classification tasks - with deferral based on predicted class uncertainty favored theoretically and practically - a similar understanding is lacking for generative LM tasks. In this work, we initiate a systematic study of deferral rules for LM cascades. We begin by examining the natural extension of predicted class uncertainty to generative LM tasks, namely, the predicted sequence uncertainty. We show that this measure suffers from the length bias problem, either over- or under-emphasizing outputs based on their lengths. This is because LMs produce a sequence of uncertainty values, one for each output token; and moreover, the number of output tokens is variable across examples. To mitigate this issue, we propose to exploit the richer token-level uncertainty information implicit in generative LMs. We argue that naive predicted sequence uncertainty corresponds to a simple aggregation of these uncertainties. By contrast, we show that incorporating token-level uncertainty through learned post-hoc deferral rules can significantly outperform such simple aggregation strategies, via experiments on a range of natural language benchmarks with FLAN-T5 models. We further show that incorporating embeddings from the smaller model and intermediate layers of the larger model can give an additional boost in the overall cost-quality tradeoff.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# ANCHOR: テキスト・画像合成のためのLLM駆動ニューズ・サブジェクト・コンディショニング

ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis ( http://arxiv.org/abs/2404.10141v1 )

ライセンス: Link先を確認
Aashish Anantha Ramakrishnan, Sharon X. Huang, Dongwon Lee, (参考訳) テキスト・トゥ・イメージ(T2I)合成は、合成画像の品質向上に大きく貢献しているが、現在のデータセットは、記述的、命令ベースのプロンプトにのみモデル性能を評価する。 実世界のニュース画像キャプションは、より現実的なアプローチをとり、高レベルな状況と名前付きエンティティ(NE)情報と限定された物理的オブジェクト記述を提供し、それらを抽象的にする。 ニュースキャプションから対象物を抽出するT2Iモデルの有効性を評価するために,5つの異なるニュースメディア組織から得られた70K以上のサンプルを含む,高レベルcOntext Representation (ANCHOR)データセットを用いた抽象ニュースキャプションを導入した。 本稿では,Large Language Models (LLM) が言語および常識推論タスクで成功を収めることによって,LLMが抽象的なキャプションから重要な主題を識別し,理解する能力について考察する。 提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。 また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。 ANCHORデータセットをローンチすることで、T2Iモデルの自然言語理解(NLU)機能を強化する研究を動機付けたいと思っています。

Text-to-Image (T2I) Synthesis has made tremendous strides in enhancing synthesized image quality, but current datasets evaluate model performance only on descriptive, instruction-based prompts. Real-world news image captions take a more pragmatic approach, providing high-level situational and Named-Entity (NE) information and limited physical object descriptions, making them abstractive. To evaluate the ability of T2I models to capture intended subjects from news captions, we introduce the Abstractive News Captions with High-level cOntext Representation (ANCHOR) dataset, containing 70K+ samples sourced from 5 different news media organizations. With Large Language Models (LLM) achieving success in language and commonsense reasoning tasks, we explore the ability of different LLMs to identify and understand key subjects from abstractive captions. Our proposed method Subject-Aware Finetuning (SAFE), selects and enhances the representation of key subjects in synthesized images by leveraging LLM-generated subject weights. It also adapts to the domain distribution of news images and captions through custom Domain Fine-tuning, outperforming current T2I baselines on ANCHOR. By launching the ANCHOR dataset, we hope to motivate research in furthering the Natural Language Understanding (NLU) capabilities of T2I models.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 現実を形作る - 製作制約による3D生成AIの強化

Shaping Realities: Enhancing 3D Generative AI with Fabrication Constraints ( http://arxiv.org/abs/2404.10142v1 )

ライセンス: Link先を確認
Faraz Faruqi, Yingtao Tian, Vrushank Phadnis, Varun Jampani, Stefanie Mueller, (参考訳) ジェネレーティブAIツールは、ユーザーがテキストやイメージを入力として新しいモデルを操作したり作成したりできる3Dモデリングにおいて、より普及しつつある。 これにより、ユーザーは3Dデザインを素早くカスタマイズし、反復し、新しいクリエイティブなアイデアを探求できる。 これらの手法は, 3Dモデルの美的品質に焦点を合わせ, ユーザが提供するプロンプトに類似するように仕上げる。 しかし、製造を意図した3Dモデルを作成する場合、デザイナーは、3Dモデルの美的特性を意図した物理的特性とトレードオフする必要がある。 機能的なポストファブリケーションのためには、3Dモデルは物理原理から得られる構造的制約を満たす必要がある。 現在、このような要件は生成AIツールによって強制されない。 これは審美的に魅力的な3D幾何学の発展につながるが、現実の世界での使用や製造が困難になる可能性がある。 このワークショップでは、デジタル創造物を物理世界へ翻訳する際の生成AIツールの限界を強調し、物理的に実行可能な3Dモデルを作成するための生成AIツールに新たな拡張を提案する。 審美的外観だけでなく,物理的特性を制約として利用することで,3Dモデルを操作・生成するツールの開発を提唱する。 この調査は、デジタルクリエイティビティと現実世界の応用性の間のギャップを埋め、生成AIの創造的可能性を有形領域に広げようとしている。

Generative AI tools are becoming more prevalent in 3D modeling, enabling users to manipulate or create new models with text or images as inputs. This makes it easier for users to rapidly customize and iterate on their 3D designs and explore new creative ideas. These methods focus on the aesthetic quality of the 3D models, refining them to look similar to the prompts provided by the user. However, when creating 3D models intended for fabrication, designers need to trade-off the aesthetic qualities of a 3D model with their intended physical properties. To be functional post-fabrication, 3D models have to satisfy structural constraints informed by physical principles. Currently, such requirements are not enforced by generative AI tools. This leads to the development of aesthetically appealing, but potentially non-functional 3D geometry, that would be hard to fabricate and use in the real world. This workshop paper highlights the limitations of generative AI tools in translating digital creations into the physical world and proposes new augmentations to generative AI tools for creating physically viable 3D models. We advocate for the development of tools that manipulate or generate 3D models by considering not only the aesthetic appearance but also using physical properties as constraints. This exploration seeks to bridge the gap between digital creativity and real-world applicability, extending the creative potential of generative AI into the tangible domain.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# クロスモーダルな自己学習:ラベルなしの分類学習のための画像とポイントクラウドの調整

Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels ( http://arxiv.org/abs/2404.10146v1 )

ライセンス: Link先を確認
Amaya Dharmasiri, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, (参考訳) CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。 しかし、現在の手法では、そのようなアライメントのための教師付き事前訓練が必要であり、そのような3次元ゼロショットモデルの性能は、実世界の適応に準最適である。 本研究では、ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、ラベルなし3Dデータとその付随する2Dビューを活用することで最適化フレームワークを提案する。 本研究では,2次元ビューと3次元ポイントクラウドを同時に処理し,共同で擬似ラベルを生成して分類器を訓練し,クロスモデル特徴アライメントをガイドする学生-教師フレームワークを提案する。 そこで我々は,CLIPのような2次元視覚言語モデルを用いて3次元表現学習を補完し,高価なクラスアノテーションを必要とせずに分類性能を向上させることを実証した。 合成および実世界の3Dデータセットを用いて、クロスMoSTは画像と点の両方の雲のモダリティを互いのリッチな表現から学習し、効率的なクロスモーダルな知識交換を可能にすることをさらに実証する。

Large-scale vision 2D vision language models, such as CLIP can be aligned with a 3D encoder to learn generalizable (open-vocabulary) 3D vision models. However, current methods require supervised pre-training for such alignment, and the performance of such 3D zero-shot models remains sub-optimal for real-world adaptation. In this work, we propose an optimization framework: Cross-MoST: Cross-Modal Self-Training, to improve the label-free classification performance of a zero-shot 3D vision model by simply leveraging unlabeled 3D data and their accompanying 2D views. We propose a student-teacher framework to simultaneously process 2D views and 3D point clouds and generate joint pseudo labels to train a classifier and guide cross-model feature alignment. Thereby we demonstrate that 2D vision language models such as CLIP can be used to complement 3D representation learning to improve classification performance without the need for expensive class annotations. Using synthetic and real-world 3D datasets, we further demonstrate that Cross-MoST enables efficient cross-modal knowledge exchange resulting in both image and point cloud modalities learning from each other's rich representations.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# 街路の目:都市犯罪ダイナミクスをモデル化するストリートレベルイメージングの活用

Eyes on the Streets: Leveraging Street-Level Imaging to Model Urban Crime Dynamics ( http://arxiv.org/abs/2404.10147v1 )

ライセンス: Link先を確認
Zhixuan Qi, Huaiying Luo, Chen Chi, (参考訳) 本研究では,建築環境と犯罪率との関係について,機械学習と街路景観の包括的データセットを用いて検討し,ニューヨーク市における都市安全の課題について考察する。 本研究では,都市景観と犯罪統計との関連性を明らかにすることを目的として,街路景観の特徴と犯罪率との関連性に着目した。 この発見は、都市計画と犯罪予防のための洞察を与え、公共の安全を高めるための環境デサインの可能性を浮き彫りにした。

This study addresses the challenge of urban safety in New York City by examining the relationship between the built environment and crime rates using machine learning and a comprehensive dataset of street view im- ages. We aim to identify how urban landscapes correlate with crime statistics, focusing on the characteristics of street views and their association with crime rates. The findings offer insights for urban planning and crime pre- vention, highlighting the potential of environmental de- sign in enhancing public safety.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# ランダム射影におけるノードの類似性:限界と病理例

Node Similarities under Random Projections: Limits and Pathological Cases ( http://arxiv.org/abs/2404.10148v1 )

ライセンス: Link先を確認
Tvrtko Tadić, Cassiano Becker, Jennifer Neville, (参考訳) ランダム射影は計算効率のために様々なグラフタスクの埋め込みを生成するために広く用いられている。 アプリケーションの大部分はJohnson-Lindenstrauss Lemmaを通じて正当化されている。 本稿では、Random Projectionsにより、ドット積とコサイン類似性がいかによく保存されているかについて、さらに詳しく検討する。 我々の分析は、新しい理論的結果を提供し、病理症例を特定し、それらを数値実験で検証する。 その結果, 次数以下のノードに対しては, 隣接性や(正規化バージョン)遷移の有無にかかわらず, ドット積に対して特に信頼性の低い埋め込みを生成することがわかった。 ランダム射影による統計的ノイズに関して、コサイン類似性は驚くほど正確な近似を生成することを示す。

Random Projections have been widely used to generate embeddings for various graph tasks due to their computational efficiency. The majority of applications have been justified through the Johnson-Lindenstrauss Lemma. In this paper, we take a step further and investigate how well dot product and cosine similarity are preserved by Random Projections. Our analysis provides new theoretical results, identifies pathological cases, and tests them with numerical experiments. We find that, for nodes of lower or higher degrees, the method produces especially unreliable embeddings for the dot product, regardless of whether the adjacency or the (normalized version) transition is used. With respect to the statistical noise introduced by Random Projections, we show that cosine similarity produces remarkably more precise approximations.
翻訳日:2024-04-17 18:51:25 公開日:2024-04-15
# TabSQLify: テーブル分解によるLLMの推論機能強化

TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition ( http://arxiv.org/abs/2404.10150v1 )

ライセンス: Link先を確認
Md Mahadi Hasan Nahid, Davood Rafiei, (参考訳) テーブル推論は、自然言語の質問と構造化された表データの両方を理解する必要がある難しいタスクである。 大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示しているが、入力長が限られているため、しばしば大きなテーブルと競合する。 本稿では,テキストからSQLへの生成を利用してテーブルをより小さく,関連するサブテーブルに分解するTabSQLifyを提案する。 提案手法は,4つの挑戦的データセットの総合評価において,全テーブルを入力として依存する一般的な手法と比較して,同等あるいは優れた性能を示す。 さらに,提案手法は入力コンテキスト長を大幅に削減できるため,大規模テーブル推論アプリケーションにおいて,よりスケーラブルで効率的な処理が可能となる。 WikiTQベンチマークでは,64.7%の精度で精度が向上した。 さらに、TabFactベンチマークでは、79.5%の精度を実現している。 これらの結果は、gpt-3.5-turbo(chatgpt)上の他のLLMベースベースラインモデルを上回る。 TabSQLifyは、大きなテーブルを扱う場合、パフォーマンスを損なうことなく、LLMの計算負荷を大幅に軽減できる。

Table reasoning is a challenging task that requires understanding both natural language questions and structured tabular data. Large language models (LLMs) have shown impressive capabilities in natural language understanding and generation, but they often struggle with large tables due to their limited input length. In this paper, we propose TabSQLify, a novel method that leverages text-to-SQL generation to decompose tables into smaller and relevant sub-tables, containing only essential information for answering questions or verifying statements, before performing the reasoning task. In our comprehensive evaluation on four challenging datasets, our approach demonstrates comparable or superior performance compared to prevailing methods reliant on full tables as input. Moreover, our method can reduce the input context length significantly, making it more scalable and efficient for large-scale table reasoning applications. Our method performs remarkably well on the WikiTQ benchmark, achieving an accuracy of 64.7%. Additionally, on the TabFact benchmark, it achieves a high accuracy of 79.5%. These results surpass other LLM-based baseline models on gpt-3.5-turbo (chatgpt). TabSQLify can reduce the table size significantly alleviating the computational load on LLMs when handling large tables without compromising performance.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# コード生成に用いるプロンプトの品質評価

Quality Assessment of Prompts Used in Code Generation ( http://arxiv.org/abs/2404.10155v1 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Simantika Dristi, Joy Saha, Joanna C. S. Santos, (参考訳) 大きな言語モデル(LLM)は、ソフトウェアエンジニアの間で人気を集めています。 効率的なコード生成 LLM を開発する上で重要な側面は、ロバストなベンチマークを用いてこれらのモデルを評価することである。 品質問題のある評価ベンチマークは、誤ったパフォーマンス感覚を与えます。 本研究では、異なるコード生成モデルの性能を比較するために、ベンチマーク内でのプロンプトの品質について、第一種研究を行う。 本研究では,9つのコード生成ベンチマークから3,566個のプロンプトを解析し,それらの品質問題を明らかにする。 また、ベンチマークのプロンプトで特定された品質問題を修正することがモデルの性能に影響を及ぼすかどうかについても検討した。 また,ベンチマークの信頼性に疑問を呈する評価データセットのメモリ化問題についても検討した。 コード生成評価ベンチマークはPythonとコーディングのエクササイズに重点を置いており、モデルに挑戦するためのコンテキスト依存性が非常に限られていることが分かりました。 これらのデータセットと開発者のプロンプトは、スペルや文法的なエラー、開発者の意図を表す不明瞭な文、適切なドキュメントスタイルを使用しないといった品質上の問題に悩まされている。 ベンチマークでこれらすべての問題を修正することで、Pythonコード生成のパフォーマンスが向上する可能性があるが、Javaコード生成では大きな改善は見られなかった。 また, GPT-3.5-Turbo モデルと CodeGen-2.5 モデルにデータ汚染の問題がある可能性が示唆された。

Large Language Models (LLMs) are gaining popularity among software engineers. A crucial aspect of developing effective code-generation LLMs is to evaluate these models using a robust benchmark. Evaluation benchmarks with quality issues can provide a false sense of performance. In this work, we conduct the first-of-its-kind study of the quality of prompts within benchmarks used to compare the performance of different code generation models. To conduct this study, we analyzed 3,566 prompts from 9 code generation benchmarks to identify quality issues in them. We also investigated whether fixing the identified quality issues in the benchmarks' prompts affects a model's performance. We also studied memorization issues of the evaluation dataset, which can put into question a benchmark's trustworthiness. We found that code generation evaluation benchmarks mainly focused on Python and coding exercises and had very limited contextual dependencies to challenge the model. These datasets and the developers' prompts suffer from quality issues like spelling and grammatical errors, unclear sentences to express developers' intent, and not using proper documentation style. Fixing all these issues in the benchmarks can lead to a better performance for Python code generation, but not a significant improvement was observed for Java code generation. We also found evidence that GPT-3.5-Turbo and CodeGen-2.5 models possibly have data contamination issues.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# SegFormer3D: 3次元医用画像分割のための効率的な変換器

SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation ( http://arxiv.org/abs/2404.10156v1 )

ライセンス: Link先を確認
Shehan Perera, Pouyan Navard, Alper Yilmaz, (参考訳) ビジョントランスフォーマー(ViT)ベースのアーキテクチャの採用は、3Dメディカルイメージ(MI)セグメンテーションの大幅な進歩を意味し、グローバルな文脈理解を強化することで従来の畳み込みニューラルネットワーク(CNN)モデルを上回っている。 このパラダイムシフトは3Dセグメンテーション性能を大幅に向上させたが、最先端のアーキテクチャでは、トレーニングと展開のために大規模なコンピューティングリソースを備えた、非常に大規模で複雑なアーキテクチャを必要とする。 さらに、医療画像でしばしば発生する限られたデータセットの文脈では、より大きなモデルはモデル一般化と収束の両方においてハードルを提示することができる。 これらの課題に対応し、軽量モデルが3次元医用画像の貴重な研究領域であることを実証するために、多スケールのボリューム特徴にまたがる注意を計算する階層型トランスフォーマーであるSegFormer3Dを提案する。 さらに、SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して局所的およびグローバルな注意機能を集約し、高精度なセグメンテーションマスクを生成する。 提案したメモリ効率の良いトランスフォーマーは、コンパクトな設計において、かなり大きなモデルの性能特性を保っている。 SegFormer3Dは、現在の最先端技術(SOTA)と比較して、パラメータが33倍、GFLOPSが13倍のモデルを提供することで、3D画像セグメンテーションのためのディープラーニングを民主化する。 我々は、SegFormer3DをSynapse、BRaTs、ACDCの3つの広く使われているデータセット上の現在のSOTAモデルと比較し、競争力のある結果を得た。 コード:https://github.com/OSUPCVLab/SegFormer3D.git

The adoption of Vision Transformers (ViTs) based architectures represents a significant advancement in 3D Medical Image (MI) segmentation, surpassing traditional Convolutional Neural Network (CNN) models by enhancing global contextual understanding. While this paradigm shift has significantly enhanced 3D segmentation performance, state-of-the-art architectures require extremely large and complex architectures with large scale computing resources for training and deployment. Furthermore, in the context of limited datasets, often encountered in medical imaging, larger models can present hurdles in both model generalization and convergence. In response to these challenges and to demonstrate that lightweight models are a valuable area of research in 3D medical imaging, we present SegFormer3D, a hierarchical Transformer that calculates attention across multiscale volumetric features. Additionally, SegFormer3D avoids complex decoders and uses an all-MLP decoder to aggregate local and global attention features to produce highly accurate segmentation masks. The proposed memory efficient Transformer preserves the performance characteristics of a significantly larger model in a compact design. SegFormer3D democratizes deep learning for 3D medical image segmentation by offering a model with 33x less parameters and a 13x reduction in GFLOPS compared to the current state-of-the-art (SOTA). We benchmark SegFormer3D against the current SOTA models on three widely used datasets Synapse, BRaTs, and ACDC, achieving competitive results. Code: https://github.com/OSUPCVLab/SegFormer3D.git
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# テキスト誘導拡散モデルを用いた有意な物体認識背景生成

Salient Object-Aware Background Generation using Text-Guided Diffusion Models ( http://arxiv.org/abs/2404.10157v1 )

ライセンス: Link先を確認
Amir Erfan Eshratifar, Joao V. B. Soares, Kapil Thadani, Shaunak Mishra, Mikhail Kuznetsov, Yueh-Ning Ku, Paloma de Juan, (参考訳) 創造的デザインやeコマースなど,さまざまな領域において,有能なオブジェクトの背景シーンの生成が重要な役割を担っている。 背景生成は、テキストコンディショニングされたアウトペイントのタスクとしてフレーム化することができ、このタスクの目的は、空白の背景にある有能なオブジェクトの境界を越えて画像コンテンツを拡張することである。 テキスト誘導インペイントのための一般的な拡散モデルは、マスクインバージョンによるアウトペイントにも使用することができるが、オブジェクトをシーンに配置するのではなく、画像の欠落部分を埋めるように訓練されている。 したがって、背景生成に使用する場合、インペイントモデルはしばしば正対象の境界を拡大し、それによって対象の同一性を変化させる。 本稿では, 安定拡散と制御ネットアーキテクチャを用いて, 健全なオブジェクト出力にインペイント拡散モデルを適用するモデルを提案する。 モデルとデータセット間で定性的かつ定量的な結果が連続して提示され、新たに提案された測定基準は、人間のラベル付けを必要としない。 安定拡散2.0インパインティングと比較して、提案手法は、複数のデータセットにまたがる標準的なビジュアルメトリクスの劣化を伴わずに、オブジェクトの展開を平均3.6倍削減する。

Generating background scenes for salient objects plays a crucial role across various domains including creative design and e-commerce, as it enhances the presentation and context of subjects by integrating them into tailored environments. Background generation can be framed as a task of text-conditioned outpainting, where the goal is to extend image content beyond a salient object's boundaries on a blank background. Although popular diffusion models for text-guided inpainting can also be used for outpainting by mask inversion, they are trained to fill in missing parts of an image rather than to place an object into a scene. Consequently, when used for background creation, inpainting models frequently extend the salient object's boundaries and thereby change the object's identity, which is a phenomenon we call "object expansion." This paper introduces a model for adapting inpainting diffusion models to the salient object outpainting task using Stable Diffusion and ControlNet architectures. We present a series of qualitative and quantitative results across models and datasets, including a newly proposed metric to measure object expansion that does not require any human labeling. Compared to Stable Diffusion 2.0 Inpainting, our proposed approach reduces object expansion by 3.6x on average with no degradation in standard visual metrics across multiple datasets.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 悟りの喪失:LLMを自己反射にコアックスしてバイアス検出と緩和を促進

Deceiving to Enlighten: Coaxing LLMs to Self-Reflection for Enhanced Bias Detection and Mitigation ( http://arxiv.org/abs/2404.10160v1 )

ライセンス: Link先を確認
Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, (参考訳) 大規模言語モデル(LLM)には複雑なバイアスとステレオタイプが組み込まれており、しばしばモデル自体から意識的に意識されることなく、有害なユーザエクスペリエンスや社会的結果をもたらす可能性がある。 本稿では,LLMに自己回帰とバイアス認識のメカニズムを持たせることの重要性を強調した。 我々の実験は、LLMに、生成されたコンテンツが自身の見解を表現していないことを伝え、バイアスについて質問することで、バイアスを特定し、対処する能力が向上することを示した。 この増強は、LPMの内部の注意機構と潜在的内部感度ポリシーに起因する。 これらの知見に基づいて, LLM出力のバイアスを低減させる新しい手法を提案する。 これには、複数のロールシナリオにおけるLCMの関与が、それぞれの議論のループの終わりに公平な審判の役割を持つバイアス露光のタスクを行う、異なる役割として機能する。 ランキングスコア機構を用いてバイアスレベルを定量化し、より洗練された反射と優れた出力品質を実現する。 比較実験の結果,本手法はバイアス低減の既存手法よりも優れており,より倫理的なAIシステムへの取り組みに有益であることが明らかとなった。

Large Language Models (LLMs) embed complex biases and stereotypes that can lead to detrimental user experiences and societal consequences, often without conscious awareness from the models themselves. This paper emphasizes the importance of equipping LLMs with mechanisms for better self-reflection and bias recognition. Our experiments demonstrate that by informing LLMs that their generated content does not represent their own views and questioning them about bias, their capability to identify and address biases improves. This enhancement is attributed to the internal attention mechanisms and potential internal sensitivity policies of LLMs. Building upon these findings, we propose a novel method to diminish bias in LLM outputs. This involves engaging LLMs in multi-role scenarios acting as different roles where they are tasked for bias exposure, with a role of an impartial referee in the end of each loop of debate. A ranking scoring mechanism is employed to quantify bias levels, enabling more refined reflections and superior output quality. Comparative experimental results confirm that our method outperforms existing approaches in reducing bias, making it a valuable contribution to efforts towards more ethical AI systems.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 深部系列モデルを用いた最適カーネルチューニングパラメータ予測

Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models ( http://arxiv.org/abs/2404.10162v1 )

ライセンス: Link先を確認
Khawir Mahmood, Jehandad Khan, Hammad Afzal, (参考訳) GPUカーネルは、ハイパフォーマンスコンピューティングから機械学習に至るまで、さまざまな分野において、計算処理の最先端にある。 典型的なGPU計算カーネルは、通常のアプリケーションでは何十億回も実行され、パフォーマンスが極めて重要になる。 最適化面の未知の性質のため、指数的なパラメータの組み合わせが考えられるため、大域的な最適解を見つけるには徹底的な探索が必要である。 本研究では,ディープシーケンス・トゥ・シーケンス・モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。 本研究では、NLP(Natural Language Process-ing)ドメインからモデルを借りて、カーネルパラメータの予測をシーケンス変換問題のシーケンスとして考える。 入力、出力、ウェイトテンソルを記述するパラメータは、対応するカーネルパラメータを出力するモデルへの入力言語として考慮される。 本質的に、モデルは問題パラメータ言語をカーネルパラメータ言語に変換する。 この仕事のコアコントリビューションは次のとおりです。 a) シーケンスモデルへのシーケンスがGPU計算カーネルのパフォーマンスダイナミクスを正確に学習できることを示すこと b)GPUカーネルのカーネルチューニングパラメータを予測する新しいネットワークアーキテクチャ。 c)GPUハードウェアの物理的限界と、検索スペースを減らす他の専門家知識を組み込んだ制約されたビームサーチ。 提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。 その結果、提案手法は、未確認の入力構成を調整するために必要な開発時間と計算資源を削減し、開発サイクルを短縮し、開発コストを低減し、ユーザエクスペリエンスを向上させることができる。

GPU kernels have come to the forefront of comput- ing due to their utility in varied fields, from high-performance computing to machine learning. A typical GPU compute kernel is invoked millions, if not billions of times in a typical application, which makes their performance highly critical. Due to the unknown nature of the optimization surface, an exhaustive search is required to discover the global optimum, which is infeasible due to the possible exponential number of parameter combinations. In this work, we propose a methodology that uses deep sequence- to-sequence models to predict the optimal tuning parameters governing compute kernels. This work considers the prediction of kernel parameters as a sequence to the sequence translation problem, borrowing models from the Natural Language Process- ing (NLP) domain. Parameters describing the input, output and weight tensors are considered as the input language to the model that emits the corresponding kernel parameters. In essence, the model translates the problem parameter language to kernel parameter language. The core contributions of this work are: a) Proposing that a sequence to sequence model can accurately learn the performance dynamics of a GPU compute kernel b) A novel network architecture which predicts the kernel tuning parameters for GPU kernels, c) A constrained beam search which incorporates the physical limits of the GPU hardware as well as other expert knowledge reducing the search space. The proposed algorithm can achieve more than 90% accuracy on various convolutional kernels in MIOpen, the AMD machine learning primitives library. As a result, the proposed technique can reduce the development time and compute resources required to tune unseen input configurations, resulting in shorter development cycles, reduced development costs, and better user experience.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# EyeFormer: Transformer-Guided Reinforcement Learningによるパーソナライズされたスキャンパスの予測

EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning ( http://arxiv.org/abs/2404.10163v1 )

ライセンス: Link先を確認
Yue Jiang, Zixin Guo, Hamed Rezazadegan Tavakoli, Luis A. Leiva, Antti Oulasvirta, (参考訳) 視覚的視点から見ると、現代のグラフィカルユーザインタフェース(GUI)は、テキスト、画像、ボタンやメニューなどのインタラクティブなオブジェクトの複雑なグラフィックに富んだ2次元空間配置で構成されている。 既存のモデルは、'on average''に注意を惹きつける可能性のある領域やオブジェクトを正確に予測できるが、今のところ、個人に対してスキャンパスを予測できるスキャンパスモデルは存在しない。 このギャップを埋めるため、EyeFormerを導入し、Transformerアーキテクチャをポリシーネットワークとして活用し、視線位置を制御する深層強化学習アルゴリズムを誘導する。 我々のモデルは、いくつかのユーザ・スキャンパス・サンプルが与えられたとき、パーソナライズされた予測を生成するユニークな能力を持っている。 固定位置や持続時間を含む全スキャンパス情報を個人や様々な刺激タイプで予測することができる。 さらに、モデルによって駆動されるGUIレイアウト最適化のアプリケーションを実演する。 私たちのソフトウェアとモデルは公開されます。

From a visual perception perspective, modern graphical user interfaces (GUIs) comprise a complex graphics-rich two-dimensional visuospatial arrangement of text, images, and interactive objects such as buttons and menus. While existing models can accurately predict regions and objects that are likely to attract attention ``on average'', so far there is no scanpath model capable of predicting scanpaths for an individual. To close this gap, we introduce EyeFormer, which leverages a Transformer architecture as a policy network to guide a deep reinforcement learning algorithm that controls gaze locations. Our model has the unique capability of producing personalized predictions when given a few user scanpath samples. It can predict full scanpath information, including fixation positions and duration, across individuals and various stimulus types. Additionally, we demonstrate applications in GUI layout optimization driven by our model. Our software and models will be publicly available.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 治療可能な網膜疾患分類のための小型画像データセットを用いた自己監督学習

Self-Supervised Learning Featuring Small-Scale Image Dataset for Treatable Retinal Diseases Classification ( http://arxiv.org/abs/2404.10166v1 )

ライセンス: Link先を確認
Luffina C. Huang, Darren J. Chiu, Manish Mehta, (参考訳) 画像ベースニューラルネットワークによる医療診断の自動化は、長年にわたって人気を博し、成熟してきた。 それにもかかわらず、医療画像の不足と高価な労働アノテーションコストに制限されている。 Self-Supervised Learning (SSL)はTransfer Learning (TL)の優れた代替品であり、不均衡な画像データセットに適している。 そこで本研究では, 125から4000の小型光コヒーレンス・トモグラフィー(OCT)画像を用いて, 治療可能な網膜疾患の分類において, 4つの事前訓練されたSSLモデルと2つのTLモデルを評価する。 提案したSSLモデルは、4000のトレーニング画像のみを使用して98.84%の最先端の精度を達成する。 この結果からSSLモデルは,バランスの取れたトレーニングシナリオとバランスの取れないトレーニングシナリオの両方において,優れたパフォーマンスを実現することが示唆された。 MoCo-v2スキームによるSSLモデルは、不均衡なシナリオ下で一貫した優れたパフォーマンスを持ち、特にトレーニングセットが500イメージ未満の場合には、他のモデルを上回る。

Automated medical diagnosis through image-based neural networks has increased in popularity and matured over years. Nevertheless, it is confined by the scarcity of medical images and the expensive labor annotation costs. Self-Supervised Learning (SSL) is an good alternative to Transfer Learning (TL) and is suitable for imbalanced image datasets. In this study, we assess four pretrained SSL models and two TL models in treatable retinal diseases classification using small-scale Optical Coherence Tomography (OCT) images ranging from 125 to 4000 with balanced or imbalanced distribution for training. The proposed SSL model achieves the state-of-art accuracy of 98.84% using only 4,000 training images. Our results suggest the SSL models provide superior performance under both the balanced and imbalanced training scenarios. The SSL model with MoCo-v2 scheme has consistent good performance under the imbalanced scenario and, especially, surpasses the other models when the training set is less than 500 images.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 畳み込みニューラルネットワークを用いた地震波振幅による地球構造不均質の高分解能検出

High-Resolution Detection of Earth Structural Heterogeneities from Seismic Amplitudes using Convolutional Neural Networks with Attention layers ( http://arxiv.org/abs/2404.10170v1 )

ライセンス: Link先を確認
Luiz Schirmer, Guilherme Schardong, Vinícius da Silva, Rogério Santos, Hélio Lopes, (参考訳) 地球の構造的不均一性は、探査プロジェクトと生産プロジェクトの両方において、石油経済において顕著な役割を担っている。 ディープニューラルネットワークのような現代的な機械学習技術を考えると、詳細な構造的不均一性の自動検出は困難である。 典型的には、これらのテクニックは、そのような異種を補助的に解釈するための優れたツールであるが、訓練されるデータの量に大きく依存する。 本稿では,CNN(Convolutional Neural Networks)とアテンション層を組み合わせた構造的不均一性検出のための効率的で費用対効果の高いアーキテクチャを提案する。 注意機構はコストを低減し、比較的ノイズの多いデータであっても精度を高める。 我々のモデルは最先端技術と比較して半分のパラメータを持ち、IoU(Intersection over Union)では0.6%、精度は0.4%という従来の手法よりも優れています。 合成データを活用することによって、モデルを訓練し微調整するトランスファー学習を適用し、限られたアノテートデータ可用性の課題に対処する。

Earth structural heterogeneities have a remarkable role in the petroleum economy for both exploration and production projects. Automatic detection of detailed structural heterogeneities is challenging when considering modern machine learning techniques like deep neural networks. Typically, these techniques can be an excellent tool for assisted interpretation of such heterogeneities, but it heavily depends on the amount of data to be trained. We propose an efficient and cost-effective architecture for detecting seismic structural heterogeneities using Convolutional Neural Networks (CNNs) combined with Attention layers. The attention mechanism reduces costs and enhances accuracy, even in cases with relatively noisy data. Our model has half the parameters compared to the state-of-the-art, and it outperforms previous methods in terms of Intersection over Union (IoU) by 0.6% and precision by 0.4%. By leveraging synthetic data, we apply transfer learning to train and fine-tune the model, addressing the challenge of limited annotated data availability.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 法医学アイリス画像を用いたモーテム後間隔推定

Forensic Iris Image-Based Post-Mortem Interval Estimation ( http://arxiv.org/abs/2404.10172v1 )

ライセンス: Link先を確認
Rasel Ahmed Bhuiyan, Adam Czajka, (参考訳) 死後虹彩認識は、法医学的な設定で虹彩をベースとした人間の識別の新たな応用である。 虹彩認識方法の条件付けに有用である1つの要因は、組織分解レベルであり、これは死後の間隔(PMI)、すなわち、死後経過した時間数と相関している。 しかし、PMIは必ずしも利用可能ではなく、その正確な推定は法医学的な検査における主要な課題の1つである。 本稿では,法医学的虹彩画像から直接PMI推定を行う手法について述べる。 虹彩を用いたPMI推定の可能性を評価するため、畳み込みニューラルネットワークモデル(VGG19、DenseNet121、ResNet152、Inception_v3)をトレーニングし、PMIを予測した。 (a)近赤外(NIR) (b)可視(RGB)、及び (c)多スペクトル法医学的虹彩画像。 モデルは, (S1) サンプル・ディスジョイント, (S2) 対象・ディスジョイント, (S3) クロスデータセットシナリオにおいて10倍のクロスバリデーションで評価された。 マルチスペクトルデータを用いることで、シナリオで約3.5時間(S1)、シナリオで約17.5時間(S2)、シナリオで約69.0時間(S3)という驚くほど低い平均絶対誤差(MAE)が得られることがわかった。 これは、環境条件が好ましい場合(例えば、体が低温で保たれる場合)、法医学的虹彩画像は、PMIを示す特徴を提供し、自動的に推定可能であることを示唆している。 ソースコードとモデルの重み付けは、この論文で利用可能である。

Post-mortem iris recognition is an emerging application of iris-based human identification in a forensic setup. One factor that may be useful in conditioning iris recognition methods is the tissue decomposition level, which is correlated with the post-mortem interval (PMI), i.g., the number of hours that have elapsed since death. PMI, however, is not always available, and its precise estimation remains one of the core challenges in forensic examination. This paper presents the first known to us method of PMI estimation directly from forensic iris images. To assess the feasibility of the iris-based PMI estimation, convolutional neural networks-based models (VGG19, DenseNet121, ResNet152, and Inception_v3) were trained to predict the PMI from (a) near-infrared (NIR), (b) visible (RGB), and (c) multispectral forensic iris images. Models were evaluated following a 10-fold cross-validation in (S1) sample-disjoint, (S2) subject-disjoint, and (S3) cross-dataset scenarios. We found that using the multispectral data offers a spectacularly low mean absolute error (MAE) of approximately 3.5 hours in scenario (S1), a bit worse MAE of approximately 17.5 hours in scenario (S2), and an MAE of approximately 69.0 hours of in the scenario (S3). This suggests that if the environmental conditions are favorable (e.g., bodies are kept in low temperatures), forensic iris images provide features that are indicative of the PMI and can be automatically estimated. The source codes and model weights are made available with the paper.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 光ツイーザーフォノンレーザーのコヒーレント制御

Coherent control of an optical tweezer phonon laser ( http://arxiv.org/abs/2404.10173v1 )

ライセンス: Link先を確認
Kai Zhang, Kewen Xiao, Danika Luntz-Martin, Ping Sun, S. Sharma, M. Bhattacharya, A. N. Vamivakas, (参考訳) コヒーレンスの創造と操作は、科学者や技術者の注意を引い続けている。 光レーザーは、原理的には完全なコヒーレンスを示すシステムの標準的な例である。 最近の研究は、他の物理系におけるコヒーレントなレーザーのような状態の生成に焦点を当てている。 フォノンレーザー(英: phonon laser)は、自給自足の機械振動を増幅できる一例である。 静止光ツイーザにおける単一モードフォノンレーザーは、アクティブフィードバックゲインと減衰の適切なバランスによって実証されている。 本研究では、光ツイーザーフォノンレーザーのダイナミックスのコヒーレント制御を用いて、異なる振動モード間のコヒーレンスを共有し、マルチモードフォノンレーザーを生成する。 トラップレーザ偏光回転を介してトラップビームの横焦点面における非対称光電位を周期的に回転させることにより、モードの結合を実現する。 提案した理論と実験は、コヒーレンスを光ツイーザーフォノンレーザーの異なるモードで転送できることを示し、精度測定や量子情報処理にこれらのシステムを利用するための一歩である。

The creation and manipulation of coherence continues to capture the attention of scientists and engineers. The optical laser is a canonical example of a system that, in principle, exhibits complete coherence. Recent research has focused on the creation of coherent, laser-like states in other physical systems. The phonon laser is one example where it is possible to amplify self-sustained mechanical oscillations. A single mode phonon laser in a levitated optical tweezer has been demonstrated through appropriate balance of active feedback gain and damping. In this work, coherent control of the dynamics of an optical tweezer phonon laser is used to share coherence between its different modes of oscillation, creating a multimode phonon laser. The coupling of the modes is achieved by periodically rotating the asymmetric optical potential in the transverse focal plane of the trapping beam via trap laser polarization rotation. The presented theory and experiment demonstrate that coherence can be transferred across different modes of an optical tweezer phonon laser, and are a step toward using these systems for precision measurement and quantum information processing.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# テキストベース強化学習における微調整言語モデルの効果について

On the Effects of Fine-tuning Language Models for Text-Based Reinforcement Learning ( http://arxiv.org/abs/2404.10174v1 )

ライセンス: Link先を確認
Mauricio Gruppi, Soham Dan, Keerthiram Murugesan, Subhajit Chaudhury, (参考訳) テキストベースの強化学習は、観察されたテキストと自然言語の許容可能なアクションを用いて、架空の環境と対話するエージェントがタスクを完了させる。 これまでの研究では、意味理解やその他の言語能力が完全に欠如していても、エージェントがテキストベースの対話環境で成功できることが示されている。 このようなゲームでこれらのエージェントが成功したことは、意味理解がタスクにとって重要でないことを示唆している。 これにより、エージェントをゲーム状態に誘導する際のLMの利点に関する重要な疑問が提起される。 本研究では,リッチな意味理解がテキストベースRLエージェントの効率的な訓練に繋がることを示す。 さらに、テキストベース強化学習(TBRL)における言語モデルの不適切な微調整の結果、意味的変性の発生について述べる。 具体的には、LMにおける単語の意味表現の変化と、それがトレーニングゲームとセマンティックに類似したタスクにおけるエージェントのパフォーマンスに与える影響について述べる。 これらの結果は、テキストベースのRLシナリオにおいて、エージェントを微調整するためのより良い戦略開発に役立つと信じている。

Text-based reinforcement learning involves an agent interacting with a fictional environment using observed text and admissible actions in natural language to complete a task. Previous works have shown that agents can succeed in text-based interactive environments even in the complete absence of semantic understanding or other linguistic capabilities. The success of these agents in playing such games suggests that semantic understanding may not be important for the task. This raises an important question about the benefits of LMs in guiding the agents through the game states. In this work, we show that rich semantic understanding leads to efficient training of text-based RL agents. Moreover, we describe the occurrence of semantic degeneration as a consequence of inappropriate fine-tuning of language models in text-based reinforcement learning (TBRL). Specifically, we describe the shift in the semantic representation of words in the LM, as well as how it affects the performance of the agent in tasks that are semantically similar to the training games. We believe these results may help develop better strategies to fine-tune agents in text-based RL scenarios.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# PD-L1 乳がんの弱標識全スライド画像の分類

PD-L1 Classification of Weakly-Labeled Whole Slide Images of Breast Cancer ( http://arxiv.org/abs/2404.10175v1 )

ライセンス: Link先を確認
Giacomo Cignoni, Cristian Scatena, Chiara Frascarelli, Nicola Fusco, Antonio Giuseppe Naccarato, Giuseppe Nicoló Fanelli, Alina Sîrbu, (参考訳) 乳がん治療は腫瘍におけるPD-L1陽性率の正確な定量化に依存しており、高解像度全スライド画像(WSIs)における褐色染色の形で現れる。 しかし,PD-L1染色WSIの検索と広範囲なラベル付けは病理医にとって時間を要する課題であり,特に境界線画像では再現性が低い。 本研究の目的は, 乳がん検体におけるPD-L1陽性度をWSI分析に基づいて分類し, 比較することである。 このタスクは、関心領域(ROI)を同定し、腫瘍をPD-L1陽性または陰性に分類する2つのフェーズから構成される。 後者では,特徴抽出手法の異なる2つのモデルカテゴリーが開発された。 第1は、基色からの色距離に基づいて画像を符号化する。 2つ目は、畳み込みオートエンコーダを使用して、WSIタイルの埋め込みを取得し、それらをWSIレベルの埋め込みに集約する。 両方のモデルタイプに対して、機能は下流のML分類器に入力される。 異なる臨床センターの2つのデータセットは、(1)1つのデータセットでのトレーニングと、もう1つのデータセットでのテスト、(2)2つのデータセットの組み合わせの2つの異なるトレーニング構成で使用された。 また,人手による前処理の有無を判定し,茶色のアーティファクトを除去する。 色距離に基づくモデルでは, アーティファクトを除去した上で最高の性能が得られるが, オートエンコーダによるモデルの方が, データのばらつきが大きい場合の方が優れている。

Specific and effective breast cancer therapy relies on the accurate quantification of PD-L1 positivity in tumors, which appears in the form of brown stainings in high resolution whole slide images (WSIs). However, the retrieval and extensive labeling of PD-L1 stained WSIs is a time-consuming and challenging task for pathologists, resulting in low reproducibility, especially for borderline images. This study aims to develop and compare models able to classify PD-L1 positivity of breast cancer samples based on WSI analysis, relying only on WSI-level labels. The task consists of two phases: identifying regions of interest (ROI) and classifying tumors as PD-L1 positive or negative. For the latter, two model categories were developed, with different feature extraction methodologies. The first encodes images based on the colour distance from a base color. The second uses a convolutional autoencoder to obtain embeddings of WSI tiles, and aggregates them into a WSI-level embedding. For both model types, features are fed into downstream ML classifiers. Two datasets from different clinical centers were used in two different training configurations: (1) training on one dataset and testing on the other; (2) combining the datasets. We also tested the performance with or without human preprocessing to remove brown artefacts Colour distance based models achieve the best performances on testing configuration (1) with artefact removal, while autoencoder-based models are superior in the remaining cases, which are prone to greater data variability.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# 表層データ合成のための多目的進化的GAN

Multi-objective evolutionary GAN for tabular data synthesis ( http://arxiv.org/abs/2404.10176v1 )

ライセンス: Link先を確認
Nian Ran, Bahrul Ilmi Nasution, Claire Little, Richard Allmendinger, Mark Elliot, (参考訳) 合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。 画像合成に適用されるGAN(Generative Adversarial Networks)もまた、表形式のデータ合成の有望な方法である。 しかし、画像と比較して表データに固有の課題があり、例えば、表データには連続変数と離散変数の両方が含まれており、重要なことに、データは高いユーティリティと低開示リスク(集団単位を再識別するリスクや、新しいことを学習するリスク)を持ち、多目的(MO)最適化の機会を提供する必要がある。 画像のMO GANにインスパイアされた本論文では,SMOE-CTGAN (SMOE-CTGAN) をスマートなMO進化条件表として提案する。 本手法は,条件ベクトルを適用して条件付き合成データをモデル化し,MO最適化の概念を用いて情報開示リスクと実用性とのバランスをとる。 以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。 また、改善スコアを用いて、競争力のあるユーティリティと極めて低いリスクを達成する訓練の初期段階において、スイートスポットを見つける。 完全なコードはhttps://github.com/HuskyNian/SMO\_EGAN\_pytorchからダウンロードできる。

Synthetic data has a key role to play in data sharing by statistical agencies and other generators of statistical data products. Generative Adversarial Networks (GANs), typically applied to image synthesis, are also a promising method for tabular data synthesis. However, there are unique challenges in tabular data compared to images, eg tabular data may contain both continuous and discrete variables and conditional sampling, and, critically, the data should possess high utility and low disclosure risk (the risk of re-identifying a population unit or learning something new about them), providing an opportunity for multi-objective (MO) optimization. Inspired by MO GANs for images, this paper proposes a smart MO evolutionary conditional tabular GAN (SMOE-CTGAN). This approach models conditional synthetic data by applying conditional vectors in training, and uses concepts from MO optimisation to balance disclosure risk against utility. Our results indicate that SMOE-CTGAN is able to discover synthetic datasets with different risk and utility levels for multiple national census datasets. We also find a sweet spot in the early stage of training where a competitive utility and extremely low risk are achieved, by using an Improvement Score. The full code can be downloaded from https://github.com/HuskyNian/SMO\_EGAN\_pytorch.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# CryoMAE: マスクオートエンコーダを用いた数ショットCryo-EMパーティクルピッキング

CryoMAE: Few-Shot Cryo-EM Particle Picking with Masked Autoencoders ( http://arxiv.org/abs/2404.10178v1 )

ライセンス: Link先を確認
Chentianye Xu, Xueying Zhan, Min Xu, (参考訳) 核電子顕微鏡(cryo-EM)は、細胞、ウイルス、タンパク質の集合体の構造をほぼ原子レベルで決定する重要な技術として現れる。 伝統的なパーティクルピッキングは、Cryo-EMの重要なステップであり、手作業と、低信号-雑音比(SNR)と様々な粒子配向に対する自動的な方法の感度に苦しむ。 さらに、既存のニューラルネットワーク(NN)ベースのアプローチでは、広範なラベル付きデータセットを必要とすることが多く、実用性が制限される。 このような障害を克服するために,マスク付きオートエンコーダ(MAE)の能力を生かし,Cryo-EM画像中の単一粒子の効率的な選択を可能にする,数ショット学習に基づく新しいアプローチであるCryoMAEを導入する。 従来のNNベースの手法とは対照的に、CryoMAEはトレーニングのために最小限の正の粒子画像しか必要としないが、粒子検出の性能は高い。 さらに, 自己交叉類似性損失の実施により, 粒子領域と背景領域の異なる特徴が確保され, クリオマエの識別能力が向上する。 大規模なCryo-EMデータセットの実験では、CryoMAEは既存のSOTA(State-of-the-art)手法より優れており、3D再構成の解像度は最大22.4%向上している。

Cryo-electron microscopy (cryo-EM) emerges as a pivotal technology for determining the architecture of cells, viruses, and protein assemblies at near-atomic resolution. Traditional particle picking, a key step in cryo-EM, struggles with manual effort and automated methods' sensitivity to low signal-to-noise ratio (SNR) and varied particle orientations. Furthermore, existing neural network (NN)-based approaches often require extensive labeled datasets, limiting their practicality. To overcome these obstacles, we introduce cryoMAE, a novel approach based on few-shot learning that harnesses the capabilities of Masked Autoencoders (MAE) to enable efficient selection of single particles in cryo-EM images. Contrary to conventional NN-based techniques, cryoMAE requires only a minimal set of positive particle images for training yet demonstrates high performance in particle detection. Furthermore, the implementation of a self-cross similarity loss ensures distinct features for particle and background regions, thereby enhancing the discrimination capability of cryoMAE. Experiments on large-scale cryo-EM datasets show that cryoMAE outperforms existing state-of-the-art (SOTA) methods, improving 3D reconstruction resolution by up to 22.4%.
翻訳日:2024-04-17 18:41:41 公開日:2024-04-15
# Deferred NAM:非ストリーミングASRのためのDeferredContextエンコーディングによる低レイテンシトップKコンテキストインジェクション

Deferred NAM: Low-latency Top-K Context Injection via DeferredContext Encoding for Non-Streaming ASR ( http://arxiv.org/abs/2404.10180v1 )

ライセンス: Link先を確認
Zelin Wu, Gan Song, Christopher Li, Pat Rondon, Zhong Meng, Xavier Velez, Weiran Wang, Diamantino Caseiro, Golan Pundak, Tsendsuren Munkhdalai, Angad Chandorkar, Rohit Prabhavalkar, (参考訳) 文脈バイアスにより、音声認識者は、たとえ訓練データに稀であるか、欠落しているかにかかわらず、連絡先名など、話者の文脈で重要なフレーズを転写することができる。 注意に基づくバイアスは、認識システムとバイアスシステムの完全なエンドツーエンドのコトレーニングを可能にする主要なアプローチであり、別の推論時コンポーネントを必要としない。 このようなバイアスは一般的にコンテキストエンコーダで構成され、続いてコンテキストフィルタが適用範囲を狭め、ステップごとの推論時間を改善する。 フレーム単位のパフォーマンスの最適化に多くの作業が費やされているが、コンテキストエンコーダは少なくとも重要である。 ここでは、コンテクストエンコーディングの前に軽量なフレーズ選択パスを移動させることにより、最大16.1倍の高速化を実現し、バイアスを最大20Kのフレーズに拡大し、33ms未満の遅延を最大にすることができることを示す。 フレーズレベルとワードピースレベルのクロスエントロピー損失が加わったことにより、損失と軽量なフレーズ選択パスを伴わずに、ベースライン上で37.5%のWER削減を実現した。

Contextual biasing enables speech recognizers to transcribe important phrases in the speaker's context, such as contact names, even if they are rare in, or absent from, the training data. Attention-based biasing is a leading approach which allows for full end-to-end cotraining of the recognizer and biasing system and requires no separate inference-time components. Such biasers typically consist of a context encoder; followed by a context filter which narrows down the context to apply, improving per-step inference time; and, finally, context application via cross attention. Though much work has gone into optimizing per-frame performance, the context encoder is at least as important: recognition cannot begin before context encoding ends. Here, we show the lightweight phrase selection pass can be moved before context encoding, resulting in a speedup of up to 16.1 times and enabling biasing to scale to 20K phrases with a maximum pre-decoding delay under 33ms. With the addition of phrase- and wordpiece-level cross-entropy losses, our technique also achieves up to a 37.5% relative WER reduction over the baseline without the losses and lightweight phrase selection pass.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-15
# 現場からの洞察: 悪い単体テスト実践に対する学生の視点を探る

Insights from the Field: Exploring Students' Perspectives on Bad Unit Testing Practices ( http://arxiv.org/abs/2404.10185v1 )

ライセンス: Link先を確認
Anthony Peruma, Eman Abdullah AlOmar, Wajdi Aljedaani, Christian D. Newman, Mohamed Wiem Mkaouer, (参考訳) ソフトウェアテストの実践について学生を教育することは、多くのコンピュータサイエンス関連のコースのカリキュラムに不可欠なものであり、通常は学生が単体テストを書くことを含んでいる。 実運用コードやソースコードと同じように、学生は必然的に確立された単体テストのベストプラクティスから逸脱し、テストの臭いと呼ばれる問題のあるコードをテストスイートに導入する。 テストの臭いの広範なカタログを考えると、学生がコード中のテストの臭いを識別することは難しくなります。 本経験報告では,3つの高等教育機関から184人の学生が,コード中のテストの臭いを自動的に検出するIDEプラグインを用いて,学生の悪いユニットテスト実践に対する意識を高めることを目的としている。 本研究は, 学生がテスト臭を学習し, 検出する上でのプラグインの有用性について報告する一方で, 無害とみなす特定のテスト臭を識別することを示した。 本研究の成果は, 単体テストにおけるカリキュラムの修了における学力向上と, テストコードのコードレビュー戦略を学生に提供できることを期待する。

Educating students about software testing practices is integral to the curricula of many computer science-related courses and typically involves students writing unit tests. Similar to production/source code, students might inadvertently deviate from established unit testing best practices, and introduce problematic code, referred to as test smells, into their test suites. Given the extensive catalog of test smells, it becomes challenging for students to identify test smells in their code, especially for those who lack experience with testing practices. In this experience report, we aim to increase students' awareness of bad unit testing practices, and detail the outcomes of having 184 students from three higher educational institutes utilize an IDE plugin to automatically detect test smells in their code. Our findings show that while students report on the plugin's usefulness in learning about and detecting test smells, they also identify specific test smells that they consider harmless. We anticipate that our findings will support academia in refining course curricula on unit testing and enabling educators to support students with code review strategies of test code.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-15
# SoK(またはSoLK?) : ソシオドモグラフィー因子とコンピュータセキュリティ行動の定量的研究

SoK (or SoLK?): On the Quantitative Study of Sociodemographic Factors and Computer Security Behaviors ( http://arxiv.org/abs/2404.10187v1 )

ライセンス: Link先を確認
Miranda Wei, Jaron Mink, Yael Eiger, Tadayoshi Kohno, Elissa M. Redmiles, Franziska Roesner, (参考訳) 研究者たちは、性別、文化、その他の社会デマログラフ的要因が、ユーザーのコンピュータのセキュリティやプライバシーの行動とどのように関連しているかを、ますます探っている。 これらの要因と行動の関係をより包括的に理解するために、私たちは2つの貢献をします。 まず,社会デマトグラフィーと安全な行動に関する既存の奨学金(151論文)を幅広く調査し,47論文の焦点を絞った文献レビューを行い,現在知られているものを分析し,今後の研究に向けてオープンな質問を識別する。 第二に、現代の社会的・批判的理論を取り入れることで、共通の落とし穴を克服する方法に対処する社会デマログラフィー要因とセキュリティ行動の今後の研究のためのガイドラインを確立する。 我々は16カ国16,829人のFacebookユーザーを対象に、社会デマトグラフィーと非識別ログデータとの関連性の測定を行った。 これらの貢献を通じて、我々の仕事は知識の欠如(SoLK)の体系化として位置づける。 全体として、アイデンティティがセキュリティ行動をどのように形作るかについて、矛盾する結果と大きな未知が見られます。 ガイドラインと議論を通じて、社会デマログラフィー要因がセキュリティ行動にどのように影響するか、なぜどのように影響するかを、より深く調べるために、新しい方向性をグラフ化します。

Researchers are increasingly exploring how gender, culture, and other sociodemographic factors correlate with user computer security and privacy behaviors. To more holistically understand relationships between these factors and behaviors, we make two contributions. First, we broadly survey existing scholarship on sociodemographics and secure behavior (151 papers) before conducting a focused literature review of 47 papers to synthesize what is currently known and identify open questions for future research. Second, by incorporating contemporary social and critical theories, we establish guidelines for future studies of sociodemographic factors and security behaviors that address how to overcome common pitfalls. We present a case study to demonstrate our guidelines in action, at-scale, that conduct a measurement study of the relationships between sociodemographics and de-identified, aggregated log data of security and privacy behaviors among 16,829 users on Facebook across 16 countries. Through these contributions, we position our work as a systemization of a lack of knowledge (SoLK). Overall, we find contradictory results and vast unknowns about how identity shapes security behavior. Through our guidelines and discussion, we chart new directions to more deeply examine how and why sociodemographic factors affect security behaviors.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-15
# 二次予測誤差法における速度最適非漸近法

Rate-Optimal Non-Asymptotics for the Quadratic Prediction Error Method ( http://arxiv.org/abs/2404.07937v2 )

ライセンス: Link先を確認
Charis Stamouli, Ingvar Ziemann, George J. Pappas, (参考訳) 特定性条件を満たす時間変動パラメトリック予測モデルの2次予測誤差法(非線形最小二乗法)について検討する。 この方法は、幅広い問題に対して漸近的に最適な速度を達成することが知られているが、選択された少数の、典型的には線形なモデルクラス以外では、これらの最適速度と一致する非漸近的な結果が存在しない。 従属データによる学習から最新のツールを活用することで、非線形パラメタライズドモデルクラスのより一般的な設定のために、この手法の速度最適化非漸近解析を初めて提供する。 さらに,本研究の結果を特定可能な自己回帰移動平均(ARMA)モデルに適用し,ARMAモデルの同定に最適な非漸近速度が得られることを示した。

We study the quadratic prediction error method -- i.e., nonlinear least squares -- for a class of time-varying parametric predictor models satisfying a certain identifiability condition. While this method is known to asymptotically achieve the optimal rate for a wide range of problems, there have been no non-asymptotic results matching these optimal rates outside of a select few, typically linear, model classes. By leveraging modern tools from learning with dependent data, we provide the first rate-optimal non-asymptotic analysis of this method for our more general setting of nonlinearly parametrized model classes. Moreover, we show that our results can be applied to a particular class of identifiable AutoRegressive Moving Average (ARMA) models, resulting in the first optimal non-asymptotic rates for identification of ARMA models.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-15
# 量子多体スカーのデコヒーレンス自由部分空間への埋め込み

Embedding Quantum Many-Body Scars into Decoherence-Free Subspaces ( http://arxiv.org/abs/2304.08515v2 )

ライセンス: Link先を確認
He-Ran Wang, Dong Yuan, Shun-Yao Zhang, Zhong Wang, Dong-Ling Deng, L. -M. Duan, (参考訳) 量子多体傷(Quantum many-body scars)は、非可積分ハミルトニアンの非熱励起固有状態であり、エネルギースペクトルにおいて等間隔の塔を形成するとき、特別な初期状態からのコヒーレントな回復ダイナミクスをサポートすることができる。 オープン量子系では、制御された環境とのカップリングによる多体スカーレッド力学が未解明のままである。 本稿では、Lindbladマスター方程式のデコヒーレンス自由部分空間に量子多体傷を正確に埋め込むための一般的な枠組みを提供する。 散逸性スカーレッドダイナミクスは、一般的な初期状態に対して持続的な周期的振動を示し、潜在的な量子距離論の応用でスカー状態を作成するために実用的に利用でき、我々は、全てのスカータワーを消滅させる局所プロジェクターでリウヴィリア散逸子を構築し、ハミルトン部分を利用して、散逸子の零空間から望ましくない状態を回転させる。 我々は,多体スカータワーをホストする典型的なモデルを用いて,本プロトコルを実証し,デジタル量子シミュレーションとアンシラ量子ビットのリセットに基づく散逸性スカーレッドダイナミクスを観測するための実験的スキームを提案する。

Quantum many-body scars are non-thermal excited eigenstates of non-integrable Hamiltonians, which could support coherent revival dynamics from special initial states when scars form an equally spaced tower in the energy spectrum. For open quantum systems, engineering many-body scarred dynamics by a controlled coupling to the environment remains largely unexplored. In this paper, we provide a general framework to exactly embed quantum many-body scars into the decoherence-free subspaces of Lindblad master equations. The dissipative scarred dynamics manifest persistent periodic oscillations for generic initial states, and can be practically utilized to prepare scar states with potential quantum metrology applications.We construct the Liouvillian dissipators with the local projectors that annihilate the whole scar towers, and utilize the Hamiltonian part to rotate the undesired states out of the null space of dissipators. We demonstrate our protocol through several typical models hosting many-body scar towers, and propose an experimental scheme to observe the dissipative scarred dynamics based on digital quantum simulations and resetting ancilla qubits.
翻訳日:2024-04-17 04:33:48 公開日:2024-04-15
# 記述-論理的特徴を持つ命題動的論理の非正規拡張の探索

Exploring Non-Regular Extensions of Propositional Dynamic Logic with Description-Logics Features ( http://arxiv.org/abs/2307.09913v4 )

ライセンス: Link先を確認
Bartosz Bednarczyk, (参考訳) ALCを拡張した記述論理において、非正規経路表現が満足度チェックとクエリの決定可能性に与える影響について検討する。 我々の関心の対象は ALCreg と ALCvpl である。 第一の ALCreg は、フィッシャーとラドナーのよく知られた命題動的論理の記法的変種である。 第2のALCvplは2007年にLoding and Serreによって導入され調査された。 ALCvpl は ALCreg の多くの既知の決定不能な非正規拡張を一般化する。 一連の決定不可能な結果が得られます。 まず, ALCvpl における概念満足度問題に対する決定性は, 一見無作為な自己演算子を加えると失われることを示す。 第2に,ALCvpl における概念満足度問題に対して,命名法で拡張した不確定性を確立した。 興味深いことに、我々の不確定性証明は、r#s# := { r^n s^n | n in N } で固定されたロール名 r と s に対して、1つの非正規(可視的プッシュダウン)言語にのみ依存する。 最後に、従来のデータベース設定とは対照的に、既にALC-TBoxesの場合において、r#s#の非正則な原子を含むクエリに対するクエリエンテーメントの非決定性を確立する。

We investigate the impact of non-regular path expressions on the decidability of satisfiability checking and querying in description logics extending ALC. Our primary objects of interest are ALCreg and ALCvpl, the extensions of with path expressions employing, respectively, regular and visibly-pushdown languages. The first one, ALCreg, is a notational variant of the well-known Propositional Dynamic Logic of Fischer and Ladner. The second one, ALCvpl, was introduced and investigated by Loding and Serre in 2007. The logic ALCvpl generalises many known decidable non-regular extensions of ALCreg. We provide a series of undecidability results. First, we show that decidability of the concept satisfiability problem for ALCvpl is lost upon adding the seemingly innocent Self operator. Second, we establish undecidability for the concept satisfiability problem for ALCvpl extended with nominals. Interestingly, our undecidability proof relies only on one single non-regular (visibly-pushdown) language, namely on r#s# := { r^n s^n | n in N } for fixed role names r and s. Finally, in contrast to the classical database setting, we establish undecidability of query entailment for queries involving non-regular atoms from r#s#, already in the case of ALC-TBoxes.
翻訳日:2024-04-17 04:33:48 公開日:2024-04-15
# 陽子の絡み合いエントロピーと熱力学エントロピーとの関係

Entanglement entropy of proton and its relation to thermodynamics entropy ( http://arxiv.org/abs/2310.18510v3 )

ライセンス: Link先を確認
Krzysztof Kutak, (参考訳) グルーオン系のエンタングルメントエントロピーの公式の熱力学に基づく導出について論じる。 この導出は、飽和度とウンルー効果を用いてグルーオンのエントロピーを取得し、議論するアプローチに基づいている。 この式は高エネルギー限界において、より最近の結果と一致し、この式は密度行列と陽子の分割に基づく議論を用いて得られる。 また、DLL近似におけるBFKLのエントロピーとBK方程式の適用についても論じる。

I discuss the thermodynamics-based derivation of the formula for the entanglement entropy of a system of gluons. The derivation is based on an approach where saturation and the Unruh effect were used to obtain and discuss the entropy of gluons. The formula agrees, in the high-energy limit, up to a numerical factor, with more recent results, where arguments based on the density matrix and bipartition of the proton were used to obtain the formula. I also discuss the relation of entropy as obtained in BFKL in DLL approximation and with the application of the BK equation.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# 大規模言語モデルの心理的予測力

Psychometric Predictive Power of Large Language Models ( http://arxiv.org/abs/2311.07484v3 )

ライセンス: Link先を確認
Tatsuki Kuribayashi, Yohei Oseki, Timothy Baldwin, (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)の応答と人間の好みを一致させる。 このような人間-LLMアライメントの取り組みにもかかわらず、インストラクションチューニングが認知モデルの観点からLLMを人間らしくするとは限らないことが判明した。 より具体的には、命令調整されたLLMで推定される次の単語確率は、基本LLMで推定されるよりも人間の読書行動のシミュレートが悪くなることが多い。 また,LLMを用いた読解行動のシミュレーション手法についても検討した。 以上の結果から,特定の言語仮説を反映するプロンプトは心理学的予測力を向上させるが,それでも小ベースモデルに劣ることが示された。 これらの結果から,LLMの最近の進歩,すなわち命令チューニングとプロンプトは,認知モデルにおけるベースLLMの直接的確率測定よりも優れた推定値を提供していないことが示唆された。 言い換えれば、LLMの時代でさえ、純粋に次の単語確率は人間の読書行動の強力な予測因子である。

Instruction tuning aligns the response of large language models (LLMs) with human preferences. Despite such efforts in human--LLM alignment, we find that instruction tuning does not always make LLMs human-like from a cognitive modeling perspective. More specifically, next-word probabilities estimated by instruction-tuned LLMs are often worse at simulating human reading behavior than those estimated by base LLMs. In addition, we explore prompting methodologies for simulating human reading behavior with LLMs. Our results show that prompts reflecting a particular linguistic hypothesis improve psychometric predictive power, but are still inferior to small base models. These findings highlight that recent advancements in LLMs, i.e., instruction tuning and prompting, do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling. In other words, pure next-word probability remains a strong predictor for human reading behavior, even in the age of LLMs.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# RoHM: 拡散によるロバストな人間の運動再構成

RoHM: Robust Human Motion Reconstruction via Diffusion ( http://arxiv.org/abs/2401.08570v2 )

ライセンス: Link先を確認
Siwei Zhang, Bharat Lal Bhatnagar, Yuanlu Xu, Alexander Winkler, Petr Kadlecek, Siyu Tang, Federica Bogo, (参考訳) 本稿では,モノクラーRGB(-D)ビデオからノイズや閉塞物の存在下での頑健な3次元人間の動作復元手法であるRoHMを提案する。 これまでのほとんどのアプローチでは、ニューラルネットワークをトレーニングして3Dのモーションを直接回帰させたり、データ駆動のモーション前処理を学習したり、テスト時に最適化と組み合わせたりする。 前者はグローバルなコヒーレントな動きを回復せず、閉塞状態に陥り、後者は時間がかかり、局所的なミニマに傾向があり、手動のチューニングを必要とする。 これらの欠点を克服するために、拡散モデルの反復的、偏執的性質を利用する。 RoHMは、ノイズと閉塞された入力データに基づいて、一貫した大域座標で完全な可塑性運動を再構成する、新しい拡散に基づく運動モデルである。 問題の複雑さ - 異なる解空間(局所的および大域的運動)における異なるタスク(デノイングとインフィル)に対処する必要がある - を考慮し、それを2つのサブタスクに分解し、大域的軌道と局所的運動の2つのモデルを学ぶ。 両者の相関関係を捉えるため,新しい条件付きモジュールを導入し,反復的推論手法と組み合わせた。 動作再構成や聴覚障害から空間的,時間的入力に至るまで,さまざまなタスクにRoHMを適用した。 3つの一般的なデータセットに対する大規模な実験により、我々の手法はテスト時に高速でありながら、定性的かつ定量的に最先端の手法より優れていることが示された。 コードはhttps://sanweiliti.github.io/ROHM/ROHM.htmlで公開されている。

We propose RoHM, an approach for robust 3D human motion reconstruction from monocular RGB(-D) videos in the presence of noise and occlusions. Most previous approaches either train neural networks to directly regress motion in 3D or learn data-driven motion priors and combine them with optimization at test time. The former do not recover globally coherent motion and fail under occlusions; the latter are time-consuming, prone to local minima, and require manual tuning. To overcome these shortcomings, we exploit the iterative, denoising nature of diffusion models. RoHM is a novel diffusion-based motion model that, conditioned on noisy and occluded input data, reconstructs complete, plausible motions in consistent global coordinates. Given the complexity of the problem -- requiring one to address different tasks (denoising and infilling) in different solution spaces (local and global motion) -- we decompose it into two sub-tasks and learn two models, one for global trajectory and one for local motion. To capture the correlations between the two, we then introduce a novel conditioning module, combining it with an iterative inference scheme. We apply RoHM to a variety of tasks -- from motion reconstruction and denoising to spatial and temporal infilling. Extensive experiments on three popular datasets show that our method outperforms state-of-the-art approaches qualitatively and quantitatively, while being faster at test time. The code is available at https://sanweiliti.github.io/ROHM/ROHM.html.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# ALoRA: 微調整型大規模言語モデルのための低ランク適応

ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models ( http://arxiv.org/abs/2403.16187v2 )

ライセンス: Link先を確認
Zequan Liu, Jiawen Lyn, Wei Zhu, Xing Tian, Yvette Graham, (参考訳) パラメータ効率の良い微細チューニング(PEFT)は,大規模言語モデルの時代において,その有効性と効率性について広く研究されている。 低ランク適応(LoRA)は、人気で代表的な手法として、賞賛できる性能を示している。 しかし、下流タスクの理想的な設定ではないかもしれない固定固有のランクで実装されている。 より柔軟な下流タスク適応の必要性を認識し、我々はLoRAの方法論をアロケートローランク適応 (ALoRA) と呼ぶ革新的なアプローチに拡張し、適応プロセス中に本質的なランクを動的に調整できるようにする。 まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。 第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。 各種タスクについて実験を行い,ALoRA法が最近のベースラインに匹敵するチューナブルパラメータで性能を向上できることを実験的に示す。

Parameter-efficient fine-tuning (PEFT) is widely studied for its effectiveness and efficiency in the era of large language models. Low-rank adaptation (LoRA) has demonstrated commendable performance as a popular and representative method. However, it is implemented with a fixed intrinsic rank that might not be the ideal setting for the downstream tasks. Recognizing the need for more flexible downstream task adaptation, we extend the methodology of LoRA to an innovative approach we call allocating low-rank adaptation (ALoRA) that enables dynamic adjustments to the intrinsic rank during the adaptation process. First, we propose a novel method, AB-LoRA, that can effectively estimate the importance score of each LoRA rank. Second, guided by AB-LoRA, we gradually prune abundant and negatively impacting LoRA ranks and allocate the pruned LoRA budgets to important Transformer modules needing higher ranks. We have conducted experiments on various tasks, and the experimental results demonstrate that our ALoRA method can outperform the recent baselines with comparable tunable parameters.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# scenario.center: 実世界のデータからシナリオデータベースへのメソッド

scenario.center: Methods from Real-world Data to a Scenario Database ( http://arxiv.org/abs/2404.02561v2 )

ライセンス: Link先を確認
Michael Schuldes, Christoph Glasmacher, Lutz Eckstein, (参考訳) シナリオベースのテストは、複雑な交通環境において純粋なオンロードテストが非効率であるように見えるため、自動走行システム(ADS)の開発、検証、検証を行うための有望な方法である。 このアプローチの大きな課題は、システムをテストするのに十分な数のシナリオのプロビジョニングと管理である。 近年の研究では,大規模シナリオの提供,生成,管理について検討している。 本稿では,シナリオベースのテストアプローチの必要性を包括的かつ自動的にカバーするシナリオデータを処理し,管理するためのシナリオデータベースシナリオ.center(https://scenario.center )を提案する。 これにより、このようなデータベースの要件が記述される。 これらのことから,4段階のアプローチが提案されている。 まず、品質要件が定義された共通入力形式を定義する。 これはイベントやベースシナリオを自動的に検出するために利用される。 さらに,検索性,データ品質評価,シナリオ生成方法の異なる手法を提案し,異なるニーズに合った広い適用性を実現する。 評価のために、この方法論は最先端のシナリオデータベースと比較される。 最後に、この方法論をinDデータセットに適用することにより、データベースのアプリケーションと機能を示す。 データベースインターフェースの公開デモはhttps://scenario.center.comで公開されている。

Scenario-based testing is a promising method to develop, verify and validate automated driving systems (ADS) since pure on-road testing seems inefficient for complex traffic environments. A major challenge for this approach is the provision and management of a sufficient number of scenarios to test a system. The provision, generation, and management of scenario at scale is investigated in current research. This paper presents the scenario database scenario.center ( https://scenario.center ) to process and manage scenario data covering the needs of scenario-based testing approaches comprehensively and automatically. Thereby, requirements for such databases are described. Based on those, a four-step approach is proposed. Firstly, a common input format with defined quality requirements is defined. This is utilized for detecting events and base scenarios automatically. Furthermore, methods for searchability, evaluation of data quality and different scenario generation methods are proposed to allow a broad applicability serving different needs. For evaluation, the methodology is compared to state-of-the-art scenario databases. Finally, the application and capabilities of the database are shown by applying the methodology to the inD dataset. A public demonstration of the database interface is provided at https://scenario.center .
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# 雑音学習のための大規模言語モデルのレジリエンス

Resilience of Large Language Models for Noisy Instructions ( http://arxiv.org/abs/2404.09754v1 )

ライセンス: Link先を確認
Bin Wang, Chengwei Wei, Zhengyuan Liu, Geyu Lin, Nancy F. Chen, (参考訳) 自然言語処理(NLP)の急速に進歩する領域として、大規模言語モデル(LLM)は、人間の命令を解釈し、様々なタスクにわたってテキストを生成する強力なツールとして登場してきた。 それにもかかわらず、人間同士の相互作用や協調システムから生じる固有のエラーを含むテキストを扱うLLMのレジリエンスは、徹底的に調査されていない。 本研究は, LLMの5種類の破壊に対するレジリエンスについて検討した。 1)ASRエラー(自動音声認識) 2)OCR(Optical Character Recognition)エラー 3)文法上の誤り。 4) 誤字, 誤字 5) 気まぐれな内容。 本研究の目的は,これらの誤りを意図的に命令に埋め込むことによって,これらのモデルがどのように反応するかを検討することである。 以上の結果から,一部のLCMは特定の騒音に対する耐性を示すが,全体的な性能は著しく低下することが明らかとなった。 これはモデルレジリエンスの強化に関するさらなる調査の重要性を強調している。 LLMが処理する前にノイズの指示を浄化する「再通過」戦略も検討した。 分析の結果,特にオープンソースのLCMでは,ノイズの多い命令の修正が重要な課題であることがわかった。

As the rapidly advancing domain of natural language processing (NLP), large language models (LLMs) have emerged as powerful tools for interpreting human commands and generating text across various tasks. Nonetheless, the resilience of LLMs to handle text containing inherent errors, stemming from human interactions and collaborative systems, has not been thoroughly explored. Our study investigates the resilience of LLMs against five common types of disruptions including 1) ASR (Automatic Speech Recognition) errors, 2) OCR (Optical Character Recognition) errors, 3) grammatical mistakes, 4) typographical errors, and 5) distractive content. We aim to investigate how these models react by deliberately embedding these errors into instructions. Our findings reveal that while some LLMs show a degree of resistance to certain types of noise, their overall performance significantly suffers. This emphasizes the importance of further investigation into enhancing model resilience. In response to the observed decline in performance, our study also evaluates a "re-pass" strategy, designed to purify the instructions of noise before the LLMs process them. Our analysis indicates that correcting noisy instructions, particularly for open-source LLMs, presents significant challenges.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# ベル実験における量子力学からの過渡偏差試験

Test of transient deviations from Quantum Mechanics in Bell's experiment ( http://arxiv.org/abs/2404.09759v1 )

ライセンス: Link先を確認
Alejandro Hnilo, Mónica Agüero, Marcelo Kovalsky, Myriam Nonaka, (参考訳) QM(Quantum Mechanics)と局所現実論(Local Realism)の対立は、空間的に広がる絡み合った状態の遠い領域間で観測される相関で最も顕著である。 相関がL/cよりも短い時間で測定された場合、Lは絡み合った状態の空間的広がりであり、cは光速である。 この仮説はQMの解釈を最小限に修正することで紛争を解決し、より高速な信号処理を許すリスクを伴わずに、QMの潜在的に実りの多い非線形一般化への扉を開く。 この仮説は、現在、直接的にテストすることは技術的には不可能であるが、ストロボスコープテストは達成可能である。 本稿では, 駅間距離24mの特別設計光ベル装置で実施した実験結果について報告する。 短距離で同じ観測を行った場合や、過渡的な偏差の証拠との差は見つからない。 しかし、いくつかの仮説がこの実験に関与しており、それらは詳細に説明され、簡潔に議論されている。 言い換えれば、過渡偏差の仮説のために残された空間は大幅に減少する。

The conflict between Quantum Mechanics (QM) and Local Realism is most noticeable in the correlations observed between distant regions of a spatially spread entangled state. It has been hypothesized that transient deviations (from the values predicted by QM) may be observed if the correlations are measured in a time shorter than L/c, where L is the spatial spread of the entangled state and c is the speed of light. This hypothesis is appealing for it solves that conflict by minimally modifying the interpretation of QM, and opens the door to potentially fruitful nonlinear generalizations of QM without the risk of allowing faster-than-light signaling. The hypothesis is technically impossible to test directly nowadays, but a stroboscopic test is attainable. We present the results of such a test performed on a specially designed optical Bell setup with a distance between stations up to 24 m in straight line. No difference with the same observations performed at short distance, or evidence of transient deviations, is found. Yet, several hypotheses are involved in this experiment; they are detailed and briefly discussed. To say the least, the space left for the hypothesis of transient deviations is much reduced.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# 構造情報原理に基づく効果的な強化学習

Effective Reinforcement Learning Based on Structural Information Principles ( http://arxiv.org/abs/2404.09760v1 )

ライセンス: Link先を確認
Xianghua Zeng, Hao Peng, Dingli Su, Angsheng Li, (参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは環境との相互作用を通じて逐次的な行動パターンを取得するが、ノイズや高次元シナリオにおけるそれらの効果は通常、特定の構造的前提に依存している。 本稿では,情報理論の観点からアプローチした,効果的な意思決定(SIDM)のための,新規で汎用的な構造情報原則に基づくフレームワークを提案する。 本稿では,その特徴的類似性に基づいて,状態と行動空間における頂点コミュニティを形成する,特定の教師なし分割手法を提案する。 構造エントロピーを頂点重みとして利用するアグリゲーション関数を各コミュニティ内に考案し,その埋め込みを図り,階層的状態や行動抽象化を容易にする。 歴史的軌跡から抽象的要素を抽出することにより、有向、重み付き、均質な遷移グラフを構築する。 このグラフの高次元エントロピーの最小化により、最適な符号化木が生成される。 各状態遷移の共通経路エントロピーをその確率として計算し、専門家の知識の要求を回避するために、革新的な2層スキルベースの学習機構を導入する。 さらに、SIDMは、様々なシングルエージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。 最後に、挑戦的なベンチマークに関する広範な評価は、SOTAベースラインと比較して、我々のフレームワークはポリシーの品質、安定性、効率をそれぞれ32.70%、88.26%、64.86%まで大幅に改善していることを示している。

Although Reinforcement Learning (RL) algorithms acquire sequential behavioral patterns through interactions with the environment, their effectiveness in noisy and high-dimensional scenarios typically relies on specific structural priors. In this paper, we propose a novel and general Structural Information principles-based framework for effective Decision-Making, namely SIDM, approached from an information-theoretic perspective. This paper presents a specific unsupervised partitioning method that forms vertex communities in the state and action spaces based on their feature similarities. An aggregation function, which utilizes structural entropy as the vertex weight, is devised within each community to obtain its embedding, thereby facilitating hierarchical state and action abstractions. By extracting abstract elements from historical trajectories, a directed, weighted, homogeneous transition graph is constructed. The minimization of this graph's high-dimensional entropy leads to the generation of an optimal encoding tree. An innovative two-layer skill-based learning mechanism is introduced to compute the common path entropy of each state transition as its identified probability, thereby obviating the requirement for expert knowledge. Moreover, SIDM can be flexibly incorporated into various single-agent and multi-agent RL algorithms, enhancing their performance. Finally, extensive evaluations on challenging benchmarks demonstrate that, compared with SOTA baselines, our framework significantly and consistently improves the policy's quality, stability, and efficiency up to 32.70%, 88.26%, and 64.86%, respectively.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# PET/CTボリュームの深層学習に基づく腫瘍の分離:異なるアーキテクチャと訓練戦略のベンチマーク

Deep Learning-Based Segmentation of Tumors in PET/CT Volumes: Benchmark of Different Architectures and Training Strategies ( http://arxiv.org/abs/2404.09761v1 )

ライセンス: Link先を確認
Monika Górka, Daniel Jaworek, Marek Wodzinski, (参考訳) がんは世界的な死因の1つであり、早期診断は患者の生存に不可欠である。 ディープラーニングアルゴリズムは、自動がん解析に大きな可能性を秘めている。 人工知能は単一病変の認識とセグメンテーションにおいて高いパフォーマンスを達成している。 しかし,多発性病変の診断は依然として困難である。 本研究では, 頭部, 頸部, 全身のPET/CT画像を用いて, 癌病変を自動的に分類するためのニューラルネットワークアーキテクチャとトレーニング戦略について検討し, 比較を行った。 著者らはAutoPETとHECKTORの課題からデータセットを分析し、人気のあるシングルステップセグメンテーションアーキテクチャを探求し、2段階のアプローチを提示した。 その結果,V-NetモデルとnnU-Netモデルが最も有効であることが示唆された。 HECKTORデータセットの結果は、集計されたDice係数の0.75から0.76まで変化した。 がんのない症例をAutoPETデータセットから除去することで,ほとんどのモデルの性能が向上した。 オートPETデータでは, がん病変を含む画像のみの訓練後のセグメンテーション効率は, 古典的Dice係数0.55から0.66, 集約的Dice係数0.65から0.73に増加した。 この研究は、正確な腫瘍診断における人工知能の可能性を示し、より標的的で効果的ながん評価技術の開発に寄与する可能性がある。

Cancer is one of the leading causes of death globally, and early diagnosis is crucial for patient survival. Deep learning algorithms have great potential for automatic cancer analysis. Artificial intelligence has achieved high performance in recognizing and segmenting single lesions. However, diagnosing multiple lesions remains a challenge. This study examines and compares various neural network architectures and training strategies for automatically segmentation of cancer lesions using PET/CT images from the head, neck, and whole body. The authors analyzed datasets from the AutoPET and HECKTOR challenges, exploring popular single-step segmentation architectures and presenting a two-step approach. The results indicate that the V-Net and nnU-Net models were the most effective for their respective datasets. The results for the HECKTOR dataset ranged from 0.75 to 0.76 for the aggregated Dice coefficient. Eliminating cancer-free cases from the AutoPET dataset was found to improve the performance of most models. In the case of AutoPET data, the average segmentation efficiency after training only on images containing cancer lesions increased from 0.55 to 0.66 for the classic Dice coefficient and from 0.65 to 0.73 for the aggregated Dice coefficient. The research demonstrates the potential of artificial intelligence in precise oncological diagnostics and may contribute to the development of more targeted and effective cancer assessment techniques.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# KG-CTG:知識グラフ誘導大言語モデルによる引用生成

KG-CTG: Citation Generation through Knowledge Graph-guided Large Language Models ( http://arxiv.org/abs/2404.09763v1 )

ライセンス: Link先を確認
Avinash Anand, Mohit Gupta, Kritarth Prasad, Ujjwal Goel, Naman Lal, Astha Verma, Rajiv Ratn Shah, (参考訳) Citation Text Generation (CTG) は、自然言語処理(NLP)において、引用された文書を正確に引用または参照するテキストを作成することを目的としたタスクである。 CTGでは、生成されたテキストは、ソース文書と引用紙の両方からコンテキスト手がかりに基づいて描画され、正確で関連する引用情報が確実に提供される。 引用生成の分野におけるこれまでの研究は主に文書のテキスト要約に基づいている。 そこで本論文では,大規模言語モデル (LLM) を引用生成の課題に用いたフレームワークと比較研究について述べる。 また,論文間の関係をよりよく学習するために,論文の知識グラフ関係をLCMに組み込むことにより,引用生成結果の改善を図った。 我々のモデルの性能を評価するために、我々は標準S2ORCデータセットのサブセットを使用しました。 ヴィクナは14.15 Meteor、12.88 Rouge-1、1.22 Rouge-2、10.94 Rouge-Lでこの任務に最適である。 また、Alpaca は最高性能を示し、Ruge-1 では36.98%、Meteor では33.14%の性能を知識グラフで改善している。

Citation Text Generation (CTG) is a task in natural language processing (NLP) that aims to produce text that accurately cites or references a cited document within a source document. In CTG, the generated text draws upon contextual cues from both the source document and the cited paper, ensuring accurate and relevant citation information is provided. Previous work in the field of citation generation is mainly based on the text summarization of documents. Following this, this paper presents a framework, and a comparative study to demonstrate the use of Large Language Models (LLMs) for the task of citation generation. Also, we have shown the improvement in the results of citation generation by incorporating the knowledge graph relations of the papers in the prompt for the LLM to better learn the relationship between the papers. To assess how well our model is performing, we have used a subset of standard S2ORC dataset, which only consists of computer science academic research papers in the English Language. Vicuna performs best for this task with 14.15 Meteor, 12.88 Rouge-1, 1.52 Rouge-2, and 10.94 Rouge-L. Also, Alpaca performs best, and improves the performance by 36.98% in Rouge-1, and 33.14% in Meteor by including knowledge graphs.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# 言語間のコンテンツ品質評価のためのウィキペディア記事の言語非依存モデリング

Language-Agnostic Modeling of Wikipedia Articles for Content Quality Assessment across Languages ( http://arxiv.org/abs/2404.09764v1 )

ライセンス: Link先を確認
Paramita Das, Isaac Johnson, Diego Saez-Trumper, Pablo Aragón, (参考訳) ウィキペディアは無料知識の最大のウェブリポジトリである。 ボランティア編集者は300以上の言語版で記事の作成と拡張に時間と労力を費やした。 コンテンツの品質が記事によって異なるため、編集者は特定の基準でかなりの時間的評価記事を使う。 しかし、ウィキペディアの常に変化する性質を考えると、これらの評価を完全かつ最新の状態に保つことはほとんど不可能である。 この制限を克服するために、ウィキペディアの記事の品質をモデル化するための新しい計算フレームワークを提案する。 Wikipediaの記事の品質をモデル化するための最先端のアプローチは、言語固有の機能を備えた機械学習技術を活用している。 対照的に、本フレームワークは、記事から抽出した言語に依存しない構造的特徴、普遍重みの集合、および言語バージョン固有の正規化基準に基づく。 したがって、ウィキペディアのすべての言語版が、独自の品質評価スキームを持っていなくても、我々のフレームワークの恩恵を受けられることを保証します。 このフレームワークを用いて、既存のウィキペディアの言語バージョンにおける全ての記事の特徴値と品質スコアのデータセットを構築した。 これらのリソースの記述的分析とフレームワークのベンチマークを提供する。 さらに、これらのデータセットで対処できるダウンストリームタスクについても論じる。

Wikipedia is the largest web repository of free knowledge. Volunteer editors devote time and effort to creating and expanding articles in more than 300 language editions. As content quality varies from article to article, editors also spend substantial time rating articles with specific criteria. However, keeping these assessments complete and up-to-date is largely impossible given the ever-changing nature of Wikipedia. To overcome this limitation, we propose a novel computational framework for modeling the quality of Wikipedia articles. State-of-the-art approaches to model Wikipedia article quality have leveraged machine learning techniques with language-specific features. In contrast, our framework is based on language-agnostic structural features extracted from the articles, a set of universal weights, and a language version-specific normalization criterion. Therefore, we ensure that all language editions of Wikipedia can benefit from our framework, even those that do not have their own quality assessment scheme. Using this framework, we have built datasets with the feature values and quality scores of all revisions of all articles in the existing language versions of Wikipedia. We provide a descriptive analysis of these resources and a benchmark of our framework. In addition, we discuss possible downstream tasks to be addressed with these datasets, which are released for public use.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# 社会経済的成果の視覚的概念記述のための対照的な事前訓練

Contrastive Pretraining for Visual Concept Explanations of Socioeconomic Outcomes ( http://arxiv.org/abs/2404.09768v1 )

ライセンス: Link先を確認
Ivica Obadic, Alex Levering, Lars Pennig, Dario Oliveira, Diego Marcos, Xiaoxiang Zhu, (参考訳) 深層学習による衛星画像からの社会経済指標の予測は、ますますポピュラーな研究方向になりつつある。 ポストホックの概念に基づく説明は、人間の直感的な視覚概念に基づく社会経済的な結果の解釈を可能にするため、政策決定においてこれらのモデルを広く採用するための重要なステップとなる。 本稿では,社会経済研究におけるタスク固有のコントラスト損失とポストホック概念の説明可能性を用いた表現学習の相互作用について検討する。 本研究は,2つの異なる地理的位置と課題に関する結果から,タスク固有の事前訓練が,社会経済的結果に応じて潜伏空間の埋め込みを連続的に順序付けすることを示唆している。 これにより、モデルの潜在空間が都市概念と社会経済的成果の連続的な間隔を関連付けることができるため、モデルの解釈可能性が改善される。 さらに、社会経済的な結果の間隔に対するモデルの概念的感度の分析が、都市研究の新たな洞察に光を当てる方法について述べる。

Predicting socioeconomic indicators from satellite imagery with deep learning has become an increasingly popular research direction. Post-hoc concept-based explanations can be an important step towards broader adoption of these models in policy-making as they enable the interpretation of socioeconomic outcomes based on visual concepts that are intuitive to humans. In this paper, we study the interplay between representation learning using an additional task-specific contrastive loss and post-hoc concept explainability for socioeconomic studies. Our results on two different geographical locations and tasks indicate that the task-specific pretraining imposes a continuous ordering of the latent space embeddings according to the socioeconomic outcomes. This improves the model's interpretability as it enables the latent space of the model to associate urban concepts with continuous intervals of socioeconomic outcomes. Further, we illustrate how analyzing the model's conceptual sensitivity for the intervals of socioeconomic outcomes can shed light on new insights for urban studies.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# RandAlign: グラフ畳み込みネットワークの正規化のためのパラメータフリー手法

RandAlign: A Parameter-Free Method for Regularizing Graph Convolutional Networks ( http://arxiv.org/abs/2404.09774v1 )

ライセンス: Link先を確認
Haimin Zhang, Min Xu, (参考訳) メッセージパッシンググラフ畳み込みネットワークは、過度にスムースな問題に悩まされている。 基本的に、オーバー・スムーシングの問題は、すべてのノードに対する学習された埋め込みが互いに非常によく似ており、メッセージパッシングを繰り返し適用した後に非形式的であるという現象を指す。 直感的には、生成した埋め込みが漸近的に滑らかになることを期待しており、グラフ畳み込みの各層は、前の層が生成した埋め込みに比べて滑らかな埋め込みを生成する。 この直感に基づいて,グラフ畳み込みネットワークの確率正規化手法であるRandAlignを提案する。 RandAlignの考え方は、各グラフの畳み込み層でランダムに補間することで、各ノードの学習した埋め込みと前の層の埋め込みをランダムに整列させることである。 アライメントにより、生成された埋め込みの滑らかさを明示的に低減する。 グラフ畳み込みにより得られる利点をよりよく維持するため、アライメントステップでは、まず前層の埋め込みを生成した埋め込みと同じノルムにスケールし、生成した埋め込みを整列するためのランダムな補間を行う。 RandAlignはパラメータフリーのメソッドであり、トレーニング可能なウェイトやハイパーパラメータを導入することなく直接適用することができる。 異なるグラフ領域のタスクに対して、7つのベンチマークデータセット上でRandAlignを実験的に評価する。 実験の結果,RandAlignは様々なグラフ畳み込みネットワークモデルの一般化性能を向上し,最適化の数値安定性を向上し,グラフ表現学習の最先端性能を向上する一般手法であることがわかった。

Studies continually find that message-passing graph convolutional networks suffer from the over-smoothing issue. Basically, the issue of over-smoothing refers to the phenomenon that the learned embeddings for all nodes can become very similar to one another and therefore are uninformative after repeatedly applying message passing iterations. Intuitively, we can expect the generated embeddings become smooth asymptotically layerwisely, that is each layer of graph convolution generates a smoothed version of embeddings as compared to that generated by the previous layer. Based on this intuition, we propose RandAlign, a stochastic regularization method for graph convolutional networks. The idea of RandAlign is to randomly align the learned embedding for each node with that of the previous layer using randomly interpolation in each graph convolution layer. Through alignment, the smoothness of the generated embeddings is explicitly reduced. To better maintain the benefit yielded by the graph convolution, in the alignment step we introduce to first scale the embedding of the previous layer to the same norm as the generated embedding and then perform random interpolation for aligning the generated embedding. RandAlign is a parameter-free method and can be directly applied without introducing additional trainable weights or hyper-parameters. We experimentally evaluate RandAlign on different graph domain tasks on seven benchmark datasets. The experimental results show that RandAlign is a general method that improves the generalization performance of various graph convolutional network models and also improves the numerical stability of optimization, advancing the state of the art performance for graph representation learning.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# 悪魔は数ショットにある: 数ショット学習のための反復的な視覚的知識補完

The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning ( http://arxiv.org/abs/2404.09778v1 )

ライセンス: Link先を確認
Yaohui Li, Qifeng Zhou, Haoxing Chen, Jianbing Zhang, Xinyu Dai, Hao Zhou, (参考訳) 対照的に、CLIP(Contrastive Language-Image Pre-Training)は、ゼロショット学習の強力なパフォーマンスを示している。 CLIPの転送機能をさらに強化するために、クラス毎にイメージを少数与えることが目的だ。 既存のほとんどのメソッドは、学習可能なプロンプトやアダプタを組み込むことで、いくつかのショットから暗黙的に学習するか、推論のためにキャッシュモデルにそれらを明示的に埋め込みます。 しかし、少ないショットの狭い分布には、しばしば不完全なクラス情報が含まれており、誤分類のリスクの高い視覚的知識に偏りが生じる。 この問題に対処するため、近年の手法では、生成モデルや余分なデータベースによる視覚的知識の補足が提案されている。 本稿では, 補助データや合成データにアクセスせずに, ラベルのないサンプルを適切に活用することにより, 視覚知識を補完する反復的視覚知識比較法を提案する。 具体的には、KCLはまず、ラベルなしサンプルと各カテゴリの類似度を測定する。 そして、各カテゴリに最も信頼度の高いサンプルを選択し、設計された信頼基準によって収集する。 最後に、収集したサンプルをラベル付きとして扱い、残りのラベルなしのサンプルを共同で再推定するために、いくつかのショットに追加する。 上記の手順は、一定回数の反復に対して反復され、収束するまでさらに多くのサンプルが収集され、進歩的で堅牢な知識完成プロセスが保証される。 11のベンチマークデータセットに対する大規模な実験は、数ショットとゼロショットの学習設定の両方で、プラグイン・アンド・プレイモジュールとしてのKCLの有効性と効率を実証している。 コードはhttps://github.com/Mark-Sky/KCLで入手できる。

Contrastive Language-Image Pre-training (CLIP) has shown powerful zero-shot learning performance. Few-shot learning aims to further enhance the transfer capability of CLIP by giving few images in each class, aka 'few shots'. Most existing methods either implicitly learn from the few shots by incorporating learnable prompts or adapters, or explicitly embed them in a cache model for inference. However, the narrow distribution of few shots often contains incomplete class information, leading to biased visual knowledge with high risk of misclassification. To tackle this problem, recent methods propose to supplement visual knowledge by generative models or extra databases, which can be costly and time-consuming. In this paper, we propose an Iterative Visual Knowledge CompLetion (KCL) method to complement visual knowledge by properly taking advantages of unlabeled samples without access to any auxiliary or synthetic data. Specifically, KCL first measures the similarities between unlabeled samples and each category. Then, the samples with top confidence to each category is selected and collected by a designed confidence criterion. Finally, the collected samples are treated as labeled ones and added to few shots to jointly re-estimate the remaining unlabeled ones. The above procedures will be repeated for a certain number of iterations with more and more samples being collected until convergence, ensuring a progressive and robust knowledge completion process. Extensive experiments on 11 benchmark datasets demonstrate the effectiveness and efficiency of KCL as a plug-and-play module under both few-shot and zero-shot learning settings. Code is available at https://github.com/Mark-Sky/KCL.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# アンダーバッグングのレプリカ解析

A replica analysis of under-bagging ( http://arxiv.org/abs/2404.09779v1 )

ライセンス: Link先を確認
Takashi Takahashi, (参考訳) 不均衡データから分類器を訓練するための一般的なアンサンブル学習法であるUnder-bagging(UB)法の鋭い漸近を導出し、二成分混合データから線形分類器を訓練するシナリオにおいて、不均衡データから学習する他の標準手法と比較する。 比較した手法には、サブサンプルデータセットの単一実現を用いてモデルをトレーニングするアンダーサンプリング(US)法と、データ全体の重み付き損失を伴うモデルをトレーニングするシンプルな重み付け(SW)法が含まれる。 少数クラスのサイズが小さい場合, クラス不均衡が大きい場合であっても, 多数クラスのサイズを増大させることにより, UBの性能が向上することを示した。 これは、多数派が大きくなるにつれて性能が変化しない米国と、不均衡が増加するにつれて性能が低下するSWとは対照的である。 これらの結果は, クラス不均衡の構造を考慮せずに, 一般線形モデルのネーブバッグングの場合と異なり, パラメータのアンサンブルと直接正規化との本質的な違いを示す。

A sharp asymptotics of the under-bagging (UB) method, which is a popular ensemble learning method for training classifiers from an imbalanced data, is derived and used to compare with several other standard methods for learning from imbalanced data, in the scenario where a linear classifier is trained from a binary mixture data. The methods compared include the under-sampling (US) method, which trains a model using a single realization of the subsampled dataset, and the simple weighting (SW) method, which trains a model with a weighted loss on the entire data. It is shown that the performance of UB is improved by increasing the size of the majority class, even if the class imbalance can be large, especially when the size of the minority class is small. This is in contrast to US, whose performance does not change as the size of the majority class increases, and SW, whose performance decreases as the imbalance increases. These results are different from the case of the naive bagging in training generalized linear models without considering the structure of class imbalance, indicating the intrinsic difference between the ensembling and the direct regularization on the parameters.
翻訳日:2024-04-17 04:29:54 公開日:2024-04-15
# バイアス軽減技術はディープラーニングに有効か?

Are Bias Mitigation Techniques for Deep Learning Effective? ( http://arxiv.org/abs/2104.00170v3 )

ライセンス: Link先を確認
Robik Shrestha, Kushal Kafle, Christopher Kanan, (参考訳) ディープラーニングにおける重要な問題は、システムが不適切なバイアスを学習し、少数派グループでうまく機能できないことである。 これにより、バイアスを軽減するために複数のアルゴリズムが作成されました。 しかし,これらの手法がどの程度有効かは明らかでない。 これは、研究プロトコルが論文によって異なり、システムは多くの形式のバイアスをテストできないデータセット上でテストされ、システムは隠れた知識にアクセスするか、テストセットに特別に調整されるためである。 これを解決するために、改良された評価プロトコル、有能なメトリクス、新しいデータセットを導入し、バイアス軽減アルゴリズムに関する重要な質問に答えることを可能にする。 我々は,3つのベンチマークデータセットで同じネットワークアーキテクチャとハイパーパラメータ選択ポリシーを用いて,最先端の7つのアルゴリズムを評価する。 我々は、複数のバイアス源に対するロバスト性の評価を可能にするBiased MNISTと呼ばれる新しいデータセットを導入する。 隠れバイアスに対するロバスト性を評価するために、Biased MNISTとVQAベンチマークを使用します。 テストセット分布をチューニングするだけでなく、異なるチューニング分布にまたがるロバスト性も研究している。 アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。 本研究は,今後の偏見緩和手法の厳密な評価をコミュニティに導入することを示唆するものである。 すべてのデータ、コード、結果は、https://github.com/erobic/bias-mitigatorsで公開されている。

A critical problem in deep learning is that systems learn inappropriate biases, resulting in their inability to perform well on minority groups. This has led to the creation of multiple algorithms that endeavor to mitigate bias. However, it is not clear how effective these methods are. This is because study protocols differ among papers, systems are tested on datasets that fail to test many forms of bias, and systems have access to hidden knowledge or are tuned specifically to the test set. To address this, we introduce an improved evaluation protocol, sensible metrics, and a new dataset, which enables us to ask and answer critical questions about bias mitigation algorithms. We evaluate seven state-of-the-art algorithms using the same network architecture and hyperparameter selection policy across three benchmark datasets. We introduce a new dataset called Biased MNIST that enables assessment of robustness to multiple bias sources. We use Biased MNIST and a visual question answering (VQA) benchmark to assess robustness to hidden biases. Rather than only tuning to the test set distribution, we study robustness across different tuning distributions, which is critical because for many applications the test distribution may not be known during development. We find that algorithms exploit hidden biases, are unable to scale to multiple forms of bias, and are highly sensitive to the choice of tuning set. Based on our findings, we implore the community to adopt more rigorous assessment of future bias mitigation methods. All data, code, and results are publicly available at: https://github.com/erobic/bias-mitigators.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-15
# 周波数ベストアーム同定におけるベイズ最適アルゴリズムの最適化性能

Suboptimal Performance of the Bayes Optimal Algorithm in Frequentist Best Arm Identification ( http://arxiv.org/abs/2202.05193v3 )

ライセンス: Link先を確認
Junpei Komiyama, (参考訳) 正規分布による報酬を伴う固定予算ベストアーム識別問題を考察する。 この問題では、予測者は、腕(または治療)が$K$、タイムステップが$T$である。 予測器はアルゴリズムを用いて行った適応実験を通じて、最大の平均を持つ腕を見つけようとする。 アルゴリズムの性能は、推定されたベストアームの品質を反映して、単純な後悔によって評価される。 頻繁な単純な後悔はT$に対して指数関数的に減少するが、ベイズ的単純後悔は多項式的に減少する。 本稿では,ベイズ的単純後悔を最小化するベイズ最適アルゴリズムが,パラメータ設定下において,単純後悔の指数関数的に減少しないことを示す。 これは、ベイズ的および頻繁なアプローチの、固定サンプリング体制における漸近的同値性を示す多くの発見とは対照的である。 ベイズ最適アルゴリズムは、正確に計算することが事実上不可能な再帰方程式として定式化されているが、ベルマン改良と呼ばれる新しい概念を導入することにより、将来の研究の基盤を固める。

We consider the fixed-budget best arm identification problem with rewards following normal distributions. In this problem, the forecaster is given $K$ arms (or treatments) and $T$ time steps. The forecaster attempts to find the arm with the largest mean, via an adaptive experiment conducted using an algorithm. The algorithm's performance is evaluated by simple regret, reflecting the quality of the estimated best arm. While frequentist simple regret can decrease exponentially with respect to $T$, Bayesian simple regret decreases polynomially. This paper demonstrates that the Bayes optimal algorithm, which minimizes the Bayesian simple regret, does not yield an exponential decrease in simple regret under certain parameter settings. This contrasts with the numerous findings that suggest the asymptotic equivalence of Bayesian and frequentist approaches in fixed sampling regimes. Although the Bayes optimal algorithm is formulated as a recursive equation that is virtually impossible to compute exactly, we lay the groundwork for future research by introducing a novel concept termed the expected Bellman improvement.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-15
# OccamNets: 単純な仮説によるデータセットバイアスの緩和

OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses ( http://arxiv.org/abs/2204.02426v5 )

ライセンス: Link先を確認
Robik Shrestha, Kushal Kafle, Christopher Kanan, (参考訳) データセットバイアスとスプリアス相関は、ディープニューラルネットワークの一般化を著しく損なう可能性がある。 従来の多くの取り組みでは、代替の損失関数や稀なパターンに焦点を当てたサンプリング戦略を用いてこの問題に対処してきた。 ネットワークアーキテクチャを改良して帰納バイアスを課し、ネットワークをデータセットバイアスに頑健にする、という新たな方向性を提案する。 具体的には,OccamNetsを提案する。 OccamNetには2つの帰納バイアスがある。 まず、個々の例で必要最小限のネットワーク深度を使用するようにバイアスがかかる。 第二に、画像の位置を減らして予測する傾向にある。 OccamNetsは単純な仮説に偏っているが、必要であればより複雑な仮説を学ぶことができる。 実験では、OccamNetsは、これらの帰納バイアスを含まないアーキテクチャ上で、パフォーマンスや最先端の手法よりも優れています。 さらに、最先端のデバイアス法とOccamNetsを組み合わせると、さらなる改善が期待できる。

Dataset bias and spurious correlations can significantly impair generalization in deep neural networks. Many prior efforts have addressed this problem using either alternative loss functions or sampling strategies that focus on rare patterns. We propose a new direction: modifying the network architecture to impose inductive biases that make the network robust to dataset bias. Specifically, we propose OccamNets, which are biased to favor simpler solutions by design. OccamNets have two inductive biases. First, they are biased to use as little network depth as needed for an individual example. Second, they are biased toward using fewer image locations for prediction. While OccamNets are biased toward simpler hypotheses, they can learn more complex hypotheses if necessary. In experiments, OccamNets outperform or rival state-of-the-art methods run on architectures that do not incorporate these inductive biases. Furthermore, we demonstrate that when the state-of-the-art debiasing methods are combined with OccamNets results further improve.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-15
# 時空間k-means

Spatiotemporal k-means ( http://arxiv.org/abs/2211.05337v2 )

ライセンス: Link先を確認
Olga Dorabiala, Devavrat Vivek Dabke, Jennifer Webster, Nathan Kutz, Aleksandr Aravkin, (参考訳) 時空間データは、移動物体を追跡する新しいセンサーとデータ取得技術によって、ますます利用できるようになる。 時空間クラスタリングは、人間の監督なしに物体の動きのパターンや傾向を効率的に発見する必要性に対処する。 興味深い応用の1つは移動クラスタの発見である。クラスタは静的なアイデンティティを持つが、その位置と内容は時間とともに変化する可能性がある。 本研究では、時空間データ内のマルチスケール関係を解析できる時空間k平均(STkM)と呼ばれる2段階時空間クラスタリング手法を提案する。 空間と時間で統一された目的関数を最適化することにより、パラメータチューニングを最小限に抑え、後処理を行わずに、短い時間と長い時間の両方で動的クラスタを追跡できる。 本稿では,時空間データの理論的生成モデルを提案し,STkMの有効性を実証することから始める。 次に、最近開発された動物行動ベンチマークデータセットを用いてSTkMを評価し、STkMが低データ限界においてベースライン法より優れており、多くの新興アプリケーションにおいて重要な考慮事項であることを示す。 最後に、STkMがより複雑な機械学習タスク、特にビデオにおける関心の検出と追跡の教師なし領域にどのように拡張できるかを示す。

Spatiotemporal data is increasingly available due to emerging sensor and data acquisition technologies that track moving objects. Spatiotemporal clustering addresses the need to efficiently discover patterns and trends in moving object behavior without human supervision. One application of interest is the discovery of moving clusters, where clusters have a static identity, but their location and content can change over time. We propose a two phase spatiotemporal clustering method called spatiotemporal k-means (STkM) that is able to analyze the multi-scale relationships within spatiotemporal data. By optimizing an objective function that is unified over space and time, the method can track dynamic clusters at both short and long timescales with minimal parameter tuning and no post-processing. We begin by proposing a theoretical generating model for spatiotemporal data and prove the efficacy of STkM in this setting. We then evaluate STkM on a recently developed collective animal behavior benchmark dataset and show that STkM outperforms baseline methods in the low-data limit, which is a critical regime of consideration in many emerging applications. Finally, we showcase how STkM can be extended to more complex machine learning tasks, particularly unsupervised region of interest detection and tracking in videos.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-15
# 反復グラフ再構成によるデータ計算

Data Imputation with Iterative Graph Reconstruction ( http://arxiv.org/abs/2212.02810v2 )

ライセンス: Link先を確認
Jiajun Zhong, Weiwei Ye, Ning Gui, (参考訳) 効果的なデータ計算は、 '`plain' 表のデータから、リッチな潜伏する ``structure" 発見機能を必要とする。 グラフニューラルネットワークに基づくデータ計算ソリューションの最近の進歩は、表データを二部グラフとして直接翻訳することで、その強い構造学習の可能性を示している。 しかし、サンプル間の関係が欠如しているため、これらの解は全てのサンプルを等しく扱い、1つの重要な観察に反する。 そこで,本論文では,すべてのサンプルを等しく扱う代わりに,サンプル間の異なる関係を表現するために,「友達ネットワーク」という概念を導入する。 データの欠落を伴う正確なフレンドネットワークを生成するために、命令学習中に友人ネットワークの継続的な最適化を可能にするエンドツーエンドのフレンドネットワーク再構築ソリューションを設計する。 最適化されたフレンドネットワークの表現は、区別されたメッセージパッシングを伴うデータ計算プロセスをさらに最適化するために使用される。 8つのベンチマークデータセットの実験結果によると、IGRMは9つの基準線と9.04%低い平均絶対誤差を39.13%下回っている。 私たちのコードはhttps://github.com/G-AILab/IGRM.comで公開されています。

Effective data imputation demands rich latent ``structure" discovery capabilities from ``plain" tabular data. Recent advances in graph neural networks-based data imputation solutions show their strong structure learning potential by directly translating tabular data as bipartite graphs. However, due to a lack of relations between samples, those solutions treat all samples equally which is against one important observation: ``similar sample should give more information about missing values." This paper presents a novel Iterative graph Generation and Reconstruction framework for Missing data imputation(IGRM). Instead of treating all samples equally, we introduce the concept: ``friend networks" to represent different relations among samples. To generate an accurate friend network with missing data, an end-to-end friend network reconstruction solution is designed to allow for continuous friend network optimization during imputation learning. The representation of the optimized friend network, in turn, is used to further optimize the data imputation process with differentiated message passing. Experiment results on eight benchmark datasets show that IGRM yields 39.13% lower mean absolute error compared with nine baselines and 9.04% lower than the second-best. Our code is available at https://github.com/G-AILab/IGRM.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-15
# 関連部分空間の探索によるニューラルネットワーク予測の遠絡説明

Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces ( http://arxiv.org/abs/2212.14855v3 )

ライセンス: Link先を確認
Pattarawat Chormai, Jan Herrmann, Klaus-Robert Müller, Grégoire Montavon, (参考訳) 説明可能なAIは、ニューラルネットワークのような複雑なMLモデルのブラックボックスの性質を克服し、予測の説明を生成することを目的としている。 説明はしばしば、モデルの決定に関連する入力特徴(例えばピクセル)を特定するヒートマップの形をとる。 しかし、これらの説明は、全体的な複雑な意思決定戦略に参入する潜在的に複数の要因を絡ませている。 本稿では,ニューラルネットワークの中間層である部分空間を抽出して,その予測に関係のある複数の,異なるアクティベーションパターン(例えば視覚的概念)を捉えることによって,説明を解き放つことを提案する。 これらの部分空間を自動的に抽出するために,PCA や ICA に見られる原理を説明に拡張する2つの新しい解析法を提案する。 これらの新しい分析は、主成分分析 (PRCA) と解離関連部分空間分析 (DRSA) と呼ばれ、eg分散やクルトシスの代わりに関連性を最大化する。 これにより、モデルが不変であるアクティベーションや概念を予測、無視するためにMLモデルが実際に使用しているものについて、分析のより強力なフォーカスが可能になる。 私たちのアプローチは、Shapley ValueやIntegrated Gradients、LRPといった一般的な属性技術と連携するのに十分です。 提案手法は,ベンチマークや3つのユースケースで示された最先端技術と比較し,実用的に有用であることを示す。

Explainable AI aims to overcome the black-box nature of complex ML models like neural networks by generating explanations for their predictions. Explanations often take the form of a heatmap identifying input features (e.g. pixels) that are relevant to the model's decision. These explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by extracting at some intermediate layer of a neural network, subspaces that capture the multiple and distinct activation patterns (e.g. visual concepts) that are relevant to the prediction. To automatically extract these subspaces, we propose two new analyses, extending principles found in PCA or ICA to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), maximize relevance instead of e.g. variance or kurtosis. This allows for a much stronger focus of the analysis on what the ML model actually uses for predicting, ignoring activations or concepts to which the model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-15
# より少ない:n-gram周波数遅延による単語レベルのテキスト逆アタックの理解

Less is More: Understanding Word-level Textual Adversarial Attack via n-gram Frequency Descend ( http://arxiv.org/abs/2302.02568v4 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Zhirui Zhang, Qi Wang, Haifeng Liu, Ke Tang, (参考訳) 単語レベルのテキスト敵対攻撃は、自然言語処理(NLP)モデルにおいて顕著な効果を示した。 彼らの成功にもかかわらず、その効果の根本原因と敵例(AE)の基本的特徴はいまだに不明である。 本研究の目的は,$n$-gramの周波数パターンを調べることで,単語レベルの攻撃を解釈することである。 包括的実験の結果,約90%のケースにおいて,単語レベルの攻撃は,$n$-gramの頻度が減少する事例の発生につながることが明らかとなった。 この発見は、モデルの堅牢性を高めるための簡単な戦略を示唆している。 この戦略の実現可能性を検討するために,従来の損失勾配に代わる$n$-gramの周波数情報を用いて,対人訓練における摂動例を生成する。 実験結果から, 周波数に基づくアプローチは, モデルロバスト性を改善するための勾配に基づくアプローチと相容れないことが示唆された。 本研究は,単語レベルのテキストの敵対的攻撃を理解するための,新しい,より直感的な視点を提供し,モデルロバスト性を改善するための新たな方向性を提案する。

Word-level textual adversarial attacks have demonstrated notable efficacy in misleading Natural Language Processing (NLP) models. Despite their success, the underlying reasons for their effectiveness and the fundamental characteristics of adversarial examples (AEs) remain obscure. This work aims to interpret word-level attacks by examining their $n$-gram frequency patterns. Our comprehensive experiments reveal that in approximately 90\% of cases, word-level attacks lead to the generation of examples where the frequency of $n$-grams decreases, a tendency we term as the $n$-gram Frequency Descend ($n$-FD). This finding suggests a straightforward strategy to enhance model robustness: training models using examples with $n$-FD. To examine the feasibility of this strategy, we employed the $n$-gram frequency information, as an alternative to conventional loss gradients, to generate perturbed examples in adversarial training. The experiment results indicate that the frequency-based approach performs comparably with the gradient-based approach in improving model robustness. Our research offers a novel and more intuitive perspective for understanding word-level textual adversarial attacks and proposes a new direction to improve model robustness.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-15
# 周期駆動を用いたGottesman-Kitaev-Preskill状態準備

Gottesman-Kitaev-Preskill state preparation using periodic driving ( http://arxiv.org/abs/2303.03541v2 )

ライセンス: Link先を確認
Xanda C. Kolesnikow, Raditya Weda Bomantara, Andrew C. Doherty, Arne L. Grimsmo, (参考訳) Gottesman-Kitaev-Preskill (GKP) 符号は連続変数量子系のノイズを克服するために用いられる。 しかし、GKP状態の調製は実験的に困難である。 本稿では,Floquet状態がGKP状態である時間周期ハミルトニアンを工学的に構築する手法を提案する。 このハミルトニアンは、スーパーインダクタとコンデンサによって誘導されるSQUIDからなる超伝導回路で実現され、抵抗量子の2倍のインピーダンスを持つ。 GKPフロケット状態は、外部磁束駆動の周波数を断熱的に調整して作成することができる。 GKPマジックステートは10^6$(10^5$)、フラックスノイズが典型的には10^6$(10^5$)であるので、マイクロ秒のタイムスケールで作成できると予測している。

The Gottesman-Kitaev-Preskill (GKP) code may be used to overcome noise in continuous variable quantum systems. However, preparing GKP states remains experimentally challenging. We propose a method for preparing GKP states by engineering a time-periodic Hamiltonian whose Floquet states are GKP states. This Hamiltonian may be realized in a superconducting circuit comprising a SQUID shunted by a superinductor and a capacitor, with a characteristic impedance twice the resistance quantum. The GKP Floquet states can be prepared by adiabatically tuning the frequency of the external magnetic flux drive. We predict that highly squeezed $>11.9$ dB ($10.8$ dB) GKP magic states can be prepared on a microsecond timescale, given a quality factor of $10^6$ ($10^5$) and flux noise at typical rates.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-15
# ラベル付きドメインからラベルなしドメインへの深さスケールの移行

Do More With What You Have: Transferring Depth-Scale from Labeled to Unlabeled Domains ( http://arxiv.org/abs/2303.07662v3 )

ライセンス: Link先を確認
Alexandra Dana, Nadav Carmel, Amit Shomer, Ofer Manela, Tomer Peleg, (参考訳) 推定器の絶対深度予測能力を新しい領域に転送することは、重要な現実世界のアプリケーションを扱うタスクである。 このタスクは、新しい領域の画像が地上の深度測定なしで収集される場合や、おそらく異なる固有のセンサーで収集される場合、特に困難である。 このような制限を克服するため、最近のゼロショットソリューションは広範なトレーニングデータセットに基づいてトレーニングされ、さまざまなカメラ固有の機能をエンコードした。 他のソリューションは、ドメイン間の深度スケールの転送を可能にするために、新しいターゲットデータの本質と一致する深さラベルを持つ合成データを生成した。 本研究では,地上の真理深度ラベルにアノテートされた少数の画像を持つ既存の合成データや実データを利用する方法を提案する。 具体的には、自己教師付き深さ推定器が、ドメイン全体にわたる絶対深度値と線形に相関する、最大スケールの予測をもたらすことを示し、これは単一のスカラーを用いて、本研究でモデル化した特性である。 さらに、トレーニング前に2つのデータセットのフィールド・オブ・ビューを整列させることで、両方のドメインに共通の線形関係が生まれる。 我々は、この観測された特性を用いて、絶対深度ラベルを持つソースデータセットから、これらの測定を欠いた新しいターゲットデータセットに転送し、ターゲット領域における絶対深度予測を可能にする。 提案手法は,KITTI,DDAD,nuScenesの各データセットにおいて,他のフィールド・オブ・ビュー,他の画像スタイル,構造的内容を持つ既存の実あるいは合成ソースデータセットを用いて,対象の地層深度を使用しない他の既存手法と同等あるいは優れた精度を達成できることを示す。

Transferring the absolute depth prediction capabilities of an estimator to a new domain is a task with significant real-world applications. This task is specifically challenging when images from the new domain are collected without ground-truth depth measurements, and possibly with sensors of different intrinsics. To overcome such limitations, a recent zero-shot solution was trained on an extensive training dataset and encoded the various camera intrinsics. Other solutions generated synthetic data with depth labels that matched the intrinsics of the new target data to enable depth-scale transfer between the domains. In this work we present an alternative solution that can utilize any existing synthetic or real dataset, that has a small number of images annotated with ground truth depth labels. Specifically, we show that self-supervised depth estimators result in up-to-scale predictions that are linearly correlated to their absolute depth values across the domain, a property that we model in this work using a single scalar. In addition, aligning the field-of-view of two datasets prior to training, results in a common linear relationship for both domains. We use this observed property to transfer the depth-scale from source datasets that have absolute depth labels to new target datasets that lack these measurements, enabling absolute depth predictions in the target domain. The suggested method was successfully demonstrated on the KITTI, DDAD and nuScenes datasets, while using other existing real or synthetic source datasets, that have a different field-of-view, other image style or structural content, achieving comparable or better accuracy than other existing methods that do not use target ground-truth depths.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-15
# ドメイン適応ディエンス予測のためのスパースビジュアルプロンプトの探索

Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction ( http://arxiv.org/abs/2303.09792v3 )

ライセンス: Link先を確認
Senqiao Yang, Jiarui Wu, Jiaming Liu, Xiaoqi Li, Qizhe Zhang, Mingjie Pan, Yulu Gan, Zehui Chen, Shanghang Zhang, (参考訳) 視覚的プロンプトは、視覚的クロスドメイン問題に対処する効果的な方法を提供してきた。 以前の研究で、Visual Domain Prompt (VDP) はまず、各ターゲットドメインに対する画像レベルのプロンプトと微調整プロンプトをワープすることで、テスト時間適応(TTA)問題に対処するドメインプロンプトを導入した。 しかし、画像レベルのプロンプトは、プロンプト配置された領域における連続的な空間的詳細をマスクするので、特に密集した予測TTA問題に対処する際には、コンテキスト情報の不正確さとドメイン知識の抽出に悩まされる。 これらの課題を克服するために,画像レベルのプロンプトに最小限のトレーニング可能なパラメータ(例えば0.1\%)を格納し,入力のより空間的な情報を予約する,Sparse Visual Domain Prompts (SVDP) アプローチを提案する。 ドメイン固有知識の抽出にSVDPをよりよく適用するために、大きな分布シフトを持つ画素上でSVDPのトレーニング可能なパラメータを適応的に割り当てるDomain Prompt Placement (DPP)法を導入する。 さらに、各対象ドメインサンプルが独自のドメインシフトを示すことを認識して、各サンプルに対してプロンプトパラメータを最適化し、ターゲットドメインへの効率的な適応を容易にするドメインプロンプト更新(DPU)戦略を設計する。 広範に使用されているTTAおよび連続TTAベンチマークを用いて実験を行い,提案手法はセマンティックセグメンテーションと深度推定の両タスクにおいて最先端の性能を実現する。

The visual prompts have provided an efficient manner in addressing visual cross-domain problems. In previous works, Visual Domain Prompt (VDP) first introduces domain prompts to tackle the classification Test-Time Adaptation (TTA) problem by warping image-level prompts on the input and fine-tuning prompts for each target domain. However, since the image-level prompts mask out continuous spatial details in the prompt-allocated region, it will suffer from inaccurate contextual information and limited domain knowledge extraction, particularly when dealing with dense prediction TTA problems. To overcome these challenges, we propose a novel Sparse Visual Domain Prompts (SVDP) approach, which holds minimal trainable parameters (e.g., 0.1\%) in the image-level prompt and reserves more spatial information of the input. To better apply SVDP in extracting domain-specific knowledge, we introduce the Domain Prompt Placement (DPP) method to adaptively allocates trainable parameters of SVDP on the pixels with large distribution shifts. Furthermore, recognizing that each target domain sample exhibits a unique domain shift, we design Domain Prompt Updating (DPU) strategy to optimize prompt parameters differently for each sample, facilitating efficient adaptation to the target domain. Extensive experiments were conducted on widely-used TTA and continual TTA benchmarks, and our proposed method achieves state-of-the-art performance in both semantic segmentation and depth estimation tasks.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-15
# CF-Font:Few-shot Font 生成のためのコンテンツ融合

CF-Font: Content Fusion for Few-shot Font Generation ( http://arxiv.org/abs/2303.14017v3 )

ライセンス: Link先を確認
Chi Wang, Min Zhou, Tiezheng Ge, Yuning Jiang, Hujun Bao, Weiwei Xu, (参考訳) コンテンツとスタイルの切り離しは、少数ショットフォント生成を実現する効果的な方法である。 ソースドメイン内のフォントイメージのスタイルを、ターゲットドメイン内のいくつかの参照イメージで定義されたスタイルに転送することができる。 しかし、代表フォントを用いて抽出されたコンテンツ機能は最適ではないかもしれない。 そこで本研究では,基本フォントのコンテンツ特徴によって定義される線形空間にコンテンツ特徴を投影するコンテンツ融合モジュール(CFM)を提案する。 また,本手法は,軽量反復型ベクター改良(ISR)戦略を用いて,参照画像のスタイル表現ベクトルを最適化する。 さらに、文字画像の1次元投影を確率分布として扱い、2つの分布間の距離を再構成損失(つまり、投影された文字損失、PCL)として利用する。 L2またはL1再構成損失と比較して、分布距離は文字のグローバルな形状により多くの注意を払っている。 我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。 実験結果から,本手法は既存の数ショットフォント生成方法よりも大きなマージンで優れていたことが確認された。 ソースコードはhttps://github.com/wangchi95/CF-Font.orgにある。

Content and style disentanglement is an effective way to achieve few-shot font generation. It allows to transfer the style of the font image in a source domain to the style defined with a few reference images in a target domain. However, the content feature extracted using a representative font might not be optimal. In light of this, we propose a content fusion module (CFM) to project the content feature into a linear space defined by the content features of basis fonts, which can take the variation of content features caused by different fonts into consideration. Our method also allows to optimize the style representation vector of reference images through a lightweight iterative style-vector refinement (ISR) strategy. Moreover, we treat the 1D projection of a character image as a probability distribution and leverage the distance between two distributions as the reconstruction loss (namely projected character loss, PCL). Compared to L2 or L1 reconstruction loss, the distribution distance pays more attention to the global shape of characters. We have evaluated our method on a dataset of 300 fonts with 6.5k characters each. Experimental results verify that our method outperforms existing state-of-the-art few-shot font generation methods by a large margin. The source code can be found at https://github.com/wangchi95/CF-Font.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-15
# 命令追従LDMを用いたゼロショットテキスト分類のためのジェネレーション駆動コントラスト自己学習

Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM ( http://arxiv.org/abs/2304.11872v2 )

ライセンス: Link先を確認
Ruohong Zhang, Yau-Shian Wang, Yiming Yang, (参考訳) ゼロショット言語理解における大規模言語モデル(LLM)の顕著な性能は、大きな注目を集めている。 しかし、大規模推論やドメイン固有の微調整にLLMを用いるには、相当なモデルサイズのため、膨大な計算資源が必要である。 これらの制約を克服するため,より小型で適応性の高い言語モデルの学習を支援するために,LLMの強力な生成力を活用したGenCoという新しい手法を導入する。 本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。 まず、LLMは各入力インスタンスを様々な継続性で拡張し、その意味的コンテキストを充実させて理解を深める。 第二に、予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。 これにより、生成されたテキストが予測されたラベルに強く関連し、擬似ラベル付け中の予測エラーを軽減すると同時に、大量の未ラベルテキストへの依存を減らすことができる。 我々の実験では、GenCoはドメイン内のテキストデータが利用可能な制限された(<5\%$)だけの場合、最先端のメソッドよりも優れています。 特に,本手法はAlpaca-7Bの性能を人間のプロンプトで上回り,自己学習にLLMを活用する可能性を強調した。

The remarkable performance of large language models (LLMs) in zero-shot language understanding has garnered significant attention. However, employing LLMs for large-scale inference or domain-specific fine-tuning requires immense computational resources due to their substantial model size. To overcome these limitations, we introduce a novel method, namely GenCo, which leverages the strong generative power of LLMs to assist in training a smaller and more adaptable language model. In our method, an LLM plays an important role in the self-training loop of a smaller model in two important ways. Firstly, the LLM is used to augment each input instance with a variety of possible continuations, enriching its semantic context for better understanding. Secondly, it helps crafting additional high-quality training pairs, by rewriting input texts conditioned on predicted labels. This ensures the generated texts are highly relevant to the predicted labels, alleviating the prediction error during pseudo-labeling, while reducing the dependency on large volumes of unlabeled text. In our experiments, GenCo outperforms previous state-of-the-art methods when only limited ($<5\%$ of original) in-domain text data is available. Notably, our approach surpasses the performance of Alpaca-7B with human prompts, highlighting the potential of leveraging LLM for self-training.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-15
# 翻訳指導による多言語ファインタニングによる大言語モデルの翻訳能力の軽減

Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions ( http://arxiv.org/abs/2305.15083v4 )

ライセンス: Link先を確認
Jiahuan Li, Hao Zhou, Shujian Huang, Shanbo Cheng, Jiajun Chen, (参考訳) ChatGPTやGPT4のような大規模事前学習言語モデル(LLM)は、並列コーパスで明示的に訓練されることなく、多言語翻訳において強力な能力を示している。 LLMが様々な言語に対して翻訳命令を実行する能力を得る様子は興味深い。 本稿では,多言語事前学習型言語モデルであるXGLM-7Bを微調整して,与えられた指示に従って多言語翻訳を行う方法を提案する。 まず,多言語LLMは従来よりも翻訳能力が高いことを示す。 特定の言語の場合、パフォーマンスは英語と類似度と事前学習フェーズで使用されるデータの量に依存する。 第二に、LLMが翻訳命令を実行する能力は、翻訳命令の理解と異なる言語間のアライメントに依存している。 多言語ファインタニングにより、LLMは、命令チューニングフェーズ中に見つからない言語ペアであっても、翻訳タスクをうまく実行することができる。

Large-scale Pretrained Language Models (LLMs), such as ChatGPT and GPT4, have shown strong abilities in multilingual translations, without being explicitly trained on parallel corpora. It is interesting how the LLMs obtain their ability to carry out translation instructions for different languages. In this paper, we present a detailed analysis by finetuning a multilingual pretrained language model, XGLM-7B, to perform multilingual translation following given instructions. Firstly, we show that multilingual LLMs have stronger translation abilities than previously demonstrated. For a certain language, the performance depends on its similarity to English and the amount of data used in the pretraining phase. Secondly, we find that LLMs' ability to carry out translation instructions relies on the understanding of translation instructions and the alignment among different languages. With multilingual finetuning, LLMs could learn to perform the translation task well even for those language pairs unseen during the instruction tuning phase.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-15
# Z-GMOT:ゼロショットジェネリック多目的追跡

Z-GMOT: Zero-shot Generic Multiple Object Tracking ( http://arxiv.org/abs/2305.17648v3 )

ライセンス: Link先を確認
Kim Hoang Tran, Anh Duy Le Dinh, Tien Phat Nguyen, Thinh Phan, Pha Nguyen, Khoa Luu, Donald Adjeroh, Gianfranco Doretto, Ngan Hoang Le, (参考訳) 最近の顕著な進歩にもかかわらず、MOT(Multi-Object Tracking)は、事前知識や事前定義されたカテゴリへの依存や、目に見えないオブジェクトとの競合といった制限に直面している。 これらの問題に対処するため、GMOT(Generic Multiple Object Tracking)が代替のアプローチとして登場し、事前情報が少なくなった。 しかし、現在のGMOT法は、しばしば初期境界ボックスに依存し、視点、照明、閉塞、スケールなど様々な要因を扱うのに苦労する。 私たちのコントリビューションは、ビデオの集合である‘textit{Referring GMOT dataset}の導入から始まり、それぞれの属性の詳細なテキスト記述が伴います。 次に、初期境界ボックスや事前定義されたカテゴリを必要とせずに、 \textit{never-seen category} からオブジェクトを追跡することができる最先端追跡ソリューションである $\mathtt{Z-GMOT}$ を提案する。 私たちは$\mathtt{Z-GMOT}$フレームワークの中で、2つの新しいコンポーネントを紹介します。 (i) $\matht{iGLIP}$は、特定の特徴を持つ未確認オブジェクトを正確に検出する、改良されたグラウンドド言語イメージ事前トレーニングである。 (ii) $\mathtt{MA-SORT}$は、動きと外見に基づくマッチング戦略を包括的に統合して、オブジェクトを高い類似性で追跡する複雑なタスクに取り組む、新しいオブジェクトアソシエーションアプローチである。 我々のコントリビューションは、GMOTタスクのためのReferring GMOTデータセットで実施された広範な実験を通じてベンチマークされる。 さらに、提案した$\mathtt{Z-GMOT}$の一般化性を評価するために、MOTタスクのためのDanceTrackおよびMOT20データセットのアブレーション研究を行う。 私たちのデータセット、コード、モデルは、https://fsoft-aic.github.io/Z-GMOT.com/でリリースされます。

Despite recent significant progress, Multi-Object Tracking (MOT) faces limitations such as reliance on prior knowledge and predefined categories and struggles with unseen objects. To address these issues, Generic Multiple Object Tracking (GMOT) has emerged as an alternative approach, requiring less prior information. However, current GMOT methods often rely on initial bounding boxes and struggle to handle variations in factors such as viewpoint, lighting, occlusion, and scale, among others. Our contributions commence with the introduction of the \textit{Referring GMOT dataset} a collection of videos, each accompanied by detailed textual descriptions of their attributes. Subsequently, we propose $\mathtt{Z-GMOT}$, a cutting-edge tracking solution capable of tracking objects from \textit{never-seen categories} without the need of initial bounding boxes or predefined categories. Within our $\mathtt{Z-GMOT}$ framework, we introduce two novel components: (i) $\mathtt{iGLIP}$, an improved Grounded language-image pretraining, for accurately detecting unseen objects with specific characteristics. (ii) $\mathtt{MA-SORT}$, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking objects with high similarity. Our contributions are benchmarked through extensive experiments conducted on the Referring GMOT dataset for GMOT task. Additionally, to assess the generalizability of the proposed $\mathtt{Z-GMOT}$, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models are released at: https://fsoft-aic.github.io/Z-GMOT.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-15
# フェデレート平均化における未知参加統計処理の軽量化

A Lightweight Method for Tackling Unknown Participation Statistics in Federated Averaging ( http://arxiv.org/abs/2306.03401v3 )

ライセンス: Link先を確認
Shiqiang Wang, Mingyue Ji, (参考訳) フェデレートラーニング(FL)では、クライアントは通常、事前知識が不明な多様な参加統計を持ち、適切に扱わなければFLのパフォーマンスを著しく損なう可能性がある。 この問題に対処する既存の作業は通常、クライアントの総数に匹敵する乗算係数において、かなりの量の追加メモリを必要とする大域的分散削減に基づいている。 重要なオープンな問題は、未知の参加率を持つクライアントの存在下で、FLの軽量な方法を見つけることである。 本稿では、各クライアントの参加履歴に基づいて、フェデレーション平均化(FedAvg)における集約重みを適応させることにより、この問題に対処する。 まず、不均一な参加統計により、非最適集約重み付きFedAvgは、元のFL目標値の最適解から分岐し、最適集約重みを求める必要性を示す。 しかし,参加統計が不明な場合,最適重量を計算することは困難である。 この問題を解決するために、FedAUと呼ばれる新しいアルゴリズムを提案する。これは、クライアント参加の統計を知らずに最適な重みのオンライン推定に基づいてクライアント更新を適応的に重み付けすることで、FedAvgを改善する。 推定誤差と収束率を結合する新しい手法を用いてFedAUの理論的収束解析を行う。 理論的な結果は,FedAUが元の目的の最適解に収束し,線形スピードアップのような望ましい性質を持つことを示す一方で,重要かつ興味深い知見を提示する。 また, 各種参加パターンを用いたベースライン法よりもFedAUの利点を検証した。

In federated learning (FL), clients usually have diverse participation statistics that are unknown a priori, which can significantly harm the performance of FL if not handled properly. Existing works aiming at addressing this problem are usually based on global variance reduction, which requires a substantial amount of additional memory in a multiplicative factor equal to the total number of clients. An important open problem is to find a lightweight method for FL in the presence of clients with unknown participation rates. In this paper, we address this problem by adapting the aggregation weights in federated averaging (FedAvg) based on the participation history of each client. We first show that, with heterogeneous participation statistics, FedAvg with non-optimal aggregation weights can diverge from the optimal solution of the original FL objective, indicating the need of finding optimal aggregation weights. However, it is difficult to compute the optimal weights when the participation statistics are unknown. To address this problem, we present a new algorithm called FedAU, which improves FedAvg by adaptively weighting the client updates based on online estimates of the optimal weights without knowing the statistics of client participation. We provide a theoretical convergence analysis of FedAU using a novel methodology to connect the estimation error and convergence. Our theoretical results reveal important and interesting insights, while showing that FedAU converges to an optimal solution of the original objective and has desirable properties such as linear speedup. Our experimental results also verify the advantage of FedAU over baseline methods with various participation patterns.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# グラフ変換器によるネットワークロバストネス学習

A Graph Transformer-Driven Approach for Network Robustness Learning ( http://arxiv.org/abs/2306.06913v2 )

ライセンス: Link先を確認
Yu Zhang, Jia Li, Jie Ding, Xiang Li, (参考訳) ネットワークの堅牢性(制御可能性の堅牢性と接続性の堅牢性を含む)の学習と分析は、様々なネットワークシステムの攻撃に対して重要である。 伝統的に、ネットワークの堅牢性は攻撃シミュレーションによって決定される。 ネットワークロバストネス学習(Network Robustness Learning)は、ネットワークロバストネスを高精度で高速に学習することに特化したもので、シミュレーションを置き換えることでネットワークロバストネスを分析する強力なツールを提供する。 本稿では, グラフ変換器(NRL-GT)による多目的かつ統一的なロバストネス学習手法を提案し, 頑健性曲線学習, 総合ロバストネス学習, 合成ネットワーク分類を含む複数の側面から, 可制御性ロバストネス学習と持続性ロバストネス学習を実現する。 多くの実験がそれを示しています。 1)NRL-GTは、制御性堅牢性と接続性堅牢性のための統一的な学習フレームワークであり、トレーニングとテストセットが異なる場合に高い精度を確保するための強力な一般化能力を示す。 2) 最先端手法と比較して,NRL-GTは複数の面からネットワークロバストネス学習を同時に行うことができ,より少ない時間で優れた結果が得られる。 NRL-GTは、学習誤差が低く、高い効率で異なる大きさの複雑なネットワークを扱うことができる。 3)NRL-GTのバックボーンは、異なるサイズと異なる下流タスクの複雑なネットワークのための転送可能な機能学習モジュールとして機能する。

Learning and analysis of network robustness, including controllability robustness and connectivity robustness, is critical for various networked systems against attacks. Traditionally, network robustness is determined by attack simulations, which is very time-consuming and even incapable for large-scale networks. Network Robustness Learning, which is dedicated to learning network robustness with high precision and high speed, provides a powerful tool to analyze network robustness by replacing simulations. In this paper, a novel versatile and unified robustness learning approach via graph transformer (NRL-GT) is proposed, which accomplishes the task of controllability robustness learning and connectivity robustness learning from multiple aspects including robustness curve learning, overall robustness learning, and synthetic network classification. Numerous experiments show that: 1) NRL-GT is a unified learning framework for controllability robustness and connectivity robustness, demonstrating a strong generalization ability to ensure high precision when training and test sets are distributed differently; 2) Compared to the cutting-edge methods, NRL-GT can simultaneously perform network robustness learning from multiple aspects and obtains superior results in less time. NRL-GT is also able to deal with complex networks of different size with low learning error and high efficiency; 3) It is worth mentioning that the backbone of NRL-GT can serve as a transferable feature learning module for complex networks of different size and different downstream tasks.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# CrossKD:オブジェクト検出のためのクロスヘッド知識蒸留

CrossKD: Cross-Head Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2306.11369v2 )

ライセンス: Link先を確認
Jiabao Wang, Yuming Chen, Zhaohui Zheng, Xiang Li, Ming-Ming Cheng, Qibin Hou, (参考訳) 知識蒸留(KD)は,コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。 既存のオブジェクト検出のための最先端KDメソッドは、主に機能模倣に基づいている。 そこで本研究では,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる蒸留スキームを模倣した汎用的で効果的な予測手法を提案する。 結果として得られたクロスヘッド予測は、教師の予測を模倣するように強制される。 これにより、アノテーションや教師の予測から、生徒の頭が矛盾する監視信号を受け取るのを緩和し、生徒の検知性能を大幅に改善する。 さらに、教師の予測を模倣することがKDの目標であるため、CrossKDは機能模倣とは対照的にタスク指向の情報を提供する。 MS COCOでは、損失の予測のみを適用した場合、CrossKDはGFL ResNet-50の平均精度を40.2から43.7に向上させ、既存のKD法を上回ります。 さらに, この手法は, 不均一な背骨を持つ検出器を蒸留する際にも有効である。 コードはhttps://github.com/jbwang1997/CrossKDで入手できる。

Knowledge Distillation (KD) has been validated as an effective model compression technique for learning compact object detectors. Existing state-of-the-art KD methods for object detection are mostly based on feature imitation. In this paper, we present a general and effective prediction mimicking distillation scheme, called CrossKD, which delivers the intermediate features of the student's detection head to the teacher's detection head. The resulting cross-head predictions are then forced to mimic the teacher's predictions. This manner relieves the student's head from receiving contradictory supervision signals from the annotations and the teacher's predictions, greatly improving the student's detection performance. Moreover, as mimicking the teacher's predictions is the target of KD, CrossKD offers more task-oriented information in contrast with feature imitation. On MS COCO, with only prediction mimicking losses applied, our CrossKD boosts the average precision of GFL ResNet-50 with 1x training schedule from 40.2 to 43.7, outperforming all existing KD methods. In addition, our method also works well when distilling detectors with heterogeneous backbones. Code is available at https://github.com/jbwang1997/CrossKD.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# ソレノイドによる渦電子の透過

Transmission of vortex electrons through a solenoid ( http://arxiv.org/abs/2306.13161v2 )

ライセンス: Link先を確認
G. K. Sizykh, A. D. Chaikovskaia, D. V. Grosman, I. I. Pavlov, D. V. Karlovets, (参考訳) ランダウ状態よりも一般に非定常ラゲール・ガウス状態(NSLG)であり、ソレノイドと真空のハードエッジ境界と磁場内部の両方で軌道角運動量を持つ電子を適切に記述している。 NSLG状態のr.m.s.半径は時間的に振動し、その周期平均値がランダウ状態のr.m.s.半径をはるかに上回ることが示されている。 本稿では、NSLG状態によって記述された渦電子を用いた実験シナリオにおいて、ソレノイド内部の量子力学の非従来的特徴について検討する。 走査電子顕微鏡と透過電子顕微鏡のプロセスと相対論的ビームを持つ粒子加速器の関係が強調されている。

We argue that it is generally nonstationary Laguerre-Gaussian states (NSLG) rather than the Landau ones that appropriately describe electrons with orbital angular momentum both in their dynamics at a hard-edge boundary between a solenoid and vacuum and inside the magnetic field. It is shown that the r.m.s. radius of the NSLG state oscillates in time and its period-averaged value can significantly exceed the r.m.s. radius of the Landau state, even far from the boundary. We propose to study the unconventional features of quantum dynamics inside a solenoid in several experimental scenarios with vortex electrons described by the NSLG states. Relevance for processes in scanning and transmission electron microscopes, as well as for particle accelerators with relativistic beams is emphasized.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# 大規模言語モデル(LLM)時代のレコメンダシステム

Recommender Systems in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2307.02046v3 )

ライセンス: Link先を確認
Wenqi Fan, Zihuai Zhao, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Zhen Wen, Fei Wang, Xiangyu Zhao, Jiliang Tang, Qing Li, (参考訳) eコマースとWebアプリケーションの繁栄により、Recommender Systems(RecSys)は私たちの日常生活の重要なコンポーネントとなり、ユーザの好みに合わせてパーソナライズされた提案を提供しています。 ディープニューラルネットワーク(DNN)は、ユーザとイテムのインタラクションをモデル化し、テキスト側情報を取り入れることでレコメンダシステムの強化に大きく進歩しているが、DNNベースの手法は、ユーザの関心の理解の困難さやテキスト側情報の取得、さまざまなレコメンデーションシナリオの一般化の障害、予測の推論など、制限に直面している。 一方、ChatGPTやGPT4といった大規模言語モデル(LLM)の出現は、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 その結果、最近の研究はレコメンダシステムを強化するためにLLMのパワーを活用しようと試みている。 推薦システムにおけるこの研究方向の急速な進化を考えると、既存のLLMを利用した推薦システムを要約した体系的な概要が必要である。 そこで本稿では, プレトレーニング, ファインチューニング, プロンプティングなど, LLMを活用したレコメンデータシステムの総合的なレビューを行う。 具体的には、まず、ユーザやアイテムの表現を学習するためのLLM(機能エンコーダ)のパワーを利用する代表的手法を紹介する。 次に,3つのパラダイム,すなわち事前学習,微調整,プロンプトからレコメンデーションシステムを強化するためのLLMの最近の技術について概説する。 最後に、この新興分野における今後の方向性を包括的に論じる。

With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# 適応埋め込みと組込みによる画像デノーミングの拡散モデル

Stimulating the Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling ( http://arxiv.org/abs/2307.03992v4 )

ライセンス: Link先を確認
Tong Li, Hansen Feng, Lizhi Wang, Zhiwei Xiong, Hua Huang, (参考訳) 画像のデノイングは、低歪みで高い知覚を達成できることが要求される、計算写真の基本的な問題である。 現在の方法は知覚品質に苦しむか、大きな歪みに苦しむかのいずれかである。 近年,新たな拡散モデルが様々なタスクにおいて最先端のパフォーマンスを達成し,画像のデノナイズに大きな可能性を示している。 しかし、画像復調のための拡散モデルの刺激は簡単ではなく、いくつかの重要な問題を解く必要がある。 ひとつは、入力の不整合は拡散モデルと画像のデノーミングの接続を妨げます。 また、生成した画像と所望の復号化画像とのコンテンツ不整合は歪みをもたらす。 これらの課題に対処するために,拡散モデルを理解し再考することで,DMID(Diffusion Model for Image Denoising)と呼ばれる新しい戦略を提案する。 我々のDMID戦略は、雑音像を事前訓練された非条件拡散モデルに埋め込む適応埋め込み法と、復調画像の歪みを低減する適応アンサンブル法とを含む。 我々のDMID戦略は、ガウス像と現実像の両方において、歪みベースと知覚ベースの両方で最先端のパフォーマンスを達成し、コードはhttps://github.com/Li-Tong-621/DMIDで利用可能である。

Image denoising is a fundamental problem in computational photography, where achieving high perception with low distortion is highly demanding. Current methods either struggle with perceptual quality or suffer from significant distortion. Recently, the emerging diffusion model has achieved state-of-the-art performance in various tasks and demonstrates great potential for image denoising. However, stimulating diffusion models for image denoising is not straightforward and requires solving several critical problems. For one thing, the input inconsistency hinders the connection between diffusion models and image denoising. For another, the content inconsistency between the generated image and the desired denoised image introduces distortion. To tackle these problems, we present a novel strategy called the Diffusion Model for Image Denoising (DMID) by understanding and rethinking the diffusion model from a denoising perspective. Our DMID strategy includes an adaptive embedding method that embeds the noisy image into a pre-trained unconditional diffusion model and an adaptive ensembling method that reduces distortion in the denoised image. Our DMID strategy achieves state-of-the-art performance on both distortion-based and perception-based metrics, for both Gaussian and real-world image denoising.The code is available at https://github.com/Li-Tong-621/DMID.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# オープンボキャブラリ検出とセグメンテーションに関する調査:過去・現在・未来

A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future ( http://arxiv.org/abs/2307.09220v2 )

ライセンス: Link先を確認
Chaoyang Zhu, Long Chen, (参考訳) 最も基本的なシーン理解タスクとして、オブジェクト検出とセグメンテーションは、ディープラーニング時代において大きな進歩を遂げた。 高価な手動ラベリングコストのため、既存のデータセットの注釈付きカテゴリは、しばしば小規模で事前定義された、すなわち最先端の完全教師付き検出器とセグメンタは、閉じた語彙を超えて一般化することができない。 この制限を解決するため、ここ数年、コミュニティはOpen-Vocabulary Detection (OVD)とSegmentation (OVS)に注目が集まっている。 Open-vocabulary' によって、モデルが事前に定義されたカテゴリを超えてオブジェクトを分類できることを意味する。 本稿では,OVD と OVS の最近の進展を概観する。 分類学は、まず様々なタスクと方法論を整理するために開発された。 弱い監視信号の許可と使用は、視覚意味空間マッピング、新しい視覚特徴合成、地域認識トレーニング、擬似ラベル付け、知識の蒸留、伝達学習など、様々な手法を適切に識別することができる。 提案した分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティクスのセグメンテーション、3Dおよびビデオ理解など、さまざまなタスクにわたって普遍的である。 主な設計原則、重要な課題、開発ルート、方法論の強み、弱点を徹底的に分析します。 さらに,各メソッドの重要コンポーネントとともに各タスクをベンチマークし,https://github.com/seanzhuh/awesome-open-vocabulary-and-segmentationでオンラインに更新する。 最後に、将来の研究を刺激するために、いくつかの有望な方向性が提供され、議論される。

As the most fundamental scene understanding tasks, object detection and segmentation have made tremendous progress in deep learning era. Due to the expensive manual labeling cost, the annotated categories in existing datasets are often small-scale and pre-defined, i.e., state-of-the-art fully-supervised detectors and segmentors fail to generalize beyond the closed vocabulary. To resolve this limitation, in the last few years, the community has witnessed an increasing attention toward Open-Vocabulary Detection (OVD) and Segmentation (OVS). By ``open-vocabulary'', we mean that the models can classify objects beyond pre-defined categories. In this survey, we provide a comprehensive review on recent developments of OVD and OVS. A taxonomy is first developed to organize different tasks and methodologies. We find that the permission and usage of weak supervision signals can well discriminate different methodologies, including: visual-semantic space mapping, novel visual feature synthesis, region-aware training, pseudo-labeling, knowledge distillation, and transfer learning. The proposed taxonomy is universal across different tasks, covering object detection, semantic/instance/panoptic segmentation, 3D and video understanding. The main design principles, key challenges, development routes, methodology strengths, and weaknesses are thoroughly analyzed. In addition, we benchmark each task along with the vital components of each method in appendix and updated online at https://github.com/seanzhuh/awesome-open-vocabulary-detection-and-segmentation. Finally, several promising directions are provided and discussed to stimulate future research.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-15
# ガウス過程を用いたスムーズな反復映像における低データ・信頼度画像予測の検討

Investigating Low Data, Confidence Aware Image Prediction on Smooth Repetitive Videos using Gaussian Processes ( http://arxiv.org/abs/2307.11259v2 )

ライセンス: Link先を確認
Nikhil U. Shinde, Xiao Liang, Florian Richter, Michael C. Yip, (参考訳) 将来の状態を予測できる能力は、動的環境と相互作用しながら情報的な意思決定に不可欠である。 カメラが広範かつ情報に富んだ知覚モダリティを提供することで、画像シーケンスから将来の状態を予測できるという問題が注目されている。 現在の最先端の手法は通常、予測のために大きなパラメトリックモデルを訓練する。 精度で予測できることが多いが、これらのモデルでは、予測に関する解釈可能な信頼度が得られないことが多い。 さらにこれらの手法は、有用なソリューションに収束するための大規模なトレーニングデータセットの可用性に依存している。 本稿では、非常に少ないトレーニングデータから解釈可能な信頼境界を持つ画像列の将来の画像を予測する問題に焦点をあてる。 この問題に対処するために、非パラメトリックモデルを用いて、画像予測に確率的アプローチをとる。 逐次予測画像上で確率分布を生成し、時間を通して不確実性を伝播し、予測に対する信頼度を生成する。 Gaussian Processsは、新しいトレーニングデータをオンラインで簡単に組み込むことのできるデータ効率と能力のために使用される。 本手法は, 滑らかな流体シミュレーション環境において評価される。 衛星画像から歩行者の流れや気象パターンを予測することで,実世界のデータに対するアプローチの能力を実証する。

The ability to predict future states is crucial to informed decision-making while interacting with dynamic environments. With cameras providing a prevalent and information-rich sensing modality, the problem of predicting future states from image sequences has garnered a lot of attention. Current state-of-the-art methods typically train large parametric models for their predictions. Though often able to predict with accuracy these models often fail to provide interpretable confidence metrics around their predictions. Additionally these methods are reliant on the availability of large training datasets to converge to useful solutions. In this paper, we focus on the problem of predicting future images of an image sequence with interpretable confidence bounds from very little training data. To approach this problem, we use non-parametric models to take a probabilistic approach to image prediction. We generate probability distributions over sequentially predicted images, and propagate uncertainty through time to generate a confidence metric for our predictions. Gaussian Processes are used for their data efficiency and ability to readily incorporate new training data online. Our methods predictions are evaluated on a smooth fluid simulation environment. We showcase the capabilities of our approach on real world data by predicting pedestrian flows and weather patterns from satellite imagery.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-15
# モデルラベル変動の探索

Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation ( http://arxiv.org/abs/2307.12973v2 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Debora Nozza, Dirk Hovy, (参考訳) 大規模言語モデル(LLM)は、ゼロショット学習(ZSLとFSL)のシナリオに優れ、優れたテキスト分類能力を示す。 しかし、それらは異なるデータセットで訓練されているため、それらのモデル間のタスク間でパフォーマンスは幅広い。 近年の研究では,データアノテーションにおけるラベルの変動を考慮したことの重要性が強調されている。 しかし、この人間のラベルの変化がLLMにもどのように適用されるかは未解明のままである。 集約LDMラベルは個々のモデル(人間のアノテータなど)よりも改善されますか? 我々は,4言語にまたがる5つの主観的タスクに対して,最近の4つの命令調整LDMをアノテータとして評価した。 ZSL と FSL のセットアップと人間のアノテーションからのラベルアグリゲーションを使用します。 集約は個々のモデルよりもはるかに優れており、多様なタスクや言語の専門化の恩恵を受けている。 意外なことに、選択された例の品質に依存するため、FSLはZSLを超えない。 しかし、それらを選択するための優れた情報理論戦略はないようだ。 LLM法は単純な教師付きモデルでさえも競合しないことがわかった。 また、LLMと人間のアノテーションの正確性、コスト、道徳的・倫理的考察のトレードオフについても論じる。

Large Language Models (LLMs) exhibit remarkable text classification capabilities, excelling in zero- and few-shot learning (ZSL and FSL) scenarios. However, since they are trained on different datasets, performance varies widely across tasks between those models. Recent studies emphasize the importance of considering human label variation in data annotation. However, how this human label variation also applies to LLMs remains unexplored. Given this likely model specialization, we ask: Do aggregate LLM labels improve over individual models (as for human annotators)? We evaluate four recent instruction-tuned LLMs as annotators on five subjective tasks across four languages. We use ZSL and FSL setups and label aggregation from human annotation. Aggregations are indeed substantially better than any individual model, benefiting from specialization in diverse tasks or languages. Surprisingly, FSL does not surpass ZSL, as it depends on the quality of the selected examples. However, there seems to be no good information-theoretical strategy to select those. We find that no LLM method rivals even simple supervised models. We also discuss the tradeoffs in accuracy, cost, and moral/ethical considerations between LLM and human annotation.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-15
# LadleNet: セマンティックセグメンテーションでガイドされた赤外線画像から可視画像への変換のための2段階UNet

LadleNet: A Two-Stage UNet for Infrared Image to Visible Image Translation Guided by Semantic Segmentation ( http://arxiv.org/abs/2308.06603v3 )

ライセンス: Link先を確認
Tonghui Zou, Lei Chen, (参考訳) 熱赤外(TIR)画像の可視光(VI)画像への変換は、特にTIR画像とVI画像の登録や融合など様々な分野において、モデル性能と一般化能力の向上に重要な役割を果たしている。 しかし、この分野での現在の研究は、翻訳後の画像品質が不十分なことや、既存のモデルが目に見えないシナリオに適応することの難しさに直面する。 より一般化可能な画像翻訳アーキテクチャを開発するために,既存の翻訳アーキテクチャの解析を行った。 既存の翻訳アーキテクチャにおける中間モダリティの解釈可能性を探ることにより,ストリートシーン画像の中間モダリティが本質的にセマンティックセグメンテーションを行い,背景パターンと前景パターンに基づいてストリートイメージを識別し,色情報を割り当てる。 これらの原理に基づいて,LadleNetと呼ばれるU-netに基づく改良アルゴリズムを提案する。 このネットワークは、ハンドルとボウルのモジュールからなる2段階のU-net結合構造を利用している。 Handleモジュールは抽象的なセマンティック空間の構築に責任を持ち、Cowモジュールはセマンティック空間をデコードしてマッピングされたVI画像を取得する。 セマンティックセグメンテーションの特徴から、Handleモジュールは拡張性が高い。 そこで本研究では,LadleNetのHandleモジュールをトレーニング済みのDeepLabv3+ネットワークに置き換えたLadleNet+を提案する。 提案手法は, KAISTデータセットを用いて, 定量的, 定性的な分析を行った。 従来の方法と比較して、LadleNetとLadleNet+は平均12.4%、SSIMは15.2%、MS-SSIMは37.9%、MS-SSIMは50.6%だった。

The translation of thermal infrared (TIR) images into visible light (VI) images plays a critical role in enhancing model performance and generalization capability, particularly in various fields such as registration and fusion of TIR and VI images. However, current research in this field faces challenges of insufficiently realistic image quality after translation and the difficulty of existing models in adapting to unseen scenarios. In order to develop a more generalizable image translation architecture, we conducted an analysis of existing translation architectures. By exploring the interpretability of intermediate modalities in existing translation architectures, we found that the intermediate modality in the image translation process for street scene images essentially performs semantic segmentation, distinguishing street images based on background and foreground patterns before assigning color information. Based on these principles, we propose an improved algorithm based on U-net called LadleNet. This network utilizes a two-stage U-net concatenation structure, consisting of Handle and Bowl modules. The Handle module is responsible for constructing an abstract semantic space, while the Bowl module decodes the semantic space to obtain the mapped VI image. Due to the characteristic of semantic segmentation, the Handle module has strong extensibility. Therefore, we also propose LadleNet+, which replaces the Handle module in LadleNet with a pre-trained DeepLabv3+ network, enabling the model to have a more powerful capability in constructing semantic space. The proposed methods were trained and tested on the KAIST dataset, followed by quantitative and qualitative analysis. Compared to existing methods, LadleNet and LadleNet+ achieved an average improvement of 12.4% and 15.2% in SSIM metrics, and 37.9% and 50.6% in MS-SSIM metrics, respectively.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-15
# DiagGPT:フレキシブルタスク指向対話のための自動トピック管理によるLLMベース・マルチエージェント対話システム

DiagGPT: An LLM-based and Multi-agent Dialogue System with Automatic Topic Management for Flexible Task-Oriented Dialogue ( http://arxiv.org/abs/2308.08043v4 )

ライセンス: Link先を確認
Lang Cao, (参考訳) ChatGPTのようなLarge Language Models(LLM)の重要な応用は、チャットエージェントとしてデプロイされ、さまざまなドメインにわたる人間の問い合わせに応答する。 現在のLSMは一般的な質問に答えるが、法律、医学、その他の専門的な相談のような複雑な診断シナリオでは不足することが多い。 これらのシナリオは一般的にタスク指向対話(TOD)を必要とし、AIチャットエージェントは積極的に質問を提起し、特定の目標やタスク完了に向けてユーザを誘導する必要がある。 従来の微調整モデルはTODでは不十分であり、現在のLLMにおける会話能力の可能性は、まだ十分に調査されていない。 本稿では,LLMをより多くのTODシナリオに拡張する革新的なアプローチであるDiagGPT(Dialogue in diagnosis GPT)を紹介する。 DiagGPTは、ユーザがタスクを完了させるだけでなく、対話開発全体を通して、すべてのトピックの状態を効果的に管理できる。 この機能により、ユーザエクスペリエンスが向上し、TODにおけるよりフレキシブルなインタラクションが提供される。 実験により,DiagGPTはユーザとTODを行う上で優れた性能を示し,様々な分野の実用化の可能性を示した。

A significant application of Large Language Models (LLMs), like ChatGPT, is their deployment as chat agents, which respond to human inquiries across a variety of domains. While current LLMs proficiently answer general questions, they often fall short in complex diagnostic scenarios such as legal, medical, or other specialized consultations. These scenarios typically require Task-Oriented Dialogue (TOD), where an AI chat agent must proactively pose questions and guide users toward specific goals or task completion. Previous fine-tuning models have underperformed in TOD and the full potential of conversational capability in current LLMs has not yet been fully explored. In this paper, we introduce DiagGPT (Dialogue in Diagnosis GPT), an innovative approach that extends LLMs to more TOD scenarios. In addition to guiding users to complete tasks, DiagGPT can effectively manage the status of all topics throughout the dialogue development. This feature enhances user experience and offers a more flexible interaction in TOD. Our experiments demonstrate that DiagGPT exhibits outstanding performance in conducting TOD with users, showing its potential for practical applications in various fields.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-15
# パラメトリックベイズモデルのシミュレーションに基づく事前知識抽出

Simulation-Based Prior Knowledge Elicitation for Parametric Bayesian Models ( http://arxiv.org/abs/2308.11672v2 )

ライセンス: Link先を確認
Florence Bockting, Stefan T. Radev, Paul-Christian Bürkner, (参考訳) ベイズ統計の重要な特徴は、先行知識を様々なモデリングプロセスに一貫して組み込む能力である。 本稿では,ドメインエキスパートの知識をモデルパラメータ上の対応する事前分布に翻訳することに焦点を当てる。 専門家の知識は、生データ、要約統計、モデルパラメータなど、さまざまなフォーマットで表現することができる。 既存の適用方法における大きな課題は、モデル構造に関係なく、専門家の期待に沿う事前分布を定式化するために、これらの異なるフォーマットを効果的に活用する方法である。 これらの課題に対処するために,確率勾配降下を用いた多種多様な専門知識から,任意のパラメトリック事前分布のハイパーパラメータを学習できるシミュレーションベースのエリケーション法を開発した。 線形モデル,一般化線形モデル,階層モデルを含む4つの代表的なケーススタディにおいて,提案手法の有効性とロバスト性を検証した。 本研究は,本手法が基礎となるモデル構造に大きく依存し,量子化法,モーメント法,ヒストグラム法など,様々な手法に適応可能であるという主張を裏付けるものである。

A central characteristic of Bayesian statistics is the ability to consistently incorporate prior knowledge into various modeling processes. In this paper, we focus on translating domain expert knowledge into corresponding prior distributions over model parameters, a process known as prior elicitation. Expert knowledge can manifest itself in diverse formats, including information about raw data, summary statistics, or model parameters. A major challenge for existing elicitation methods is how to effectively utilize all of these different formats in order to formulate prior distributions that align with the expert's expectations, regardless of the model structure. To address these challenges, we develop a simulation-based elicitation method that can learn the hyperparameters of potentially any parametric prior distribution from a wide spectrum of expert knowledge using stochastic gradient descent. We validate the effectiveness and robustness of our elicitation method in four representative case studies covering linear models, generalized linear models, and hierarchical models. Our results support the claim that our method is largely independent of the underlying model structure and adaptable to various elicitation techniques, including quantile-based, moment-based, and histogram-based methods.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-15
# オプティマイザとしての大規模言語モデル

Large Language Models as Optimizers ( http://arxiv.org/abs/2309.03409v3 )

ライセンス: Link先を確認
Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen, (参考訳) 最適化はユビキタスです。 微分ベースのアルゴリズムは様々な問題に対して強力なツールであるが、勾配の欠如は現実世界の多くのアプリケーションに課題を課している。 本研究では,大規模言語モデル (LLM) を最適化手法として活用するためのシンプルかつ効果的な手法であるPrompting by Prompting (OPRO) を提案する。 各最適化ステップにおいて、LCMは、前述した値を含むプロンプトから新しいソリューションを生成し、その後、新しいソリューションを評価し、次の最適化ステップのプロンプトに追加する。 まず、線形回帰問題と走行セールスマン問題についてOPROを紹介し、次に、タスクの精度を最大化する命令を見つけることを目的として、迅速な最適化を行うために、我々のメインアプリケーションに移動します。 OPROによって最適化された最良のプロンプトは、GSM8Kでは最大8%、Big-Bench Hardタスクでは最大50%性能が向上することを示した。 コードネームはhttps://github.com/google-deepmind/opro。

Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to our main application in prompt optimization, where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks. Code at https://github.com/google-deepmind/opro.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-15
# SyncDreamer: シングルビュー画像から複数ビュー一貫性の画像を生成する

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image ( http://arxiv.org/abs/2309.03453v2 )

ライセンス: Link先を確認
Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang, (参考訳) 本稿では,一視点画像から多視点一貫性画像を生成する新しい拡散モデルを提案する。 事前訓練された大規模2次元拡散モデルを用いて、Zero123は、オブジェクトの単一ビューイメージから可塑性な新規ビューを生成する能力を示す。 しかし、生成した画像の幾何学や色調の整合性を維持することは依然として課題である。 この問題に対処するために,マルチビュー画像の連立確率分布をモデル化し,単一の逆過程におけるマルチビュー一貫性画像の生成を可能にする,同期型マルチビュー拡散モデルを提案する。 SyncDreamerは、リバースプロセスの各ステップで生成されたすべての画像の中間状態を、3D対応の機能アテンションメカニズムを通じて同期し、異なるビューで対応する特徴を関連付ける。 実験により、SyncDreamerは様々な視点で高い一貫性を持つ画像を生成し、ノベル・ビュー・シンセシス、テキスト・トゥ・3D、イメージ・トゥ・3Dといった様々な3D生成タスクに適していることが示された。

In this paper, we present a novel diffusion model called that generates multiview-consistent images from a single-view image. Using pretrained large-scale 2D diffusion models, recent work Zero123 demonstrates the ability to generate plausible novel views from a single-view image of an object. However, maintaining consistency in geometry and colors for the generated images remains a challenge. To address this issue, we propose a synchronized multiview diffusion model that models the joint probability distribution of multiview images, enabling the generation of multiview-consistent images in a single reverse process. SyncDreamer synchronizes the intermediate states of all the generated images at every step of the reverse process through a 3D-aware feature attention mechanism that correlates the corresponding features across different views. Experiments show that SyncDreamer generates images with high consistency across different views, thus making it well-suited for various 3D generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-15
# LLMによる誤報検出は可能か?

Can LLM-Generated Misinformation Be Detected? ( http://arxiv.org/abs/2309.13788v4 )

ライセンス: Link先を確認
Canyu Chen, Kai Shu, (参考訳) LLM(Large Language Models)の出現は、変革的な影響をもたらした。 しかし、ChatGPTのようなLCMを悪用して誤報を発生させる可能性は、オンラインの安全と公衆の信頼に深刻な懸念を抱いている。 LLMが生成した誤報は、人間が書いた誤報よりも有害か? 本稿では,検出困難の観点からこの問題に取り組むことを提案する。 まず LLM 生成の誤情報を分類する。 次に,LLMを用いた誤情報生成の潜在的な現実的手法を分類し,検証する。 そして、広範囲にわたる実証調査により、LLMが生成する誤報は、人間や検出者にとって同じ意味を持つ人間が書いた誤報に比べて検出が難しいことが判明した。 また,LLM時代の誤報と対策について考察した。

The advent of Large Language Models (LLMs) has made a transformative impact. However, the potential that LLMs such as ChatGPT can be exploited to generate misinformation has posed a serious concern to online safety and public trust. A fundamental research question is: will LLM-generated misinformation cause more harm than human-written misinformation? We propose to tackle this question from the perspective of detection difficulty. We first build a taxonomy of LLM-generated misinformation. Then we categorize and validate the potential real-world methods for generating misinformation with LLMs. Then, through extensive empirical investigation, we discover that LLM-generated misinformation can be harder to detect for humans and detectors compared to human-written misinformation with the same semantics, which suggests it can have more deceptive styles and potentially cause more harm. We also discuss the implications of our discovery on combating misinformation in the age of LLMs and the countermeasures.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-15
# オンラインCMDPにおけるモデルフリー・レグレット最適政策同定

Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs ( http://arxiv.org/abs/2309.15395v5 )

ライセンス: Link先を確認
Zihan Zhou, Honghao Wei, Lei Ying, (参考訳) 本稿では,CMDP(Constrained Markov Decision Processs)におけるBPI問題について考察する。 私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。 オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムは、最適ポリシーへの収束保証を提供しておらず、以前に使用したすべてのポリシーからランダムにポリシーがサンプリングされた場合にのみ平均的なパフォーマンス保証を提供する。 本稿では,以前に証明されたCMDPの基本構造特性に基づいて,Pruning-Refinement-Identification (PRI) と呼ばれる新しいアルゴリズムを開発した。 このプロパティは、$N$制約を持つCMDPに対して、少なくとも$N$確率的決定を持つ最適なポリシーが存在する、と言っている。 提案アルゴリズムはまず、どのステップで、どの状態で確率的決定を下さなければならないかを識別し、次にこれらの確率的決定の分布を微調整する。 PRIは以下の3つの目標を達成する。 (i)PRIはモデルフリーのアルゴリズムであり、 (二 学習の終わりに高い確率でほぼ最適な政策を出力すること。) (iii) PRI は $\tilde{\mathcal{O}}(H\sqrt{K})$ regret and constraint violation を保証します。これは、モデルなしのアルゴリズムの下で、$H$ は各エピソードの長さ、$S$ は状態の数、$A$ はアクションの数、学習中のエピソードの総数は2K+\tilde{\mathcal O}(K^{0.25})です。 さらに、どんなオンライン学習アルゴリズムの下でも、後悔か違反かのどちらかが$\Omega(H\sqrt{K})でなければならないような、よく区切られたCMDPインスタンスが存在します。

This paper considers the best policy identification (BPI) problem in online Constrained Markov Decision Processes (CMDPs). We are interested in algorithms that are model-free, have low regret, and identify an approximately optimal policy with a high probability. Existing model-free algorithms for online CMDPs with sublinear regret and constraint violation do not provide any convergence guarantee to an optimal policy and provide only average performance guarantees when a policy is uniformly sampled at random from all previously used policies. In this paper, we develop a new algorithm, named Pruning-Refinement-Identification (PRI), based on a fundamental structural property of CMDPs proved before, which we call limited stochasticity. The property says for a CMDP with $N$ constraints, there exists an optimal policy with at most $N$ stochastic decisions. The proposed algorithm first identifies at which step and in which state a stochastic decision has to be taken and then fine-tunes the distributions of these stochastic decisions. PRI achieves trio objectives: (i) PRI is a model-free algorithm; and (ii) it outputs an approximately optimal policy with a high probability at the end of learning; and (iii) PRI guarantees $\tilde{\mathcal{O}}(H\sqrt{K})$ regret and constraint violation, which significantly improves the best existing regret bound $\tilde{\mathcal{O}}(H^4 \sqrt{SA}K^{\frac{4}{5}})$ under a model-free algorithm, where $H$ is the length of each episode, $S$ is the number of states, $A$ is the number of actions, and the total number of episodes during learning is $2K+\tilde{\cal O}(K^{0.25}).$ We further present a matching lower via an example that shows under any online learning algorithm, there exists a well-separated CMDP instance such that either the regret or violation has to be $\Omega(H\sqrt{K}),$ which matches the upper bound by a polylogarithmic factor.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-15
# グラフの表現的位置符号化の安定性について

On the Stability of Expressive Positional Encodings for Graphs ( http://arxiv.org/abs/2310.02579v2 )

ライセンス: Link先を確認
Yinan Huang, William Lu, Joshua Robinson, Yu Yang, Muhan Zhang, Stefanie Jegelka, Pan Li, (参考訳) グラフのための効果的な位置エンコーディングを設計することは、強力なグラフトランスフォーマーを構築し、メッセージパッシンググラフニューラルネットワークを強化する上で鍵となる。 広く使われているが、位置符号化としてラプラシアン固有ベクトルを使用するには、(1) \emph{Non-uniqueness}:同じラプラシアンの多くの異なる固有分解が存在し、(2) \emph{Instability}: ラプラシアンへの小さな摂動は、完全に異なる固有空間をもたらす可能性があり、位置符号化の予測不可能な変化をもたらす。 非特異性に対処しようとする多くの試みにもかかわらず、ほとんどの手法は安定性を見落とし、目に見えないグラフ構造への一般化が不十分になる。 不安定性の原因は固有空間の ` `hard partition'' である。 そこで本研究では,固有ベクトルを 'softly partition''' 固有空間に変換するアーキテクチャであるSPE(Stable and Expressive Positional Encodings)を導入する。 SPEは(1)確率的に安定であり、(2)固有ベクトルのすべての対称性を尊重しながら基底不変関数に対して普遍的に表現される最初のアーキテクチャである。 保証された安定性に加えて、SPEは既存の手法と同じくらい表現力があり、グラフ構造を数えることができることを証明している。 最後に,本手法が分子特性予測および分布外一般化タスクに与える影響を評価し,既存の位置符号化法と比較して一般化性の向上が認められた。 私たちのコードは \url{https://github.com/Graph-COM/SPE} で利用可能です。

Designing effective positional encodings for graphs is key to building powerful graph transformers and enhancing message-passing graph neural networks. Although widespread, using Laplacian eigenvectors as positional encodings faces two fundamental challenges: (1) \emph{Non-uniqueness}: there are many different eigendecompositions of the same Laplacian, and (2) \emph{Instability}: small perturbations to the Laplacian could result in completely different eigenspaces, leading to unpredictable changes in positional encoding. Despite many attempts to address non-uniqueness, most methods overlook stability, leading to poor generalization on unseen graph structures. We identify the cause of instability to be a ``hard partition'' of eigenspaces. Hence, we introduce Stable and Expressive Positional Encodings (SPE), an architecture for processing eigenvectors that uses eigenvalues to ``softly partition'' eigenspaces. SPE is the first architecture that is (1) provably stable, and (2) universally expressive for basis invariant functions whilst respecting all symmetries of eigenvectors. Besides guaranteed stability, we prove that SPE is at least as expressive as existing methods, and highly capable of counting graph structures. Finally, we evaluate the effectiveness of our method on molecular property prediction, and out-of-distribution generalization tasks, finding improved generalization compared to existing positional encoding methods. Our code is available at \url{https://github.com/Graph-COM/SPE}.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-15
# 基礎モデルを用いたワイヤレス世界におけるフェデレーションラーニングの役割

The Role of Federated Learning in a Wireless World with Foundation Models ( http://arxiv.org/abs/2310.04003v2 )

ライセンス: Link先を確認
Zihan Chen, Howard H. Yang, Y. C. Tay, Kai Fong Ernest Chong, Tony Q. S. Quek, (参考訳) ファンデーションモデル(FM)は汎用人工知能(AI)モデルである。 FMの急速な進歩は、フェデレーション学習(FL)が分散ネットワークインテリジェンスの鍵となる次世代無線ネットワークのビジョンの重要な背景となっている。 現在、FMとFLの相互作用の探索はまだ初期段階にある。 当然、FMはFLの性能を高めることができ、FLはFMの訓練を支援するために分散化されたデータや計算資源を利用することもできる。 しかし、FMが計算資源、ストレージ、通信のオーバーヘッドに対して持つ極めて高い要求は、FL対応無線ネットワークにとって重要な課題となる。 本稿では、FMが無線ネットワークよりもFLに適した範囲について検討し、その研究課題と機会を概観する。 特に、FMとFLを統合した未来のインテリジェントネットワークを実現するための複数の新しいパラダイムについて論じる。 また、これらのパラダイムに関連する幅広い研究の方向性を整理する。

Foundation models (FMs) are general-purpose artificial intelligence (AI) models that have recently enabled multiple brand-new generative AI applications. The rapid advances in FMs serve as an important contextual backdrop for the vision of next-generation wireless networks, where federated learning (FL) is a key enabler of distributed network intelligence. Currently, the exploration of the interplay between FMs and FL is still in its nascent stage. Naturally, FMs are capable of boosting the performance of FL, and FL could also leverage decentralized data and computing resources to assist in the training of FMs. However, the exceptionally high requirements that FMs have for computing resources, storage, and communication overhead would pose critical challenges to FL-enabled wireless networks. In this article, we explore the extent to which FMs are suitable for FL over wireless networks, including a broad overview of research challenges and opportunities. In particular, we discuss multiple new paradigms for realizing future intelligent networks that integrate FMs and FL. We also consolidate several broad research directions associated with these paradigms.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-15
# 球高調波と正弦波表現ネットワークを用いた位置情報符号化

Geographic Location Encoding with Spherical Harmonics and Sinusoidal Representation Networks ( http://arxiv.org/abs/2310.06743v2 )

ライセンス: Link先を確認
Marc Rußwurm, Konstantin Klemmer, Esther Rolf, Robin Zbinden, Devis Tuia, (参考訳) 地理的空間の学習表現は、リモートセンシング、生態学、疫学といったアプリケーション領域にまたがる、位置情報データを統合する機械学習モデルにとって不可欠である。 最近の研究は、Double Fourier Sphere (DFS) の特徴に基づく正弦波と正弦波の投影を用いて座標を埋め込む。 これらの埋め込みは、グローバルデータでさえ長方形のデータ領域を前提としており、特に極におけるアーティファクトにつながる可能性がある。 同時に、これらの機能的な埋め込みが組み合わさったニューラルネットワークアーキテクチャの正確な設計にはほとんど注意が払われていない。 本研究では、球面上でネイティブに定義された球面調和基底関数と、学習された二重フーリエ球体埋め込みとして解釈できる正弦波表現ネットワーク(SirenNets)を組み合わせた、グローバル分散地理的データのための新しい位置エンコーダを提案する。 我々は,様々なベンチマークおよび合成評価データセットを用いて,位置埋め込みとニューラルネットワークアーキテクチャを体系的に評価する。 位置符号化とニューラルネットワークを併用して意味のある表現を学習する従来の手法とは対照的に,球面調和と正弦波表現の双方が,タスク間での最先端性能を競い合っていることを示す。 モデルコードと実験はhttps://github.com/marccoru/locationencoder.comで公開されている。

Learning representations of geographical space is vital for any machine learning model that integrates geolocated data, spanning application domains such as remote sensing, ecology, or epidemiology. Recent work embeds coordinates using sine and cosine projections based on Double Fourier Sphere (DFS) features. These embeddings assume a rectangular data domain even on global data, which can lead to artifacts, especially at the poles. At the same time, little attention has been paid to the exact design of the neural network architectures with which these functional embeddings are combined. This work proposes a novel location encoder for globally distributed geographic data that combines spherical harmonic basis functions, natively defined on spherical surfaces, with sinusoidal representation networks (SirenNets) that can be interpreted as learned Double Fourier Sphere embedding. We systematically evaluate positional embeddings and neural network architectures across various benchmarks and synthetic evaluation datasets. In contrast to previous approaches that require the combination of both positional encoding and neural networks to learn meaningful representations, we show that both spherical harmonics and sinusoidal representation networks are competitive on their own but set state-of-the-art performances across tasks when combined. The model code and experiments are available at https://github.com/marccoru/locationencoder.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-15
# TTKがMPI対応へ

TTK is Getting MPI-Ready ( http://arxiv.org/abs/2310.08339v2 )

ライセンス: Link先を確認
Eve Le Guillou, Michael Will, Pierre Guillou, Jonas Lukasczyk, Pierre Fortin, Christoph Garth, Julien Tierny, (参考訳) 本システムでは,Topology ToolKit (TTK) の分散並列化への拡張の技術的基盤をMessage Passing Interface (MPI) で記述する。 最近のいくつかの論文では、トポロジに基づく分散メモリ環境のアプローチが紹介されているが、これらは、調整された単アルゴリズムの実装で得られた報告実験である。 対照的に、この論文では、トポロジ解析パイプライン(つまり、相互作用するトポロジ的アルゴリズムの列)をサポートするために、多元的アプローチ(三角領域と正規格子の両方をサポートする)を述べる。 この拡張を開発している間、私たちはいくつかのアルゴリズムとソフトウェア工学の課題に直面しました。 本稿では,TTKのトポロジ的実装のグローバルな性能と一般化の中心的構成要素である三角表現とトラバーサルのためのデータ構造のMPI拡張について述べる。 また,TTKとMPIの中間インタフェースをグローバルパイプラインレベルでも,微粒アルゴリズムレベルでも導入する。 TTKがサポートする分散メモリトポロジカルアルゴリズムの分類法を,通信要求に応じて提供し,ハイブリッドMPI+スレッド並列化の例を示す。 性能分析の結果、並列効率は20%から80%(アルゴリズムに依存する)であり、我々のフレームワークによって導入されたMPI固有のプリコンディショニングでは計算時間オーバーヘッドが無視できることがわかった。 我々は、TTKの新たな分散メモリ機能と、複数のアルゴリズムを組み合わせた高度な分析パイプラインの例を説明し、64ノード(合計1536コア)のクラスタ上で発見された最大の公開データセット(120億頂点)上で動作する。 最後に,TTKのMPI拡張を完了するためのロードマップと,アルゴリズム通信カテゴリ毎の一般的なレコメンデーションを提供する。

This system paper documents the technical foundations for the extension of the Topology ToolKit (TTK) to distributed-memory parallelism with the Message Passing Interface (MPI). While several recent papers introduced topology-based approaches for distributed-memory environments, these were reporting experiments obtained with tailored, mono-algorithm implementations. In contrast, we describe in this paper a versatile approach (supporting both triangulated domains and regular grids) for the support of topological analysis pipelines, i.e. a sequence of topological algorithms interacting together. While developing this extension, we faced several algorithmic and software engineering challenges, which we document in this paper. We describe an MPI extension of TTK's data structure for triangulation representation and traversal, a central component to the global performance and generality of TTK's topological implementations. We also introduce an intermediate interface between TTK and MPI, both at the global pipeline level, and at the fine-grain algorithmic level. We provide a taxonomy for the distributed-memory topological algorithms supported by TTK, depending on their communication needs and provide examples of hybrid MPI+thread parallelizations. Performance analyses show that parallel efficiencies range from 20% to 80% (depending on the algorithms), and that the MPI-specific preconditioning introduced by our framework induces a negligible computation time overhead. We illustrate the new distributed-memory capabilities of TTK with an example of advanced analysis pipeline, combining multiple algorithms, run on the largest publicly available dataset we have found (120 billion vertices) on a cluster with 64 nodes (for a total of 1536 cores). Finally, we provide a roadmap for the completion of TTK's MPI extension, along with generic recommendations for each algorithm communication category.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-15
# クープマン作用素を用いた光量子系解析の高速化

Accelerating the analysis of optical quantum systems using the Koopman operator ( http://arxiv.org/abs/2310.16578v2 )

ライセンス: Link先を確認
Anna Hunstig, Sebastian Peitz, Hendrik Rose, Torsten Meier, (参考訳) 光子エコーの予測は、光量子系を理解するための重要な技術である。 しかし、パラメータや入力パルスの異なる多数のシミュレーションを必要とするため、数値的な研究は高価である。 本稿では、Koopman演算子をベースとしたデータ駆動サロゲートモデルを用いて、この処理を高速化し、多数の時間ステップで精度を維持する方法について検討する。 この目的のために、拡張動的モード分解を用いた双線型クープマンモデルを用いて、不均一に拡張された2レベル系のアンサンブルに対する光学ブロッホ方程式をシミュレートする。 このようなシステムは、例えば半導体量子ドットのアンサンブルのような半導体ナノ構造における励起子共鳴の励起を記述するのによく適している。 我々は,データ駆動型クープマンモデルが幅広いパラメータ設定に対して十分正確であるようなシステムシミュレーションの必要回数について,詳細な研究を行う。 我々は、光子エコーピークのL2誤差と相対誤差を分析し、制御位置が安定化とどのように関係するかを調べる。 適切な訓練をした後、量子アンサンブルのダイナミクスを正確に、数値的に予測することができる。

The prediction of photon echoes is a crucial technique for gaining an understanding of optical quantum systems. However, it requires a large number of simulations with varying parameters and/or input pulses, which renders numerical studies expensive. This article investigates how we can use data-driven surrogate models based on the Koopman operator to accelerate this process while maintaining accuracy over a large number of time steps. To this end, we employ a bilinear Koopman model using extended dynamic mode decomposition and simulate the optical Bloch equations for an ensemble of inhomogeneously broadened two-level systems. Such systems are well suited to describe the excitation of excitonic resonances in semiconductor nanostructures, for example, ensembles of semiconductor quantum dots. We perform a detailed study on the required number of system simulations such that the resulting data-driven Koopman model is sufficiently accurate for a wide range of parameter settings. We analyze the L2 error and the relative error of the photon echo peak and investigate how the control positions relate to the stabilization. After proper training, our methods can predict the quantum ensemble's dynamics accurately and numerically efficiently.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-15
# 最適インフレポテンシャル

Optimal Inflationary Potentials ( http://arxiv.org/abs/2310.16786v2 )

ライセンス: Link先を確認
Tomás Sousa, Deaglan J. Bartlett, Harry Desmond, Pedro G. Ferreira, (参考訳) インフレは初期の宇宙にとって非常に好まれる理論である。 宇宙マイクロ波の背景と大規模構造の現在の観測と互換性があり、原始重力波を検出するための探索の原動力である。 また、現在のデータの品質を考えると、多くの候補実装で非常に過小評価されている。 シンボリック回帰法を用いて、演算子の2つの可能な基底集合のうちの1つに対して、すべての可能な単純なスカラー場ポテンシャルを生成する。 これらを単体でスローロールのインフレーションモデルとして扱い、現在のデータの情報を圧縮する際の効率を定量化する情報理論計量(最小記述長)で評価する。 ポテンシャルのパラメータ空間について、関数の構造的複雑性に関連するものと、Katzのバックオフ言語モデルを用いて理論的動機付けの可能な関数を選択することの2つの可能性について検討する。 これにより、現在のデータを説明する際の精度とシンプルさを最適にバランスさせるインフラトンポテンシャルを同定し、理論的な動機を見出すことができる。 我々の探索的研究は、データから直接基礎物理学を抽出する扉を開くものであり、初期の宇宙の完全な理解を求めて、より洗練された理論上の先駆者によって拡張される可能性がある。

Inflation is a highly favoured theory for the early Universe. It is compatible with current observations of the cosmic microwave background and large scale structure and is a driver in the quest to detect primordial gravitational waves. It is also, given the current quality of the data, highly under-determined with a large number of candidate implementations. We use a new method in symbolic regression to generate all possible simple scalar field potentials for one of two possible basis sets of operators. Treating these as single-field, slow-roll inflationary models we then score them with an information-theoretic metric ("minimum description length") that quantifies their efficiency in compressing the information in current data. We explore two possible priors on the parameter space of potentials, one related to the functions' structural complexity and one that uses a Katz back-off language model to prefer functions that may be theoretically motivated. This enables us to identify the inflaton potentials that optimally balance simplicity with accuracy at explaining current data, which may subsequently find theoretical motivation. Our exploratory study opens the door to extraction of fundamental physics directly from data, and may be augmented with more refined theoretical priors in the quest for a complete understanding of the early Universe.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-15
# SQLformer: テキストからSQLへの変換のためのディープ自動回帰クエリグラフ生成

SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation ( http://arxiv.org/abs/2310.18376v3 )

ライセンス: Link先を確認
Adrián Bazaga, Pietro Liò, Gos Micklem, (参考訳) 近年,自然言語質問を実行可能なSQLクエリに変換するタスクである,テキストからSQLへの変換への関心が高まっている。 この技術は、データベースからのデータ抽出を民主化する可能性において重要である。 しかし、その鍵となるハードルにはドメインの一般化がある。これは、以前は目に見えないデータベースに適応する能力であり、自然言語の質問と対応するSQLクエリとのアライメントである。 これらの課題を克服するために、テキストからSQLへの変換タスクを実行するために特別に設計された、新しいTransformerアーキテクチャであるSQLformerを紹介します。 我々のモデルはSQLクエリを抽象構文木(AST)として自動回帰的に予測し、エンコーダ層とデコーダ層に構造的帰納バイアスを組み込む。 このバイアスは、データベーステーブルと列選択によってガイドされ、Breadth-First Searchの標準順序でグラフとして表されるSQLクエリASTを生成するデコーダに役立つ。 総合的な実験は、広く使用されている5つのテキストからSQLまでのベンチマークでSQLformerの最先端のパフォーマンスを示している。 私たちの実装はhttps://github.com/AdrianBZG/SQLformer.comで公開されています。

In recent years, there has been growing interest in text-to-SQL translation, which is the task of converting natural language questions into executable SQL queries. This technology is important for its potential to democratize data extraction from databases. However, some of its key hurdles include domain generalisation, which is the ability to adapt to previously unseen databases, and alignment of natural language questions with the corresponding SQL queries. To overcome these challenges, we introduce SQLformer, a novel Transformer architecture specifically crafted to perform text-to-SQL translation tasks. Our model predicts SQL queries as abstract syntax trees (ASTs) in an autoregressive way, incorporating structural inductive bias in the encoder and decoder layers. This bias, guided by database table and column selection, aids the decoder in generating SQL query ASTs represented as graphs in a Breadth-First Search canonical order. Comprehensive experiments show the state-of-the-art performance of SQLformer across five widely used text-to-SQL benchmarks. Our implementation is available at https://github.com/AdrianBZG/SQLformer.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-15
# スケーラブルな2分間フィードバック:継続的フィードバック機器としてのデジタル・講義対応調査

Scalable Two-Minute Feedback: Digital, Lecture-Accompanying Survey as a Continuous Feedback Instrument ( http://arxiv.org/abs/2310.19334v2 )

ライセンス: Link先を確認
Armin Egetenmeier, Sven Strickroth, (参考訳) コースや講義の内容に関する詳細なフィードバックは、改善に不可欠であり、またリフレクションのツールとしても機能します。 しかし、フィードバック手法は、特にマスコースにおいて散発的にのみ使用されることが多く、フィードバックをタイムリーに収集し分析することは、教師にとってしばしば困難である。 また、学生の現在の状況や学期中の労働負荷の変化も考慮しないことが多い。 総合的な調査では,学生のストレスを定量的に測定し,質的な部分で参加者の反射に対処し,2つの教育機関で改善のための一般的な提案(いわゆるOne-Minute Paperに基づく)を収集するための形式的フィードバックとして,デジタル調査形式を用いた。 学期中のフィードバックを質的に評価し、メタレベルと特殊機能(例えば、学生の作業倫理やコースの反映など)について論じる。 結果は、低いが一定のフィードバック率を示している。 回答は主に講義の内容や組織的な側面のトピックをカバーし、講義内の問題を報告するために集中的に使用された。 さらに,大規模言語モデルとしての人工知能(AI)サポートを検証し,教師に対するオープンエンド応答を要約する有望な結果を示した。 最後に、講師の経験を反映し、その結果と改善の可能性について考察する。

Detailed feedback on courses and lecture content is essential for their improvement and also serves as a tool for reflection. However, feedback methods are often only used sporadically, especially in mass courses, because collecting and analyzing feedback in a timely manner is often a challenge for teachers. Moreover, the current situation of the students or the changing workload during the semester are usually not taken into account either. For a holistic investigation, the article used a digital survey format as formative feedback which attempts to measure student stress in a quantitative part and to address the participants' reflection in a qualitative part, as well as to collect general suggestions for improvement (based on the so-called One-Minute Paper) at two educational institutions. The feedback during the semester is evaluated qualitatively and discussed on a meta-level and special features (e.g. reflections on student work ethic or other courses) are addressed. The results show a low, but constant rate of feedback. Responses mostly cover topics of the lecture content or organizational aspects and were intensively used to report issues within the lecture. In addition, artificial intelligence (AI) support in the form of a large language model was tested and showed promising results in summarizing the open-ended responses for the teacher. Finally, the experiences from the lecturers are reflected upon and the results as well as possibilities for improvement are discussed.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-15
# フラム:中国語でLLMの値アライメントのベンチマーク

Flames: Benchmarking Value Alignment of LLMs in Chinese ( http://arxiv.org/abs/2311.06899v4 )

ライセンス: Link先を確認
Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun, Yaru Wang, Zeyang Zhou, Yixu Wang, Yan Teng, Xipeng Qiu, Yingchun Wang, Dahua Lin, (参考訳) 大規模言語モデル (LLM) が様々な領域で広く採用されていることは、人間の価値観との整合性を評価する緊急の必要性を浮き彫りにしている。 しかし、現在のベンチマークでは、LLMの安全性上の脆弱性を効果的に発見することができない。 これらの評価では、多くのモデルが高いスコアと「チャートを踏む」ことを達成しているが、LLMが人間の価値観と深く一致し、真の無害性を達成するには、依然として大きなギャップがある。 そこで本研究では,調和性などの中国固有の価値観を統合した,共通の調和性原理とユニークな道徳的次元の両方を包含する,Flamesという値アライメントベンチマークを提案する。 したがって、複雑なシナリオとジェイルブレイク手法を組み込んだ敵のプロンプトを、主に暗黙の悪意で慎重に設計する。 17個の LLM を誘導することにより,モデル応答を取得し,詳細な評価のために厳密な注釈付けを行う。 以上の結果から, 評価されたLLMは, フラムの安全性, 公正度が比較的低いことが示唆された。 また,複数の次元にまたがってLCMをスコアリングし,ベンチマークで新しいモデルを効率よく評価できる軽量な特定スコアラを開発した。 Flames の複雑さは既存のベンチマークをはるかに上回り、現代の LLM に新たな課題を与え、LLM のさらなるアライメントの必要性を強調している。 私たちのベンチマークはhttps://github.com/AIFlames/Flames.comで公開されています。

The widespread adoption of large language models (LLMs) across various regions underscores the urgent need to evaluate their alignment with human values. Current benchmarks, however, fall short of effectively uncovering safety vulnerabilities in LLMs. Despite numerous models achieving high scores and 'topping the chart' in these evaluations, there is still a significant gap in LLMs' deeper alignment with human values and achieving genuine harmlessness. To this end, this paper proposes a value alignment benchmark named Flames, which encompasses both common harmlessness principles and a unique morality dimension that integrates specific Chinese values such as harmony. Accordingly, we carefully design adversarial prompts that incorporate complex scenarios and jailbreaking methods, mostly with implicit malice. By prompting 17 mainstream LLMs, we obtain model responses and rigorously annotate them for detailed evaluation. Our findings indicate that all the evaluated LLMs demonstrate relatively poor performance on Flames, particularly in the safety and fairness dimensions. We also develop a lightweight specified scorer capable of scoring LLMs across multiple dimensions to efficiently evaluate new models on the benchmark. The complexity of Flames has far exceeded existing benchmarks, setting a new challenge for contemporary LLMs and highlighting the need for further alignment of LLMs. Our benchmark is publicly available at https://github.com/AIFlames/Flames.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-15
# 量子ステアリング法の解析

Analysis of Quantum Steering Measures ( http://arxiv.org/abs/2311.10552v2 )

ライセンス: Link先を確認
L. Maquedano, A. C. S. Costa, (参考訳) 量子ステアリングの効果は、局所的な測定を通して、ある距離で起こりうる作用を記述している。 ここ数年、量子系におけるこの種の相関を検出するためにいくつかの基準が提案されている。 しかし、あるシステムのステアビリティの度合いを測定するために提示されるアプローチは少ない。 本研究は、量子ステアリングの定量化の可能性を探ることに興味を持ち、文献で提示された異なる基準に基づいて分析を行った。

The effect of quantum steering describes a possible action at a distance via local measurements. In the last few years, several criteria have been proposed to detect this type of correlation in quantum systems. However, there are few approaches presented in order to measure the degree of steerability of a given system. In this work, we are interested in investigating possible ways to quantify quantum steering, where we based our analysis on different criteria presented in the literature.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# PhysGaussian: 生成ダイナミクスのための物理集積型3Dガウシアン

PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics ( http://arxiv.org/abs/2311.12198v3 )

ライセンス: Link先を確認
Tianyi Xie, Zeshun Zong, Yuxing Qiu, Xuan Li, Yutao Feng, Yin Yang, Chenfanfu Jiang, (参考訳) 我々はPhysGaussianを紹介した。PhysGaussianは3次元ガウス内に物理的に基底を持つニュートン力学をシームレスに統合し、高品質な新規な運動合成を実現する新しい方法である。 独自の材料点法 (MPM) を用いて, 3次元ガウス核に物理的に意味のあるキネマティックな変形と機械的応力特性を付加し, いずれも連続体力学の原理に従って進化した。 本手法の特色は物理シミュレーションと視覚レンダリングのシームレスな統合である:両コンポーネントはそれぞれの離散表現と同じ3次元ガウスカーネルを使用する。 これは三角形/テトラエドロンメッシュ、行進立方体、ケージメッシュ、その他の幾何学的埋め込みの必要性を否定し、「あなたが見ているものは、シミュレーションする(WS$^2$)ものである」という原則を強調している。 本手法は, 弾性体, 金属, 非ニュートン流体, 粒状物質を含む多種多様な材料に対して, 多様な視覚的コンテンツを創出する能力を示す。 私たちのプロジェクトページは以下の通りです。

We introduce PhysGaussian, a new method that seamlessly integrates physically grounded Newtonian dynamics within 3D Gaussians to achieve high-quality novel motion synthesis. Employing a custom Material Point Method (MPM), our approach enriches 3D Gaussian kernels with physically meaningful kinematic deformation and mechanical stress attributes, all evolved in line with continuum mechanics principles. A defining characteristic of our method is the seamless integration between physical simulation and visual rendering: both components utilize the same 3D Gaussian kernels as their discrete representations. This negates the necessity for triangle/tetrahedron meshing, marching cubes, "cage meshes," or any other geometry embedding, highlighting the principle of "what you see is what you simulate (WS$^2$)." Our method demonstrates exceptional versatility across a wide variety of materials--including elastic entities, metals, non-Newtonian fluids, and granular materials--showcasing its strong capabilities in creating diverse visual content with novel viewpoints and movements. Our project page is at: https://xpandora.github.io/PhysGaussian/
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# 物理誘導型形状テンプレート:ニューラルサロゲートモデルによる単眼映像知覚

Physics-guided Shape-from-Template: Monocular Video Perception through Neural Surrogate Models ( http://arxiv.org/abs/2311.12796v3 )

ライセンス: Link先を確認
David Stotko, Nils Wandel, Reinhard Klein, (参考訳) 動的シーンの3D再構成は、コンピュータグラフィックスにおける長年の問題であり、情報が少ないほど困難になる。 Shape-from-Template (SfT) 法は、RGB画像やビデオシーケンスからテンプレートベースの幾何学を再構築することを目的としており、通常のスマートフォン記録のような深度情報を持たない単一の単眼カメラを利用することが多い。 残念なことに、既存の再構成手法は非物理的でノイズが多いか最適化が遅いかのいずれかである。 そこで本研究では, トレーニング済みニューラルネットワークを用いた布のSfT再構成アルゴリズムを提案する。 シミュレーションメッシュの異なるレンダリングにより、再構成と、グラデーションベースの最適化手順で使用可能な対象映像シーケンスとの画素ワイズ比較を可能にし、形状情報だけでなく、伸縮、せん断、曲げ剛性などの物理的パラメータを抽出する。 これにより、最先端物理ベースのSfTアプローチである$\phi$-SfTと比較して、400-500の係数でランタイムを削減しつつ、正確で安定で滑らかに再構成された幾何を維持することができる。

3D reconstruction of dynamic scenes is a long-standing problem in computer graphics and increasingly difficult the less information is available. Shape-from-Template (SfT) methods aim to reconstruct a template-based geometry from RGB images or video sequences, often leveraging just a single monocular camera without depth information, such as regular smartphone recordings. Unfortunately, existing reconstruction methods are either unphysical and noisy or slow in optimization. To solve this problem, we propose a novel SfT reconstruction algorithm for cloth using a pre-trained neural surrogate model that is fast to evaluate, stable, and produces smooth reconstructions due to a regularizing physics simulation. Differentiable rendering of the simulated mesh enables pixel-wise comparisons between the reconstruction and a target video sequence that can be used for a gradient-based optimization procedure to extract not only shape information but also physical parameters such as stretching, shearing, or bending stiffness of the cloth. This allows to retain a precise, stable, and smooth reconstructed geometry while reducing the runtime by a factor of 400-500 compared to $\phi$-SfT, a state-of-the-art physics-based SfT approach.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# 線形物質パワースペクトルの正確な記号エミュレータ

A precise symbolic emulator of the linear matter power spectrum ( http://arxiv.org/abs/2311.15865v2 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Lukas Kammerer, Gabriel Kronberger, Harry Desmond, Pedro G. Ferreira, Benjamin D. Wandelt, Bogdan Burlacu, David Alonso, Matteo Zennaro, (参考訳) 物質パワースペクトル($P(k)$)を宇宙パラメータの関数として計算することは、宇宙分析において禁断に遅くなるので、この計算をエミュレートすることが望ましい。 従来の解析近似は現代の応用には不十分なほど正確であるため、ブラックボックス、非解釈エミュレータがしばしば用いられる。 我々は、効率的な遺伝的プログラミングに基づく記号回帰フレームワークを用いて、パワースペクトルと$\sigma_8$を近似できる潜在的な数学的表現の空間を探索する。 我々は、P(k)$の既存の低精度適合関数とボルツマン方程式を解くことで得られるものとの比を学習し、なおもこの初期の近似を動機づけた物理学を取り入れている。 根平均二乗分数誤差が$k = 9\times10^{-3} - 9 \, h{\rm \, Mpc^{-1}}$の間で0.2%の線形パワースペクトルを解析的に近似し、その表現の様々な項について物理的に解釈する。 我々の解析近似は、キャムよりも950倍速く、ニューラルネットワークベースの物質パワースペクトルエミュレータBACCOの36倍高速である。 また、同様の精度で$\sigma_8$の簡単な解析近似も提供し、同じ範囲の宇宙論で評価した場合、ルート平均2乗分数誤差はわずか0.1%となる。 この関数は、好ましくは$A_{\rm s}$ を $\sigma_8$ の関数として得ることができる。 深層学習技術に頼ることなく、現在および将来の宇宙分析に必要な精度で、一見複雑な関数に対する記号近似を得ることができ、ブラックボックスの性質や多数のパラメータを避けることができる。 私たちのエミュレータは、数値近似が構築されたコードが時代遅れになってからずっと経ちます。

Computing the matter power spectrum, $P(k)$, as a function of cosmological parameters can be prohibitively slow in cosmological analyses, hence emulating this calculation is desirable. Previous analytic approximations are insufficiently accurate for modern applications, so black-box, uninterpretable emulators are often used. We utilise an efficient genetic programming based symbolic regression framework to explore the space of potential mathematical expressions which can approximate the power spectrum and $\sigma_8$. We learn the ratio between an existing low-accuracy fitting function for $P(k)$ and that obtained by solving the Boltzmann equations and thus still incorporate the physics which motivated this earlier approximation. We obtain an analytic approximation to the linear power spectrum with a root mean squared fractional error of 0.2% between $k = 9\times10^{-3} - 9 \, h{\rm \, Mpc^{-1}}$ and across a wide range of cosmological parameters, and we provide physical interpretations for various terms in the expression. Our analytic approximation is 950 times faster to evaluate than camb and 36 times faster than the neural network based matter power spectrum emulator BACCO. We also provide a simple analytic approximation for $\sigma_8$ with a similar accuracy, with a root mean squared fractional error of just 0.1% when evaluated across the same range of cosmologies. This function is easily invertible to obtain $A_{\rm s}$ as a function of $\sigma_8$ and the other cosmological parameters, if preferred. It is possible to obtain symbolic approximations to a seemingly complex function at a precision required for current and future cosmological analyses without resorting to deep-learning techniques, thus avoiding their black-box nature and large number of parameters. Our emulator will be usable long after the codes on which numerical approximations are built become outdated.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# 量子関数の量子多対数時間計算性をキャプチャする初等量子再帰スキーム

Elementary Quantum Recursion Schemes That Capture Quantum Polylogarithmic Time Computability of Quantum Functions ( http://arxiv.org/abs/2311.15884v2 )

ライセンス: Link先を確認
Tomoyuki Yamakami, (参考訳) 量子コンピューティングは、過去40年間、量子回路と量子チューリングマシンの2つの計算モデルに基づいて研究されてきた。 量子多項式時間計算性を捉えるために, 山上(J. Symb. Logic 80, pp. 1546-1587, 2020)により, 6つの初期量子関数と合成,分岐,多ビット量子再帰の3つの構成スキームを構成する再帰的スキーマ定義を用いて, 新たな再帰論的アプローチを最近行った。 同様のアプローチをとることで、量子多対数時間計算可能性を調べ、そのような量子計算のために設計された基本的なスキームの表現力を更に探求する。 特に、高速量子再帰(fast quantum recursion)と呼ばれる量子再帰の基本形式を導入し、「要素的」量子関数のEQS(elementary quantum schemes)を定式化する。 このクラスEQSは、BQPOLYLOGTIMEで表される、正確に量子多対数時間計算能力をキャプチャする。 また,NLOGTIMEとPPOLYLOGTIMEからBQLYLOGTIMEを分離した。 EQSの自然な拡張として、よく知られた分割・分散戦略を実装するアルゴリズム的な手続きスキームについても検討する。 この分譲・分譲方式はパリティ関数の計算に役立ちますが,システムEQS内では実現できません。

Quantum computing has been studied over the past four decades based on two computational models of quantum circuits and quantum Turing machines. To capture quantum polynomial-time computability, a new recursion-theoretic approach was taken lately by Yamakami [J. Symb. Logic 80, pp. 1546--1587, 2020] by way of recursion schematic definitions, which constitute six initial quantum functions and three construction schemes of composition, branching, and multi-qubit quantum recursion. By taking a similar approach, we look into quantum polylogarithmic-time computability and further explore the expressing power of elementary schemes designed for such quantum computation. In particular, we introduce an elementary form of the quantum recursion, called the fast quantum recursion and formulate EQS (elementary quantum schemes) of "elementary" quantum functions. This class EQS captures exactly quantum polylogarithmic-time computability, represented by BQPOLYLOGTIME. We also demonstrate the separation of BQPOLYLOGTIME from NLOGTIME and PPOLYLOGTIME. As a natural extension of EQS, we further consider an algorithmic procedural scheme that implements the well-known divide-and-conquer strategy. This divide-and-conquer scheme helps compute the parity function but the scheme cannot be realized within our system EQS.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# PEAN:Scene Text Image Super-Resolutionのための拡散型事前注意ネットワーク

PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution ( http://arxiv.org/abs/2311.17955v2 )

ライセンス: Link先を確認
Zuoyan Zhao, Hui Xue, Pengfei Fang, Shipeng Zhu, (参考訳) Scene Text Image Super- resolution (STISR) は、低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としており、下流認識タスクの性能を高めることを目的としている。 シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。 そこで本稿では,これらの要因の影響を軽減するために,PEAN(Presideed-Enhanced Attention Network)を提案する。 具体的には、テキストの形状に関わらず、画像の局所的およびグローバル的依存を正確に知覚することで、シーンテキストイメージを理解するために、注意に基づく変調モジュールを利用する。 一方、拡散ベースのモジュールは、先行するテキストを強化するために開発され、SRネットワークがより高度な意味的精度でSR画像を生成するためのより良いガイダンスを提供する。 さらに、マルチタスク学習パラダイムを用いてネットワークを最適化し、モデルが可読なSR画像を生成する。 その結果、PEANはTextZoomベンチマークで新しいSOTA結果を確立した。 また、SRネットワークの性能を向上させる手段として、前もって強化されたテキストの重要性を分析する実験を行った。 コードはhttps://github.com/jdfxzzy/PEAN.comで公開される。

Scene text image super-resolution (STISR) aims at simultaneously increasing the resolution and readability of low-resolution scene text images, thus boosting the performance of the downstream recognition task. Two factors in scene text images, visual structure and semantic information, affect the recognition performance significantly. To mitigate the effects from these factors, this paper proposes a Prior-Enhanced Attention Network (PEAN). Specifically, an attention-based modulation module is leveraged to understand scene text images by neatly perceiving the local and global dependence of images, despite the shape of the text. Meanwhile, a diffusion-based module is developed to enhance the text prior, hence offering better guidance for the SR network to generate SR images with higher semantic accuracy. Additionally, a multi-task learning paradigm is employed to optimize the network, enabling the model to generate legible SR images. As a result, PEAN establishes new SOTA results on the TextZoom benchmark. Experiments are also conducted to analyze the importance of the enhanced text prior as a means of improving the performance of the SR network. Code will be made available at https://github.com/jdfxzzy/PEAN.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# トラップイオンシミュレーションプラットフォームを用いた量子忠実性カーネル

Quantum fidelity kernel with a trapped-ion simulation platform ( http://arxiv.org/abs/2311.18719v2 )

ライセンス: Link先を確認
Rodrigo Martínez-Peña, Miguel C. Soriano, Roberta Zambrini, (参考訳) 量子カーネル法は、入力情報を量子系のヒルベルト空間に埋め込むことによって計算されたカーネル関数を利用する。 しかし、大きなヒルベルト空間は一般化能力を妨げ、量子カーネルのスケーラビリティが問題となる。 これらの課題を克服するために、帰納的バイアスの概念に基づく様々な戦略が提案されている。 帯域最適化は量子シミュレーションプラットフォームを使って実装できる有望なアプローチである。 本稿では,量子カーネルを計算し,バイナリ分類タスクの有効性を実証する手段として,トラップイオンシミュレーションプラットフォームを提案する。 提案手法の性能を最適化された古典的カーネルと比較し,雑音に対する量子カーネルの堅牢性を評価する。 その結果,イオントラッププラットフォームは量子カーネル計算に適しており,数量子ビットで高い精度が得られることがわかった。

Quantum kernel methods leverage a kernel function computed by embedding input information into the Hilbert space of a quantum system. However, large Hilbert spaces can hinder generalization capability, and the scalability of quantum kernels becomes an issue. To overcome these challenges, various strategies under the concept of inductive bias have been proposed. Bandwidth optimization is a promising approach that can be implemented using quantum simulation platforms. We propose trapped-ion simulation platforms as a means to compute quantum kernels and demonstrate their effectiveness for binary classification tasks. We compare the performance of the proposed method with an optimized classical kernel and evaluate the robustness of the quantum kernel against noise. The results show that ion trap platforms are well-suited for quantum kernel computation and can achieve high accuracy with only a few qubits.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-15
# 静止画によるダンス:静的動的歪みによるビデオ蒸留

Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement ( http://arxiv.org/abs/2312.00362v2 )

ライセンス: Link先を確認
Ziyu Wang, Yue Xu, Cewu Lu, Yong-Lu Li, (参考訳) 近年、特に画像データセットにおいて、データセットの蒸留が効率的な機械学習への道を開いた。 しかし、ビデオの蒸留は、排他的時間次元によって特徴づけられ、未探索領域のままである。 本研究では,ビデオ蒸留に関する最初の体系的研究を行い,時間的圧縮を分類する分類法を提案する。 本研究は, 蒸留時に時間情報がよく学習されないこと, 合成データの時間次元がほとんど寄与しないことを明らかにする。 この観察は、ビデオ内の動的および静的な情報を切り離すという統合された枠組みを動機付けます。 動画を静止メモリとして蒸留し、動的および運動情報を学習可能な動的メモリブロックで補償する。 提案手法は,メモリストレージ予算の大幅な削減を図りながら,ビデオデータセットの最先端化を実現している。 私たちのコードはhttps://github.com/yuz1wan/video_distillation.comから入手可能です。

Recently, dataset distillation has paved the way towards efficient machine learning, especially for image datasets. However, the distillation for videos, characterized by an exclusive temporal dimension, remains an underexplored domain. In this work, we provide the first systematic study of video distillation and introduce a taxonomy to categorize temporal compression. Our investigation reveals that the temporal information is usually not well learned during distillation, and the temporal dimension of synthetic data contributes little. The observations motivate our unified framework of disentangling the dynamic and static information in the videos. It first distills the videos into still images as static memory and then compensates the dynamic and motion information with a learnable dynamic memory block. Our method achieves state-of-the-art on video datasets at different scales, with a notably smaller memory storage budget. Our code is available at https://github.com/yuz1wan/video_distillation.
翻訳日:2024-04-16 23:07:45 公開日:2024-04-15
# 通勤運転者によるLCUの低オーバーヘッド並列化

Low-Overhead Parallelisation of LCU via Commuting Operators ( http://arxiv.org/abs/2312.00696v2 )

ライセンス: Link先を確認
Gregory Boyd, (参考訳) リニアコンビネーション・オブ・ユニタリー(LCU)法は演算子のブロック符号化の強力なスキームであるが、高いオーバーヘッドに悩まされている。 本稿では,LCUの並列化,特にLCUのSELECTサブルーチンについて,可観測粒子を通勤演算子の群に分割した上で,必要なクリフォード回路を一定深さで実行可能にする適応回路とテレポーテーションの利用について論じる。 また,本研究の主な事例であるQROM回路の並列化について考察し,制御レジスタ上の多制御ゲートの動作を並列化する手法を提案する。 分子ハミルトニアンの場合、深度保存は$O(n)$であり、約$n/2$であることを示す数値は$O(n)$である。 また, 並列化によって要求されるT$ファクトリ数が増加する場合でも, 並列化が$T$-countを変更することなく, 論理アルゴリズムと同じ係数で$T$-depthを低減し, 計算全体の時空間容積を大幅に削減できることを示す。

The Linear Combination of Unitaries (LCU) method is a powerful scheme for the block encoding of operators but suffers from high overheads. In this work, we discuss the parallelisation of LCU and in particular the SELECT subroutine of LCU based on partitioning of observables into groups of commuting operators, as well as the use of adaptive circuits and teleportation that allow us to perform required Clifford circuits in constant depth. We additionally discuss the parallelisation of QROM circuits which are a special case of our main results, and provide methods to parallelise the action of multi-controlled gates on the control register. We only require an $O(\log n)$ factor increase in the number of qubits in order to produce a significant depth reduction, with prior work suggesting that for molecular Hamiltonians, the depth saving is $O(n)$, and numerics indicating depth savings of a factor approximately $n/2$. The implications of our method in the fault-tolerant setting are also considered, noting that parallelisation reduces the $T$-depth by the same factor as the logical algorithm, without changing the $T$-count, and that our method can significantly reduce the overall space-time volume of the computation, even when including the increased number of $T$ factories required by parallelisation.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# アントリム映像における動作検出のための短期変換器の適応

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos ( http://arxiv.org/abs/2312.01897v2 )

ライセンス: Link先を確認
Min Yang, Huan Gao, Ping Guo, Limin Wang, (参考訳) ViT(Vision Transformer)は、フレキシブルなデザイン、適応可能な自己注意機構、マスク付き事前トレーニングの有効性など、ビデオ認識において高い可能性を示している。 しかし、これらの事前訓練された短期的ViTを時間的行動検出(TAD)に適応する方法は、まだ不明である。 既存の作業では、より広い時間的文脈において、異なるスニペット間のきめ細かい関係を捉えることなく、各ショートトリミングスニペットのオフザシェルフ特徴抽出器として扱う。 この問題を軽減するため,本研究では,これらのトレーニング済みVTモデルを一貫した長手ビデオトランスフォーマーとして適応させる機構を設計することに注力し,高速なTADのための計算オーバーヘッドとメモリ消費を抑えながら,スニペット間関係を捕捉するモデリングパワーを完全に解き放つことを目的とした。 そこで我々は,2段階の異なるスニペット間で,短時間の映像情報を段階的に交換する効果的なクロススニペット伝搬モジュールを設計する。 骨盤内情報伝達のために,骨盤内におけるマルチスニペットの時間的特徴相互作用を可能にするクロススニペット伝搬戦略を導入し,さらにクリップレベルのモデリングを行うための時間的トランスフォーマー層を提案する。 VideoMAEで事前訓練された通常のViT-Bでは、我々のエンドツーエンドの時間的行動検知器(ViT-TAD)は、従来の時間的行動検出器に対して非常に競争力があり、THUMOS14では69.5平均mAP、ActivityNet-1.3では37.40平均mAP、Functionでは17.20平均mAPに富んでいる。

Vision Transformer (ViT) has shown high potential in video recognition, owing to its flexible design, adaptable self-attention mechanisms, and the efficacy of masked pre-training. Yet, it remains unclear how to adapt these pre-trained short-term ViTs for temporal action detection (TAD) in untrimmed videos. The existing works treat them as off-the-shelf feature extractors for each short-trimmed snippet without capturing the fine-grained relation among different snippets in a broader temporal context. To mitigate this issue, this paper focuses on designing a new mechanism for adapting these pre-trained ViT models as a unified long-form video transformer to fully unleash its modeling power in capturing inter-snippet relation, while still keeping low computation overhead and memory consumption for efficient TAD. To this end, we design effective cross-snippet propagation modules to gradually exchange short-term video information among different snippets from two levels. For inner-backbone information propagation, we introduce a cross-snippet propagation strategy to enable multi-snippet temporal feature interaction inside the backbone.For post-backbone information propagation, we propose temporal transformer layers for further clip-level modeling. With the plain ViT-B pre-trained with VideoMAE, our end-to-end temporal action detector (ViT-TAD) yields a very competitive performance to previous temporal action detectors, riching up to 69.5 average mAP on THUMOS14, 37.40 average mAP on ActivityNet-1.3 and 17.20 average mAP on FineAction.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# ゼロショット3Dポイントクラウド理解のための幾何学的集約

Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding ( http://arxiv.org/abs/2312.02244v3 )

ライセンス: Link先を確認
Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi, (参考訳) ゼロショット3Dポイントクラウド理解は、VLM(2D Vision-Language Models)によって実現される。 既存の戦略は、ヴィジュアル・ランゲージ・モデル(Vision-Language Model)をレンダリングまたはキャプチャされた2Dピクセルから3Dポイントにマッピングし、固有かつ表現可能な雲の幾何学構造を見渡す。 幾何学的に類似している領域や近縁な領域は、意味情報を共有する可能性が高いため、ポイントクラウドの理解を促進するために利用することができる。 そこで本研究では, 点雲の3次元幾何構造を利用して, 移動したビジョン・ランゲージモデルの品質を向上する, 初めての学習自由集約手法を提案する。 提案手法は,幾何学的および意味的点レベルの推論に基づいて,局所的・言語的集合を反復的に行う。 我々は、分類、部分のセグメンテーション、セマンティックセグメンテーションを含む3つの下流タスクに対するアプローチを、合成/実世界のシナリオと屋内/屋外シナリオの両方を表すさまざまなデータセットでベンチマークした。 提案手法は,すべてのベンチマークにおいて新しい最先端結果を実現する。 提案手法は,幾何学的および意味的点レベルの推論に基づいて,局所的・言語的集合を反復的に行う。 コードとデータセットはhttps://luigiriz.github.io/geoze-website/で公開されている。

Zero-shot 3D point cloud understanding can be achieved via 2D Vision-Language Models (VLMs). Existing strategies directly map Vision-Language Models from 2D pixels of rendered or captured views to 3D points, overlooking the inherent and expressible point cloud geometric structure. Geometrically similar or close regions can be exploited for bolstering point cloud understanding as they are likely to share semantic information. To this end, we introduce the first training-free aggregation technique that leverages the point cloud's 3D geometric structure to improve the quality of the transferred Vision-Language Models. Our approach operates iteratively, performing local-to-global aggregation based on geometric and semantic point-level reasoning. We benchmark our approach on three downstream tasks, including classification, part segmentation, and semantic segmentation, with a variety of datasets representing both synthetic/real-world, and indoor/outdoor scenarios. Our approach achieves new state-of-the-art results in all benchmarks. Our approach operates iteratively, performing local-to-global aggregation based on geometric and semantic point-level reasoning. Code and dataset are available at https://luigiriz.github.io/geoze-website/
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# 超伝導量子情報処理のための量子量測定の確率モデル

Stochastic Model of Qudit Measurement for Superconducting Quantum Information Processing ( http://arxiv.org/abs/2312.03754v2 )

ライセンス: Link先を確認
Kangdi Yu, (参考訳) ジョセフソン接合に基づく超伝導量子コンピューティングの分野は、最近、論理量子ビットの数のスケーリングにおいて顕著な進歩を見せている。 特に、1ビットと2ビットのゲートの忠実度は、新しい誤差緩和法と補正法で破断点に近い。 これらの進歩と並行して、ヒルベルト空間を1つのデバイス内で拡張するために、高次元の量子ビット(英語版)(qudits)と呼ばれる)を用いる。 トランスモンで高次遷移を駆動したり、革新的なマルチモード超伝導回路を設計する可能性を実証した。 これらの進歩は、大規模量子プロセッサにおける相互接続を簡素化しながら、計算基盤を大幅に拡張することができる。 この論文は超伝導キューディットの詳細な紹介を提供し、リンドブラッドマスター方程式と確率マスター方程式(SME)を用いて2段階以上の人工原子におけるデコヒーレンスを包括的に解析する。 従来の超伝導量子ビットの設計、制御、読み出しの理論をキューディットに拡張した後、理論は二次検出を用いたオープン量子系におけるトランモン量子ビットの分散測定をモデル化することに焦点を当てた。 マルコフの仮定の下では、異なる抽象レベルを持つマスター方程式が提案され、解決され、さらに、アンサンブル平均とデコヒーレンス解析の量子ジャンプアプローチの両方が解析的および数値的に比較される。 この論文は、確率モデルの妥当性を検証し、トランモン型キュートリットに関する一連の実験結果で終わる。

The field of superconducting quantum computing, based on Josephson junctions, has recently seen remarkable strides in scaling the number of logical qubits. In particular, the fidelities of one- and two-qubit gates are close to the breakeven point with the novel error mitigation and correction methods. Parallel to these advances is the effort to expand the Hilbert space within a single device by employing high-dimensional qubits, otherwise known as qudits. Research has demonstrated the possibility of driving higher-order transitions in a transmon or designing innovative multimode superconducting circuits, termed multimons. These advances can significantly expand the computational basis while simplifying the interconnects in a large-scale quantum processor. This thesis provides a detailed introduction to the superconducting qudit and demonstrates a comprehensive analysis of decoherence in an artificial atom with more than two levels using Lindblad master equations and stochastic master equations (SMEs). After extending the theory of the design, control, and readout of a conventional superconducting qubit to that of a qudit, the thesis focuses on modeling the dispersive measurement of a transmon qutrit in an open quantum system using quadrature detections. Under the Markov assumption, master equations with different levels of abstraction are proposed and solved; in addition, both the ensemble-averaged and the quantum-jump approach of decoherence analysis are presented and compared analytically and numerically. The thesis ends with a series of experimental results on a transmon-type qutrit, verifying the validity of the stochastic model.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# 1次元および3次元における3体共鳴寿命の質量比依存性

Mass Ratio Dependence of Three-Body Resonance Lifetimes in 1D and 3D ( http://arxiv.org/abs/2312.04080v2 )

ライセンス: Link先を確認
Lucas Happ, Pascal Naidon, Emiko Hiyama, (参考訳) 本研究では, 2成分3体系における共鳴寿命の理論的研究を行い, ディープダイマーとアンバウンド粒子への3体共鳴の崩壊について検討した。 ガウス展開法と複素スケーリング法を併用して、これらの共鳴の幅を第一原理から求める。 我々は、超低温原子の混合物の典型的な範囲における質量比に着目し、共鳴幅の質量比への興味深い依存性を明らかにし、質量比が増加するにつれて、その幅は全体的な減少傾向の上に振動を示す。 特に、いくつかの質量比の場合、共鳴幅は消滅し、共鳴が実際に安定になることを意味する。 特に、セシウム-リチウム混合物の質量比に近づき、共振器のほぼ消滅した幅を求め、境界状態近似でそれらを扱うことを検証した。 さらに、1次元と3次元の共振幅の解析を行い、質量比に質的に類似した依存性を見出す。

We present a theoretical study of resonance lifetimes in a two-component three-body system, specifically examining the decay of three-body resonances into a deep dimer and an unbound particle. Utilising the Gaussian expansion method together with the complex scaling method, we obtain the widths of these resonances from first principles. We focus on mass ratios in the typical range for mixtures of ultracold atoms and reveal an intriguing dependence of the resonance widths on the mass ratio: as the mass ratio increases, the widths exhibit oscillations on top of an overall decreasing trend. In particular, for some mass ratios the resonance width vanishes, implying that the resonance becomes in fact stable. Notably, near the mass ratio for Caesium-Lithium mixtures, we obtain nearly vanishing widths of the resonances which validates to treat them in the bound-state approximation. In addition, we perform our analysis of the resonance widths in both one and three dimensions and find a qualitatively similar dependence on the mass ratio.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# ゴールコンディション型政策の後方学習

Backward Learning for Goal-Conditioned Policies ( http://arxiv.org/abs/2312.05044v2 )

ライセンス: Link先を確認
Marc Höftmann, Jan Robine, Stefan Harmeling, (参考訳) 報酬のない強化学習の政策を学べるか? 目標状態に到達しようとするだけで,ポリシを学べますか? これらの疑問に対して,まずは逆行する世界モデルを学習し,第2に目標達成後進軌跡を生成し,第3に最短経路探索アルゴリズムを用いてこれらのシーケンスを改善し,最終的には模倣学習によってニューラルネットワークポリシーを訓練する多段階的手順を提案する。 我々は,64ドル64セントの鳥の眼球画像が6,4\times 6 である決定論的迷路環境において,その有効性を検証し,連続的にいくつかの目標に達することを示す。

Can we learn policies in reinforcement learning without rewards? Can we learn a policy just by trying to reach a goal state? We answer these questions positively by proposing a multi-step procedure that first learns a world model that goes backward in time, secondly generates goal-reaching backward trajectories, thirdly improves those sequences using shortest path finding algorithms, and finally trains a neural network policy by imitation learning. We evaluate our method on a deterministic maze environment where the observations are $64\times 64$ pixel bird's eye images and can show that it consistently reaches several goals.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# コード生成のためのニューロンレベルのLDMパッチング

Neuron-level LLM Patching for Code Generation ( http://arxiv.org/abs/2312.05356v3 )

ライセンス: Link先を確認
Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang, (参考訳) 大規模言語モデル(LLM)は、特にコード生成タスクにおいて、ソフトウェア工学において広く採用されている。 しかし、これらのモデルを新しい知識で更新することは違法にコストがかかるが、それらの実用性を最大限にするためには不可欠である。 本稿では,LLMをコーディングタスクに当てはめる新しい,効果的なモデル編集手法である「textsc{MENT}」を提案する。 textsc{MENT} は効率的で効率的で信頼性が高い。 1または2つのニューロンにパッチを当てることで、神経モデルを修正することができる。 生成モデルのニューロンレベルモデル編集の先駆的な研究として、我々は編集プロセスを形式化し、関連する概念を紹介する。 また、その一般化能力を評価するための新しい尺度を導入し、さらなる研究のためのベンチマークを構築した。 提案手法は,API-seqレコメンデーション,行レベルのコード生成,擬似コード間トランザクションなど,3つのコーディングタスクで評価される。 実験結果から, 提案手法は, 有効性および効率性の両方において, 最先端技術よりも優れた性能を示すことが示された。 さらに,ソフトウェア工学における LLM 推論における \textsc{MENT} の使用例を示す。 LLMの知識を編集することで、API呼び出しの直接的または間接的な振る舞いは、それに従って変化する。 LLMの修復の重要性を説明した。

Large Language Models (LLMs) have found widespread adoption in software engineering, particularly in code generation tasks. However, updating these models with new knowledge can be prohibitively expensive, yet it is essential for maximizing their utility. In this paper, we propose a novel and effective model editing approach, \textsc{MENT}, to patch LLMs in coding tasks. \textsc{MENT} is effective, efficient, and reliable. It can correct a neural model by patching 1 or 2 neurons. As the pioneer work on neuron-level model editing of generative models, we formalize the editing process and introduce the involved concepts. Besides, we also introduce new measures to evaluate its generalization ability, and build a benchmark for further study. Our approach is evaluated on three coding tasks, including API-seq recommendation, line-level code generation, and pseudocode-to-code transaction. The experimental results show that the proposed approach outperforms the state of the arts by a significant margin in both effectiveness and efficiency measures. In addition, we demonstrate the usages of \textsc{MENT} for LLM reasoning in software engineering. By editing LLM knowledge, the directly or indirectly dependent behaviors of API invocation in the chain-of-thought will change accordingly. It explained the significance of repairing LLMs.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-15
# ASH: 効率的でフォトリアルな人間レンダリングのためのアニマブルなガウススプラッター

ASH: Animatable Gaussian Splats for Efficient and Photoreal Human Rendering ( http://arxiv.org/abs/2312.05941v2 )

ライセンス: Link先を確認
Haokai Pang, Heming Zhu, Adam Kortylewski, Christian Theobalt, Marc Habermann, (参考訳) リアルでコントロール可能な人間のアバターのリアルタイムレンダリングは、コンピュータビジョンとグラフィックの基盤となっている。 ニューラル暗黙的レンダリングの最近の進歩は、デジタルアバターに対する前例のないフォトリアリズムを解き放つ一方で、リアルタイムのパフォーマンスは静的なシーンでのみ実証されている。 そこで本研究では,動的人間をリアルタイムに写実的にレンダリングするための,アニマタブルなガウススプラッティング手法であるASHを提案する。 我々は、被服をアニマタブルな3Dガウスとしてパラメータ化し、画像空間に効率よく切り込み、最終的なレンダリングを生成する。 しかし、3次元空間におけるガウスのパラメータをネーティブに学習することは、計算の分野で深刻な課題となる。 代わりに、変形可能なキャラクタモデルにガウスをアタッチし、2次元テクスチャ空間でそれらのパラメータを学習することで、ガウスの必要な数で容易にスケールできる効率的な2次元畳み込みアーキテクチャを実現できる。 我々は、ポーズ制御可能なアバターの競合手法を用いてASHをベンチマークし、我々の手法が既存のリアルタイムメソッドを大きなマージンで上回り、オフラインメソッドよりも同等あるいはそれ以上の結果を示すことを示した。

Real-time rendering of photorealistic and controllable human avatars stands as a cornerstone in Computer Vision and Graphics. While recent advances in neural implicit rendering have unlocked unprecedented photorealism for digital avatars, real-time performance has mostly been demonstrated for static scenes only. To address this, we propose ASH, an animatable Gaussian splatting approach for photorealistic rendering of dynamic humans in real-time. We parameterize the clothed human as animatable 3D Gaussians, which can be efficiently splatted into image space to generate the final rendering. However, naively learning the Gaussian parameters in 3D space poses a severe challenge in terms of compute. Instead, we attach the Gaussians onto a deformable character model, and learn their parameters in 2D texture space, which allows leveraging efficient 2D convolutional architectures that easily scale with the required number of Gaussians. We benchmark ASH with competing methods on pose-controllable avatars, demonstrating that our method outperforms existing real-time methods by a large margin and shows comparable or even better results than offline methods.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-15
# CBQ:大規模言語モデルのためのクロスブロック量子化

CBQ: Cross-Block Quantization for Large Language Models ( http://arxiv.org/abs/2312.07950v4 )

ライセンス: Link先を確認
Xin Ding, Xiaoyu Liu, Zhijun Tu, Yun Zhang, Wei Li, Jie Hu, Hanting Chen, Yehui Tang, Zhiwei Xiong, Baoqun Yin, Yunhe Wang, (参考訳) ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を超低コストで圧縮する上で重要な役割を果たしている。 しかし、既存のPTQメソッドは、ブロックの依存性を無視し、低ビット設定でパフォーマンスが著しく低下する1つの層または1つのブロック内でのアウトレイラの処理にのみフォーカスする。 本稿では,LLMのためのブロック間再構成に基づくPTQ手法CBQを提案する。 CBQは、複数のブロックにまたがる長距離依存関係を確立し、エラーの蓄積を最小限に抑える。 さらに、CBQは、重みとアクティベーションアウトリアを抑制するための粗大な前処理(CFP)戦略と、高精度な重み量子化のための適応的なLoRA-Rounding技術が組み込まれている。 これらの革新によりCBQは極端な外れ値の処理を効果的に行うだけでなく、全体的な量子化精度を向上させることができる。 広範な実験により、CBQは優れた低ビット量子化(W4A4、W4A8、W2A16)を達成し、様々なLCMやデータセットで既存の最先端の手法より優れていることが示された。 CBQは4ビットのLAMA1-65Bモデルを1つのGPUでわずか4.3時間で量子化し、性能と量子化効率の相違点を達成する。

Post-training quantization (PTQ) has played a key role in compressing large language models (LLMs) with ultra-low costs. However, existing PTQ methods only focus on handling the outliers within one layer or one block, which ignores the dependency of blocks and leads to severe performance degradation in low-bit settings. In this paper, we propose CBQ, a cross-block reconstruction-based PTQ method for LLMs. CBQ employs a cross-block dependency using a homologous reconstruction scheme, establishing long-range dependencies across multiple blocks to minimize error accumulation. Furthermore, CBQ incorporates a coarse-to-fine preprocessing (CFP) strategy for suppressing weight and activation outliers, coupled with an adaptive LoRA-Rounding technique for precise weight quantization. These innovations enable CBQ to not only handle extreme outliers effectively but also improve overall quantization accuracy. Extensive experiments show that CBQ achieves superior low-bit quantization (W4A4, W4A8, W2A16) and outperforms existing state-of-the-art methods across various LLMs and datasets. Notably, CBQ quantizes the 4-bit LLAMA1-65B model within only 4.3 hours on a single GPU, achieving a commendable tradeoff between performance and quantization efficiency.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-15
# 絡み合い深さ$k$の完全絡み合い部分空間

Completely entangled subspaces of entanglement depth $k$ ( http://arxiv.org/abs/2312.08474v2 )

ライセンス: Link先を確認
Maciej Demianowicz, Kajetan Vogtt, Remigiusz Augusiak, (参考訳) 我々は、新しい絡み付き部分空間のクラスを導入します -- 完全に絡み付き部分空間は、絡み付き深さ$k$$$k$-CESsです。 これらは多部ヒルベルト空間の部分空間であり、絡み合い深さが少なくとも$k$である純粋状態のみを含む。 マルチパーティのシナリオで達成可能な次元の$k$-CESを効率的に構築する。 さらに、これらの部分空間と拡張不可能な製品ベース(UPB)との関係について論じる。 特に、直補集合が$k$-CES である UPB の濃度に非自明な境界が存在することを確かめる。 さらに、量子ビットシステムにおけるそのような UPB の存在について論じる。

We introduce a new class of entangled subspaces -- completely entangled subspaces of entanglement depth $k$ ($k$-CESs). These are subspaces of multipartite Hilbert spaces containing only pure states with the entanglement depth at least $k$. We present an efficient construction of $k$-CESs of any achievable dimensionality in any multipartite scenario. Further, we discuss the relation between these subspaces and unextendible product bases (UPBs). In particular, we establish that there is a non-trivial bound on the cardinality of a UPB whose orthocomplement is a $k$-CES. Further, we discuss existence of such UPBs for qubit systems.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-15
# ParamISP: カメラパラメータを用いた前方および逆ISPの学習

ParamISP: Learned Forward and Inverse ISPs using Camera Parameters ( http://arxiv.org/abs/2312.13313v2 )

ライセンス: Link先を確認
Woohyeok Kim, Geonu Kim, Junyong Lee, Seungyong Lee, Seung-Hwan Baek, Sunghyun Cho, (参考訳) RAW画像は、カメラISPが取得したsRGB画像に比べてデータサイズが大きすぎるため、ほとんど共有されない。 近年,カメラISPの前方・逆過程の学習が実証されており,入力sRGB画像に対する物理的に意味のあるRAWレベルの画像処理が可能になっている。 しかし、既存の学習ベースのISPメソッドは、ISOや露光時間などのカメラパラメータに関して、ISPプロセスの大きなバリエーションを処理できず、様々なアプリケーションで使用される場合に制限がある。 本稿では,SRGBとRAW画像の前方・逆変換を学習ベースで行うParamISPを提案する。 EXIFデータに提供されるカメラパラメータを考えると、ParamNetはISPネットワークを制御するために特徴ベクトルに変換する。 大規模な実験により、ParamISPは従来の方法に比べて優れたRAWおよびsRGB再構成結果が得られることが示され、データセット合成の劣化、生の劣化、HDR再構成、カメラ・カメラ・カメラ・トランスファーなど様々な用途に効果的に利用できる。

RAW images are rarely shared mainly due to its excessive data size compared to their sRGB counterparts obtained by camera ISPs. Learning the forward and inverse processes of camera ISPs has been recently demonstrated, enabling physically-meaningful RAW-level image processing on input sRGB images. However, existing learning-based ISP methods fail to handle the large variations in the ISP processes with respect to camera parameters such as ISO and exposure time, and have limitations when used for various applications. In this paper, we propose ParamISP, a learning-based method for forward and inverse conversion between sRGB and RAW images, that adopts a novel neural-network module to utilize camera parameters, which is dubbed as ParamNet. Given the camera parameters provided in the EXIF data, ParamNet converts them into a feature vector to control the ISP networks. Extensive experiments demonstrate that ParamISP achieve superior RAW and sRGB reconstruction results compared to previous methods and it can be effectively used for a variety of applications such as deblurring dataset synthesis, raw deblurring, HDR reconstruction, and camera-to-camera transfer.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-15
# 産業異常検出のための構成論理を解明するショット部分分割法

Few Shot Part Segmentation Reveals Compositional Logic for Industrial Anomaly Detection ( http://arxiv.org/abs/2312.13783v2 )

ライセンス: Link先を確認
Soopil Kim, Sion An, Philip Chikontwe, Myeongkyun Kang, Ehsan Adeli, Kilian M. Pohl, Sang Hyun Park, (参考訳) 論理異常(英: Logical Anomalies, LA)とは、画像内の成分の量、配置、構成など、基礎となる論理的制約に違反するデータを指す。 このような異常を正確に検出するには、セグメンテーションを通じて様々なコンポーネントタイプを推論する必要がある。 しかし、セマンティックセグメンテーションのためのピクセルレベルのアノテーションのキュレーションには時間と費用がかかる。 以前の少数ショットや教師なしのコパートセグメンテーションアルゴリズムはいくつか存在するが、産業オブジェクトのイメージでは失敗することが多い。 これらの画像には同様のテクスチャや形状の部品があり、正確な区別は難しい。 本研究では,いくつかのラベル付きサンプルと,論理的制約を共有する未ラベル画像を利用するLA検出のための新しい成分分割モデルを提案する。 ラベル付き画像間の一貫したセグメンテーションを確保するために,エントロピーロスと合わせてヒストグラムマッチングロスを用いる。 セグメンテーション予測が重要な役割を担いながら,3つのメモリバンク(クラスヒストグラム,コンポーネント構成埋め込み,パッチレベルの表現)を通して視覚的意味論から重要な側面を捉えることにより,局所的および大域的サンプルの妥当性を検出することを提案する。 LAを効果的に検出するために,異なるメモリバンクからの異常スコアを推論で標準化する適応スケーリング手法を提案する。 公開ベンチマーク MVTec LOCO AD での大規模な実験により、我々の手法は LA 検出において 98.1% AUROC を達成し、競合する手法では 89.6% を達成した。

Logical anomalies (LA) refer to data violating underlying logical constraints e.g., the quantity, arrangement, or composition of components within an image. Detecting accurately such anomalies requires models to reason about various component types through segmentation. However, curation of pixel-level annotations for semantic segmentation is both time-consuming and expensive. Although there are some prior few-shot or unsupervised co-part segmentation algorithms, they often fail on images with industrial object. These images have components with similar textures and shapes, and a precise differentiation proves challenging. In this study, we introduce a novel component segmentation model for LA detection that leverages a few labeled samples and unlabeled images sharing logical constraints. To ensure consistent segmentation across unlabeled images, we employ a histogram matching loss in conjunction with an entropy loss. As segmentation predictions play a crucial role, we propose to enhance both local and global sample validity detection by capturing key aspects from visual semantics via three memory banks: class histograms, component composition embeddings and patch-level representations. For effective LA detection, we propose an adaptive scaling strategy to standardize anomaly scores from different memory banks in inference. Extensive experiments on the public benchmark MVTec LOCO AD reveal our method achieves 98.1% AUROC in LA detection vs. 89.6% from competing methods.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-15
# 周期駆動型オープン量子システム:スペクトル特性と非平衡定常状態

Periodically Driven Open Quantum Systems: Spectral Properties and Non-Equilibrium Steady States ( http://arxiv.org/abs/2401.00131v3 )

ライセンス: Link先を確認
Hao Chen, Yu-Min Hu, Wucheng Zhang, Michael Alexander Kurniawan, Yuelin Shao, Xueqi Chen, Abhinav Prem, Xi Dai, (参考訳) 本稿では,Floquet-Lindbladマスター方程式の枠組み内で周期的に駆動されるオープン量子系について検討する。 具体的には、コヒーレントな時間周期駆動の存在下でのリンドブラッドマスター方程式について議論し、それらの一般的なスペクトル特性を確立する。 また、このスペクトルの観点から過渡解と非退化解の概念を明確にし、次に、フロケ=リンド方程式によって記述される任意の物理系が、単位固有値を持つフロケ=リンド進化超約数 $\mathcal{U}_F$ の固有値に対応する少なくとも 1 つの \textit{physical} 非平衡定常状態 (NESS) を持つ必要があることを証明した。 Floquet-Lindblad形式はNESSに関する全ての情報をカプセル化しているので、原則として、すべての注文に対して同時に非線形効果を得ることができる。 そこでFloquet-Lindblad形式は、絶縁固体の単純な2バンドモデルの非線形光学応答を導出し、ケルディシュ法によって確立された先行結果と比較することにより、駆動散逸固体系を研究する強力なツールを提供する。

In this article, we investigate periodically driven open quantum systems within the framework of Floquet-Lindblad master equations. Specifically, we discuss Lindblad master equations in the presence of a coherent, time-periodic driving and establish their general spectral features. We also clarify the notions of transient and non-decaying solutions from this spectral perspective, and then prove that any physical system described by a Floquet-Lindblad equation must have at least one \textit{physical} non-equilibrium steady state (NESS), corresponding to an eigenoperator of the Floquet-Lindblad evolution superoperator $\mathcal{U}_F$ with unit eigenvalue. Since the Floquet-Lindblad formalism encapsulates the entire information regarding the NESS, it in principle enables us to obtain non-linear effects to all orders at once. The Floquet-Lindblad formalism thus provides a powerful tool for studying driven-dissipative solid-state systems, which we illustrate by deriving the nonlinear optical response of a simple two-band model of an insulating solid and comparing it with prior results established through Keldysh techniques.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-15
# 運転映像の時間周波数モデリングによるテキスト駆動交通異常検出

Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos ( http://arxiv.org/abs/2401.03522v2 )

ライセンス: Link先を確認
Rongqin Liang, Yuanman Li, Jiantao Zhou, Xia Li, (参考訳) 運転ビデオにおける交通異常検出(TAD)は、自動運転と高度な運転支援システムの安全性を確保するために重要である。 従来の単一ステージTAD手法は主にフレーム予測に依存しており、ダッシュボードカメラの高速移動によって引き起こされる動的背景からの干渉に弱い。 2段階のTAD法は、背景非依存の特徴(バウンディングボックスや光フローなど)を知覚アルゴリズムで事前に抽出することで、そのような干渉を軽減する自然な解であるように見えるが、第一段階の知覚アルゴリズムの性能に敏感であり、エラーの伝播をもたらす可能性がある。 本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTTHFを紹介し,交通異常検出の新しい視点を提供する。 従来の手法とは異なり、我々の手法の教師付き信号は直交する1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。 さらに、視覚表現に関して、時間領域における駆動映像の高頻度をモデル化することを提案する。 このモデリングは、運転シーンの動的変化を捉え、運転行動の知覚を高め、交通異常の検出を大幅に改善する。 さらに,様々な交通異常をよりよく知覚するために,視覚的かつ言語的に関心の視覚的文脈に適応的に焦点を合わせ,交通異常の検出を容易にするような注意深い異常集中機構を慎重に設計する。 提案したTTHFは,DoTAデータセット上では+5.4%,DADデータセットでは高い一般化を達成し,最先端の競合よりも高い性能を実現している。

Traffic anomaly detection (TAD) in driving videos is critical for ensuring the safety of autonomous driving and advanced driver assistance systems. Previous single-stage TAD methods primarily rely on frame prediction, making them vulnerable to interference from dynamic backgrounds induced by the rapid movement of the dashboard camera. While two-stage TAD methods appear to be a natural solution to mitigate such interference by pre-extracting background-independent features (such as bounding boxes and optical flow) using perceptual algorithms, they are susceptible to the performance of first-stage perceptual algorithms and may result in error propagation. In this paper, we introduce TTHF, a novel single-stage method aligning video clips with text prompts, offering a new perspective on traffic anomaly detection. Unlike previous approaches, the supervised signal of our method is derived from languages rather than orthogonal one-hot vectors, providing a more comprehensive representation. Further, concerning visual representation, we propose to model the high frequency of driving videos in the temporal domain. This modeling captures the dynamic changes of driving scenes, enhances the perception of driving behavior, and significantly improves the detection of traffic anomalies. In addition, to better perceive various types of traffic anomalies, we carefully design an attentive anomaly focusing mechanism that visually and linguistically guides the model to adaptively focus on the visual context of interest, thereby facilitating the detection of traffic anomalies. It is shown that our proposed TTHF achieves promising performance, outperforming state-of-the-art competitors by +5.4% AUC on the DoTA dataset and achieving high generalization on the DADA dataset.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-15
# 人間対LMM:デジタルコミュニケーションにおける絵文字解釈と利用の相違を探る

Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication ( http://arxiv.org/abs/2401.08212v2 )

ライセンス: Link先を確認
Hanjia Lyu, Weihong Qi, Zhongyu Wei, Jiebo Luo, (参考訳) 大規模マルチモーダルモデル(LMM)を利用して、特にソーシャルメディアの文脈において、多モーダル情報を処理する際の人間の振る舞いをシミュレートしている。 デジタルコミュニケーションの最もユニークな側面の1つである絵文字は、感情的次元と声調次元を豊かにし、しばしば明確化する上で重要な要素である。 しかし、これらの高度なモデル、例えばGPT-4Vは、オンラインインタラクションの微妙な文脈において、絵文字を解釈し、採用する方法を理解する上で、顕著なギャップがある。 本研究は,人型絵文字の複製におけるGPT-4Vの挙動を調べることによって,このギャップを埋めることを目的とする。 この結果は、人間の解釈の主観的性質とGPT-4Vの英語中心の訓練の限界により、人間とGPT-4Vの行動に明確な相違があることを示し、非英語文化の文化的偏見と不十分な表現を示唆している。

Leveraging Large Multimodal Models (LMMs) to simulate human behaviors when processing multimodal information, especially in the context of social media, has garnered immense interest due to its broad potential and far-reaching implications. Emojis, as one of the most unique aspects of digital communication, are pivotal in enriching and often clarifying the emotional and tonal dimensions. Yet, there is a notable gap in understanding how these advanced models, such as GPT-4V, interpret and employ emojis in the nuanced context of online interaction. This study intends to bridge this gap by examining the behavior of GPT-4V in replicating human-like use of emojis. The findings reveal a discernible discrepancy between human and GPT-4V behaviors, likely due to the subjective nature of human interpretation and the limitations of GPT-4V's English-centric training, suggesting cultural biases and inadequate representation of non-English cultures.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-15
# 無限距離ペンソン-コルブ対化機構としてのBardeen-Cooper-Schrieffer相互作用

Bardeen-Cooper-Schrieffer interaction as an infinite-range Penson-Kolb pairing mechanism ( http://arxiv.org/abs/2401.16877v3 )

ライセンス: Link先を確認
Francesco Romeo, Alfonso Maiellaro, (参考訳) 実空間で考えると、よく知られた$(k\uparrow, -k\downarrow)$ Bardeen-Cooper-Schrieffer相互作用は、魅力的なハバード項と共存する無限範囲のペンソン=コルブペアリング機構と等価であることを示す。 この発見と導電特性の探索を目的として, リング状格子に閉じ込められたフェルミオン粒子の力学について検討した。 フェミオンはペアリング相互作用とアハロノフ・ボーム電磁相の影響を同時に受けており、これは非自明な方法でモデルに組み込まれていると仮定する。 上記のモデルは、印加された磁束 $\Phi/\Phi_0$ の整数値と半整数値の両方に対するリチャードソン積分性を示し、真の多体問題の正確な解を可能にする。 本研究では, 2粒子系および多粒子系の基底状態特性について考察し, 魅力的なハバードモデルとの比較を行った。 提案手法は, 正対角化, 密度行列再正規化群法, リチャードソン方程式の数値解を組み合わせたものである。 この包括的分析により、相互作用強度の関数としてのシステムの伝導率など、様々な重要な指標を研究することができる。 このようにして、BCS-BEC遷移は連続的に研究され、超伝導ペアリングの基本的な側面に光を放つことができる。 以上の知見は, 凝縮物質文脈, あるいは, より高い制御レベルにおいて, 原子線プラットフォームを用いて実験的に検証することができる。

We demonstrate that the well-known $(k\uparrow, -k\downarrow)$ Bardeen-Cooper-Schrieffer interaction, when considered in real space, is equivalent to an infinite-range Penson-Kolb pairing mechanism coexisting with an attractive Hubbard term. Driven by this discovery and aiming at exploring the conduction properties, we investigate the dynamics of fermionic particles confined in a ring-shaped lattice. We assume that fermions are simultaneously influenced by the pairing interaction and by an Aharonov-Bohm electromagnetic phase, which is incorporated into the model in a highly non-trivial manner. Remarkably, the aforementioned model shows Richardson integrability for both integer and half-integer values of the applied magnetic flux $\Phi/\Phi_0$, thus permitting the exact solution of a genuine many-body problem. We discuss the ground state properties of both two-particle and many-particle systems, drawing comparisons with results from the attractive Hubbard model. Our approach combines exact diagonalization, density matrix renormalization group techniques, and numerical solution of the Richardson equations. This comprehensive analysis allows us to study various key metrics, including the system's conductivity as a function of the interaction strength. In this way, the BCS-BEC transition is investigated in a continuous manner, thus permitting to shed light on fundamental aspects of superconducting pairing. Our findings can be experimentally tested in a condensed matter context or, with greater level of control, using atomtronics platforms.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-15
# マルチステージ不確実性認識によるユーザ信頼の維持

Maintaining User Trust Through Multistage Uncertainty Aware Inference ( http://arxiv.org/abs/2402.00015v2 )

ライセンス: Link先を確認
Chandan Agrawal, Ashish Papanai, Jerome White, (参考訳) 本稿では,AIデプロイメントにおけるマルチステージアプローチについて述べる。 それぞれのステージにはより正確な推論方法が伴うが、各ステージへの関与にはコストの増大が伴う。 アーキテクチャの概要を述べる際に,信頼性の高い推論決定を容易にするモデル不確実性を定量化する手法を提案する。 現在、この建築はインド全土の綿花農家に活発に展開されている。 しかし、より広範なアイデアは、低リソース設定に挑戦するAIデプロイメントの分野の増加に適用できる。

This paper describes and evaluates a multistage approach to AI deployment. Each stage involves a more accurate method of inference, yet engaging each comes with an increasing cost. In outlining the architecture, we present a method for quantifying model uncertainty that facilitates confident deferral decisions. The architecture is currently under active deployment to thousands of cotton farmers across India. The broader idea however is applicable to a growing sector of AI deployments in challenging low resources settings.
翻訳日:2024-04-16 22:38:09 公開日:2024-04-15
# O(\frac{\sqrt{d}}{T^{1/4}})$RMSPropの収束率とそのモメンタム拡張について

On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm ( http://arxiv.org/abs/2402.00389v3 )

ライセンス: Link先を確認
Huan Li, Zhouchen Lin, (参考訳) 適応的勾配法は深層学習において広く用いられているが、文献で証明された収束速度はSGDよりも遅く、特にその次元への依存に関して遅くなっている。 本稿では、古典的 RMSProp とその運動量拡大を考慮し、$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ を有界勾配の仮定なしに$\ell_1$ノルムで測定し、$d$ は最適化変数の次元、$T$ は反復数、$C$ は SGD の最適収束率に現れる定数である。 我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。 $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ が非常に大きな$d$ を持つ問題に対して与えられるので、我々の収束率は $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$ $\|\nabla f(x)\|_1=\varTheta(\sqrt{d}\|\nabla f(x)\|_2$$ に類似していると考えられる。

Although adaptive gradient methods have been extensively used in deep learning, their convergence rates proved in the literature are all slower than that of SGD, particularly with respect to their dependence on the dimension. This paper considers the classical RMSProp and its momentum extension and establishes the convergence rate of $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$ measured by $\ell_1$ norm without the bounded gradient assumption, where $d$ is the dimension of the optimization variable, $T$ is the iteration number, and $C$ is a constant identical to that appeared in the optimal convergence rate of SGD. Our convergence rate matches the lower bound with respect to all the coefficients except the dimension $d$. Since $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ for problems with extremely large $d$, our convergence rate can be considered to be analogous to the $\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$ rate of SGD in the ideal case of $\|\nabla f(x)\|_1=\varTheta(\sqrt{d}\|\nabla f(x)\|_2)$.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-15
# 軌跡収集とプロセス・リワード合成による計画的推論の学習

Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing ( http://arxiv.org/abs/2402.00658v2 )

ライセンス: Link先を確認
Fangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty, (参考訳) 大規模言語モデル(LLM)は、ステップ・バイ・ステップの合理性生成を通じて複雑な推論タスクを扱う大きな可能性を示している。 しかし、近年の研究では、その推論過程における幻覚や欠陥が懸念されている。 生成された合理性の信頼性と忠実性を改善するため、実質的な努力がなされている。 あるアプローチでは、推論を計画としてモデル化し、別のアプローチでは、プロセスの監視に注釈を付けることに重点を置いている。 それにもかかわらず、計画に基づく探索プロセスは、中間的推論状態と広範囲な探索空間の頻繁な評価により、しばしばレイテンシが高くなる。 加えて、人間のアノテーションによる推論プロセスの監視は、LLMトレーニングのために費用がかかり、スケールが難しい。 これらの課題に対処するため,本論文では,プロセスの報酬に応じてランク付けされた収集トラジェクトリ上で,DPO(Direct Preference Optimization)を通じて計画に基づく推論を学習するフレームワークを提案する。 GPT-3.5-Turboのような強力なモデルを超えることができることを示す。

Large Language Models (LLMs) have demonstrated significant potential in handling complex reasoning tasks through step-by-step rationale generation. However, recent studies have raised concerns regarding the hallucination and flaws in their reasoning process. Substantial efforts are being made to improve the reliability and faithfulness of the generated rationales. Some approaches model reasoning as planning, while others focus on annotating for process supervision. Nevertheless, the planning-based search process often results in high latency due to the frequent assessment of intermediate reasoning states and the extensive exploration space. Additionally, supervising the reasoning process with human annotation is costly and challenging to scale for LLM training. To address these issues, in this paper, we propose a framework to learn planning-based reasoning through Direct Preference Optimization (DPO) on collected trajectories, which are ranked according to synthesized process rewards. Our results on challenging logical reasoning benchmarks demonstrate the effectiveness of our learning framework, showing that our 7B model can surpass the strong counterparts like GPT-3.5-Turbo.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-15
# グラディエント・インバージョン・アタックにおけるハードラベル制約の除去に向けて

Towards Eliminating Hard Label Constraints in Gradient Inversion Attacks ( http://arxiv.org/abs/2402.03124v2 )

ライセンス: Link先を確認
Yanbo Wang, Jian Liang, Ran He, (参考訳) グラディエント・インバージョン・アタックは、フェデレート学習フレームワークで公開された中間勾配から局所的なトレーニングデータを再構築することを目的としている。 攻撃が成功したにも拘わらず、単一のデータポイントの再構築からバッチレベルへのシングルイメージ制限の緩和に至るまで、以前のすべてのメソッドは、ハードラベルの制約の下でのみテストされる。 単一画像再構成においても、拡張ソフトラベルを復元する解析に基づくアルゴリズムはいまだに存在しない。 本研究では,学習過程においてラベルの平滑化やミキサアップ技術を用いた場合の,より現実的な状況を考慮して,バッチサイズの拡大からハードラベル制約の調査へと焦点を移す。 特に、我々は、単一入力勾配から最後の完全接続層の基底構造拡張ラベルと入力特徴を同時に回復する新しいアルゴリズムを最初に開始し、分析に基づくラベル回復手法に必要な条件を提供する。 広範囲にわたる実験は、ラベル回復精度、および以下の画像再構成の利点を実証する。 我々は、分類タスクにおけるソフトラベルは、勾配反転攻撃においてさらに注意を払う価値があると考えている。

Gradient inversion attacks aim to reconstruct local training data from intermediate gradients exposed in the federated learning framework. Despite successful attacks, all previous methods, starting from reconstructing a single data point and then relaxing the single-image limit to batch level, are only tested under hard label constraints. Even for single-image reconstruction, we still lack an analysis-based algorithm to recover augmented soft labels. In this work, we change the focus from enlarging batchsize to investigating the hard label constraints, considering a more realistic circumstance where label smoothing and mixup techniques are used in the training process. In particular, we are the first to initiate a novel algorithm to simultaneously recover the ground-truth augmented label and the input feature of the last fully-connected layer from single-input gradients, and provide a necessary condition for any analytical-based label recovery methods. Extensive experiments testify to the label recovery accuracy, as well as the benefits to the following image reconstruction. We believe soft labels in classification tasks are worth further attention in gradient inversion attacks.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-15
# 置換に基づく重みマッチングによる線形モード接続性の解析

Analysis of Linear Mode Connectivity via Permutation-Based Weight Matching ( http://arxiv.org/abs/2402.04051v3 )

ライセンス: Link先を確認
Akira Ito, Masanori Yamada, Atsutoshi Kumagai, (参考訳) 近年、Ainsworthらはモデルパラメータの置換探索において、ウェイトマッチング(WM)を用いて$L_2$距離を最小化し、線形モード接続性(LMC)を満たす置換を効果的に同定することを示した。 本稿では,WMを用いたLCCの理論解析を行い,確率勾配降下の有効性とモデルマージなどの分野への応用について考察する。 まず,WM が検出した置換が 2 つのモデル間の距離を著しく減少させるわけではなく,LCC の発生は WM 自体の距離減少によるものではないことを実験的に理論的に示す。 次に、置換が各層における重み行列の特異ベクトルの方向を変えることができるが、特異値ではないことを示す理論的洞察を与える。 この発見は、WM によって発見された置換が、主にモデル全体の大きな特異値に付随する特異ベクトルの方向と一致していることを示している。 このアライメントは、単数ベクトルに大きな特異値をもたらし、これは、事前結合されたモデルと後マージされたモデルの間に近いモデル機能を決定するので、後マージされたモデルは、前マージされたモデルと同様の機能を保持し、LCCを満たすのが簡単である。 最後に、データセット依存の置換探索法であるWMとストレートスルー推定器(STE)の違いを分析し、特に3つ以上のモデルを統合する場合、WMがSTEより優れていることを示す。

Recently, Ainsworth et al. showed that using weight matching (WM) to minimize the $L_2$ distance in a permutation search of model parameters effectively identifies permutations that satisfy linear mode connectivity (LMC), in which the loss along a linear path between two independently trained models with different seeds remains nearly constant. This paper provides a theoretical analysis of LMC using WM, which is crucial for understanding stochastic gradient descent's effectiveness and its application in areas like model merging. We first experimentally and theoretically show that permutations found by WM do not significantly reduce the $L_2$ distance between two models and the occurrence of LMC is not merely due to distance reduction by WM in itself. We then provide theoretical insights showing that permutations can change the directions of the singular vectors, but not the singular values, of the weight matrices in each layer. This finding shows that permutations found by WM mainly align the directions of singular vectors associated with large singular values across models. This alignment brings the singular vectors with large singular values, which determine the model functionality, closer between pre-merged and post-merged models, so that the post-merged model retains functionality similar to the pre-merged models, making it easy to satisfy LMC. Finally, we analyze the difference between WM and straight-through estimator (STE), a dataset-dependent permutation search method, and show that WM outperforms STE, especially when merging three or more models.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-15
# 画像に基づく新しいコンクリートの特性の時間依存性予測のための深層学習

Image-based Deep Learning for the time-dependent prediction of fresh concrete properties ( http://arxiv.org/abs/2402.06611v2 )

ライセンス: Link先を確認
Max Meyer, Amadeus Langer, Max Mehltretter, Dries Beyer, Max Coenen, Tobias Schack, Michael Haist, Christian Heipke, (参考訳) コンクリート生産プロセスにおけるデジタル化と自動化の度合いの増大は、コンクリート生産に関連するCO$_2$排出を削減する上で重要な役割を果たす。 本稿では, コンクリートの流動挙動の立体画像シーケンスに基づいて, 混合過程における新鮮なコンクリートの特性を予測できる手法を提案する。 この予測には畳み込みニューラルネットワーク(CNN)が使用され、ミックスデザインの情報によって支持される画像を入力として受信する。 また、画像が撮られた時間と、コンクリートの基準値が実行された時間との時間差の形で、時間情報を受信する。 この時間的情報を用いて、ネットワークはコンクリート特性の時間依存的な振る舞いを暗黙的に学習する。 ネットワークはスランプ流径, 降伏応力, 塑性粘度を予測する。 時間依存予測は、既に混合中の新鮮なコンクリートの時間的発達を決定する経路を開く可能性がある。 これはコンクリート産業にとって大きなアドバンテージとなります。 その結果、タイムリーに対策を取ることができる。 混合設計の情報によって支援された深度と光学的流れの画像に基づくアプローチが,最良の結果が得られることを示す。

Increasing the degree of digitisation and automation in the concrete production process can play a crucial role in reducing the CO$_2$ emissions that are associated with the production of concrete. In this paper, a method is presented that makes it possible to predict the properties of fresh concrete during the mixing process based on stereoscopic image sequences of the concretes flow behaviour. A Convolutional Neural Network (CNN) is used for the prediction, which receives the images supported by information on the mix design as input. In addition, the network receives temporal information in the form of the time difference between the time at which the images are taken and the time at which the reference values of the concretes are carried out. With this temporal information, the network implicitly learns the time-dependent behaviour of the concretes properties. The network predicts the slump flow diameter, the yield stress and the plastic viscosity. The time-dependent prediction potentially opens up the pathway to determine the temporal development of the fresh concrete properties already during mixing. This provides a huge advantage for the concrete industry. As a result, countermeasures can be taken in a timely manner. It is shown that an approach based on depth and optical flow images, supported by information of the mix design, achieves the best results.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-15
# 最後のJITAI? ジャスト・イン・タイム・アダプティブ・インターベンションにおける大規模言語モデルの不合理な有効性: 心リハビリテーションにおける身体活動の育成

The Last JITAI? The Unreasonable Effectiveness of Large Language Models in Issuing Just-in-Time Adaptive Interventions: Fostering Physical Activity in a Prospective Cardiac Rehabilitation Setting ( http://arxiv.org/abs/2402.08658v2 )

ライセンス: Link先を確認
David Haag, Devender Kumar, Sebastian Gruber, Mahdi Sareban, Gunnar Treff, Josef Niebauer, Christopher Bull, Jan David Smeddinck, (参考訳) デジタルヘルスにおけるジャスト・イン・タイム・アダプティブ・インターベンション(JITAI)のコンテンツのトリガーおよびパーソナライズにLarge Language Models (LLMs) を用いることの有効性を検討した。 JITAIは、持続的な行動変化の鍵となるメカニズムとして検討されており、個人の現在の状況とニーズに介入を適用する。 しかし、JITAI実装のための従来のルールベースおよび機械学習モデルは、パーソナライゼーションの欠如、マルチパラメトリックシステム管理の困難さ、データ空間の問題など、スケーラビリティと柔軟性の制限に直面している。 LLMを用いたJITAIの実施について検討するため, 患者の心疾患リハビリテーションにおける心健康な身体活動の育成を事例として, 現代の総合的パフォーマンス改善モデル「GPT-4」を検証した。 JITAIのトリガーおよびパーソナライズの基礎として,3人のペルソナと5組のコンテキスト情報を使用した。 その後,450件のJITAI決定とメッセージ内容を生成し,GPT-4による10回のJITAIと10人のレイパー(LayPs)によるベースライン,および10人の医療専門家によるゴールドスタンダード(HCPs)に等しく分割した。 27のLayPsと11のHCPsからの評価では、GPT-4で生成されたJITAIは全ての評価尺度(適切性、エンゲージメント、有効性、専門性)よりもHCPsとLayPsの方が優れていた。 本研究は, JITAIを個人化あるいは「精度」の健康構築ブロックとして実装し, 拡張性, サンプル情報に基づく効果的なパーソナライズ, 良好な受容性を有することを示す。

We investigated the viability of using Large Language Models (LLMs) for triggering and personalizing content for Just-in-Time Adaptive Interventions (JITAIs) in digital health. JITAIs are being explored as a key mechanism for sustainable behavior change, adapting interventions to an individual's current context and needs. However, traditional rule-based and machine learning models for JITAI implementation face scalability and flexibility limitations, such as lack of personalization, difficulty in managing multi-parametric systems, and issues with data sparsity. To investigate JITAI implementation via LLMs, we tested the contemporary overall performance-leading model 'GPT-4' with examples grounded in the use case of fostering heart-healthy physical activity in outpatient cardiac rehabilitation. Three personas and five sets of context information per persona were used as a basis of triggering and personalizing JITAIs. Subsequently, we generated a total of 450 proposed JITAI decisions and message content, divided equally into JITAIs generated by 10 iterations with GPT-4, a baseline provided by 10 laypersons (LayPs), and a gold standard set by 10 healthcare professionals (HCPs). Ratings from 27 LayPs and 11 HCPs indicated that JITAIs generated by GPT-4 were superior to those by HCPs and LayPs over all assessed scales: i.e., appropriateness, engagement, effectiveness, and professionality. This study indicates that LLMs have significant potential for implementing JITAIs as a building block of personalized or "precision" health, offering scalability, effective personalization based on opportunistically sampled information, and good acceptability.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# コントラストプレトレーニングによるコメント支援型ビデオ言語アライメントによる短時間ビデオヒューム検出

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection ( http://arxiv.org/abs/2402.09055v3 )

ライセンス: Link先を確認
Yang Liu, Tongfei Shen, Dong Zhang, Qingying Sun, Shoushan Li, Guodong Zhou, (参考訳) 感情コンピューティングにおけるマルチモーダルなユーモア検出の重要性の高まりは、ソーシャルメディアプラットフォームにおけるショートフォームビデオ共有の影響の増大と相関している。 本稿では,データ拡張型マルチモーダルコントラスト事前学習により,SVHD(Commitment-aided Video-Language Alignment, CVLA)という2分岐階層モデルを提案する。 特に、CVLAは、様々なモーダルチャネルをまたいだ生信号を操作するだけでなく、一貫したセマンティック空間内にビデオと言語コンポーネントを整列させることにより、適切なマルチモーダル表現を生成する。 DY11kとUR-FUNNYを含む2つのユーモア検出データセットの実験結果は、CVLAが最先端といくつかの競合するベースラインアプローチを劇的に上回っていることを示している。 データセット、コード、モデルリリースは、https://github.com/yliu-cs/CVLA。

The growing importance of multi-modal humor detection within affective computing correlates with the expanding influence of short-form video sharing on social media platforms. In this paper, we propose a novel two-branch hierarchical model for short-form video humor detection (SVHD), named Comment-aided Video-Language Alignment (CVLA) via data-augmented multi-modal contrastive pre-training. Notably, our CVLA not only operates on raw signals across various modal channels but also yields an appropriate multi-modal representation by aligning the video and language components within a consistent semantic space. The experimental results on two humor detection datasets, including DY11k and UR-FUNNY, demonstrate that CVLA dramatically outperforms state-of-the-art and several competitive baseline approaches. Our dataset, code and model release at https://github.com/yliu-cs/CVLA.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# 材料のためのユニバーサル機械学習Kohn-Sham Hamiltonian

Universal Machine Learning Kohn-Sham Hamiltonian for Materials ( http://arxiv.org/abs/2402.09251v2 )

ライセンス: Link先を確認
Yang Zhong, Hongyu Yu, Jihui Yang, Xingyu Guo, Hongjun Xiang, Xingao Gong, (参考訳) 密度汎関数理論(DFT)は電子構造計算において一般的な計算手法であるが、その計算要求とスケーラビリティの限界は持続する。 近年,Khn-Sham DFT Hamiltonian のパラメータ化にニューラルネットワークを活用することが,電子構造計算を高速化するための有望な道として浮上している。 進歩にもかかわらず、各新システムの探索に広範囲なDFTトレーニングデータを計算する必要があることや、多要素材料のための正確なMLモデルを確立する複雑さといった課題が残っている。 これらのハードルに対処するため、本研究では、材料プロジェクトにおけるほぼ全ての結晶構造の第一原理DFT計算から得られたハミルトン行列に基づいて訓練された普遍電子ハミルトニアンモデルを導入する。 本稿では, 複合多元素系, 固体電解質, Moir\'e ねじれた二層構造, および金属-有機組織 (MOF) を含む, 周期表全体にわたる電子構造予測の一般性を示す。 さらに,この普遍モデルを用いて,GeNOMEデータセットの電子構造を高速に計算し,直接バンドギャップを持つ3,940個の結晶と平面バンドを持つ5,109個の結晶を同定した。 電子特性を計算するための信頼性の高いフレームワークを提供することにより、この普遍的ハミルトンモデルは、電子構造の巨大なデータセットを容易に提供したり、周期表全体の材料設計を可能にするなど、様々な分野の進歩の基盤となる。

While density functional theory (DFT) serves as a prevalent computational approach in electronic structure calculations, its computational demands and scalability limitations persist. Recently, leveraging neural networks to parameterize the Kohn-Sham DFT Hamiltonian has emerged as a promising avenue for accelerating electronic structure computations. Despite advancements, challenges such as the necessity for computing extensive DFT training data to explore each new system and the complexity of establishing accurate ML models for multi-elemental materials still exist. Addressing these hurdles, this study introduces a universal electronic Hamiltonian model trained on Hamiltonian matrices obtained from first-principles DFT calculations of nearly all crystal structures on the Materials Project. We demonstrate its generality in predicting electronic structures across the whole periodic table, including complex multi-elemental systems, solid-state electrolytes, Moir\'e twisted bilayer heterostructure, and metal-organic frameworks (MOFs). Moreover, we utilize the universal model to conduct high-throughput calculations of electronic structures for crystals in GeNOME datasets, identifying 3,940 crystals with direct band gaps and 5,109 crystals with flat bands. By offering a reliable efficient framework for computing electronic properties, this universal Hamiltonian model lays the groundwork for advancements in diverse fields, such as easily providing a huge data set of electronic structures and also making the materials design across the whole periodic table possible.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# リー群をもつ確率的ヘッセンフィッティング

Stochastic Hessian Fittings with Lie Groups ( http://arxiv.org/abs/2402.11858v3 )

ライセンス: Link先を確認
Xi-Lin Li, (参考訳) 本稿では, 既定の確率勾配勾配勾配法(PSGD)法を用いて, ヘシアンあるいはその逆の確率勾配最適化におけるヘシアンの適合性について検討する。 解析により, 閉形式から反復解, ヘッセンベクトル積あるいは確率勾配のみを用い, ユークリッド空間におけるヘッセンフィッティング, 対称正定値行列(SPL)の多様体, および様々なリー群に対して, 幅広いプレコンディショナーフィッティング手法の効率性と信頼性の差異を明らかにした。 最も興味深い発見は、Hessian 自身を最適化問題として適合させることが、特定のが一般のリー群を持つ穏やかな条件下で強く凸であることである。 この発見により、ヘシアンフィッティングはよく振る舞う最適化問題となり、大規模確率最適化のための高効率でエレガントなリー群スパースプレコンディショナーフィッティング法の設計が容易になる。

This paper studies the fitting of Hessian or its inverse for stochastic optimizations using a Hessian fitting criterion from the preconditioned stochastic gradient descent (PSGD) method, which is intimately related to many commonly used second order and adaptive gradient optimizers, e.g., BFGS, Gaussian-Newton and natural gradient descent, AdaGrad, etc. Our analyses reveal the efficiency and reliability differences among a wide range of preconditioner fitting methods, from closed-form to iterative solutions, using Hessian-vector products or stochastic gradients only, with Hessian fittings in the Euclidean space, the manifold of symmetric positive definite (SPL) matrices, to a variety of Lie groups. The most intriguing discovery is that the Hessian fitting itself as an optimization problem is strongly convex under mild conditions with a specific yet general enough Lie group. This discovery turns Hessian fitting into a well behaved optimization problem, and facilitates the designs of highly efficient and elegant Lie group sparse preconditioner fitting methods for large scale stochastic optimizations.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# Triad: 知識ベース質問応答を解決するためのマルチロールLLMエージェントを活用したフレームワーク

Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question Answering ( http://arxiv.org/abs/2402.14320v4 )

ライセンス: Link先を確認
Chang Zong, Yuchen Yan, Weiming Lu, Eliot Huang, Jian Shao, Yueting Zhuang, (参考訳) LLMをベースとしたエージェントの最近の進歩は、様々なタスクにおいて有望な結果を示している。 しかし、知識ベースからの質問に対する回答における彼らの利用は、いまだに未解明のままである。 従来の手法によるKBQAシステムの実装は、タスク固有のトレーニングデータの不足とタスク中心のモデル構造を作成する複雑さのために困難である。 本稿では,KBQAタスクに3つの役割を持つLLMエージェントを利用した統合フレームワークTriadを提案する。 エージェントは、さまざまなKBQAサブタスクに取り組むために3つの役割を割り当てられる: 様々なサブタスクをマスターするジェネリストとしてのエージェント、候補者を選ぶための意思決定者としてのエージェント、知識で質問に答えるためのアドバイザーとして。 我々のKBQAフレームワークは、エージェントの複数の役割の協調を含む4つのフェーズで実行される。 その結果,LC-QuADベンチマークとYAGO-QAベンチマークでは,F1スコアが11.8%,20.7%であった。

Recent progress with LLM-based agents has shown promising results across various tasks. However, their use in answering questions from knowledge bases remains largely unexplored. Implementing a KBQA system using traditional methods is challenging due to the shortage of task-specific training data and the complexity of creating task-focused model structures. In this paper, we present Triad, a unified framework that utilizes an LLM-based agent with three roles for KBQA tasks. The agent is assigned three roles to tackle different KBQA subtasks: agent as a generalist for mastering various subtasks, as a decision maker for the selection of candidates, and as an advisor for answering questions with knowledge. Our KBQA framework is executed in four phases, involving the collaboration of the agent's multiple roles. We evaluated the performance of our framework using three benchmark datasets, and the results show that our framework outperforms state-of-the-art systems on the LC-QuAD and YAGO-QA benchmarks, yielding F1 scores of 11.8% and 20.7%, respectively.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# メッセージパッシングニューラルネットワークを用いたサンプリング型分散トレーニング

Sampling-based Distributed Training with Message Passing Neural Network ( http://arxiv.org/abs/2402.15106v2 )

ライセンス: Link先を確認
Priyesh Kakka, Sheel Nidhan, Rishikesh Ranade, Jonathan F. MacArt, (参考訳) 本研究では,ドメイン分割に基づくメッセージパッシングニューラルネットワーク(MPNN)のための分散トレーニングと推論手法を提案する。 我々の目標は、ノード数が増加するにつれてエッジベースのグラフニューラルネットワークをスケールするという課題に対処することである。 分散トレーニングアプローチを通じて、Nystr\"om-approximation sample techniqueと組み合わせて、DS-MPNN(DとSはそれぞれ分散用とサンプル用)と呼ばれるスケーラブルなグラフニューラルネットワークを提案し、最大$O(10^5)のノードをスケールアップできる。 サンプリングと分散トレーニングのアプローチを2つのケースで検証する。 a) ダーシーフローデータセットと b) 単一GPU実装とノードベースグラフ畳み込みネットワーク(GCN)を比較した2次元翼のRANSシミュレーションを行った。 DS-MPNNモデルはシングルGPU実装に匹敵する精度を示し、シングルGPU変種(S-MPNN)と比較してノード数が大幅に増加し、ノードベースGCNよりも大幅に向上する。

In this study, we introduce a domain-decomposition-based distributed training and inference approach for message-passing neural networks (MPNN). Our objective is to address the challenge of scaling edge-based graph neural networks as the number of nodes increases. Through our distributed training approach, coupled with Nystr\"om-approximation sampling techniques, we present a scalable graph neural network, referred to as DS-MPNN (D and S standing for distributed and sampled, respectively), capable of scaling up to $O(10^5)$ nodes. We validate our sampling and distributed training approach on two cases: (a) a Darcy flow dataset and (b) steady RANS simulations of 2-D airfoils, providing comparisons with both single-GPU implementation and node-based graph convolution networks (GCNs). The DS-MPNN model demonstrates comparable accuracy to single-GPU implementation, can accommodate a significantly larger number of nodes compared to the single-GPU variant (S-MPNN), and significantly outperforms the node-based GCN.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# syren-halofit:$$$CDM非線形物質パワースペクトルの高速、解釈可能、高精度な公式

syren-halofit: A fast, interpretable, high-precision formula for the $Λ$CDM nonlinear matter power spectrum ( http://arxiv.org/abs/2402.17492v2 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Benjamin D. Wandelt, Matteo Zennaro, Pedro G. Ferreira, Harry Desmond, (参考訳) 宇宙論のパラメータと赤方偏移の関数として、非線形物質パワースペクトルである$P(k)$の迅速かつ正確な評価は、宇宙論において基本的な重要性である。 解析近似は解釈可能な解を提供するが、現在の近似は数値エミュレータと比較して高速でも正確でもない。 シンボリック回帰法を用いて、非線形スケールに対する単純な解析近似である$k_\sigma$、有効スペクトル指数である$n_{\rm eff}$、およびハロフィットモデルに必要な曲率である$C$を得る。 次に、ハロフィットの係数を広範囲の宇宙論と赤方偏移に合わせるように再最適化する。 解析式空間を探索して、$P(k)$とハロフィットの最適化予測の間の残差に適合させる。 この結果はEuclidEmulator2の予測に合致するように設計されている。 k_\sigma$, $n_{\rm eff}$ と $C$ の記号式はそれぞれ 3 以下の赤方偏移と幅広い宇宙論に対して 0.8%, 0.2%, 0.3% の根平均二乗誤差を持つ。 再最適化されたハロフィットパラメータは、波数$k=9\times 10^{-3}-9 \, h{\rm Mpc^{-1}}$に対して、根平均2乗分数誤差(EuclidEmulator2と比較)を3%から2%以下に減少させる。 本稿では,短い記号補正を含むハロフィットの拡張であるシレンハロフィット(シンボリック・レグレス・エンハンス・ハロフィット)を導入し,この誤差を1%に改善する。 提案手法は,現行のハロフィット実装とhmcode実装の2350倍,EuclidEmulator2(実行クラスを必要とする)とBACCOエミュレータの280倍,64倍の速度である。 我々は,$N$-bodyシミュレーションでテストした結果,EuclidEmulator2とBACCOに匹敵する精度を得た。 我々の研究はシンボリック近似の速度と精度を$P(k)$に大きく上げ、精度を損なうことなく数値計算よりも大幅に速くする。

Rapid and accurate evaluation of the nonlinear matter power spectrum, $P(k)$, as a function of cosmological parameters and redshift is of fundamental importance in cosmology. Analytic approximations provide an interpretable solution, yet current approximations are neither fast nor accurate relative to numerical emulators. We use symbolic regression to obtain simple analytic approximations to the nonlinear scale, $k_\sigma$, the effective spectral index, $n_{\rm eff}$, and the curvature, $C$, which are required for the halofit model. We then re-optimise the coefficients of halofit to fit a wide range of cosmologies and redshifts. We explore the space of analytic expressions to fit the residuals between $P(k)$ and the optimised predictions of halofit. Our results are designed to match the predictions of EuclidEmulator2, but are validated against $N$-body simulations. Our symbolic expressions for $k_\sigma$, $n_{\rm eff}$ and $C$ have root mean squared fractional errors of 0.8%, 0.2% and 0.3%, respectively, for redshifts below 3 and a wide range of cosmologies. The re-optimised halofit parameters reduce the root mean squared fractional error (compared to EuclidEmulator2) from 3% to below 2% for wavenumbers $k=9\times10^{-3}-9 \, h{\rm Mpc^{-1}}$. We introduce syren-halofit (symbolic-regression-enhanced halofit), an extension to halofit containing a short symbolic correction which improves this error to 1%. Our method is 2350 and 3170 times faster than current halofit and hmcode implementations, respectively, and 2680 and 64 times faster than EuclidEmulator2 (which requires running class) and the BACCO emulator. We obtain comparable accuracy to EuclidEmulator2 and BACCO when tested on $N$-body simulations. Our work greatly increases the speed and accuracy of symbolic approximations to $P(k)$, making them significantly faster than their numerical counterparts without loss of accuracy.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-15
# 携帯性への道:自動運転のためのエンド・ツー・エンド・モーション・プランナーを圧縮する

On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving ( http://arxiv.org/abs/2403.01238v2 )

ライセンス: Link先を確認
Kaituo Feng, Changsheng Li, Dongchun Ren, Ye Yuan, Guoren Wang, (参考訳) ディープニューラルネットワークを備えたエンドツーエンドのモーションプランニングモデルは、完全な自律運転を可能にする大きな可能性を示している。 しかし、大きすぎるニューラルネットワークは、リソースに制約のあるシステムへの展開には実用的ではなく、参照中により多くの計算時間とリソースを必要とするため、これを扱うために、より小さな学生モデルでより大きな教師モデルから学習できるようにすることで、モデルを圧縮する有望なアプローチを提供する。 但し, 圧縮型運動プランナーに知識蒸留を適用する方法については, 未だ検討されていない。 本稿では,エンド・ツー・エンド・モーション・プランナの圧縮に適した最初の知識蒸留フレームワークであるPlanKDを提案する。 第一に、運転シーンは本質的に複雑であり、しばしば計画に関係のない、あるいは騒々しい情報を含むことを考えると、学生プランナーにとってそのような情報を転送することは有益ではない。 そこで我々は,全ての情報を無差別に伝達するのではなく,計画関連情報のみを蒸留する情報ボトルネックに基づく戦略を設計する。 第二に、出力計画された軌道の異なる経路ポイントは、ある重要な経路ポイントのわずかなずれが衝突を引き起こすような運動計画において、様々な重要性を持つ。 そこで,我々は,適応重量を異なるウェイポイントに割り当てる安全対応型ウェイポイント蒸留モジュールを考案し,より重要なウェイポイントを正確に模倣することを奨励し,全体的な安全性を向上させる。 実験により、PlanKDは、より小さなプランナーの性能を大きなマージンで向上させ、参照時間を著しく短縮できることが示された。

End-to-end motion planning models equipped with deep neural networks have shown great potential for enabling full autonomous driving. However, the oversized neural networks render them impractical for deployment on resource-constrained systems, which unavoidably requires more computational time and resources during reference.To handle this, knowledge distillation offers a promising approach that compresses models by enabling a smaller student model to learn from a larger teacher model. Nevertheless, how to apply knowledge distillation to compress motion planners has not been explored so far. In this paper, we propose PlanKD, the first knowledge distillation framework tailored for compressing end-to-end motion planners. First, considering that driving scenes are inherently complex, often containing planning-irrelevant or even noisy information, transferring such information is not beneficial for the student planner. Thus, we design an information bottleneck based strategy to only distill planning-relevant information, rather than transfer all information indiscriminately. Second, different waypoints in an output planned trajectory may hold varying degrees of importance for motion planning, where a slight deviation in certain crucial waypoints might lead to a collision. Therefore, we devise a safety-aware waypoint-attentive distillation module that assigns adaptive weights to different waypoints based on the importance, to encourage the student to accurately mimic more crucial waypoints, thereby improving overall safety. Experiments demonstrate that our PlanKD can boost the performance of smaller planners by a large margin, and significantly reduce their reference time.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-15
# 影蒸発バイアス補正によるドーラン橋ジョセフソン接合部のウエハスケール均一性向上

Wafer-scale uniformity improvement of Dolan-bridge Josephson junction by shadow evaporation bias correction ( http://arxiv.org/abs/2403.01894v2 )

ライセンス: Link先を確認
Daria A. Moskaleva, Nikita D. Korshakov, Dmitry O. Moskalev, Anastasiya A. Solovyova, Alexey R. Matanin, Elizaveta I. Malevannaya, Nikita S. Smirnov, Maksim I. Teleganov, Yuri V. Panfilov, Ilya A. Rodionov, (参考訳) 固体超伝導量子プロセッサ技術の実用的限界の1つは、低量子ビット製造再現性による周波数混雑である。 クビットの100nmスケールの非線形インダクタンスを持つジョセフソン接合は、今でもドーランブリッジのシャドウ蒸発過程に悩まされている。 本稿では, 予備シャドウ蒸発バイアス抵抗マスク補正と包括的酸化最適化を用いたロバストウエハスケールAl/AlOx/Al Dolan-bridge Josephson接合(JJ)プロセスについて報告する。 ウェハスケールでの2層レジストマスクバイアスのトポロジー補正モデルを導入し,蒸発源形状を考慮に入れた。 その結果、ジョセフソン接合面積の変動係数は130x170 nm2から130x670 nm2から70x70 mm2 (49 cm2)ウェハ加工領域の臨界次元に対して1.1%まで向上した。 次に,JJ酸化プロセス(酸化法,圧力,時間)とその室温抵抗再現性への影響について検討する。 最後に, 4インチウェハのシャドウ蒸発バイアス補正と酸化ベストプラクティスを併用し, 室温抵抗変動係数を0.025 {\mu}m2 JJ領域で6.0/5.2/4.1%, 0.090 {\mu}m2 JJ領域で4.0/3.4/2.3%, 49/25/16 cm2ウェハ加工領域で4.0/3.4/2.3%とした。 提案したモデルと酸化法は、堅牢なウェハスケール超伝導量子プロセッサ製造に有用である。

One of the practical limitations of solid-state superconducting quantum processors technology is frequency crowding due to low qubits fabrication reproducibility. Josephson junction 100 nm-scale nonlinear inductance of the qubits still suffers from Dolan-bridge shadow evaporation process. Here, we report on a robust wafer-scale Al/AlOx/Al Dolan-bridge Josephson junction (JJ) process using preliminary shadow evaporation bias resist mask correction and comprehensive oxidation optimization. We introduce topology correction model for two-layer resist mask biasing at a wafer-scale, which takes into account an evaporation source geometry. It results in Josephson junction area variation coefficient improvement down to 1.1% for the critical dimensions from 130x170 nm2 to 130x670 nm2 over 70x70 mm2 (49 cm2) wafer working area. Next, we investigate JJ oxidation process (oxidation method, pressure and time) and its impact on a room temperature resistance reproducibility. Finally, we combine both shadow evaporation bias correction and oxidation best practices for 4-inch wafers improving room temperature resistance variation coefficient down to 6.0/5.2/4.1% for 0.025 {\mu}m2 JJ area and 4.0/3.4/2.3% for 0.090 {\mu}m2 JJ area for 49/25/16 cm2 wafer working area correspondingly. The proposed model and oxidation method can be useful for robust wafer-scale superconducting quantum processors fabrication.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-15
# LLMの全ての層は推論時に必要であるとは限らない

Not all Layers of LLMs are Necessary during Inference ( http://arxiv.org/abs/2403.02181v2 )

ライセンス: Link先を確認
Siqi Fan, Xin Jiang, Xiang Li, Xuying Meng, Peng Han, Shuo Shang, Aixin Sun, Yequan Wang, Zhongyuan Wang, (参考訳) 大規模言語モデル(LLM)の推論フェーズは非常に高価である。 LLMの理想的な推論段階は、その能力(例えば、一般化と文脈内学習能力)を維持しながら少ない計算資源を利用することができる。 本稿では,LLM推論の間,簡単なインスタンスに浅いレイヤ,難しいインスタンスに深いレイヤを使用できるか,という問いに答える。 この質問に答えるために、まず、タスク間で活性化されたレイヤを統計的に分析することで、すべてのレイヤが推論中に必要ではないことを示す。 そこで我々は,AdaInferという簡単なアルゴリズムを提案し,入力インスタンスを適応的に予測終了モーメントを決定する。 さらに重要なのは、AdaInferはLLMパラメータを変更しておらず、タスク間の一般化性を維持している点だ。 有名なLLM(Llama2シリーズとOPT)の実験では、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを節約し、同等のパフォーマンスを維持している。 さらに、この手法は他のモデル加速技術と直交しており、推論効率をさらに向上させる可能性がある。

The inference phase of Large Language Models (LLMs) is very expensive. An ideal inference stage of LLMs could utilize fewer computational resources while still maintaining its capabilities (e.g., generalization and in-context learning ability). In this paper, we try to answer the question, "During LLM inference, can we use shallow layers for easy instances; and deep layers for hard ones?" To answer this question, we first indicate that Not all Layers are Necessary during Inference by statistically analyzing the activated layers across tasks. Then, we propose a simple algorithm named AdaInfer to determine the inference termination moment based on the input instance adaptively. More importantly, AdaInfer does not alter LLM parameters and maintains generalizability across tasks. Experiments on well-known LLMs (i.e., Llama2 series and OPT) show that AdaInfer saves an average of 14.8% of computational resources, even up to 50% on sentiment tasks, while maintaining comparable performance. Additionally, this method is orthogonal to other model acceleration techniques, potentially boosting inference efficiency further.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-15
# 線形フォトニッククラスター状態の決定論的生成における時間-双絡

Time-bin entanglement in the deterministic generation of linear photonic cluster states ( http://arxiv.org/abs/2403.08527v2 )

ライセンス: Link先を確認
David Bauch, Nikolas Köcher, Nils Heinisch, Stefan Schumacher, (参考訳) 量子エミッタを$\Lambda$-type電子系で記述した個別量子エミッタを用いて、時間ビン絡み合った光子の列車の効率的な決定論的生成戦略について検討する。 フル微視的数値シミュレーションにおいて, かなりの長さの高品質な線形クラスター状態の生成を明示的に示す。 基礎となるスキームは、精密光駆動による基底状態のコヒーレンス操作に基づいている。 1つの重要な発見は、最も容易にアクセスできる品質指標である、達成可能な回転率(英語版)は、損失に直面して放出された光子の実際の量子相関を評価するのに不足していることである。 これを解決するために、多光子の状態の量子特性に対する優れたゲージとして、安定化器生成期待値を明示的に算出する。 この結果から,量子ドット型システムにおける損失の最小化と現実的なシステムパラメータの制御により,有効長の線形クラスタ状態が生成され,量子情報処理のスケーラビリティが期待できることを示す。

We investigate strategies for the efficient deterministic creation of trains of time-bin entangled photons using an individual quantum emitter described by a $\Lambda$-type electronic system. We explicitly demonstrate generation of high-quality linear cluster states of substantial length in our full microscopic numerical simulations. The underlying scheme is based on the manipulation of ground state coherences through precise optical driving. One important finding is that the most easily accessible quality metrics, the achievable rotation fidelities, fall short in assessing the actual quantum correlations of the emitted photons in the face of losses. To address this, we explicitly calculate stabilizer generator expectation values as a superior gauge for the quantum properties of the many-photon state. Our results illustrate that with controlled minimization of losses and realistic system parameters for quantum-dot type systems, useful linear cluster states of significant lengths can be generated, showcasing promise of scalability for quantum information processing endeavors.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-15
# 文脈内学習における実証的ショートカットの定式化

Rectifying Demonstration Shortcut in In-Context Learning ( http://arxiv.org/abs/2403.09488v3 )

ライセンス: Link先を確認
Joonwon Jang, Sanghwan Jang, Wonbin Kweon, Minjin Jeon, Hwanjo Yu, (参考訳) 大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。 しかし、LCMはICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。 本研究では、この現象を「祝祭ショートカット」と呼ぶ。 従来の研究は主に、事前定義されたタスクに対するICL予測結果の改善に重点を置いているが、我々はデモから新たなインプット-ラベル関係を効果的に学習できるように、Demonstration Shortcutの修正を目指している。 これを実現するために,実証対応キャリブレーション手法であるIn-Context Calibrationを導入する。 提案手法の有効性を,(1)標準ラベル空間を用いたオリジナルICLタスク,(2)意味不明なトークンでラベル空間を置き換えるタスク学習設定の2つの設定で評価する。 どちらの設定でも、In-Context Calibrationは大幅に改善され、様々な構成で3つのLLMファミリ(OPT、GPT、Llama2)にまたがって結果が一般化される。

Large language models (LLMs) are able to solve various tasks with only a few demonstrations utilizing their in-context learning (ICL) abilities. However, LLMs often rely on their pre-trained semantic priors of demonstrations rather than on the input-label relationships to proceed with ICL prediction. In this work, we term this phenomenon as the 'Demonstration Shortcut'. While previous works have primarily focused on improving ICL prediction results for predefined tasks, we aim to rectify the Demonstration Shortcut, thereby enabling the LLM to effectively learn new input-label relationships from demonstrations. To achieve this, we introduce In-Context Calibration, a demonstration-aware calibration method. We evaluate the effectiveness of the proposed method in two settings: (1) the Original ICL Task using the standard label space and (2) the Task Learning setting, where the label space is replaced with semantically unrelated tokens. In both settings, In-Context Calibration demonstrates substantial improvements, with results generalized across three LLM families (OPT, GPT, and Llama2) under various configurations.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-15
# 大規模言語モデルの翻訳能力を向上する新しいパラダイム

A Novel Paradigm Boosting Translation Capabilities of Large Language Models ( http://arxiv.org/abs/2403.11430v2 )

ライセンス: Link先を確認
Jiaxin Guo, Hao Yang, Zongyao Li, Daimeng Wei, Hengchao Shang, Xiaoyu Chen, (参考訳) 本稿では,機械翻訳(MT)タスクの文脈において,大規模言語モデル(LLM)の翻訳能力を向上するための戦略について述べる。 本論文は,一貫した単言語データを用いた二次事前学習,インターリニアテキストフォーマット文書による継続事前学習,および教師付きファインチューニングのためのソース・ランゲージ・コンスタント・インストラクションの活用という,3つの段階からなる新しいパラダイムを提案する。 LLMのこれまでの研究は、教師付き微調整(SFT)の様々な戦略に重点を置いていたが、その効果は限られている。 従来の機械翻訳手法は、大量の並列バイリンガルデータに依存しているが、我々のパラダイムは、より小さな高品質なバイリンガルデータを使用することの重要性を強調している。 我々は、SFT中に広範囲のバイリンガルデータにのみ依存するのではなく、事前訓練中にLLMの言語間アライメント能力を増強することに焦点を当てるべきである、と論じる。 Llama2モデルを用いて実験を行った結果,特にモノリンガル拡張後の中国語-Llama2では,LLMの翻訳能力の向上が示された。 インターリニアテキストフォーマットドキュメンテーションによる継続的な事前トレーニング。これは10B以下のトレーニングデータを必要とするため、メソッドを極めて効率的にする。 さらに、Stage3では、ソースコードと整合性のある命令の設定が教師付き微調整プロセスの恩恵を受けることを観察した。 実験の結果,NLLB-54B や GPT3.5-text-davinci-003 などのモデルと比較して,パラメータ数が 7B や 13B よりも有意に少ないにもかかわらず,本手法は従来の手法よりも優れ,優れた性能を示すことが示された。 この成果は,機械翻訳分野の先駆的戦略として,我々の手法を確立している。

This paper presents a study on strategies to enhance the translation capabilities of large language models (LLMs) in the context of machine translation (MT) tasks. The paper proposes a novel paradigm consisting of three stages: Secondary Pre-training using Extensive Monolingual Data, Continual Pre-training with Interlinear Text Format Documents, and Leveraging Source-Language Consistent Instruction for Supervised Fine-Tuning. Previous research on LLMs focused on various strategies for supervised fine-tuning (SFT), but their effectiveness has been limited. While traditional machine translation approaches rely on vast amounts of parallel bilingual data, our paradigm highlights the importance of using smaller sets of high-quality bilingual data. We argue that the focus should be on augmenting LLMs' cross-lingual alignment abilities during pre-training rather than solely relying on extensive bilingual data during SFT. Experimental results conducted using the Llama2 model, particularly on Chinese-Llama2 after monolingual augmentation, demonstrate the improved translation capabilities of LLMs. A significant contribution of our approach lies in Stage2: Continual Pre-training with Interlinear Text Format Documents, which requires less than 1B training data, making our method highly efficient. Additionally, in Stage3, we observed that setting instructions consistent with the source language benefits the supervised fine-tuning process. Experimental results demonstrate that our approach surpasses previous work and achieves superior performance compared to models such as NLLB-54B and GPT3.5-text-davinci-003, despite having a significantly smaller parameter count of only 7B or 13B. This achievement establishes our method as a pioneering strategy in the field of machine translation.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-15
# テキスト・トゥ・イメージ・シンセサイザーの評価:画像品質指標の調査と分類

Evaluating Text-to-Image Synthesis: Survey and Taxonomy of Image Quality Metrics ( http://arxiv.org/abs/2403.11821v3 )

ライセンス: Link先を確認
Sebastian Hartwig, Dominik Engel, Leon Sick, Hannah Kniesel, Tristan Payer, Poonam Poonam, Michael Glöckler, Alex Bäuerle, Timo Ropinski, (参考訳) 近年,言語と視覚基盤モデルの組み合わせによるテキスト・画像合成の進歩により,ツールの普及が進み,分野への注目が高まっている。 テキストと画像の合成を行う場合、中心となる目的は、テキストと画像のコンテンツが一致していることを保証することである。 このように、人間の判断を模倣することを目的とした評価指標が多数存在する。 しかし,テキスト・ツー・イメージ合成システムの評価に使用する指標が不明瞭である場合が多い。 本稿では,既存のテキスト・画像評価指標について概観する。 本研究は,これらの指標を分類する新しい分類法を提案する。 我々の分類学は、構成性と一般性という2つの主要な品質基準があるという前提に基づいており、それは理想的には人間の嗜好に当てはまる。 最終的に、テキスト・ツー・イメージ評価を行う実践者のためのガイドラインを導出し、評価メカニズムのオープンな課題と現在のメトリクスの表面的制限について議論する。

Recent advances in text-to-image synthesis enabled through a combination of language and vision foundation models have led to a proliferation of the tools available and an increased attention to the field. When conducting text-to-image synthesis, a central goal is to ensure that the content between text and image is aligned. As such, there exist numerous evaluation metrics that aim to mimic human judgement. However, it is often unclear which metric to use for evaluating text-to-image synthesis systems as their evaluation is highly nuanced. In this work, we provide a comprehensive overview of existing text-to-image evaluation metrics. Based on our findings, we propose a new taxonomy for categorizing these metrics. Our taxonomy is grounded in the assumption that there are two main quality criteria, namely compositionality and generality, which ideally map to human preferences. Ultimately, we derive guidelines for practitioners conducting text-to-image evaluation, discuss open challenges of evaluation mechanisms, and surface limitations of current metrics.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-15
# AFLoRA:大規模モデルのパラメータ効率の良い微調整における低ランク適応の適応凍結

AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models ( http://arxiv.org/abs/2403.13269v2 )

ライセンス: Link先を確認
Zeyu Liu, Souvik Kundu, Anni Li, Junrui Wan, Lianghao Jiang, Peter Anthony Beerel, (参考訳) 低ランク適応の適応凍結(AFLoRA)と呼ばれる,パラメータ効率の良いファインチューニング(PEFT)手法を提案する。 具体的には、トレーニング済みの凍結荷重テンソルに対して、トレーニング可能な低ランク行列の平行経路、すなわち下向きの射影行列と上向きの射影行列を加算し、それぞれに特徴変換ベクトルを付加する。 新たな凍結スコアに基づいて、微調整中にこれらのプロジェクション行列を漸進的に凍結し、計算を減らし、過度な適合を緩和する。 実験の結果,平均トレーニング可能なパラメータを最大9.5倍に減らしながら,GLUEベンチマークで評価した値の0.85倍%の平均改善を達成できることが確認された。 ランタイムに関しては比較するが、AFLoRAは類似のPEFT代替品に比べて最大$1.86\times$改善できる。 提案手法の実用性に加えて,異なるモジュールにおけるLORAパスのトレーニング性要件と,異なるプロジェクション行列の凍結スケジュールについて考察する。 コードはリリースされる。

We present a novel Parameter-Efficient Fine-Tuning (PEFT) method, dubbed as Adaptive Freezing of Low Rank Adaptation (AFLoRA). Specifically, for each pre-trained frozen weight tensor, we add a parallel path of trainable low-rank matrices, namely a down-projection and an up-projection matrix, each of which is followed by a feature transformation vector. Based on a novel freezing score, we the incrementally freeze these projection matrices during fine-tuning to reduce the computation and alleviate over-fitting. Our experimental results demonstrate that we can achieve state-of-the-art performance with an average improvement of up to $0.85\%$ as evaluated on GLUE benchmark while yeilding up to $9.5\times$ fewer average trainable parameters. While compared in terms of runtime, AFLoRA can yield up to $1.86\times$ improvement as opposed to similar PEFT alternatives. Besides the practical utility of our approach, we provide insights on the trainability requirements of LoRA paths at different modules and the freezing schedule for the different projection matrices. Code will be released.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-15
# バイナリレベルセットに基づくロバスト画像分割モデル

Robust image segmentation model based on binary level set ( http://arxiv.org/abs/2403.13392v2 )

ライセンス: Link先を確認
Wenqi Zhao, (参考訳) 従来の画像分割モデルの雑音に対する堅牢性を改善するため,本論文は強度不均一画像の照度項をモデル化する。 さらに、ノイズの多い画像に対するモデルの堅牢性を高めるため、提案モデルにバイナリレベルセットモデルを組み込む。 従来のレベルセットと比較すると、バイナリレベルセットは継続的再初期化の必要性を排除している。 さらに,変分演算子GLを導入することにより,ノイズ画像のセグメント化能力が向上することを示す。 最後に, 3段階分割演算子法を適用し, 様々な画像に対して提案手法の有効性を示す。

In order to improve the robustness of traditional image segmentation models to noise, this paper models the illumination term in intensity inhomogeneity images. Additionally, to enhance the model's robustness to noisy images, we incorporate the binary level set model into the proposed model. Compared to the traditional level set, the binary level set eliminates the need for continuous reinitialization. Moreover, by introducing the variational operator GL, our model demonstrates better capability in segmenting noisy images. Finally, we employ the three-step splitting operator method for solving, and the effectiveness of the proposed model is demonstrated on various images.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-15
# 能動学習者の脆弱性について

On the Fragility of Active Learners ( http://arxiv.org/abs/2403.15744v3 )

ライセンス: Link先を確認
Abhishek Ghose, Emma Thuong Nguyen, (参考訳) アクティブラーニング(AL)技術は、予測精度を向上させる可能性が最も高いインスタンスを反復的に選択することで、ラベル付け予算を最大限に活用することを目的としている。 しかし、ランダムサンプリングと比較した場合の利点は、例えば、異なるデータセット、分類器など、さまざまな設定で一致していない。 本研究では,異なる要因の組み合わせがAL手法から得られる利益を如何に隠蔽するかを実験的に検討する。 テキスト分類に着目し,データセット,バッチサイズ,テキスト表現,分類器など,約1000の実験からAL手法を厳格に評価する。 ALは限られた状況下でのみ有効であることを示す。 また、現実世界の期待に合うようなメトリクスを使用するという問題にも対処しています。 この研究の影響は、実践者にとっての洞察にある。 (a)テキスト表現と分類器の選択はAL技術と同じくらい重要である。 b) 正しい計量の選択は後者の評価において重要であり、最後に (c) AL結果の報告は、クエリ戦略以外の変数を考慮し、論理的に解釈されなければならない。

Active learning (AL) techniques aim to maximally utilize a labeling budget by iteratively selecting instances that are most likely to improve prediction accuracy. However, their benefit compared to random sampling has not been consistent across various setups, e.g., different datasets, classifiers. In this empirical study, we examine how a combination of different factors might obscure any gains from an AL technique. Focusing on text classification, we rigorously evaluate AL techniques over around 1000 experiments that vary wrt the dataset, batch size, text representation and the classifier. We show that AL is only effective in a narrow set of circumstances. We also address the problem of using metrics that are better aligned with real world expectations. The impact of this study is in its insights for a practitioner: (a) the choice of text representation and classifier is as important as that of an AL technique, (b) choice of the right metric is critical in assessment of the latter, and, finally, (c) reported AL results must be holistically interpreted, accounting for variables other than just the query strategy.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# NeRFは自動運転が可能か? : 現実とシミュレーションのギャップを埋めるために

Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap ( http://arxiv.org/abs/2403.16092v2 )

ライセンス: Link先を確認
Carl Lindström, Georg Hess, Adam Lilja, Maryam Fatemi, Lars Hammarstrand, Christoffer Petersson, Lennart Svensson, (参考訳) Neural Radiance Fields(NeRF)は、スケーラブルなクローズドループシミュレーションとデータ拡張機能を提供する、自律走行(AD)研究を進めるための有望なツールとして登場した。 しかし、シミュレーションで得られた結果を信頼するためには、ADシステムが実データやレンダリングデータを同じように知覚することを保証する必要がある。 レンダリング手法の性能は向上しているが、多くのシナリオは本質的に忠実に再構築することが困難である。 そこで本研究では,実際のデータギャップに対処するための新しい視点を提案する。 レンダリングの忠実性の向上にのみ焦点をあてるのではなく、実際のデータの性能を損なうことなく、NeRFアーチファクトに対する知覚モデルロバスト性を高めるための単純かつ効果的な方法を模索する。 さらに、我々は、最先端のニューラルネットワークレンダリング技術を用いて、AD設定における実際のシミュレーションデータギャップについて、初めて大規模な調査を行う。 具体的には、オブジェクト検出器とオンラインマッピングモデルを実データおよび模擬データ上で評価し、異なる微調整戦略の効果について検討した。 最後に,FIDとLPIPSを指標として,実シミュレーションギャップと画像再構成の相関について検討した。 プロジェクトのページはhttps://research.zenseact.com/publications/closing-real2sim-gapを参照してください。

Neural Radiance Fields (NeRFs) have emerged as promising tools for advancing autonomous driving (AD) research, offering scalable closed-loop simulation and data augmentation capabilities. However, to trust the results achieved in simulation, one needs to ensure that AD systems perceive real and rendered data in the same way. Although the performance of rendering methods is increasing, many scenarios will remain inherently challenging to reconstruct faithfully. To this end, we propose a novel perspective for addressing the real-to-simulated data gap. Rather than solely focusing on improving rendering fidelity, we explore simple yet effective methods to enhance perception model robustness to NeRF artifacts without compromising performance on real data. Moreover, we conduct the first large-scale investigation into the real-to-simulated data gap in an AD setting using a state-of-the-art neural rendering technique. Specifically, we evaluate object detectors and an online mapping model on real and simulated data, and study the effects of different fine-tuning strategies.Our results show notable improvements in model robustness to simulated data, even improving real-world performance in some cases. Last, we delve into the correlation between the real-to-simulated gap and image reconstruction metrics, identifying FID and LPIPS as strong indicators. See https://research.zenseact.com/publications/closing-real2sim-gap for our project page.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# 零アンシラによる高速量子整数乗算

Fast quantum integer multiplication with zero ancillas ( http://arxiv.org/abs/2403.18006v2 )

ライセンス: Link先を確認
Gregory D. Kahanamoku-Meyer, Norman Y. Yao, (参考訳) 数値の重ね合わせの乗法は、多くの量子アルゴリズムのコア演算である。 乗算の標準的な方法(古典と量子の両方)は、入力のサイズが2次である。 漸近的に少ないゲートを持つ量子回路が開発されたが、一般的には大きなオーバーヘッド、特にアンシラ量子ビットの数を示す。 本研究では,0個のアンシラ量子ビットを持つ準四進時間量子乗算のための新しいパラダイムを導入する。 我々のアルゴリズムは、任意の$\epsilon > 0$に対して$\mathcal{O}(n^{1+\epsilon})$の漸近ゲート数を達成する。 Shorのアルゴリズムのサブルーチンとして使われ、我々の手法は直ちに$\mathcal{O}(n^{2+\epsilon})$ Gatesと$2n + \mathcal{O}(\log n)$ qubitsのファクタリング回路を得る。 Regevの最近のファクタリングアルゴリズムで使用されるゲートカウントは$\mathcal{O}(n^{1.5+\epsilon})$である。 最後に、我々のアルゴリズムは、古典的に検証可能な量子上の優位性のために、我々が知っている最小の回路を含む、実際に関連する問題のサイズで以前の提案を上回る可能性を実証する。

The multiplication of superpositions of numbers is a core operation in many quantum algorithms. The standard method for multiplication (both classical and quantum) has a runtime quadratic in the size of the inputs. Quantum circuits with asymptotically fewer gates have been developed, but generally exhibit large overheads, especially in the number of ancilla qubits. In this work, we introduce a new paradigm for sub-quadratic-time quantum multiplication with zero ancilla qubits -- the only qubits involved are the input and output registers themselves. Our algorithm achieves an asymptotic gate count of $\mathcal{O}(n^{1+\epsilon})$ for any $\epsilon > 0$; with practical choices of parameters, we expect scalings as low as $\mathcal{O}(n^{1.3})$. Used as a subroutine in Shor's algorithm, our technique immediately yields a factoring circuit with $\mathcal{O}(n^{2+\epsilon})$ gates and only $2n + \mathcal{O}(\log n)$ qubits; to our knowledge, this is by far the best qubit count of any factoring circuit with a sub-cubic number of gates. Used in Regev's recent factoring algorithm, the gate count is $\mathcal{O}(n^{1.5+\epsilon})$. Finally, we demonstrate that our algorithm has the potential to outperform previous proposals at problem sizes relevant in practice, including yielding the smallest circuits we know of for classically-verifiable quantum advantage.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# 可変・コーディネートされた同音運動生成に向けて

Towards Variable and Coordinated Holistic Co-Speech Motion Generation ( http://arxiv.org/abs/2404.00368v2 )

ライセンス: Link先を確認
Yifei Liu, Qiong Cao, Yandong Wen, Huaiguang Jiang, Changxing Ding, (参考訳) 本稿では,3次元アバターのライフライクな音声合成による音声合成の課題に対処し,可変性と協調性という2つの重要な側面に着目した。 可変性により、アバターは類似した音声内容であっても幅広い動きを見せることができ、コーディネーションによって表情、手振り、身体のポーズの調和が保証される。 ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。 ProbTalkは可変オートエンコーダ(VAE)アーキテクチャ上に構築され、3つのコア設計が組み込まれている。 まず、VAEに積量子化(PQ)を導入し、複素全体運動の表現を豊かにする。 第二に、2次元位置符号化を製品量子化表現に組み込んだ新しい非自己回帰モデルを提案し、それによってPQ符号の基本構造情報を保存する。 最後に、予備予測を洗練させるために第2段階を使用し、高周波の詳細をさらに鮮明にする。 これら3つの設計を結合することにより、ProbTalkは自然で多様な音声の合成を可能とし、質的かつ定量的な評価において、特にリアリズムの観点から、いくつかの最先端の手法よりも優れている。 私たちのコードとモデルは、https://feifeifeiliu.github.io/probtalk/で研究目的でリリースされます。

This paper addresses the problem of generating lifelike holistic co-speech motions for 3D avatars, focusing on two key aspects: variability and coordination. Variability allows the avatar to exhibit a wide range of motions even with similar speech content, while coordination ensures a harmonious alignment among facial expressions, hand gestures, and body poses. We aim to achieve both with ProbTalk, a unified probabilistic framework designed to jointly model facial, hand, and body movements in speech. ProbTalk builds on the variational autoencoder (VAE) architecture and incorporates three core designs. First, we introduce product quantization (PQ) to the VAE, which enriches the representation of complex holistic motion. Second, we devise a novel non-autoregressive model that embeds 2D positional encoding into the product-quantized representation, thereby preserving essential structure information of the PQ codes. Last, we employ a secondary stage to refine the preliminary prediction, further sharpening the high-frequency details. Coupling these three designs enables ProbTalk to generate natural and diverse holistic co-speech motions, outperforming several state-of-the-art methods in qualitative and quantitative evaluations, particularly in terms of realism. Our code and model will be released for research purposes at https://feifeifeiliu.github.io/probtalk/.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# 情報損失を低減したトランスフォーマーによる複数画像補完

Transformer based Pluralistic Image Completion with Reduced Information Loss ( http://arxiv.org/abs/2404.00513v3 )

ライセンス: Link先を確認
Qiankun Liu, Yuqi Jiang, Zhentao Tan, Dongdong Chen, Ying Fu, Qi Chu, Gang Hua, Nenghai Yu, (参考訳) トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。 しかし、これらのソリューションは各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。 1) 効率を考慮し, 入力画像をはるかに低い解像度に分解する。 2) 256^3$ RGB の値を小さな数(例えば 512 など)に量子化する。 量子化されたピクセルのインデックスは、トランスの入力および予測ターゲットのトークンとして使用される。 これらの問題を緩和するために、我々は"PUT"と呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 具体的には、計算効率を保ちながら入力ダウンサンプリングを回避するため、パッチベースの自動エンコーダP-VQVAEを設計する。 エンコーダは、マスクされた画像を非オーバーラップされたパッチトークンに変換し、デコーダは、アンマスクされた領域を一定に保ちつつ、インペイントされたトークンからマスクされた領域を復元する。 入力量子化による情報損失を解消するため、Un-quantized Transformerを適用する。 P-VQVAEエンコーダの機能を量子化せずに入力とし、量子化トークンを予測ターゲットとみなす。 さらに, 塗布プロセスをより制御しやすくするために, 意味的および構造的条件を付加的なガイダンスとして導入する。 本手法は, 画像の忠実度に基づくトランスフォーマー法を著しく上回り, 複雑な大規模データセット(画像Netなど)上で, 最先端の多元的インペイント法よりもはるかに高い多様性と忠実度が得られることを示す。 コードはhttps://github.com/liuqk3/PUTで入手できる。

Transformer based methods have achieved great success in image inpainting recently. However, we find that these solutions regard each pixel as a token, thus suffering from an information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration. 2) They quantize $256^3$ RGB values to a small number (such as 512) of quantized color values. The indices of quantized pixels are used as tokens for the inputs and prediction targets of the transformer. To mitigate these issues, we propose a new transformer based framework called "PUT". Specifically, to avoid input downsampling while maintaining computation efficiency, we design a patch-based auto-encoder P-VQVAE. The encoder converts the masked image into non-overlapped patch tokens and the decoder recovers the masked regions from the inpainted tokens while keeping the unmasked regions unchanged. To eliminate the information loss caused by input quantization, an Un-quantized Transformer is applied. It directly takes features from the P-VQVAE encoder as input without any quantization and only regards the quantized tokens as prediction targets. Furthermore, to make the inpainting process more controllable, we introduce semantic and structural conditions as extra guidance. Extensive experiments show that our method greatly outperforms existing transformer based methods on image fidelity and achieves much higher diversity and better fidelity than state-of-the-art pluralistic inpainting methods on complex large-scale datasets (e.g., ImageNet). Codes are available at https://github.com/liuqk3/PUT.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# CHOPS: LLMを使った顧客サービスのためのcustOmerプロファイルシステムとのチャット

CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs ( http://arxiv.org/abs/2404.01343v2 )

ライセンス: Link先を確認
Jingzhe Shi, Jialuo Li, Qinwei Ma, Zaiwen Yang, Huan Ma, Lei Li, (参考訳) GPT-3.5、GPT-4、GLM-3、LLaMa-2といった大企業やソフトウェアプラットフォームは、ファイルアクセスやカスタマーサービスの推論エージェントとして、より大規模な言語モデル(LLM)に移行しつつある。 しかし、現在のLLMベースのカスタマーサービスモデルでは、顧客プロファイルとの統合が限られており、効果的なサービスに必要な運用機能が欠如している。 さらに、既存のAPI統合は、現実世界のカスタマーサービスシナリオに不可欠な精度とエラー回避の多様性を強調している。 これらの問題に対処するために,1)既存のデータベースやシステムを利用してユーザ情報にアクセスしたり,既存のガイドラインに従ってシステムと対話したりすること,2)有害な操作を回避しつつ,正確で合理的な応答を提供したり,あるいは必要な操作をシステム内で行うこと,3)小規模と大規模のLCMの組み合わせを活用して,合理的な推論コストで性能を満足させること,などを目的とする,CHOPS (CHAT with custOmer Profile in existing System) という LLM エージェントを提案する。 我々は,CPHOSから収集したデータベース,ファイルの案内,QAペアを含む,実践的なデータセットであるCPHOSデータセットを紹介した。 我々はCPHOSデータセットを用いて提案したCHOPSアーキテクチャの性能を検証するための広範な実験を行い、LLMがヒューマンカスタマーサービスの代替品としてどのように機能するかを実証した。 提案したアーキテクチャとデータセットのコードは、https://github.com/JingzheShi/CHOPS}で確認できます。

Businesses and software platforms are increasingly turning to Large Language Models (LLMs) such as GPT-3.5, GPT-4, GLM-3, and LLaMa-2 for chat assistance with file access or as reasoning agents for customer service. However, current LLM-based customer service models have limited integration with customer profiles and lack the operational capabilities necessary for effective service. Moreover, existing API integrations emphasize diversity over the precision and error avoidance essential in real-world customer service scenarios. To address these issues, we propose an LLM agent named CHOPS (CHat with custOmer Profile in existing System), designed to: (1) efficiently utilize existing databases or systems for accessing user information or interacting with these systems following existing guidelines; (2) provide accurate and reasonable responses or carry out required operations in the system while avoiding harmful operations; and (3) leverage a combination of small and large LLMs to achieve satisfying performance at a reasonable inference cost. We introduce a practical dataset, the CPHOS-dataset, which includes a database, guiding files, and QA pairs collected from CPHOS, an online platform that facilitates the organization of simulated Physics Olympiads for high school teachers and students. We have conducted extensive experiments to validate the performance of our proposed CHOPS architecture using the CPHOS-dataset, with the aim of demonstrating how LLMs can enhance or serve as alternatives to human customer service. Code for our proposed architecture and dataset can be found at {https://github.com/JingzheShi/CHOPS}.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# Octopus v2:スーパーエージェントのオンデバイス言語モデル

Octopus v2: On-device language model for super agent ( http://arxiv.org/abs/2404.01744v4 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) 言語モデルは様々なソフトウェアアプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示している。 これらのモデルには、AIエージェントを作成する上で不可欠な機能を呼び出す重要な能力がある。 クラウド環境での大規模言語モデルのパフォーマンスは高いが、プライバシやコストに関する懸念に関係していることが多い。 関数呼び出しの現在のオンデバイスモデルには、レイテンシと正確性がある。 本研究では,20億のパラメータを持つデバイス上でのモデルを用いて,GPT-4の性能を精度とレイテンシの両方で上回り,コンテキスト長を95%削減する手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。 この方法では,実環境におけるさまざまなエッジデバイスへのデプロイに適したレベルへの遅延を低減し,実環境アプリケーションのパフォーマンス要件に適合する。

Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-15
# 薬物のシナジー予測の新しい手法:ミニレビュー

New methods for drug synergy prediction: a mini-review ( http://arxiv.org/abs/2404.02484v2 )

ライセンス: Link先を確認
Fatemeh Abbasi, Juho Rousu, (参考訳) このミニレビューでは、高スループットの組合せスクリーンに依存する薬物組合せの新たな予測手法について検討する。 この分野の急速な進歩は、2021年以降に発行された30以上のオリジナルの機械学習手法で観察されている。 本研究の目的は、これらの論文が扱うコア技術、データソース、入力データタイプ、シナジースコア、および論文が扱う予測シナリオと評価プロトコルを強調することにより、統一されたレンズの下にこれらの論文を配置することである。 我々の発見は、既知の薬物や細胞株を含む相乗的予測シナリオを正確に解決する最良の方法である一方、新しい薬物や細胞株を含むシナリオは、依然として正確な予測レベルには達していない。

In this mini-review, we explore the new prediction methods for drug combination synergy relying on high-throughput combinatorial screens. The fast progress of the field is witnessed in the more than thirty original machine learning methods published since 2021, a clear majority of them based on deep learning techniques. We aim to put these papers under a unifying lens by highlighting the core technologies, the data sources, the input data types and synergy scores used in the methods, as well as the prediction scenarios and evaluation protocols that the papers deal with. Our finding is that the best methods accurately solve the synergy prediction scenarios involving known drugs or cell lines while the scenarios involving new drugs or cell lines still fall short of an accurate prediction level.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-15
# 親性バイアスのフラッテニング:ポアンカレ球における階層的セマンティックセマンティックセグメンテーション

Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincaré Ball ( http://arxiv.org/abs/2404.03778v3 )

ライセンス: Link先を確認
Simon Weber, Barış Zöngür, Nikita Araslanov, Daniel Cremers, (参考訳) 階層は、イメージセグメンテーションで日常的に使用されるものを含む意味分類の自然な表現である。 実際、セマンティックセグメンテーションに関する最近の研究は、階層的ラベル構造を利用した教師付きトレーニングの精度を改善した。 これらの結果を受けて、我々はその仕事の背後にある基本的な前提を再考する。 セグメンテーション精度が向上した理由がセグメンテーション階層の使用とは全く無関係である可能性があることを仮定し,実証的に検証した。 これを実証するために、代表的階層的アプローチによるクロスドメイン実験を設計する。 新たなテスト領域では,親が子どもから推定されるフラットな(階層的でない)セグメンテーションネットワークが,階層的アプローチよりも優れたセグメンテーション精度を持つことがわかった。 これらの知見を補完し、双曲空間の内在的性質にインスパイアされ、ポアンカーの球モデルを用いた階層的セグメンテーションへのより原理的なアプローチを研究する。 双曲表現は、以前の(ユークリッド)階層的アプローチよりも大きく優れており、分節精度の点で我々の平坦ユークリッド基底線と同程度である。 しかし、セマンティック階層における親ノードの驚くほど強いキャリブレーション品質、特により困難なドメインでは、さらに顕著である。 階層的セグメンテーションの確立された実践はドメイン内の設定に限られる可能性があるが、フラットな分類器は、特に双曲空間でモデル化されている場合、かなり良く一般化される。

Hierarchy is a natural representation of semantic taxonomies, including the ones routinely used in image segmentation. Indeed, recent work on semantic segmentation reports improved accuracy from supervised training leveraging hierarchical label structures. Encouraged by these results, we revisit the fundamental assumptions behind that work. We postulate and then empirically verify that the reasons for the observed improvement in segmentation accuracy may be entirely unrelated to the use of the semantic hierarchy. To demonstrate this, we design a range of cross-domain experiments with a representative hierarchical approach. We find that on the new testing domains, a flat (non-hierarchical) segmentation network, in which the parents are inferred from the children, has superior segmentation accuracy to the hierarchical approach across the board. Complementing these findings and inspired by the intrinsic properties of hyperbolic spaces, we study a more principled approach to hierarchical segmentation using the Poincar\'e ball model. The hyperbolic representation largely outperforms the previous (Euclidean) hierarchical approach as well and is on par with our flat Euclidean baseline in terms of segmentation accuracy. However, it additionally exhibits surprisingly strong calibration quality of the parent nodes in the semantic hierarchy, especially on the more challenging domains. Our combined analysis suggests that the established practice of hierarchical segmentation may be limited to in-domain settings, whereas flat classifiers generalize substantially better, especially if they are modeled in the hyperbolic space.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-15
# LiDAR-Guided Cross-Attention Fusion for Hyperspectral Band Selection and Image Classification

LiDAR-Guided Cross-Attention Fusion for Hyperspectral Band Selection and Image Classification ( http://arxiv.org/abs/2404.03883v2 )

ライセンス: Link先を確認
Judy X Yang, Jun Zhou, Jing Wang, Hui Tian, Alan Wee-Chung Liew, (参考訳) ハイパースペクトルとLiDARデータの融合は、活発な研究トピックである。 既存の融合法は、高スペクトル画像(HSI)処理においてバンド選択法が集中的に研究されているにもかかわらず、高スペクトル画像の高次元性と冗長性の問題を無視している。 本稿では、LiDARデータで導かれるHSI帯域の選択のためのトランスフォーマーアーキテクチャから、クロスアテンション機構を導入することで、この大きなギャップを解消する。 LiDARは高解像度の垂直構造情報を提供しており、異なるタイプの土地被覆を識別するのに有用である。 提案手法では,LiDARデータを用いて,HSIからキーを検索し,識別し,LiDARの有意な帯域を選択する。 この方法は、選択したHSIバンドがLiDARデータを最適に処理しながら、冗長性と計算要求を大幅に低減することを保証する。 HSIとLiDARの3つのデータセット(ヒューストン2013、トレント、MUUFL)で大規模な実験が行われた。 その結果,LiDAR特徴と融合した場合に,同定されたHSI帯域の分類精度が向上することを示すとともに,クロスアテンション機構の優位性を強調した。 また,LiDARと組み合わさったバンドの使用が,最先端の融合モデルの性能を上回ることを示した。

The fusion of hyperspectral and LiDAR data has been an active research topic. Existing fusion methods have ignored the high-dimensionality and redundancy challenges in hyperspectral images, despite that band selection methods have been intensively studied for hyperspectral image (HSI) processing. This paper addresses this significant gap by introducing a cross-attention mechanism from the transformer architecture for the selection of HSI bands guided by LiDAR data. LiDAR provides high-resolution vertical structural information, which can be useful in distinguishing different types of land cover that may have similar spectral signatures but different structural profiles. In our approach, the LiDAR data are used as the "query" to search and identify the "key" from the HSI to choose the most pertinent bands for LiDAR. This method ensures that the selected HSI bands drastically reduce redundancy and computational requirements while working optimally with the LiDAR data. Extensive experiments have been undertaken on three paired HSI and LiDAR data sets: Houston 2013, Trento and MUUFL. The results highlight the superiority of the cross-attention mechanism, underlining the enhanced classification accuracy of the identified HSI bands when fused with the LiDAR features. The results also show that the use of fewer bands combined with LiDAR surpasses the performance of state-of-the-art fusion models.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-15
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル

What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v4 )

ライセンス: Link先を確認
Mark Stefik, (参考訳) 便利なロボットを作るのは難しいし、堅牢で汎用的なロボットを作るのが難しい。 現在のロボットアプリケーションは、主に手動プログラミング、数学的モデル、計画フレームワーク、強化学習を使って作成されている。 これらの手法は、ディープラーニング、生成AI、基礎モデル(FM)で見られるパフォーマンスと一般性の飛躍に繋がらない。 さらに、ほとんどのFMは世界の感覚や行動から学ばない。 彼らは実験やコラボレーションを学ばない。 他者から学び、人や動物のように他人に教えることはない。 そのため、今日の自律型ロボットは、ホームケアの提供、看護助手の育成、その他のサービス応用を学ばない。 ロボットはより良く、人間と互換性がある。 これには、そこに到達するためのパスを作成する必要があります。

It is hard to build robots that are useful, and harder to build ones that are robust and general. Robot applications today are created mostly using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning, generative AI, and foundation models (FMs). Furthermore, most FMs do not learn by sensing and acting in the world. They do not learn to experiment or collaborate. They do not learn from others or teach others like people and animals do. Consequently, today's autonomous robots do not learn to provide home care, to be nursing assistants, or to do other service applications. Robots could be better and human compatible. This requires creating a path to get there.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# 内部製品のためのプライバシー保護型トレーサブル機能暗号化

Privacy-Preserving Traceable Functional Encryption for Inner Product ( http://arxiv.org/abs/2404.04861v2 )

ライセンス: Link先を確認
Muyao Qiu, Jinguang Han, (参考訳) 関数暗号は公開鍵暗号の新しいパラダイムを導入し、復号化は暗号化データの関数値のみを明らかにする。 FE-IPのキーリーク問題やトレースユーザを抑制するため、内部製品(TFE-IP)用のトレース可能な関数暗号化と呼ばれる新しいプリミティブが提案されている。 しかし、既存のTFE-IP方式では、ユーザのアイデンティティのプライバシ保護は考慮されていない。 プライバシと説明責任のバランスをとるために,内部製品(PPTFE-IP)のプライバシー保護型トレーサビリティ機能暗号化の概念を提案し,具体的構成を提案する。 鍵共有を防止するため,鍵生成センタ (KGC) と利用者は,鍵の同一性について何も知らないまま鍵を生成するために,鍵生成センタ (KGC) と利用者が相互にセキュアな計算プロトコルを実行する,(3) 利用者は鍵の正しさを検証できる,(4) 利用者は鍵に埋め込まれた2つのベクトルの内部積を暗号文で計算できる,(5) トレーサだけが鍵に埋め込まれたIDをトレースできる,といった特徴がある。 提案手法の安全性は,よく知られた複雑性の仮定に還元され,その効率を評価するために実装が実施される。 ユーザのプライバシを保護し,必要に応じてトレーサビリティを提供することが,我々の計画の斬新さだ。

Functional encryption introduces a new paradigm of public key encryption that decryption only reveals the function value of encrypted data. To curb key leakage issues and trace users in FE-IP, a new primitive called traceable functional encryption for inner product (TFE-IP) has been proposed. However, the privacy protection of user's identities has not been considered in the existing TFE-IP schemes. In order to balance privacy and accountability, we propose the concept of privacy-preserving traceable functional encryption for inner product (PPTFE-IP) and give a concrete construction. Our scheme provides the following features: (1) To prevent key sharing, a user's key is bound with both his/her identity and a vector; (2) The key generation center (KGC) and a user execute a two-party secure computing protocol to generate a key without the former knowing anything about the latter's identity; (3) Each user can verify the correctness of his/her key; (4) A user can calculate the inner product of the two vectors embedded in his/her key and in a ciphertext; (5) Only the tracer can trace the identity embedded in a key. The security of our scheme is formally reduced to well-known complexity assumptions, and the implementation is conducted to evaluate its efficiency. The novelty of our scheme is to protect users' privacy and provide traceability if required.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# オープンメタバースの基盤としてのWebXR, Aフレーム, Networked-Aframe

WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture ( http://arxiv.org/abs/2404.05317v3 )

ライセンス: Link先を確認
Giuseppe Macario, (参考訳) 本研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を容易にするために、Aフレームフレームワークとネットワークフレームフレームワークを活用する、WebXRベースのクロスプラットフォーム概念アーキテクチャを提案する。 空間的ウェブアプリの概念を導入することにより、この研究はメタバースについての議論に寄与し、仮想環境へのアクセスを民主化し、ウェブを通じて現実を拡張したアーキテクチャを提供し、Tim Berners-Lee氏のWorld Wide Webという当初のビジョンをデジタル領域のオープンプラットフォームとして扱う。

This work proposes a WebXR-based cross-platform conceptual architecture, leveraging the A-Frame and Networked-Aframe frameworks, in order to facilitate the development of an open, accessible, and interoperable metaverse. By introducing the concept of spatial web app, this research contributes to the discourse on the metaverse, offering an architecture that democratizes access to virtual environments and extended reality through the web, and aligns with Tim Berners-Lee's original vision of the World Wide Web as an open platform in the digital realm.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# PerkwE_COQA: 文脈キーワード抽出と大規模言語モデルを組み合わせたペルシャ語会話質問応答の強化

PerkwE_COQA: Enhanced Persian Conversational Question Answering by combining contextual keyword extraction with Large Language Models ( http://arxiv.org/abs/2404.05406v2 )

ライセンス: Link先を確認
Pardis Moradbeiki, Nasser Ghadiri, (参考訳) スマートシティは生活の質を高めるために住民の関与を必要としている。 会話型クエリー回答は、ユーザエンゲージメントの新たなアプローチである。 古典的なシステムを超えた高度な対話型質問応答の需要が高まっている。 既存のアプローチでは、LLMはCQAに有望な機能を提供するが、会話コンテキストのニュアンスを捉えるのに苦労する可能性がある。 新しいアプローチでは、コンテンツを理解し、ニーズを満たすためにユーザと複数ステップの会話を行う。 本稿では,ペルシア語対話型質問応答システム(CQA)の性能向上のための新しい手法を提案する。 LLM(Large Language Models)と文脈キーワード抽出の長所を組み合わせる。 提案手法は,会話の流れに特有なキーワードを抽出し,LLMにユーザの意図を理解し,より関連性の高い一貫性のある応答を生成する。 LLMのみのベースラインに比べてCQA性能は有意に向上した。 提案手法は,暗黙的な質問を効果的に処理し,文脈に関連のある回答を提示し,会話の文脈に大きく依存する複雑な質問に対処する。 その結果,本手法は従来の手法とLCMのみの基準値よりも最大8%高い性能を示した。

Smart cities need the involvement of their residents to enhance quality of life. Conversational query-answering is an emerging approach for user engagement. There is an increasing demand of an advanced conversational question-answering that goes beyond classic systems. Existing approaches have shown that LLMs offer promising capabilities for CQA, but may struggle to capture the nuances of conversational contexts. The new approach involves understanding the content and engaging in a multi-step conversation with the user to fulfill their needs. This paper presents a novel method to elevate the performance of Persian Conversational question-answering (CQA) systems. It combines the strengths of Large Language Models (LLMs) with contextual keyword extraction. Our method extracts keywords specific to the conversational flow, providing the LLM with additional context to understand the user's intent and generate more relevant and coherent responses. We evaluated the effectiveness of this combined approach through various metrics, demonstrating significant improvements in CQA performance compared to an LLM-only baseline. The proposed method effectively handles implicit questions, delivers contextually relevant answers, and tackles complex questions that rely heavily on conversational context. The findings indicate that our method outperformed the evaluation benchmarks up to 8% higher than existing methods and the LLM-only baseline.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# 大規模言語モデルを用いた関係抽出 : 接点位置のケーススタディ

Relation Extraction Using Large Language Models: A Case Study on Acupuncture Point Locations ( http://arxiv.org/abs/2404.05415v2 )

ライセンス: Link先を確認
Yiming Li, Xueqing Peng, Jianfu Li, Xu Zuo, Suyuan Peng, Donghong Pei, Cui Tao, Hua Xu, Na Hong, (参考訳) アキュポイントの正確な位置は治療効果に欠かせない。 GPT(Generative Pre-trained Transformers)のような大規模言語モデル(LLM)の高度な言語理解能力は、テキスト知識ソースからキューポイント位置に関連する関係を抽出する重要な機会となる。 本研究は,GPTと従来の深層学習モデル(LSTM)とバイオメディカルテキストマイニング用トランスフォーマー(BioBERT)による双方向エンコーダ表現)を比較した。 我々は、西太平洋地域(WHO標準)における世界保健機関標準治療点位置を、361の検問点を記載したコーパスとして利用した。 アクポイント間の5種類の関係('direction_of'、'distance_of'、'part_of'、'near_acupoint'、'located_near')(n=3,174)を注釈した。 BioBERT、LSTM、事前訓練GPT-3.5、微調整GPT-3.5、および事前訓練GPT-4の5モデルを比較した。 パフォーマンス指標には、マイクロ平均一致精度、リコール、F1スコアが含まれていた。 その結果, 微調整GPT-3.5はF1スコアの他のモデルよりも常に優れていた。 全体としては、F1の最高スコアは0.92である。 本研究は, GPT などの LLM が聴取者位置関係の抽出に有効であることを示すとともに, 聴取者の知識を正確にモデル化し, 聴取訓練・実践における標準的実践を促進することを目的としている。 この知見は, 自然言語処理におけるLLMsの可能性を示すとともに, 従来および補完医療における情報応用の進展にも寄与する。

In acupuncture therapy, the accurate location of acupoints is essential for its effectiveness. The advanced language understanding capabilities of large language models (LLMs) like Generative Pre-trained Transformers (GPT) present a significant opportunity for extracting relations related to acupoint locations from textual knowledge sources. This study aims to compare the performance of GPT with traditional deep learning models (Long Short-Term Memory (LSTM) and Bidirectional Encoder Representations from Transformers for Biomedical Text Mining (BioBERT)) in extracting acupoint-related location relations and assess the impact of pretraining and fine-tuning on GPT's performance. We utilized the World Health Organization Standard Acupuncture Point Locations in the Western Pacific Region (WHO Standard) as our corpus, which consists of descriptions of 361 acupoints. Five types of relations ('direction_of,' 'distance_of,' 'part_of,' 'near_acupoint,' and 'located_near') (n= 3,174) between acupoints were annotated. Five models were compared: BioBERT, LSTM, pre-trained GPT-3.5, fine-tuned GPT-3.5, as well as pre-trained GPT-4. Performance metrics included micro-average exact match precision, recall, and F1 scores. Our results demonstrate that fine-tuned GPT-3.5 consistently outperformed other models in F1 scores across all relation types. Overall, it achieved the highest micro-average F1 score of 0.92. This study underscores the effectiveness of LLMs like GPT in extracting relations related to acupoint locations, with implications for accurately modeling acupuncture knowledge and promoting standard implementation in acupuncture training and practice. The findings also contribute to advancing informatics applications in traditional and complementary medicine, showcasing the potential of LLMs in natural language processing.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# AutoCodeRover: 自律的なプログラム改善

AutoCodeRover: Autonomous Program Improvement ( http://arxiv.org/abs/2404.05427v2 )

ライセンス: Link先を確認
Yuntong Zhang, Haifeng Ruan, Zhiyu Fan, Abhik Roychoudhury, (参考訳) 研究者たちはここ数十年、ソフトウェア開発プロセスの自動化に大きな進歩を遂げてきた。 大規模言語モデル(LLM)の最近の進歩は、LLMベースのプログラミングアシスタントを使用して自動コーディングを実現する開発プロセスに大きな影響を与えている。 それでもソフトウェアエンジニアリングには、特にソフトウェアメンテナンス(バグ修正など)とソフトウェア進化(機能追加など)を可能にするために、コーディングとは別にプログラムの改善プロセスが含まれています。 本稿では、GitHubの問題を解決するための自動化アプローチを提案し、プログラムの改善を自律的に達成する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 AI研究者や実践者による最近のLLMエージェントアプローチとは対照的に、私たちの見通しはよりソフトウェア工学指向である。 我々は、ソフトウェアプロジェクトを単なるファイルの集合として見るのではなく、プログラム表現(抽象構文木)に取り組んでいる。 コード検索では、プログラム構造をクラス/メソッドの形で活用し、LLMの根本原因理解を強化し、反復探索によるコンテキストの検索を効果的に行う。 テストを使用したスペクトルベースのフォールトローカライゼーションは、テストスーツが利用可能である限り、コンテキストをさらにシャープにする。 300のGitHubイシューからなるSWE-bench-liteの実験は、GitHubイシュー(SWE-bench-liteの22~23%)の解決における有効性の向上を示している。 2294のGitHubイシューからなる完全なSWEベンチでは、AutoCodeRoverが約16%の問題を解決した。 我々のワークフローは自律的なソフトウェアエンジニアリングを可能にし、将来、LLMから自動生成されたコードを自律的に改善できると仮定する。

Researchers have made significant progress in automating the software development process in the past decades. Recent progress in Large Language Models (LLMs) has significantly impacted the development process, where developers can use LLM-based programming assistants to achieve automated coding. Nevertheless software engineering involves the process of program improvement apart from coding, specifically to enable software maintenance (e.g. bug fixing) and software evolution (e.g. feature additions). In this paper, we propose an automated approach for solving GitHub issues to autonomously achieve program improvement. In our approach called AutoCodeRover, LLMs are combined with sophisticated code search capabilities, ultimately leading to a program modification or patch. In contrast to recent LLM agent approaches from AI researchers and practitioners, our outlook is more software engineering oriented. We work on a program representation (abstract syntax tree) as opposed to viewing a software project as a mere collection of files. Our code search exploits the program structure in the form of classes/methods to enhance LLM's understanding of the issue's root cause, and effectively retrieve a context via iterative search. The use of spectrum based fault localization using tests, further sharpens the context, as long as a test-suite is available. Experiments on SWE-bench-lite which consists of 300 real-life GitHub issues show increased efficacy in solving GitHub issues (22-23% on SWE-bench-lite). On the full SWE-bench consisting of 2294 GitHub issues, AutoCodeRover solved around 16% of issues, which is higher than the efficacy of the recently reported AI software engineer Devin from Cognition Labs, while taking time comparable to Devin. We posit that our workflow enables autonomous software engineering, where, in future, auto-generated code from LLMs can be autonomously improved.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# Mind-to- Image: Projecting Visual Mental Imagination of the Brain from fMRI

Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI ( http://arxiv.org/abs/2404.05468v2 )

ライセンス: Link先を確認
Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord, (参考訳) 視覚刺激によって収集されたfMRIデータから被験者が観察した画像の再構成は、広範囲なfMRIデータセットが利用可能となり、画像生成のための生成モデルの進歩により、過去10年間に大きな進歩を遂げてきた。 しかし、視覚再建の応用はいまだに限られている。 視覚的想像力の再構築は、障害を持つ個人を支援することから、法廷での証人口座の検証まで、潜在的に革命的な応用によって大きな課題を呈する。 この分野での主なハードルは、視覚画像のためのデータ収集プロトコルの欠如と、対象とするデータセットの欠如である。 伝統的に、fMRI-to-imageは、視覚刺激にさらされた被験者から収集されたデータに依存しており、視覚刺激と視覚刺激の脳活動の違いに基づいて視覚画像を生成する問題を引き起こす。 提案したデータ収集プロトコルとともに、視覚画像に関するかなりのデータセット(約6hのスキャン)を初めてコンパイルした。 次に、fMRI-to-imageモデルの修正版をトレーニングし、メモリと純粋なイマジネーションの2つのモードからイメージを再構築する可能性を示す。 これは、視覚画像の直接再構成を可能にする技術を構築するための重要なステップである。

The reconstruction of images observed by subjects from fMRI data collected during visual stimuli has made significant strides in the past decade, thanks to the availability of extensive fMRI datasets and advancements in generative models for image generation. However, the application of visual reconstruction has remained limited. Reconstructing visual imagination presents a greater challenge, with potentially revolutionary applications ranging from aiding individuals with disabilities to verifying witness accounts in court. The primary hurdles in this field are the absence of data collection protocols for visual imagery and the lack of datasets on the subject. Traditionally, fMRI-to-image relies on data collected from subjects exposed to visual stimuli, which poses issues for generating visual imagery based on the difference of brain activity between visual stimulation and visual imagery. For the first time, we have compiled a substantial dataset (around 6h of scans) on visual imagery along with a proposed data collection protocol. We then train a modified version of an fMRI-to-image model and demonstrate the feasibility of reconstructing images from two modes of imagination: from memory and from pure imagination. This marks an important step towards creating a technology that allow direct reconstruction of visual imagery.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# 適応的手法による連続学習の収束性について

On the Convergence of Continual Learning with Adaptive Methods ( http://arxiv.org/abs/2404.05555v2 )

ライセンス: Link先を確認
Seungyub Han, Yeongmo Kim, Taehyun Cho, Jungwoo Lee, (参考訳) 連続学習の目的の1つは、複数のタスクを逐次学習する際の破滅的な忘れを防止することであり、既存のソリューションは可塑性安定性ジレンマの概念化によって駆動されている。 しかし, 逐次課題毎の連続学習の収束度は, これまでのところあまり研究されていない。 本稿では、確率勾配降下によるメモリベース連続学習の収束解析と、現在のタスクのトレーニングが過去のタスクの累積劣化を引き起こすという実証的証拠を提供する。 本研究では,従来のタスクと現在のタスクの両方のステップサイズを勾配で調整する,非凸連続学習(NCCL)の適応的手法を提案する。 提案手法は,本論文で定義した破滅的忘れ込み項を各反復で抑制する場合に,SGD法と同じ収束率を達成することができる。 さらに,提案アルゴリズムは,複数の画像分類タスクに対して,既存の手法よりも継続学習の性能を向上することを示した。

One of the objectives of continual learning is to prevent catastrophic forgetting in learning multiple tasks sequentially, and the existing solutions have been driven by the conceptualization of the plasticity-stability dilemma. However, the convergence of continual learning for each sequential task is less studied so far. In this paper, we provide a convergence analysis of memory-based continual learning with stochastic gradient descent and empirical evidence that training current tasks causes the cumulative degradation of previous tasks. We propose an adaptive method for nonconvex continual learning (NCCL), which adjusts step sizes of both previous and current tasks with the gradients. The proposed method can achieve the same convergence rate as the SGD method when the catastrophic forgetting term which we define in the paper is suppressed at each iteration. Further, we demonstrate that the proposed algorithm improves the performance of continual learning over existing methods for several image classification tasks.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# ディープラーニングに基づくアウト・オブ・ディストリビューション・ソース・コードの識別: どのくらいで解けたか?

Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far Have We Gone? ( http://arxiv.org/abs/2404.05964v2 )

ライセンス: Link先を確認
Van Nguyen, Xingliang Yuan, Tingmin Wu, Surya Nepal, Marthie Grobler, Carsten Rudolph, (参考訳) ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムに対して、一般的で深刻で決定的な関心事となっている。 これにより、ソフトウェア脆弱性検出(SVD)のためのAIベースのメソッドの使用が大幅に進歩する。 実際には、AIベースの手法はSVDや他のドメインアプリケーション(例えばコンピュータビジョン)で有望なパフォーマンスを実現してきたが、トレーニングデータ分布(例えば、インディストリビューション、ID)から遠く離れた入力データ(オフ・オブ・ディストリビューション、OOD、データと呼ばれる)の地味なラベルを検出することに失敗することはよく知られている。 この欠点は、モデルが過ちを犯している可能性を示すのに失敗する深刻な問題につながります。 この問題に対処するために、下流AIベースのモジュールに入力データを送る前にOOD検出器(すなわち、入力がIDかOODであるかを決定する)が適用されている。 OOD検出はコンピュータビジョンと医療診断の応用のために広く設計されているが、OODソースコードデータ検出のためのAIベースの自動技術はまだ十分に研究されていない。 そこで本稿では,OODソースコードデータ識別問題に対処する革新的な深層学習手法を提案する。 提案手法は,ソースコードの特徴を効果的に学習し,活用するために,革新的なクラスタコントラスト学習を用いて情報理論的な視点から導出される。 実世界のソースコードデータセットに関する厳密で包括的な実験は、最先端のベースラインに比べて、我々のアプローチの有効性と進歩を示している。 要するに,本手法は,FPR,AUROC,AUPRの約15.27%,7.39%,および4.93%に対して,ベースラインと比較して有意に高い性能を示した。

Software vulnerabilities (SVs) have become a common, serious, and crucial concern to safety-critical security systems. That leads to significant progress in the use of AI-based methods for software vulnerability detection (SVD). In practice, although AI-based methods have been achieving promising performances in SVD and other domain applications (e.g., computer vision), they are well-known to fail in detecting the ground-truth label of input data (referred to as out-of-distribution, OOD, data) lying far away from the training data distribution (i.e., in-distribution, ID). This drawback leads to serious issues where the models fail to indicate when they are likely mistaken. To address this problem, OOD detectors (i.e., determining whether an input is ID or OOD) have been applied before feeding the input data to the downstream AI-based modules. While OOD detection has been widely designed for computer vision and medical diagnosis applications, automated AI-based techniques for OOD source code data detection have not yet been well-studied and explored. To this end, in this paper, we propose an innovative deep learning-based approach addressing the OOD source code data identification problem. Our method is derived from an information-theoretic perspective with the use of innovative cluster-contrastive learning to effectively learn and leverage source code characteristics, enhancing data representation learning for solving the problem. The rigorous and comprehensive experiments on real-world source code datasets show the effectiveness and advancement of our approach compared to state-of-the-art baselines by a wide margin. In short, on average, our method achieves a significantly higher performance from around 15.27%, 7.39%, and 4.93% on the FPR, AUROC, and AUPR measures, respectively, in comparison with the baselines.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# 強化学習支援量子アーキテクチャ探索の量子情報理論解析

A quantum information theoretic analysis of reinforcement learning-assisted quantum architecture search ( http://arxiv.org/abs/2404.06174v2 )

ライセンス: Link先を確認
Abhishek Sadhu, Aritra Sarkar, Akash Kundu, (参考訳) 量子コンピューティングの分野では、変分量子アルゴリズム (VQA) は幅広い応用範囲にわたる量子解の重要なカテゴリを表す。 これらのアルゴリズムは、量子計算の優位性を実現するための大きな可能性を示している。 VQAの基本的な側面は、表現的で効率的な量子回路(すなわち、アンザッツ)を定式化し、そのようなアンザッツの探索を自動化することであり、量子アーキテクチャサーチ(QAS)として知られている。 RL-QASは強化学習技術を用いてQASを最適化する。 本研究は, 変分量子状態対角化問題に適したアンサーゼ製造のためのRL-QASについて検討する。 本研究は, 得られた状態の絡み合い閾値, 初期条件がRL-エージェントの性能に及ぼす影響, 収束境界における相関の位相変化挙動, および条件エントロピー指標による固有値の導出におけるキュービットの離散的寄与など, 様々な次元の包括的分析を含む。 これらの知見を利用して、QASにおける絡み合った許容アンサッツを考案し、最適な資源を用いてランダムな量子状態の対角化を行う。 さらに、本論文では、変分量子アルゴリズムに適用可能なRL-QAS内の報酬関数を構築するための一般化されたフレームワークを提供する。

In the field of quantum computing, variational quantum algorithms (VQAs) represent a pivotal category of quantum solutions across a broad spectrum of applications. These algorithms demonstrate significant potential for realising quantum computational advantage. A fundamental aspect of VQAs involves formulating expressive and efficient quantum circuits (namely ansatz) and automating the search of such ansatz is known as quantum architecture search (QAS). RL-QAS involves optimising QAS using reinforcement learning techniques. This study investigates RL-QAS for crafting ansatzes tailored to the variational quantum state diagonalisation problem. Our investigation includes a comprehensive analysis of various dimensions, such as the entanglement thresholds of the resultant states, the impact of initial conditions on the performance of RL-agent, the phase change behaviour of correlation in concurrence bounds, and the discrete contributions of qubits in deducing eigenvalues through conditional entropy metrics. We leverage these insights to devise entanglement-guided admissible ansatz in QAS to diagonalise random quantum states using optimal resources. Furthermore, the methodologies presented herein offer a generalised framework for constructing reward functions within RL-QAS applicable to variational quantum algorithms.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-15
# 大きな動きを持つビデオフレーム補間のためのスパースグローバルマッチング

Sparse Global Matching for Video Frame Interpolation with Large Motion ( http://arxiv.org/abs/2404.06913v2 )

ライセンス: Link先を確認
Chunxu Liu, Guozhen Zhang, Rui Zhao, Limin Wang, (参考訳) 大きな動きはビデオフレーム補間(VFI)タスクにおいて重要な課題となる。 既存の手法は、しばしば制限された受容場によって制約されるため、大きな動きを持つシナリオを扱う際の準最適性能をもたらす。 本稿では,大動きに伴う問題を軽減するために,グローバルレベルの情報を効果的に統合するVFIの新しいパイプラインを提案する。 具体的には、まず、局所的な詳細を抽出する高分解能特徴写像を用いて、初期中間流の対を推定する。 そこで我々は,初期フローの欠陥を同定し,大域的受容場とのスパースフロー補償を生成するフロー推定を補うために,スパースグローバルマッチングブランチを組み込んだ。 最後に、初期フロー推定と大域フロー補償を適応的に組み合わせ、より正確な中間フローを得る。 提案手法の大規模動作処理における有効性を評価するため,一般的なベンチマークからより困難なサブセットを慎重にキュレートする。 提案手法は, 動作が大きいVFIサブセット上での最先端性能を示す。

Large motion poses a critical challenge in Video Frame Interpolation (VFI) task. Existing methods are often constrained by limited receptive fields, resulting in sub-optimal performance when handling scenarios with large motion. In this paper, we introduce a new pipeline for VFI, which can effectively integrate global-level information to alleviate issues associated with large motion. Specifically, we first estimate a pair of initial intermediate flows using a high-resolution feature map for extracting local details. Then, we incorporate a sparse global matching branch to compensate for flow estimation, which consists of identifying flaws in initial flows and generating sparse flow compensation with a global receptive field. Finally, we adaptively merge the initial flow estimation with global flow compensation, yielding a more accurate intermediate flow. To evaluate the effectiveness of our method in handling large motion, we carefully curate a more challenging subset from commonly used benchmarks. Our method demonstrates the state-of-the-art performance on these VFI subsets with large motion.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-15
# ゼロショットスケルトン動作認識のためのデュアルプロンプトによる細粒側情報案内

Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition ( http://arxiv.org/abs/2404.07487v2 )

ライセンス: Link先を確認
Yang Chen, Jingcai Guo, Tian He, Ling Wang, (参考訳) 骨格に基づくゼロショット行動認識は、既知の骨格に基づく行動と、既知のカテゴリと未知のカテゴリの両方で共有される意味記述子空間の学習先に基づいて、未知の人間の行動を認識することを目的としている。 しかし、従来の研究は、既知の骨格表現空間と、未知のアクションカテゴリを認識するための粗粒度レベルでの意味記述空間のブリッジを確立することに重点を置いており、これら2つの空間のきめ細かいアライメントを無視し、その結果、高相似アクションカテゴリを区別する際の準最適性能をもたらす。 これらの課題に対処するために,スケルトンをベースとしたゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習を用いた新しい手法を提案する。 具体的には 1) 骨格をそのトポロジー構造に基づいていくつかの部分に分解し, 微粒なレベルでの骨格と意味空間のアライメントのための人体運動の多部記述の側面情報を導入する。 2) 視覚的属性と意味的部分のプロンプトを設計し, 骨格空間内におけるクラス内コンパクト性, 意味空間内におけるクラス間分離性を改善し, 高い相似性動作を識別する。 NTU RGB+D, NTU RGB+D 120, PKU-MMDデータセットのZSLおよびGZSL設定における最先端性能が得られた。

Skeleton-based zero-shot action recognition aims to recognize unknown human actions based on the learned priors of the known skeleton-based actions and a semantic descriptor space shared by both known and unknown categories. However, previous works focus on establishing the bridges between the known skeleton representation space and semantic descriptions space at the coarse-grained level for recognizing unknown action categories, ignoring the fine-grained alignment of these two spaces, resulting in suboptimal performance in distinguishing high-similarity action categories. To address these challenges, we propose a novel method via Side information and dual-prompts learning for skeleton-based zero-shot action recognition (STAR) at the fine-grained level. Specifically, 1) we decompose the skeleton into several parts based on its topology structure and introduce the side information concerning multi-part descriptions of human body movements for alignment between the skeleton and the semantic space at the fine-grained level; 2) we design the visual-attribute and semantic-part prompts to improve the intra-class compactness within the skeleton space and inter-class separability within the semantic space, respectively, to distinguish the high-similarity actions. Extensive experiments show that our method achieves state-of-the-art performance in ZSL and GZSL settings on NTU RGB+D, NTU RGB+D 120, and PKU-MMD datasets.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# ポリシーグラディエント更新による非同期フェデレーション強化学習:アルゴリズム設計と収束解析

Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis ( http://arxiv.org/abs/2404.08003v2 )

ライセンス: Link先を確認
Guangchen Lan, Dong-Jun Han, Abolfazl Hashemi, Vaneet Aggarwal, Christopher G. Brinton, (参考訳) そこで我々は,AFedPGと呼ばれる非同期フェデレーション強化学習フレームワークを提案する。これは政策勾配(PG)更新を用いたN$エージェント間の協調によるグローバルモデルの構築である。 非同期設定におけるタグ付けポリシーの課題に対処するため、遅延適応型ルックアヘッドと正規化された更新手法を設計し、ポリシー勾配の不均一な到着時間を効果的に扱えるようにした。 AFedPGの理論的大域収束境界を解析し、サンプルの複雑さと時間複雑性の両方の観点から提案アルゴリズムの利点を特徴づける。 具体的には,AFedPG法は各エージェントの平均値に対して$\mathcal{O}(\frac{{\epsilon}^{-2.5}}{N})のサンプル複雑性を実現する。 サンプル複雑性を$\mathcal{O}(\epsilon^{-2.5}) とする単一のエージェントセットと比較して、エージェントの数に関して線形スピードアップを楽しむ。 さらに、同期FedPGと比較して、AFedPGは時間複雑性を$\mathcal{O}(\frac{t_{\max}}{N})$から$\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$に改善する。 後者の複雑性 $\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$ は常に以前のものよりも小さくなり、この改善は異種コンピューティングパワー(t_{\max}\gg t_{\min}$)を持つ大規模なフェデレーション設定において重要である。 最後に,MuJoCo環境におけるAFedPGの性能改善を,エージェント数によって実証的に検証した。 また、異なる計算の不均一性による改善を実証する。

To improve the efficiency of reinforcement learning, we propose a novel asynchronous federated reinforcement learning framework termed AFedPG, which constructs a global model through collaboration among $N$ agents using policy gradient (PG) updates. To handle the challenge of lagged policies in asynchronous settings, we design delay-adaptive lookahead and normalized update techniques that can effectively handle the heterogeneous arrival times of policy gradients. We analyze the theoretical global convergence bound of AFedPG, and characterize the advantage of the proposed algorithm in terms of both the sample complexity and time complexity. Specifically, our AFedPG method achieves $\mathcal{O}(\frac{{\epsilon}^{-2.5}}{N})$ sample complexity at each agent on average. Compared to the single agent setting with $\mathcal{O}(\epsilon^{-2.5})$ sample complexity, it enjoys a linear speedup with respect to the number of agents. Moreover, compared to synchronous FedPG, AFedPG improves the time complexity from $\mathcal{O}(\frac{t_{\max}}{N})$ to $\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$, where $t_{i}$ denotes the time consumption in each iteration at the agent $i$, and $t_{\max}$ is the largest one. The latter complexity $\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$ is always smaller than the former one, and this improvement becomes significant in large-scale federated settings with heterogeneous computing powers ($t_{\max}\gg t_{\min}$). Finally, we empirically verify the improved performances of AFedPG in three MuJoCo environments with varying numbers of agents. We also demonstrate the improvements with different computing heterogeneity.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# 最適量子化戦略探索のための微分可能探索法

Differentiable Search for Finding Optimal Quantization Strategy ( http://arxiv.org/abs/2404.08010v2 )

ライセンス: Link先を確認
Lianqiang Li, Chenqian Yan, Yefei Chen, (参考訳) ディープニューラルネットワーク(DNN)を高速化・圧縮するために、多くのネットワーク量子化アルゴリズムが提案されている。 最先端技術による任意のアルゴリズムの量子化戦略は、一部のネットワークアーキテクチャにおいて他のアルゴリズムよりも優れていますが、その戦略が他のアルゴリズムよりも常に優れていることを証明することは困難です。 言い換えれば、既存の量子化アルゴリズムは、異なる層の異なる特性を無視し、均一な量子化戦略によって全ての層を定量化するため、準最適である。 そこで本研究では,異なる量子化アルゴリズムの利点を生かして,各層に対して最適な量子化戦略を割り当てるための微分可能量子化戦略探索(DQSS)を提案する。 具体的には、DQSSを微分可能なニューラルネットワーク探索問題として定式化し、効率的な畳み込みを導入し、勾配に基づく最適化により、大域的な観点から混合量子化戦略を効率的に探索する。 学習後量子化のためのDQSSを実行し、その性能を完全精度モデルで比較できるようにします。 また、DQSSの有効性をさらに検証するために、量子化対応トレーニングにもDQSSを使用します。 量子化学習にDQSSを用いる場合の高コストな最適化コストを回避するため,超パラメータとネットワークパラメータを1つの前方パスで更新する。 さらに、最適化プロセスを調整することで、潜在的な過度な問題を回避する。 高レベルのコンピュータビジョンタスク、すなわち画像分類と低レベルのコンピュータビジョンタスクに関する総合的な実験、すなわち様々なネットワークアーキテクチャによる画像超解像は、DQSSが最先端技術より優れていることを示している。

To accelerate and compress deep neural networks (DNNs), many network quantization algorithms have been proposed. Although the quantization strategy of any algorithm from the state-of-the-arts may outperform others in some network architectures, it is hard to prove the strategy is always better than others, and even cannot judge that the strategy is always the best choice for all layers in a network. In other words, existing quantization algorithms are suboptimal as they ignore the different characteristics of different layers and quantize all layers by a uniform quantization strategy. To solve the issue, in this paper, we propose a differentiable quantization strategy search (DQSS) to assign optimal quantization strategy for individual layer by taking advantages of the benefits of different quantization algorithms. Specifically, we formulate DQSS as a differentiable neural architecture search problem and adopt an efficient convolution to efficiently explore the mixed quantization strategies from a global perspective by gradient-based optimization. We conduct DQSS for post-training quantization to enable their performance to be comparable with that in full precision models. We also employ DQSS in quantization-aware training for further validating the effectiveness of DQSS. To circumvent the expensive optimization cost when employing DQSS in quantization-aware training, we update the hyper-parameters and the network parameters in a single forward-backward pass. Besides, we adjust the optimization process to avoid the potential under-fitting problem. Comprehensive experiments on high level computer vision task, i.e., image classification, and low level computer vision task, i.e., image super-resolution, with various network architectures show that DQSS could outperform the state-of-the-arts.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# 画像認識におけるニューラルネットワークのロバスト性評価に関する調査

A Survey of Neural Network Robustness Assessment in Image Recognition ( http://arxiv.org/abs/2404.08285v2 )

ライセンス: Link先を確認
Jie Wang, Jun Ai, Minyan Lu, Haoran Su, Dan Yu, Yutao Zhang, Junda Zhu, Jingyu Liu, (参考訳) 近年,ニューラルネットワークの堅牢性評価に注目が集まっている。 ロバスト性は、複雑で不確実な環境で人工知能(AI)システムの信頼性の高い運用を保証する上で重要な役割を果たしている。 ディープラーニングの堅牢性問題は特に重要であり、画像分類モデルに対する敵対的攻撃の発見によって強調される。 画像認識タスクの多様な摂動条件におけるロバスト性を評価するために、研究者は懸命に努力してきた。 ロバストネスアセスメントには、故意の敵攻撃に対するロバストネス検証/認証と、ランダムなデータ破損に対するロバストネステストの2つの主要なテクニックが含まれている。 本稿では, ニューラルネットワーク評価において, 対向ロバスト性 (AR) と汚職ロバスト性 (CR) の両方を詳細に検討した。 現在の研究論文や規格を分析し,画像認識におけるロバスト性評価について概観する。 概念、メトリクス、評価方法の3つの重要な側面が分析される。 本研究では,画像の摂動度を測定するために使用される摂動指標と範囲表現について検討し,分類モデルのロバストネス条件に特化してロバストネス指標について検討する。 既存手法の強みと限界についても論じ,今後の研究の方向性について考察する。

In recent years, there has been significant attention given to the robustness assessment of neural networks. Robustness plays a critical role in ensuring reliable operation of artificial intelligence (AI) systems in complex and uncertain environments. Deep learning's robustness problem is particularly significant, highlighted by the discovery of adversarial attacks on image classification models. Researchers have dedicated efforts to evaluate robustness in diverse perturbation conditions for image recognition tasks. Robustness assessment encompasses two main techniques: robustness verification/ certification for deliberate adversarial attacks and robustness testing for random data corruptions. In this survey, we present a detailed examination of both adversarial robustness (AR) and corruption robustness (CR) in neural network assessment. Analyzing current research papers and standards, we provide an extensive overview of robustness assessment in image recognition. Three essential aspects are analyzed: concepts, metrics, and assessment methods. We investigate the perturbation metrics and range representations used to measure the degree of perturbations on images, as well as the robustness metrics specifically for the robustness conditions of classification models. The strengths and limitations of the existing methods are also discussed, and some potential directions for future research are provided.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# 大規模マルチドメインレコメンデーション:自動ドメイン特徴抽出とパーソナライズド統合フレームワーク

Large-Scale Multi-Domain Recommendation: an Automatic Domain Feature Extraction and Personalized Integration Framework ( http://arxiv.org/abs/2404.08361v2 )

ライセンス: Link先を確認
Dongbo Xi, Zhen Chen, Yuexian Wang, He Cui, Chong Peng, Fuzhen Zhuang, Peng Yan, (参考訳) フィードレコメンデーションは、現在、多くの現実世界アプリケーション(例えば、TikTok、Dianping)のメインストリームモードであり、通常、アプリケーション内外の複数のシナリオ(ドメイン)でユーザーの関心をモデル化し、予測する必要がある。 マルチドメイン学習はこの点において典型的な解決策である。 この点に関してかなりの努力がなされているが、(1)ドメインの特徴を用いたドメイン間の差異の正確な描写が各ドメインの性能向上に不可欠である、という2つの長年の課題がまだ残っている。 しかし、多くのドメインのドメイン機能やモデルを手動で設計するのは、面倒な作業です。 2) ユーザは通常、少数のドメインで限定的な印象を持つ。 他のドメインから自動的に機能を抽出し、それらを活用して各ドメインの予測能力を改善することは、一貫して困難な問題となっている。 本稿では,大規模マルチドメインレコメンデーションのための自動ドメイン特徴抽出とパーソナライズド統合(DFEI)フレームワークを提案する。 このフレームワークは個々のユーザの振る舞いを自動的にドメイン内のすべてのユーザの振る舞いの集約に変換し、ドメインの機能として機能します。 オフラインの特徴工学手法とは異なり、抽出された領域の特徴は高次表現であり、ターゲットラベルに直接関連している。 さらに、各ユーザのためのドメイン機能のパーソナライズされた統合とトレーニングモードの革新によって、DFEIフレームワークはより正確な変換識別を行うことができる。 20以上のドメインからなるパブリックデータセットと産業データセットの実験結果から,提案フレームワークがSOTAベースラインと比較して大幅に性能が向上していることが明らかとなった。 さらに、提案されたフレームワークのソースコードをhttps://github.com/xidongbo/DFEIで公開しました。

Feed recommendation is currently the mainstream mode for many real-world applications (e.g., TikTok, Dianping), it is usually necessary to model and predict user interests in multiple scenarios (domains) within and even outside the application. Multi-domain learning is a typical solution in this regard. While considerable efforts have been made in this regard, there are still two long-standing challenges: (1) Accurately depicting the differences among domains using domain features is crucial for enhancing the performance of each domain. However, manually designing domain features and models for numerous domains can be a laborious task. (2) Users typically have limited impressions in only a few domains. Extracting features automatically from other domains and leveraging them to improve the predictive capabilities of each domain has consistently posed a challenging problem. In this paper, we propose an Automatic Domain Feature Extraction and Personalized Integration (DFEI) framework for the large-scale multi-domain recommendation. The framework automatically transforms the behavior of each individual user into an aggregation of all user behaviors within the domain, which serves as the domain features. Unlike offline feature engineering methods, the extracted domain features are higher-order representations and directly related to the target label. Besides, by personalized integration of domain features from other domains for each user and the innovation in the training mode, the DFEI framework can yield more accurate conversion identification. Experimental results on both public and industrial datasets, consisting of over 20 domains, clearly demonstrate that the proposed framework achieves significantly better performance compared with SOTA baselines. Furthermore, we have released the source code of the proposed framework at https://github.com/xidongbo/DFEI.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# ポーズ・ジェネレーションの進化を振り返る(動画あり)

Direct May Not Be the Best: An Incremental Evolution View of Pose Generation ( http://arxiv.org/abs/2404.08419v2 )

ライセンス: Link先を確認
Yuelong Li, Tengfei Xiao, Lei Geng, Jianming Wang, (参考訳) ポース多様性は2次元画像に固有の特徴である。 3次元から2次元の投影機構により、異なるポーズ画像の間には明らかな内容差がある。 これは、変換に関連する研究を悩ませる主要な障害である。 この課題に対処するために、我々は、従来の直接対一ではなく、細粒度で漸進的な進化中心のポーズ生成フレームワークを提案する。 提案手法は, 劇的な非線形変動を直接モデル化する理論的困難さを回避し, コンテンツ歪みやぼやけを効果的に抑制できると同時に, 個々のポーズの詳細, 特に衣服のテクスチャを正確に保持することができる。 進化コースを体系的に導くために、グローバルおよびインクリメンタルな進化の制約は、精巧に設計され、全体的なフレームワークにマージされます。 そして、高品質なポーズ合成を行うために利用可能なすべての貴重な知識を最大限に活用するために、新しい三重経路知識融合構造が研究されている。 さらに、我々のフレームワークは、様々な中間ポーズという、価値のある副産物を生成できる。 提案手法の有効性を検証するため, 広範囲な実験を行った。 コードはhttps://github.com/Xiaofei-CN/Incremental-Evolution-Pose-Generationで入手できる。

Pose diversity is an inherent representative characteristic of 2D images. Due to the 3D to 2D projection mechanism, there is evident content discrepancy among distinct pose images. This is the main obstacle bothering pose transformation related researches. To deal with this challenge, we propose a fine-grained incremental evolution centered pose generation framework, rather than traditional direct one-to-one in a rush. Since proposed approach actually bypasses the theoretical difficulty of directly modeling dramatic non-linear variation, the incurred content distortion and blurring could be effectively constrained, at the same time the various individual pose details, especially clothes texture, could be precisely maintained. In order to systematically guide the evolution course, both global and incremental evolution constraints are elaborately designed and merged into the overall framework. And a novel triple-path knowledge fusion structure is worked out to take full advantage of all available valuable knowledge to conduct high-quality pose synthesis. In addition, our framework could generate a series of valuable byproducts, namely the various intermediate poses. Extensive experiments have been conducted to verify the effectiveness of the proposed approach. Code is available at https://github.com/Xiaofei-CN/Incremental-Evolution-Pose-Generation.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# OccGaussian: OccGaussian Splatting for Occluded Human Rendering

OccGaussian: 3D Gaussian Splatting for Occluded Human Rendering ( http://arxiv.org/abs/2404.08449v2 )

ライセンス: Link先を確認
Jingrui Ye, Zongkai Zhang, Yujiao Jiang, Qingmin Liao, Wenming Yang, Zongqing Lu, (参考訳) モノクロビデオからダイナミックな3D人間をレンダリングすることは、仮想現実やデジタルエンターテイメントといった様々なアプリケーションに不可欠である。 ほとんどの方法は、人々が邪魔されていないシーンにいると仮定するが、様々な物体が現実のシナリオで身体部分の閉塞を引き起こす可能性がある。 表面レンダリングにNeRFを使用した従来手法では、隠蔽領域を復元する必要があったが、トレーニングに1日以上かかり、レンダリングに数秒を要し、リアルタイムインタラクティブなアプリケーションの要件を満たしていなかった。 これらの問題に対処するため,OccGaussianは3D Gaussian Splattingをベースとして6分以内のトレーニングが可能で,最大160FPSまでの高品質な人体レンダリングを実現する。 OccGaussianは標準空間で3次元ガウス分布を初期化し、隠蔽領域で閉塞特徴クエリを行い、集約された画素アライメント特徴を抽出して不足情報を補う。 次に,Gaussian Feature MLPを用いて,隠蔽領域をよりよく知覚するために,その特徴をさらに処理する。 シミュレーション実験と実世界のオクルージョン実験の両方において,本手法が最先端の手法と比較して,同等あるいは優れた性能を達成できることが実証された。 トレーニングと推論のスピードは,それぞれ250倍,800倍向上しました。 私たちのコードは研究目的で利用できます。

Rendering dynamic 3D human from monocular videos is crucial for various applications such as virtual reality and digital entertainment. Most methods assume the people is in an unobstructed scene, while various objects may cause the occlusion of body parts in real-life scenarios. Previous method utilizing NeRF for surface rendering to recover the occluded areas, but it requiring more than one day to train and several seconds to render, failing to meet the requirements of real-time interactive applications. To address these issues, we propose OccGaussian based on 3D Gaussian Splatting, which can be trained within 6 minutes and produces high-quality human renderings up to 160 FPS with occluded input. OccGaussian initializes 3D Gaussian distributions in the canonical space, and we perform occlusion feature query at occluded regions, the aggregated pixel-align feature is extracted to compensate for the missing information. Then we use Gaussian Feature MLP to further process the feature along with the occlusion-aware loss functions to better perceive the occluded area. Extensive experiments both in simulated and real-world occlusions, demonstrate that our method achieves comparable or even superior performance compared to the state-of-the-art method. And we improving training and inference speeds by 250x and 800x, respectively. Our code will be available for research purposes.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# RLHFのデータセットリセットポリシー最適化

Dataset Reset Policy Optimization for RLHF ( http://arxiv.org/abs/2404.08495v2 )

ライセンス: Link先を確認
Jonathan D. Chang, Wenhao Zhan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun, (参考訳) Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative model, has been produced impressive model such as GPT-4 and Claude3 Opus。 オフラインの選好データセットから報酬モデルを学習し、学習した報奨モデルを最適化するためにオンラインRLを実行する。 本稿では,リセットのアイデアを活用することで,証明可能な保証付きRLHFアルゴリズムを提案する。 オフラインの嗜好データセットが情報的状態(ラベル付け者が好むデータ)を提供するという事実により、我々の新しいアルゴリズムであるデータセットリセットポリシー最適化(DR-PO)は、既存のオフラインの嗜好データセットをデータセットリセットを介してオンラインのポリシートレーニング手順に統合する。 理論的には, DR-POは, 一般関数近似の下でのオフラインデータセットでカバーされる任意のポリシーと同程度に, 有限サンプルの複雑さで実行できることが示される。 実験では,TL;DR要約とHHデータセットの両方において,GPT4の勝利率の基準の下でDR-POの生成がPPO(Proximal Policy Optimization)とDPO(Direction Preference Optimization)より優れていることを示した。 この作業のコードはhttps://github.com/Cornell-RL/drpoにある。

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-15
# 音声基礎モデルの大規模評価

A Large-Scale Evaluation of Speech Foundation Models ( http://arxiv.org/abs/2404.09385v1 )

ライセンス: Link先を確認
Shu-wen Yang, Heng-Jui Chang, Zili Huang, Andy T. Liu, Cheng-I Lai, Haibin Wu, Jiatong Shi, Xuankai Chang, Hsiang-Sheng Tsai, Wen-Chin Huang, Tzu-hsun Feng, Po-Han Chi, Yist Y. Lin, Yung-Sung Chuang, Tzu-Hsien Huang, Wei-Cheng Tseng, Kushal Lakhotia, Shang-Wen Li, Abdelrahman Mohamed, Shinji Watanabe, Hung-yi Lee, (参考訳) ファンデーションモデルパラダイムは、共有ファンデーションモデルを利用して、さまざまなタスクに対して最先端(SOTA)のパフォーマンスを実現し、下流固有のモデリングとデータアノテーションを最小限にする必要がある。 このアプローチは自然言語処理(NLP)分野において極めて重要であることが証明されている。 しかし、音声処理コミュニティには、このパラダイムを体系的に探求するための同様の設定が欠けている。 本研究では,音声処理の汎用性能ベンチマーク (SUPERB) を構築し,このパラダイムの有効性について検討する。 凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。 この結果とコミュニティの投稿とを組み合わせることで,基礎モデルパラダイムがスピーチに有望であること,マルチタスクフレームワークがシンプルかつ効果的であること,そして最も優れた基礎モデルが,ほとんどのSUPERBタスク間での競争的一般化性を示していること,などが確認できる。 再現性と拡張性のために、決定論的ベンチマークを可能にし、オンラインのリーダーボードによる結果共有を可能にし、コミュニティ主導のベンチマークデータベースを通じてコラボレーションを促進し、新しい開発サイクルをサポートする長期的なプラットフォームを開発しました。 最後に,SUPERBと音声基礎モデルの詳細な理解を目的とした一連の分析を行い,モデル内のタスク間の情報フロー,重み付きベンチマークプロトコルの正確性,ベンチマークの統計的意義と堅牢性などについて述べる。

The foundation model paradigm leverages a shared foundation model to achieve state-of-the-art (SOTA) performance for various tasks, requiring minimal downstream-specific modeling and data annotation. This approach has proven crucial in the field of Natural Language Processing (NLP). However, the speech processing community lacks a similar setup to explore the paradigm systematically. In this work, we establish the Speech processing Universal PERformance Benchmark (SUPERB) to study the effectiveness of the paradigm for speech. We propose a unified multi-tasking framework to address speech processing tasks in SUPERB using a frozen foundation model followed by task-specialized, lightweight prediction heads. Combining our results with community submissions, we verify that the foundation model paradigm is promising for speech, and our multi-tasking framework is simple yet effective, as the best-performing foundation model shows competitive generalizability across most SUPERB tasks. For reproducibility and extensibility, we have developed a long-term maintained platform that enables deterministic benchmarking, allows for result sharing via an online leaderboard, and promotes collaboration through a community-driven benchmark database to support new development cycles. Finally, we conduct a series of analyses to offer an in-depth understanding of SUPERB and speech foundation models, including information flows across tasks inside the models, the correctness of the weighted-sum benchmarking protocol and the statistical significance and robustness of the benchmark.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# マーケティングチャネルを量子変換に統合し、ガウス過程モデルによる販売予測のためのエンサンブルカーネルのベイズ最適化

Integrating Marketing Channels into Quantile Transformation and Bayesian Optimization of Ensemble Kernels for Sales Prediction with Gaussian Process Models ( http://arxiv.org/abs/2404.09386v1 )

ライセンス: Link先を確認
Shahin Mirshekari, Negin Hayeri Motedayen, Mohammad Ensaf, (参考訳) 本研究では,Rational Basis Function (RBF), Rational Quadratic, Mat\'ern kernelsを統合したアンサンブルカーネルを用いた革新的なガウスプロセス(GP)モデルを提案する。 ベイズ最適化を適用することで、各カーネルの最適な重み付けを効率的に見つけることができ、複雑な販売データパターンを扱うモデルの能力を高めることができる。 提案手法は従来のGPモデルよりも優れており,Mean Squared Error (MSE), Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), Coefficient of determined (R^2$) といった主要な指標に対して,98倍の精度と優れたパフォーマンスを実現している。 この進歩は、予測精度を改善するためのアンサンブルカーネルとベイズ最適化の有効性を強調し、セールス予測における機械学習アプリケーションに深い影響をもたらす。

This study introduces an innovative Gaussian Process (GP) model utilizing an ensemble kernel that integrates Radial Basis Function (RBF), Rational Quadratic, and Mat\'ern kernels for product sales forecasting. By applying Bayesian optimization, we efficiently find the optimal weights for each kernel, enhancing the model's ability to handle complex sales data patterns. Our approach significantly outperforms traditional GP models, achieving a notable 98\% accuracy and superior performance across key metrics including Mean Squared Error (MSE), Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), and Coefficient of Determination ($R^2$). This advancement underscores the effectiveness of ensemble kernels and Bayesian optimization in improving predictive accuracy, offering profound implications for machine learning applications in sales forecasting.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# RankCLIP: Ranking-Consistent Language- Image Pretraining

RankCLIP: Ranking-Consistent Language-Image Pretraining ( http://arxiv.org/abs/2404.09387v1 )

ライセンス: Link先を確認
Yiming Zhang, Zhuokai Zhao, Zhaorun Chen, Zhili Feng, Zenghui Ding, Yining Sun, (参考訳) 視覚言語モデルの開発が絶え間なく進んでいる中、CLIP(Contrative Language-image Pretraining)は、大量のテキストイメージ対に自己教師付きコントラスト学習を活用することで、ゼロショット分類のような多くの下流タスクに新しいベンチマークを設定している。 しかし、厳密な1対1マッピングへの依存は、テキストと画像の間の複雑な、しばしば多面的な関係を見落としている。 この目的のために我々は,CLIPの厳格な1対1マッチングフレームワークとその変種を超えた,新しい事前学習手法である RankCLIP を導入する。 インモーダルとクロスモーダルの両方のランキング整合性を活用することで、RancCLIPはアライメントプロセスを改善し、各モダリティ内および各モダリティ間のニュアンスな多対多の関係をキャプチャする。 総合的な実験を通じて、さまざまな下流タスクにおけるパフォーマンス向上のためのRanCLIPの強化能力を実証し、特に最先端の手法よりもゼロショット分類において顕著な向上を実現し、さらに先進的な視覚言語事前訓練におけるRanCLIPの可能性を示す。

Among the ever-evolving development of vision-language models, contrastive language-image pretraining (CLIP) has set new benchmarks in many downstream tasks such as zero-shot classifications by leveraging self-supervised contrastive learning on large amounts of text-image pairs. However, its dependency on rigid one-to-one mappings overlooks the complex and often multifaceted relationships between and within texts and images. To this end, we introduce RankCLIP, a novel pretraining method that extends beyond the rigid one-to-one matching framework of CLIP and its variants. By leveraging both in-modal and cross-modal ranking consistency, RankCLIP improves the alignment process, enabling it to capture the nuanced many-to-many relationships between and within each modality. Through comprehensive experiments, we demonstrate the enhanced capability of RankCLIP to effectively improve performance across various downstream tasks, notably achieving significant gains in zero-shot classifications over state-of-the-art methods, underscoring the potential of RankCLIP in further advancing vision-language pretraining.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# マグノン-スカイミオンハイブリッド量子システム:マグノンによる相互作用の調整

Magnon-Skyrmion Hybrid Quantum Systems: Tailoring Interactions via Magnons ( http://arxiv.org/abs/2404.09388v1 )

ライセンス: Link先を確認
Xue-Feng Pan, Peng-Bo Li, Xin-Lei Hei, Xichao Zhang, Masahito Mochizuki, Fu-Li Li, Franco Nori, (参考訳) 異なる量子系間のコヒーレントで散逸的な相互作用は、ハイブリッド量子系の構築と新しい量子現象の研究に不可欠である。 本稿では,マイクロマグネットと近傍の磁気スカイミオンからなるマグノン-スキルミオンハイブリッド量子系を提案し,解析する。 我々は、マイクロマグネットのマグノンモードとスカイミオンの自由度を定量化したヘリシティーの強い結合機構を予測した。 このハイブリッド構成により、マグノンを介する非相互相互作用や、遠いスカイミオン量子ビット間、または超伝導量子ビットのような他の量子システム間の応答を誘導できることを示す。 この研究は、多様な量子効果の研究と磁気マイクロ構造を用いた量子情報処理のための量子プラットフォームを提供する。

Coherent and dissipative interactions between different quantum systems are essential for the construction of hybrid quantum systems and the investigation of novel quantum phenomena. Here, we propose and analyze a magnon-skyrmion hybrid quantum system, consisting of a micromagnet and nearby magnetic skyrmions. We predict a strong coupling mechanism between the magnonic mode of the micromagnet and the quantized helicity degree of freedom of the skyrmion. We show that with this hybrid setup it is possible to induce magnon-mediated nonreciprocal interactions and responses between distant skyrmion qubits or between skyrmion qubits and other quantum systems like superconducting qubits. This work provides a quantum platform for the investigation of diverse quantum effects and quantum information processing with magnetic microstructures.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# リアルワールド画像のためのマズード・シャッフル・ブラインドスポット

Masked and Shuffled Blind Spot Denoising for Real-World Images ( http://arxiv.org/abs/2404.09389v1 )

ライセンス: Link先を確認
Hamadi Chihaoui, Paolo Favaro, (参考訳) そこで我々は,masked and SHuffled Blind Spot Denoising (MASH) と呼ぶ,ブラインド・スポット・デノナイジング原理に基づく単一画像デノナイジングの新しいアプローチを提案する。 我々は、実画像に悩まされる相関ノイズの場合に焦点を当てる。 MASHは、入力の盲目(マスキング)レベルと(未知)雑音相関の関係を決定するための注意深い分析の結果である。 さらに、雑音の局所的相関を弱めるシャッフル手法を導入し、それによってさらなるデノイング性能の向上をもたらす。 我々は,実世界の雑音画像データセットに関する広範な実験を通してMASHを評価する。 従来の自己監督型聴解法と比較して, 同等かそれ以上の結果が得られた。

We introduce a novel approach to single image denoising based on the Blind Spot Denoising principle, which we call MAsked and SHuffled Blind Spot Denoising (MASH). We focus on the case of correlated noise, which often plagues real images. MASH is the result of a careful analysis to determine the relationships between the level of blindness (masking) of the input and the (unknown) noise correlation. Moreover, we introduce a shuffling technique to weaken the local correlation of noise, which in turn yields an additional denoising performance improvement. We evaluate MASH via extensive experiments on real-world noisy image datasets. We demonstrate on par or better results compared to existing self-supervised denoising methods.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# スカイミオン-メカニカルハイブリッド量子系:フォノンによるスカイミオン量子ビットの操作

Skyrmion-mechanical hybrid quantum systems: Manipulation of skyrmion qubits via phonons ( http://arxiv.org/abs/2404.09390v1 )

ライセンス: Link先を確認
Xue-Feng Pan, Xin-Lei Hei, Xiao-Yu Yao, Jia-Qiang Chen, Yu-Meng Ren, Xing-Liang Dong, Yi-Fan Qiao, Peng-Bo Li, (参考訳) Skyrmion qubitsは量子情報処理のための新しい有望な論理要素である。 しかし、複数の相互作用する量子ビットに対するスケーラビリティは依然として困難である。 本稿では,磁気結合によるナノメカニカルカンチレバーに強く結合したスカイミオン量子ビットを用いたハイブリッド量子セットアップを提案する。 線形駆動を用いてカンチレバーの剛性係数の変調を行い、スカイミオンキュービットと機械的モードとの結合強度を指数関数的に向上させる。 また, トポロジカル共振器アレイの場合には, スカイミオン量子ビットとトポロジカルフォノンバンド構造, カイラルスカイミオン-スケミオン相互作用の相互作用を研究することができる。 ここで提案されたスキームは、量子情報処理と磁気マイクロ構造を用いた量子シミュレーションを調査するための魅力的なプラットフォームを提供する。

Skyrmion qubits are a new highly promising logic element for quantum information processing. However, their scalability to multiple interacting qubits remains challenging. We propose a hybrid quantum setup with skyrmion qubits strongly coupled to nanomechanical cantilevers via magnetic coupling, which harnesses phonons as quantum interfaces for the manipulation of distant skyrmion qubits. A linear drive is utilized to achieve the modulation of the stiffness coefficient of the cantilever, resulting in an exponential enhancement of the coupling strength between the skyrmion qubit and the mechanical mode. We also consider the case of a topological resonator array, which allows us to study interactions between skyrmion qubits and topological phonon band structure, as well as chiral skyrmion-skyrmion interactions. The scheme suggested here offers a fascinating platform for investigating quantum information processing and quantum simulation with magnetic microstructures.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# プライバシ・ア・プライバシ:AIの公正性に対する二重の影響を探る

Privacy at a Price: Exploring its Dual Impact on AI Fairness ( http://arxiv.org/abs/2404.09391v1 )

ライセンス: Link先を確認
Mengmeng Yang, Ming Ding, Youyang Qu, Wei Ni, David Smith, Thierry Rakotoarivelo, (参考訳) マシンラーニング(ML)とディープラーニングモデルの世界的採用は、特に医療や金融といった重要な分野において、個人のプライバシと公正性を維持する上で大きな課題となっている。 これらの2つの要素は、学習システムにとって信頼できる環境に不可欠である。 多くの研究は、差分プライバシー(DP)メカニズムを通じて個人のプライバシーを保護することに重点を置いているが、近年の研究は、機械学習モデルにおける差分プライバシーが、予測精度に関する異なる階層のサブグループに不平等に影響を及ぼすことを示唆している。 これは公平性への懸念を招き、パフォーマンスのバイアスとして現れます。 プライバシーの強化は公平性の格差を増すという見解が有力だが、研究の小さな重要なサブセットは反対の見方を示唆している。 本稿では, 評価結果が広く, 公平性に対する差分プライバシーの影響は単調ではないことを示す。 代わりに、MLプロセスにより多くのDPノイズ(強化されたプライバシ)が追加されるにつれて、精度の相違は最初は大きくなるが、その後さらにノイズが増して、より高いプライバシレベルにおいて減少する。 さらに、微分プライベートな確率勾配勾配勾配ML法において勾配クリッピングを実装することにより、DPノイズの公平性に対する負の影響を軽減することができる。 この緩和は、クリッピング閾値を低くして不均一成長を緩和することで達成される。

The worldwide adoption of machine learning (ML) and deep learning models, particularly in critical sectors, such as healthcare and finance, presents substantial challenges in maintaining individual privacy and fairness. These two elements are vital to a trustworthy environment for learning systems. While numerous studies have concentrated on protecting individual privacy through differential privacy (DP) mechanisms, emerging research indicates that differential privacy in machine learning models can unequally impact separate demographic subgroups regarding prediction accuracy. This leads to a fairness concern, and manifests as biased performance. Although the prevailing view is that enhancing privacy intensifies fairness disparities, a smaller, yet significant, subset of research suggests the opposite view. In this article, with extensive evaluation results, we demonstrate that the impact of differential privacy on fairness is not monotonous. Instead, we observe that the accuracy disparity initially grows as more DP noise (enhanced privacy) is added to the ML process, but subsequently diminishes at higher privacy levels with even more noise. Moreover, implementing gradient clipping in the differentially private stochastic gradient descent ML method can mitigate the negative impact of DP noise on fairness. This mitigation is achieved by moderating the disparity growth through a lower clipping threshold.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# 無線フェデレーション学習におけるAirCompのオートエンコーダによるコンステレーション設計

An Autoencoder-Based Constellation Design for AirComp in Wireless Federated Learning ( http://arxiv.org/abs/2404.09392v1 )

ライセンス: Link先を確認
Yujia Mu, Xizixiang Wei, Cong Shen, (参考訳) 無線連合学習(FL)は、分散エッジデバイス間のモデル更新を集約するために、効率的なアップリンク通信に依存している。 オーバー・ザ・エア・コンピューティング(別名AirComp)は、限られた通信リソースを持つ無線リンクに対するFLのスケーラビリティ問題に対処するための有望なアプローチとして登場した。 従来の方法とは異なり、AirCompは複数のエッジデバイスが同時にアップリンク信号を送信でき、パラメータサーバは平均的なグローバルモデルを直接デコードできる。 しかし、既存のAirCompソリューションは本質的に類似しているが、現代の無線システムはデジタル変調を主に採用している。 したがって、和モデルの更新を曖昧さなく正確に復号するためには、注意深い星座設計が必要である。 本稿では,コンステレーション設計による和信号の正確な復号化に関わる課題を克服することを目的として,AirCompをディジタル変調でサポートするエンドツーエンド通信システムを提案する。 我々は、オートエンコーダネットワーク構造を活用し、送信機と受信機コンポーネントの協調最適化を探索する。 提案手法は,現在の無線システムにおけるFLの展開を推し進めるデジタル変調ベースのAirCompにおいて,和信号の正確な復号化という文脈において重要なギャップを埋めるものである。

Wireless federated learning (FL) relies on efficient uplink communications to aggregate model updates across distributed edge devices. Over-the-air computation (a.k.a. AirComp) has emerged as a promising approach for addressing the scalability challenge of FL over wireless links with limited communication resources. Unlike conventional methods, AirComp allows multiple edge devices to transmit uplink signals simultaneously, enabling the parameter server to directly decode the average global model. However, existing AirComp solutions are intrinsically analog, while modern wireless systems predominantly adopt digital modulations. Consequently, careful constellation designs are necessary to accurately decode the sum model updates without ambiguity. In this paper, we propose an end-to-end communication system supporting AirComp with digital modulation, aiming to overcome the challenges associated with accurate decoding of the sum signal with constellation designs. We leverage autoencoder network structures and explore the joint optimization of transmitter and receiver components. Our approach fills an important gap in the context of accurately decoding the sum signal in digital modulation-based AirComp, which can advance the deployment of FL in contemporary wireless systems.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# 光子を用いたハードウェアランダム数生成のためのデータ解析法

Data Analysis Methods Preliminaries for a Photon-based Hardware Random Number Generator ( http://arxiv.org/abs/2404.09395v1 )

ライセンス: Link先を確認
Dmitriy Beznosko, Keith Driscoll, Fernando Guadarrama, Steven Mai, Nikolas Thornton, (参考訳) 現代の世界では、高品質な乱数が必要である。 サイバーセキュリティの暗号化キーから、科学的使用のためのモデルやシミュレーションまで、このランダムな数字は高品質で、迅速に達成できることが重要です。 乱数生成の一般的な解決策の1つは擬ランダム数生成器(PRNG)である。 PRNGは、予測不可能な現象を数または文字列に量子化し、そのシードに基づいてランダムに数を生成するアルゴリズムに入力することで、ランダムな数を生成する。 種を見つけるのが容易な場所には、ユーザのマウスの動きやマシンのアップタイムがある。 しかしこれらは擬似ランダムのみであり、同じ種が2回与えられた場合、PRNGは同じ「ランダム」出力を生成する。 これはMinecraftのようなゲームには最適ですが、サイバーセキュリティ暗号化キー生成には向いていません。 ハードウェア乱数生成器(HRNG)を用いることで、PRNGの欠陥に影響を受けない乱数を高速に得ることができる。

High quality random numbers are necessary in the modern world. Ranging from encryption keys in cyber security to models and simulations for scientific use: it's important that these random numbers are of high quality and quickly attainable. One common solution to the generation of random numbers is that of pseudo-random number generators, or PRNGs. PRNGs generate random numbers by first quantifying some unpredictable phenomena into a number or string and feeding it into an algorithm which yields numbers randomly based on that seed. Easy places to find seeds include the user's mouse movements or the machine's uptime. These are only pseudorandom, however, as if given the same seed twice, the PRNG would generate the same 'random' output. This is great for games like Minecraft, but not so great for cybersecurity encryption key generation. By using a hardware random number generator (HRNG), random numbers that are not susceptible to the flaws found in PRNGs can be attained at a high rate.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# 実世界のプロジェクトにおけるテストフレーキネスの修正のためのジェネリックアプローチ

A Generic Approach to Fix Test Flakiness in Real-World Projects ( http://arxiv.org/abs/2404.09398v1 )

ライセンス: Link先を確認
Yang Chen, Reyhaneh Jabbarvand, (参考訳) テストのフレキネス(Test flakiness)は、コードの変更とは無関係に、ビルドの非決定的な振る舞いである。 テストフレキネスを自動修復する技術はほとんどなく、オーダー依存(OD)か実装依存(ID)フレキネスのどちらかを修復するために特別に設計されている。 また、プログラム解析を利用して既知のテストフレキネスパターンや根本原因を検出し、修復し、一般化に失敗する、という象徴的なアプローチである。 このギャップを埋めるために、LLMのパワーとプログラム解析音のパワーを組み合わせて異なる種類のテストフレキネスを固定する、神経象徴的手法であるFrakyDoctorを提案する。 実世界の243のプロジェクトから確認されたフレキ試験 (332 OD, 541 ID) を用いて, フレキドクターがフレキネスを修復する能力を示し, 57% (OD) および59% (ID) の成功率を得た。 3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODRepairより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。 基盤となる LLM にかかわらず、FrakyDoctor の非LLM コンポーネントは全体の 12-31% に寄与している。 提案手法は, テストフレキネスの緩和に関する関連する研究よりも優れているが, 一般には, 79個の未固定フレキ試験を実際のプロジェクトで修復している。 対応するパッチですべてのケースに対してプルリクエストをオープンしました。

Test flakiness, a non-deterministic behavior of builds irrelevant to code changes, is a major and continuing impediment to delivering reliable software. The very few techniques for the automated repair of test flakiness are specifically crafted to repair either Order-Dependent (OD) or Implementation-Dependent (ID) flakiness. They are also all symbolic approaches, i.e., leverage program analysis to detect and repair known test flakiness patterns and root causes, failing to generalize. To bridge the gap, we propose FlakyDoctor, a neuro-symbolic technique that combines the power of LLMs-generalizability-and program analysis-soundness-to fix different types of test flakiness. Our extensive evaluation using 873 confirmed flaky tests (332 OD and 541 ID) from 243 real-world projects demonstrates the ability of FlakyDoctor in repairing flakiness, achieving 57% (OD) and 59% (ID) success rate. Comparing to three alternative flakiness repair approaches, FlakyDoctor can repair 8% more ID tests than DexFix, 12% more OD flaky tests than ODRepair, and 17% more OD flaky tests than iFixFlakies. Regardless of underlying LLM, the non-LLM components of FlakyDoctor contribute to 12-31% of the overall performance, i.e., while part of the FlakyDoctor power is from using LLMs, they are not good enough to repair flaky tests in real-world projects alone. What makes the proposed technique superior to related research on test flakiness mitigation specifically and program repair, in general, is repairing 79 previously unfixed flaky tests in real-world projects. We opened pull requests for all cases with corresponding patches; 19 of them were accepted and merged at the time of submission.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# 離散フーリエ変換に基づくカークウッド・ディラック正状態の特徴付け

Characterizing Kirkwood-Dirac positive states based on discrete Fourier transform ( http://arxiv.org/abs/2404.09399v1 )

ライセンス: Link先を確認
Ying-Hui Yang, Shuang Yao, Shi-Jiao Geng, Xiao-Li Wang, Pei-Ying Chen, (参考訳) カークウッド・ディラック分布(KD)は、KD分布の非正の成分と結びついている非古典的な現象や量子上の優位性を記述するのに役立つ。 例えば、$\mathcal{A}$ と $\mathcal{B}$ は2つの観測可能な二つの固有基底の固有射影であり、離散フーリエ変換(DFT)行列は2つの固有基底の間の遷移行列であるとする。 素次元を持つ系において、DFT行列に基づくKD正状態の集合 $\mathcal{E}_{KD+}$ は $\mathcal{A}$ と $\mathcal{B}$ の凸結合である。 つまり、$\mathcal{E}_{KD+}={\rm conv}(\mathcal{A}\cup\mathcal{B})$ [arXiv:2306.00086] である。 本稿では,その結果を一般化する。 つまり、$d$-次元システムでは、$\mathcal{E}_{KD+}={\rm conv}(\Omega)$ for $d=p^{2}$ and $d=pq$, where $p, q$ is prime and $\Omega$ is set of projectors of all pure KD positive states。

Kirkwood-Dirac (KD) distribution is helpful to describe nonclassical phenomena and quantum advantages, which have been linked with nonpositive entries of KD distribution. Suppose that $\mathcal{A}$ and $\mathcal{B}$ are the eigenprojectors of the two eigenbases of two observables and the discrete Fourier transform (DFT) matrix is the transition matrix between the two eigenbases. In a system with prime dimension, the set $\mathcal{E}_{KD+}$ of KD positive states based on the DFT matrix is convex combinations of $\mathcal{A}$ and $\mathcal{B}$. That is, $\mathcal{E}_{KD+}={\rm conv}(\mathcal{A}\cup\mathcal{B})$ [arXiv:2306.00086]. In this paper, we generalize the result. That is, in a $d$-dimensional system, $\mathcal{E}_{KD+}={\rm conv}(\Omega)$ for $d=p^{2}$ and $d=pq$, where $p, q$ are prime and $\Omega$ is the set of projectors of all the pure KD positive states.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# 拡散モデルに対する著作権保護のための透かし埋め込み型逆例

Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion Models ( http://arxiv.org/abs/2404.09401v1 )

ライセンス: Link先を確認
Peifei Zhu, Tsubasa Takahashi, Hirokatsu Kataoka, (参考訳) 拡散モデル(DM)は様々な画像生成タスクにおいて顕著な機能を示した。 しかし、DMが無許可の創作を模倣し、著作権問題を引き起こす可能性があるという懸念が高まっている。 この問題に対処するために,対戦型事例の生成に個人用透かしを埋め込んだ新しい枠組みを提案する。 このような例では、DMは可視な透かしを持つ画像を生成し、DMが許可されていない画像を模倣することを防ぐことができる。 本研究では, 条件付き敵対ネットワークに基づくジェネレータを構築し, 3つの損失(敵損失, GAN損失, 摂動損失)を設計し, 微妙な摂動を持つが, DMを効果的に攻撃し, 著作権侵害を防止する。 本手法による個人用透かし生成装置の訓練には2~3分以内で5~10個のサンプルしか必要とせず,一度訓練すれば,その透かしをかなり高速に生成できる(画像当たり0.2秒)。 様々な条件付き画像生成シナリオにおいて広範な実験を行う。 カオス的なテクスチャを持つ画像を生成する既存の方法と比較して,我々は生成した画像に透かしを付加する。 また, 逆転例は未知の生成モデル間で良好な伝達性を示すことも確認した。 したがって、この作品は、DMベースの模倣から著作権を保護するためのシンプルだが強力な方法を提供する。

Diffusion Models (DMs) have shown remarkable capabilities in various image-generation tasks. However, there are growing concerns that DMs could be used to imitate unauthorized creations and thus raise copyright issues. To address this issue, we propose a novel framework that embeds personal watermarks in the generation of adversarial examples. Such examples can force DMs to generate images with visible watermarks and prevent DMs from imitating unauthorized images. We construct a generator based on conditional adversarial networks and design three losses (adversarial loss, GAN loss, and perturbation loss) to generate adversarial examples that have subtle perturbation but can effectively attack DMs to prevent copyright violations. Training a generator for a personal watermark by our method only requires 5-10 samples within 2-3 minutes, and once the generator is trained, it can generate adversarial examples with that watermark significantly fast (0.2s per image). We conduct extensive experiments in various conditional image-generation scenarios. Compared to existing methods that generate images with chaotic textures, our method adds visible watermarks on the generated images, which is a more straightforward way to indicate copyright violations. We also observe that our adversarial examples exhibit good transferability across unknown generative models. Therefore, this work provides a simple yet powerful way to protect copyright from DM-based imitation.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# ニューラルマッキー・ブラソフ過程:拡散過程における分布依存性

Neural McKean-Vlasov Processes: Distributional Dependence in Diffusion Processes ( http://arxiv.org/abs/2404.09402v1 )

ライセンス: Link先を確認
Haoming Yang, Ali Hasan, Yuting Ng, Vahid Tarokh, (参考訳) マッキーン・ブラソフ確率微分方程式(MV-SDEs)は、粒子密度に依存して相互作用する粒子の無限個の挙動を数学的に記述する。 そこで本研究では,SDEのパラメータ化における分布情報含意の影響について検討する。 本稿では,MV-SDE を表現するための半パラメトリック手法と,MV-SDE の特性に基づくデータからパラメータを推定するための対応する推定器を提案する。 我々は、異なるアーキテクチャと推定器の特性を分析し、関連する機械学習問題におけるそれらの適用性を検討する。 時系列と確率的モデリングのための実・合成データセット上での異なるアーキテクチャと推定器の性能を実証的に比較する。 その結果,SDEのパラメータ化における分布依存性を明示的に含むことは,MV-SDEに付随する確率フローの豊富なクラスにより,標準I\^o-SDEの強い性能を維持しつつ,交換可能性仮定の下での相互作用を伴う時間データのモデル化に有効であることが示唆された。

McKean-Vlasov stochastic differential equations (MV-SDEs) provide a mathematical description of the behavior of an infinite number of interacting particles by imposing a dependence on the particle density. As such, we study the influence of explicitly including distributional information in the parameterization of the SDE. We propose a series of semi-parametric methods for representing MV-SDEs, and corresponding estimators for inferring parameters from data based on the properties of the MV-SDE. We analyze the characteristics of the different architectures and estimators, and consider their applicability in relevant machine learning problems. We empirically compare the performance of the different architectures and estimators on real and synthetic datasets for time series and probabilistic modeling. The results suggest that explicitly including distributional dependence in the parameterization of the SDE is effective in modeling temporal data with interaction under an exchangeability assumption while maintaining strong performance for standard It\^o-SDEs due to the richer class of probability flows associated with MV-SDEs.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# マルチモーダル学習のための神経インスパイアされた情報理論的階層的知覚

Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning ( http://arxiv.org/abs/2404.09403v1 )

ライセンス: Link先を確認
Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan, (参考訳) 様々な情報源やモダリティからの情報の統合と処理は、自律システムやサイバー物理システムにおける現実世界の包括的かつ正確な認識を得るために重要である。 神経科学からインスピレーションを得た情報理論階層知覚(ITHP)モデルを開発した。 ニューラルネットワークで同一の全てのモーダルを組み込んだ従来の融合モデルとは異なり、我々のモデルは素数モーダルを指定し、残りのモーダルを情報経路の検出器とみなし、情報の流れを蒸留する。 提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。 このアプローチは,冗長性を最小化しながら関連情報を保持し,マルチモーダル表現学習の性能を大幅に向上させる。 MUStARD, CMU-MOSI, CMU-MOSEIデータセットの実験的評価により, 本モデルはマルチモーダル学習シナリオにおいて決定的な情報を連続的に蒸留し, 最先端のベンチマークより優れていることが示された。 注目すべきは、CMU-MOSIデータセットにおいて、ITHPは、すべての評価指標(バイナリ精度、F1スコア、平均絶対誤差、ピアソン相関など)にわたるマルチモーダルな感情のバイナリ分類タスクにおいて、人間レベルのパフォーマンスを上回っていることである。

Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world in autonomous systems and cyber-physical systems. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Different from most traditional fusion models that incorporate all modalities identically in neural networks, our model designates a prime modality and regards the remaining modalities as detectors in the information pathway, serving to distill the flow of information. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of multimodal representation learning. Experimental evaluations on the MUStARD, CMU-MOSI, and CMU-MOSEI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks. Remarkably, on the CMU-MOSI dataset, ITHP surpasses human-level performance in the multimodal sentiment binary classification task across all evaluation metrics (i.e., Binary Accuracy, F1 Score, Mean Absolute Error, and Pearson Correlation).
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# EQO:Winogradベースのプロトコルと量子化共最適化による超効率的なプライベート推論の探索

EQO: Exploring Ultra-Efficient Private Inference with Winograd-Based Protocol and Quantization Co-Optimization ( http://arxiv.org/abs/2404.09404v1 )

ライセンス: Link先を確認
Wenxuan Zeng, Tianshi Xu, Meng Li, Runsheng Wang, (参考訳) セキュアな2次元計算(2PC)に基づくプライベート畳み込みニューラルネットワーク(CNN)の推論は、特に畳み込み層による高い通信と遅延オーバーヘッドに悩まされる。 本稿では,CNNと2PCプロトコルを協調的に最適化する量子化2PC推論フレームワークであるEQOを提案する。 EQOは、Winograd変換と量子化を組み合わせて効率的な畳み込み計算を行う新しい2PCプロトコルを備えている。 しかし、量子化とウィノグラードの畳み込みは準最適である: ウィノグラード変換は、量子化ビット幅を増大させ、非無視的な通信オーバーヘッドを伴う頻繁なビット幅変換を必要とする広範囲な局所的な加算と重み付きアウトリーを導入する。 そこで,プロトコルレベルでは,通信の最小化を目的とした2PC推論グラフの一連の最適化を提案する。 ネットワークレベルでは、通信制約が与えられた場合のネットワーク精度を最適化するために、感度に基づく混合精度量子化アルゴリズムを開発する。 さらに、ビット幅を増大させることなく、ウェイトアウトレーヤに対応する2PCフレンドリーなビット再重み付けアルゴリズムを提案する。 大規模な実験により、EQOは1.7x、3.6x、6.3xの通信削減を1.29%、1.16%、1.29%の精度で実証した。

Private convolutional neural network (CNN) inference based on secure two-party computation (2PC) suffers from high communication and latency overhead, especially from convolution layers. In this paper, we propose EQO, a quantized 2PC inference framework that jointly optimizes the CNNs and 2PC protocols. EQO features a novel 2PC protocol that combines Winograd transformation with quantization for efficient convolution computation. However, we observe naively combining quantization and Winograd convolution is sub-optimal: Winograd transformations introduce extensive local additions and weight outliers that increase the quantization bit widths and require frequent bit width conversions with non-negligible communication overhead. Therefore, at the protocol level, we propose a series of optimizations for the 2PC inference graph to minimize the communication. At the network level, We develop a sensitivity-based mixed-precision quantization algorithm to optimize network accuracy given communication constraints. We further propose a 2PC-friendly bit re-weighting algorithm to accommodate weight outliers without increasing bit widths. With extensive experiments, EQO demonstrates 11.7x, 3.6x, and 6.3x communication reduction with 1.29%, 1.16%, and 1.29% higher accuracy compared to state-of-the-art frameworks SiRNN, COINN, and CoPriv, respectively.
翻訳日:2024-04-16 14:09:06 公開日:2024-04-15
# StackOverflow上でのファイル名認識

Few-shot Name Entity Recognition on StackOverflow ( http://arxiv.org/abs/2404.09405v1 )

ライセンス: Link先を確認
Xinwei Chen, Kun Li, Tianyou Song, Jiangjian Guo, (参考訳) StackOverflowは、膨大な質問リポジトリとラベル付き例が限定されているので、アノテーションの課題を提起します。 メタラーニングを利用した数発のエンティティ認識(NER)手法であるRoBERTa+MAMLを提案することにより,このギャップに対処する。 提案手法はStackOverflow NERコーパス(27のエンティティタイプ)で評価され,ベースラインよりも5%のF1スコア向上を実現している。 我々は、さらにドメイン固有のフレーズ処理により、結果を改善した。

StackOverflow, with its vast question repository and limited labeled examples, raise an annotation challenge for us. We address this gap by proposing RoBERTa+MAML, a few-shot named entity recognition (NER) method leveraging meta-learning. Our approach, evaluated on the StackOverflow NER corpus (27 entity types), achieves a 5% F1 score improvement over the baseline. We improved the results further domain-specific phrase processing enhance results.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 多種サンゴのヒト・イン・ザ・ループセグメンテーション

Human-in-the-Loop Segmentation of Multi-species Coral Imagery ( http://arxiv.org/abs/2404.09406v1 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire, Niko Suenderhauf, Tobias Fischer, (参考訳) 海中車両による広範囲の海洋調査はサンゴ礁の画像の入手可能性を大幅に向上させるが、ドメインの専門家が画像にラベルをつけるのに費用と時間を要する。 点ラベル伝搬は、スパース点ラベルでラベル付けされた既存の画像データを活用するために用いられるアプローチである。 結果として生成された強化された基底真理は、セマンティックセグメンテーションモデルをトレーニングするために使用される。 ここでは,近年の基盤モデルの進歩により,事前学習やカスタム設計のアルゴリズムを必要とせず,DINOv2特徴とK-Nearest Neighbors (KNN)を用いてサンゴサンゴサンゴサンゴマスクを生成できることを実証する。 画像毎の5点ラベルしか利用できない場合,提案手法は画素精度17.3%,mIoU22.6%,画像毎の10点ラベルが利用可能であれば10.6%,19.1%向上する。 ループ内ラベリング方式が使われなくても、KNNによるDINOv2のノイズ化機能は、画素精度が3.5%、mIoU(5グリッド点)が5.7%向上する。 また,画像毎の点標定スタイルが点標定の伝播品質に与える影響を詳細に分析し,点標定効率の最大化に関する一般的な勧告を提供する。

Broad-scale marine surveys performed by underwater vehicles significantly increase the availability of coral reef imagery, however it is costly and time-consuming for domain experts to label images. Point label propagation is an approach used to leverage existing image data labeled with sparse point labels. The resulting augmented ground truth generated is then used to train a semantic segmentation model. Here, we first demonstrate that recent advances in foundation models enable generation of multi-species coral augmented ground truth masks using denoised DINOv2 features and K-Nearest Neighbors (KNN), without the need for any pre-training or custom-designed algorithms. For extremely sparsely labeled images, we propose a labeling regime based on human-in-the-loop principles, resulting in significant improvement in annotation efficiency: If only 5 point labels per image are available, our proposed human-in-the-loop approach improves on the state-of-the-art by 17.3% for pixel accuracy and 22.6% for mIoU; and by 10.6% and 19.1% when 10 point labels per image are available. Even if the human-in-the-loop labeling regime is not used, the denoised DINOv2 features with a KNN outperforms the prior state-of-the-art by 3.5% for pixel accuracy and 5.7% for mIoU (5 grid points). We also provide a detailed analysis of how point labeling style and the quantity of points per image affects the point label propagation quality and provide general recommendations on maximizing point label efficiency.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# Wasserstein Wormhole: 変圧器を用いたスケーラブルな最適輸送距離

Wasserstein Wormhole: Scalable Optimal Transport Distance with Transformers ( http://arxiv.org/abs/2404.09411v1 )

ライセンス: Link先を確認
Doron Haviv, Russell Zhang Kunes, Thomas Dougherty, Cassandra Burdziak, Tal Nawy, Anna Gilbert, Dana Pe'er, (参考訳) 最適輸送(OT)と関連するワッサーシュタイン計量(W)は、分布を比較するための強力でユビキタスなツールである。 しかし、コホートサイズが大きくなるにつれて、ペアワイズワッサースタイン距離の計算は急速に困難になる。 魅力的な選択肢は、標準多次元スケーリング(MDS)と同様、ユークリッド距離をOT距離にペアでマッピングする埋め込み空間を見つけることである。 我々は、変圧器をベースとした自己エンコーダであるワッサーシュタイン・ワームホール(Wasserstein Wormhole)を、ユークリッド距離がOT距離に近似する潜在空間に経験的分布を埋める。 MDS理論を拡張して、目的関数は非ユークリッド距離を埋め込む際に発生する誤差の有界性を示すことを示す。 実験的に、ワームホール埋め込み間の距離はワッサーシュタイン距離と密接に一致し、OT距離の線形時間計算を可能にした。 Wasserstein Wormholeは、分散を埋め込みにマッピングするエンコーダとともに、埋め込みを分布にマッピングするデコーダを含み、埋め込み空間内の操作をWasserstein Barycenter EstimationやOT補間といったOT空間に一般化することができる。 スケーラビリティと解釈可能性をOTアプローチに貸すことで、Wasserstein Wormholeは計算幾何学と単細胞生物学の分野におけるデータ解析の新たな道を開く。

Optimal transport (OT) and the related Wasserstein metric (W) are powerful and ubiquitous tools for comparing distributions. However, computing pairwise Wasserstein distances rapidly becomes intractable as cohort size grows. An attractive alternative would be to find an embedding space in which pairwise Euclidean distances map to OT distances, akin to standard multidimensional scaling (MDS). We present Wasserstein Wormhole, a transformer-based autoencoder that embeds empirical distributions into a latent space wherein Euclidean distances approximate OT distances. Extending MDS theory, we show that our objective function implies a bound on the error incurred when embedding non-Euclidean distances. Empirically, distances between Wormhole embeddings closely match Wasserstein distances, enabling linear time computation of OT distances. Along with an encoder that maps distributions to embeddings, Wasserstein Wormhole includes a decoder that maps embeddings back to distributions, allowing for operations in the embedding space to generalize to OT spaces, such as Wasserstein barycenter estimation and OT interpolation. By lending scalability and interpretability to OT approaches, Wasserstein Wormhole unlocks new avenues for data analysis in the fields of computational geometry and single-cell biology.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# DeferredGS: Deferred Shadingによる分離および編集可能なガウス分割

DeferredGS: Decoupled and Editable Gaussian Splatting with Deferred Shading ( http://arxiv.org/abs/2404.09412v1 )

ライセンス: Link先を確認
Tong Wu, Jia-Mu Sun, Yu-Kun Lai, Yuewen Ma, Leif Kobbelt, Lin Gao, (参考訳) 3Dオブジェクトとシーンの再構成と編集はどちらもコンピュータグラフィックスとコンピュータビジョンにおいて重要な役割を担っている。 ニューラルレイディアンスフィールド(NeRF)はリアルな再構成と編集結果を達成するが、レンダリングの非効率さに悩まされる。 ガウススプラッティングはガウス楕円体をラスタ化することによってレンダリングを著しく加速する。 しかし、ガウススプラッティングは、テクスチャと照明の両方をモデル化し、これらのコンポーネントの独立した編集能力を制限するために、単一の球高調波関数(SH)を利用する。 近年、テクスチャと照明をガウスのスプレイティング表現で分離する試みが試みられているが、反射的な場面で可塑性幾何や分解の結果が得られない可能性がある。 さらに、フォワードシェーディング技術は、ガウスの幾何学的属性が元の照明条件の下で最適化されており、新しい照明条件には適さないため、照明中に顕著なブレンディングアーティファクトを導入している。 これらの問題に対処するために,遅延シェーディングを用いたガウススプラッティング表現のデカップリングと編集を行うDedeerredGSを導入する。 疎結合を成功させるために,学習可能な環境マップを用いて照明をモデル化し,Gussian上でのテクスチャパラメータや正規方向などの付加属性を定義した。 より重要なことは、遅延シェーディングを適用し、従来の方法よりも現実的なリライト効果をもたらすことである。 定性的かつ定量的な実験は、新しいビュー合成および編集タスクにおけるDederredGSの優れた性能を示す。

Reconstructing and editing 3D objects and scenes both play crucial roles in computer graphics and computer vision. Neural radiance fields (NeRFs) can achieve realistic reconstruction and editing results but suffer from inefficiency in rendering. Gaussian splatting significantly accelerates rendering by rasterizing Gaussian ellipsoids. However, Gaussian splatting utilizes a single Spherical Harmonic (SH) function to model both texture and lighting, limiting independent editing capabilities of these components. Recently, attempts have been made to decouple texture and lighting with the Gaussian splatting representation but may fail to produce plausible geometry and decomposition results on reflective scenes. Additionally, the forward shading technique they employ introduces noticeable blending artifacts during relighting, as the geometry attributes of Gaussians are optimized under the original illumination and may not be suitable for novel lighting conditions. To address these issues, we introduce DeferredGS, a method for decoupling and editing the Gaussian splatting representation using deferred shading. To achieve successful decoupling, we model the illumination with a learnable environment map and define additional attributes such as texture parameters and normal direction on Gaussians, where the normal is distilled from a jointly trained signed distance function. More importantly, we apply deferred shading, resulting in more realistic relighting effects compared to previous methods. Both qualitative and quantitative experiments demonstrate the superior performance of DeferredGS in novel view synthesis and editing tasks.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 局所プライベート線形帯域の最適レグレットについて

On the Optimal Regret of Locally Private Linear Contextual Bandit ( http://arxiv.org/abs/2404.09413v1 )

ライセンス: Link先を確認
Jiachun Li, David Simchi-Levi, Yining Wang, (参考訳) 線形報酬関数を持つ文脈的バンディットは、バンディットとオンライン学習研究において最も広く研究されているモデルの1つである。 近年、文脈や報酬に含まれるセンシティブな情報を一般大衆に漏えいから保護する「emph{locally private} linear contextual bandit algorithm」の設計への関心が高まっている。 古典的線形文脈的帯域幅アルゴリズムは、複数の代替手法を介して$\tilde O(\sqrt{T})$の累積後悔上限を許容するが、そのような後悔境界が局所的なプライバシー制約の存在下で達成可能かどうかについては未定のままであり、その結果は$\tilde O(T^{3/4})$である。 本稿では,局所的線形文脈帯域に対して,$\tilde O(\sqrt{T})$ regret upper bound を実現することができることを示す。 我々の解は、平均絶対偏差誤差の解析や、最小平均偏差誤差を達成するための階層化された主成分回帰など、いくつかの新しいアルゴリズム的および解析的アイデアに依存している。

Contextual bandit with linear reward functions is among one of the most extensively studied models in bandit and online learning research. Recently, there has been increasing interest in designing \emph{locally private} linear contextual bandit algorithms, where sensitive information contained in contexts and rewards is protected against leakage to the general public. While the classical linear contextual bandit algorithm admits cumulative regret upper bounds of $\tilde O(\sqrt{T})$ via multiple alternative methods, it has remained open whether such regret bounds are attainable in the presence of local privacy constraints, with the state-of-the-art result being $\tilde O(T^{3/4})$. In this paper, we show that it is indeed possible to achieve an $\tilde O(\sqrt{T})$ regret upper bound for locally private linear contextual bandit. Our solution relies on several new algorithmic and analytical ideas, such as the analysis of mean absolute deviation errors and layered principal component regression in order to achieve small mean absolute deviation errors.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 衛星データを用いたダストエアロゾル検出のための機械学習アルゴリズムの検討

A Review on Machine Learning Algorithms for Dust Aerosol Detection using Satellite Data ( http://arxiv.org/abs/2404.09415v1 )

ライセンス: Link先を確認
Nurul Rafi, Pablo Rivas, (参考訳) ダストストームは、世界中の様々な地域にある特定の呼吸器疾患と関連している。 研究者は、塵嵐現象を取り巻く要素を研究するために、時間と資源を捧げてきた。 本稿では,機械学習を用いた衛星搭載センサによる塵エアロゾル調査の取り組みを概観する。 我々は、歴史的観点から、異なるデータセットと異なるセンサーを用いて、ダストエアロゾルをモデル化する最も一般的な問題をレビューした。 本研究は,スペクトル帯域の線形および非線形の組み合わせに基づくマルチスペクトルアプローチが,可視化と定量的解析において最も成功したものであることを示唆する。

Dust storms are associated with certain respiratory illnesses across different areas in the world. Researchers have devoted time and resources to study the elements surrounding dust storm phenomena. This paper reviews the efforts of those who have investigated dust aerosols using sensors onboard of satellites using machine learning-based approaches. We have reviewed the most common issues revolving dust aerosol modeling using different datasets and different sensors from a historical perspective. Our findings suggest that multi-spectral approaches based on linear and non-linear combinations of spectral bands are some of the most successful for visualization and quantitative analysis; however, when researchers have leveraged machine learning, performance has been improved and new opportunities to solve unique problems arise.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 司法事件における知識グラフの自動構築

Automatic Knowledge Graph Construction for Judicial Cases ( http://arxiv.org/abs/2404.09416v1 )

ライセンス: Link先を確認
Jie Zhou, Xin Chen, Hang Zhang, Zhe Li, (参考訳) 本稿では,法的知識における認知知の応用を考察し,司法人工知能の発展に焦点をあてる。 本稿では,自然言語処理(NLP)を中核技術として活用し,事例知識グラフの自動構築手法を提案する。 我々のアプローチは、エンティティ認識と関係抽出という2つの基本的なNLPタスクに重点を置いている。 実体認識のための事前訓練された2つのモデルを比較し,その有効性を確かめる。 さらに,翻訳の埋め込みを取り入れたマルチタスク意味関係抽出モデルを導入し,文脈の曖昧さを考慮に入れた事例知識表現を実現する。 具体的には,「自動車交通事故責任問題」に関する事例研究において,本手法はベースラインモデルよりも有意に優れている。 エンティティ認識F1スコアは0.36向上し、関係抽出F1スコアは2.37アップした。 これらの結果に基づいて,裁判におけるケースナレッジグラフの自動構築プロセスについて詳述し,数十万の判決に対する知識グラフの組み立てを可能にする。 このフレームワークは、関連するケースの正確な分類とレコメンデーションを含む、司法AIの応用に対する堅牢なセマンティックサポートを提供する。

In this paper, we explore the application of cognitive intelligence in legal knowledge, focusing on the development of judicial artificial intelligence. Utilizing natural language processing (NLP) as the core technology, we propose a method for the automatic construction of case knowledge graphs for judicial cases. Our approach centers on two fundamental NLP tasks: entity recognition and relationship extraction. We compare two pre-trained models for entity recognition to establish their efficacy. Additionally, we introduce a multi-task semantic relationship extraction model that incorporates translational embedding, leading to a nuanced contextualized case knowledge representation. Specifically, in a case study involving a "Motor Vehicle Traffic Accident Liability Dispute," our approach significantly outperforms the baseline model. The entity recognition F1 score improved by 0.36, while the relationship extraction F1 score increased by 2.37. Building on these results, we detail the automatic construction process of case knowledge graphs for judicial cases, enabling the assembly of knowledge graphs for hundreds of thousands of judgments. This framework provides robust semantic support for applications of judicial AI, including the precise categorization and recommendation of related cases.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 圧電効果による表面波の量子化による磁気系の操作

Manipulation of magnetic systems by quantized surface acoustic wave via piezomagnetic effect ( http://arxiv.org/abs/2404.09423v1 )

ライセンス: Link先を確認
Yu-Yuan Chen, Jia-Heng Wang, Lu Ning Song, Yu-xi Liu, (参考訳) 圧電媒質中の量子化表面音響波(SAW)は近年研究されており、圧電効果によって生じる電界を介して量子系の電気双極子を制御するために用いられている。 しかし、磁場によって磁気モーメントを直接操作するのは簡単で便利ではない。 圧電媒体におけるSAWの量子論について検討する。 圧磁性媒体の固有特性は、圧磁性媒体のSAWが、圧磁性効果によって誘導される磁場を介して量子系の磁気モーメントと直接相互作用できることを示す。 圧電媒質を用いたストリップSAW導波路を例として、異なる磁気量子系と磁気モーメントとの結合強度と導波路の量子化単一モードSAWについて検討する。 これに基づいて、圧電導波路における量子化多重モードSAWによって媒介される磁気量子システム間の相互作用について議論する。 本研究は、量子化SAWにより磁気量子系を直接制御する便利な方法を提供し、量子化音響波による固体量子系に基づくオンチップ情報処理への応用の可能性を提供する。

The quantized surface acoustic wave (SAW) in the piezoelectric medium has recently been studied, and is used to control electric dipoles of quantum systems via the electric field produced through piezoelectric effect. However, it is not easy and convenient to manipulate magnetic moments directly by the electric field. We here study a quantum theory of SAW in the piezomagnetic medium. We show that the intrinsic properties of the piezomagnetic medium enable the SAW in the piezomagnetic medium to directly interact with magnetic moments of quantum systems via magnetic field induced by piezomagnetic effect. By taking the strip SAW waveguide made of piezomagnetic medium as an example, we further study the coupling strengths between different magnetic quantum systems with magnetic moments and the quantized single-mode SAW in the waveguide. Based on this, we discuss the interaction between magnetic quantum systems mediated by the quantized multi-mode SAW in piezomagnetic waveguide. Our study provides a convenient way to directly control magnetic quantum systems by quantized SAW, and offers potential applications to on-chip information processing based on solid-state quantum systems via quantized acoustic wave.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 2次元観察によるバイオメディカルボリュームの超解像

Super-resolution of biomedical volumes with 2D supervision ( http://arxiv.org/abs/2404.09425v1 )

ライセンス: Link先を確認
Cheng Jiang, Alexander Gedeon, Yiwei Lyu, Eric Landgraf, Yufeng Zhang, Xinhai Hou, Akhil Kondepudi, Asadur Chowdury, Honglak Lee, Todd Hollon, (参考訳) 臨床組織標本から抽出した診断情報を増やし、ヒト病理医と計算病理学モデルの両方の診断精度を向上させる可能性がある。 残念なことに、3次元の3Dボリューム顕微鏡を臨床医学に統合する障壁には、長時間の撮像時間、深さ/z軸分解能の低下、高品質なボリュームデータ不足が含まれる。 超解像(MSDSR)のためのマスク付きスライス拡散法を導入し, 生体試料のすべての空間次元にまたがるデータ生成分布に固有な等価性を利用する。 この本質的な特徴は、ある平面(例えば XY)から高解像度の画像に基づいて訓練された超解像モデルにより、他の平面(XZ, YZ)に効果的に一般化することができ、従来の配向依存を克服することができる。 生体試料分析と術中診断のための光学的画像モダリティであるRaman histology (SRH) へのMSDSRの応用に着目する。 そこで我々は,MSDSRの有効性を評価するために,SliceFIDという新しい性能指標を導入し,MSDSRがベースラインモデルよりも優れた性能を示す。 以上の結果から,MSDSRは3次元容積データの品質と解像度を著しく向上させるだけでなく,臨床診断および生医学研究における3次元容積顕微鏡の広範な応用を妨げる大きな障害にも対処できることが明らかとなった。

Volumetric biomedical microscopy has the potential to increase the diagnostic information extracted from clinical tissue specimens and improve the diagnostic accuracy of both human pathologists and computational pathology models. Unfortunately, barriers to integrating 3-dimensional (3D) volumetric microscopy into clinical medicine include long imaging times, poor depth / z-axis resolution, and an insufficient amount of high-quality volumetric data. Leveraging the abundance of high-resolution 2D microscopy data, we introduce masked slice diffusion for super-resolution (MSDSR), which exploits the inherent equivalence in the data-generating distribution across all spatial dimensions of biological specimens. This intrinsic characteristic allows for super-resolution models trained on high-resolution images from one plane (e.g., XY) to effectively generalize to others (XZ, YZ), overcoming the traditional dependency on orientation. We focus on the application of MSDSR to stimulated Raman histology (SRH), an optical imaging modality for biological specimen analysis and intraoperative diagnosis, characterized by its rapid acquisition of high-resolution 2D images but slow and costly optical z-sectioning. To evaluate MSDSR's efficacy, we introduce a new performance metric, SliceFID, and demonstrate MSDSR's superior performance over baseline models through extensive evaluations. Our findings reveal that MSDSR not only significantly enhances the quality and resolution of 3D volumetric data, but also addresses major obstacles hindering the broader application of 3D volumetric microscopy in clinical diagnostics and biomedical research.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# ViFu: Visible Part Fusionによるクリーンな背景を持つ複数360$^\circ$オブジェクト再構成

ViFu: Multiple 360$^\circ$ Objects Reconstruction with Clean Background via Visible Part Fusion ( http://arxiv.org/abs/2404.09426v1 )

ライセンス: Link先を確認
Tianhan Xu, Takuya Ikeda, Koichi Nishiwaki, (参考訳) 本稿では,静的でクリーンな背景と複数の360$^\circ$オブジェクトを,異なるタイムスタンプのシーンから分割し,復元する手法を提案する。 近年の研究では、3Dシーンのモデリングに神経放射場を使用し、新しいビュー合成の質を改善している一方、トレーニング画像の見えない部分や隠蔽部分のモデリングに焦点を当てている研究はほとんどない。 これらのアンダーコンストラクション部分はシーン編集とレンダリングビュー選択の両方を制限し、ダウンストリームタスクのための合成データ生成の利便性を制限している。 我々の基本的な考え方は、同じ物体の集合を様々な配置で観察することで、あるシーンで見えない部分が他のシーンで見えるようになるというものである。 各シーンから見える部分を融合させることで、背景と前景の両方の閉塞のないレンダリングを実現することができる。 対象/背景のセグメンテーションとアライメント, 新たな問題定式化に適した点クラウドベースの手法を活用する, (2) 放射場融合, 放射場の可視情報を定量化するための可視場を導入, 一連のシーンの融合のための可視性認識レンダリングを提案し, 最終的にクリーンな背景と360$^\circ$オブジェクトレンダリングを得る。 合成および実データを用いて総合的な実験を行い,本手法の有効性を実証した。

In this paper, we propose a method to segment and recover a static, clean background and multiple 360$^\circ$ objects from observations of scenes at different timestamps. Recent works have used neural radiance fields to model 3D scenes and improved the quality of novel view synthesis, while few studies have focused on modeling the invisible or occluded parts of the training images. These under-reconstruction parts constrain both scene editing and rendering view selection, thereby limiting their utility for synthetic data generation for downstream tasks. Our basic idea is that, by observing the same set of objects in various arrangement, so that parts that are invisible in one scene may become visible in others. By fusing the visible parts from each scene, occlusion-free rendering of both background and foreground objects can be achieved. We decompose the multi-scene fusion task into two main components: (1) objects/background segmentation and alignment, where we leverage point cloud-based methods tailored to our novel problem formulation; (2) radiance fields fusion, where we introduce visibility field to quantify the visible information of radiance fields, and propose visibility-aware rendering for the fusion of series of scenes, ultimately obtaining clean background and 360$^\circ$ object rendering. Comprehensive experiments were conducted on synthetic and real datasets, and the results demonstrate the effectiveness of our method.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# フェルミオンガウス状態における境界効果と相関

Boundary effect and correlations in fermionic Gaussian states ( http://arxiv.org/abs/2404.09428v1 )

ライセンス: Link先を確認
Jinhyeok Ryu, Jaeyoon Cho, (参考訳) 量子多体系のバルク特性に対する境界の影響は興味深い研究対象である。 境界効果関数を定義することができ、基底状態の変化を境界からの距離の関数として定量化することができる。 この関数は、熱力学的極限における相関関数と絡み合いエントロピーの上限として機能する。 ここでは,一次元自由フェルミオンモデルに対する境界効果関数の数値解析を行う。 その結果, 境界効果吸引により確立された上限は, システムサイズが大きくなるにつれて, 基底状態での相関や絡み合いがどのように発達するかを深く把握できることがわかった。 副生成物として、フェルミオンガウス状態に対する一般忠実度式を自己完結的に導出し、式をより容易に認識する。

The effect of boundaries on the bulk properties of quantum many-body systems is an intriguing subject of study. One can define a boundary effect function, which quantifies the change in the ground state as a function of the distance from the boundary. This function serves as an upper bound for the correlation functions and the entanglement entropies in the thermodynamic limit. Here, we perform numerical analyses of the boundary effect function for one-dimensional free-fermion models. We find that the upper bound established by the boundary effect fuction is tight for the examined systems, providing a deep insight into how correlations and entanglement are developed in the ground state as the system size grows. As a by-product, we derive a general fidelity formula for fermionic Gaussian states in a self-contained manner, rendering the formula easier to apprehend.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# フェデレーション学習におけるプライバシ攻撃の効果について

On the Efficiency of Privacy Attacks in Federated Learning ( http://arxiv.org/abs/2404.09430v1 )

ライセンス: Link先を確認
Nawrin Tabassum, Ka-Ho Chow, Xuyu Wang, Wenbin Zhang, Yanzhao Wu, (参考訳) 最近の研究では、グラディエント・リーク・アタック(Gradient Leakage Attacks)に代表される、連合学習における深刻なプライバシーリスクが明らかにされている。 しかし,従来の研究では,プライバシ攻撃の成功率の向上と,プライベートデータの回収に要する高い計算コストの見落としが主な目的であり,実際のアプリケーションではプライバシ攻撃を非現実的なものにしている。 本研究では,効率の観点からプライバシ攻撃について検討し,フェデレート学習(EPAFL)におけるプライバシ攻撃の効率向上のための枠組みを提案する。 私たちは3つの新しい貢献をしている。 まず、フェデレーション学習における代表的プライバシ攻撃の計算コストを体系的に評価し、効率を最適化する高い可能性を示す。 第2に、これらのプライバシ攻撃の計算コストを効果的に削減する3つのアーリーストッピング手法を提案する。 第3に,我々はベンチマークデータセットの実験を行い,提案手法が計算コストを大幅に削減し,フェデレート学習における最先端のプライバシ攻撃に対する攻撃成功率を同等に維持できることを示す。 私たちはGitHubでhttps://github.com/mlsysx/EPAFL.comでコードを公開しています。

Recent studies have revealed severe privacy risks in federated learning, represented by Gradient Leakage Attacks. However, existing studies mainly aim at increasing the privacy attack success rate and overlook the high computation costs for recovering private data, making the privacy attack impractical in real applications. In this study, we examine privacy attacks from the perspective of efficiency and propose a framework for improving the Efficiency of Privacy Attacks in Federated Learning (EPAFL). We make three novel contributions. First, we systematically evaluate the computational costs for representative privacy attacks in federated learning, which exhibits a high potential to optimize efficiency. Second, we propose three early-stopping techniques to effectively reduce the computational costs of these privacy attacks. Third, we perform experiments on benchmark datasets and show that our proposed method can significantly reduce computational costs and maintain comparable attack success rates for state-of-the-art privacy attacks in federated learning. We provide the codes on GitHub at https://github.com/mlsysx/EPAFL.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# VFMM3D:モノクロ3次元物体検出のためのビジョンファウンデーションモデルによる画像の可能性の緩和

VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection ( http://arxiv.org/abs/2404.09431v1 )

ライセンス: Link先を確認
Bonan Ding, Jin Xie, Jing Nie, Jiale Cao, (参考訳) コスト効率と広く利用できるため、単眼の3Dオブジェクト検出は、推論中に単一のカメラにのみ依存するが、自律運転やロボット工学など、様々な応用において重要な役割を担っている。 それでも、モノクラー画像から3次元空間内の物体の座標を直接予測することは課題となる。 そのため、モノクロ画像をLiDARライクな表現に変換し、LiDARベースの3Dオブジェクト検出器を用いてオブジェクトの3D座標を予測する。 この方法の鍵となるステップは、モノクロ画像を信頼性の高い点雲形式に正確に変換することである。 本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する革新的な手法である。 VFMM3Dは、SAM(Segment Anything Model)とDAM(Depth Anything Model)を使用して、豊富なフォアグラウンド情報に富んだ高品質の擬似LiDARデータを生成する。 具体的には、深度深度マップを生成するためにDAM(Depth Anything Model)を用いる。 次に、Segment Anything Model(SAM)を使用して、インスタンスマスクを予測することにより、前景と背景領域を区別する。 これらの予測されたインスタンスマスクと深度マップを組み合わせて3次元空間に投影し、擬似LiDAR点を生成する。 最後に、点雲に基づく任意の物体検出器を用いて、物体の3次元座標を予測することができる。 課題となる3Dオブジェクト検出データセットであるKITTIについて、総合的な実験を行った。 我々のVFMM3Dは、新しい最先端のパフォーマンスを確立します。 さらに、実験結果はVFMM3Dの一般性を示し、様々なLiDARベースの3Dオブジェクト検出器へのシームレスな統合を示している。

Due to its cost-effectiveness and widespread availability, monocular 3D object detection, which relies solely on a single camera during inference, holds significant importance across various applications, including autonomous driving and robotics. Nevertheless, directly predicting the coordinates of objects in 3D space from monocular images poses challenges. Therefore, an effective solution involves transforming monocular images into LiDAR-like representations and employing a LiDAR-based 3D object detector to predict the 3D coordinates of objects. The key step in this method is accurately converting the monocular image into a reliable point cloud form. In this paper, we present VFMM3D, an innovative approach that leverages the capabilities of Vision Foundation Models (VFMs) to accurately transform single-view images into LiDAR point cloud representations. VFMM3D utilizes the Segment Anything Model (SAM) and Depth Anything Model (DAM) to generate high-quality pseudo-LiDAR data enriched with rich foreground information. Specifically, the Depth Anything Model (DAM) is employed to generate dense depth maps. Subsequently, the Segment Anything Model (SAM) is utilized to differentiate foreground and background regions by predicting instance masks. These predicted instance masks and depth maps are then combined and projected into 3D space to generate pseudo-LiDAR points. Finally, any object detectors based on point clouds can be utilized to predict the 3D coordinates of objects. Comprehensive experiments are conducted on the challenging 3D object detection dataset KITTI. Our VFMM3D establishes a new state-of-the-art performance. Additionally, experimental results demonstrate the generality of VFMM3D, showcasing its seamless integration into various LiDAR-based 3D object detectors.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 第8回AI都市チャレンジ

The 8th AI City Challenge ( http://arxiv.org/abs/2404.09432v1 )

ライセンス: Link先を確認
Shuo Wang, David C. Anastasiu, Zheng Tang, Ming-Ching Chang, Yue Yao, Liang Zheng, Mohammed Shaiqur Rahman, Meenakshi S. Arya, Anuj Sharma, Pranamesh Chakraborty, Sanjita Prajapati, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Fady Alnajjar, Ganzorig Batnasan, Ping-Yang Chen, Jun-Wei Hsieh, Xunlei Wu, Sameer Satish Pusegaonkar, Yizhou Wang, Sujit Biswas, Rama Chellappa, (参考訳) 第8回AIシティチャレンジでは、小売、倉庫の設定、Intelligent Traffic Systems(ITS)といった分野におけるコンピュータビジョンと人工知能の統合を強調し、重要な研究機会を提示した。 2024年版では5トラックが収録され、47か国と地域の726チームから前例のない関心を集めた。 Track 1は、マルチターゲットマルチカメラ(MTMC)のトラッキングに対応し、カメラ数、文字数、3Dアノテーション、カメラ行列の大幅な向上と、3Dトラッキングとオンライントラッキングアルゴリズムの新たなルールを強調した。 トラック2は、交通安全のための高密度ビデオキャプションを導入し、保険や予防の洞察を改善するために、マルチカメラフィードを使用した歩行者事故に焦点を当てた。 トラック3では、ドライバーアクションを自然な運転分析で分類する必要があった。 トラック4はフィッシュアイ8Kデータセットを用いて魚眼カメラの分析を行った。 トラック5はオートバイのヘルメット規則違反検出に焦点を当てた。 この課題は2つのリーダーボードを使ってメソッドを展示し、参加者は新しいベンチマークを設定し、一部は既存の最先端の成果を上回った。

The eighth AI City Challenge highlighted the convergence of computer vision and artificial intelligence in areas like retail, warehouse settings, and Intelligent Traffic Systems (ITS), presenting significant research opportunities. The 2024 edition featured five tracks, attracting unprecedented interest from 726 teams in 47 countries and regions. Track 1 dealt with multi-target multi-camera (MTMC) people tracking, highlighting significant enhancements in camera count, character number, 3D annotation, and camera matrices, alongside new rules for 3D tracking and online tracking algorithm encouragement. Track 2 introduced dense video captioning for traffic safety, focusing on pedestrian accidents using multi-camera feeds to improve insights for insurance and prevention. Track 3 required teams to classify driver actions in a naturalistic driving analysis. Track 4 explored fish-eye camera analytics using the FishEye8K dataset. Track 5 focused on motorcycle helmet rule violation detection. The challenge utilized two leaderboards to showcase methods, with participants setting new benchmarks, some surpassing existing state-of-the-art achievements.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 非滑らかな非凸最適化のためのラグランジアン法の開発

Developing Lagrangian-based Methods for Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2404.09438v1 )

ライセンス: Link先を確認
Nachuan Xiao, Kuangyu Ding, Xiaoyin Hu, Kim-Chuan Toh, (参考訳) 本稿では、非滑らかな非凸対象函数 $f(x)$ の閉凸部分集合 $\mathcal{X}$ の $\mathbb{R}^n$ に対する最小化を考える。 ラグランジアンベースの手法を開発するための統一的なフレームワークを開発し、各イテレーションにおいて、いくつかの下位のメソッドによってプリミティブ変数を1ステップずつ更新する。 これらの下位段階のメソッドは、プリミティブ変数のブラックボックス更新として組み込まれているという意味で、私たちのフレームワークに‘組込み’されている。 提案手法は, 温和な条件下での組込み過次法からグローバル収束保証を継承することを証明する。 さらに,予測制約による制約付き最適化問題を解くために,我々のフレームワークを拡張可能であることを示す。 提案手法に基づいて, 近位SGD, 近位運動量SGD, 近位ADAMを含む, 既存の確率的下位段階法をラグランジアン法に組み込むことができることを示す。 ディープラーニングタスクに関する予備的な数値実験により,提案手法は非凸非滑らかな制約付き最適化問題に対する収束保証を伴うラグランジュ的手法の効率的な変種を導出することを示した。

In this paper, we consider the minimization of a nonsmooth nonconvex objective function $f(x)$ over a closed convex subset $\mathcal{X}$ of $\mathbb{R}^n$, with additional nonsmooth nonconvex constraints $c(x) = 0$. We develop a unified framework for developing Lagrangian-based methods, which takes a single-step update to the primal variables by some subgradient methods in each iteration. These subgradient methods are ``embedded'' into our framework, in the sense that they are incorporated as black-box updates to the primal variables. We prove that our proposed framework inherits the global convergence guarantees from these embedded subgradient methods under mild conditions. In addition, we show that our framework can be extended to solve constrained optimization problems with expectation constraints. Based on the proposed framework, we show that a wide range of existing stochastic subgradient methods, including the proximal SGD, proximal momentum SGD, and proximal ADAM, can be embedded into Lagrangian-based methods. Preliminary numerical experiments on deep learning tasks illustrate that our proposed framework yields efficient variants of Lagrangian-based methods with convergence guarantees for nonconvex nonsmooth constrained optimization problems.
翻訳日:2024-04-16 13:58:36 公開日:2024-04-15
# 絡み合い支援量子トランスダクション

Entanglement-assisted quantum transduction ( http://arxiv.org/abs/2404.09441v1 )

ライセンス: Link先を確認
Haowei Shi, Quntao Zhuang, (参考訳) 量子トランスデューサは、入力信号を異なる周波数で出力に変換し、高い忠実度で量子情報を維持する。 マイクロ波と光周波数の間での動作は、低損失光リンクを介して量子コンピュータ間の量子ネットワークにおいて重要であり、それによって分散量子コンピューティングを可能にする。 しかし、最先端の量子トランスデューサは、非線形カップリングの弱いため、低い変換効率に悩まされ、効率を高めるためにポンプのパワーを増大させることで、加熱から必然的な熱ノイズが発生する。 さらに, これらのシステムにおける効率帯域幅積は, キャビティ工学の努力によらず, ポンプパワーと非線形結合係数によって根本的に制限されていることが明らかとなった。 そこで本研究では,同じ周波数帯域内での絡み合い(マイクロ波や光光学の絡み合いなど)を消費することで,共振効率を向上させることを提案する。 このプロトコルは、圧縮器-カップラー-アンティースチーザサンドイッチ構造により、任意に弱い非線形結合が与えられ、信号符号化なしで高忠実な量子通信リンクを確立することにより、理想的なロスレスケースにおけるユニタリへのトランスダクション効率を高める。 実用空洞システムでは, エンタングルメント支援プロトコルは効率帯域積の非補助的基本限界を超越し, 正の量子容量に対するしきい値の協調性を2モードのスクイーズゲインに比例して減少させる。 固定的な協調性を考えると、我々の手法はブロードバンド量子容量を桁違いに増大させる。

A quantum transducer converts an input signal to an output at a different frequency, while maintaining the quantum information with high fidelity. When operating between the microwave and optical frequencies, it is crucial for quantum networking between quantum computers via low-loss optical links, and thereby enabling distributed quantum computing. However, the state-of-the-art quantum transducers suffer from low transduction efficiency due to weak nonlinear coupling, wherein increasing pump power to enhance efficiency leads to inevitable thermal noise from heating. Moreover, we reveal that the efficiency-bandwidth product in such systems is fundamentally limited by pump power and nonlinear coupling coefficient, irrespective of cavity engineering efforts. To resolve the conundrum, we propose to boost the transduction efficiency by consuming entanglement within the same frequency band (e.g., microwave-microwave or optical-optical entanglement). Via a squeezer-coupler-antisqueezer sandwich structure, the protocol enhances the transduction efficiency to unity in the ideal lossless case, given an arbitrarily weak nonlinear coupling, which establishes a high-fidelity quantum communication link without any signal encoding. In practical cavity systems, our entanglement-assisted protocol surpasses the non-assisted fundamental limit of the efficiency-bandwidth product and reduces the threshold cooperativity for positive quantum capacity by a factor proportional to two-mode squeezing gain. Given a fixed cooperativity, our approach increases the broadband quantum capacity by orders of magnitude.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# 逆のランダムなオラクルを訂正する

Correcting Subverted Random Oracles ( http://arxiv.org/abs/2404.09442v1 )

ライセンス: Link先を確認
Alexander Russell, Qiang Tang, Moti Yung, Hong-Sheng Zhou, Jiadong Zhu, (参考訳) ランダムオラクルの方法論は、暗号方式の設計と推論のための強力なツールであることが証明されている。 本稿では,このような暗号的目的に確実に適用できるように,誤りや逆転したランダムなオラクルを訂正する基本的な問題に焦点をあてる。 単純な構成は、入力のごく一部で元の値と不一致な「反転」ランダムオラクルを、変換で使われる全てのランダム性を敵が認識したとしても、ランダム関数から微分できないオブジェクトに変換することができることを証明している。 この結果から, 暗号アルゴリズムを復号化したり, 置き換えたりする敵に対して, 信頼度の高いブラックボックスとしてランダムなオーラクルを使用できるようになる。

The random oracle methodology has proven to be a powerful tool for designing and reasoning about cryptographic schemes. In this paper, we focus on the basic problem of correcting faulty or adversarially corrupted random oracles, so that they can be confidently applied for such cryptographic purposes. We prove that a simple construction can transform a "subverted" random oracle which disagrees with the original one at a small fraction of inputs into an object that is indifferentiable from a random function, even if the adversary is made aware of all randomness used in the transformation. Our results permit future designers of cryptographic primitives in typical kleptographic settings (i.e., those permitting adversaries that subvert or replace basic cryptographic algorithms) to use random oracles as a trusted black box.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# 鉄筋コンクリート構造物の曲がりくねった無分化性

Crooked indifferentiability of the Feistel Construction ( http://arxiv.org/abs/2404.09450v1 )

ライセンス: Link先を確認
Alexander Russell, Qiang Tang, Jiadong Zhu, (参考訳) Feistelの構築は擬似乱数置換とブロック暗号を構築するための基本的な技術である。 本稿では, 構成の単純適応が, 成分円関数のアルゴリズム置換攻撃, すなわち逆転変換に対してさえ抵抗的であることを示す。 具体的には、$2000n/\log(1/\epsilon)$ラウンド以上のFeistelベースの構成は、入力の小さな分数($\epsilon$と表記される)で元のものとは反対の、変換で使用されるすべてのランダム性を敵が認識しているとしても、ランダムな置換から \emph{crooked-indifferenti} となるオブジェクトに変換することができる。 また、構造が2n/\log(1/\epsilon)$ラウンド以下では、曲がりくねった無差別なセキュリティを実現することができないことを示す下界も提供する。

The Feistel construction is a fundamental technique for building pseudorandom permutations and block ciphers. This paper shows that a simple adaptation of the construction is resistant, even to algorithm substitution attacks -- that is, adversarial subversion -- of the component round functions. Specifically, we establish that a Feistel-based construction with more than $2000n/\log(1/\epsilon)$ rounds can transform a subverted random function -- which disagrees with the original one at a small fraction (denoted by $\epsilon$) of inputs -- into an object that is \emph{crooked-indifferentiable} from a random permutation, even if the adversary is aware of all the randomness used in the transformation. We also provide a lower bound showing that the construction cannot use fewer than $2n/\log(1/\epsilon)$ rounds to achieve crooked-indifferentiable security.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# GPU加速によるPythonベースの量子化学計算

Python-Based Quantum Chemistry Calculations with GPU Acceleration ( http://arxiv.org/abs/2404.09452v1 )

ライセンス: Link先を確認
Xiaojie Wu, Qiming Sun, Zhichen Pu, Tianze Zheng, Wenzhi Ma, Wen Yan, Xia Yu, Zhengxiao Wu, Mian Huo, Xiang Li, Weiluo Ren, Sheng Gong, Yumin Zhang, Weihao Gao, (参考訳) データ駆動型化学研究における量子化学計算の需要の増加に対応するため、産業利害関係者と量子化学コミュニティの協力により、GPUを加速するPythonパッケージであるGPU4PySCFが開発された。 このオープンソースプロジェクトは、GitHubの公開リポジトリである \url{https://github.com/pyscf/gpu4pyscf} からアクセスできる。 本稿では,このパッケージの主な特徴,イノベーション,メリットについて概説する。 最新のGPUプラットフォーム上で密度汎関数理論(DFT)計算を行う場合、GPU4PySCFは32コアのCPUノード上で30倍のスピードアップを実現し、ほとんどのDFTタスクで約90%のコスト削減を実現している。 性能上の利点と生産性の向上は、ポテンシャルエネルギー表面の生成、分子特性の分析、溶解自由エネルギーの計算、リチウムイオン電池の化学反応の同定、ニューラルネットワークの高速化など、複数の産業用途で見出されている。 パッケージを他のPythonパッケージと簡単に拡張および統合できるようにするため、PySCF互換インターフェースとPython実装で設計されている。 この設計選択は、Pythonエコシステムとの整合性を高めます。

To meet the increasing demand of quantum chemistry calculations in data-driven chemical research, the collaboration between industrial stakeholders and the quantum chemistry community has led to the development of GPU4PySCF, a GPU-accelerated Python package. This open-source project is accessible via its public GitHub repository at \url{https://github.com/pyscf/gpu4pyscf}. This paper outlines the primary features, innovations, and advantages of this package. When performing Density Functional Theory (DFT) calculations on modern GPU platforms, GPU4PySCF delivers 30 times speedup over a 32-core CPU node, resulting in approximately 90% cost savings for most DFT tasks. The performance advantages and productivity improvements have been found in multiple industrial applications, such as generating potential energy surfaces, analyzing molecular properties, calculating solvation free energy, identifying chemical reactions in lithium-ion batteries, and accelerating neural-network methods. To make the package easy to extend and integrate with other Python packages, it is designed with PySCF-compatible interfaces and Pythonic implementations. This design choice enhances its coordination with the Python ecosystem.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# 非階層型変圧器を用いたピアノ自動書き起こしのためのスコーリング間隔

Scoring Intervals using Non-hierarchical Transformer For Automatic Piano Transcription ( http://arxiv.org/abs/2404.09466v1 )

ライセンス: Link先を確認
Yujia Yan, Zhiyao Duan, (参考訳) 半マルコフ条件ランダムフィールド(semi-CRF)フレームワークは、イベントベースのピアノの書き起こしを約束している。 このフレームワークでは、すべてのイベント(ノートまたはペダル)は特定のイベントタイプに結びついた閉じたインターバルとして表現される。 神経半CRFアプローチでは、各候補区間のスコアを割り当てるインターバルスコア行列が必要となる。 しかし、間隔を測るための効率的で表現力豊かなアーキテクチャを設計するのは簡単ではない。 本稿では,変圧器における注目スコアの仕方に類似したスケール内積演算を用いた簡易なスコアリング手法を提案する。 理論的には、重複しない区間を符号化する特別な構造のため、内部積演算は、正しい転写結果が得られる理想的なスコアリング行列を表現するのに十分である。 次に,低分解能特徴写像のみで動作するエンコーダのみの非階層トランスフォーマーバックボーンが,高精度かつ高精度にピアノ音符やペダルを転写可能であることを示す。 実験により,提案手法は,Maestroデータセット上のF1測度を用いて,すべてのサブタスクにまたがる新しい最先端性能を実現することを示す。

The neural semi-Markov Conditional Random Field (semi-CRF) framework has demonstrated promise for event-based piano transcription. In this framework, all events (notes or pedals) are represented as closed intervals tied to specific event types. The neural semi-CRF approach requires an interval scoring matrix that assigns a score for every candidate interval. However, designing an efficient and expressive architecture for scoring intervals is not trivial. In this paper, we introduce a simple method for scoring intervals using scaled inner product operations that resemble how attention scoring is done in transformers. We show theoretically that, due to the special structure from encoding the non-overlapping intervals, under a mild condition, the inner product operations are expressive enough to represent an ideal scoring matrix that can yield the correct transcription result. We then demonstrate that an encoder-only non-hierarchical transformer backbone, operating only on a low-time-resolution feature map, is capable of transcribing piano notes and pedals with high accuracy and time precision. The experiment shows that our approach achieves the new state-of-the-art performance across all subtasks in terms of the F1 measure on the Maestro dataset.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# MyGO: マルチモーダル知識グラフ補完のための微粒化トークンとしてのモジュール情報の離散化

MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion ( http://arxiv.org/abs/2404.09468v1 )

ライセンス: Link先を確認
Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Huajun Chen, Wen Zhang, (参考訳) マルチモーダル知識グラフ(MMKG)は、豊富なマルチモーダル記述情報を含む構造化世界知識を格納する。 これらの不完全性を克服するために、マルチモーダル知識グラフ補完(MMKGC)は、与えられたMMKGから観測されていない知識を発見し、三重項からの構造情報とエンティティのマルチモーダル情報の両方を活用することを目的としている。 既存のMMKGC法は、通常、事前訓練されたモデルでマルチモーダル特徴を抽出し、融合モジュールを用いて3重予測でマルチモーダル特徴を統合する。 しかし、これはしばしば、微妙できめ細かなセマンティックな詳細とそれらの相互作用を見渡すことで、マルチモーダルデータの粗い処理をもたらす。 この欠点に対処するため,MMKGからの微細なモダリティ情報を処理し,融合し,拡張する新しいフレームワークであるMyGOを紹介した。 MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。 マルチモーダル表現をさらに強化するために、MyGOは、エンティティ表現の特異性を強調するために、きめ細かいコントラスト学習を取り入れている。 標準MMKGCベンチマーク実験により,提案手法は最新の20モデルを超え,優れた性能を実証した。 コードとデータはhttps://github.com/zjukg/MyGOで公開されている。

Multi-modal knowledge graphs (MMKG) store structured world knowledge containing rich multi-modal descriptive information. To overcome their inherent incompleteness, multi-modal knowledge graph completion (MMKGC) aims to discover unobserved knowledge from given MMKGs, leveraging both structural information from the triples and multi-modal information of the entities. Existing MMKGC methods usually extract multi-modal features with pre-trained models and employ a fusion module to integrate multi-modal features with triple prediction. However, this often results in a coarse handling of multi-modal data, overlooking the nuanced, fine-grained semantic details and their interactions. To tackle this shortfall, we introduce a novel framework MyGO to process, fuse, and augment the fine-grained modality information from MMKGs. MyGO tokenizes multi-modal raw data as fine-grained discrete tokens and learns entity representations with a cross-modal entity encoder. To further augment the multi-modal representations, MyGO incorporates fine-grained contrastive learning to highlight the specificity of the entity representations. Experiments on standard MMKGC benchmarks reveal that our method surpasses 20 of the latest models, underlining its superior performance. Code and data are available at https://github.com/zjukg/MyGO
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# LatticeML: 高温グラフに基づく構造化材料の有効ヤング率予測のためのデータ駆動型アプリケーション

LatticeML: A data-driven application for predicting the effective Young Modulus of high temperature graph based architected materials ( http://arxiv.org/abs/2404.09470v1 )

ライセンス: Link先を確認
Akshansh Mishra, (参考訳) ユニークなトポロジと幾何学を持つ建築材料は、物理的および機械的特性を変更する可能性がある。 機械学習は、最適設計を特定し、性能を予測することによって、これらの材料の設計と最適化を加速することができる。 この研究は、データ駆動型アプリケーションであるLatticeMLを、高温グラフベースの構造化材料の有効ヤング率を予測するためのものである。 この研究は、Ti-6Al-4VとInconel 625の2つの高温合金を用いたグラフベースの格子構造について考察した。 有限要素シミュレーションは、2x2x2単位セル構成の有効ヤング率を計算するために用いられた。 機械学習フレームワークは、データ収集、前処理、回帰モデルの実装、最高のパフォーマンスモデルの導入を含む、YoungのModulusを予測するために開発された。 5つの教師付き学習アルゴリズムが評価され、XGBoost Regressorが最も精度が高い(MSE = 2.7993, MAE = 1.1521, R-squared = 0.9875)。 アプリケーションは、Streamlitフレームワークを使用してインタラクティブなWebインターフェースを作成し、ユーザーは材料や幾何学的パラメータを入力し、予測されたヤングのModulus値を取得することができる。

Architected materials with their unique topology and geometry offer the potential to modify physical and mechanical properties. Machine learning can accelerate the design and optimization of these materials by identifying optimal designs and forecasting performance. This work presents LatticeML, a data-driven application for predicting the effective Young's Modulus of high-temperature graph-based architected materials. The study considers eleven graph-based lattice structures with two high-temperature alloys, Ti-6Al-4V and Inconel 625. Finite element simulations were used to compute the effective Young's Modulus of the 2x2x2 unit cell configurations. A machine learning framework was developed to predict Young's Modulus, involving data collection, preprocessing, implementation of regression models, and deployment of the best-performing model. Five supervised learning algorithms were evaluated, with the XGBoost Regressor achieving the highest accuracy (MSE = 2.7993, MAE = 1.1521, R-squared = 0.9875). The application uses the Streamlit framework to create an interactive web interface, allowing users to input material and geometric parameters and obtain predicted Young's Modulus values.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# ジェネレーティブ人工知能のための法的リスク分類法

A Legal Risk Taxonomy for Generative Artificial Intelligence ( http://arxiv.org/abs/2404.09479v1 )

ライセンス: Link先を確認
David Atkinson, Jacob Morrison, (参考訳) 本稿では,ジェネレーションAI(GenAI)にかかわる法的リスクの分類を,複雑な法的概念を分解し,GenAIモデルの開発と展開における潜在的な法的課題の共通理解を提供する。 本手法は,(1)既存の訴訟において提起された法的主張を検証し,(2)将来の訴訟において提起される合理的な法的主張を評価することに基づく。 まず、著名なGenAI企業に対する22件の訴訟を特定し、各訴訟の主張を一致させた。 そこから我々は、これらの訴訟で少なくとも4回引用される7つの主張を、今後のGenAI訴訟の最も可能性の高い主張として特定した。 これら7つのクレームそれぞれについて、クレームの要素(原告が証明しなければならないこと)を記述し、GenAIにどのように適用されるかの例を示す。 次に、我々は、より投機的と思われる他の30の主張を特定した。なぜなら、それは4件未満の訴訟に含まれているか、まだ提出されていないためである。 我々はさらに、30件の請求を、GenAIモデルの事前デプロイに関連する可能性が高い19件と、GenAIモデルの後デプロイに関連する可能性が高い11件に分けました。 これらのクレームのそれぞれについて、原告がGenAIの開発と展開における法的リスクを決定するのに役立てるであろう主張の要素と潜在的な改善について述べる。 最後に、GenAI技術の新規性に注目して論文を閉じ、さらなる研究を進めるための論文の分類学へのいくつかの応用を提案する。

For the first time, this paper presents a taxonomy of legal risks associated with generative AI (GenAI) by breaking down complex legal concepts to provide a common understanding of potential legal challenges for developing and deploying GenAI models. The methodology is based on (1) examining the legal claims that have been filed in existing lawsuits and (2) evaluating the reasonably foreseeable legal claims that may be filed in future lawsuits. First, we identified 22 lawsuits against prominent GenAI entities and tallied the claims of each lawsuit. From there, we identified seven claims that are cited at least four times across these lawsuits as the most likely claims for future GenAI lawsuits. For each of these seven claims, we describe the elements of the claim (what the plaintiff must prove to prevail) and provide an example of how it may apply to GenAI. Next, we identified 30 other potential claims that we consider to be more speculative, because they have been included in fewer than four lawsuits or have yet to be filed. We further separated those 30 claims into 19 that are most likely to be made in relation to pre-deployment of GenAI models and 11 that are more likely to be made in connection with post-deployment of GenAI models since the legal risks will vary between entities that create versus deploy them. For each of these claims, we describe the elements of the claim and the potential remedies that plaintiffs may seek to help entities determine their legal risks in developing or deploying GenAI. Lastly, we close the paper by noting the novelty of GenAI technology and propose some applications for the paper's taxonomy in driving further research.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# SpamDam: プライバシー保護とアドバイザレスSMSスパム検出を目指す

SpamDam: Towards Privacy-Preserving and Adversary-Resistant SMS Spam Detection ( http://arxiv.org/abs/2404.09481v1 )

ライセンス: Link先を確認
Yekai Li, Rufan Zhang, Wenxin Rong, Xianghang Mi, (参考訳) 本研究では,公衆のSMSスパムデータセットの欠如,SMSデータの収集に関するプライバシー上の懸念の高まり,敵に抵抗する検出モデルの必要性など,SMSスパムの検出と理解において重要な課題を克服するために設計されたSMSスパム検出フレームワークであるSpamDamを紹介する。 SpamDamは、オンラインソーシャルネットワーク(OSN)からのスパムメッセージを識別するSMSスパムレーダー、統計分析のためのSMSスパムインスペクタ、中央トレーニングとフェデレーション学習の両方を可能にするSMSスパム検出器(SSD)、現実的なシナリオにおける敵に対するモデル抵抗を評価するSSDアナライザの4つの革新的なモジュールで構成されている。 SpamDamを活用して、2018年から2023年にかけてTwitterとWeiboから76万件以上のSMSスパムメッセージを収集した。 このデータセットは、最近のスパムキャンペーンに対する新たな洞察と、スパム検出のための高性能なバイナリおよびマルチラベル分類器のトレーニングを可能にした。 さらに,フェデレート学習の有効性が実証され,プライバシー保護型SMSスパム検出が可能となった。 さらに,SMSスパム検出モデルの対角的堅牢性を厳格に検証し,新しいリバースバックドア攻撃を導入した。

In this study, we introduce SpamDam, a SMS spam detection framework designed to overcome key challenges in detecting and understanding SMS spam, such as the lack of public SMS spam datasets, increasing privacy concerns of collecting SMS data, and the need for adversary-resistant detection models. SpamDam comprises four innovative modules: an SMS spam radar that identifies spam messages from online social networks(OSNs); an SMS spam inspector for statistical analysis; SMS spam detectors(SSDs) that enable both central training and federated learning; and an SSD analyzer that evaluates model resistance against adversaries in realistic scenarios. Leveraging SpamDam, we have compiled over 76K SMS spam messages from Twitter and Weibo between 2018 and 2023, forming the largest dataset of its kind. This dataset has enabled new insights into recent spam campaigns and the training of high-performing binary and multi-label classifiers for spam detection. Furthermore, effectiveness of federated learning has been well demonstrated to enable privacy-preserving SMS spam detection. Additionally, we have rigorously tested the adversarial robustness of SMS spam detection models, introducing the novel reverse backdoor attack, which has shown effectiveness and stealthiness in practical tests.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# LLMアンサンブルのための異なる語彙間のギャップを埋める

Bridging the Gap between Different Vocabularies for LLM Ensemble ( http://arxiv.org/abs/2404.09492v1 )

ライセンス: Link先を確認
Yangyifan Xu, Jinliang Lu, Jiajun Zhang, (参考訳) 様々な大きな言語モデル(LLM)を組み立てて、補完的なポテンシャルを解き放ち、個々の強みを活用することは非常に貴重である。 それでも、様々なLLMにおける語彙の相違は、完全に生成された出力を選択するか、ブレンディングするかに以前の研究を制約している。 この制限は、生成プロセス中に出力の動的修正と強化を妨げ、効果的なアンサンブルのための限られた能力をもたらす。 この問題に対処するため,Vocabulary Alignment (EVA) を用いたLLMのアンサンブル手法を提案する。 EVAは様々なLLM間の語彙ギャップを橋渡しし、各生成ステップで巧妙にアンサンブルすることができる。 具体的には,異なるLLMの語彙間のマッピングを,重なり合うトークンの助けを借りて学習する。 その後、これらのマッピングはLLMの出力分布を統一された空間に投影し、微細なアンサンブルを容易にする。 最後に、不誠実なトークンを生成するモデルを除外するフィルタリング戦略を設計する。 共通文推論,算術的推論,機械翻訳,データ・テキスト生成タスクに関する実験結果から,各LLMや従来の全出力を用いたアンサンブル手法と比較して,我々のアプローチの優位性を示した。 さらなる分析により、我々のアプローチは異なる言語モデルからの知識を活用でき、一貫した改善が得られることが確認される。

Ensembling different large language models (LLMs) to unleash their complementary potential and harness their individual strengths is highly valuable. Nevertheless, vocabulary discrepancies among various LLMs have constrained previous studies to either selecting or blending completely generated outputs. This limitation hinders the dynamic correction and enhancement of outputs during the generation process, resulting in a limited capacity for effective ensemble. To address this issue, we propose a novel method to Ensemble LLMs via Vocabulary Alignment (EVA). EVA bridges the lexical gap among various LLMs, enabling meticulous ensemble at each generation step. Specifically, we first learn mappings between the vocabularies of different LLMs with the assistance of overlapping tokens. Subsequently, these mappings are employed to project output distributions of LLMs into a unified space, facilitating a fine-grained ensemble. Finally, we design a filtering strategy to exclude models that generate unfaithful tokens. Experimental results on commonsense reasoning, arithmetic reasoning, machine translation, and data-to-text generation tasks demonstrate the superiority of our approach compared with individual LLMs and previous ensemble methods conducted on complete outputs. Further analyses confirm that our approach can leverage knowledge from different language models and yield consistent improvement.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# ADHDの自動検出のためのエントロピー差分に基づく新しい脳波チャネル選択法

Novel entropy difference-based EEG channel selection technique for automated detection of ADHD ( http://arxiv.org/abs/2404.09493v1 )

ライセンス: Link先を確認
Shishir Maheshwari, Kandala N V P S Rajesh, Vivek Kanhangad, U Rajendra Acharya, T Sunil Kumar, (参考訳) 注意欠陥高活動障害(ADHD)は、小児の神経発達障害の1つである。 本稿では,エントロピー差(EnD)に基づく脳波(EEG)チャネル選択手法を用いたADHD自動検出手法を提案する。 提案手法では,EnDに基づくチャネル選択手法を用いて,ADHDの正確な識別のための最も重要な脳波チャネルを選択した。 次に、選択されたチャンネルから一連の特徴を抽出し、分類器に供給する。 選択したチャネルの有効性を検証するために,3つの特徴セットと分類器を探索した。 具体的には、離散ウェーブレット変換(DWT)、経験モード分解(EMD)および対称重み付き局所二分パターン(SLBP)に基づく特徴について検討した。 自動分類を行うために,k-nearest neighbor (k-NN), Ensemble classifier, Support vectors machine (SVM) classifiersを用いた。 提案手法の精度は99.29%であった。 さらに,提案したEnDチャネル選択法は,エントロピーチャネル選択法よりも優れた分類精度を提供している。 また、その方法も開発されている。

Attention deficit hyperactivity disorder (ADHD) is one of the common neurodevelopmental disorders in children. This paper presents an automated approach for ADHD detection using the proposed entropy difference (EnD)- based encephalogram (EEG) channel selection approach. In the proposed approach, we selected the most significant EEG channels for the accurate identification of ADHD using an EnD-based channel selection approach. Secondly, a set of features is extracted from the selected channels and fed to a classifier. To verify the effectiveness of the channels selected, we explored three sets of features and classifiers. More specifically, we explored discrete wavelet transform (DWT), empirical mode decomposition (EMD) and symmetrically-weighted local binary pattern (SLBP)-based features. To perform automated classification, we have used k-nearest neighbor (k-NN), Ensemble classifier, and support vectors machine (SVM) classifiers. Our proposed approach yielded the highest accuracy of 99.29% using the public database. In addition, the proposed EnD-based channel selection has consistently provided better classification accuracies than the entropy-based channel selection approach. Also, the developed method
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# ギャップを埋める:サンクスの自動解析

Bridging the Gap: Automated Analysis of Sancus ( http://arxiv.org/abs/2404.09518v1 )

ライセンス: Link先を確認
Matteo Busi, Riccardo Focardi, Flaminia Luccio, (参考訳) 近年,コンピュータシステムのセキュリティを検証・無効化する技術は大きな進歩を遂げている。 システムの動作を特定し、正式に検証するための非常に高度なツールが利用可能であり、同時に攻撃技術は、特に重要なアプリケーションにおいて、適切なレベルのセキュリティを得る可能性に疑問を呈する点まで進化している。 最近の論文では、Bognarらはこの2つの世界の矛盾を強調している。一方、形式的検証はシステムのセキュリティに関する不確実な証明を書けるが、他方の具体的な攻撃はこれらの証明を揺らぎ、橋渡しが非常に複雑であるモデルと実装の間のギャップを示す。 本論文では,サンクスの組込みセキュリティアーキテクチャにおけるこのギャップを減らすための新しい手法を提案する。 提案手法は,まず実サンクスシステムと直接対話して行動モデルから抽出し,攻撃や異常を識別するために解析する。 脅威モデルが与えられた場合、我々の手法は与えられた脅威モデルにおける攻撃を見つけるか、システムのセキュリティに対する確率的保証を与える。 我々は,その手法を実装し,既知の攻撃を体系的に再発見し,新たな攻撃を発見できる。

Techniques for verifying or invalidating the security of computer systems have come a long way in recent years. Extremely sophisticated tools are available to specify and formally verify the behavior of a system and, at the same time, attack techniques have evolved to the point of questioning the possibility of obtaining adequate levels of security, especially in critical applications. In a recent paper, Bognar et al. have clearly highlighted this inconsistency between the two worlds: on one side, formal verification allows writing irrefutable proofs of the security of a system, on the other side concrete attacks make these proofs waver, exhibiting a gap between models and implementations which is very complex to bridge. In this paper, we propose a new method to reduce this gap in the Sancus embedded security architecture, by exploiting some peculiarities of both approaches. Our technique first extracts a behavioral model by directly interacting with the real Sancus system and then analyzes it to identify attacks and anomalies. Given a threat model, our method either finds attacks in the given threat model or gives probabilistic guarantees on the security of the system. We implement our method and use it to systematically rediscover known attacks and uncover new ones.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# 非線形スパース変分ベイズ学習に基づく予測制御とPEMFC温度制御への応用

Nonlinear sparse variational Bayesian learning based model predictive control with application to PEMFC temperature control ( http://arxiv.org/abs/2404.09519v1 )

ライセンス: Link先を確認
Qi Zhang, Lei Wang, Weihua Xu, Hongye Su, Lei Xie, (参考訳) モデル予測の精度は、モデル予測制御(MPC)アプリケーションの成功に不可欠である。 モデルが制御システムの力学を正確に解析できない場合、MPCによる性能保証と安定性保証は達成できない。 学習ベースのMPCは、データからモデルを学び、MPCの適用性と信頼性を向上させる。 本研究では,非線形システムのための非線形スパース変分学習ベースMPC(NSVB-MPC)を開発し,そのモデルをNSVB法により学習する。 変分推論はNSVB-MPCによって予測精度を評価し、システムの不確実性を定量化するために必要な修正を行う。 提案手法は、インプット・トゥ・ステート(ISS)と、不変端末領域の概念による再帰的制約の実現性を保証する。 最後に, PEMFC温度制御モデル実験により, NSVB-MPC法の有効性を確認した。

The accuracy of the underlying model predictions is crucial for the success of model predictive control (MPC) applications. If the model is unable to accurately analyze the dynamics of the controlled system, the performance and stability guarantees provided by MPC may not be achieved. Learning-based MPC can learn models from data, improving the applicability and reliability of MPC. This study develops a nonlinear sparse variational Bayesian learning based MPC (NSVB-MPC) for nonlinear systems, where the model is learned by the developed NSVB method. Variational inference is used by NSVB-MPC to assess the predictive accuracy and make the necessary corrections to quantify system uncertainty. The suggested approach ensures input-to-state (ISS) and the feasibility of recursive constraints in accordance with the concept of an invariant terminal region. Finally, a PEMFC temperature control model experiment confirms the effectiveness of the NSVB-MPC method.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# 量子コンピュータ上の実材料に対する動的平均場理論

Dynamical Mean Field Theory for Real Materials on a Quantum Computer ( http://arxiv.org/abs/2404.09527v1 )

ライセンス: Link先を確認
Johannes Selisko, Maximilian Amsler, Christopher Wever, Yukio Kawashima, Georgy Samsonidze, Rukhsan Ul Haq, Francesco Tacchino, Ivano Tavernelli, Thomas Eckl, (参考訳) 量子コンピュータ(QC)は、特に原子論的なスケールでは、量子多体効果の正確な記述がサイズとともに好ましくないほどスケールする強い相関性を持つフェルミオン系を含む。 現在利用可能な雑音量子コンピュータを持つ凝縮物質系のフルスケールな処理はいまだ解明されていないが、動的平均場理論(DMFT)のような量子埋め込みスキームは、有効で縮小された部分空間ハミルトニアンを利用可能なデバイスにマッピングし、密度汎関数理論(DFT)のようなab初期計算の精度を向上させる。 本稿では,不純物グリーン関数のリーマン表現に基づく量子不純物解法に基づくハイブリッド量子古典型DFT+DMFTシミュレーションフレームワークの開発について報告する。 IBM量子システム上で最大14量子ビットのハードウェア実験を行い、改良されたゼロノイズ外挿のための高度な誤差緩和法と新しいキャリブレーション方式を用いて、現在の量子デバイスにおける固有ノイズによる悪影響を効果的に軽減する。 本稿では, 実材料Ca2CuO2Cl2の電子構造に対する相関効果を評価し, 正確な基準解と実験的分光測定に関して, 量子結果を慎重にベンチマークすることで, 量子DFT+DMFTワークフローの有用性を実証する。

Quantum computers (QC) could harbor the potential to significantly advance materials simulations, particularly at the atomistic scale involving strongly correlated fermionic systems where an accurate description of quantum many-body effects scales unfavorably with size. While a full-scale treatment of condensed matter systems with currently available noisy quantum computers remains elusive, quantum embedding schemes like dynamical mean-field theory (DMFT) allow the mapping of an effective, reduced subspace Hamiltonian to available devices to improve the accuracy of ab initio calculations such as density functional theory (DFT). Here, we report on the development of a hybrid quantum-classical DFT+DMFT simulation framework which relies on a quantum impurity solver based on the Lehmann representation of the impurity Green's function. Hardware experiments with up to 14 qubits on the IBM Quantum system are conducted, using advanced error mitigation methods and a novel calibration scheme for an improved zero-noise extrapolation to effectively reduce adverse effects from inherent noise on current quantum devices. We showcase the utility of our quantum DFT+DMFT workflow by assessing the correlation effects on the electronic structure of a real material, Ca2CuO2Cl2, and by carefully benchmarking our quantum results with respect to exact reference solutions and experimental spectroscopy measurements.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# フォッカー・プランク方程式の補間超対称対

Interpolating supersymmetric pair of Fokker-Planck equations ( http://arxiv.org/abs/2404.09551v1 )

ライセンス: Link先を確認
Choon-Lin Ho, (参考訳) 我々は、一対の超対称関連Fokker-Planck方程式を定数係数で補間するFokker-Planck方程式を考える。 形状不変性の興味深い性質に基づき、超対称対のフォッカー・プランク系の解の様々な1パラメータ補間を直接構築することができる。

We consider Fokker-Planck equations that interpolate a pair of supersymmetrically related Fokker-Planck equations with constant coefficients. Based on the interesting property of shape-invariance, various one-parameter interpolations of the solutions of the supersymmetric pair of Fokker-Planck systems can be directly constructed.
翻訳日:2024-04-16 13:48:50 公開日:2024-04-15
# 説明可能な生成AI(GenXAI):調査,概念化,研究アジェンダ

Explainable Generative AI (GenXAI): A Survey, Conceptualization, and Research Agenda ( http://arxiv.org/abs/2404.09554v1 )

ライセンス: Link先を確認
Johannes Schneider, (参考訳) 生成AI(GenAI)は、AIが認識できるものから、さまざまなタスクのソリューションを生成できるものへとシフトした。 生成したソリューションやアプリケーションがますます複雑で多面的になるにつれて、説明可能性(XAI)に対する新しいニーズ、目的、可能性が現れている。 本稿では、XAIがGenAIの台頭とともに重要になった理由とその説明可能性研究の課題について詳述する。 私たちはまた、検証可能性、対話性、セキュリティ、コストといった側面をカバーし、説明が満たすべき新しいデシラタも披露します。 この目的のために、我々は既存の作品の調査に焦点をあてる。 さらに、既存のXAIメカニズムやGenAIの手法をよりよく特徴付けることができるような、関連する次元の分類を提供する。 我々は、トレーニングデータからプロンプトまで、XAIを確保するためのさまざまな道について論じる。 本稿は,GenAIの斬新さや適応したXAI技術をよりよく理解するために,テキストや画像に焦点をあてた,非技術読者のためのGenAIの簡潔かつ簡潔な技術的背景を提供する。 しかし、GenAIに関する膨大な研究により、我々はXAIの詳細な側面が説明書の評価や使用に関係していることを予見することにした。 このように、この写本は技術的に重視される人々と、社会科学者や情報システム研究者といった他の分野の両方に関心を持っている。 私たちの研究ロードマップは、今後の調査に10以上の道程を提供しています。

Generative AI (GenAI) marked a shift from AI being able to recognize to AI being able to generate solutions for a wide variety of tasks. As the generated solutions and applications become increasingly more complex and multi-faceted, novel needs, objectives, and possibilities have emerged for explainability (XAI). In this work, we elaborate on why XAI has gained importance with the rise of GenAI and its challenges for explainability research. We also unveil novel and emerging desiderata that explanations should fulfill, covering aspects such as verifiability, interactivity, security, and cost. To this end, we focus on surveying existing works. Furthermore, we provide a taxonomy of relevant dimensions that allows us to better characterize existing XAI mechanisms and methods for GenAI. We discuss different avenues to ensure XAI, from training data to prompting. Our paper offers a short but concise technical background of GenAI for non-technical readers, focusing on text and images to better understand novel or adapted XAI techniques for GenAI. However, due to the vast array of works on GenAI, we decided to forego detailed aspects of XAI related to evaluation and usage of explanations. As such, the manuscript interests both technically oriented people and other disciplines, such as social scientists and information systems researchers. Our research roadmap provides more than ten directions for future investigation.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 自動走行システムにおける機能低下の特性と軽減

Characterization and Mitigation of Insufficiencies in Automated Driving Systems ( http://arxiv.org/abs/2404.09557v1 )

ライセンス: Link先を確認
Yuting Fu, Jochen Seemann, Caspar Hanselaar, Tim Beurskens, Andrei Terechko, Emilia Silvas, Maurice Heemels, (参考訳) 自動運転(AD)システムは安全性、快適性、エネルギー効率を高める可能性がある。 近年,大手自動車会社が公道でのADシステム(ADS)の試験・検証を開始している。 それにもかかわらず、ADSの商業展開と広く採用は、部分的には乗客の安全を損なうシステム機能不全(FI)のために、道路上の危険な状況を引き起こしている。 FIはISO 21448 Safety Of The Intended Functionality (SOTIF)で定義されている。 FIは、ニューラルネットワークや確率計算を含むセンサー、アクチュエータ、アルゴリズムの実装において不十分である。 ADSにおけるFIの例としては、道路上の不正確なEgo-vehicleローカライゼーション、サイクリストの操縦の誤予測、歩行者の信頼性の低い検出などがある。 本研究の主な目的は、既存の手法やADSと互換性のある汎用アーキテクチャ設計パターンを定式化し、FI緩和を改善し、ADSの商業展開を高速化することである。 まず,カリフォルニア州自動車局(DMV)が公表した2021年の自動運転車の脱車報告を調査した。 このデータによると、解離はシステム障害の5倍の頻度で引き起こされる。 そして、公開道路テストビデオの10時間以上を分析して、不便さとその特徴の包括的リストを作成した。 特に, 世界モデル, 移動計画, 交通ルール, 運用設計ドメインの4つのカテゴリにおいて, 障害タイプを特定した。 不全の特徴は、SOTIFによるトリガー条件の分析をより体系的で包括的にするのに役立つ。 FIの特徴,シミュレーション実験,文献調査に基づいて,現時点ではFIの可能性が低いチャネルを動的に選択する,新しい汎用アーキテクチャ設計パターンであるDarumaを定義した。

Automated Driving (AD) systems have the potential to increase safety, comfort and energy efficiency. Recently, major automotive companies have started testing and validating AD systems (ADS) on public roads. Nevertheless, the commercial deployment and wide adoption of ADS have been moderate, partially due to system functional insufficiencies (FI) that undermine passenger safety and lead to hazardous situations on the road. FIs are defined in ISO 21448 Safety Of The Intended Functionality (SOTIF). FIs are insufficiencies in sensors, actuators and algorithm implementations, including neural networks and probabilistic calculations. Examples of FIs in ADS include inaccurate ego-vehicle localization on the road, incorrect prediction of a cyclist maneuver, unreliable detection of a pedestrian, etc. The main goal of our study is to formulate a generic architectural design pattern, which is compatible with existing methods and ADS, to improve FI mitigation and enable faster commercial deployment of ADS. First, we studied the 2021 autonomous vehicles disengagement reports published by the California Department of Motor Vehicles (DMV). The data clearly show that disengagements are five times more often caused by FIs rather than by system faults. We then made a comprehensive list of insufficiencies and their characteristics by analyzing over 10 hours of publicly available road test videos. In particular, we identified insufficiency types in four major categories: world model, motion plan, traffic rule, and operational design domain. The insufficiency characterization helps making the SOTIF analyses of triggering conditions more systematic and comprehensive. Based on our FI characterization, simulation experiments and literature survey, we define a novel generic architectural design pattern Daruma to dynamically select the channel that is least likely to have a FI at the moment.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# ドイツの観光知識グラフ

German Tourism Knowledge Graph ( http://arxiv.org/abs/2404.09587v1 )

ライセンス: Link先を確認
Umutcan Serles, Elias Kärle, Richard Hunkel, Dieter Fensel, (参考訳) 観光業は世界経済において最も重要な産業の一つである。 不均一で断片化された性質のため、知識グラフの最も適したユースケースの1つである。 本ポスターでは,ドイツ16州の観光関連データを統合したジャーマン観光知識グラフを紹介する。 GUIとAPIを通じて公開されている。

Tourism is one of the most critical sectors of the global economy. Due to its heterogeneous and fragmented nature, it provides one of the most suitable use cases for knowledge graphs. In this poster, we introduce the German Tourism Knowledge Graph that integrates tourism-related data from 16 federal states of Germany and various other sources to provide a curated knowledge source for various applications. It is publicly available through GUIs and an API.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 大規模言語モデルのリコール改善:関係3重抽出のためのモデル協調手法

Improving Recall of Large Language Models: A Model Collaboration Approach for Relational Triple Extraction ( http://arxiv.org/abs/2404.09593v1 )

ライセンス: Link先を確認
Zepeng Ding, Wenhao Huang, Jiaqing Liang, Deqing Yang, Yanghua Xiao, (参考訳) 長い文から三重項の集合を出力する関係三重抽出は、知識獲得において重要な役割を果たす。 大規模な言語モデルでは、適切な命令が与えられた場合、簡単な文から数ショットの学習や微調整によってトリプルを正確に抽出することができる。 しかし、複雑な文から抽出する際、しばしば見逃される。 本稿では,大規模言語モデルと小さなモデルを統合した評価フィルタリングフレームワークを設計する。 このフレームワークは、関連エンティティペアを高精度に抽出できる評価モデルを含む。 モデル構築のための単純なラベル付け原理とディープニューラルネットワークを提案し,大モデル抽出プロセスにインプットとして出力を埋め込む。 提案手法は大規模言語モデルにおいて,特に複数の関係三重項を含む複雑な文から,より正確な抽出結果を得るのに有効であることを示すために,広範な実験を行った。 我々の評価モデルは、複雑な文からの抽出精度を高めるために、従来の抽出モデルに組み込むこともできる。

Relation triple extraction, which outputs a set of triples from long sentences, plays a vital role in knowledge acquisition. Large language models can accurately extract triples from simple sentences through few-shot learning or fine-tuning when given appropriate instructions. However, they often miss out when extracting from complex sentences. In this paper, we design an evaluation-filtering framework that integrates large language models with small models for relational triple extraction tasks. The framework includes an evaluation model that can extract related entity pairs with high precision. We propose a simple labeling principle and a deep neural network to build the model, embedding the outputs as prompts into the extraction process of the large model. We conduct extensive experiments to demonstrate that the proposed method can assist large language models in obtaining more accurate extraction results, especially from complex sentences containing multiple relational triples. Our evaluation model can also be embedded into traditional extraction models to enhance their extraction precision from complex sentences.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 脆弱性保存データ拡張によるコード脆弱性検出の強化

Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation ( http://arxiv.org/abs/2404.09599v1 )

ライセンス: Link先を確認
Shangqing Liu, Wei Ma, Jian Wang, Xiaofei Xie, Ruitao Feng, Yang Liu, (参考訳) ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。 多くの先行研究は、様々な脆弱性の特徴を見落としており、例えば脆弱性があるかどうかを決定するために、問題をバイナリ(0-1)分類タスクに単純化している。 これは、単一のディープラーニングベースのモデルが、幅広い脆弱性特性を効果的に学習する上で、課題となる。 さらに、大規模な脆弱性データ収集に関わる課題のため、これらの検出器は限られたトレーニングデータセットに過度に適合することが多く、結果としてモデルの一般化性能が低下する。 上記の課題に対処するため、本研究では、FGVulDetと呼ばれるきめ細かい脆弱性検出装置を導入する。 以前のアプローチとは異なり、FGVulDetはさまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定のタイプの脆弱性を特定する。 各分類器は、型固有の脆弱性セマンティクスを学ぶように設計されている。 さらに、いくつかの脆弱性タイプのデータの不足に対処し、より優れた脆弱性セマンティクスを学ぶためのデータの多様性を高めるために、脆弱性の数を増やすための新たな脆弱性保存データ拡張技術を提案する。 プログラムセマンティクスを学習するためのグラフニューラルネットワークの最近の進歩からインスピレーションを得て、Gated Graph Neural Network(GGNN)を導入し、エッジを意識したGGNNに拡張し、エッジタイプの情報をキャプチャする。 FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。 静的解析に基づくアプローチや学習に基づくアプローチと比較して、FGVulDetの有効性が実証された。

Source code vulnerability detection aims to identify inherent vulnerabilities to safeguard software systems from potential attacks. Many prior studies overlook diverse vulnerability characteristics, simplifying the problem into a binary (0-1) classification task for example determining whether it is vulnerable or not. This poses a challenge for a single deep learning-based model to effectively learn the wide array of vulnerability characteristics. Furthermore, due to the challenges associated with collecting large-scale vulnerability data, these detectors often overfit limited training datasets, resulting in lower model generalization performance. To address the aforementioned challenges, in this work, we introduce a fine-grained vulnerability detector namely FGVulDet. Unlike previous approaches, FGVulDet employs multiple classifiers to discern characteristics of various vulnerability types and combines their outputs to identify the specific type of vulnerability. Each classifier is designed to learn type-specific vulnerability semantics. Additionally, to address the scarcity of data for some vulnerability types and enhance data diversity for learning better vulnerability semantics, we propose a novel vulnerability-preserving data augmentation technique to augment the number of vulnerabilities. Taking inspiration from recent advancements in graph neural networks for learning program semantics, we incorporate a Gated Graph Neural Network (GGNN) and extend it to an edge-aware GGNN to capture edge-type information. FGVulDet is trained on a large-scale dataset from GitHub, encompassing five different types of vulnerabilities. Extensive experiments compared with static-analysis-based approaches and learning-based approaches have demonstrated the effectiveness of FGVulDet.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 化学反応予測のための自己フィードバック知識抽出手法

A Self-feedback Knowledge Elicitation Approach for Chemical Reaction Predictions ( http://arxiv.org/abs/2404.09606v1 )

ライセンス: Link先を確認
Pengfei Liu, Jun Tao, Zhixiang Ren, (参考訳) 化学反応予測(CRPs)の課題は、薬物発見と物質科学の進展において重要な役割を担っている。 しかし、その有効性は、膨大な不確実な化学反応空間と、特にデータ固有の知識を利用する既存の方法の限界のために、反応選択性を取得することの難しさに制約されている。 これらの課題に対処するため,データ処理による自己フィードバック型知識推論手法を提案する。 この方法は、分子表現の反復最適化から始まり、化学反応型(RT)に関する知識の抽出を容易にする。 次に,適応的な即時学習を用いて,事前知識を大規模言語モデル(LLM)に注入する。 その結果,レトロ合成予測精度が14.2%向上し,試薬予測精度が74.2%上昇し,マルチタスク化学反応の処理能力が向上した。 この研究は、科学研究における知識の活用のための新しいパラダイムを提供し、CRPにおけるLLMの未解決の可能性を示す。

The task of chemical reaction predictions (CRPs) plays a pivotal role in advancing drug discovery and material science. However, its effectiveness is constrained by the vast and uncertain chemical reaction space and challenges in capturing reaction selectivity, particularly due to existing methods' limitations in exploiting the data's inherent knowledge. To address these challenges, we introduce a data-curated self-feedback knowledge elicitation approach. This method starts from iterative optimization of molecular representations and facilitates the extraction of knowledge on chemical reaction types (RTs). Then, we employ adaptive prompt learning to infuse the prior knowledge into the large language model (LLM). As a result, we achieve significant enhancements: a 14.2% increase in retrosynthesis prediction accuracy, a 74.2% rise in reagent prediction accuracy, and an expansion in the model's capability for handling multi-task chemical reactions. This research offers a novel paradigm for knowledge elicitation in scientific research and showcases the untapped potential of LLMs in CRPs.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 保証者による行動モデル学習

Action Model Learning with Guarantees ( http://arxiv.org/abs/2404.09631v1 )

ライセンス: Link先を確認
Diego Aineto, Enrico Scala, (参考訳) 本稿では,完全な可観測性を持つ行動モデル学習の問題点について考察する。 ミッチェルによる探索パラダイムによる学習に続いて、学習例と整合した仮説の探索としてタスクを解釈するバージョン空間に基づく行動モデル学習の理論を開発する。 我々の理論的発見は、問題のすべての解のコンパクトな表現を維持するオンラインアルゴリズムでインスタンス化される。 これらの様々なソリューションの中で、我々は実際の遷移系を下(音モデル)と上(完全モデル)から近似するアクションモデルに注意を向ける。 音響モデルと完全モデルの決定論的・非決定論的定式化を構築するために、学習アルゴリズムの出力を操作する方法を示し、十分な例を挙げると、どちらの定式化も全く同じ真のモデルに収束することを示す。 我々の実験は、様々な計画領域にまたがる有用性を明らかにした。

This paper studies the problem of action model learning with full observability. Following the learning by search paradigm by Mitchell, we develop a theory for action model learning based on version spaces that interprets the task as search for hypothesis that are consistent with the learning examples. Our theoretical findings are instantiated in an online algorithm that maintains a compact representation of all solutions of the problem. Among these range of solutions, we bring attention to actions models approximating the actual transition system from below (sound models) and from above (complete models). We show how to manipulate the output of our learning algorithm to build deterministic and non-deterministic formulations of the sound and complete models and prove that, given enough examples, both formulations converge into the very same true model. Our experiments reveal their usefulness over a range of planning domains.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 円偏光誘電体空洞を用いたマイクロ波ホール計測

Microwave Hall measurements using a circularly polarized dielectric cavity ( http://arxiv.org/abs/2404.09662v1 )

ライセンス: Link先を確認
M. Roppongi, T. Arakawa, Y. Yoshino, K. Ishihara, Y. Kinoshita, M. Tokunaga, Y. Matsuda, K. Hashimoto, T. Shibauchi, (参考訳) 我々は,2つの直交線形偏光マイクロ波から円偏光マイクロ波を生成可能な高品質の誘電体共振器(TiO$_2$)キャビティを開発し,位相差が$\pm\pi/2$である。 この空洞を用いて,皮膚深部における金属単結晶のマイクロ波ホール導電率を測定する方法を確立した。 キャビティ摂動法に基づき, 面インピーダンステンソルのすべての成分を, 左右方向の円偏極モードを比較し, 磁場印加により抽出できることを実証した。 提案手法の有効性を検証するため, 低温でのBi単結晶の試験を行った。 その結果,マイクロ波領域におけるacホール角の特性場依存性は,dc輸送測定の期待値と一致していることが確認された。 これらの結果は,従来の方法に比べて感度が有意に向上したことを示している。 これによりマイクロ波ホール測定の精度が向上し、時間反転対称性破壊超伝導体のような新しいトポロジカル量子材料を探索する新たなアプローチの道を開くことができる。

We have developed a circularly polarized dielectric rutile (TiO$_2$) cavity with a high quality-factor that can generate circularly polarized microwaves from two orthogonal linearly polarized microwaves with a phase difference of $\pm\pi/2$ using a hybrid coupler. Using this cavity, we have established a new methodology to measure the microwave Hall conductivity of a small single crystal of metals in the skin-depth region. Based on the cavity perturbation technique, we have shown that all components of the surface impedance tensor can be extracted under the application of a magnetic field by comparing the right- and left-handed circularly polarization modes. To verify the validity of the developed method, we performed test measurements on tiny Bi single crystals at low temperatures. As a result, we have successfully obtained the surface impedance tensor components and confirmed that the characteristic field dependence of the ac Hall angle in the microwave region is consistent with the expectation from the dc transport measurements. These results demonstrate a significant improvement in sensitivity compared to previous methods. Thus, our developed technique allows more accurate microwave Hall measurements, opening the way for new approaches to explore novel topological quantum materials, such as time-reversal symmetry-breaking superconductors.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# オープンエッジコンピューティングプラットフォームに関する実証的研究: エコシステム、利用、セキュリティリスク

An Empirical Study of Open Edge Computing Platforms: Ecosystem, Usage, and Security Risks ( http://arxiv.org/abs/2404.09681v1 )

ライセンス: Link先を確認
Yu Bi, Mingshuo Yang, Yong Fang, Xianghang Mi, Shanqing Guo, Shujun Tang, Haixin Duan, (参考訳) 近年、オープンエッジコンピューティングプラットフォーム(OECP)は、大規模なエッジノード、広範囲の使用と採用、およびエッジノードとして参加するサードパーティへのオープン性を主張している。 たとえば、中国で運用されている主要なOECPであるOneThingCloudは、500万のエッジノード、70TBの帯域幅、1500PBのストレージを宣伝している。 しかし、これらのOECPの技術的なメカニズムやエッジコンピューティング活動への関与についてはほとんど情報がない。 さらに、既知のエッジコンピューティングパラダイムとは違って、OECPは、エッジノードとしてサードパーティが参加し、コンピューティングや帯域幅リソースの貢献によって収益を得ることのできるオープンなエコシステムを特徴としている。 本研究では,エッジノードの配置とエッジトラフィックの効率的な半自動解析,そして慎重に設計されたセキュリティ実験によって実現された2つの代表OECPについて,最初の実証的研究を行った。 その結果, 技術的メカニズム, エッジノードの状況, 使用状況と採用状況, 実際のセキュリティ/プライバシリスクに関して, 新たな知見と洞察が得られた。 特に、数百万の毎日アクティブエッジノードが観測されており、ネットワーク空間に広く分布し、16のインターネットサービスのエンドユーザーへのコンテンツ配信が広く採用されている。 また、関連する関係者(例えば、長期およびクロスエッジノード認証の暴露、さまざまなカテゴリの悪意のある活動とのコロケーション、TLS認証の失敗、エンドユーザーに対する広範囲な情報漏洩など)からの承認とともに、複数の実践的およびセキュリティリスクが特定されている。

Emerging in recent years, open edge computing platforms (OECPs) claim large-scale edge nodes, the extensive usage and adoption, as well as the openness to any third parties to join as edge nodes. For instance, OneThingCloud, a major OECP operated in China, advertises 5 million edge nodes, 70TB bandwidth, and 1,500PB storage. However, little information is publicly available for such OECPs with regards to their technical mechanisms and involvement in edge computing activities. Furthermore, different from known edge computing paradigms, OECPs feature an open ecosystem wherein any third party can participate as edge nodes and earn revenue for the contribution of computing and bandwidth resources, which, however, can introduce byzantine or even malicious edge nodes and thus break the traditional threat model for edge computing. In this study, we conduct the first empirical study on two representative OECPs, which is made possible through the deployment of edge nodes across locations, the efficient and semi-automatic analysis of edge traffic as well as the carefully designed security experiments. As the results, a set of novel findings and insights have been distilled with regards to their technical mechanisms, the landscape of edge nodes, the usage and adoption, and the practical security/privacy risks. Particularly, millions of daily active edge nodes have been observed, which feature a wide distribution in the network space and the extensive adoption in content delivery towards end users of 16 popular Internet services. Also, multiple practical and concerning security risks have been identified along with acknowledgements received from relevant parties, e.g., the exposure of long-term and cross-edge-node credentials, the co-location with malicious activities of diverse categories, the failures of TLS certificate verification, the extensive information leakage against end users, etc.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 3次元医用画像分割のためのトレーニング後ネットワーク圧縮:タッカー分解による計算効率の低減

Post-Training Network Compression for 3D Medical Image Segmentation: Reducing Computational Efforts via Tucker Decomposition ( http://arxiv.org/abs/2404.09683v1 )

ライセンス: Link先を確認
Tobias Weber, Jakob Dexl, David Rügamer, Michael Ingrisch, (参考訳) 本稿では, テンソル分解によるネットワーク圧縮の有効性を検討することにより, 高度な深層学習セグメンテーションモデルを臨床環境に展開する際の計算障壁に対処する。 本稿では,既存のモデルの分解により,セグメント化精度を損なうことなく,計算要求を低減できるタッカー因数分解法を提案する。 TotalSegmentator(TS)モデルの畳み込みカーネルにTucker分解を適用した。これは117の解剖構造の自動セグメンテーションのための包括的データセットに基づいて訓練されたnnU-Netモデルである。 提案手法では,推定時に必要となる浮動小数点演算(FLOP)とメモリを削減し,計算効率とセグメンテーション品質のトレードオフを調整可能とした。 本研究では,TSデータセットを用いて,モデルサイズ,推論速度,セグメンテーション性能の関係について検討した。 TSモデルへのタッカー分解の適用により、様々な圧縮速度でモデルパラメータとFLOPが大幅に減少し、セグメンテーション精度が低下した。 モデルパラメータの88%を除去したが、微調整後、ほとんどのクラスで顕著な性能変化は見られなかった。 現実的な利点はグラフィックス処理ユニット(GPU)のアーキテクチャによって様々であり、低消費電力のハードウェアではスピードアップがより顕著であった。 タッカー分解によるポストホックネットワーク圧縮は、精度を大幅に犠牲にすることなく、医療画像セグメンテーションモデルの計算要求を減らすための実行可能な戦略を示す。 このアプローチは、ハードウェア機能の制約をナビゲートする方法を提供する、臨床実践における高度なディープラーニングテクノロジの広範な採用を可能にする。

We address the computational barrier of deploying advanced deep learning segmentation models in clinical settings by studying the efficacy of network compression through tensor decomposition. We propose a post-training Tucker factorization that enables the decomposition of pre-existing models to reduce computational requirements without impeding segmentation accuracy. We applied Tucker decomposition to the convolutional kernels of the TotalSegmentator (TS) model, an nnU-Net model trained on a comprehensive dataset for automatic segmentation of 117 anatomical structures. Our approach reduced the floating-point operations (FLOPs) and memory required during inference, offering an adjustable trade-off between computational efficiency and segmentation quality. This study utilized the publicly available TS dataset, employing various downsampling factors to explore the relationship between model size, inference speed, and segmentation performance. The application of Tucker decomposition to the TS model substantially reduced the model parameters and FLOPs across various compression rates, with limited loss in segmentation accuracy. We removed up to 88% of the model's parameters with no significant performance changes in the majority of classes after fine-tuning. Practical benefits varied across different graphics processing unit (GPU) architectures, with more distinct speed-ups on less powerful hardware. Post-hoc network compression via Tucker decomposition presents a viable strategy for reducing the computational demand of medical image segmentation models without substantially sacrificing accuracy. This approach enables the broader adoption of advanced deep learning technologies in clinical practice, offering a way to navigate the constraints of hardware capabilities.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# サンプル効率の良いマルチエージェント強化学習のための高速リプレイ比

Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.09715v1 )

ライセンス: Link先を確認
Linjie Xu, Zichuan Liu, Alexander Dockhorn, Diego Perez-Liebana, Jinyu Wang, Lei Song, Jiang Bian, (参考訳) 強化学習(RL)の悪名高い問題の1つは、サンプル効率の低下である。 単エージェントRLと比較して、MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。 新たな手法の開発やサンプル効率の向上に多くの努力が注がれてきたが、広く使われているエピソードトレーニング機構について検討する。 各トレーニングステップでは、数十のフレームが収集されるが、1つのグラデーションステップのみが作成される。 このエピソードトレーニングはサンプル効率の低下の原因になり得ると我々は主張する。 既に収集されたデータをよりよく活用するために、環境相互作用毎の勾配更新の頻度(リプレイ率、更新データ比など)を上げることを提案する。 汎用性を示すため,6ドルのSMACタスクに対して3ドルMARL法を評価した。 実験結果から,MARLアルゴリズムのサンプリング効率は,高い再生率で著しく向上することが示された。 本論文で提示された結果を再実装するコードはhttps://anonymous.4open.science/r/rr_for_MARL-0D83/でオープンソース化されている。

One of the notorious issues for Reinforcement Learning (RL) is poor sample efficiency. Compared to single agent RL, the sample efficiency for Multi-Agent Reinforcement Learning (MARL) is more challenging because of its inherent partial observability, non-stationary training, and enormous strategy space. Although much effort has been devoted to developing new methods and enhancing sample efficiency, we look at the widely used episodic training mechanism. In each training step, tens of frames are collected, but only one gradient step is made. We argue that this episodic training could be a source of poor sample efficiency. To better exploit the data already collected, we propose to increase the frequency of the gradient updates per environment interaction (a.k.a. Replay Ratio or Update-To-Data ratio). To show its generality, we evaluate $3$ MARL methods on $6$ SMAC tasks. The empirical results validate that a higher replay ratio significantly improves the sample efficiency for MARL algorithms. The codes to reimplement the results presented in this paper are open-sourced at https://anonymous.4open.science/r/rr_for_MARL-0D83/.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 認証クライアント除去によるプライバシ保護型フェデレーション・アンラーニング

Privacy-Preserving Federated Unlearning with Certified Client Removal ( http://arxiv.org/abs/2404.09724v1 )

ライセンス: Link先を確認
Ziyao Liu, Huanyi Ye, Yu Jiang, Jiyuan Shen, Jiale Guo, Ivan Tjuawinata, Kwok-Yan Lam, (参考訳) 近年、フェデレーテッド・アンラーニング(FU)は、クライアントの影響力を、フェデレーテッド・ラーニング(FL)システムにおけるグローバルモデルから排除し、「忘れられる権利」(RTBF)を確保することで注目されている。 未学習の最先端の方法は、勾配や局所的に訓練されたモデルなど、FLクライアントからの履歴データを使用する。 しかし,この環境では,アップロードした情報からユーザのローカルデータを再構築する可能性があり,重大な情報漏洩が報告されている。 そこで本研究では,二要素計算(Two-Party Computation, 2PC)技術を用いたプライバシ保護フェデレーション付きアンラーニングスキームであるStarfishを提案する。 Starfishは、未学習プロセスのプライバシを確保するために、既存のFUメソッドの上に構築されている。 プライバシ保存型FU評価の効率を高めるために,特定のFUアルゴリズム操作に対して2PCフレンドリな代替案を提案する。 また,2PC操作に伴うコスト削減と累積近似誤差の低減を図る戦略を実装した。 さらに、Starfishによる未学習のグローバルモデルと、認証されたクライアント削除のためにゼロから再訓練されたグローバルモデルとの差に対する理論的境界を確立する。 我々の理論的および実験的分析は、FLシステムにおけるプライバシーとセキュリティを維持しながら、合理的な効率で効果的な未学習を実現することを実証している。

In recent years, Federated Unlearning (FU) has gained attention for addressing the removal of a client's influence from the global model in Federated Learning (FL) systems, thereby ensuring the ``right to be forgotten" (RTBF). State-of-the-art methods for unlearning use historical data from FL clients, such as gradients or locally trained models. However, studies have revealed significant information leakage in this setting, with the possibility of reconstructing a user's local data from their uploaded information. Addressing this, we propose Starfish, a privacy-preserving federated unlearning scheme using Two-Party Computation (2PC) techniques and shared historical client data between two non-colluding servers. Starfish builds upon existing FU methods to ensure privacy in unlearning processes. To enhance the efficiency of privacy-preserving FU evaluations, we suggest 2PC-friendly alternatives for certain FU algorithm operations. We also implement strategies to reduce costs associated with 2PC operations and lessen cumulative approximation errors. Moreover, we establish a theoretical bound for the difference between the unlearned global model via Starfish and a global model retrained from scratch for certified client removal. Our theoretical and experimental analyses demonstrate that Starfish achieves effective unlearning with reasonable efficiency, maintaining privacy and security in FL systems.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 心電図形態解析における振幅-位相融合法の有用性

Amplitude-Phase Fusion for Enhanced Electrocardiogram Morphological Analysis ( http://arxiv.org/abs/2404.09729v1 )

ライセンス: Link先を確認
Shuaicong Hu, Yanan Wang, Jian Liu, Jingyu Lin, Shengmei Qin, Zhenning Nie, Zhifeng Yao, Wenjie Cai, Cuiwei Yang, (参考訳) 心活動と個人差による心電図信号の振幅および位相パターンの変動を考慮すると、既存のエントロピーに基づく研究はこれらの2つのパターンを十分に活用せず、統合が欠如している。 このギャップに対処するために,新しい融合エントロピー計量,形態ECGエントロピー(MEE)を提案し,振幅と位相パターンの融合を包括的に記述する。 MEEはビートレベルサンプルに基づいて計算され、各心循環の詳細な解析を可能にする。 実験の結果, MEEは異常心電図不整脈領域の迅速, 正確, ラベルフリーな局在を達成できた。 さらに、MEEは、サンプルの多様性を評価する方法を提供し、(代表的なサンプル選択を通じて)不均衡なトレーニングセットの圧縮を容易にし、ランダムプルーニングより優れています。 さらに、MEEは品質の悪い領域を記述する能力を示している。 議論することで、ノイズ干渉に対するMEE値計算の堅牢性とその計算複雑性を証明できる。 最後に,本手法を臨床対話インタフェースに統合し,より便利で直感的なユーザエクスペリエンスを実現する。 以上の結果から,MEEは心電図評価に有用な臨床記述因子として有用であることが示唆された。 実装コードは https://github.com/fdu-harry/ECG-MEE-metric というリンクで参照できる。

Considering the variability of amplitude and phase patterns in electrocardiogram (ECG) signals due to cardiac activity and individual differences, existing entropy-based studies have not fully utilized these two patterns and lack integration. To address this gap, this paper proposes a novel fusion entropy metric, morphological ECG entropy (MEE) for the first time, specifically designed for ECG morphology, to comprehensively describe the fusion of amplitude and phase patterns. MEE is computed based on beat-level samples, enabling detailed analysis of each cardiac cycle. Experimental results demonstrate that MEE achieves rapid, accurate, and label-free localization of abnormal ECG arrhythmia regions. Furthermore, MEE provides a method for assessing sample diversity, facilitating compression of imbalanced training sets (via representative sample selection), and outperforms random pruning. Additionally, MEE exhibits the ability to describe areas of poor quality. By discussing, it proves the robustness of MEE value calculation to noise interference and its low computational complexity. Finally, we integrate this method into a clinical interactive interface to provide a more convenient and intuitive user experience. These findings indicate that MEE serves as a valuable clinical descriptor for ECG characterization. The implementation code can be referenced at the following link: https://github.com/fdu-harry/ECG-MEE-metric.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# スコアベース生成モデルにおける確率フローODEの収束解析

Convergence Analysis of Probability Flow ODE for Score-based Generative Models ( http://arxiv.org/abs/2404.09730v1 )

ライセンス: Link先を確認
Daniel Zhengyu Huang, Jiaoyang Huang, Zhengjiang Lin, (参考訳) スコアベース生成モデルは高次元確率分布をサンプリングするための強力なアプローチとして登場した。 その効果にもかかわらず、理論上の基盤は比較的未発達のままである。 本研究では,確率フローODEに基づく決定論的サンプリング器の収束特性について,理論的および数値的両面から検討する。 スコア関数の$L^2$-正確な推定値にアクセスできると仮定すると、目標と生成されたデータ分布の総変動は、連続時間レベルで$\mathcal{O}(d\sqrt{\delta})$で制限され、$d$はデータ次元を表し、$\delta$は$L^2$-scoreマッチングエラーを表す。 ステップサイズ$h$のRunge-Kutta積分器を$p$-thオーダーで実装する場合、離散レベルで$\mathcal{O}(d(\sqrt{\delta} + (dh)^p))の誤差境界を確立する。 最後に,我々の理論を検証するために,最大128ドルの次元の問題を数値解析し,誤差と次元依存性の整合性を示す。

Score-based generative models have emerged as a powerful approach for sampling high-dimensional probability distributions. Despite their effectiveness, their theoretical underpinnings remain relatively underdeveloped. In this work, we study the convergence properties of deterministic samplers based on probability flow ODEs from both theoretical and numerical perspectives. Assuming access to $L^2$-accurate estimates of the score function, we prove the total variation between the target and the generated data distributions can be bounded above by $\mathcal{O}(d\sqrt{\delta})$ in the continuous time level, where $d$ denotes the data dimension and $\delta$ represents the $L^2$-score matching error. For practical implementations using a $p$-th order Runge-Kutta integrator with step size $h$, we establish error bounds of $\mathcal{O}(d(\sqrt{\delta} + (dh)^p))$ at the discrete level. Finally, we present numerical studies on problems up to $128$ dimensions to verify our theory, which indicate a better score matching error and dimension dependence.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 量子畳み込みニューラルネットワークのための層載荷

Layered Uploading for Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2404.09750v1 )

ライセンス: Link先を確認
Grégoire Barrué, Tony Quertier, (参考訳) マルウェア検出に応用した量子機械学習の分析を継続し、量子畳み込みニューラルネットワークの可能性について検討する。 より正確には、量子回路に沿ってデータがアップロードされる新しいアーキテクチャを提案する。 これにより、量子回路に使用する量子ビットの数を増やすことなく、データからより多くの機能を使用することで、アルゴリズムにより多くの情報を与えることができます。 このアプローチは、常に大量のデータを持っておらず、現在量子コンピュータはその論理量子ビット数に制限されているという事実によって動機付けられている。

Continuing our analysis of quantum machine learning applied to our use-case of malware detection, we investigate the potential of quantum convolutional neural networks. More precisely, we propose a new architecture where data is uploaded all along the quantum circuit. This allows us to use more features from the data, hence giving to the algorithm more information, without having to increase the number of qubits that we use for the quantum circuit. This approach is motivated by the fact that we do not always have great amounts of data, and that quantum computers are currently restricted in their number of logical qubits.
翻訳日:2024-04-16 13:38:59 公開日:2024-04-15
# 量子制御のない量子コヒーレンスのデバイス非依存検証

Device-independent Verification of Quantum Coherence without Quantum Control ( http://arxiv.org/abs/2404.09435v1 )

ライセンス: Link先を確認
Yan-Han Yang, Xue Yang, Xing-Zhou Zheng, Ming-Xing Luo, (参考訳) 量子コヒーレンスは量子システムの操作と制御において重要な役割を担い、量子情報、量子センシング、重力波の検出など様々な分野で突破口となる。 ほとんどのコヒーレンス目撃者は、量子状態を制御することができるという仮定に依存している。 本稿では,標準ベル理論を複数のソースシナリオに拡張することにより,デバイス非依存のコヒーレンスモデルを報告する。 本稿では,グリーンベルガー・ホルン・ザイリンガー型パラドックスを提案し,コヒーレントキャリアの粒子挙動と波動挙動を検証した。 現在パラドックスに反する一般化された2光子絡み合った状態を生成し、局所的な測定によって空間量子重ね合わせを目撃する。

Quantum coherence plays a crucial role in manipulating and controlling quantum systems, leading to breakthroughs in various fields such as quantum information, quantum sensing, and the detection of gravitational waves. Most coherence witnesses rely on the assumption of being able to control quantum states. Here we report a device-independent coherence model by extending the standard Bell theory to multiple source scenarios. We propose a Greenberger-Horne-Zeilinger-type paradox to verify the particle and wave behaviors of a coherent carrier. We experimentally generate generalized two-photon entangled states that violate the present paradox, witnessing spatial quantum superposition through local measurements.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# Hybrid FedGraph: グラフ畳み込みニューラルネットワークを用いた効率的なハイブリッドフェデレーション学習アルゴリズム

Hybrid FedGraph: An efficient hybrid federated learning algorithm using graph convolutional neural network ( http://arxiv.org/abs/2404.09443v1 )

ライセンス: Link先を確認
Jaeyeon Jang, Diego Klabjan, Veena Mendiratta, Fanfei Meng, (参考訳) フェデレーション学習は、中央サーバにデータを公開せずに、分散クライアント上で機械学習モデルの分散トレーニングを行うための新興パラダイムである。 既存の作業の多くは水平または垂直のデータ分散に重点を置いており、それぞれのクライアントが共有された機能を持つ異なるサンプルを持っているか、あるいはそれぞれのクライアントがそれぞれサンプルインデックスのみを共有している。 しかし、このハイブリッドスキームは現実世界ではより一般的であるにもかかわらず、あまり研究されていない。 そこで本稿では,クライアントのサブセットから特徴を学習しながら特徴共有情報をキャプチャするグラフ畳み込みニューラルネットワークを導入した一般化アルゴリズムであるFedGraphを提案する。 また、データのプライバシを保ちながら、各クライアントのディープニューラルネットワークによって生成された機能を集約する、単純だが効果的なクラスタリングアルゴリズムも開発しています。

Federated learning is an emerging paradigm for decentralized training of machine learning models on distributed clients, without revealing the data to the central server. Most existing works have focused on horizontal or vertical data distributions, where each client possesses different samples with shared features, or each client fully shares only sample indices, respectively. However, the hybrid scheme is much less studied, even though it is much more common in the real world. Therefore, in this paper, we propose a generalized algorithm, FedGraph, that introduces a graph convolutional neural network to capture feature-sharing information while learning features from a subset of clients. We also develop a simple but effective clustering algorithm that aggregates features produced by the deep neural networks of each client while preserving data privacy.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# 人選好によるテキスト・ツー・モーション生成の探索

Exploring Text-to-Motion Generation with Human Preference ( http://arxiv.org/abs/2404.09445v1 )

ライセンス: Link先を確認
Jenny Sheng, Matthieu Lin, Andrew Zhao, Kevin Pruvost, Yu-Hui Wen, Yangguang Li, Gao Huang, Yong-Jin Liu, (参考訳) 本稿では,テキスト・トゥ・モーション・ジェネレーションにおける嗜好学習の探索について述べる。 テキスト・トゥ・モーション・ジェネレーションの現在の改善は、まだモーションキャプチャシステムを備えたエキスパート・ラベラーを必要とするデータセットに依存していることがわかった。 その代わり、人間の好みデータから学ぶには、モーションキャプチャーシステムを必要としない。 これは特に効率的であるため、モデルの出力を評価することは、望ましいタスクを実行する動作(例えばbackflip)を収集するよりも容易である。 このパラダイムの探索の先駆けとして、MotionGPTが生成した3,528の選好ペアを注釈付けし、選好データから学習する様々なアルゴリズムを調査するための最初の試みを示す。 特に、私たちの調査では、好みデータを使用する際の重要な設計選択を強調しています。 さらに,本実験の結果から,嗜好学習は現在のテキスト・モーション生成モデルを大幅に改善する可能性が示唆された。 私たちのコードとデータセットはhttps://github.com/THU-LYJ-Lab/InstructMotion}{https://github.com/THU-LYJ-Lab/InstructMotionで公開されています。

This paper presents an exploration of preference learning in text-to-motion generation. We find that current improvements in text-to-motion generation still rely on datasets requiring expert labelers with motion capture systems. Instead, learning from human preference data does not require motion capture systems; a labeler with no expertise simply compares two generated motions. This is particularly efficient because evaluating the model's output is easier than gathering the motion that performs a desired task (e.g. backflip). To pioneer the exploration of this paradigm, we annotate 3,528 preference pairs generated by MotionGPT, marking the first effort to investigate various algorithms for learning from preference data. In particular, our exploration highlights important design choices when using preference data. Additionally, our experimental results show that preference learning has the potential to greatly improve current text-to-motion generative models. Our code and dataset are publicly available at https://github.com/THU-LYJ-Lab/InstructMotion}{https://github.com/THU-LYJ-Lab/InstructMotion to further facilitate research in this area.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# 一般カテゴリー発見のための対照的な平均シフト学習

Contrastive Mean-Shift Learning for Generalized Category Discovery ( http://arxiv.org/abs/2404.09451v1 )

ライセンス: Link先を確認
Sua Choi, Dahyun Kang, Minsu Cho, (参考訳) 本稿では,画像の部分的にラベル付けされたコレクションを分割することを目的とした一般化されたカテゴリ発見(GCD)の問題に対処する。 この一般化された画像クラスタリング問題に対処するために、平均シフトアルゴリズム、すなわちモード探索のための古典的で強力な手法を再検討し、これを対照的な学習フレームワークに組み込む。 提案手法はContrastive Mean-Shift(CMS)学習と呼ばれ、平均シフトとコントラスト更新の反復プロセスにより、より優れたクラスタリング特性を持つ表現を生成するために、画像エンコーダを訓練する。 実験により,本手法は,クラスタの総数と無数の設定の両方において,ベルやホイッスルを伴わない6つの公開GCDベンチマークにおいて,最先端の性能を実現することが示された。

We address the problem of generalized category discovery (GCD) that aims to partition a partially labeled collection of images; only a small part of the collection is labeled and the total number of target classes is unknown. To address this generalized image clustering problem, we revisit the mean-shift algorithm, i.e., a classic, powerful technique for mode seeking, and incorporate it into a contrastive learning framework. The proposed method, dubbed Contrastive Mean-Shift (CMS) learning, trains an image encoder to produce representations with better clustering properties by an iterative process of mean shift and contrastive update. Experiments demonstrate that our method, both in settings with and without the total number of clusters being known, achieves state-of-the-art performance on six public GCD benchmarks without bells and whistles.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# Greener Nightsに向けて - 光汚染管理のためのAI駆動ソリューションを探る

Towards Greener Nights: Exploring AI-Driven Solutions for Light Pollution Management ( http://arxiv.org/abs/2404.09453v1 )

ライセンス: Link先を確認
Paras Varshney, Niral Desai, Uzair Ahmed, (参考訳) この研究は、データサイエンスと機械学習技術を活用した学際的なアプローチを通じて、光汚染の広範にわたる問題に対処する試みである。 広範囲なデータセットと研究結果を分析し,様々な場所や時間で観測される空の輝きの程度を推定できる予測モデルを開発することを目的とする。 我々の研究は、エビデンスに基づく介入を通知し、光汚染が生態系、エネルギー消費、そして人間の健康に与える影響を軽減するために、責任ある屋外照明の実践を促進することを目指している。

This research endeavors to address the pervasive issue of light pollution through an interdisciplinary approach, leveraging data science and machine learning techniques. By analyzing extensive datasets and research findings, we aim to develop predictive models capable of estimating the degree of sky glow observed in various locations and times. Our research seeks to inform evidence-based interventions and promote responsible outdoor lighting practices to mitigate the adverse impacts of light pollution on ecosystems, energy consumption, and human well-being.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# ユーティリティ・フェアネス・トレードオフと課題の発見方法

Utility-Fairness Trade-Offs and How to Find Them ( http://arxiv.org/abs/2404.09454v1 )

ライセンス: Link先を確認
Sepehr Dehdashtian, Bashir Sadeghi, Vishnu Naresh Boddeti, (参考訳) 人口的公平性を考慮した分類システムを構築する場合、満足すべき目的が2つある。 1) 特定業務の効用の最大化及び 2) 既知人口統計属性の公平性を確保すること。 これらの目的はしばしば競合するので、両方の最適化は実用性と公正性のトレードオフにつながる可能性がある。 既存の研究はトレードオフを認め、その限界を研究するが、2つの疑問は未解決のままである。 1)実用性と公正性の最適なトレードオフは何か。 そして 2)データから所望の予測タスクと興味の人口統計属性を数値的に定量化する方法。 この論文はこれらの疑問に対処する。 データ・スペースとラベル・スペースのトレードオフという2つのユーティリティ・フェアネスのトレードオフを紹介します。 トレードオフによって、ユーティリティフェアネスプレーン内の3つの領域が明らかになり、完全に部分的に可能で不可能なものが説明される。 本稿では,データサンプルから与えられた予測タスクとグループフェアネス定義のトレードオフを数値的に定量化する方法であるU-FaTEを提案する。 トレードオフに基づいて、表現を評価するための新しいスキームを導入する。 1000以上の事前訓練されたモデルからのフェア表現学習手法と表現の広範な評価により、現在のアプローチのほとんどは、複数のデータセットや予測タスクをまたいだ、推定および達成可能なフェアネスユーティリティトレードオフからかけ離れていることが明らかとなった。

When building classification systems with demographic fairness considerations, there are two objectives to satisfy: 1) maximizing utility for the specific task and 2) ensuring fairness w.r.t. a known demographic attribute. These objectives often compete, so optimizing both can lead to a trade-off between utility and fairness. While existing works acknowledge the trade-offs and study their limits, two questions remain unanswered: 1) What are the optimal trade-offs between utility and fairness? and 2) How can we numerically quantify these trade-offs from data for a desired prediction task and demographic attribute of interest? This paper addresses these questions. We introduce two utility-fairness trade-offs: the Data-Space and Label-Space Trade-off. The trade-offs reveal three regions within the utility-fairness plane, delineating what is fully and partially possible and impossible. We propose U-FaTE, a method to numerically quantify the trade-offs for a given prediction task and group fairness definition from data samples. Based on the trade-offs, we introduce a new scheme for evaluating representations. An extensive evaluation of fair representation learning methods and representations from over 1000 pre-trained models revealed that most current approaches are far from the estimated and achievable fairness-utility trade-offs across multiple datasets and prediction tasks.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# 双曲的不均一グラフ注意ネットワーク

Hyperbolic Heterogeneous Graph Attention Networks ( http://arxiv.org/abs/2404.09456v1 )

ライセンス: Link先を確認
Jongmin Park, Seunghoon Han, Soohwan Jeong, Sungsu Lim, (参考訳) 以前の不均一グラフ埋め込みモデルは、低次元ユークリッド空間におけるベクトル表現として不均一グラフの要素を表す。 しかし、ヘテロジニアスグラフは本質的には階層構造や正則構造のような複素構造を持つため、ユークリッド空間においてそれらを表現するときに歪みが発生する。 この制限を克服するために,メタパスインスタンスを持つ双曲空間におけるベクトル表現を学習するハイパーボリック不均一グラフ注意ネットワーク(HHGAT)を提案する。 本研究では,HHGATがノード分類やクラスタリングタスクにおいて,最先端のヘテロジニアスグラフ埋め込みモデルより優れていることを示す3つの実世界のヘテロジニアスグラフデータセットの実験を行った。

Most previous heterogeneous graph embedding models represent elements in a heterogeneous graph as vector representations in a low-dimensional Euclidean space. However, because heterogeneous graphs inherently possess complex structures, such as hierarchical or power-law structures, distortions can occur when representing them in Euclidean space. To overcome this limitation, we propose Hyperbolic Heterogeneous Graph Attention Networks (HHGAT) that learn vector representations in hyperbolic spaces with meta-path instances. We conducted experiments on three real-world heterogeneous graph datasets, demonstrating that HHGAT outperforms state-of-the-art heterogeneous graph embedding models in node classification and clustering tasks.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# CompGS:圧縮ガウススプレイティングによる効率的な3Dシーン表現

CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting ( http://arxiv.org/abs/2404.09458v1 )

ライセンス: Link先を確認
Xiangrui Liu, Xinju Wu, Pingping Zhang, Shiqi Wang, Zhu Li, Sam Kwong, (参考訳) 異常なレンダリング品質と効率で有名なガウススプラッティングは、3Dシーンの表現において顕著なテクニックとして現れている。 しかし、ガウススプラッティングのかなりのデータ量は、実世界の応用においてその実用性を妨げている。 本稿では,コンパクトなガウス的プリミティブを用いて,データサイズを著しく削減した忠実な3次元シーンモデリングを行う,圧縮ガウス的スプレイティング(CompGS)という,効率的な3次元シーン表現を提案する。 ガウス原始体のコンパクト性を確保するため、我々は互いに予測的関係を捉えるハイブリッド原始構造を考案した。 そして,少数のアンカープリミティブを予測に利用し,プリミティブの大多数を非常にコンパクトな残留形にカプセル化する。 さらに、これらのハイブリッドプリミティブにおける冗長性を排除し、ビットレート消費と表現効率の最適トレードオフに向けてCompGSを操るレート制約最適化手法を開発した。 実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。 私たちのコードは、さらなる研究のためにGitHubでリリースされます。

Gaussian splatting, renowned for its exceptional rendering quality and efficiency, has emerged as a prominent technique in 3D scene representation. However, the substantial data volume of Gaussian splatting impedes its practical utility in real-world applications. Herein, we propose an efficient 3D scene representation, named Compressed Gaussian Splatting (CompGS), which harnesses compact Gaussian primitives for faithful 3D scene modeling with a remarkably reduced data size. To ensure the compactness of Gaussian primitives, we devise a hybrid primitive structure that captures predictive relationships between each other. Then, we exploit a small set of anchor primitives for prediction, allowing the majority of primitives to be encapsulated into highly compact residual forms. Moreover, we develop a rate-constrained optimization scheme to eliminate redundancies within such hybrid primitives, steering our CompGS towards an optimal trade-off between bitrate consumption and representation efficacy. Experimental results show that the proposed CompGS significantly outperforms existing methods, achieving superior compactness in 3D scene representation without compromising model accuracy and rendering quality. Our code will be released on GitHub for further research.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# 人工市場シミュレーションによる沈み込み実験

Experimental Analysis of Deep Hedging Using Artificial Market Simulations for Underlying Asset Simulators ( http://arxiv.org/abs/2404.09462v1 )

ライセンス: Link先を確認
Masanori Hirano, (参考訳) デリバティブなヘッジと価格が重要であり、金融市場において継続的に研究されている。 近年,ディープラーニングを用いて最適なヘッジ戦略を近似し,不完全な市場を処理できる,将来的なアプローチとして,深層ヘッジが提案されている。 しかし、ディープ・ヘッジは通常、基礎となるアセット・シミュレーションを必要とし、そのようなシミュレーションに最適なモデルを選択することは困難である。 本研究は, 人工市場シミュレーションを基盤とした深層加熱における資産シミュレーションに応用した新しいアプローチを提案する。 人工市場シミュレーションは、金融市場のスタイル化された事実を再現することができる。 提案手法の有効性を,ブラウン運動やヘストンモデルなどの数学的金融モデルを用いた従来の手法と比較することにより検討した。 その結果,提案手法は数学的な財務モデルなしで従来の手法とほぼ同等の性能を達成できることが示唆された。 最後に,提案手法は特定の条件下での性能に制限があることを明らかにした。

Derivative hedging and pricing are important and continuously studied topics in financial markets. Recently, deep hedging has been proposed as a promising approach that uses deep learning to approximate the optimal hedging strategy and can handle incomplete markets. However, deep hedging usually requires underlying asset simulations, and it is challenging to select the best model for such simulations. This study proposes a new approach using artificial market simulations for underlying asset simulations in deep hedging. Artificial market simulations can replicate the stylized facts of financial markets, and they seem to be a promising approach for deep hedging. We investigate the effectiveness of the proposed approach by comparing its results with those of the traditional approach, which uses mathematical finance models such as Brownian motion and Heston models for underlying asset simulations. The results show that the proposed approach can achieve almost the same level of performance as the traditional approach without mathematical finance models. Finally, we also reveal that the proposed approach has some limitations in terms of performance under certain conditions.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# PRIME:レジリエンス推論測定と強化のためのCyberGISプラットフォーム

PRIME: A CyberGIS Platform for Resilience Inference Measurement and Enhancement ( http://arxiv.org/abs/2404.09463v1 )

ライセンス: Link先を確認
Debayan Mandal, Dr. Lei Zou, Rohan Singh Wilkho, Joynal Abedin, Bing Zhou, Dr. Heng Cai, Dr. Furqan Baig, Dr. Nasir Gharaibeh, Dr. Nina Lam, (参考訳) 気候災害の増加期には、複数の地理的・時間的規模で、気候の危険に対するコミュニティのレジリエンスを評価し改善するための信頼性の高いフレームワークやツールを開発する必要がある。 社会分野でのレジリエンスの定義と定量化は、社会経済的要因と災害レジリエンスとの複雑な相互作用のため、比較的主観的である。 一方、ローカル条件を考慮したカスタマイズされたレジリエンスアセスメントをサポートする、厳格でユーザフレンドリーなツールが不足している。 本研究は,サイバーGISの力によるギャップを3つの目的で解決することを目的とする。 1) 大規模地域社会のレジリエンス評価と社会経済的要因の同定のためのカスタムレジリエンス推論計測を実証的に検証した災害レジリエンスモデルの開発 2)高性能コンピューティングを基盤としたCyberGISXプラットフォームにおけるレジリエンス推論計測・拡張モジュールの実装。 3)代表的研究によるPRIMEの有用性の実証。 CRIMは、経験的ハザードパラメータから得られる脆弱性、適応性、総合的なレジリエンススコアを生成する。 これらのスコアと社会経済的要因の複雑な関係を説明するために,計算集約型機械学習手法が用いられている。 PRIMEは、ユーザーが研究領域を選択し、パラメータを設定し、レジリエンススコアを計算し、ジオビジュアル化し、レジリエンス能力を形成する社会経済的要因を解釈するためのウェブベースのノートブックインターフェースを提供する。 代表的な研究では、得られた視覚結果がどのように解釈されるかを説明しながら、プラットフォームの効率性を示す。 この研究の本質は、必要なデータ、解析的および地理的視覚化関数、レジリエンス評価のためのMLモデルをカプセル化する包括的なアーキテクチャにある。

In an era of increased climatic disasters, there is an urgent need to develop reliable frameworks and tools for evaluating and improving community resilience to climatic hazards at multiple geographical and temporal scales. Defining and quantifying resilience in the social domain is relatively subjective due to the intricate interplay of socioeconomic factors with disaster resilience. Meanwhile, there is a lack of computationally rigorous, user-friendly tools that can support customized resilience assessment considering local conditions. This study aims to address these gaps through the power of CyberGIS with three objectives: 1) To develop an empirically validated disaster resilience model - Customized Resilience Inference Measurement designed for multi-scale community resilience assessment and influential socioeconomic factors identification, 2) To implement a Platform for Resilience Inference Measurement and Enhancement module in the CyberGISX platform backed by high-performance computing, 3) To demonstrate the utility of PRIME through a representative study. CRIM generates vulnerability, adaptability, and overall resilience scores derived from empirical hazard parameters. Computationally intensive Machine Learning methods are employed to explain the intricate relationships between these scores and socioeconomic driving factors. PRIME provides a web-based notebook interface guiding users to select study areas, configure parameters, calculate and geo-visualize resilience scores, and interpret socioeconomic factors shaping resilience capacities. A representative study showcases the efficiency of the platform while explaining how the visual results obtained may be interpreted. The essence of this work lies in its comprehensive architecture that encapsulates the requisite data, analytical and geo-visualization functions, and ML models for resilience assessment.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# 量子システムにおけるカオスの量子化器としての情報ゲイン, 演算子拡散, 摂動に対する感度

Information Gain, Operator Spreading, and Sensitivity to Perturbations as Quantifiers of Chaos in Quantum Systems ( http://arxiv.org/abs/2404.09464v1 )

ライセンス: Link先を確認
Abinash Sahu, (参考訳) 我々は,量子系におけるカオスのシグネチャを探索するために,連続的な弱測定トモグラフィープロトコルを採用する。 所望の力学の下で進化する観測可能な観測値の一連の期待値として測定記録を生成し,積分可能性からカオスへの遷移を示す。 情報ゲインの速度は、力学におけるカオスの度合い、初期観測可能の選択、および作用素が密度行列に沿ってどのように整列しているかに依存する。 クリャロフ部分空間に広がる作用素の量は、量子トモグラフィーやその他の様々な情報取得の指標の忠実さによって定量化され、システム内のカオスの度合いとともに増加する。 我々は,多体量子系における演算子拡散とその情報的完備な測定記録を生成する可能性について検討した。 演算子拡散のための量子化器は、クリロフ複雑性よりも量子カオスの一貫性のある指標である。 本研究は, 量子トモグラフィーにおける不確実性ゲインの観点から, 演算子の操作的解釈を与える。 量子領域におけるカオスのフットプリントを見つける旅を続けながら、ノイズトモグラフィーにおけるエラーの増大を探求する。 ランダム状態の場合、無作為演算子から測定記録が得られたとき、得られた忠実度のその後の低下は、力学におけるカオスの度合いと逆相関する。 これにより、演算子に対するLoschmidtエコーの操作的解釈が量子トモグラフィのパフォーマンスに接続される。 カオスのシグネチャとして機能する、摂動力学と摂動力学の2つの演算子間の非時間順序相関器(OTOC)であるエラーのスクランブルを捉える量を求める。 この結果は,OTOCsが捉えたように,Loschmidtエコーと誤りの発散と,量子情報処理における運用上の結果との基本的な関係を示すものである。

We adopt a continuous weak measurement tomography protocol to explore the signatures of chaos in the quantum system(s). We generate the measurement record as a series of expectation values of an observable evolving under the desired dynamics, which can show a transition from integrability to chaos. We find that the rate of information gain depends on the degree of chaos in the dynamics, the choice of initial observable, and how well the operator is aligned along the density matrix. The amount of operator spreading in the Krylov subspace, as quantified by the fidelity in quantum tomography and various other metrics of information gain, increases with the degree of chaos in the system. We study operator spreading in many-body quantum systems by its potential to generate an informationally complete measurement record. Our quantifiers for operator spreading are more consistent indicators of quantum chaos than Krylov complexity. Our study gives an operational interpretation for operator spreading in terms of fidelity gain in quantum tomography. Continuing in our journey of finding the footprints of chaos in the quantum domain, we explore the growth of errors in noisy tomography. For random states, when the measurement record is obtained from a random operator, the subsequent drop in the fidelity obtained is inversely correlated to the degree of chaos in the dynamics. This gives us an operational interpretation of Loschmidt echo for operators by connecting it to the performance of quantum tomography. We find a quantity to capture the scrambling of errors, an out-of-time-ordered correlator (OTOC) between two operators under perturbed and unperturbed dynamics that serves as a signature of chaos. Our results demonstrate a fundamental link between Loschmidt echo and scrambling of errors, as captured by OTOCs, with operational consequences in quantum information processing.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# PhyScene:体操AIのための物理的に相互作用可能な3Dシーン合成

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI ( http://arxiv.org/abs/2404.09465v1 )

ライセンス: Link先を確認
Yandan Yang, Baoxiong Jia, Peiyuan Zhi, Siyuan Huang, (参考訳) 近年、Embodied Artificial Intelligence(EAI)研究が発展し、高品質で大規模な対話型シーン生成への需要が高まっている。 シーン合成における従来の手法は、生成されたシーンの自然性やリアリズムを優先してきたが、シーンの物理的妥当性と相互作用性はほとんど解明されていない。 この格差に対処するために,現実的なレイアウト,明瞭なオブジェクト,具体化されたエージェントに適したリッチな物理的相互作用を特徴付けるインタラクティブな3Dシーンを生成するPhySceneを紹介した。 シーンレイアウトをキャプチャする条件付き拡散モデルに基づいて,物体衝突,室内レイアウト,物体到達性といった制約を統合する物理および対話性に基づくガイダンス機構を考案する。 大規模な実験を通じて、PhySceneはこれらの誘導関数を物理的に相互作用可能なシーン合成に有効に活用し、既存の最先端シーン合成方法よりも大きなマージンで優れていることを示す。 このことから,PhySceneが生み出したシーンは,対話型環境におけるエージェント間の多様なスキル獲得を促進する上で大きな可能性を秘めていることが示唆された。 プロジェクトウェブサイト: http://physcene.github.io

With recent developments in Embodied Artificial Intelligence (EAI) research, there has been a growing demand for high-quality, large-scale interactive scene generation. While prior methods in scene synthesis have prioritized the naturalness and realism of the generated scenes, the physical plausibility and interactivity of scenes have been largely left unexplored. To address this disparity, we introduce PhyScene, a novel method dedicated to generating interactive 3D scenes characterized by realistic layouts, articulated objects, and rich physical interactivity tailored for embodied agents. Based on a conditional diffusion model for capturing scene layouts, we devise novel physics- and interactivity-based guidance mechanisms that integrate constraints from object collision, room layout, and object reachability. Through extensive experiments, we demonstrate that PhyScene effectively leverages these guidance functions for physically interactable scene synthesis, outperforming existing state-of-the-art scene synthesis methods by a large margin. Our findings suggest that the scenes generated by PhyScene hold considerable potential for facilitating diverse skill acquisition among agents within interactive environments, thereby catalyzing further advancements in embodied AI research. Project website: http://physcene.github.io.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# Q2A: 医用画像セグメンテーションのための特徴に適応した完全連続的な特徴を問う

Q2A: Querying Implicit Fully Continuous Feature Pyramid to Align Features for Medical Image Segmentation ( http://arxiv.org/abs/2404.09472v1 )

ライセンス: Link先を確認
Jiahao Yu, Li Chen, (参考訳) 最近の医用画像分割法では、従来の離散グリッドベースのデータ表現の欠点に対処するため、連続座標デコードを実現するために暗黙のニューラル表現(INR)をデコーダに適用している。 しかし、INRをベースとしたデコーダは、INRの素直な潜在コード取得戦略によって引き起こされる特徴の不整合問題にうまく対応できない。 機能アライメントの作業は数多く存在するが、それらはそれぞれ、INRベースのデコーダの連続的なワンステップ特性と相容れない離散的な特徴ピラミッド上に、プログレッシブなマルチステップ整合パラダイムを採用する。 そこで本研究では,INRデコーダの特徴的不整合問題を解決するために,新しい1ステップのクエリベースの整合パラダイムであるQ2Aを提案する。 具体的には、各目標座標に対して、Q2Aはまず、座標に整列した空間オフセットとコンテキスト特徴のセル分解を描写した複数のクエリを生成し、そのクエリを新しい暗黙的完全連続特徴ピラミッド(FCFP)に入力し、対応する整列特徴を算出し、最後に、整列した特徴を融合してクラス分布を予測する。 FCFPでは,クエリセルの解像度が比較的大きい場合に発生する情報損失問題を軽減し,任意の連続分解で有効な特徴復号化を実現するため,INRにおける遅延コード取得に対する単純な補間戦略を代替する,新しいユニバーサルパーティション・アンド・アグリゲート戦略(P&A)を提案する。 本研究では,GlasとSynapseの2つの医学データセットと,Cityscapesという普遍的なデータセットについて広範な実験を行い,提案したQ2Aの優位性を示す。

Recent medical image segmentation methods apply implicit neural representation (INR) to the decoder for achieving a continuous coordinate decoding to tackle the drawback of conventional discrete grid-based data representations. However, the INR-based decoder cannot well handle the feature misalignment problem brought about by the naive latent code acquisition strategy in INR. Although there exist many feature alignment works, they all adopt a progressive multi-step aligning paradigm on a discrete feature pyramid, which is incompatible with the continuous one-step characteristics of INR-based decoder, and thus fails to be the solution. Therefore, we propose Q2A, a novel one-step query-based aligning paradigm, to solve the feature misalignment problem in the INR-based decoder. Specifically, for each target coordinate, Q2A first generates several queries depicting the spatial offsets and the cell resolutions of the contextual features aligned to the coordinate, then calculates the corresponding aligned features by feeding the queries into a novel implicit fully continuous feature pyramid (FCFP), finally fuses the aligned features to predict the class distribution. In FCFP, we further propose a novel universal partition-and-aggregate strategy (P&A) to replace the naive interpolation strategy for latent code acquisition in INR, which mitigates the information loss problem that occurs when the query cell resolution is relatively large and achieves an effective feature decoding at arbitrary continuous resolution. We conduct extensive experiments on two medical datasets, i.e. Glas and Synapse, and a universal dataset, i.e. Cityscapes, and they show the superiority of the proposed Q2A.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# TCCT-Net:行動特徴信号を用いた高速かつ効率的なエンゲージメント推定のための2ストリームネットワークアーキテクチャ

TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals ( http://arxiv.org/abs/2404.09474v1 )

ライセンス: Link先を確認
Alexander Vedernikov, Puneet Kumar, Haoyu Chen, Tapio Seppanen, Xiaobai Li, (参考訳) エンゲージメント分析は、医療、教育、広告、サービスに様々な応用を見出す。 分析に使用されるディープニューラルネットワークは複雑なアーキテクチャを持ち、大量の入力データ、計算能力、推論時間を必要とする。 これらの制約は、リアルタイム使用のためのデバイスへの組み込みシステムに挑戦する。 これらの制約に対処するために、新しい2ストリーム機能融合である"Tensor-Convolution and Convolution-Transformer Network"(TCCT-Net)アーキテクチャを提案する。 時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。 並行して、時間周波数領域からリッチなパターンを効率的に抽出し、処理速度を向上するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する"TC"ストリームを導入する。 EngageNetデータセットに基づいて評価し、提案手法は既存のベースラインよりも優れており、ベースラインモデルで使用される98と比較して2つの挙動特徴(頭部の回転)しか利用していない。 さらに、TCCT-Netのアーキテクチャは、最先端の画像ベースリカレントニューラルネットワーク(RNN)手法と比較して、推論速度のオーダー・オブ・マグニチュード改善を提供する。 コードはhttps://github.com/vedernikovphoto/TCCT_Net.comで公開される。

Engagement analysis finds various applications in healthcare, education, advertisement, services. Deep Neural Networks, used for analysis, possess complex architecture and need large amounts of input data, computational power, inference time. These constraints challenge embedding systems into devices for real-time use. To address these limitations, we present a novel two-stream feature fusion "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) architecture. To better learn the meaningful patterns in the temporal-spatial domain, we design a "CT" stream that integrates a hybrid convolutional-transformer. In parallel, to efficiently extract rich patterns from the temporal-frequency domain and boost processing speed, we introduce a "TC" stream that uses Continuous Wavelet Transform (CWT) to represent information in a 2D tensor form. Evaluated on the EngageNet dataset, the proposed method outperforms existing baselines, utilizing only two behavioral features (head pose rotations) compared to the 98 used in baseline models. Furthermore, comparative analysis shows TCCT-Net's architecture offers an order-of-magnitude improvement in inference speed compared to state-of-the-art image-based Recurrent Neural Network (RNN) methods. The code will be released at https://github.com/vedernikovphoto/TCCT_Net.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# 逆消去と擬似ラベルを用いた弱スーパービジョン物体定位の改善

Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label ( http://arxiv.org/abs/2404.09475v1 )

ライセンス: Link先を確認
Byeongkeun Kang, Sinhae Cha, Yeejin Lee, (参考訳) 弱い教師付き学習アプローチは、ニューラルネットワークのトレーニングにおいて人間のアノテーションに必要な労力を減らすことができるため、大きな注目を集めている。 本稿では、画像と画像レベルのラベルのみを用いて、オブジェクトクラスとその位置を予測できるニューラルネットワークを訓練することを目的とした、弱教師付きオブジェクトローカライゼーションのためのフレームワークについて検討する。 提案するフレームワークは,共有特徴抽出器,分類器,ローカライザから構成される。 ローカライザはピクセルレベルのクラス確率を予測し、分類器はイメージレベルでオブジェクトクラスを予測する。 画像レベルのクラスラベルはローカライザのトレーニングには不十分であるため、弱教師付きオブジェクトローカライゼーション手法は、オブジェクト領域全体を正確にローカライズする際の課題に直面することが多い。 この問題に対処するため,提案手法では,逆消去と擬似ラベルを組み込むことで,ローカライゼーションの精度を向上させる。 具体的には, 反対に消去された前景の特徴と反対に消去された特徴マップを利用するように設計され, 最も識別性の高い領域への依存を低減させる。 さらに,提案手法は擬似ラベルを用いて,前景でのアクティベーション値を増大させながら,背景のアクティベーション値を抑制する。 提案手法は2つのバックボーンネットワーク (MobileNetV1 と InceptionV3) に適用され、3つの公開データセット (ILSVRC-2012, CUB-200-2011, PASCAL VOC 2012) で評価される。 実験結果から,提案手法は従来手法よりも高い性能を示した。

Weakly-supervised learning approaches have gained significant attention due to their ability to reduce the effort required for human annotations in training neural networks. This paper investigates a framework for weakly-supervised object localization, which aims to train a neural network capable of predicting both the object class and its location using only images and their image-level class labels. The proposed framework consists of a shared feature extractor, a classifier, and a localizer. The localizer predicts pixel-level class probabilities, while the classifier predicts the object class at the image level. Since image-level class labels are insufficient for training the localizer, weakly-supervised object localization methods often encounter challenges in accurately localizing the entire object region. To address this issue, the proposed method incorporates adversarial erasing and pseudo labels to improve localization accuracy. Specifically, novel losses are designed to utilize adversarially erased foreground features and adversarially erased feature maps, reducing dependence on the most discriminative region. Additionally, the proposed method employs pseudo labels to suppress activation values in the background while increasing them in the foreground. The proposed method is applied to two backbone networks (MobileNetV1 and InceptionV3) and is evaluated on three publicly available datasets (ILSVRC-2012, CUB-200-2011, and PASCAL VOC 2012). The experimental results demonstrate that the proposed method outperforms previous state-of-the-art methods across all evaluated metrics.
翻訳日:2024-04-16 13:29:14 公開日:2024-04-15
# FreqMamba: 画像レイニングの周波数視点からMambaを見る

FreqMamba: Viewing Mamba from a Frequency Perspective for Image Deraining ( http://arxiv.org/abs/2404.09476v1 )

ライセンス: Link先を確認
Zou Zhen, Yu Hu, Zhao Feng, (参考訳) 雨害による画像の劣化は、知覚に欠かせない周波数情報を失うことが多く、画像のデライン化は、グローバルおよび局所的な劣化モデリングに依存するこの問題を解決することを目的としている。 近年の研究では、パッチ間の局所的相関を利用して、グローバルおよびローカルな情報を知覚するためのMambaの有効性と効率が指摘されているが、画像デラリニングの周波数解析による拡張の試みは稀であり、周波数モデリング(例えばフーリエ変換)に関連するグローバルな劣化を知覚する能力が制限されている。 本稿では,マンバと周波数解析の相補性を利用した画像デライニングの効率的かつ効率的なパラダイムであるFreqMambaを提案する。 本手法のコアとなるのは,周波数相関を利用する周波数帯域の拡張と,大域的劣化モデリングのためのフーリエ変換の2つの観点からの周波数解析によるマンバの拡張である。 具体的には、FreqMambaは空間マンバ、周波数帯域マンバ、フーリエグローバルモデリングなどの相補的な3重相互作用構造を導入している。 周波数帯域のMambaは、画像を異なる周波数のサブバンドに分解し、周波数次元から2Dスキャンを可能にする。 さらに、Mambaのユニークなデータ依存特性を活用して、異なるスケールの雨画像を用いて、ネットワークに先立って劣化をもたらすことにより、効率的なトレーニングを容易にする。 広汎な実験により,本手法は視覚的,定量的に最先端の手法より優れていることが示された。

Images corrupted by rain streaks often lose vital frequency information for perception, and image deraining aims to solve this issue which relies on global and local degradation modeling. Recent studies have witnessed the effectiveness and efficiency of Mamba for perceiving global and local information based on its exploiting local correlation among patches, however, rarely attempts have been explored to extend it with frequency analysis for image deraining, limiting its ability to perceive global degradation that is relevant to frequency modeling (e.g. Fourier transform). In this paper, we propose FreqMamba, an effective and efficient paradigm that leverages the complementary between Mamba and frequency analysis for image deraining. The core of our method lies in extending Mamba with frequency analysis from two perspectives: extending it with frequency-band for exploiting frequency correlation, and connecting it with Fourier transform for global degradation modeling. Specifically, FreqMamba introduces complementary triple interaction structures including spatial Mamba, frequency band Mamba, and Fourier global modeling. Frequency band Mamba decomposes the image into sub-bands of different frequencies to allow 2D scanning from the frequency dimension. Furthermore, leveraging Mamba's unique data-dependent properties, we use rainy images at different scales to provide degradation priors to the network, thereby facilitating efficient training. Extensive experiments show that our method outperforms state-of-the-art methods both visually and quantitatively.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# ドメイン間相互情報を用いた抽象要約における幻覚の緩和

Mitigating Hallucination in Abstractive Summarization with Domain-Conditional Mutual Information ( http://arxiv.org/abs/2404.09480v1 )

ライセンス: Link先を確認
Kyubyung Chae, Jaepill Choi, Yohan Jo, Taesup Kim, (参考訳) 抽象的な要約の第一の課題は幻覚であり、モデルが原文に欠落した可塑性テキストを生成する現象である。 我々は、ソーステキストのドメイン(またはトピック)がモデルにトリガーを与え、ドメイン内で高い確率のテキストを生成し、ソーステキストの詳細を無視する仮説を立てる。 このモデルバイアスを軽減するために、ドメイン条件のポイントワイド相互情報に基づくデコード戦略を導入する。 この戦略は、各トークンの生成確率を、ソーステキストの領域内のトークンの限界確率と比較することによって調整する。 XSUMデータセットの評価により,本手法は忠実度とソース関連性の観点から改善を示す。 コードは \url{https://github.com/qqplot/dcpmi} で公開されている。

A primary challenge in abstractive summarization is hallucination -- the phenomenon where a model generates plausible text that is absent in the source text. We hypothesize that the domain (or topic) of the source text triggers the model to generate text that is highly probable in the domain, neglecting the details of the source text. To alleviate this model bias, we introduce a decoding strategy based on domain-conditional pointwise mutual information. This strategy adjusts the generation probability of each token by comparing it with the token's marginal probability within the domain of the source text. According to evaluation on the XSUM dataset, our method demonstrates improvement in terms of faithfulness and source relevance. The code is publicly available at \url{https://github.com/qqplot/dcpmi}.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# MMCode:視覚的にリッチなプログラミング問題を伴うマルチモーダルコード大言語モデルの評価

MMCode: Evaluating Multi-Modal Code Large Language Models with Visually Rich Programming Problems ( http://arxiv.org/abs/2404.09486v1 )

ライセンス: Link先を確認
Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Jing Ma, (参考訳) プログラミングはしばしば、詳細で複雑な仕様をコードに変換することを含みます。 近年の大規模マルチモーダルモデルの開発は視覚的推論や数学的タスクにおいて顕著な能力を示しているが、これらのモデルがコード生成の視覚的要素を効果的に解釈できるかどうかについてはほとんど研究されていない。 この目的のために,視覚的にリッチな文脈において,アルゴリズムによる問題解決能力を評価するための,最初のマルチモーダル符号化データセットであるMMCodeを提案する。 MMCodeには3,548の質問と6,620の画像が含まれている。 実験の結果,現在の最先端モデルはこれらの問題を解決するのに苦労していることがわかった。 この結果は、強力なビジョンコードモデルの欠如を浮き彫りにしています。 データとコードはhttps://github.com/happylkx/MMCode.comで公開されている。

Programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in visual reasoning and mathematical tasks, there is little work on investigating whether these models can effectively interpret visual elements for code generation. To this end, we present MMCode, the first multi-modal coding dataset for evaluating algorithmic problem-solving skills in visually rich contexts. MMCode contains 3,548 questions and 6,620 images collected from real-world programming challenges harvested from 10 code competition websites, presenting significant challenges due to the extreme demand for reasoning abilities. Our experiment results show that current state-of-the-art models struggle to solve these problems. The results highlight the lack of powerful vision-code models, and we hope MMCode can serve as an inspiration for future works in this domain. The data and code are publicly available at https://github.com/happylkx/MMCode.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 量子最適制御理論に基づく飛行量子ビットの整形

The Shaping of Flying Qubits based on Quantum Optimal Control Theory ( http://arxiv.org/abs/2404.09487v1 )

ライセンス: Link先を確認
Xue Dong, Xi Cao, Wen-Long Li, Guofeng Zhang, Zhihui Peng, Re-Bing Wu, (参考訳) 反復光子によって運ばれる飛行量子ビットの制御は、量子通信ネットワークにおいてユビキタスである。 それらの論理状態に加えて、飛行キュービットの形状はリモート受信機に合わせて調整する必要がある。 本稿では,フライングキュービット整形プロトコルの設計に量子最適制御理論を導入する。 一般の非イデアルエミッタを用いた任意の形状のフライングキュービットを生成するための勾配に基づくアルゴリズムを提案する。 シミュレーションにより、従来のチューナブルカプラとの結合制御により、結合強度が固定されたり制限されたりした場合、コヒーレントな駆動場が形状に応用できることが示されている。 最適化された制御プロトコルは、望ましくないレベルのリークと多光子放射を効果的に抑制することができる。 この方法は、現実的な量子デバイスを用いた飛行量子ビットの高忠実度制御に対する体系的なアプローチを提供する。

The control of flying qubits carried by itinerant photons is ubiquitous in quantum communication networks. In addition to their logical states, the shape of flying qubits must also be tailored to match the remote receiver. In this paper, we introduce the quantum optimal control theory to the design of flying-qubit shaping protocols. A gradient-based algorithm is proposed for the generation of arbitrary-shape flying qubits with general non-ideal emitters. Simulations show that, as a joint control with the traditionally used tunable coupler, coherent driving fields can be applied to the shaping when the coupling strength is fixed or limited. The optimized control protocols can effectively suppress unwanted level leakage and multi-photon radiation. The method provides a systematic approach to high-fidelity control of flying qubits using realistic quantum devices.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 映像行動認識のための時間的文脈化の活用

Leveraging Temporal Contextualization for Video Action Recognition ( http://arxiv.org/abs/2404.09490v1 )

ライセンス: Link先を確認
Minji Kim, Dongyoon Han, Taekyung Kim, Bohyung Han, (参考訳) 事前訓練された視覚言語モデルは、ビデオ理解において有効であることが示されている。 しかし、近年の研究では、フレーム単位の表現を単純に平均化したり、連続したフレームを参照したりすることで、ビデオから必須の時間情報を十分に活用していない。 ビデオ理解の先駆的フレームワークであるTemporally Contextualized CLIP(TC-CLIP)を導入し,包括的映像情報の有効かつ効率的に活用する。 本稿では,各フレームからコア情報を抽出し,関連情報を相互に関連付けてコンテクストトークンに要約し,最終的に特徴符号化プロセスにおいてコンテキストトークンを活用する,ビデオの階層的時間情報注入機構であるTemporal Contextualization(TC)を提案する。 さらに,ビデオ条件プロンプティング(VP)モジュールはコンテキストトークンを生成し,テキストのモダリティで情報的プロンプトを生成する。 我々は,TC-CLIPの優位性を検証するため,ゼロショット,少数ショット,ベース・ツー・ノーベル,完全教師付きアクション認識において広範な実験を行う。 TCとVPのアブレーション研究は、私たちの設計選択を保証します。 コードはhttps://github.com/naver-ai/tc-clipで入手できる。

Pretrained vision-language models have shown effectiveness in video understanding. However, recent studies have not sufficiently leveraged essential temporal information from videos, simply averaging frame-wise representations or referencing consecutive frames. We introduce Temporally Contextualized CLIP (TC-CLIP), a pioneering framework for video understanding that effectively and efficiently leverages comprehensive video information. We propose Temporal Contextualization (TC), a novel layer-wise temporal information infusion mechanism for video that extracts core information from each frame, interconnects relevant information across the video to summarize into context tokens, and ultimately leverages the context tokens during the feature encoding process. Furthermore, our Video-conditional Prompting (VP) module manufactures context tokens to generate informative prompts in text modality. We conduct extensive experiments in zero-shot, few-shot, base-to-novel, and fully-supervised action recognition to validate the superiority of our TC-CLIP. Ablation studies for TC and VP guarantee our design choices. Code is available at https://github.com/naver-ai/tc-clip
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 大規模言語モデルによる数ショットタブラリ学習のための機能の自動設計

Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning ( http://arxiv.org/abs/2404.09491v1 )

ライセンス: Link先を確認
Sungwon Han, Jinsung Yoon, Sercan O Arik, Tomas Pfister, (参考訳) 大きな言語モデル(LLM)は、挑戦的で目に見えない推論問題に対処する驚くべき能力を持つため、多くの現実世界のアプリケーションにとって欠かせない表型学習の可能性を秘めている。 本稿では,LLMを機能エンジニアとして用い,表形式での予測に最適な入力データセットを作成するための,新しい文脈内学習フレームワークFeatLLMを提案する。 生成された特徴は、線形回帰のような単純な下流機械学習モデルでクラス確率を推測するために使用され、高性能な数ショット学習をもたらす。 提案されているFeatLLMフレームワークは、この単純な予測モデルのみを使用し、推論時に検出された機能を使用する。 既存のLLMベースのアプローチと比較して、FeatLLMは推論時に各サンプルに対してLLMにクエリを送信する必要をなくしている。 さらに、単にLLMへのAPIレベルのアクセスを必要とし、迅速なサイズ制限を克服するだけだ。 FeatLLMは、広範囲のドメインから得られた多数の表形式のデータセットで実証されているように、高品質なルールを生成し、TabLLMやSTUNTなどよりもはるかに(平均で10%)優れた代替手段を生成する。

Large Language Models (LLMs), with their remarkable ability to tackle challenging and unseen reasoning problems, hold immense potential for tabular learning, that is vital for many real-world applications. In this paper, we propose a novel in-context learning framework, FeatLLM, which employs LLMs as feature engineers to produce an input data set that is optimally suited for tabular predictions. The generated features are used to infer class likelihood with a simple downstream machine learning model, such as linear regression and yields high performance few-shot learning. The proposed FeatLLM framework only uses this simple predictive model with the discovered features at inference time. Compared to existing LLM-based approaches, FeatLLM eliminates the need to send queries to the LLM for each sample at inference time. Moreover, it merely requires API-level access to LLMs, and overcomes prompt size limitations. As demonstrated across numerous tabular datasets from a wide range of domains, FeatLLM generates high-quality rules, significantly (10% on average) outperforming alternatives such as TabLLM and STUNT.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 分散データを用いたオンラインモデル選択における協調の必要性について

On the Necessity of Collaboration in Online Model Selection with Decentralized Data ( http://arxiv.org/abs/2404.09494v1 )

ライセンス: Link先を確認
Junfan Li, Zenglin Xu, Zheshun Wu, Irwin King, (参考訳) 我々は、100万ドル以上のクライアントに分散化されたデータを用いたオンラインモデル選択について検討し、コラボレーションの必要性という根本的な問題について研究する。 過去の作業は、最悪のケースの後悔の最小化の観点から否定的な答えを与えましたが、後悔の計算コストのトレードオフの観点からは、別の答えを与えました。 我々は、コミュニケーション制約のないフェデレーション付きアルゴリズムを別々に提案し、後悔する境界を証明した。 (i)各クライアントの計算コストを制限しない場合は、協力は不要である。 (ii)各クライアントの計算コストを$o(K)$に制限した場合、$K$は仮説空間の候補数である。 副産物として,分散オンラインマルチカーネル学習におけるアルゴリズムの残差を,より少ない計算・通信コストで改善する。 我々のアルゴリズムは、マーチンゲールに対するバーンスタインの不等式の改善、フェデレートされたアルゴリズムフレームワークFOMD-No-LU、モデル選択と予測の分離という3つの新しい手法に依存している。

We consider online model selection with decentralized data over $M$ clients, and study a fundamental problem: the necessity of collaboration. Previous work gave a negative answer from the perspective of worst-case regret minimization, while we give a different answer from the perspective of regret-computational cost trade-off. We separately propose a federated algorithm with and without communication constraint and prove regret bounds that show (i) collaboration is unnecessary if we do not limit the computational cost on each client; (ii) collaboration is necessary if we limit the computational cost on each client to $o(K)$, where $K$ is the number of candidate hypothesis spaces. As a by-product, we improve the regret bounds of algorithms for distributed online multi-kernel learning at a smaller computational and communication cost. Our algorithms rely on three new techniques, i.e., an improved Bernstein's inequality for martingale, a federated algorithmic framework, named FOMD-No-LU, and decoupling model selection and predictions, which might be of independent interest.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 協調型自動運転を目指して:シミュレーションプラットフォームとエンド・ツー・エンドシステム

Towards Collaborative Autonomous Driving: Simulation Platform and End-to-End System ( http://arxiv.org/abs/2404.09496v1 )

ライセンス: Link先を確認
Genjia Liu, Yue Hu, Chenxin Xu, Weibo Mao, Junhao Ge, Zhengxiang Huang, Yifan Lu, Yinda Xu, Junkai Xia, Yafei Wang, Siheng Chen, (参考訳) 自動運転車(V2X-AD)は、より安全な運転ソリューションを提供する大きな可能性を秘めている。 V2X-ADをサポートするための輸送と通信に関する広範な研究にもかかわらず、これらのインフラと通信資源の実際の利用は、運転性能の向上に大きく貢献している。 情報共有戦略を最適化し、各車両の運転性能を改善する機械学習アプローチである。 この取り組みには、V2X-ADのトレーニングとテストを容易にするためにデータを生成するプラットフォームと、完全な運転関連機能と情報共有のメカニズムを統合する包括的なシステムという、2つの重要な基盤が必要である。 プラットフォームの観点からは、協調自動運転のための総合シミュレーションプラットフォームであるV2Xverseを紹介する。 このプラットフォームは、協調運転のための完全なパイプラインを提供する。 システムの観点からは、自律パイプライン全体のV2X通信を適切に統合し、共有知覚情報による運転を促進する、新しいエンドツーエンド協調運転システムであるCoDrivingを紹介する。 中心となる考え方は、新しい運転指向のコミュニケーション戦略である。 この戦略を活用することで、CoDrivingは通信効率を最適化しながら、運転性能を改善します。 V2Xverseで包括的なベンチマークを行い、モジュール性能と閉ループ駆動性能の両方を分析した。 実験結果からCoDrivingが判明した。 i) 運転スコアを62.49%改善し、SOTAのエンドツーエンド運転法と比較して、歩行者衝突率を53.50%大幅に低下させ、 二 動的制約通信条件よりも運転性能の維持を図ること。

Vehicle-to-everything-aided autonomous driving (V2X-AD) has a huge potential to provide a safer driving solution. Despite extensive researches in transportation and communication to support V2X-AD, the actual utilization of these infrastructures and communication resources in enhancing driving performances remains largely unexplored. This highlights the necessity of collaborative autonomous driving: a machine learning approach that optimizes the information sharing strategy to improve the driving performance of each vehicle. This effort necessitates two key foundations: a platform capable of generating data to facilitate the training and testing of V2X-AD, and a comprehensive system that integrates full driving-related functionalities with mechanisms for information sharing. From the platform perspective, we present V2Xverse, a comprehensive simulation platform for collaborative autonomous driving. This platform provides a complete pipeline for collaborative driving. From the system perspective, we introduce CoDriving, a novel end-to-end collaborative driving system that properly integrates V2X communication over the entire autonomous pipeline, promoting driving with shared perceptual information. The core idea is a novel driving-oriented communication strategy. Leveraging this strategy, CoDriving improves driving performance while optimizing communication efficiency. We make comprehensive benchmarks with V2Xverse, analyzing both modular performance and closed-loop driving performance. Experimental results show that CoDriving: i) significantly improves the driving score by 62.49% and drastically reduces the pedestrian collision rate by 53.50% compared to the SOTA end-to-end driving method, and ii) achieves sustaining driving performance superiority over dynamic constraint communication conditions.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# FusionMamba: Mambaを用いたマルチモーダル画像融合のための動的特徴強調

FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba ( http://arxiv.org/abs/2404.09498v1 )

ライセンス: Link先を確認
Xinyu Xie, Yawen Cui, Chio-In Ieong, Tao Tan, Xiaozhi Zhang, Xubin Zheng, Zitong Yu, (参考訳) マルチモーダル画像融合は、異なるモードの情報を組み合わせて、包括的な情報と詳細なテクスチャを持つ単一の画像を作成することを目的としている。 しかし、畳み込みニューラルネットワークに基づく融合モデルは、局所畳み込み操作に焦点をあてたため、グローバルな画像の特徴を捉える際の限界に直面する。 トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。 近年、Selective Structured State Space Modelは、線形複雑度を持つ長距離依存モデリングにおいて重要な可能性を示し、上記のジレンマに対処するための有望な道を提供する。 本稿では,マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。 具体的には,画像融合のための効率的なマンバモデルを提案し,動的畳み込みとチャネルアテンションによる効率的な視覚状態空間モデルを統合する。 この改良されたモデルは、Mambaの性能とグローバルモデリング能力だけでなく、局所的な拡張能力を高めながらチャネルの冗長性を低下させる。 さらに,2つの動的特徴拡張モジュール (DFEM) と相互モード融合マンバモジュール (CMFM) からなる動的特徴融合モジュール (DFFM) を考案した。 前者は動的テクスチャ強化と動的差分知覚に役立ち、後者はモード間の相関性を高め、冗長なモーダル情報を抑制する。 FusionMambaは、様々なマルチモーダル画像融合タスク(CT-MRI、PET-MRI、SPECT-MRI)、赤外線および可視画像融合タスク(IR-VIS)、多モーダルバイオメディカル画像融合データセット(GFP-PC)にまたがって、最先端のSOTA(State-of-the-art)性能を実現した。 FusionMambaのコードはhttps://github.com/millieXie/FusionMamba.comで公開されている。

Multi-modal image fusion aims to combine information from different modes to create a single image with comprehensive information and detailed textures. However, fusion models based on convolutional neural networks encounter limitations in capturing global image features due to their focus on local convolution operations. Transformer-based models, while excelling in global feature modeling, confront computational challenges stemming from their quadratic complexity. Recently, the Selective Structured State Space Model has exhibited significant potential for long-range dependency modeling with linear complexity, offering a promising avenue to address the aforementioned dilemma. In this paper, we propose FusionMamba, a novel dynamic feature enhancement method for multimodal image fusion with Mamba. Specifically, we devise an improved efficient Mamba model for image fusion, integrating efficient visual state space model with dynamic convolution and channel attention. This refined model not only upholds the performance of Mamba and global modeling capability but also diminishes channel redundancy while enhancing local enhancement capability. Additionally, we devise a dynamic feature fusion module (DFFM) comprising two dynamic feature enhancement modules (DFEM) and a cross modality fusion mamba module (CMFM). The former serves for dynamic texture enhancement and dynamic difference perception, whereas the latter enhances correlation features between modes and suppresses redundant intermodal information. FusionMamba has yielded state-of-the-art (SOTA) performance across various multimodal medical image fusion tasks (CT-MRI, PET-MRI, SPECT-MRI), infrared and visible image fusion task (IR-VIS) and multimodal biomedical image fusion dataset (GFP-PC), which is proved that our model has generalization ability. The code for FusionMamba is available at https://github.com/millieXie/FusionMamba.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# クロスモーダルマニフォールドアライメントによるモノクロ映像からの人間の動きの学習

Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment ( http://arxiv.org/abs/2404.09499v1 )

ライセンス: Link先を確認
Shuaiying Hou, Hongyu Tao, Junheng Fang, Changqing Zou, Hujun Bao, Weiwei Xu, (参考訳) 2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。 従来の多くの手法は、学習プロセスに動きの先入観を導入することによって、本質的にあいまいなタスクに支障をきたす。 しかし、これらのアプローチは、そのような前の完全な構成を定義したり、堅牢なモデルを訓練する際の困難に直面します。 本稿では,3次元モーションと2次元インプット,すなわちビデオと2次元キーポイントの相互ラテント特徴空間アライメントにより,動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。 動作先行のモデル化の複雑さを軽減するため,上半身と下半身の動作データを別々にモデル化する。 さらに,動作データをスケール不変の仮想骨格と整列させて,人間の骨格変動と動き先行との干渉を軽減する。 AIST++に基づいて評価され、VTMはモノクロビデオから3Dの人間の動きを再構築する最先端のパフォーマンスを示す。 特に,我々のVTMは,視野角や眼球内ビデオの一般化機能を示す。

Learning 3D human motion from 2D inputs is a fundamental task in the realms of computer vision and computer graphics. Many previous methods grapple with this inherently ambiguous task by introducing motion priors into the learning process. However, these approaches face difficulties in defining the complete configurations of such priors or training a robust model. In this paper, we present the Video-to-Motion Generator (VTM), which leverages motion priors through cross-modal latent feature space alignment between 3D human motion and 2D inputs, namely videos and 2D keypoints. To reduce the complexity of modeling motion priors, we model the motion data separately for the upper and lower body parts. Additionally, we align the motion data with a scale-invariant virtual skeleton to mitigate the interference of human skeleton variations to the motion priors. Evaluated on AIST++, the VTM showcases state-of-the-art performance in reconstructing 3D human motion from monocular videos. Notably, our VTM exhibits the capabilities for generalization to unseen view angles and in-the-wild videos.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# SparseOcc:視覚に基づく意味的活動予測のためのスパース潜在表現の再考

SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction ( http://arxiv.org/abs/2404.09502v1 )

ライセンス: Link先を確認
Pin Tang, Zhongdao Wang, Guoqing Wang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma, (参考訳) 自律運転のための視覚に基づく知覚は、3次元空間の明示的なモデリングを必要とし、そこでは2次元潜在表現がマップされ、その後の3次元演算子が適用される。 しかし、密度の高い潜在空間上での操作は、知覚範囲や空間解像度の点でスケーラビリティを制限する3次時間と空間の複雑さをもたらす。 既存のアプローチは、Bird's Eye View (BEV) や Tri-Perspective View (TPV) のような投影を用いて、密度の高い表現を圧縮する。 これらのプロジェクションは効率的ではあるが、特にセマンティック占有率予測のようなタスクにおいて、情報損失をもたらす。 そこで我々は,スパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。 3つの重要な革新と共に、損失のないスパースな潜在表現を利用する。 まず、3Dスパースディフューザは、空間的に分解された3Dスパース畳み込みカーネルを用いて遅延補完を行う。 第二に、特徴ピラミッドとスパース補間により、他人の情報によってスケールが向上する。 最後に、トランスヘッドはスパース変種として再設計される。 SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。 興味深いことに、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。

Vision-based perception for autonomous driving requires an explicit modeling of a 3D space, where 2D latent representations are mapped and subsequent 3D operators are applied. However, operating on dense latent spaces introduces a cubic time and space complexity, which limits scalability in terms of perception range or spatial resolution. Existing approaches compress the dense representation using projections like Bird's Eye View (BEV) or Tri-Perspective View (TPV). Although efficient, these projections result in information loss, especially for tasks like semantic occupancy prediction. To address this, we propose SparseOcc, an efficient occupancy network inspired by sparse point cloud processing. It utilizes a lossless sparse latent representation with three key innovations. Firstly, a 3D sparse diffuser performs latent completion using spatially decomposed 3D sparse convolutional kernels. Secondly, a feature pyramid and sparse interpolation enhance scales with information from others. Finally, the transformer head is redesigned as a sparse variant. SparseOcc achieves a remarkable 74.9% reduction on FLOPs over the dense baseline. Interestingly, it also improves accuracy, from 12.8% to 14.1% mIOU, which in part can be attributed to the sparse representation's ability to avoid hallucinations on empty voxels.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 単一点アノテーションによる追跡表現の学習

Learning Tracking Representations from Single Point Annotations ( http://arxiv.org/abs/2404.09504v1 )

ライセンス: Link先を確認
Qiangqiang Wu, Antoni B. Chan, (参考訳) 既存のディープトラッカーは通常、注釈付きバウンディングボックスを備えた大規模なビデオフレームで訓練される。 しかし、これらのバウンディングボックスは高価でアノテートに時間がかかる。 本稿では,単一点アノテーション(従来のバウンディングボックスよりも4.5倍高速なアノテート)から追跡表現を弱教師付きで学習することを提案する。 具体的には,対象対象の目的性をエンドツーエンドのコントラスト学習に組み込むソフトコントラスト学習(SoCL)フレームワークを提案する。 我々のSoCLは適応型正と負のサンプル生成で構成されており、これはメモリ効率が高く、トラッキング表現の学習に有効である。 我々は,SoCLの学習表現を視覚的追跡に適用し,その方法が可能であることを示す。 1)同じアノテーションの時間コストでボックスアノテーションでトレーニングされた完全に教師されたベースラインよりも優れたパフォーマンスを達成する。 2 同じ数のトレーニングフレームを用いて、アノテーションの時間コストを78%削減し、総料金を85%削減することにより、完全に監督されたベースラインの同等の性能を達成する。 3)アノテーションノイズに対して頑健である。

Existing deep trackers are typically trained with largescale video frames with annotated bounding boxes. However, these bounding boxes are expensive and time-consuming to annotate, in particular for large scale datasets. In this paper, we propose to learn tracking representations from single point annotations (i.e., 4.5x faster to annotate than the traditional bounding box) in a weakly supervised manner. Specifically, we propose a soft contrastive learning (SoCL) framework that incorporates target objectness prior into end-to-end contrastive learning. Our SoCL consists of adaptive positive and negative sample generation, which is memory-efficient and effective for learning tracking representations. We apply the learned representation of SoCL to visual tracking and show that our method can 1) achieve better performance than the fully supervised baseline trained with box annotations under the same annotation time cost; 2) achieve comparable performance of the fully supervised baseline by using the same number of training frames and meanwhile reducing annotation time cost by 78% and total fees by 85%; 3) be robust to annotation noise.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# ファシビリティ・アウェア・仲介者マッチングによる衣服交換者の再同定

Clothes-Changing Person Re-Identification with Feasibility-Aware Intermediary Matching ( http://arxiv.org/abs/2404.09507v1 )

ライセンス: Link先を確認
Jiahe Zhao, Ruibing Hou, Hong Chang, Xinqian Gu, Bingpeng Ma, Shiguang Shan, Xilin Chen, (参考訳) 現在の衣服変更者の再識別(re-id)アプローチは、通常、衣服関連の特徴に基づいて検索を行うが、衣服関連の特徴の可能性を無視する。 しかし,衣料品に関係のない特徴にのみ依存することは,適切なアイデンティティ情報を欠くことが多く,クラス内での大きなバリエーションに悩まされることがしばしばあるため,限定的である。 それとは対照的に、衣服に関連する特徴は、情報的アイデンティティーの手がかりを持つ同一の衣服の仲介者を見つけるために利用することができる。 そこで本研究では,衣服関連機能を付加的に活用するFAIM(Feasibility-Aware Intermediary Matching)フレームワークを提案する。 まず、中間マッチング(IM)モジュールは、中間マッチングプロセスを実行するように設計されている。 このプロセスは、情報中間体を見つけるために衣服関連の特徴を使い、その中間体の衣服関連の特徴を使ってマッチングを完了させる。 第二に、低品質な仲介者の負の効果を低減するため、仲介者の品質を評価することにより、仲介者マッチングプロセスの実現可能性を評価するために、IBFW(Intermediary-Based Feasibility Weighting)モジュールが設計されている。 広範に使用されている衣服変化型re-idベンチマークにおいて,本手法が最先端の手法より優れていることを示す。

Current clothes-changing person re-identification (re-id) approaches usually perform retrieval based on clothes-irrelevant features, while neglecting the potential of clothes-relevant features. However, we observe that relying solely on clothes-irrelevant features for clothes-changing re-id is limited, since they often lack adequate identity information and suffer from large intra-class variations. On the contrary, clothes-relevant features can be used to discover same-clothes intermediaries that possess informative identity clues. Based on this observation, we propose a Feasibility-Aware Intermediary Matching (FAIM) framework to additionally utilize clothes-relevant features for retrieval. Firstly, an Intermediary Matching (IM) module is designed to perform an intermediary-assisted matching process. This process involves using clothes-relevant features to find informative intermediates, and then using clothes-irrelevant features of these intermediates to complete the matching. Secondly, in order to reduce the negative effect of low-quality intermediaries, an Intermediary-Based Feasibility Weighting (IBFW) module is designed to evaluate the feasibility of intermediary matching process by assessing the quality of intermediaries. Extensive experiments demonstrate that our method outperforms state-of-the-art methods on several widely-used clothes-changing re-id benchmarks.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# マルチモーダルエンコーダによる対面音声アソシエーション学習の改善

Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder ( http://arxiv.org/abs/2404.09509v1 )

ライセンス: Link先を確認
Chong Peng, Liqiang He, Dan Su, (参考訳) 今日では、声と顔の関係を学ぶ上で多くの成果がある。 しかしながら、従来の作業モデルは、対照的な学習の後、声と顔の類似性を評価するために、コサイン類似性やL2距離に依存し、その後、検索やマッチングタスクに適用される。 この方法では、埋め込みを高次元ベクトルとしてのみ考慮し、利用可能な情報の最小範囲を利用する。 本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。 コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。 さらに,効果的なペア選択手法を導入することで,コントラスト学習とマッチングタスクの両方の学習結果を向上する。 実験的な証拠は、我々のフレームワークが、音声照合、検証、検索タスク、検証を約3%改善、マッチングを約2.5%改善、検索を約1.3%改善したことを示す。

Today, there have been many achievements in learning the association between voice and face. However, most previous work models rely on cosine similarity or L2 distance to evaluate the likeness of voices and faces following contrastive learning, subsequently applied to retrieval and matching tasks. This method only considers the embeddings as high-dimensional vectors, utilizing a minimal scope of available information. This paper introduces a novel framework within an unsupervised setting for learning voice-face associations. By employing a multimodal encoder after contrastive learning and addressing the problem through binary classification, we can learn the implicit information within the embeddings in a more effective and varied manner. Furthermore, by introducing an effective pair selection method, we enhance the learning outcomes of both contrastive learning and the matching task. Empirical evidence demonstrates that our framework achieves state-of-the-art results in voice-face matching, verification, and retrieval tasks, improving verification by approximately 3%, matching by about 2.5%, and retrieval by around 1.3%.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# 波に耳を傾ける:ヒト聴覚系の神経モデルを用いた海洋波の予測

Listen to the Waves: Using a Neuronal Model of the Human Auditory System to Predict Ocean Waves ( http://arxiv.org/abs/2404.09510v1 )

ライセンス: Link先を確認
Artur Matysiak, Volker Roeber, Henrik Kalisch, Reinhard König, Patrick J. C. May, (参考訳) ニューラルネットワーク(ANN)は、1940年代の脳機能の原始モデルから、人工知能のツールへと進化してきた。 それらは多くのユニット、人工ニューロンから構成され、重み付けされた接続を介して相互に繋がる。 ANNは接続重みを変更する学習ルールを通じてタスクを実行するように訓練されている。 これらのルールが研究の焦点となっているため、ANNは神経科学とは独立して開発された機械学習の分野となっている。 真にインテリジェントな機械の開発に必要とされているが、神経科学のANNへの統合はいまだに無視された提案である。 ここでは、生物学的原理に沿ってANNを設計すると、タスク性能が大幅に向上することを示す。 実世界の課題として,様々な海洋活動に欠かせないリアルタイムの海洋波予測を選択する。 一つの場所で測定された海波と耳ドラムに届く音波の類似性から、我々は脳の聴覚系に似たエコー状態ネットワークを再設計した。 これにより、計算に精通し、ネットワークパラメータに関して堅牢で、広範囲の海状態にわたって効率的に機能する強力な予測ツールが得られる。 以上の結果から,ニューロサイエンスと機械学習の統合の利点が示され,海洋波からの温室効果ガス生産に有用なツールが提供される。

Artificial neural networks (ANNs) have evolved from the 1940s primitive models of brain function to become tools for artificial intelligence. They comprise many units, artificial neurons, interlinked through weighted connections. ANNs are trained to perform tasks through learning rules that modify the connection weights. With these rules being in the focus of research, ANNs have become a branch of machine learning developing independently from neuroscience. Although likely required for the development of truly intelligent machines, the integration of neuroscience into ANNs has remained a neglected proposition. Here, we demonstrate that designing an ANN along biological principles results in drastically improved task performance. As a challenging real-world problem, we choose real-time ocean-wave prediction which is essential for various maritime operations. Motivated by the similarity of ocean waves measured at a single location to sound waves arriving at the eardrum, we redesign an echo state network to resemble the brain's auditory system. This yields a powerful predictive tool which is computationally lean, robust with respect to network parameters, and works efficiently across a wide range of sea states. Our results demonstrate the advantages of integrating neuroscience with machine learning and offer a tool for use in the production of green energy from ocean waves.
翻訳日:2024-04-16 13:19:30 公開日:2024-04-15
# Magic Clothing: 制御可能なガーメント駆動画像合成

Magic Clothing: Controllable Garment-Driven Image Synthesis ( http://arxiv.org/abs/2404.09512v1 )

ライセンス: Link先を確認
Weifeng Chen, Tao Gu, Yuhao Xu, Chengcai Chen, (参考訳) 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。 多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目的として、画像制御性は最も重要な問題であり、例えば、衣服の詳細を保存し、テキストプロンプトへの忠実性を維持することである。 この目的のために, 被服の特徴を捉えた衣服抽出装置を導入し, 自己注意融合を用いて, 予め訓練したLCDに組み込むことにより, 被服の詳細が目標キャラクタに変化しないことを保証した。 そして, 共同分類器フリーガイダンスを利用して, 生成した結果に対して, 衣服の特徴とテキストプロンプトのバランスをとる。 一方,提案する衣料抽出器は様々な微調整 LDM に適用可能なプラグインモジュールであり,制御ネットやIP-Adapter といった他の拡張と組み合わせることで,生成した文字の多様性と制御性を高めることができる。 さらに,対象画像と被写体との整合性を評価するための頑健な指標であるMatched-Points-LPIPS (MP-LPIPS) を設計した。 広汎な実験により, 衣服駆動画像合成のための様々な条件制御の下で, 我々のマジック・クローチングが最先端の成果を達成できることが証明された。 ソースコードはhttps://github.com/ShineChen1024/MagicClothing.comで公開されています。

We propose Magic Clothing, a latent diffusion model (LDM)-based network architecture for an unexplored garment-driven image synthesis task. Aiming at generating customized characters wearing the target garments with diverse text prompts, the image controllability is the most critical issue, i.e., to preserve the garment details and maintain faithfulness to the text prompts. To this end, we introduce a garment extractor to capture the detailed garment features, and employ self-attention fusion to incorporate them into the pretrained LDMs, ensuring that the garment details remain unchanged on the target character. Then, we leverage the joint classifier-free guidance to balance the control of garment features and text prompts over the generated results. Meanwhile, the proposed garment extractor is a plug-in module applicable to various finetuned LDMs, and it can be combined with other extensions like ControlNet and IP-Adapter to enhance the diversity and controllability of the generated characters. Furthermore, we design Matched-Points-LPIPS (MP-LPIPS), a robust metric for evaluating the consistency of the target image to the source garment. Extensive experiments demonstrate that our Magic Clothing achieves state-of-the-art results under various conditional controls for garment-driven image synthesis. Our source code is available at https://github.com/ShineChen1024/MagicClothing.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# 形状空間におけるジオデシック曲線上の特徴増強によるコパー合金の定量的構造・物性関係の深部画像学習

Deep image learning of quantitative structure-property relationships of cooper alloys via feature augmentation on Geodesic curve in shape space ( http://arxiv.org/abs/2404.09515v1 )

ライセンス: Link先を確認
Yuexing Han, Guanxin Wan, Bing Wang, Yi Liu, (参考訳) 材料の構造がそれらの特性にどのように影響するかを理解することは、材料科学と工学の基盤となる。 しかし、従来の手法は複雑な構造に対する量的構造-不適切な関係を正確に記述するのに苦労してきた。 本研究では、このギャップを機械学習を利用して、材料の微細構造を解析し、その微細構造に基づいて材料の特性を理解し予測する新しい方法を提供する。 本研究では,Cu-Cr-Zr合金に対して,FAGC(Feature Augmentation on Geodesic Curves)法を提案する。 このアプローチは、機械学習を利用して、合金の微細構造の画像内の形状を調べ、その機械的および電子的特性を予測する。 この生成的FAGCアプローチは、量的特性でラベル付けされた材料画像の限られた可用性のために、比較的小さなトレーニングデータセットを効果的に拡張することができる。 このプロセスは、ニューラルネットワークを使って画像から特徴を抽出することから始まる。 これらの特徴は、ジオデシック曲線を構成するために前形空間に写像される。 これらの曲線に沿って、新しい機能が生成され、データセットが効果的に増加する。 さらに、トレーニングデータセットをさらに強化するために、これら新たに生成された機能のための擬似ラベル機構を設計する。 FAGC法は,Cu-Cr-Zr合金の電気伝導率と硬さをそれぞれ0.978,0.998で予測する精度を著しく向上した。 これらの結果は、材料科学における限られた画像データの問題に対処するFAGCの可能性を強調し、複雑なミクロ構造と材料特性の詳細な量的関係を確立する強力なツールを提供する。

Understanding how the structure of materials affects their properties is a cornerstone of materials science and engineering. However, traditional methods have struggled to accurately describe the quantitative structure-property relationships for complex structures. In our study, we bridge this gap by leveraging machine learning to analyze images of materials' microstructures, thus offering a novel way to understand and predict the properties of materials based on their microstructures. We introduce a method known as FAGC (Feature Augmentation on Geodesic Curves), specifically demonstrated for Cu-Cr-Zr alloys. This approach utilizes machine learning to examine the shapes within images of the alloys' microstructures and predict their mechanical and electronic properties. This generative FAGC approach can effectively expand the relatively small training datasets due to the limited availability of materials images labeled with quantitative properties. The process begins with extracting features from the images using neural networks. These features are then mapped onto the Pre-shape space to construct the Geodesic curves. Along these curves, new features are generated, effectively increasing the dataset. Moreover, we design a pseudo-labeling mechanism for these newly generated features to further enhance the training dataset. Our FAGC method has shown remarkable results, significantly improving the accuracy of predicting the electronic conductivity and hardness of Cu-Cr-Zr alloys, with R-squared values of 0.978 and 0.998, respectively. These outcomes underscore the potential of FAGC to address the challenge of limited image data in materials science, providing a powerful tool for establishing detailed and quantitative relationships between complex microstructures and material properties.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# 変圧器に代わる新世代ネットワークのための状態空間モデル:調査

State Space Model for New-Generation Network Alternative to Transformers: A Survey ( http://arxiv.org/abs/2404.09516v1 )

ライセンス: Link先を確認
Xiao Wang, Shiao Wang, Yuhe Ding, Yuehang Li, Wentao Wu, Yao Rong, Weizhe Kong, Ju Huang, Shihao Li, Haoxiang Yang, Ziwen Wang, Bo Jiang, Chenglong Li, Yaowei Wang, Yonghong Tian, Jin Tang, (参考訳) 深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。 しかし、このアーキテクチャの膨大な計算要求は、多くの研究者を妨げている。 注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。 その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。 本稿では,これらの研究を包括的に概観するとともに,SSMの特徴と利点をよりよく示すために,実験的な比較と分析を行う。 具体的には、まず、読者がSSMのキーとなるアイデアを素早く把握するのに役立つ原則について詳述する。 その後、我々は、自然言語処理、コンピュータビジョン、グラフ、マルチモーダルおよびマルチメディア、ポイントクラウド/イベントストリーム、時系列データ、その他のドメインなど、既存のSSMとその様々なアプリケーションに対するレビューを掘り下げる。 さらに、これらのモデルの統計的比較と分析を行い、読者が様々なタスクにおける異なる構造の有効性を理解するのに役立つことを期待する。 そこで本研究では,SSMの理論的モデル開発と応用の促進を図るために,この方向の可能な研究ポイントを提案する。 関連する作業は、次のGitHubで継続的に更新される。

In the post-deep learning era, the Transformer architecture has demonstrated its powerful performance across pre-trained big models and various downstream tasks. However, the enormous computational demands of this architecture have deterred many researchers. To further reduce the complexity of attention models, numerous efforts have been made to design more efficient methods. Among them, the State Space Model (SSM), as a possible replacement for the self-attention based Transformer model, has drawn more and more attention in recent years. In this paper, we give the first comprehensive review of these works and also provide experimental comparisons and analysis to better demonstrate the features and advantages of SSM. Specifically, we first give a detailed description of principles to help the readers quickly capture the key ideas of SSM. After that, we dive into the reviews of existing SSMs and their various applications, including natural language processing, computer vision, graph, multi-modal and multi-media, point cloud/event stream, time series data, and other domains. In addition, we give statistical comparisons and analysis of these models and hope it helps the readers to understand the effectiveness of different structures on various tasks. Then, we propose possible research points in this direction to better promote the development of the theoretical model and application of SSM. More related works will be continuously updated on the following GitHub: https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# 推論行動特徴文脈は強化学習におけるゼロショット一般化を改善する

Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning ( http://arxiv.org/abs/2404.09521v1 )

ライセンス: Link先を確認
Tidiane Camaret Ndir, André Biedenkapp, Noor Awad, (参考訳) 本研究では、強化学習(RL)におけるゼロショット一般化(ZSG)の課題に対処する。 我々は,環境の重力レベルなどの文脈的手がかりの理解と活用が,堅牢な一般化に不可欠であると主張し,文脈表現の学習を政策学習と直接統合することを提案する。 提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。 本手法は,協調学習によって行動固有の文脈表現を取得し,未知の環境への適応を可能にし,実世界の様々なタスクを一般化する強化学習システムに向けて進展を示す。 私たちのコードと実験はhttps://github.com/tidiane-camaret/contextual_rl_zero_shotで公開されています。

In this work, we address the challenge of zero-shot generalization (ZSG) in Reinforcement Learning (RL), where agents must adapt to entirely novel environments without additional training. We argue that understanding and utilizing contextual cues, such as the gravity level of the environment, is critical for robust generalization, and we propose to integrate the learning of context representations directly with policy learning. Our algorithm demonstrates improved generalization on various simulated domains, outperforming prior context-learning techniques in zero-shot settings. By jointly learning policy and context, our method acquires behavior-specific context representations, enabling adaptation to unseen environments and marks progress towards reinforcement learning systems that generalize across diverse real-world tasks. Our code and experiments are available at https://github.com/tidiane-camaret/contextual_rl_zero_shot.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# 変分ベイズ辞書学習による産業用アルカリ水電解器の動的故障検出と診断

Dynamic fault detection and diagnosis of industrial alkaline water electrolyzer process with variational Bayesian dictionary learning ( http://arxiv.org/abs/2404.09524v1 )

ライセンス: Link先を確認
Qi Zhang, Lei Xie, Weihua Xu, Hongye Su, (参考訳) アルカリ水電解法(英: Alkaline Water Electrolysis, AWE)は、再生可能エネルギーを用いた最も単純な水素製造法の一つである。 AWEシステムは通常、連続的に相関し、測定の不確実性によって汚染されるプロセス変数を生成する。 AWE操作の信頼性と安全性を向上させるため,新しいロバストな動的変動型ベイズ辞書学習(RDVDL)モニタリング手法を提案する。 RDVDLは、AWEプロセスの動的メカニズム情報を保存するために、スパースベイズ辞書学習を用いており、フォールト検出結果の容易に解釈できる。 測定の不確実性に対するロバスト性を改善するため,プロセス変数から連続相関を確実に抽出する低ランクベクトル自己回帰法(VAR)を導出した。 提案手法の有効性は工業用水素製造法で実証され, RDVDLは重要なAWE断層を効率的に検出し, 診断することができる。

Alkaline Water Electrolysis (AWE) is one of the simplest green hydrogen production method using renewable energy. AWE system typically yields process variables that are serially correlated and contaminated by measurement uncertainty. A novel robust dynamic variational Bayesian dictionary learning (RDVDL) monitoring approach is proposed to improve the reliability and safety of AWE operation. RDVDL employs a sparse Bayesian dictionary learning to preserve the dynamic mechanism information of AWE process which allows the easy interpretation of fault detection results. To improve the robustness to measurement uncertainty, a low-rank vector autoregressive (VAR) method is derived to reliably extract the serial correlation from process variables. The effectiveness of the proposed approach is demonstrated with an industrial hydrogen production process, and RDVDL can efficiently detect and diagnose critical AWE faults.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# Prepacking: 大規模言語モデルにおける高速なプレフィルとスループット向上のためのシンプルな方法

Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models ( http://arxiv.org/abs/2404.09529v1 )

ライセンス: Link先を確認
Siyan Zhao, Daniel Israel, Guy Van den Broeck, Aditya Grover, (参考訳) トランスフォーマーベースの大言語モデル(LLM)の推論において、プリフィルは自己回帰生成前のプロンプトにおける入力トークンに対するキー値(KV)キャッシュの計算である。 より長い入力プロンプト長では、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。 本研究は, プレフィルの落とし穴について述べる: 高変量プロンプト長さを含むバッチの場合, 最大長へのパディングシーケンスの標準的な慣行により, 大幅な計算が無駄になる。 LLMは、最大1000万のトークンを含む、より長いコンテキスト長をサポートするようになると、バッチ内のプロンプト長の変動がより顕著になる。 そこで本研究では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。 パッドトークンの冗長な計算を避けるために、プリパッキングは、異なる長さのプロンプトをシーケンスに組み合わせ、ビンパッキングアルゴリズムを用いて複数のシーケンスをコンパクトなバッチにパッキングする。 その後、アテンションマスクと位置エンコーディングを変更して、複数のプリフィルされたKV-キャッシュを1つのシーケンス内で複数のプロンプトに対して計算する。 異なる長さのプロンプトを含む標準的なキュレートデータセットでは,Hugingface内の既定のパディングベースプリフィル計算と比較して,一連のベースモデル構成と推論提供シナリオに対して,大幅な速度とメモリ効率の向上が得られた。

During inference for transformer-based large language models (LLM), prefilling is the computation of the key-value (KV) cache for input tokens in the prompt prior to autoregressive generation. For longer input prompt lengths, prefilling will incur a significant overhead on decoding time. In this work, we highlight the following pitfall of prefilling: for batches containing high-varying prompt lengths, significant computation is wasted by the standard practice of padding sequences to the maximum length. As LLMs increasingly support longer context lengths, potentially up to 10 million tokens, variations in prompt lengths within a batch become more pronounced. To address this, we propose Prepacking, a simple yet effective method to optimize prefilling computation. To avoid redundant computation on pad tokens, prepacking combines prompts of varying lengths into a sequence and packs multiple sequences into a compact batch using a bin-packing algorithm. It then modifies the attention mask and positional encoding to compute multiple prefilled KV-caches for multiple prompts within a single sequence. On standard curated dataset containing prompts with varying lengths, we obtain a significant speed and memory efficiency improvements as compared to the default padding-based prefilling computation within Huggingface across a range of base model configurations and inference serving scenarios.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# RanLayNet: ドメイン適応と一般化に使用されるドキュメントレイアウト検出用データセット

RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization ( http://arxiv.org/abs/2404.09530v1 )

ライセンス: Link先を確認
Avinash Anand, Raj Jaiswal, Mohit Gupta, Siddhesh S Bangar, Pijush Bhuyan, Naman Lal, Rajeev Singh, Ritika Jha, Rajiv Ratn Shah, Shin'ichi Satoh, (参考訳) 大規模地下構造データセットと近年のディープラーニング技術の発展は,レイアウト検出に有用である。 しかしながら、これらのデータセットのレイアウトの多様性が制限されているため、トレーニングには膨大な数のアノテーション付きインスタンスが必要であり、これは高価かつ時間を要する。 結果として、ソースドメインとターゲットドメインの違いは、これらのモデルがどのように機能するかに大きな影響を与える可能性がある。 この問題を解決するために、少量のラベル付きデータを用いてモデルを対象領域に調整するドメイン適応手法が開発されている。 本研究では,空間的位置,範囲,レイアウト要素の種類を示すラベルを自動的に付与したRanLayNetという合成文書データセットを導入した。 この取り組みの主な目的は、多様な文書形式に頑健で適応可能なモデルをトレーニングできる汎用データセットを開発することである。 実験により,データセット上でトレーニングした深層構造同定モデルは,実際の文書のみをトレーニングしたモデルと比較して,性能が向上していることが実証された。 さらに、Doclaynetデータセット上でPubLayNetとIIIT-AR-13Kデータセットの両方を用いて、微調整推論モデルを用いて比較分析を行う。 以上の結果から,TABLE クラスでは 0.398 と 0.588 mAP95 のスコアを達成できるようなタスクに,データセットに富んだモデルが最適であることが示唆された。

Large ground-truth datasets and recent advances in deep learning techniques have been useful for layout detection. However, because of the restricted layout diversity of these datasets, training on them requires a sizable number of annotated instances, which is both expensive and time-consuming. As a result, differences between the source and target domains may significantly impact how well these models function. To solve this problem, domain adaptation approaches have been developed that use a small quantity of labeled data to adjust the model to the target domain. In this research, we introduced a synthetic document dataset called RanLayNet, enriched with automatically assigned labels denoting spatial positions, ranges, and types of layout elements. The primary aim of this endeavor is to develop a versatile dataset capable of training models with robustness and adaptability to diverse document formats. Through empirical experimentation, we demonstrate that a deep layout identification model trained on our dataset exhibits enhanced performance compared to a model trained solely on actual documents. Moreover, we conduct a comparative analysis by fine-tuning inference models using both PubLayNet and IIIT-AR-13K datasets on the Doclaynet dataset. Our findings emphasize that models enriched with our dataset are optimal for tasks such as achieving 0.398 and 0.588 mAP95 score in the scientific document domain for the TABLE class.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# 斜めMERF:斜め撮影におけるMERFの再検討と改善

Oblique-MERF: Revisiting and Improving MERF for Oblique Photography ( http://arxiv.org/abs/2404.09531v1 )

ライセンス: Link先を確認
Xiaoyi Zeng, Kaiwen Song, Leyuan Yang, Bailin Deng, Juyong Zhang, (参考訳) ニューラル暗黙の場はシーン表現の新しいパラダイムを確立し、その後の作業は高品質なリアルタイムレンダリングを実現している。 しかし、斜めの空中写真から3Dシーンを再構成すると、空間スケールの分布の変化や角度の制約など独特の課題が生じ、しばしばメモリ消費が増加し、外挿された視点でのレンダリング品質が低下する。 本稿では、ボリュームレンダリングの過程で最適化された革新的適応的占有面と、これらの問題に対処するビュー依存色に対する滑らかな正規化項を導入することで、これらのデータ特性に対応するためにMERFを強化する。 Oblique-MERFと呼ばれる我々の手法は、最先端のリアルタイム手法を約0.7dBで上回り、VRAM使用率を約40%削減し、多くの視点でよりリアルなレンダリング結果を得る。

Neural implicit fields have established a new paradigm for scene representation, with subsequent work achieving high-quality real-time rendering. However, reconstructing 3D scenes from oblique aerial photography presents unique challenges, such as varying spatial scale distributions and a constrained range of tilt angles, often resulting in high memory consumption and reduced rendering quality at extrapolated viewpoints. In this paper, we enhance MERF to accommodate these data characteristics by introducing an innovative adaptive occupancy plane optimized during the volume rendering process and a smoothness regularization term for view-dependent color to address these issues. Our approach, termed Oblique-MERF, surpasses state-of-the-art real-time methods by approximately 0.7 dB, reduces VRAM usage by about 40%, and achieves higher rendering frame rates with more realistic rendering outcomes across most viewpoints.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# WiTUnet:CNNとTransformerを統合したU字型アーキテクチャ

WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion ( http://arxiv.org/abs/2404.09533v1 )

ライセンス: Link先を確認
Bin Wang, Fei Deng, Peifan Jiang, Shuang Wang, Xiao Han, Hongjie Zheng, (参考訳) 低線量CT(LDCT)は,画像ノイズが増大し診断精度に影響を及ぼす可能性がありながら,標準CTと比較して放射線線量が少ないことから,医用画像診断において選択される技術となっている。 これを解決するために、先進的なディープラーニングベースのLDCT復調アルゴリズムが開発され、主に畳み込みニューラルネットワーク(CNN)や、Unetアーキテクチャを使ったTransformer Networksが使用されている。 このアーキテクチャは、スキップ接続を介してエンコーダとデコーダから特徴マップを統合することで、画像のディテールを向上させる。 しかし、現在の手法はUnetアーキテクチャ自体の強化を見落とし、代わりにエンコーダとデコーダ構造を最適化することに重点を置いている。 本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用する新しいLDCT画像デノナイズ手法であるWiTUnetを紹介する。 WiTUnetはまた、ウィンドウ化されたトランスフォーマー構造を組み込んで、小さな非重複セグメントで画像を処理し、計算負荷を削減している。 さらに、エンコーダとデコーダの両方にローカルイメージ知覚拡張(LiPe)モジュールを統合することで、トランスフォーマーの標準多層パーセプトロン(MLP)を置き換えることで、ローカル特徴のキャプチャと表現が強化される。 広範にわたる実験的比較により、Pak Signal-to-Noise Ratio (PSNR)、Structure similarity (SSIM)、Root Mean Square Error (RMSE)といった重要な指標において、既存の手法よりも優れた性能を示し、ノイズ除去と画像品質を著しく向上させた。

Low-dose computed tomography (LDCT) has become the technology of choice for diagnostic medical imaging, given its lower radiation dose compared to standard CT, despite increasing image noise and potentially affecting diagnostic accuracy. To address this, advanced deep learning-based LDCT denoising algorithms have been developed, primarily using Convolutional Neural Networks (CNNs) or Transformer Networks with the Unet architecture. This architecture enhances image detail by integrating feature maps from the encoder and decoder via skip connections. However, current methods often overlook enhancements to the Unet architecture itself, focusing instead on optimizing encoder and decoder structures. This approach can be problematic due to the significant differences in feature map characteristics between the encoder and decoder, where simple fusion strategies may not effectively reconstruct images.In this paper, we introduce WiTUnet, a novel LDCT image denoising method that utilizes nested, dense skip pathways instead of traditional skip connections to improve feature integration. WiTUnet also incorporates a windowed Transformer structure to process images in smaller, non-overlapping segments, reducing computational load. Additionally, the integration of a Local Image Perception Enhancement (LiPe) module in both the encoder and decoder replaces the standard multi-layer perceptron (MLP) in Transformers, enhancing local feature capture and representation. Through extensive experimental comparisons, WiTUnet has demonstrated superior performance over existing methods in key metrics such as Peak Signal-to-Noise Ratio (PSNR), Structural Similarity (SSIM), and Root Mean Square Error (RMSE), significantly improving noise removal and image quality.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# Beyond Noise: 仮想ノードによるプライバシ保護による分散学習

Beyond Noise: Privacy-Preserving Decentralized Learning with Virtual Nodes ( http://arxiv.org/abs/2404.09536v1 )

ライセンス: Link先を確認
Sayan Biswas, Mathieu Even, Anne-Marie Kermarrec, Laurent Massoulie, Rafael Pires, Rishi Sharma, Martijn de Vos, (参考訳) 分散学習(DL)は、サーバやユーザのデバイスを離れるデータをトレーニングすることなく、協調学習を可能にする。 しかし、DLで共有されるモデルは、トレーニングデータを推論するためにも使用できる。 差分プライバシーやセキュアアグリゲーションといった従来のプライバシ保護は、DLのユーザプライバシを効果的に保護するために不足している。 Shatterは、ノードが仮想ノード(VN)を作成して、その代理として完全なモデルのチャンクを分散する、新しいDLアプローチである。 これによりプライバシーが向上する 一 攻撃者が他のノードから完全なモデルを収集することを防止すること。 (ii)所定のモデルチャンクを生成する元のノードの同一性を隠蔽する。 理論的にはShatterの収束を証明し、Shatterがノード間で完全なモデル交換を行う場合と比較して攻撃の有効性をいかに低減するかを公式解析する。 我々は、Shatterの収束と攻撃のレジリエンスを、既存のDLアルゴリズム、異種データセット、勾配反転を含む3つの標準プライバシ攻撃で評価する。 評価の結果,各ノードが16個のVNを動作させる場合,シャッターはこれらのプライバシ攻撃を実施できないだけでなく,標準のDLに比べてモデル収束に肯定的な影響を及ぼすことがわかった。 この強化されたプライバシーは、管理可能な通信量の増加を伴う。

Decentralized learning (DL) enables collaborative learning without a server and without training data leaving the users' devices. However, the models shared in DL can still be used to infer training data. Conventional privacy defenses such as differential privacy and secure aggregation fall short in effectively safeguarding user privacy in DL. We introduce Shatter, a novel DL approach in which nodes create virtual nodes (VNs) to disseminate chunks of their full model on their behalf. This enhances privacy by (i) preventing attackers from collecting full models from other nodes, and (ii) hiding the identity of the original node that produced a given model chunk. We theoretically prove the convergence of Shatter and provide a formal analysis demonstrating how Shatter reduces the efficacy of attacks compared to when exchanging full models between participating nodes. We evaluate the convergence and attack resilience of Shatter with existing DL algorithms, with heterogeneous datasets, and against three standard privacy attacks, including gradient inversion. Our evaluation shows that Shatter not only renders these privacy attacks infeasible when each node operates 16 VNs but also exhibits a positive impact on model convergence compared to standard DL. This enhanced privacy comes with a manageable increase in communication volume.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# Pythonソースコード脆弱性検出のための機械学習技術

Machine Learning Techniques for Python Source Code Vulnerability Detection ( http://arxiv.org/abs/2404.09537v1 )

ライセンス: Link先を確認
Talaya Farasat, Joachim Posegga, (参考訳) ソフトウェア脆弱性はサイバー攻撃が流行する根本的な理由であり、その識別はサイバーセキュリティにおいて決定的に難しい問題である。 本稿では,Pythonプログラミング言語に特化してソースコードの脆弱性検出に異なる機械学習アルゴリズムを適用し,比較する。 実験により,2方向長短期記憶(BiLSTM)モデルが顕著な性能(平均精度98.6%,平均Fスコア94.7%,平均精度96.2%,平均リコール93.3%,平均ROC99.3%)を達成した。

Software vulnerabilities are a fundamental reason for the prevalence of cyber attacks and their identification is a crucial yet challenging problem in cyber security. In this paper, we apply and compare different machine learning algorithms for source code vulnerability detection specifically for Python programming language. Our experimental evaluation demonstrates that our Bidirectional Long Short-Term Memory (BiLSTM) model achieves a remarkable performance (average Accuracy = 98.6%, average F-Score = 94.7%, average Precision = 96.2%, average Recall = 93.3%, average ROC = 99.3%), thereby, establishing a new benchmark for vulnerability detection in Python source code.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# プログレッシブ・ラテント・スペース・リファインメントによるテキスト駆動多面顔テクスチャ生成

Text-Driven Diverse Facial Texture Generation via Progressive Latent-Space Refinement ( http://arxiv.org/abs/2404.09540v1 )

ライセンス: Link先を確認
Chi Wang, Junming Huang, Rong Zhang, Qi Wang, Haotian Yang, Haibin Huang, Chongyang Ma, Weiwei Xu, (参考訳) 近年,3次元顔のテクスチャ自動生成が注目されている。 既存のアプローチでは、従来の物理ベースのレンダリングパイプラインをサポートしなかったり、Light Stageでキャプチャされた3Dデータに依存していたりします。 我々の重要な貢献は、3次元形態モデル(3DMM)に基づく顔画像から生成されるテクスチャマップをブートストラップして、アルベド、正常、粗さを含む高品質で多様なPBRテクスチャを生成する、進歩的な潜在空間改善アプローチである。 テキスト誘導および多様なテクスチャ生成のためのGAN(Generative Adversarial Networks)の拡張から始まる。 そこで本稿では, 地平3次元テクスチャへの依存を克服し, 絡み合ったテクスチャマップのみを用いて生成モデルを訓練するために, 自己教師型パラダイムを設計する。 また,GANとスコア蒸留サンプリング(SDS)の相互強化も促進する。 SDS はより生成モードで GAN を強化し、一方 GAN はより効率的な SDS の最適化を促進する。 さらに,多視点一貫した顔構造のためのエッジ認識型SDSを提案する。 実験により,本手法はフォトリアリスティックな品質,多様性,効率に関する既存の3次元テクスチャ生成手法よりも優れていた。

Automatic 3D facial texture generation has gained significant interest recently. Existing approaches may not support the traditional physically based rendering pipeline or rely on 3D data captured by Light Stage. Our key contribution is a progressive latent space refinement approach that can bootstrap from 3D Morphable Models (3DMMs)-based texture maps generated from facial images to generate high-quality and diverse PBR textures, including albedo, normal, and roughness. It starts with enhancing Generative Adversarial Networks (GANs) for text-guided and diverse texture generation. To this end, we design a self-supervised paradigm to overcome the reliance on ground truth 3D textures and train the generative model with only entangled texture maps. Besides, we foster mutual enhancement between GANs and Score Distillation Sampling (SDS). SDS boosts GANs with more generative modes, while GANs promote more efficient optimization of SDS. Furthermore, we introduce an edge-aware SDS for multi-view consistent facial structure. Experiments demonstrate that our method outperforms existing 3D texture generation methods regarding photo-realistic quality, diversity, and efficiency.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# 車両衝突データ処理における決定木の信頼性評価のための代表測度手法の適用

Application of the representative measure approach to assess the reliability of decision trees in dealing with unseen vehicle collision data ( http://arxiv.org/abs/2404.09541v1 )

ライセンス: Link先を確認
Javier Perera-Lago, Víctor Toscano-Durán, Eduardo Paluzo-Hidalgo, Sara Narteni, Matteo Rucco, (参考訳) 機械学習アルゴリズムは、新しいデータインフォームド人工知能アーキテクチャの基本コンポーネントである。 この領域では、代表データセットの命令的役割は、人工知能(AI)開発の軌跡を形成するための基礎となる。 機械学習コンポーネントを適切にトレーニングするためには、一般的なデータセットが必要である。 適切なトレーニングは、最終モデルの複雑さ、パワー、不確実性を減らします。 本稿では,決定木の理論的観点から,データセットの類似性を評価するための$\varepsilon$-representativeness法の信頼性について検討する。 説明可能なさまざまなモデルを含むため、意思決定ツリーのファミリーに注力することにしました。 したがって、本論文では、2つのデータセットが$\varepsilon$-representativenessによって関連付けられている場合、両者が$\varepsilon$より近い点を持つ場合、古典的な決定木による予測が類似していることを保証する。 実験により,$\varepsilon$-representativenessが特徴量の順序と有意な相関を示すことを示した。 さらに,表型データを扱うために広く採用されている機械学習コンポーネントであるXGboostの車両衝突データに関して,実験結果を拡張した。

Machine learning algorithms are fundamental components of novel data-informed Artificial Intelligence architecture. In this domain, the imperative role of representative datasets is a cornerstone in shaping the trajectory of artificial intelligence (AI) development. Representative datasets are needed to train machine learning components properly. Proper training has multiple impacts: it reduces the final model's complexity, power, and uncertainties. In this paper, we investigate the reliability of the $\varepsilon$-representativeness method to assess the dataset similarity from a theoretical perspective for decision trees. We decided to focus on the family of decision trees because it includes a wide variety of models known to be explainable. Thus, in this paper, we provide a result guaranteeing that if two datasets are related by $\varepsilon$-representativeness, i.e., both of them have points closer than $\varepsilon$, then the predictions by the classic decision tree are similar. Experimentally, we have also tested that $\varepsilon$-representativeness presents a significant correlation with the ordering of the feature importance. Moreover, we extend the results experimentally in the context of unseen vehicle collision data for XGboost, a machine-learning component widely adopted for dealing with tabular data.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# GNNavigator: 自動ガイドライン探索によるグラフニューラルネットワークの適応学習を目指して

GNNavigator: Towards Adaptive Training of Graph Neural Networks via Automatic Guideline Exploration ( http://arxiv.org/abs/2404.09544v1 )

ライセンス: Link先を確認
Tong Qiao, Jianlei Yang, Yingjie Qi, Ao Zhou, Chen Bai, Bei Yu, Weisheng Zhao, Chunming Hu, (参考訳) グラフニューラルネットワーク(GNN)は最近、多くのアプリケーションで大きく成功している。 しかし、GNNのトレーニングランタイムコスト、メモリ消費、様々なアプリケーションの達成可能な精度のバランスは簡単ではない。 従来の訓練手法は、適応性が劣り、統一的な訓練最適化ソリューションが欠如している。 そこで本研究では,適応型GNNトレーニング設定最適化フレームワークであるGNNavigatorを提案する。 GNNavigatorは、GNNのトレーニング性能モデルと実用的な設計空間探索ソリューションにより、GNNアプリケーション要件を満たす。 実験の結果、GNNavigatorは3.1倍のスピードアップと44.9%のピークメモリ削減を実現し、最先端のアプローチと同等の精度で実現可能であることが示された。

Graph Neural Networks (GNNs) succeed significantly in many applications recently. However, balancing GNNs training runtime cost, memory consumption, and attainable accuracy for various applications is non-trivial. Previous training methodologies suffer from inferior adaptability and lack a unified training optimization solution. To address the problem, this work proposes GNNavigator, an adaptive GNN training configuration optimization framework. GNNavigator meets diverse GNN application requirements due to our unified software-hardware co-abstraction, proposed GNNs training performance model, and practical design space exploration solution. Experimental results show that GNNavigator can achieve up to 3.1x speedup and 44.9% peak memory reduction with comparable accuracy to state-of-the-art approaches.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# AI-KD:知識蒸留を用いたアライメント不変顔画像品質評価を目指して

AI-KD: Towards Alignment Invariant Face Image Quality Assessment Using Knowledge Distillation ( http://arxiv.org/abs/2404.09555v1 )

ライセンス: Link先を確認
Žiga Babnik, Fadi Boutros, Naser Damer, Peter Peer, Vitomir Štruc, (参考訳) 顔画像品質評価(FIQA)技術は近年着実に改善されているが、入力顔サンプルが適切に整列していない場合、その性能は依然として低下している。 このアライメント感度は、ほとんどのFIQA技術が特定の顔アライメント手順を用いて訓練または設計されているという事実に由来する。 もしアライメント技術が変化すれば、既存のほとんどのFIQA技術の性能はすぐに準最適となる。 そこで本論文では,既存のFIQA技術で拡張可能な知識蒸留手法であるAI-KDについて述べる。 提案手法の有効性を検証するため,近年の4つの顔認識モデルを用いた6つの顔データセットの総合的な実験を行い,最新技術であるFIQA技術との比較を行った。 以上の結果から,AI-KD は初期 FIQA 技術の性能を常に向上させるだけでなく,顔画像の整合性も向上することが示唆された。 さらに、競合する初期FIQAアプローチで使用する場合、新しい最先端技術につながる。 AI-KDのコードは、https://github.com/LSIbabnikz/AI-KDから公開されている。

Face Image Quality Assessment (FIQA) techniques have seen steady improvements over recent years, but their performance still deteriorates if the input face samples are not properly aligned. This alignment sensitivity comes from the fact that most FIQA techniques are trained or designed using a specific face alignment procedure. If the alignment technique changes, the performance of most existing FIQA techniques quickly becomes suboptimal. To address this problem, we present in this paper a novel knowledge distillation approach, termed AI-KD that can extend on any existing FIQA technique, improving its robustness to alignment variations and, in turn, performance with different alignment procedures. To validate the proposed distillation approach, we conduct comprehensive experiments on 6 face datasets with 4 recent face recognition models and in comparison to 7 state-of-the-art FIQA techniques. Our results show that AI-KD consistently improves performance of the initial FIQA techniques not only with misaligned samples, but also with properly aligned facial images. Furthermore, it leads to a new state-of-the-art, when used with a competitive initial FIQA approach. The code for AI-KD is made publicly available from: https://github.com/LSIbabnikz/AI-KD.
翻訳日:2024-04-16 13:09:46 公開日:2024-04-15
# nnU-Net再考 : 3次元医用画像分割における厳密な検証

nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation ( http://arxiv.org/abs/2404.09556v1 )

ライセンス: Link先を確認
Fabian Isensee, Tassilo Wald, Constantin Ulrich, Michael Baumgartner, Saikat Roy, Klaus Maier-Hein, Paul F. Jaeger, (参考訳) nnU-Netのリリースは、3次元医用画像セグメンテーションのパラダイムシフトであり、適切に構成されたU-Netアーキテクチャが依然として最先端の結果が得られることを示した。 それにもかかわらず、新しいアーキテクチャの追求と、U-Netベースラインよりも優れたパフォーマンスの主張は継続された。 本研究では,これらの最近の主張の多くは,不適切なベースラインの使用,不十分なデータセット,無視された計算資源など,一般的な検証上の欠点を精査する上では成立しないことを示す。 これらの落とし穴を慎重に回避することにより、CNNベース、Transformerベース、Mambaベースのアプローチを含む、現在のセグメンテーション手法の徹底的で包括的なベンチマークを行う。 現在の信念とは対照的に、最先端の演技のレシピが重要であることが分かる。 1) ResNet や ConvNeXt など CNN ベースの U-Net モデルを採用する。 2) nnU-Net フレームワークを使用し、 3) 現在のハードウェアリソースにモデルをスケーリングする。 これらの結果は、この分野における新しいアーキテクチャに対する継続的なイノベーションバイアスを示し、科学的進歩の探求においてより厳格な検証基準の必要性を浮き彫りにしている。

The release of nnU-Net marked a paradigm shift in 3D medical image segmentation, demonstrating that a properly configured U-Net architecture could still achieve state-of-the-art results. Despite this, the pursuit of novel architectures, and the respective claims of superior performance over the U-Net baseline, continued. In this study, we demonstrate that many of these recent claims fail to hold up when scrutinized for common validation shortcomings, such as the use of inadequate baselines, insufficient datasets, and neglected computational resources. By meticulously avoiding these pitfalls, we conduct a thorough and comprehensive benchmarking of current segmentation methods including CNN-based, Transformer-based, and Mamba-based approaches. In contrast to current beliefs, we find that the recipe for state-of-the-art performance is 1) employing CNN-based U-Net models, including ResNet and ConvNeXt variants, 2) using the nnU-Net framework, and 3) scaling models to modern hardware resources. These results indicate an ongoing innovation bias towards novel architectures in the field and underscore the need for more stringent validation standards in the quest for scientific progress.
翻訳日:2024-04-16 13:00:02 公開日:2024-04-15
# クロスコーパス脳波を用いた感情認識のための特徴アライメントを用いた共同コントラスト学習

Joint Contrastive Learning with Feature Alignment for Cross-Corpus EEG-based Emotion Recognition ( http://arxiv.org/abs/2404.09559v1 )

ライセンス: Link先を確認
Qile Liu, Zhihao Zhou, Jiyuan Wang, Zhen Liang, (参考訳) マルチメディアアプリケーションへの人間の感情の統合は、ユーザー体験を豊かにし、様々なデジタルプラットフォームにおけるエンゲージメントを高める大きな可能性を示している。 質問、表情、音声分析のような伝統的な方法とは異なり、脳信号は感情状態をより直接的で客観的に理解する。 しかし、脳波に基づく感情認識(EEG)の分野では、従来の研究は主に1つのデータセット内の脳波モデルのトレーニングとテストに集中しており、異なるデータセット間での変動性を見越している。 この監視は、クロスコーパスシナリオにEEGモデルを適用する際に、大幅なパフォーマンス低下をもたらす。 本研究では,クロスコーパス脳波に基づく感情認識に対処するため,JCFA(Joint Contrastive Learning framework with Feature Alignment)を提案する。 JCFAモデルは2つの主要な段階で動作する。 事前学習段階では、ラベル付きデータを用いることなく、EEG信号の一般化可能な時間周波数表現を特徴付ける共同領域コントラスト学習戦略を導入する。 各EEGサンプルに対して、堅牢な時間ベースおよび周波数ベースの埋め込みを抽出し、共有潜時空間に整列する。 微調整の段階では、JCFAは脳電極間の構造的接続を考慮した下流タスクと共に洗練される。 モデル能力は感情の検出と解釈の応用のためにさらに強化される可能性がある。 2つのよく認識された感情データセットの大規模な実験結果から、提案したJCFAモデルが最先端(SOTA)のパフォーマンスを達成し、クロスコーパス脳波に基づく感情認識タスクにおいて平均4.09%の精度で第2のベストメソッドを上回ります。

The integration of human emotions into multimedia applications shows great potential for enriching user experiences and enhancing engagement across various digital platforms. Unlike traditional methods such as questionnaires, facial expressions, and voice analysis, brain signals offer a more direct and objective understanding of emotional states. However, in the field of electroencephalography (EEG)-based emotion recognition, previous studies have primarily concentrated on training and testing EEG models within a single dataset, overlooking the variability across different datasets. This oversight leads to significant performance degradation when applying EEG models to cross-corpus scenarios. In this study, we propose a novel Joint Contrastive learning framework with Feature Alignment (JCFA) to address cross-corpus EEG-based emotion recognition. The JCFA model operates in two main stages. In the pre-training stage, a joint domain contrastive learning strategy is introduced to characterize generalizable time-frequency representations of EEG signals, without the use of labeled data. It extracts robust time-based and frequency-based embeddings for each EEG sample, and then aligns them within a shared latent time-frequency space. In the fine-tuning stage, JCFA is refined in conjunction with downstream tasks, where the structural connections among brain electrodes are considered. The model capability could be further enhanced for the application in emotion detection and interpretation. Extensive experimental results on two well-recognized emotional datasets show that the proposed JCFA model achieves state-of-the-art (SOTA) performance, outperforming the second-best method by an average accuracy increase of 4.09% in cross-corpus EEG-based emotion recognition tasks.
翻訳日:2024-04-16 13:00:02 公開日:2024-04-15
# σ-GPTs: 自己回帰モデルの新しいアプローチ

σ-GPTs: A New Approach to Autoregressive Models ( http://arxiv.org/abs/2404.09562v1 )

ライセンス: Link先を確認
Arnaud Pannatier, Evann Courdier, François Fleuret, (参考訳) GPTファミリーのような自己回帰モデルは、配列を生成するために固定順序(通常は左から右)を使用する。 しかし、これは必要ではない。 本稿では、この仮定に挑戦し、出力に位置エンコーディングを加えるだけで、この順序をオンザフライで変調できることを示す。 これはトークンの任意の部分集合のサンプリングと条件付けを可能にし、また拒絶戦略に従って1ショットの複数のトークンを動的にサンプリングすることを可能にする。 我々は,言語モデリング,パスソーシング,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行い,生成に必要なステップ数を桁違いに削減した。

Autoregressive models, such as the GPT family, use a fixed order, usually left-to-right, to generate sequences. However, this is not a necessity. In this paper, we challenge this assumption and show that by simply adding a positional encoding for the output, this order can be modulated on-the-fly per-sample which offers key advantageous properties. It allows for the sampling of and conditioning on arbitrary subsets of tokens, and it also allows sampling in one shot multiple tokens dynamically according to a rejection strategy, leading to a sub-linear number of model evaluations. We evaluate our method across various domains, including language modeling, path-solving, and aircraft vertical rate prediction, decreasing the number of steps required for generation by an order of magnitude.
翻訳日:2024-04-16 13:00:02 公開日:2024-04-15
# ニュースメディアソースの信頼性評価:Father Flock を併用した鳥

Reliability Estimation of News Media Sources: Birds of a Feather Flock Together ( http://arxiv.org/abs/2404.09565v1 )

ライセンス: Link先を確認
Sergio Burdisso, Dairazalia Sánchez-Cortés, Esaú Villatoro-Tello, Petr Motlicek, (参考訳) ニュースソースの信頼性を評価することは、ジャーナリストや組織が正確な情報を取得し、広めることを約束する日常的なタスクである。 近年の研究では、情報源の信頼性を予測することは、フェイクニュースの検出やファクトチェックといった新たな課題に対処する上で、重要な第一歩であることが示されている。 本稿では,ニュースソースの信頼性度を推定するための強化学習戦略を活用する,新たな信頼性推定手法を提案する。 従来の研究とは対照的に,提案手法では,すべてのニュースメディアソースがWeb上でどのように相互作用するかに基づいて,信頼性の度合いを推定し,信頼性ラベルではなく,その問題をモデル化する。 提案手法の有効性を,既存データセットよりも桁違いに大きいニュースメディア信頼性データセット上で検証した。 その結果、推定信頼性度はジャーナリストが提供するスコア(Spearman=0.80)と強く相関し、信頼性ラベル(macro-avg. F$_1$ score=81.05)を効果的に予測できることがわかった。 我々は,情報検証に取り組んでいるNLPコミュニティにとって貴重なリソースを提供することを目的として,実装とデータセットをリリースする。

Evaluating the reliability of news sources is a routine task for journalists and organizations committed to acquiring and disseminating accurate information. Recent research has shown that predicting sources' reliability represents an important first-prior step in addressing additional challenges such as fake news detection and fact-checking. In this paper, we introduce a novel approach for source reliability estimation that leverages reinforcement learning strategies for estimating the reliability degree of news sources. Contrary to previous research, our proposed approach models the problem as the estimation of a reliability degree, and not a reliability label, based on how all the news media sources interact with each other on the Web. We validated the effectiveness of our method on a news media reliability dataset that is an order of magnitude larger than comparable existing datasets. Results show that the estimated reliability degrees strongly correlates with journalists-provided scores (Spearman=0.80) and can effectively predict reliability labels (macro-avg. F$_1$ score=81.05). We release our implementation and dataset, aiming to provide a valuable resource for the NLP community working on information verification.
翻訳日:2024-04-16 13:00:02 公開日:2024-04-15
# BiSeNetの復讐: 効率的なマルチタスクイメージセグメンテーション

The revenge of BiSeNet: Efficient Multi-Task Image Segmentation ( http://arxiv.org/abs/2404.09570v1 )

ライセンス: Link先を確認
Gabriele Rosi, Claudia Cuttano, Niccolò Cavagnero, Giuseppe Averta, Fabio Cermelli, (参考訳) 画像セグメント化の最近の進歩は、特にエッジデバイスにおけるリアルタイムアプリケーションのニーズを満たすために、モデルの効率を向上させることに重点を置いている。 しかし、既存の研究は主にシングルタスク設定、特にセマンティックセグメンテーションに集中しており、冗長な取り組みと異なるタスクのための特殊なアーキテクチャにつながっている。 この制限に対処するために、効率や精度を犠牲にすることなく、様々なセグメンテーションタスクを処理できる、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャを提案する。 本稿では,2ストリームセマンティックセグメンテーションアーキテクチャの効率性を活用したBiSeNetFormerを紹介し,それをマスク分類フレームワークに拡張する。 提案手法は,2次マスクとクラス確率を演算する効率的な変換型セグメンテーションヘッドを活用しながら,詳細情報と意味情報を捕捉するための効率的な空間パスとコンテキストパスを維持している。 BiSeNetFormerは、セマンティックとパン光学セグメンテーションという複数のタスクをシームレスにサポートすることによって、マルチタスクセグメンテーションのための汎用的なソリューションを提供する。 我々は、一般的なデータセットであるCityscapesとADE20Kに対するアプローチを評価し、最先端のアーキテクチャと比較して競争精度を維持しながら、印象的な推論速度を示した。 この結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大幅な進歩を示し, モデル効率とタスク適応性のギャップを埋めることが示唆された。

Recent advancements in image segmentation have focused on enhancing the efficiency of the models to meet the demands of real-time applications, especially on edge devices. However, existing research has primarily concentrated on single-task settings, especially on semantic segmentation, leading to redundant efforts and specialized architectures for different tasks. To address this limitation, we propose a novel architecture for efficient multi-task image segmentation, capable of handling various segmentation tasks without sacrificing efficiency or accuracy. We introduce BiSeNetFormer, that leverages the efficiency of two-stream semantic segmentation architectures and it extends them into a mask classification framework. Our approach maintains the efficient spatial and context paths to capture detailed and semantic information, respectively, while leveraging an efficient transformed-based segmentation head that computes the binary masks and class probabilities. By seamlessly supporting multiple tasks, namely semantic and panoptic segmentation, BiSeNetFormer offers a versatile solution for multi-task segmentation. We evaluate our approach on popular datasets, Cityscapes and ADE20K, demonstrating impressive inference speeds while maintaining competitive accuracy compared to state-of-the-art architectures. Our results indicate that BiSeNetFormer represents a significant advancement towards fast, efficient, and multi-task segmentation networks, bridging the gap between model efficiency and task adaptability.
翻訳日:2024-04-16 13:00:02 公開日:2024-04-15
# MTKD:超解像のためのマルチ教師の知識蒸留

MTKD: Multi-Teacher Knowledge Distillation for Image Super-Resolution ( http://arxiv.org/abs/2404.09571v1 )

ライセンス: Link先を確認
Yuxuan Jiang, Chen Feng, Fan Zhang, David Bull, (参考訳) 知識蒸留(KD)は深層学習において有望な技術として登場しており、通常は高性能だが複雑な教師の変種から学習することで、コンパクトな学生ネットワークを強化するために用いられている。 画像超解像の文脈において、ほとんどのKDアプローチは、教師1人と損失関数の訓練戦略に基づいて、他のコンピュータビジョンタスクのために開発された手法の修正版である。 本稿では,画像超解像のためのMTKD(Multi-Teacher Knowledge Distillation)フレームワークを提案する。 複数の教師の利点を利用して、これらの教師モデルのアウトプットを組み合わせ、強化し、さらに、コンパクトな学生ネットワークの学習プロセスをガイドする。 より効果的な学習性能を実現するため,MTKDのための新しいウェーブレットベース損失関数を開発した。 提案手法の有効性を,一般的な3つのネットワークアーキテクチャに基づく画像超解像のための5つのKD法と比較することにより,完全に評価する。 MTKD法は,異なるネットワーク構造にまたがる最先端KD手法に比べて,最大0.46dB(PSNRに基づく)の超解像性能を著しく向上することを示す。 MTKDのソースコードは、ここで公開評価を行う予定である。

Knowledge distillation (KD) has emerged as a promising technique in deep learning, typically employed to enhance a compact student network through learning from their high-performance but more complex teacher variant. When applied in the context of image super-resolution, most KD approaches are modified versions of methods developed for other computer vision tasks, which are based on training strategies with a single teacher and simple loss functions. In this paper, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) framework specifically for image super-resolution. It exploits the advantages of multiple teachers by combining and enhancing the outputs of these teacher models, which then guides the learning process of the compact student network. To achieve more effective learning performance, we have also developed a new wavelet-based loss function for MTKD, which can better optimize the training process by observing differences in both the spatial and frequency domains. We fully evaluate the effectiveness of the proposed method by comparing it to five commonly used KD methods for image super-resolution based on three popular network architectures. The results show that the proposed MTKD method achieves evident improvements in super-resolution performance, up to 0.46dB (based on PSNR), over state-of-the-art KD approaches across different network structures. The source code of MTKD will be made available here for public evaluation.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# 無署名交差点における歩行者の交差挙動の予測と解析

Predicting and Analyzing Pedestrian Crossing Behavior at Unsignalized Crossings ( http://arxiv.org/abs/2404.09574v1 )

ライセンス: Link先を確認
Chi Zhang, Janis Sprenger, Zhongjun Ni, Christian Berger, (参考訳) 自動走行の促進と運転安全性向上には,歩行者横断行動の理解と予測が不可欠である。 ギャップ選択の予測とゼブラクロスの使用により、運転システムは積極的に反応し、潜在的な衝突を防ぐことができる。 この作業は、歩行者が車や他の歩行者と常に対話する必要があるという、不明瞭な道のりが原因で、信号のない交差点で特に困難である。 本研究は,複数の車両や歩行者が関与するシナリオを調査するためにシミュレータデータを活用することで,これらの課題に対処する。 非ゼブラシナリオにおけるギャップ選択と、ゼブラシナリオにおけるゼブラ交差使用量を予測する機械学習モデルの提案と評価を行った。 本研究では,歩行者の行動が歩行者待ち時間,歩行速度,未使用ギャップの数,最大の欠落区間,その他の歩行者の影響など,様々な要因によってどのような影響を受けているかを調査し,考察する。 この研究は、歩行者横断行動に関する予測モデルと貴重な洞察を提供することにより、インテリジェントな車両の進化に寄与する。

Understanding and predicting pedestrian crossing behavior is essential for enhancing automated driving and improving driving safety. Predicting gap selection behavior and the use of zebra crossing enables driving systems to proactively respond and prevent potential conflicts. This task is particularly challenging at unsignalized crossings due to the ambiguous right of way, requiring pedestrians to constantly interact with vehicles and other pedestrians. This study addresses these challenges by utilizing simulator data to investigate scenarios involving multiple vehicles and pedestrians. We propose and evaluate machine learning models to predict gap selection in non-zebra scenarios and zebra crossing usage in zebra scenarios. We investigate and discuss how pedestrians' behaviors are influenced by various factors, including pedestrian waiting time, walking speed, the number of unused gaps, the largest missed gap, and the influence of other pedestrians. This research contributes to the evolution of intelligent vehicles by providing predictive models and valuable insights into pedestrian crossing behavior.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# 大規模言語モデルと言語意図性

Large language models and linguistic intentionality ( http://arxiv.org/abs/2404.09576v1 )

ライセンス: Link先を確認
Jumbly Grindrod, (参考訳) Chat-GPTやLLaMaのような大きな言語モデルは、それらが生成する単語を有意義に使用していますか? それとも、統計的に妥当なテキストを生成することで、言語の使用をシミュレートする、単なる巧妙な予測マシンなのだろうか? 精神内容のメタセマンティック理論に従って、これらのモデルが有意義な状態に入るための基準を満たしていることを示すことで、この問題に対処する試みは、すでにいくつかある。 本稿では,言語モデルが言語内容の最高のメタセマンティック理論によって与えられる基準を満たすか否かを考慮すべきである,という別のアプローチについて論じる。 ガレス・エヴァンス(1982年)の命名慣行の説明とルース・ミリカン(1984年、2004年、2005年)の遠隔操作論である。 このようにして、LLMが精神的な意図性に対して妥当な条件を満たせなかったことが、そのアウトプットを無意味にし、言語意図性の区別された特徴である、既存の言語システムへの依存は、LLMのアウトプットが有意義な結果をもたらすと考えるのは間違いである。

Do large language models like Chat-GPT or LLaMa meaningfully use the words they produce? Or are they merely clever prediction machines, simulating language use by producing statistically plausible text? There have already been some initial attempts to answer this question by showing that these models meet the criteria for entering meaningful states according to metasemantic theories of mental content. In this paper, I will argue for a different approach - that we should instead consider whether language models meet the criteria given by our best metasemantic theories of linguistic content. In that vein, I will illustrate how this can be done by applying two such theories to the case of language models: Gareth Evans' (1982) account of naming practices and Ruth Millikan's (1984, 2004, 2005) teleosemantics. In doing so, I will argue that it is a mistake to think that the failure of LLMs to meet plausible conditions for mental intentionality thereby renders their outputs meaningless, and that a distinguishing feature of linguistic intentionality - dependency on a pre-existing linguistic system - allows for the plausible result LLM outputs are meaningful.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# トランスフォーマー, コンテクスト, ポリセミー

Transformers, Contextualism, and Polysemy ( http://arxiv.org/abs/2404.09577v1 )

ライセンス: Link先を確認
Jumbly Grindrod, (参考訳) Vaswani et al (2017)によって導入されたトランスフォーマーアーキテクチャは、Chat-gptやBardといった有名なチャットボットを含む、言語モデルの開発における、最近の顕著な進歩の中心である。 本稿では,トランスフォーマーアーキテクチャがコンテキストと意味の関係を図解する際の抽出法について論じる。 私はこれをトランスフォーマー・ピクチャー(transformer picture)と呼んでいるが、これは2つの関連する哲学的議論に関する小説である: 自然言語における文脈感受性の程度に関する文脈主義的議論と、言葉の意味の観点からポリセミーがどのように捉えるべきかという多節論である。 論文の多くは、この2つの議論に関してトランスフォーマーの絵を配置しようと試みているが、私はまたトランスフォーマーの絵についても論じる。

The transformer architecture, introduced by Vaswani et al. (2017), is at the heart of the remarkable recent progress in the development of language models, including famous chatbots such as Chat-gpt and Bard. In this paper, I argue that we an extract from the way the transformer architecture works a picture of the relationship between context and meaning. I call this the transformer picture, and I argue that it is a novel with regard to two related philosophical debates: the contextualism debate regarding the extent of context-sensitivity across natural language, and the polysemy debate regarding how polysemy should be captured within an account of word meaning. Although much of the paper merely tries to position the transformer picture with respect to these two debates, I will also begin to make the case for the transformer picture.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# モデリング言語

Modelling Language ( http://arxiv.org/abs/2404.09579v1 )

ライセンス: Link先を確認
Jumbly Grindrod, (参考訳) 本稿では,大規模言語モデルが言語科学モデルとして機能する上で重要な科学的役割を担っていることを論じる。 言語学的な研究は、言語能力の背後にある認知過程だけでなく、言語が外部の社会的実体として理解されていることも考慮すべきである。 これを認識すると、科学モデルとしての大きな言語モデルの価値が明確になる。 本稿では,言語モデルが言語的洞察を与えていないことに対する多くの議論に対して,この立場を擁護する。 これはまた、大規模な言語モデルが科学モデルとしてどのように機能するかを示すために、科学哲学における最近の研究も引き合いに出している。

This paper argues that large language models have a valuable scientific role to play in serving as scientific models of a language. Linguistic study should not only be concerned with the cognitive processes behind linguistic competence, but also with language understood as an external, social entity. Once this is recognized, the value of large language models as scientific models becomes clear. This paper defends this position against a number of arguments to the effect that language models provide no linguistic insight. It also draws upon recent work in philosophy of science to show how large language models could serve as scientific models.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# エネルギーモデルを用いた校正信頼を用いた擬似ラベル学習

Pseudo-label Learning with Calibrated Confidence Using an Energy-based Model ( http://arxiv.org/abs/2404.09585v1 )

ライセンス: Link先を確認
Masahito Toba, Seiichi Uchida, Hideaki Hayashi, (参考訳) 半教師付き学習の一種である擬似ラベル(PL)において、擬似ラベルは分類器によって提供される信頼スコアに基づいて割り当てられる。 本研究では,エネルギーベースモデル(EBM)に基づくPLアルゴリズムを提案し,エネルギーベースPL(EBPL)と呼ぶ。 EBPLでは、ニューラルネットワークベースの分類器とESMは、特徴抽出部分を共有することによって共同で訓練される。 このアプローチにより、クラス決定境界と入力データ分布の両方を学習し、ネットワークトレーニング中の信頼性校正を強化することができる。 実験の結果、EBPLは半教師付き画像分類タスクにおいて既存のPL法よりも優れており、信頼性校正誤差と認識精度が優れていることがわかった。

In pseudo-labeling (PL), which is a type of semi-supervised learning, pseudo-labels are assigned based on the confidence scores provided by the classifier; therefore, accurate confidence is important for successful PL. In this study, we propose a PL algorithm based on an energy-based model (EBM), which is referred to as the energy-based PL (EBPL). In EBPL, a neural network-based classifier and an EBM are jointly trained by sharing their feature extraction parts. This approach enables the model to learn both the class decision boundary and input data distribution, enhancing confidence calibration during network training. The experimental results demonstrate that EBPL outperforms the existing PL method in semi-supervised image classification tasks, with superior confidence calibration error and recognition accuracy.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# モンテカルロのマルコフ氏、3Dガウシアン・スプラッティング

3D Gaussian Splatting as Markov Chain Monte Carlo ( http://arxiv.org/abs/2404.09591v1 )

ライセンス: Link先を確認
Shakiba Kheradmand, Daniel Rebain, Gopal Sharma, Weiwei Sun, Jeff Tseng, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi, (参考訳) 3D Gaussian Splattingは最近、ニューラルレンダリングで人気になっているが、現在の手法は、常に一般化せず、品質の悪いレンダリングにつながる可能性のある、ガウス的配置のための、注意深く設計されたクローニングと分割戦略に依存している。 さらに、現実世界のシーンでは、良いイニシャル・ポイント・クラウドに頼っています。 本研究では,3次元ガウシアンを,シーンの物理的表現を記述する確率分布から引き出されたランダムなサンプルとして再考する。 この視点では、3D Gaussian のアップデートは Stochastic Langevin Gradient Descent (SGLD) のアップデートと著しく似ている。 MCMCと同様に、サンプルは過去の訪問場所に過ぎず、我々のフレームワークの下に新しいガウスアンを追加することは、ガウスアンを既存のガウスの場所に配置するといったヒューリスティックなしに簡単に実現できる。 より少ないガウスを効率よく活用するために、ガウスにL1正規化器を導入する。 様々な標準的な評価シーンにおいて,本手法はレンダリング品質の向上,ガウス数の簡易制御,初期化に対する堅牢性などを実現する。

While 3D Gaussian Splatting has recently become popular for neural rendering, current methods rely on carefully engineered cloning and splitting strategies for placing Gaussians, which does not always generalize and may lead to poor-quality renderings. In addition, for real-world scenes, they rely on a good initial point cloud to perform well. In this work, we rethink 3D Gaussians as random samples drawn from an underlying probability distribution describing the physical representation of the scene -- in other words, Markov Chain Monte Carlo (MCMC) samples. Under this view, we show that the 3D Gaussian updates are strikingly similar to a Stochastic Langevin Gradient Descent (SGLD) update. As with MCMC, samples are nothing but past visit locations, adding new Gaussians under our framework can simply be realized without heuristics as placing Gaussians at existing Gaussian locations. To encourage using fewer Gaussians for efficiency, we introduce an L1-regularizer on the Gaussians. On various standard evaluation scenes, we show that our method provides improved rendering quality, easy control over the number of Gaussians, and robustness to initialization.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# 分子による意味コミュニケーションシステムの構築--エンドツーエンドトレーニングアプローチ

Building Semantic Communication System via Molecules: An End-to-End Training Approach ( http://arxiv.org/abs/2404.09595v1 )

ライセンス: Link先を確認
Yukun Cheng, Wei Chen, Bo Ai, (参考訳) 意味コミュニケーションの概念は、限られたコミュニケーションリソースを持つシナリオにおけるアプリケーションに新しいアプローチを提供する。 本稿では,分子間通信システムの効率向上を目的とした,エンド・ツー・エンド(E2E)な分子間通信システムを提案する。 具体的には, 共通情報源チャネル符号化のパラダイムに従って, タスク関連情報を情報分子の濃度に符号化し, 分子通信チャネルの劣化に頑健なネットワークを設計する。 さらに,未分化な分子チャネル上でのE2E学習を可能にするチャネルネットワークを提案する。 実験により,従来の分類処理法に比べて,意味分子間通信システムの性能が優れていることが示された。

The concept of semantic communication provides a novel approach for applications in scenarios with limited communication resources. In this paper, we propose an end-to-end (E2E) semantic molecular communication system, aiming to enhance the efficiency of molecular communication systems by reducing the transmitted information. Specifically, following the joint source channel coding paradigm, the network is designed to encode the task-relevant information into the concentration of the information molecules, which is robust to the degradation of the molecular communication channel. Furthermore, we propose a channel network to enable the E2E learning over the non-differentiable molecular channel. Experimental results demonstrate the superior performance of the semantic molecular communication system over the conventional methods in classification tasks.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# 正準密度行列と正準ブロッホ方程式のいくつかの性質について

About some properties of the canonical density matrix versus the canonical Bloch equation ( http://arxiv.org/abs/2404.09596v1 )

ライセンス: Link先を確認
Dušan Popov, (参考訳) コヒーレント状態表現における非正規化(あるいは正準)密度行列のいくつかの性質を2つの等価な方法で検討する。 一方、定義上はブロッホの正準方程式の解である。 多くの場合、ブロッホの微分方程式は解くのが難しいため、応用においてはコヒーレント状態表現における正準密度行列の定義から直接得られる式を使うのが好ましい。 この結論は、線形または二次エネルギースペクトルを持つ量子系のいくつかのケースを調べることによって検証される。

We examine some properties of the non-normalized (or canonical) density matrix in the coherent states representation, by two equivalent ways. On the one hand by its definition, and on the other hand as a solution to Bloch's canonical equation. It is concluded that, since in many cases Bloch's differential equation is difficult to solve, in applications it is preferable to use the expression obtained directly from the definition of the canonical density matrix in the coherent states representation. This conclusion is verified by examining several cases of quantum systems with linear or quadratic energy spectrum.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# ガウス量子状態の曲率

Curvature of Gaussian quantum states ( http://arxiv.org/abs/2404.09600v1 )

ライセンス: Link先を確認
Harry J. D. Miller, (参考訳) 量子状態の空間は相対エントロピーの2階微分を用いて計量構造を授けられ、いわゆるクボ・モリ・ボゴリボフ内部積(Kubo-Mori-Bogoliubov inner product)が生じる。 共分散行列によってパラメータ付けされた忠実なゼロ変位ガウス状態の部分多様体上の幾何学的性質を探索し、測地方程式、曲率テンソル、スカラー曲率の式を導出する。 我々の分析は、多様体の曲率がフォン・ノイマンエントロピーに関して厳密に単調であることを示し、したがって状態不確実性の尺度として解釈できる。 これは連続変数系におけるペッツ予想を支持する証拠を与える。

The space of quantum states can be endowed with a metric structure using the second order derivatives of the relative entropy, giving rise to the so-called Kubo-Mori-Bogoliubov inner product. We explore its geometric properties on the submanifold of faithful, zero-displacement Gaussian states parameterised by their covariance matrices, deriving expressions for the geodesic equations, curvature tensors and scalar curvature. Our analysis suggests that the curvature of the manifold is strictly monotonic with respect to the von Neumann entropy, and thus can be interpreted as a measure of state uncertainty. This provides supporting evidence for the Petz conjecture in continuous variable systems.
翻訳日:2024-04-16 13:00:01 公開日:2024-04-15
# リアクティブモデル補正:条件付きバイアス抑制によるハームからタスク関連機能への移行

Reactive Model Correction: Mitigating Harm to Task-Relevant Features via Conditional Bias Suppression ( http://arxiv.org/abs/2404.09601v1 )

ライセンス: Link先を確認
Dilyara Bareeva, Maximilian Dreyer, Frederik Pahde, Wojciech Samek, Sebastian Lapuschkin, (参考訳) ディープニューラルネットワークは、高リスクアプリケーションにおいて致命的な結果をもたらす可能性のあるトレーニングデータにおいて、学習と急激な相関に依存する傾向があります。 余剰訓練を伴わずにポストホックに適用できる有害な特徴に対するモデル依存を抑制するための様々なアプローチが提案されている。 これらの手法は効率よく適用できるが、潜在特徴の分布をグローバルにシフトすることでモデルの性能を損なう傾向がある。 モデル行動の意図しない過度な補正を軽減するために,モデル由来の知識とeXplainable Artificial Intelligence(XAI)の洞察に基づくリアクティブアプローチを提案する。 P-ClArC (Projective Class Artifact Compensation, Projective Class Artifact Compensation), R-ClArC (Reactive Class Artifact Compensation, R-ClArC) と呼ばれる新しい手法を導入した。 制御された設定(FunnyBirds)と実世界のデータセット(ISIC2019)の厳密な実験を通じて、反応性の導入は、適用された補正の有害な効果を最小限に抑えつつ、刺激的な特徴への低依存を同時に確保できることを示す。

Deep Neural Networks are prone to learning and relying on spurious correlations in the training data, which, for high-risk applications, can have fatal consequences. Various approaches to suppress model reliance on harmful features have been proposed that can be applied post-hoc without additional training. Whereas those methods can be applied with efficiency, they also tend to harm model performance by globally shifting the distribution of latent features. To mitigate unintended overcorrection of model behavior, we propose a reactive approach conditioned on model-derived knowledge and eXplainable Artificial Intelligence (XAI) insights. While the reactive approach can be applied to many post-hoc methods, we demonstrate the incorporation of reactivity in particular for P-ClArC (Projective Class Artifact Compensation), introducing a new method called R-ClArC (Reactive Class Artifact Compensation). Through rigorous experiments in controlled settings (FunnyBirds) and with a real-world dataset (ISIC2019), we show that introducing reactivity can minimize the detrimental effect of the applied correction while simultaneously ensuring low reliance on spurious features.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# 機械学習に基づく不織布の均質性の最適化ワークフローと人間の検証

Machine learning-based optimization workflow of the homogeneity of spunbond nonwovens with human validation ( http://arxiv.org/abs/2404.09604v1 )

ライセンス: Link先を確認
Viny Saajan Victor, Andre Schmeißer, Heike Leitte, Simone Gramsch, (参考訳) 過去10年間で、不織布生産の平均成長率は4%だった。 2020年と2021年には、新型コロナウイルスのパンデミックに対処するため、FFP2マスクなどの保護服に必要な不織布製品が大量に需要されているため、不織布の生産がさらに増加した。 生産プロセスの最適化は、高い非線形性のため、依然として課題である。 本稿では,スポンボンド不織布の均一性向上を目的とした機械学習に基づく最適化ワークフローを提案する。 最適化ワークフローは、非織布のミクロ構造をシミュレートする数学的モデルに基づいている。 このシミュレータから得られる訓練的なデータに基づいて、異なる機械学習アルゴリズムが訓練され、時間を要するシミュレータの代理モデルを見つける。 人間の検証は、不織布の美学を評価することによって、機械学習アルゴリズムの出力を検証するために用いられる。 我々は、最適化プロセスにかかわる計算コストを削減するため、トレーニングデータに科学的および専門的な知識を含める。 非織布の均一性を最適化するためのワークフローの必要性と有効性を示す。

In the last ten years, the average annual growth rate of nonwoven production was 4%. In 2020 and 2021, nonwoven production has increased even further due to the huge demand for nonwoven products needed for protective clothing such as FFP2 masks to combat the COVID19 pandemic. Optimizing the production process is still a challenge due to its high nonlinearity. In this paper, we present a machine learning-based optimization workflow aimed at improving the homogeneity of spunbond nonwovens. The optimization workflow is based on a mathematical model that simulates the microstructures of nonwovens. Based on trainingy data coming from this simulator, different machine learning algorithms are trained in order to find a surrogate model for the time-consuming simulator. Human validation is employed to verify the outputs of machine learning algorithms by assessing the aesthetics of the nonwovens. We include scientific and expert knowledge into the training data to reduce the computational costs involved in the optimization process. We demonstrate the necessity and effectiveness of our workflow in optimizing the homogeneity of nonwovens.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# 高誘導体を用いた動的理論における最小作用の量子原理

Quantum Principle of Least Action in Dynamic Theories With Higher Derivatives ( http://arxiv.org/abs/2404.09608v1 )

ライセンス: Link先を確認
Natalia Gorobey, Alexander Lukyanenko, A. V. Goltsev, (参考訳) より高階微分を持つ動的理論の一般化された正準作用形式が提案され、追加の動的変数を導入する必要はない。 この形式は、系の運動状態が構成空間の軌跡上の波動関数によって記述され、関数自身は作用作用素の固有ベクトルである量子理論を構成するための初期点である。 Pais-Uhlenbeck発振器は最も単純なモデルと考えられている。 この場合、Pais-Uhlenbeck発振器が「通常の」高調波発振器に還元されるとき、新しい量子理論の形式と「通常の」量子力学との対応が局所的に確立されている。

A generalized canonical form of action of dynamic theories with higher derivatives is proposed, which does not require the introduction of additional dynamic variables. This form is the initial point for the construction of quantum theory, in which the state of motion of the system is described by the wave functional on its trajectories in the configuration space, and the functional itself is an eigenvector of the action operator. The Pais-Uhlenbeck oscillator is considered as the simplest model. For this case, the correspondence between the new form of quantum theory and "ordinary" quantum mechanics has been established in the local limit, when the Pais-Uhlenbeck oscillator is reduced to the "ordinary" harmonic oscillator.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# オーバーフィッティング制御のためのスペーサ正規化器としてのLoRAドロップアウト

LoRA Dropout as a Sparsity Regularizer for Overfitting Control ( http://arxiv.org/abs/2404.09610v1 )

ライセンス: Link先を確認
Yang Lin, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang, Yasha Wang, Hong Mei, (参考訳) LoRAで表されるパラメータ効率のよい微調整法は、下流タスクに大規模な事前学習モデルを適用する上で重要な役割を担っている。 しかし、微調整のLoRAシリーズモデルもまた、トレーニングデータセットに過剰適合するリスクに直面していますが、LoRAベースのPEFTメソッドのオーバーフィットを制御するための理論的ガイダンスと実践的なメカニズムが不足しています。 本稿では,学習可能な低ランク行列にランダムノイズを導入し,パラメータ幅を増大させることにより,LoRAに基づくLoRAドロップアウト機構を提案する。 次に, この枠組みの下での一般化誤差を提供することにより, 空間正規化の観点からLoRAドロップアウト機構の理論機構を実証する。 理論的には、適切なスパーシリティは経験的リスクと一般化リスクのギャップを狭めるのに役立ち、それによってオーバーフィッティングを制御できることが示されている。 さらに,LoRAのDropoutフレームワークをベースとして,テスト時間アンサンブル戦略を導入し,アンサンブル法がエラー境界をさらに圧縮し,推論時の性能向上につながることを示す理論的証拠を提供する。 各種NLPタスクに対する大規模な実験により,モデル精度とキャリブレーション向上のための LoRA Dropout フレームワークの有効性が実証された。

Parameter-efficient fine-tuning methods, represented by LoRA, play an essential role in adapting large-scale pre-trained models to downstream tasks. However, fine-tuning LoRA-series models also faces the risk of overfitting on the training dataset, and yet there's still a lack of theoretical guidance and practical mechanism to control overfitting on LoRA-based PEFT methods. In this paper, we propose a LoRA Dropout mechanism for the LoRA-based methods by introducing random noises to the learnable low-rank matrices and increasing parameter sparsity. We then demonstrate the theoretical mechanism of our LoRA Dropout mechanism from the perspective of sparsity regularization by providing a generalization error bound under this framework. Theoretical results show that appropriate sparsity would help tighten the gap between empirical and generalization risks and thereby control overfitting. Furthermore, based on the LoRA Dropout framework, we introduce a test-time ensemble strategy and provide theoretical evidence demonstrating that the ensemble method can further compress the error bound, and lead to better performance during inference time. Extensive experiments on various NLP tasks provide practical validations of the effectiveness of our LoRA Dropout framework in improving model accuracy and calibration.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# 抵抗記憶を用いた高能率・高精度脳野再構成

Efficient and accurate neural field reconstruction using resistive memory ( http://arxiv.org/abs/2404.09613v1 )

ライセンス: Link先を確認
Yifei Yu, Shaocong Wang, Woyu Zhang, Xinyuan Zhang, Xiuzhe Wu, Yangu He, Jichang Yang, Yue Zhang, Ning Lin, Bo Wang, Xi Chen, Songqi Wang, Xumeng Zhang, Xiaojuan Qi, Zhongrui Wang, Dashan Shang, Qi Liu, Kwang-Ting Cheng, Ming Liu, (参考訳) 人間は、スパース観測を巨大な相互接続されたシナプスとニューロンに統合することで空間の知覚を構築し、優れた並列性と効率を提供する。 この機能をAIで再現することは、医療画像、AR/VR、そして組み込みAIにおいて幅広い応用を見出す。 しかし、デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。 ソフトウェア面では、従来の明示的な信号表現におけるストレージの非効率性によって困難が生じる。 ハードウェア障害としては、CPUとメモリ間のデータ転送を制限するフォン・ノイマンボトルネックや、並列処理をサポートするCMOS回路の制限がある。 本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。 ソフトウェア面では、ニューラルネットワークを介して暗黙的に信号を表現するためにニューラルネットワークを使用し、低ランク分解と構造化プルーニングを用いてさらに圧縮される。 ハードウェア面では、ガウスエンコーダ(GE)とMPP処理エンジン(PE)を備えた抵抗型メモリベース・コンピューティング・イン・メモリ(CIM)プラットフォームを設計する。 GEは、抵抗メモリの固有の確率性を利用して効率的な入力符号化を行い、PEはハードウェア・アウェア量子化(HAQ)回路を介して正確な重量マッピングを行う。 本稿では,40nm 256Kbの抵抗性メモリベースのインメモリ・コンピューティング・マクロにおいて,3次元CTスパース再構成,新規ビュー合成,動的シーンのための新規ビュー合成などのタスクにおいて,再構成品質を損なうことなく,膨大なエネルギー効率と並列性の向上を実現したシステムの有効性を実証する。 この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。

Human beings construct perception of space by integrating sparse observations into massively interconnected synapses and neurons, offering a superior parallelism and efficiency. Replicating this capability in AI finds wide applications in medical imaging, AR/VR, and embodied AI, where input data is often sparse and computing resources are limited. However, traditional signal reconstruction methods on digital computers face both software and hardware challenges. On the software front, difficulties arise from storage inefficiencies in conventional explicit signal representation. Hardware obstacles include the von Neumann bottleneck, which limits data transfer between the CPU and memory, and the limitations of CMOS circuits in supporting parallel processing. We propose a systematic approach with software-hardware co-optimizations for signal reconstruction from sparse inputs. Software-wise, we employ neural field to implicitly represent signals via neural networks, which is further compressed using low-rank decomposition and structured pruning. Hardware-wise, we design a resistive memory-based computing-in-memory (CIM) platform, featuring a Gaussian Encoder (GE) and an MLP Processing Engine (PE). The GE harnesses the intrinsic stochasticity of resistive memory for efficient input encoding, while the PE achieves precise weight mapping through a Hardware-Aware Quantization (HAQ) circuit. We demonstrate the system's efficacy on a 40nm 256Kb resistive memory-based in-memory computing macro, achieving huge energy efficiency and parallelism improvements without compromising reconstruction quality in tasks like 3D CT sparse reconstruction, novel view synthesis, and novel view synthesis for dynamic scenes. This work advances the AI-driven signal restoration technology and paves the way for future efficient and robust medical AI and 3D vision applications.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# トリガー警告があるなら、トリガーはどこにあるのか? パスレベルでトリガー警告を調査中

If there's a Trigger Warning, then where's the Trigger? Investigating Trigger Warnings at the Passage Level ( http://arxiv.org/abs/2404.09615v1 )

ライセンス: Link先を確認
Matti Wiegmann, Jennifer Rakete, Magdalena Wolska, Benno Stein, Martin Potthast, (参考訳) トリガー警告(英: Trigger warnings)は、特定の読者グループによって有害であると認識された場合、機密性の高い内容の文書を序文に記載するラベルである。 文書に関する警告は読み込む前に直感的に表示する必要があるため、著者は通常、文書レベルでトリガー警告を割り当てる。 しかし、どの部分で警告を割り当てたのかは不明だ。 本稿では,文書のトリガーパスを手動と計算の両方で識別できる可能性について検討する。 私たちは4,135の英通のデータセットを作成し、それぞれに8つの一般的なトリガー警告の1つを注釈付けします。 大規模評価では、微調整および小ショット分類器の有効性とその一般化性について体系的に評価する。 トリガーアノテーションはNLPの主観的アノテーションタスクのグループに属しており、自動トリガー分類は難しいが実現可能である。

Trigger warnings are labels that preface documents with sensitive content if this content could be perceived as harmful by certain groups of readers. Since warnings about a document intuitively need to be shown before reading it, authors usually assign trigger warnings at the document level. What parts of their writing prompted them to assign a warning, however, remains unclear. We investigate for the first time the feasibility of identifying the triggering passages of a document, both manually and computationally. We create a dataset of 4,135 English passages, each annotated with one of eight common trigger warnings. In a large-scale evaluation, we then systematically evaluate the effectiveness of fine-tuned and few-shot classifiers, and their generalizability. We find that trigger annotation belongs to the group of subjective annotation tasks in NLP, and that automatic trigger classification remains challenging but feasible.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# UNIAA: 統一されたマルチモーダル画像美容評価ベースラインとベンチマーク

UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark ( http://arxiv.org/abs/2404.09619v1 )

ライセンス: Link先を確認
Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang, (参考訳) 高価な専門家評価の代替として、画像美的評価(IAA)はコンピュータビジョンにおいて重要な課題である。 しかし、従来のIAAメソッドは一般的に単一のデータソースやタスクに制約され、普遍性と幅広いアプリケーションを制限する。 本研究では,UNIAA-LLaVAというマルチモーダル大言語モデル(MLLM)とUNIAA-Benchという総合ベンチマークを含む,統一マルチモーダル画像審美評価(UNIAA)フレームワークを提案する。 IAAの視覚的知覚と言語能力の両面でMLLMを選択し、既存のデータセットを統一的で高品質なビジュアル命令チューニングデータに変換するための低コストなパラダイムを確立し、UNIAA-LLaVAを訓練する。 MLLMのIAA能力をさらに評価するために,認識,説明,評価の3つの審美レベルからなるUNIAA-Benchを構築した。 大規模な実験は、UNIAAの有効性と合理性を検証する。 UNIAA-LLaVAは、既存のMLLMと比較して、UNIAA-Benchのあらゆるレベルにおける競争性能を達成している。 特に,本モデルは審美的知覚においてGPT-4Vよりも優れており,中等レベルの人間にも接近する。 MLLMはIAAに大きな可能性を秘めていますが、さらなる改善の余地はたくさんあります。 UNIAA-LLaVAとUNIAA-Benchが発売される。

As an alternative to expensive expert evaluation, Image Aesthetic Assessment (IAA) stands out as a crucial task in computer vision. However, traditional IAA methods are typically constrained to a single data source or task, restricting the universality and broader application. In this work, to better align with human aesthetics, we propose a Unified Multi-modal Image Aesthetic Assessment (UNIAA) framework, including a Multi-modal Large Language Model (MLLM) named UNIAA-LLaVA and a comprehensive benchmark named UNIAA-Bench. We choose MLLMs with both visual perception and language ability for IAA and establish a low-cost paradigm for transforming the existing datasets into unified and high-quality visual instruction tuning data, from which the UNIAA-LLaVA is trained. To further evaluate the IAA capability of MLLMs, we construct the UNIAA-Bench, which consists of three aesthetic levels: Perception, Description, and Assessment. Extensive experiments validate the effectiveness and rationality of UNIAA. UNIAA-LLaVA achieves competitive performance on all levels of UNIAA-Bench, compared with existing MLLMs. Specifically, our model performs better than GPT-4V in aesthetic perception and even approaches the junior-level human. We find MLLMs have great potential in IAA, yet there remains plenty of room for further improvement. The UNIAA-LLaVA and UNIAA-Bench will be released.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# DIDLM:3次元マッピングのための3次元シナリオにおける赤外線カメラ,深度カメラ,LiDAR,及び4次元ミリ波レーダを用いた総合的マルチセンサデータセット

DIDLM:A Comprehensive Multi-Sensor Dataset with Infrared Cameras, Depth Cameras, LiDAR, and 4D Millimeter-Wave Radar in Challenging Scenarios for 3D Mapping ( http://arxiv.org/abs/2404.09622v1 )

ライセンス: Link先を確認
WeiSheng Gong, Chen He, KaiJie Su, QingYong Li, (参考訳) 本研究では,屋内・屋外環境における3次元マッピングのための総合的マルチセンサ・データセットを提案する。 このデータセットは、赤外線カメラ、深度カメラ、LiDAR、および4Dミリ波レーダーからのデータで構成され、高度な知覚とマッピング技術の調査を容易にする。 多様なセンサデータの統合は、雨や雪、不均一な路面といった極端な条件下での知覚能力を高める。 データセットには、屋内と屋外のさまざまな速度で対話的なロボットデータが含まれており、現実的な背景環境を提供する。 類似経路間のスラム比較を行い、異なる複雑なシーンが様々なセンサーに与える影響を分析した。 さまざまなSLAMアルゴリズムを使用してデータセットを処理し、異なるシナリオにおけるアルゴリズムのパフォーマンスの違いを明らかにする。 要約すると、このデータセットは特殊環境におけるデータ不足の問題に対処し、極端条件に対する知覚とマッピングアルゴリズムの開発を促進する。 赤外線、ディープカメラ、LiDAR、4Dミリ波レーダー、ロボットインタラクションを含むマルチセンサーデータを活用することで、データセットはインテリジェントなマッピングと知覚能力を前進させ、我々のデータセットはhttps://github.com/GongWeiSheng/DIDLMで利用可能である。

This study presents a comprehensive multi-sensor dataset designed for 3D mapping in challenging indoor and outdoor environments. The dataset comprises data from infrared cameras, depth cameras, LiDAR, and 4D millimeter-wave radar, facilitating exploration of advanced perception and mapping techniques. Integration of diverse sensor data enhances perceptual capabilities in extreme conditions such as rain, snow, and uneven road surfaces. The dataset also includes interactive robot data at different speeds indoors and outdoors, providing a realistic background environment. Slam comparisons between similar routes are conducted, analyzing the influence of different complex scenes on various sensors. Various SLAM algorithms are employed to process the dataset, revealing performance differences among algorithms in different scenarios. In summary, this dataset addresses the problem of data scarcity in special environments, fostering the development of perception and mapping algorithms for extreme conditions. Leveraging multi-sensor data including infrared, depth cameras, LiDAR, 4D millimeter-wave radar, and robot interactions, the dataset advances intelligent mapping and perception capabilities.Our dataset is available at https://github.com/GongWeiSheng/DIDLM.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# AesExpert:画像美観知覚のためのマルチモーダリティ基礎モデル

AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception ( http://arxiv.org/abs/2404.09624v1 )

ライセンス: Link先を確認
Yipo Huang, Xiangfei Sheng, Zhichao Yang, Quan Yuan, Zhichao Duan, Pengfei Chen, Leida Li, Weisi Lin, Guangming Shi, (参考訳) 画像美学知覚(IAP)の高度に抽象的な性質は、現在のマルチモーダル大言語モデル(MLLM)に重大な課題をもたらす。 このジレンマはさらに悪化し、MLLMは美学の知覚能力に欠ける。 上記の課題に対処するため,我々はまず,マルチモーダルな美学基礎モデル構築の基盤となる,包括的アノテーション付きマルチモーダル・インストラクション・チューニング(AesMMIT)データセットを導入する。 具体的には,MLLMを人間の審美的知覚に合わせるために,コーパスリッチな審美的批判データベースを構築した。 MLLMが多様なクエリを扱えるようにするために、GPTに麻酔的批評を洗練させ、大規模な麻酔的指導訓練データセット、すなわち409Kのマルチタイプ命令からなるAesMMITを組み立て、より強力な麻酔的能力を活性化させる。 AesMMITデータベースをベースとして,オープンソース基盤モデルを微調整し,AesExpertと呼ばれるマルチモダリティAesthetic Expertモデルを実現する。 大規模な実験により、提案されたAesExpertモデルは、最先端のGPT-4VやGemini-Pro-Visionを含む最先端のMLLMよりもはるかに優れた審美的知覚性能を提供することが示された。 ソースデータはhttps://github.com/yipoh/AesExpert.comで入手できる。

The highly abstract nature of image aesthetics perception (IAP) poses significant challenge for current multimodal large language models (MLLMs). The lack of human-annotated multi-modality aesthetic data further exacerbates this dilemma, resulting in MLLMs falling short of aesthetics perception capabilities. To address the above challenge, we first introduce a comprehensively annotated Aesthetic Multi-Modality Instruction Tuning (AesMMIT) dataset, which serves as the footstone for building multi-modality aesthetics foundation models. Specifically, to align MLLMs with human aesthetics perception, we construct a corpus-rich aesthetic critique database with 21,904 diverse-sourced images and 88K human natural language feedbacks, which are collected via progressive questions, ranging from coarse-grained aesthetic grades to fine-grained aesthetic descriptions. To ensure that MLLMs can handle diverse queries, we further prompt GPT to refine the aesthetic critiques and assemble the large-scale aesthetic instruction tuning dataset, i.e. AesMMIT, which consists of 409K multi-typed instructions to activate stronger aesthetic capabilities. Based on the AesMMIT database, we fine-tune the open-sourced general foundation models, achieving multi-modality Aesthetic Expert models, dubbed AesExpert. Extensive experiments demonstrate that the proposed AesExpert models deliver significantly better aesthetic perception performances than the state-of-the-art MLLMs, including the most advanced GPT-4V and Gemini-Pro-Vision. Source data will be available at https://github.com/yipoh/AesExpert.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# 畳み込みニューラルネットワークを用いたプライバシー保護侵入検出

Privacy-Preserving Intrusion Detection using Convolutional Neural Networks ( http://arxiv.org/abs/2404.09625v1 )

ライセンス: Link先を確認
Martin Kodys, Zhongmin Dai, Vrizlynn L. L. Thing, (参考訳) プライバシー保護分析は、貴重な資産を保護するように設計されている。 共通のサービス提供には、クライアントからの入力データとアナリスト側のモデルが含まれます。 プライバシー保護の重要性は、法的義務と知的財産権の懸念によって支えられている。 顧客のプライベートデータに対して分析サービスを提供するモデルオーナのユースケースについて検討する。 データに関する情報はアナリストに公開されず,モデルに関する情報は顧客にリークされない。 現在の手法には、精度の劣化と計算の複雑さといったコストが伴っている。 その結果、処理時間が長くなり、コンピューティングリソースに対する要求が増大し、クライアントとサーバ間のデータ通信が複雑になる。 このようなサービスアーキテクチャをデプロイするには、制約に適合する最適な設定を評価する必要があります。 そして、この論文はそれに対処する。 本研究では,当初医療データ用に設計されたPriMIAフレームワークに基づくプライバシ保護技術を用いて,畳み込みニューラルネットワークに基づく攻撃検出システムを強化する。

Privacy-preserving analytics is designed to protect valuable assets. A common service provision involves the input data from the client and the model on the analyst's side. The importance of the privacy preservation is fuelled by legal obligations and intellectual property concerns. We explore the use case of a model owner providing an analytic service on customer's private data. No information about the data shall be revealed to the analyst and no information about the model shall be leaked to the customer. Current methods involve costs: accuracy deterioration and computational complexity. The complexity, in turn, results in a longer processing time, increased requirement on computing resources, and involves data communication between the client and the server. In order to deploy such service architecture, we need to evaluate the optimal setting that fits the constraints. And that is what this paper addresses. In this work, we enhance an attack detection system based on Convolutional Neural Networks with privacy-preserving technology based on PriMIA framework that is initially designed for medical data.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# インコンテキスト翻訳:画像認識・処理・生成の統一を目指して

In-Context Translation: Towards Unifying Image Recognition, Processing, and Generation ( http://arxiv.org/abs/2404.09633v1 )

ライセンス: Link先を確認
Han Xue, Qianru Sun, Li Song, Wenjun Zhang, Zhiwu Huang, (参考訳) 視覚認識(セマンティックセグメンテーション)、低レベル画像処理(例えば、デノイング)、条件付き画像生成(例えば、エッジ・ツー・イメージ合成)を統合化するための一般的な学習フレームワークであるICT(In-Context Translation)を提案する。 統合により、ICTは特定のタスクのモデルの設計に伴う固有の帰納バイアスを著しく減らし、類似タスク間の相互強化を最大化する。 しかし、さまざまなデータフォーマットやトレーニングパイプラインのため、多数のタスクをまたいだ統合は簡単ではない。 この目的のためにICTは2つの設計を導入する。 まず、異なるタスクの入力出力データをRGBイメージペアに標準化する。例えば、セマンティックセグメンテーションデータは同じRGBフォーマットで、そのセグメンテーションマスクとRGBイメージをペアリングする。 これにより、異なるタスクが2つのRGBイメージ間の一般的な翻訳タスクになる。 第二に、異なるタスクのトレーニングを一般的なインコンテキスト学習に標準化する。ここでは、入力が対象タスクの入力出力対とクエリイメージの例を含むことを意味する。 学習の目的は、クエリと組み合わせた"ミス"データを生成することだ。 したがって、暗黙の翻訳プロセスは、クエリと生成された画像の間のものである。 実験では、ICTは10の視覚タスクを統一し、それぞれのベンチマークで印象的なパフォーマンスを示す。 特に、競合他社であるPapererやPromptDiffusionと比較して、4つのRTX 3090 GPUでトレーニングされたICTは、トレーニングにおいてより効率的で低コストであることが示されている。

We propose In-Context Translation (ICT), a general learning framework to unify visual recognition (e.g., semantic segmentation), low-level image processing (e.g., denoising), and conditional image generation (e.g., edge-to-image synthesis). Thanks to unification, ICT significantly reduces the inherent inductive bias that comes with designing models for specific tasks, and it maximizes mutual enhancement across similar tasks. However, the unification across a large number of tasks is non-trivial due to various data formats and training pipelines. To this end, ICT introduces two designs. Firstly, it standardizes input-output data of different tasks into RGB image pairs, e.g., semantic segmentation data pairs an RGB image with its segmentation mask in the same RGB format. This turns different tasks into a general translation task between two RGB images. Secondly, it standardizes the training of different tasks into a general in-context learning, where "in-context" means the input comprises an example input-output pair of the target task and a query image. The learning objective is to generate the "missing" data paired with the query. The implicit translation process is thus between the query and the generated image. In experiments, ICT unifies ten vision tasks and showcases impressive performance on their respective benchmarks. Notably, compared to its competitors, e.g., Painter and PromptDiffusion, ICT trained on only 4 RTX 3090 GPUs is shown to be more efficient and less costly in training.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# オールインワンシミュレーションに基づく推論

All-in-one simulation-based inference ( http://arxiv.org/abs/2404.09636v1 )

ライセンス: Link先を確認
Manuel Gloeckler, Michael Deistler, Christian Weilbach, Frank Wood, Jakob H. Macke, (参考訳) 償却ベイズ推論は、モデルシミュレーションを用いて確率的推論問題を解決するためにニューラルネットワークを訓練し、新たに観測されたデータに対してベイズ推論を迅速に実行できるようにする。 しかし、現在のシミュレーションベースの償却推論手法は、シミュレーションに長けており、非柔軟である: 固定パラメトリック事前、シミュレータ、推論タスクを事前に指定する必要がある。 ここでは、これらの制限を克服する新しい償却推論手法、Simformerを提案する。 トランスフォーマーアーキテクチャで確率的拡散モデルをトレーニングすることにより、Simformerは、現在の最先端のアモート化推論アプローチをベンチマークタスクで上回り、より柔軟になる。関数値パラメータを持つモデルに適用でき、欠落したデータや非構造データで推論シナリオを処理でき、後と後の両方を含むパラメータとデータの結合分布の任意の条件をサンプリングすることができる。 生態学,疫学,神経科学のシミュレータ上でのSimformerの性能と柔軟性を実証し,シミュレーションベースモデルによるベイズ推定に対する新たな可能性と応用領域を開くことを実証した。

Amortized Bayesian inference trains neural networks to solve stochastic inference problems using model simulations, thereby making it possible to rapidly perform Bayesian inference for any newly observed data. However, current simulation-based amortized inference methods are simulation-hungry and inflexible: They require the specification of a fixed parametric prior, simulator, and inference tasks ahead of time. Here, we present a new amortized inference method -- the Simformer -- which overcomes these limitations. By training a probabilistic diffusion model with transformer architectures, the Simformer outperforms current state-of-the-art amortized inference approaches on benchmark tasks and is substantially more flexible: It can be applied to models with function-valued parameters, it can handle inference scenarios with missing or unstructured data, and it can sample arbitrary conditionals of the joint distribution of parameters and data, including both posterior and likelihood. We showcase the performance and flexibility of the Simformer on simulators from ecology, epidemiology, and neuroscience, and demonstrate that it opens up new possibilities and application domains for amortized Bayesian inference on simulation-based models.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# CREST: ゼロショット学習の強化のための証拠深層学習によるクロスモーダル共鳴

CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning ( http://arxiv.org/abs/2404.09640v1 )

ライセンス: Link先を確認
Haojian Huang, Xiaozhen Qiao, Zhuo Chen, Haodong Chen, Bingyu Li, Zhe Sun, Mulin Chen, Xuelong Li, (参考訳) ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。 この知識は、典型的には属性記述にカプセル化され、クラス固有の視覚的特徴を識別し、視覚的セマンティックなアライメントを促進し、ZSLのパフォーマンスを向上させる。 しかし、インスタンス間の分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げることがしばしばあり、これは、きめ細かい領域固有の属性アノテーションの不足によって悪化する。 さらに、カテゴリー内の視覚的プレゼンテーションの多様性は属性カテゴリーの関連を歪ませることもできる。 そこで本研究では,双方向の双方向ZSLアプローチであるCRESTを提案する。 属性と視覚的ローカライゼーションの表現を抽出することから始まり、Evidential Deep Learning (EDL) を用いて、根底にあるてんかんの不確実性を測定することによって、強陰性に対するモデルのレジリエンスを高める。 CRESTには、視覚的カテゴリと属性的カテゴリのアライメントの両方に焦点を当てたデュアルラーニングパスが組み込まれており、潜在空間と可観測空間の堅牢な相関性を保証する。 さらに,不確実性のあるクロスモーダル融合手法を導入し,視覚属性推論を洗練させる。 大規模な実験では、複数のデータセットにまたがるモデルの有効性とユニークな説明可能性を示す。 コメント: 進行中の作業、10ページ、2テーブル、9の図; Repoはhttps://github.com/JethroJames/CREST.comで利用可能です。

Zero-shot learning (ZSL) enables the recognition of novel classes by leveraging semantic knowledge transfer from known to unknown categories. This knowledge, typically encapsulated in attribute descriptions, aids in identifying class-specific visual features, thus facilitating visual-semantic alignment and improving ZSL performance. However, real-world challenges such as distribution imbalances and attribute co-occurrence among instances often hinder the discernment of local variances in images, a problem exacerbated by the scarcity of fine-grained, region-specific attribute annotations. Moreover, the variability in visual presentation within categories can also skew attribute-category associations. In response, we propose a bidirectional cross-modal ZSL approach CREST. It begins by extracting representations for attribute and visual localization and employs Evidential Deep Learning (EDL) to measure underlying epistemic uncertainty, thereby enhancing the model's resilience against hard negatives. CREST incorporates dual learning pathways, focusing on both visual-category and attribute-category alignments, to ensure robust correlation between latent and observable spaces. Moreover, we introduce an uncertainty-informed cross-modal fusion technique to refine visual-attribute inference. Extensive experiments demonstrate our model's effectiveness and unique explainability across multiple datasets. Our code and data are available at: Comments: Ongoing work; 10 pages, 2 Tables, 9 Figures; Repo is available at https://github.com/JethroJames/CREST.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# 非マルコフ効果を持つキャビティに結合した3レベル原子における複数の単光子生成

Multiple single-photon generations in three-level atoms coupled to cavity with non-Markovian effects ( http://arxiv.org/abs/2404.09641v1 )

ライセンス: Link先を確認
H. Z. Shen, Y. Chen, T. Z. Luan, X. X. Yi, (参考訳) 本稿では,光学キャビティから任意の時間形状の複数の単一光子波束を,非マルコフ系における駆動場によって駆動される3レベル原子$N$と組み合わせて生成する方法を示す。 このような波束を生成するための最適駆動場を正確に解析的に表現し, キャビティと駆動場の2つの微調整に依存する。 私たちが使用した空洞は、互いに対向する2つの鏡で構成されており、1つは完全であり、もう1つは、対応する非マルコフ入力出力場と結合する散逸(一方の側空洞)が存在する。 マルコフ系が生成した最初の単光子波束が非マルコフ系の場合と同じであれば、マルコフ系は、他の環境のスペクトル幅が第1環境のスペクトル幅と異なる値を取るとき、同じ複数の単光子波束を生成できない。 生成された複数の異なる単光子波束は互いに独立ではなく、非マルコフスペクトルパラメータとの特定の関係を満たす。 我々はマルコフ的状態から非マルコフ的状態への移行を分析し、空洞が複数の非マルコフ的環境と同時に相互作用する場合との違いを比較する。 最後に、上記の結果を、駆動された3レベル原子と結合した多くのキャビティを含む一般のマルコフ量子ネットワークに拡張する。

In this paper, we show how to generate the multiple single-photon wavepackets of arbitrary temporal shape from an optical cavity coupled with $N$ three-level atoms driven by a driving field in the non-Markovian regime. We derive an exact analytical expression of the optimal driving field for generating such wavepackets, which depends on two detunings of the cavity and driving field with respect to the three-level atoms. The cavity we used consists of two mirrors facing each other, where one is perfect and the other exists the dissipation (one-sided cavity), which couples with the corresponding non-Markovian input-output fields. If the first single-photon wavepacket generated by the Markovian system is the same as the non-Markovian case, the Markovian system cannot generate the same multiple single-photon wavepackets as the non-Markovian one when the spectral widths of the other environments taking values different from the spectral width of the first environment, while setting the equal spectral widths for the different environments can generate this. The generated multiple different single-photon wavepackets are not independent of each other, which satisfy certain relations with non-Markovian spectral parameters. We analyse the transition from Markovian to non-Markovian regimes and compare the differences between them, where the cavity interacts simultaneously with the multiple non-Markovian environments. Finally, we extend the above results to a general non-Markovian quantum network involving many cavities coupled with driven three-level atoms.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# サービスロボットのための実世界のインスタンス固有の画像ゴールナビゲーション:コントラスト学習による領域ギャップのブリッジ

Real-world Instance-specific Image Goal Navigation for Service Robots: Bridging the Domain Gap with Contrastive Learning ( http://arxiv.org/abs/2404.09645v1 )

ライセンス: Link先を確認
Taichi Sakaguchi, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Shoichi Hasegawa, Tadahiro Taniguchi, (参考訳) クエリ画像から同一のオブジェクトを実環境に配置するインスタンス固有の画像目標ナビゲーション(InstanceImageNav)の改善は,ロボットシステムにおいて,ユーザが希望するオブジェクトを見つけるのを支援する上で不可欠である。 この課題は、移動ロボットが観察する低品質画像と、動作のぼやけと低解像度の画像と、ユーザが提供した高品質なクエリ画像との間の領域ギャップにある。 このようなドメインギャップはタスクの成功率を大幅に低下させる可能性があるが、以前の作業の焦点にはならなかった。 そこで本研究では,Few-shot Cross-quality Instance-Aware Adaptation (CrossIA) という手法を提案する。 このアプローチは、クロス品質な画像の潜在表現をインスタンスベースで近づけることで、ドメインギャップを効果的に削減する。 さらに,対象画像収集と事前学習したデブロアリングモデルを統合し,観察された画質を向上させる。 This method fine-tunes the SimSiam model, pre-trained on ImageNet, using CrossIA。 提案手法の有効性を,20種類のインスタンスを用いたインスタンスイメージNavタスクを用いて評価した。 提案手法は,SuperGlueに基づく従来の手法であるベースラインに比べて,タスク成功率を最大3倍改善することを示した。 これらの知見は、ドメインギャップを埋め、ロボットアプリケーションにおけるオブジェクトのローカライゼーションを改善するために、対照的な学習と画像強調技術を活用する可能性を強調している。 プロジェクトのWebサイトはhttps://emergentsystemlabstudent.github.io/DomainBridgingNav/である。

Improving instance-specific image goal navigation (InstanceImageNav), which locates the identical object in a real-world environment from a query image, is essential for robotic systems to assist users in finding desired objects. The challenge lies in the domain gap between low-quality images observed by the moving robot, characterized by motion blur and low-resolution, and high-quality query images provided by the user. Such domain gaps could significantly reduce the task success rate but have not been the focus of previous work. To address this, we propose a novel method called Few-shot Cross-quality Instance-aware Adaptation (CrossIA), which employs contrastive learning with an instance classifier to align features between massive low- and few high-quality images. This approach effectively reduces the domain gap by bringing the latent representations of cross-quality images closer on an instance basis. Additionally, the system integrates an object image collection with a pre-trained deblurring model to enhance the observed image quality. Our method fine-tunes the SimSiam model, pre-trained on ImageNet, using CrossIA. We evaluated our method's effectiveness through an InstanceImageNav task with 20 different types of instances, where the robot identifies the same instance in a real-world environment as a high-quality query image. Our experiments showed that our method improves the task success rate by up to three times compared to the baseline, a conventional approach based on SuperGlue. These findings highlight the potential of leveraging contrastive learning and image enhancement techniques to bridge the domain gap and improve object localization in robotic applications. The project website is https://emergentsystemlabstudent.github.io/DomainBridgingNav/.
翻訳日:2024-04-16 12:50:12 公開日:2024-04-15
# 導波路QEDにおける光ブロッホ方程式の閉包:動力学,エネルギー学

Closing Optical Bloch Equations in waveguide QED: Dynamics, Energetics ( http://arxiv.org/abs/2404.09648v1 )

ライセンス: Link先を確認
Samyak Pratyush Prasad, Maria Maffei, Patrice A. Camati, Cyril Elouard, Alexia Auffèves, (参考訳) 光ブロッホ方程式(OBE)は、古典的に駆動された2レベル原子の熱電場に結合した力学をモデル化する。 グローバルな視点から見ると、それらは閉じた孤立した原子場系のユニタリ進化に由来する。 駆動と熱場が1つの空間次元に閉じ込められている場合のOBEの出現について検討する。 結合原子-磁場系は「1次元原子」(1次元原子)を形成し、閉じた力学を解き、光-物質相関にアクセスできる。 このようなOBEの閉鎖は、エネルギー基底における原子のコヒーレンスに比例する、原子の駆動を自身で捉える新しい用語、すなわち自己駆動を公表する。 1D原子は、自律的なエネルギー保存システムを構成する。 したがって、原子と磁場の間のエネルギー交換は閉じた第一法則として便利に分析でき、そこでは仕事のような(熱のような)流れは、一方の系が持つ効果的なユニタリ(相関)から生じる。 クローズドなアプローチとオープンなアプローチは、第二法則のより厳密な表現をもたらす原子の自己作業によってのみ異なることを示す。 我々は、この締め付けを、OBEを閉じることによって獲得した外部知識と定量的に関連付ける。 私たちが導入した概念と効果は、量子状態における熱力学の理解を深め、量子スケールでのエネルギー管理の可能性を高める。 それらは最先端の量子ハードウェア、例えば超伝導やフォトニック回路で探索することができる。

Optical Bloch Equations (OBE) model the dynamics of a classically driven two-level atom coupled to a thermal electromagnetic field. From a global viewpoint, they derive from the unitary evolution of a closed, isolated atom-field system. We study the emergence of the OBE in the case where the driving and the thermal fields are confined in one spatial dimension -- a situation usually found in waveguide-QED. The joint atom-field system forms a "one-dimensional atom" (1D atom) whose closed dynamics can be solved, providing access to light-matter correlations. Such closure of the OBE unveils a new term capturing the driving of the atom by itself, or self-drive, which is proportional to the atom coherences in the energy basis. A 1D atom also constitutes an autonomous, energy-conserving system. Hence, energy exchanges between the atom and the field can be conveniently analyzed as closed first laws, where work-like (heat-like) flows stem from effective unitaries (correlations) exerted by one system on the other. We show that the closed and the open approaches only differ by the atom self-work, which yields a tighter expression of the second law. We quantitatively relate this tightening to the extra-knowledge acquired by closing the OBE. The concepts and effects we introduce deepen our understanding of thermodynamics in the quantum regime and its potential for energy management at quantum scales. They can be probed in state-of-the-art quantum hardware, e.g. superconducting and photonic circuits.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 双極子-双極子相互作用による浮遊ナノ粒子のコヒーレント制御

Coherent control of levitated nanoparticles via dipole-dipole interaction ( http://arxiv.org/abs/2404.09651v1 )

ライセンス: Link先を確認
Sandeep Sharma, Seongi Hong, Andrey S. Moskalenko, (参考訳) 本研究では, 相互作用する2つのナノ粒子からなる系において, 熱収縮状態とランダム位相コヒーレント状態を生成し, 伝達する手法を提案する。 本システムでは, ナノ粒子をパラメトリックに駆動し, その状態を高忠実度で他のナノ粒子に伝達することにより, 熱収縮状態を生成する。 転写機構は、トラップレーザーの位相と浮遊ナノ粒子間の粒子間距離を適切に調節することにより、系の非相互結合を誘導することに基づいている。 この非相互結合は、情報が1つのナノ粒子から他のナノ粒子に流れる一方向のチャネルを生成するが、その逆ではないため、高忠実度でナノ粒子間の機械的状態の移動を可能にする。 また, この共振系において, ランダム位相コヒーレント状態の生成と転送を効率よく行うことにより, この伝達機構を実証する。 さらに, フィードバックの非線形性とパラメトリック駆動を利用して, 連立浮動系における同時浮動特性を創出する。 我々の結果は、量子情報処理、量子気象学、および制御された環境下での多体物理学の探索に潜在的に応用できるかもしれない。

We propose a scheme to create and transfer thermal squeezed states and random-phase coherent states in a system of two interacting levitated nanoparticles. In this coupled levitated system, we create a thermal squeezed state of motion in one of the nanoparticles by parametrically driving it and then transferring the state to the other nanoparticle with high fidelity. The transfer mechanism is based on inducing a non-reciprocal type of coupling in the system by suitably modulating the phases of the trapping lasers and the inter-particle distance between the levitated nanoparticles. This non-reciprocal coupling creates a unidirectional channel where information flows from one nanoparticle to the other nanoparticle but not vice versa, thereby allowing for transfer of mechanical states between the nanoparticles with high fidelity. We also affirm this transfer mechanism by creating and efficiently transferring a random-phase coherent state in the coupled levitated system. Further, we make use of the feedback nonlinearity and parametric driving to create simultaneous bistability in the coupled levitated system. Our results may have potential applications in quantum information processing, quantum metrology, and in exploring many-body physics under a controlled environment.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 2次ハイパープロパタイトモニタリング

Monitoring Second-Order Hyperproperties ( http://arxiv.org/abs/2404.09652v1 )

ライセンス: Link先を確認
Raven Beutner, Bernd Finkbeiner, Hadar Frenkel, Niklas Metzger, (参考訳) ハイパープロパティは、システムの複数実行間の関係を表現する。 これは知識表現や計画など、多くのAI関連分野において、知識、情報フロー、プライバシに関連するシステム特性をキャプチャするために必要である。 本稿では,実行時の複雑なハイパープロパティのモニタリングについて検討する。 この領域におけるこれまでの研究は、トレース特性(トレースの集合であるが、ハイパープロパティはトレースの集合である)の監視のより単純な問題や、HyperLTLのようなトレース上の一階量子化を持つ時間論理で表現可能な一階のハイパープロパティの監視に重点を置いていた。 より表現力に富んだ2次超越性に対する最初のモニタリングアルゴリズムを提案する。 2階超越性には、共通知識のようなシステム特性が含まれており、HyperLTLのような一階述語論理では表現できない。 有限トレース上の時間論理であるHyper$^2$LTL$_f$を導入し、トレースの集合上の2階量子化を可能にする。 本研究では,(1)一定数のトレースを並列に監視する並列モデル,(2)非有界数のトレースを逐次観測する逐次モデル,の2つの基本実行モデルについて検討する。 並列モデルでは,Hyper$2$LTL$_f$の2次ハイパープロパティの監視を1次ハイパープロパティの監視に還元できることを示す。 逐次モデルでは, 2次量子化を効率的に処理し, サブフォーミュラの単調性, グラフベースの実行の保存, 固定点ハッシュに基づいて最適化を行う。 一般的な知識や計画の例を含む,さまざまなベンチマークによる実験結果を示す。

Hyperproperties express the relationship between multiple executions of a system. This is needed in many AI-related fields, such as knowledge representation and planning, to capture system properties related to knowledge, information flow, and privacy. In this paper, we study the monitoring of complex hyperproperties at runtime. Previous work in this area has either focused on the simpler problem of monitoring trace properties (which are sets of traces, while hyperproperties are sets of sets of traces) or on monitoring first-order hyperproperties, which are expressible in temporal logics with first-order quantification over traces, such as HyperLTL. We present the first monitoring algorithm for the much more expressive class of second-order hyperproperties. Second-order hyperproperties include system properties like common knowledge, which cannot be expressed in first-order logics like HyperLTL. We introduce Hyper$^2$LTL$_f$, a temporal logic over finite traces that allows for second-order quantification over sets of traces. We study the monitoring problem in two fundamental execution models: (1) the parallel model, where a fixed number of traces is monitored in parallel, and (2) the sequential model, where an unbounded number of traces is observed sequentially, one trace after the other. For the parallel model, we show that the monitoring of the second-order hyperproperties of Hyper$^2$LTL$_f$ can be reduced to monitoring first-order hyperproperties. For the sequential model, we present a monitoring algorithm that handles second-order quantification efficiently, exploiting optimizations based on the monotonicity of subformulas, graph-based storing of executions, and fixpoint hashing. We present experimental results from a range of benchmarks, including examples from common knowledge and planning.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# LLMは視覚異常を理解するか? ゼロショット異常検出におけるLCMの能力を明らかにする

Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection ( http://arxiv.org/abs/2404.09654v1 )

ライセンス: Link先を確認
Jiaqi Zhu, Shaofeng Cai, Fang Deng, Junran Wu, (参考訳) 大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現を導出するのに非常に有能である。 近年の研究では、異常プロンプトと呼ばれる正常および異常な状態を示すテキスト記述と画像をペアリングすることで、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを活用している。 しかし、既存のアプローチは、断続的曖昧さを生じるような静的な異常なプロンプトに依存し、正確な異常なローカライゼーションに必要な重要な局所画素レベルの画像-テキストアライメントよりも、グローバルな画像レベルの表現を優先する。 本稿では,これらの課題に統一モデルを用いて対処するためのトレーニングフリーアプローチであるALFAを提案する。 本稿では,大言語モデル(LLM)の機能を活用するために,まず情報的異常を発生させる実行時プロンプト適応戦略を提案する。 この戦略は、画像ごとの異常な適応と横断的あいまいさ軽減のための文脈的スコアリング機構によって強化される。 さらに,局所的意味空間から局所的意味空間へ画像テキストのアライメントを投影することにより,局所的画素レベルのセマンティクスを融合する新たな微粒化アライメント器を導入する。 挑戦的なMVTecとVisAデータセットに関する広範囲な評価は、ALFAがゼロショットVADに言語の可能性を活用することの有効性を確認し、MVTec ADでは12.1%、VisAでは8.9%の大幅なプロポーザル改善を実現した。

Large vision-language models (LVLMs) are markedly proficient in deriving visual representations guided by natural language. Recent explorations have utilized LVLMs to tackle zero-shot visual anomaly detection (VAD) challenges by pairing images with textual descriptions indicative of normal and abnormal conditions, referred to as anomaly prompts. However, existing approaches depend on static anomaly prompts that are prone to cross-semantic ambiguity, and prioritize global image-level representations over crucial local pixel-level image-to-text alignment that is necessary for accurate anomaly localization. In this paper, we present ALFA, a training-free approach designed to address these challenges via a unified model. We propose a run-time prompt adaptation strategy, which first generates informative anomaly prompts to leverage the capabilities of a large language model (LLM). This strategy is enhanced by a contextual scoring mechanism for per-image anomaly prompt adaptation and cross-semantic ambiguity mitigation. We further introduce a novel fine-grained aligner to fuse local pixel-level semantics for precise anomaly localization, by projecting the image-text alignment from global to local semantic spaces. Extensive evaluations on the challenging MVTec and VisA datasets confirm ALFA's effectiveness in harnessing the language potential for zero-shot VAD, achieving significant PRO improvements of 12.1% on MVTec AD and 8.9% on VisA compared to state-of-the-art zero-shot VAD approaches.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# リアルアライメントのための参照モデルを学ぶ

Learn Your Reference Model for Real Good Alignment ( http://arxiv.org/abs/2404.09656v1 )

ライセンス: Link先を確認
Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov, (参考訳) アライメント問題の複雑さは、既存の方法が不安定であるという事実に起因している。 研究者たちは、この欠点に対処するために、さまざまなトリックを継続的に発明している。 例えば、言語モデルアライメントの基本的なReinforcement Learning From Human Feedback (RLHF)技術では、報酬の最大化に加えて、トレーニング可能なポリシーとSFTポリシーのKullback-Leibler分散が最小化される。 この追加により、モデルがリワードモデル(RM)に過度に適合し、RMのドメイン外であるテキストを生成するのを防ぐ。 直接選好最適化(DPO)法は、RLHFの最適化タスクを再構成し、SFTポリシーに近いポリシーの要件を暗黙的に維持しつつ、リワードモデルを除去する。 本稿では,DPO法におけるこの暗黙の制限が準最適結果をもたらすことを論じる。 本稿では,トレーニング中の基準方針を更新するTrust Region DPO(TR-DPO)を提案する。 このような簡単な更新により、HHおよびTLDRデータセット上でのDPOに対するTR-DPOの有効性を示す。 TR-DPOはGPT-4による自動評価で最大19%DPOより優れていた。 提案する新たなアライメントアプローチでは,コヒーレンス,正確性,詳細度,有用性,無害性など,複数のパラメータにわたるモデルの品質を同時に向上することができる。

The complexity of the alignment problem stems from the fact that existing methods are unstable. Researchers continuously invent various tricks to address this shortcoming. For instance, in the fundamental Reinforcement Learning From Human Feedback (RLHF) technique of Language Model alignment, in addition to reward maximization, the Kullback-Leibler divergence between the trainable policy and the SFT policy is minimized. This addition prevents the model from being overfitted to the Reward Model (RM) and generating texts that are out-of-domain for the RM. The Direct Preference Optimization (DPO) method reformulates the optimization task of RLHF and eliminates the Reward Model while tacitly maintaining the requirement for the policy to be close to the SFT policy. In our paper, we argue that this implicit limitation in the DPO method leads to sub-optimal results. We propose a new method called Trust Region DPO (TR-DPO), which updates the reference policy during training. With such a straightforward update, we demonstrate the effectiveness of TR-DPO against DPO on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by up to 19%, measured by automatic evaluation with GPT-4. The new alignment approach that we propose allows us to improve the quality of models across several parameters at once, such as coherence, correctness, level of detail, helpfulness, and harmlessness.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 量子コンピュータ, 量子コンピューティング, 量子熱力学

Quantum Computers, Quantum Computing and Quantum Thermodynamics ( http://arxiv.org/abs/2404.09663v1 )

ライセンス: Link先を確認
Fabrizio Cleri, (参考訳) 量子熱力学は、標準的な熱力学と非平衡統計物理学を、熱力学の限界よりはるかに低い大きさの系に拡張することを目的としている。 物理学の基礎の理解を変えつつ、ナノスケールで新しい熱力学技術や応用の発見を可能にする、急速に発展する研究分野である。 熱管理は従来のデジタルコンピュータの限界を押し上げる上で大きな障害となり、量子コンピュータにとっても重要な問題となるだろう。 超伝導ループを持つ量子コンピュータの現実的な実現には、熱ノイズを除去するために極低温での作業が必要であり、イオントラップ量子ビットは衝突ノイズを最小化するために温度だけでなく低温も必要である。 したがって、仕事と熱の量子再定義、量子状態の熱化とランダム化、量子および熱ゆらぎの重複など、多くの熱力学的疑問が中心となる。 この概要は、量子熱力学における現在のトレンドの選択とその量子コンピュータと量子コンピューティングへの影響に関する入門的な視点を提供し、異なる分野の大学院生や研究者にも言語がアクセス可能である。

Quantum thermodynamics aims at extending standard thermodynamics and non-equilibrium statistical physics to systems with sizes well below the thermodynamic limit. A rapidly evolving research field, which promises to change our understanding of the foundations of physics, while enabling the discovery of novel thermodynamic techniques and applications at the nanoscale. Thermal management turned into a major obstacle in pushing the limits of conventional digital computers, and it will represent a crucial issue also for quantum computers. The practical realization of quantum computers with superconducting loops requires working at cryogenic temperatures to eliminate thermal noise; ion-trap qubits need as well low temperatures to minimize collisional noise; in both cases, the sub-nanometric sizes also bring about thermal broadening of the quantum states. A number of thermal and thermodynamic questions therefore take center stage, such as quantum re-definitions of work and heat, thermalization and randomization of quantum states, the overlap of quantum and thermal fluctuations, and many other, even including a proper definition of temperature for the small open systems constantly out of equilibrium that are the qubits. This overview provides an introductory perspective on a selection of current trends in quantum thermodynamics and their impact on quantum computers and quantum computing, with a language accessible also to postgraduate students and researchers from different fields.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 公正表現と正確性の間のトレードオフにおけるギャップの閉鎖

Closing the Gap in the Trade-off between Fair Representations and Accuracy ( http://arxiv.org/abs/2404.09664v1 )

ライセンス: Link先を確認
Biswajit Rout, Ananya B. Sai, Arun Rajkumar, (参考訳) さまざまな機械学習モデルの急速な開発と、いくつかのアプリケーションへの展開により、これらのモデルの精度を超えることの重要性が議論されている。 このようなモデルの公平さは、より多くの注目を集める価値のある側面である。 本研究では、文書や文の自然言語表現(エンコーディング)を埋め込みレベルのバイアスに対して分析し、それらに依存する下流タスクの公平性に影響を与える可能性がある。 これらのエンコーディングにおけるバイアスは、主成分の様々な部分集合に沿った再構成誤差の違いに基づいて、異なるサブグループに対して、あるいは、異なるサブグループに対して、特定する。 我々は、エンコーディングにおけるそのようなバイアスを軽減する方法を探り、推奨すると同時に、それらを使用する分類モデルにおいて適切な精度を維持する。

The rapid developments of various machine learning models and their deployments in several applications has led to discussions around the importance of looking beyond the accuracies of these models. Fairness of such models is one such aspect that is deservedly gaining more attention. In this work, we analyse the natural language representations of documents and sentences (i.e., encodings) for any embedding-level bias that could potentially also affect the fairness of the downstream tasks that rely on them. We identify bias in these encodings either towards or against different sub-groups based on the difference in their reconstruction errors along various subsets of principal components. We explore and recommend ways to mitigate such bias in the encodings while also maintaining a decent accuracy in classification models that use them.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# Multi-News+: LLMデータアノテーションによる費用効率の良いデータセットのクリーン化

Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation ( http://arxiv.org/abs/2404.09682v1 )

ライセンス: Link先を確認
Juhwan Choi, Jungmin Yun, Kyohoon Jin, YoungBin Kim, (参考訳) データセットの品質は、下流のタスクモデルの最適なパフォーマンスと信頼性を保証するために不可欠である。 しかし、データセットは、建設プロセス中に不注意に含まれているノイズの多いデータを含むことが多い。 人間アノテータによってこの問題を修正するために、多くの試みがなされている。 しかし、人間アノテータの採用と管理は高価で時間を要する。 代替として、最近の研究では、データアノテーションに大規模言語モデル(LLM)を使うことを検討している。 本研究では, LLMに基づくデータアノテーションの適用を拡大し, クリーン化戦略を通じて既存のデータセットの品質を向上させるケーススタディを提案する。 具体的には,多文書要約タスクに広く使用されているマルチニューズデータセットから,人間のアノテーションを模倣し,無関係な文書を分類するために,チェーン・オブ・思想(CoT)や多数決といったアプローチを活用する。 提案手法により,改良されたMulti-News+を導入する。 データクリーニングにLLMを用いることで、高価な人的アノテーションに頼らずに、データセットの品質を改善するための効率的かつ効果的なアプローチを実証する。

The quality of the dataset is crucial for ensuring optimal performance and reliability of downstream task models. However, datasets often contain noisy data inadvertently included during the construction process. Numerous attempts have been made to correct this issue through human annotators. However, hiring and managing human annotators is expensive and time-consuming. As an alternative, recent studies are exploring the use of large language models (LLMs) for data annotation. In this study, we present a case study that extends the application of LLM-based data annotation to enhance the quality of existing datasets through a cleansing strategy. Specifically, we leverage approaches such as chain-of-thought (CoT) and majority voting to imitate human annotation and classify unrelated documents from the Multi-News dataset, which is widely used for the multi-document summarization task. Through our proposed cleansing method, we introduce an enhanced Multi-News+. By employing LLMs for data cleansing, we demonstrate an efficient and effective approach to improving dataset quality without relying on expensive human annotation efforts.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 時間確率分布を用いた軌道に基づく決定性試験

Testing trajectory-based determinism via time probability distributions ( http://arxiv.org/abs/2404.09684v1 )

ライセンス: Link先を確認
Matheus V. Scherer, Alexandre D. Ribeiro, Renato M. Angelo, (参考訳) 量子力学(QM)が全ての物理量に対して適切に定義された値を予測できないことは有名である。 しかし、あまり知られていないのは、QMが二重スリット実験のようなエンブレマ的なシナリオであっても確率的予測を適用できないという事実である。 対照的に、仮定軌道を備えたボヘミア力学(BM)はより予測的なパワーを継承している。 一般的な信念とは対照的に、QMとBMは単に異なる解釈であるだけでなく、異なる理論である。 この研究は上記の主張を形式化し、3つのケーススタディを通してそれらを説明する。 自由粒子; 自由粒子; 自由粒子 (二)一様重力場下の自由落下、及び (三)ダブルスリット実験 具体的には、一般的な軌道を持つ理論において、飛行時間確率分布を構築するための処方則を導入する。 次に、私たちの形式をBMに適用し、QMで到達できない確率分布を導出する。 我々の結果は、原理的には実実験に対してテストできるので、ボヘミア軌道の妥当性を評価することができる。

It is notorious that quantum mechanics (QM) cannot predict well-defined values for all physical quantities. Less well-known, however, is the fact that QM is unable to furnish probabilistic predictions even in emblematic scenarios such as the double-slit experiment. In contrast, equipped with postulate trajectories, Bohmian mechanics (BM) has inherited more predictive power. It follows that, contrary to common belief, QM and BM are not just different interpretations but distinct theories. This work formalizes the aforementioned assertions and illustrates them through three case studies: (i) free particle, (ii) free fall under a uniform gravitational field, and (iii) the double-slit experiment. Specifically, we introduce a prescription for constructing a flight-time probability distribution within generic trajectory-equipped theories. We then apply our formalism to BM and derive probability distributions that are unreachable by QM. Our results can, in principle, be tested against real experiments, thereby assessing the validity of Bohmian trajectories.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# プラス戦略はランダム高さの植え付けオプティマスの指数的に遅い

Plus Strategies are Exponentially Slower for Planted Optima of Random Height ( http://arxiv.org/abs/2404.09687v1 )

ライセンス: Link先を確認
Johannes Lengler, Leon Schiller, Oliver Sieberling, (参考訳) 最近導入されたベンチマークDisOMで、$(1,\lambda)$-EAと$(1 + \lambda)$-EAを比較した。 以前の研究は、すべての局所最適化が同じ相対的な高さを持つなら、プラス戦略はコマ戦略と比較して$O(n\log n)$以上を失うことはないことを示した。 ここでは, 局所最適高さのランダムなゆらぎが, プラス戦略に対する破壊的な効果を示し, 超ポリノミアルランタイムに繋がることを示す。 一方,コマ戦略は局地最適から逃れる能力のため,局地最適の高さの影響を受けず,効率が保たれている。 以上の結果から,コマ戦略ではなくプラス戦略が,スムーズな景観の緩やかな非構造的ゆらぎによって認知されることが示唆された。

We compare the $(1,\lambda)$-EA and the $(1 + \lambda)$-EA on the recently introduced benchmark DisOM, which is the OneMax function with randomly planted local optima. Previous work showed that if all local optima have the same relative height, then the plus strategy never loses more than a factor $O(n\log n)$ compared to the comma strategy. Here we show that even small random fluctuations in the heights of the local optima have a devastating effect for the plus strategy and lead to super-polynomial runtimes. On the other hand, due to their ability to escape local optima, comma strategies are unaffected by the height of the local optima and remain efficient. Our results hold for a broad class of possible distortions and show that the plus strategy, but not the comma strategy, is generally deceived by sparse unstructured fluctuations of a smooth landscape.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 保険用GPT-4V(イジョン)のハーネス化:予備探査

Harnessing GPT-4V(ision) for Insurance: A Preliminary Exploration ( http://arxiv.org/abs/2404.09690v1 )

ライセンス: Link先を確認
Chenwei Lin, Hanjia Lyu, Jiebo Luo, Xian Xu, (参考訳) 大規模マルチモーダルモデル(LMM)の出現は、人工知能の発展において重要なマイルストーンとなる。 保険は、広範かつ複雑な規律として、テキスト、画像、ビデオなど、その運用プロセスにおけるさまざまなデータ形式を伴い、多様なマルチモーダルタスクを生み出します。 それにもかかわらず、保険に特化したマルチモーダルタスクの体系的な探索や、LMMがこれらの課題にどう対処できるかの徹底的な調査は限られている。 本稿では,保険分野におけるGPT-4Vの能力について考察する。 リスク評価,リスク監視,クレーム処理など,保険の種類(自動車,家計・商業財産,健康,農業保険など)と保険段階(リスク評価,リスク監視,クレーム処理など)に基づいて,視覚的側面に着目したマルチモーダルタスクを分類する。 本実験により,GPT-4Vは,保険領域におけるマルチモーダルコンテンツに対する堅牢な理解だけでなく,保険シナリオに関する包括的知識も示している。 GPT-4Vは、詳細なリスク評価と損失評価に苦慮し、画像理解における幻覚に悩まされ、異なる言語に対する多様なサポートを示す。 本研究は,保険ドメインを最先端のLMM技術で橋渡しし,学際交流と発展を促進することを目的として,今後の研究努力の継続と発展の基盤を提供する。

The emergence of Large Multimodal Models (LMMs) marks a significant milestone in the development of artificial intelligence. Insurance, as a vast and complex discipline, involves a wide variety of data forms in its operational processes, including text, images, and videos, thereby giving rise to diverse multimodal tasks. Despite this, there has been limited systematic exploration of multimodal tasks specific to insurance, nor a thorough investigation into how LMMs can address these challenges. In this paper, we explore GPT-4V's capabilities in the insurance domain. We categorize multimodal tasks by focusing primarily on visual aspects based on types of insurance (e.g., auto, household/commercial property, health, and agricultural insurance) and insurance stages (e.g., risk assessment, risk monitoring, and claims processing). Our experiment reveals that GPT-4V exhibits remarkable abilities in insurance-related tasks, demonstrating not only a robust understanding of multimodal content in the insurance domain but also a comprehensive knowledge of insurance scenarios. However, there are notable shortcomings: GPT-4V struggles with detailed risk rating and loss assessment, suffers from hallucination in image understanding, and shows variable support for different languages. Through this work, we aim to bridge the insurance domain with cutting-edge LMM technology, facilitate interdisciplinary exchange and development, and provide a foundation for the continued advancement and evolution of future research endeavors.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# XoFTR: クロスモーダルな特徴マッチングトランス

XoFTR: Cross-modal Feature Matching Transformer ( http://arxiv.org/abs/2404.09692v1 )

ライセンス: Link先を確認
Önder Tuzcuoğlu, Aybora Köksal, Buğra Sofu, Sinan Kalkan, A. Aydın Alatan, (参考訳) 熱赤外(TIR)と可視画像の局所的特徴マッチングのためのクロスモーダル・クロスビュー手法であるXoFTRを紹介する。 可視画像と異なり、TIR画像は悪照明や気象条件の影響を受けにくいが、テクスチャや強度の違いによりマッチングが困難である。 目に見えるTIRマッチングのための手作りおよび学習に基づく現在の手法は、視点、スケール、テクスチャの多様性を扱うのに不足している。 この問題を解決するために、XoFTRはマスク付き画像モデリングと擬似熱画像拡張による微調整を取り入れ、モダリティの違いに対処する。 さらに,解像度の差を補正し,サブピクセルレベルの精細化によりマッチング信頼性を向上させる改良されたマッチングパイプラインを導入する。 提案手法の有効性を検証するため,包括的可視熱的データセットを収集し,提案手法が多くのベンチマークにおいて既存手法よりも優れていることを示す。

We introduce, XoFTR, a cross-modal cross-view method for local feature matching between thermal infrared (TIR) and visible images. Unlike visible images, TIR images are less susceptible to adverse lighting and weather conditions but present difficulties in matching due to significant texture and intensity differences. Current hand-crafted and learning-based methods for visible-TIR matching fall short in handling viewpoint, scale, and texture diversities. To address this, XoFTR incorporates masked image modeling pre-training and fine-tuning with pseudo-thermal image augmentation to handle the modality differences. Additionally, we introduce a refined matching pipeline that adjusts for scale discrepancies and enhances match reliability through sub-pixel level refinement. To validate our approach, we collect a comprehensive visible-thermal dataset, and show that our method outperforms existing methods on many benchmarks.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# LoRAP: 大規模言語モデルに対する微分構造圧縮を保存する変圧器サブ層

LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models ( http://arxiv.org/abs/2404.09695v1 )

ライセンス: Link先を確認
Guangyan Li, Yongqiang Tang, Wensheng Zhang, (参考訳) 大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。 LLMのパラメータスケールの削減方法が研究ホットスポットとなっている。 本研究では,トランスフォーマーのマルチヘッド自己注意(MHA)サブレイヤが顕著な低ランク構造を示すのに対して,フィードフォワードネットワーク(FFN)サブレイヤはそうでないことを示す。 そこで我々は,Low-Rank行列近似と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを設計した。 MHAサブ層に対して,低ランク特性を強化するための入力活性化重み付き特異値分解法を提案する。 さらに,MHAサブ層内の重量行列は低ランク度が異なることが判明した。 これにより、低ランク度の不一致に応じた新しいパラメータ割り当て方式が考案される。 FFNサブ層に対して,勾配自由な構造化チャネルプルーニング法を提案する。 刈り取り中に、最も重要なパラメータの1%が実際にモデルのパフォーマンスにおいて重要な役割を担っているという興味深い発見が得られます。 ゼロショットパープレキシティとゼロショットタスク分類の広範な評価は,複数圧縮比での従来の圧縮競合よりも提案手法の方が優れていることを示している。

Large language models (LLMs) show excellent performance in difficult tasks, but they often require massive memories and computational resources. How to reduce the parameter scale of LLMs has become research hotspots. In this study, we make an important observation that the multi-head self-attention (MHA) sub-layer of Transformer exhibits noticeable low-rank structure, while the feed-forward network (FFN) sub-layer does not. With this regard, we design a mixed compression model, which organically combines Low-Rank matrix approximation And structured Pruning (LoRAP). For the MHA sub-layer, we propose an input activation weighted singular value decomposition method to strengthen the low-rank characteristic. Furthermore, we discover that the weight matrices in MHA sub-layer have different low-rank degrees. Thus, a novel parameter allocation scheme according to the discrepancy of low-rank degrees is devised. For the FFN sub-layer, we propose a gradient-free structured channel pruning method. During the pruning, we get an interesting finding that the least important 1% of parameter actually play a vital role in model performance. Extensive evaluations on zero-shot perplexity and zero-shot task classification indicate that our proposal is superior to previous structured compression rivals under multiple compression ratios.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# 大規模言語モデルは信頼性の高い引数品質アノテータか?

Are Large Language Models Reliable Argument Quality Annotators? ( http://arxiv.org/abs/2404.09696v1 )

ライセンス: Link先を確認
Nailia Mirzakhmedova, Marcel Gohsen, Chia Hao Chang, Benno Stein, (参考訳) 議論の質を評価することは、議論のマイニングを活用するシステムにおいて重要な側面である。 しかし、通常はアノテータのドメイン固有の専門知識を必要とするため、引数の品質に関する信頼性と一貫性のあるアノテーションを得るのは難しい。 専門家の間でも、議論品質の評価は、このタスクの固有の主観性のために矛盾することが多い。 本稿では,現在最先端の大規模言語モデル (LLM) を引数品質アノテータのプロキシとして用いる可能性について検討する。 この点においてLLMの能力を評価するために,議論品質次元の確立した分類法に基づいて,モデル,人間専門家,人間初心者アノテータ間の一致を分析した。 この結果から, LLM は, 品質の面において, 人的専門家との整合性が高く, 一貫性のあるアノテーションを生成できることが示唆された。 さらに,LLMを付加アノテータとして用いることで,アノテータ間の合意を著しく改善できることを示す。 これらの結果から,LLMは自動引数品質評価に有用なツールであり,大規模引数データセットの評価の合理化と高速化が可能であることが示唆された。

Evaluating the quality of arguments is a crucial aspect of any system leveraging argument mining. However, it is a challenge to obtain reliable and consistent annotations regarding argument quality, as this usually requires domain-specific expertise of the annotators. Even among experts, the assessment of argument quality is often inconsistent due to the inherent subjectivity of this task. In this paper, we study the potential of using state-of-the-art large language models (LLMs) as proxies for argument quality annotators. To assess the capability of LLMs in this regard, we analyze the agreement between model, human expert, and human novice annotators based on an established taxonomy of argument quality dimensions. Our findings highlight that LLMs can produce consistent annotations, with a moderately high agreement with human experts across most of the quality dimensions. Moreover, we show that using LLMs as additional annotators can significantly improve the agreement between annotators. These results suggest that LLMs can serve as a valuable tool for automated argument quality assessment, thus streamlining and accelerating the evaluation of large argument datasets.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# HSIDMamba: ハイパースペクトルデノイングのための双方向状態空間モデルを探る

HSIDMamba: Exploring Bidirectional State-Space Models for Hyperspectral Denoising ( http://arxiv.org/abs/2404.09697v1 )

ライセンス: Link先を確認
Yang Liu, Jiahua Xiao, Yu Guo, Peilin Jiang, Haiwei Yang, Fei Wang, (参考訳) HSIにおける空間スペクトル依存性を効果的に識別することは重要であるが、畳み込みや変圧器を用いた一般的な手法は計算効率の限界に直面している。 近年,選択的状態空間モデル (Mamba) が出現し, 自然言語列の処理における線形計算の複雑さが増大し, 長いスペクトル列の処理におけるその可能性を探るきっかけとなった。 本稿では,HSIにおける空間スペクトル依存性を効果的に捉えるために,線形複雑性を利用したHSIDMamba(HSDM)を提案する。 特に、HSDMは複数のハイパースペクトル連続走査ブロックから構成され、BCSM(Bidirectional Continuous Scanning Mechanism)、スケール残留、およびスペクトル注意機構を組み込んで、長距離および局所空間スペクトル情報の捕捉を強化する。 BCSMは、前向きと後向きのスキャンをリンクし、SSMを介して8方向の情報を強化することにより、空間-スペクトル相互作用を強化し、HSDMの知覚能力を大幅に向上し、より効果的にデノナイジング性能を向上させる。 HSIデノナイジングベンチマークに対する広範囲な評価は、HSDMの優れた性能を証明し、最先端の結果を達成し、最新のトランスフォーマーアーキテクチャの効率を30 %$で上回った。

Effectively discerning spatial-spectral dependencies in HSI denoising is crucial, but prevailing methods using convolution or transformers still face computational efficiency limitations. Recently, the emerging Selective State Space Model(Mamba) has risen with its nearly linear computational complexity in processing natural language sequences, which inspired us to explore its potential in handling long spectral sequences. In this paper, we propose HSIDMamba(HSDM), tailored to exploit the linear complexity for effectively capturing spatial-spectral dependencies in HSI denoising. In particular, HSDM comprises multiple Hyperspectral Continuous Scan Blocks, incorporating BCSM(Bidirectional Continuous Scanning Mechanism), scale residual, and spectral attention mechanisms to enhance the capture of long-range and local spatial-spectral information. BCSM strengthens spatial-spectral interactions by linking forward and backward scans and enhancing information from eight directions through SSM, significantly enhancing the perceptual capability of HSDM and improving denoising performance more effectively. Extensive evaluations against HSI denoising benchmarks validate the superior performance of HSDM, achieving state-of-the-art results in performance and surpassing the efficiency of the latest transformer architectures by $30\%$.
翻訳日:2024-04-16 12:40:28 公開日:2024-04-15
# AIコンペティションとベンチマーク:データセット開発

AI Competitions and Benchmarks: Dataset Development ( http://arxiv.org/abs/2404.09703v1 )

ライセンス: Link先を確認
Romain Egele, Julio C. S. Jacques Junior, Jan N. van Rijn, Isabelle Guyon, Xavier Baró, Albert Clapés, Prasanna Balaprakash, Sergio Escalera, Thomas Moeslund, Jun Wan, (参考訳) 機械学習は、大量のデータからパターンを予測、生成、発見する能力のおかげで、今では多くのアプリケーションで使われている。 しかし,データ収集・変換のプロセスは複雑である。 毎日大量のデータが生成される今日のデジタル時代でも、簡単に使えることは珍しく、多くの場合、細心の注意を払って手動でデータを作成する必要がある。 新たなモデルの開発の急激さは、現実のシナリオ(社会的差別、批判的失敗など)にデプロイされた場合のリスクを生じさせる恐れがあり、AIベースのプロジェクトにおける失敗やコストの大幅な増大につながる。 この章では、機械学習のためのデータセットの開発において、我々の実践経験に富んだ確立した方法論ツールの概要を概観する。 当初、私たちはデータセット開発に関わるタスクを開発し、その効果的な管理(要求、設計、実装、評価、配布、保守など)に関する洞察を提供します。 次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。 最後に,データセットの分布と保守に関する実践的考察について述べる。

Machine learning is now used in many applications thanks to its ability to predict, generate, or discover patterns from large quantities of data. However, the process of collecting and transforming data for practical use is intricate. Even in today's digital era, where substantial data is generated daily, it is uncommon for it to be readily usable; most often, it necessitates meticulous manual data preparation. The haste in developing new models can frequently result in various shortcomings, potentially posing risks when deployed in real-world scenarios (eg social discrimination, critical failures), leading to the failure or substantial escalation of costs in AI-based projects. This chapter provides a comprehensive overview of established methodological tools, enriched by our practical experience, in the development of datasets for machine learning. Initially, we develop the tasks involved in dataset development and offer insights into their effective management (including requirements, design, implementation, evaluation, distribution, and maintenance). Then, we provide more details about the implementation process which includes data collection, transformation, and quality evaluation. Finally, we address practical considerations regarding dataset distribution and maintenance.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# ポンプ光子計数によるフロッケ展開

Floquet expansion by counting pump photons ( http://arxiv.org/abs/2404.09704v1 )

ライセンス: Link先を確認
Kilian Seibold, Orjan Ameye, Oded Zilberberg, (参考訳) 定期的に駆動されるシステムは、ドライブの時間スケールとシステムの時間スケールとの豊富な競合を招き、システム全体を記述できる能力は限られている。 本稿では, 駆動光子を"カウント"する量子化の上にフロケット展開によるボソニック駆動系の相互作用を記述するためのフレームワークを提案し, 標準的なフロケットアプローチと比較して, 提案手法の優れた性能に関する説得力のある議論を行う。 重要なことに、我々のアプローチは回転波近似を超えて拡張され、量子フロケ形式と古典的形式との長年のミスマッチの問題に対処する。 さらに、量子ビットアーキテクチャのキャリブレーションや演算によく用いられる多光子共鳴の位置に対するピンポイント鍵補正を行う。

Periodically-driven systems engender a rich competition between the time scales of the drives and those of the system, leading to a limited ability to describe the system in full. We present a framework for the description of interacting bosonic driven systems via a Floquet expansion on top of a quantization that "counts" the drive photons, and provide compelling arguments for the superior performance of our method relative to standard Floquet approaches. Crucially, our approach extends beyond the rotating wave approximation and addresses the long-standing issue of mismatch between the quantum Floquet formalism and its classical counterpart. We, furthermore, pinpoint key corrections to the positions of multiphoton resonances, which are commonly used in the calibration and operation of qubit architectures.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 変換器を用いた高分解能画像分割のための適応パッチ

Adaptive Patching for High-resolution Image Segmentation with Transformers ( http://arxiv.org/abs/2404.09707v1 )

ライセンス: Link先を確認
Enzhi Zhang, Isaac Lyngaas, Peng Chen, Xiao Wang, Jun Igarashi, Yuankai Huo, Mohamed Wahib, Masaharu Munetomo, (参考訳) 注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。 トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。 高解像度画像の場合、例えば顕微鏡画像の場合、二次計算とメモリコストは、セグメンテーションに好適な小さなパッチサイズを使用する場合、注意に基づくモデルの使用を禁止します。 解決策は、カスタムの複雑なマルチレゾリューションモデルまたは近似アテンションスキームを使用することである。 我々は,HPCのAdapative Mesh Refinement(AMR)法からインスピレーションを得て,画像の詳細に基づいて,画像に適応的にパッチを当てることにより,モデルに供給されるパッチの数を桁違いに削減する。 この手法は無視可能なオーバーヘッドを持ち、いかなる注意ベースモデルともシームレスに動作し、すなわち、摩擦のない注意ベースモデルでも適用可能な前処理ステップである。 我々は、現実世界の病理データセットのSoTAセグメンテーションモデルよりも優れたセグメンテーション品質を示し、最大6,048ドルのGPUで6,4K^2ドルのジオ平均スピードアップ6.9\times$を得る。

Attention-based models are proliferating in the space of image analytics, including segmentation. The standard method of feeding images to transformer encoders is to divide the images into patches and then feed the patches to the model as a linear sequence of tokens. For high-resolution images, e.g. microscopic pathology images, the quadratic compute and memory cost prohibits the use of an attention-based model, if we are to use smaller patch sizes that are favorable in segmentation. The solution is to either use custom complex multi-resolution models or approximate attention schemes. We take inspiration from Adapative Mesh Refinement (AMR) methods in HPC by adaptively patching the images, as a pre-processing step, based on the image details to reduce the number of patches being fed to the model, by orders of magnitude. This method has a negligible overhead, and works seamlessly with any attention-based model, i.e. it is a pre-processing step that can be adopted by any attention-based model without friction. We demonstrate superior segmentation quality over SoTA segmentation models for real-world pathology datasets while gaining a geomean speedup of $6.9\times$ for resolutions up to $64K^2$, on up to $2,048$ GPUs.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 模倣学習の展開 - 大規模言語モデルにおけるデータ Falsity の影響を探る

Unveiling Imitation Learning: Exploring the Impact of Data Falsity to Large Language Model ( http://arxiv.org/abs/2404.09717v1 )

ライセンス: Link先を確認
Hyunsoo Cho, (参考訳) 近年,ChatGPTやGPT-4といった最先端のプロプライエタリモデルから,模倣学習や合成指導データの再学習を通じて,オープンソース言語モデルの改善に努めている。 しかし、合成データの本質的な性質は、本質的にノイズの多いデータを含み、誤応答を伴う低品質なデータレプトの存在や、欠点のある推論を引き起こす。 ノイズの多いデータの潜在的な害を直感的に把握するが、その影響を定量的に理解することができない。 そこで本研究では,音の度合いと言語モデルへの影響の相関について,指導指導を通して検討する。 まず,Falsity-Controllable(FACO)データセットを紹介した。このデータセットは,対応する推論と真解のペアと,データセットのfalsity比を手動で制御する偽ペアから構成される。 さらに、LCMが偽の指示で訓練されると、ユーザ要求に対して正しい答えを知っていても、嘘をつくことを学び、偽の偽りの答えを生成する。 さらに、言語モデルがノイズによって汚染されたデータセットでトレーニングされると、元のパフォーマンスを回復することは可能であるが、完全なパフォーマンスには至らなかったことに注意した。

Many recent studies endeavor to improve open-source language models through imitation learning, and re-training on the synthetic instruction data from state-of-the-art proprietary models like ChatGPT and GPT-4. However, the innate nature of synthetic data inherently contains noisy data, giving rise to a substantial presence of low-quality data replete with erroneous responses, and flawed reasoning. Although we intuitively grasp the potential harm of noisy data, we lack a quantitative understanding of its impact. To this end, this paper explores the correlation between the degree of noise and its impact on language models through instruction tuning. We first introduce the Falsity-Controllable (FACO) dataset, which comprises pairs of true answers with corresponding reasoning, as well as false pairs to manually control the falsity ratio of the dataset.Through our extensive experiments, we found multiple intriguing findings of the correlation between the factuality of the dataset and instruction tuning: Specifically, we verified falsity of the instruction is highly relevant to various benchmark scores. Moreover, when LLMs are trained with false instructions, they learn to lie and generate fake unfaithful answers, even though they know the correct answer for the user request. Additionally, we noted that once the language model is trained with a dataset contaminated by noise, restoring its original performance is possible, but it failed to reach full performance.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# VFLGAN: 垂直分割型データパブリケーションのための鉛直フェデレーション学習に基づく生成支援ネットワーク

VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication ( http://arxiv.org/abs/2404.09722v1 )

ライセンス: Link先を確認
Xun Yuan, Yang Yang, Prosanta Gope, Aryan Pasikhani, Biplab Sikdar, (参考訳) 現在の人工知能(AI)時代には、データセットのスケールと品質が、高品質なAIモデルのトレーニングにおいて重要な役割を果たす。 しかし、良いデータは無料のランチではなく、GDPR(General Data Protection Regulation)のようなプライバシー規制のためにアクセスするのが常に困難である。 潜在的な解決策は、プライベートデータセットと同様の分布を持つ合成データセットをリリースすることである。 それでも、いくつかのシナリオでは、AIモデルをトレーニングするために必要な属性は、異なるパーティに属しており、プライバシ規制による合成データパブリッシュの生データを共有できないことが判明している。 PETS 2023でXueらは、垂直に分割されたデータパブリッシングのための最初の生成逆ネットワークベースモデルVertiGANを提案した。 しかし, 徹底的に調査した結果, VertiGAN は, 当事者の属性間の相関性を維持する効果が低いことがわかった。 本稿では,これらの問題に対処するため,垂直に分割したデータパブリッシングのための垂直的フェデレート学習に基づく生成適応ネットワーク(VFLGAN)を提案する。 VertiGANと比較して,VFLGANは合成データの品質を著しく向上させることが示された。 MNISTデータセットを例として、VFLGANが生成した合成データセットの品質は、Fr\echet DistanceのVertiGAN w.r.t.が生成したデータセットの3.2倍である。 また,提案するVFLGANに対して,より効率的かつ効果的なガウス機構を設計し,差分プライバシー保証を備えた合成データセットを提供する。 一方、差分プライバシーは最悪の場合のプライバシー保証の上限のみを与える。 また,本論文では,合成データセットによるプライバシー漏洩を推定するために,会員推定攻撃を適用した実践的な監査手法を提案する。

In the current artificial intelligence (AI) era, the scale and quality of the dataset play a crucial role in training a high-quality AI model. However, good data is not a free lunch and is always hard to access due to privacy regulations like the General Data Protection Regulation (GDPR). A potential solution is to release a synthetic dataset with a similar distribution to that of the private dataset. Nevertheless, in some scenarios, it has been found that the attributes needed to train an AI model belong to different parties, and they cannot share the raw data for synthetic data publication due to privacy regulations. In PETS 2023, Xue et al. proposed the first generative adversary network-based model, VertiGAN, for vertically partitioned data publication. However, after thoroughly investigating, we found that VertiGAN is less effective in preserving the correlation among the attributes of different parties. This article proposes a Vertical Federated Learning-based Generative Adversarial Network, VFLGAN, for vertically partitioned data publication to address the above issues. Our experimental results show that compared with VertiGAN, VFLGAN significantly improves the quality of synthetic data. Taking the MNIST dataset as an example, the quality of the synthetic dataset generated by VFLGAN is 3.2 times better than that generated by VertiGAN w.r.t. the Fr\'echet Distance. We also designed a more efficient and effective Gaussian mechanism for the proposed VFLGAN to provide the synthetic dataset with a differential privacy guarantee. On the other hand, differential privacy only gives the upper bound of the worst-case privacy guarantee. This article also proposes a practical auditing scheme that applies membership inference attacks to estimate privacy leakage through the synthetic dataset.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 視覚・言語制御モデルによる野生の光リアリスティック画像復元

Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models ( http://arxiv.org/abs/2404.09732v1 )

ライセンス: Link先を確認
Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön, (参考訳) 拡散モデルは様々な画像復元(IR)タスクにうまく適用されているが、その性能はトレーニングデータセットの選択に敏感である。 通常、特定のデータセットでトレーニングされた拡散モデルは、分布外劣化のイメージの回復に失敗する。 この問題に対処するために,本研究では,視覚言語モデルと合成分解パイプラインを活用して野生(ワイルドIR)における画像復元を学習する。 より具体的には、すべての低品質画像は、ブラー、リサイズ、ノイズ、JPEG圧縮など、複数の一般的な劣化を含む合成分解パイプラインでシミュレートされる。 次に,高画質な画像復元を支援するために,高画質な画像コンテンツ特徴を抽出するための劣化対応CLIPモデルの堅牢なトレーニングを提案する。 我々の基底拡散モデルは画像復元SDE(IR-SDE)である。 さらに, 高速ノイズフリー画像生成のための後方サンプリング手法を提案する。 合成および実世界の劣化データセットを用いて,本モデルの評価を行った。 さらに, 画像復元タスクの統一化実験により, 種々の劣化に対する画像生成品質の向上が図られた。

Though diffusion models have been successfully applied to various image restoration (IR) tasks, their performance is sensitive to the choice of training datasets. Typically, diffusion models trained in specific datasets fail to recover images that have out-of-distribution degradations. To address this problem, this work leverages a capable vision-language model and a synthetic degradation pipeline to learn image restoration in the wild (wild IR). More specifically, all low-quality images are simulated with a synthetic degradation pipeline that contains multiple common degradations such as blur, resize, noise, and JPEG compression. Then we introduce robust training for a degradation-aware CLIP model to extract enriched image content features to assist high-quality image restoration. Our base diffusion model is the image restoration SDE (IR-SDE). Built upon it, we further present a posterior sampling strategy for fast noise-free image generation. We evaluate our model on both synthetic and real-world degradation datasets. Moreover, experiments on the unified image restoration task illustrate that the proposed posterior sampling improves image generation quality for various degradations.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 空間エントロピーの異なる拡散モデルによる低照度画像強調

Equipping Diffusion Models with Differentiable Spatial Entropy for Low-Light Image Enhancement ( http://arxiv.org/abs/2404.09735v1 )

ライセンス: Link先を確認
Wenyi Lian, Wenjing Lian, Ziwei Luo, (参考訳) 画像復元は、劣化した画像から高品質な画像を復元することを目的としており、多くの場合、1つの入力に対して複数のソリューションを可能にする不適切な問題である、という課題に直面している。 しかし、ディープラーニングに基づくほとんどの研究は、単にl1損失を利用してネットワークを決定論的に訓練し、結果として知覚品質が劣る過度に滑らかな予測をもたらす。 本研究では,個々の画素値ではなく分布の学習を重視し,決定論的画素比較から統計的視点へ焦点を移す新しい手法を提案する。 中心となる考え方は、損失関数に空間エントロピーを導入して、予測と目標の分布差を測定することである。 この空間エントロピーを微分可能にするため、各画素の特定の強度値と近傍領域との確率を近似するためにカーネル密度推定(KDE)を用いる。 具体的には,拡散モデルにエントロピーを装備し,L1ベースノイズマッチング損失よりも高精度で知覚品質の向上を図っている。 実験では,2つのデータセットに対する低光強調法とNTIREチャレンジ2024の評価を行った。 これらの結果は、統計に基づくエントロピー損失の有効性を示している。 コードはhttps://github.com/shermanlian/spatial-entropy-lossで公開されている。

Image restoration, which aims to recover high-quality images from their corrupted counterparts, often faces the challenge of being an ill-posed problem that allows multiple solutions for a single input. However, most deep learning based works simply employ l1 loss to train their network in a deterministic way, resulting in over-smoothed predictions with inferior perceptual quality. In this work, we propose a novel method that shifts the focus from a deterministic pixel-by-pixel comparison to a statistical perspective, emphasizing the learning of distributions rather than individual pixel values. The core idea is to introduce spatial entropy into the loss function to measure the distribution difference between predictions and targets. To make this spatial entropy differentiable, we employ kernel density estimation (KDE) to approximate the probabilities for specific intensity values of each pixel with their neighbor areas. Specifically, we equip the entropy with diffusion models and aim for superior accuracy and enhanced perceptual quality over l1 based noise matching loss. In the experiments, we evaluate the proposed method for low light enhancement on two datasets and the NTIRE challenge 2024. All these results illustrate the effectiveness of our statistic-based entropy loss. Code is available at https://github.com/shermanlian/spatial-entropy-loss.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# FSRT:顔再現のための顔表情変換器

FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features ( http://arxiv.org/abs/2404.09736v1 )

ライセンス: Link先を確認
Andre Rochow, Max Schwarz, Sven Behnke, (参考訳) 顔再現の課題は、頭部の動きと表情を駆動ビデオから、異なる人物(クロス再現)であるかもしれないソース画像の外観に転送することである。 既存のほとんどの手法はCNNベースで、ソース画像から現在の駆動フレームへの光の流れを推定し、出力アニメーションを生成する。 本稿では,ソース画像のセットラテント表現を演算するためのトランスフォーマーベースのエンコーダを提案する。 次に、キーポイントを条件とした変換器ベースのデコーダと、駆動フレームから抽出した表情ベクトルを用いて、問合せ画素の出力色を予測する。 ソース人物の潜在表現は、外観、頭部ポーズ、表情を分解する自己指導的な方法で学習される。 そのため、クロス再現に完全に適している。 多くの関連する研究とは対照的に、本手法は自然に複数のソース画像に拡張し、人固有の顔力学に適応することができる。 また、学習した表現の過度な適合を防止し、一般化を支援するために必要なデータ拡張および正規化スキームを提案する。 ランダム化ユーザスタディにおいて,我々のアプローチを評価した。 その結果, 運動伝達品質と時間的一貫性の両面において, 最先端技術と比較して優れた性能を示した。

The task of face reenactment is to transfer the head motion and facial expressions from a driving video to the appearance of a source image, which may be of a different person (cross-reenactment). Most existing methods are CNN-based and estimate optical flow from the source image to the current driving frame, which is then inpainted and refined to produce the output animation. We propose a transformer-based encoder for computing a set-latent representation of the source image(s). We then predict the output color of a query pixel using a transformer-based decoder, which is conditioned with keypoints and a facial expression vector extracted from the driving frame. Latent representations of the source person are learned in a self-supervised manner that factorize their appearance, head pose, and facial expressions. Thus, they are perfectly suited for cross-reenactment. In contrast to most related work, our method naturally extends to multiple source images and can thus adapt to person-specific facial dynamics. We also propose data augmentation and regularization schemes that are necessary to prevent overfitting and support generalizability of the learned representations. We evaluated our approach in a randomized user study. The results indicate superior performance compared to the state-of-the-art in terms of motion transfer quality and temporal consistency.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 過剰決定基底を用いた大規模言語モデルの量子化

Quantization of Large Language Models with an Overdetermined Basis ( http://arxiv.org/abs/2404.09737v1 )

ライセンス: Link先を確認
Daniil Merkulov, Daria Cherniuk, Alexander Rudikov, Ivan Oseledets, Ekaterina Muravleva, Aleksandr Mikhalev, Boris Kashin, (参考訳) 本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。 このアプローチは、任意のベクトル、行列、あるいはテンソルを2つの因子に分解することに基づいている。 第一の因子は小さな無限大ノルムを保ち、第二の因子は直交行列に乗じるときも同様に制約されたノルムを示す。 驚いたことに、分解後の因子の成分は、いくつかのピークで十分に濃縮されており、量子化のために対応するセントロイドに効率的に置き換えることができる。 本稿では,提案手法の理論的特性について検討し,次の単語予測タスクの文脈およびテキスト分類のための下流タスクのセットにおける圧縮アルゴリズムの厳密な評価を行う。 以上の結果から, カシ量子化はデータ圧縮を保証しつつ, モデル性能の競争力や優れた品質を実現し, データの量子化の分野における大きな進歩を示している。

In this paper, we introduce an algorithm for data quantization based on the principles of Kashin representation. This approach hinges on decomposing any given vector, matrix, or tensor into two factors. The first factor maintains a small infinity norm, while the second exhibits a similarly constrained norm when multiplied by an orthogonal matrix. Surprisingly, the entries of factors after decomposition are well-concentrated around several peaks, which allows us to efficiently replace them with corresponding centroids for quantization purposes. We study the theoretical properties of the proposed approach and rigorously evaluate our compression algorithm in the context of next-word prediction tasks and on a set of downstream tasks for text classification. Our findings demonstrate that Kashin Quantization achieves competitive or superior quality in model performance while ensuring data compression, marking a significant advancement in the field of data quantization.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# AMPCliff:抗微生物ペプチドの活性崖の定量的定義とベンチマーク

AMPCliff: quantitative definition and benchmarking of activity cliffs in antimicrobial peptides ( http://arxiv.org/abs/2404.09738v1 )

ライセンス: Link先を確認
Kewei Li, Yuqian Wu, Yutong Guo, Yinheng Li, Yusi Fan, Ruochi Zhang, Lan Huang, Fengfeng Zhou, (参考訳) 活性崖(英: Activity cliff、AC)は、一対の類似した分子が小さな構造変化によって異なるが、それらの生化学的活性に大きな違いを示す現象である。 小分子の交流は広く研究されているが、カノニカルアミノ酸を有するペプチドの交流現象について限られた知識が蓄積されている。 本研究は、カノニカルアミノ酸からなる抗微生物ペプチド(AMP)の交流現象に対する定量的な定義およびベンチマークフレームワークAMPCliffを紹介する。 既存のAMPデータセットの包括的解析により、AMP内のACの有意な頻度が明らかとなった。 AMPCliffは、測定最小抑制濃度(MIC)によってAMPの活性を定量し、0.9を少なくとも2倍のMIC変化を持つ一対の配位ペプチド間の正常化BLOSUM62類似度スコアの最低閾値として定義する。 本研究では, 一般に公開されている AMP データセット GRAMPA から Staphylococcus aureus のペア AMP のベンチマークデータセットを確立し, 9 つの機械学習, 4 つのディープラーニングアルゴリズム, 4 つのマスク付き言語モデル, 4 つの生成言語モデルを含む様々な AMP AC 予測モデルを評価するための厳密な手順を実行する。 解析の結果,これらのモデルがAMP ACイベントを検出できることが明らかとなり,事前学習されたタンパク質言語ESM2モデルが評価において優れた性能を示した。 ベンチマークデータセット上のMIC値の回帰タスクに対して、33層のESM2がスピアマン相関係数=0.50しか達成していないことを考えると、AMP活動崖の予測性能は改善されていない。 ソースコードと追加リソースは、https://www.healthinformaticslab.org/supp/またはhttps://github.com/Kewei2023/AMPCliff-generationで入手できる。

Activity cliff (AC) is a phenomenon that a pair of similar molecules differ by a small structural alternation but exhibit a large difference in their biochemical activities. The AC of small molecules has been extensively investigated but limited knowledge is accumulated about the AC phenomenon in peptides with canonical amino acids. This study introduces a quantitative definition and benchmarking framework AMPCliff for the AC phenomenon in antimicrobial peptides (AMPs) composed by canonical amino acids. A comprehensive analysis of the existing AMP dataset reveals a significant prevalence of AC within AMPs. AMPCliff quantifies the activities of AMPs by the metric minimum inhibitory concentration (MIC), and defines 0.9 as the minimum threshold for the normalized BLOSUM62 similarity score between a pair of aligned peptides with at least two-fold MIC changes. This study establishes a benchmark dataset of paired AMPs in Staphylococcus aureus from the publicly available AMP dataset GRAMPA, and conducts a rigorous procedure to evaluate various AMP AC prediction models, including nine machine learning, four deep learning algorithms, four masked language models, and four generative language models. Our analysis reveals that these models are capable of detecting AMP AC events and the pre-trained protein language ESM2 model demonstrates superior performance across the evaluations. The predictive performance of AMP activity cliffs remains to be further improved, considering that ESM2 with 33 layers only achieves the Spearman correlation coefficient=0.50 for the regression task of the MIC values on the benchmark dataset. Source code and additional resources are available at https://www.healthinformaticslab.org/supp/ or https://github.com/Kewei2023/AMPCliff-generation.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 高忠実度マジックステート生成のためのゼロレベル蒸留の活用

Leveraging Zero-Level Distillation to Generate High-Fidelity Magic States ( http://arxiv.org/abs/2404.09740v1 )

ライセンス: Link先を確認
Yutaka Hirano, Tomohiro Itogawa, Keisuke Fujii, (参考訳) マジックステート蒸留は、普遍的なフォールトトレラント量子コンピューティングにおいて重要な役割を果たし、そのオーバーヘッドはフォールトトレラント量子コンピュータを実現するための大きな障害の1つである。 そのため、このオーバーヘッドを減らすために多くの研究がなされている。 このうち、リチンスキーは回転した表面コード上で資源効率の高い蒸留プロトコルの実装を具体的に評価している。 一方, 糸川らは近年, 比較的低忠実なマジック状態を生成するため, 空間的・時間的オーバーヘッドが極めて小さい蒸留プロトコルであるゼロレベル蒸留を提案している。 ゼロレベル蒸留は、空間的および時間的オーバーヘッドが好ましいが、マジック状態の論理的誤り率を2次的に減少させるだけであるため、直接的に高忠実度マジック状態を生成することはできない。 本研究では,ゼロレベル蒸留を含む比較的高忠実なマジック状態を生成する2レベル蒸留実装の空間的および時間的オーバーヘッドを評価する。 この目的のために,ゼロレベル蒸留と15-to-1蒸留を併用した2レベル蒸留プロトコルである (0+1) レベルの蒸留を導入する。 ゼロレベル蒸留の小さなフットプリントを活かすため,第2レベルの15-to-1実装を改良する。 p_{\mathrm{phys}} = 10^{-4}$ (10^{-3}$)の物理的エラー確率の条件下では、[5 \times 10^{-17}, 10^{-11}]$$$[5 \times 10^{-11}, 10^{-8}]$), (0+1)レベルの蒸留は、(15-to-1)$\times$(15-to-1)プロトコルと比較して、時空間オーバーヘッドを63%(61%)以上減少させ、(15-to-1)$\times$(20-to-4)プロトコルと比較して43%(44%)以上(44%)以上(4-to-1)プロトコルよりも大幅に向上させる。

Magic state distillation plays an important role in universal fault-tolerant quantum computing, and its overhead is one of the major obstacles to realizing fault-tolerant quantum computers. Hence, many studies have been conducted to reduce this overhead. Among these, Litinski has provided a concrete assessment of resource-efficient distillation protocol implementations on the rotated surface code. On the other hand, recently, Itogawa et al. have proposed zero-level distillation, a distillation protocol offering very small spatial and temporal overhead to generate relatively low-fidelity magic states. While zero-level distillation offers preferable spatial and temporal overhead, it cannot directly generate high-fidelity magic states since it only reduces the logical error rate of the magic state quadratically. In this study, we evaluate the spatial and temporal overhead of two-level distillation implementations generating relatively high-fidelity magic states, including ones incorporating zero-level distillation. To this end, we introduce (0+1)-level distillation, a two-level distillation protocol which combines zero-level distillation and the 15-to-1 distillation protocol. We refine the second-level 15-to-1 implementation in it to capitalize on the small footprint of zero-level distillation. Under conditions of a physical error probability of $p_{\mathrm{phys}} = 10^{-4}$ ($10^{-3}$) and targeting an error rate for the magic state within $[5 \times 10^{-17}, 10^{-11}]$ ($[5 \times 10^{-11}, 10^{-8}]$), (0+1)-level distillation reduces the spatiotemporal overhead by more than 63% (61%) compared to the (15-to-1)$\times$(15-to-1) protocol and more than 43% (44%) compared to the (15-to-1)$\times$(20-to-4) protocol, offering a substantial efficiency gain over the traditional protocols.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 点欠陥を有するベクトル磁力計の軸外場最適化

Optimizing Off-Axis Fields for Vector Magnetometry with Point Defects ( http://arxiv.org/abs/2404.09747v1 )

ライセンス: Link先を確認
N. M. Beaver, N. Voce, P. Meisenheimer, R. Ramesh, P. Stevenson, (参考訳) ベクトル磁気学は、幅広い系における電流と磁化の分布を特徴づけるのに欠かせない道具である。 ダイヤモンド中の窒素空孔(NV)中心のような点欠陥センサーは、これらのフィールドを検出するための印象的な感度と空間分解能を示してきた。 しかし、単一欠陥を用いた空間の単一点におけるベクトル場の測定は、依然として顕著な課題である。 静的バイアス場を慎重に最適化することで、横磁場からの非線形ゼーマンシフトを利用して、高感度で複数の磁場成分を同時測定できることを実証した。 この研究は、2次ゼーマン効果からの周波数シフトの増加と、オフ軸磁場成分の増加に伴うコントラストの減少とのトレードオフを定量化し、複雑な磁気テクスチャを持つ反強磁性体からの磁場の複数の成分の測定を実証した。

Vector magnetometry is an essential tool in characterizing the distribution of currents and magnetization in a broad range of systems. Point defect sensors, like the nitrogen vacancy (NV) center in diamond, have demonstrated impressive sensitivity and spatial resolution for detecting these fields. Measuring the vector field at a single point in space using single defects, however, remains an outstanding challenge. We demonstrate that careful optimization of the static bias field can enable simultaneous measurement of multiple magnetic field components with enhanced sensitivity by leveraging the nonlinear Zeeman shift from transverse magnetic fields. This work quantifies the trade-off between the increased frequency shift from second-order Zeeman effects with decreasing contrast as off-axis field components increase, demonstrating the measurement of multiple components of the magnetic field from an exemplar antiferromagnet with a complex magnetic texture.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# LetsGo: LiDAR支援型ガウスプリミティブによる大規模ガベージモデリングとレンダリング

LetsGo: Large-Scale Garage Modeling and Rendering via LiDAR-Assisted Gaussian Primitives ( http://arxiv.org/abs/2404.09748v1 )

ライセンス: Link先を確認
Jiadi Cui, Junming Cao, Yuhui Zhong, Liao Wang, Fuqiang Zhao, Penghao Wang, Yifan Chen, Zhipeng He, Lan Xu, Yujiao Shi, Yingliang Zhang, Jingyi Yu, (参考訳) 巨大なガレージは、私たちの日常生活において、至るところで複雑なシーンであり、単調な色、反復的なパターン、反射面、透明な車両ガラスによって特徴づけられる課題を呈している。 カメラポーズ推定のための従来のSfM(Strucical Structure from Motion)手法は,これらの環境では不一致である。 これらの課題に対処するために,LiDAR支援型ガウススプレイティングアプローチであるLetsGoを紹介した。 We developed a handheld scanner, Polar, equipped with IMU, LiDAR, and a fisheye camera, to help accurate LiDAR and image data scan。 このPolarデバイスでは、さまざまな幾何学構造を持つ5つの拡張ガレージシーンからなるGarageWorldデータセットを公開し、さらなる研究のためにデータセットをコミュニティに公開する。 収集したLiDAR点雲をPolarデバイスにより,ガレージシーンのモデリングとレンダリングのための3次元ガウススプレイティングアルゴリズム群を拡張できることを実証した。 また、レンダリング画像中の浮動小片を効果的に除去する3次元ガウススプラッティングアルゴリズムトレーニングのための新しいディープ・レギュラーと、Web ベースのデバイスでリアルタイムに見るためのライトウェイトなレベル・オブ・ディーテール・レンダラーを提案する。 さらに、単純な幾何学や色(例えば壁や地面)を描写する従来のメッシュの利点と、複雑なディテールや高周波テクスチャをキャプチャする現代の3Dガウス表現を組み合わせたハイブリッド表現についても検討する。 この戦略は、メモリ性能とレンダリング品質の最適なバランスを達成する。 ScanNet++ や KITTI-360 とともに,本手法が品質と資源効率のレンダリングに優れていることを示す実験結果を得た。

Large garages are ubiquitous yet intricate scenes in our daily lives, posing challenges characterized by monotonous colors, repetitive patterns, reflective surfaces, and transparent vehicle glass. Conventional Structure from Motion (SfM) methods for camera pose estimation and 3D reconstruction fail in these environments due to poor correspondence construction. To address these challenges, this paper introduces LetsGo, a LiDAR-assisted Gaussian splatting approach for large-scale garage modeling and rendering. We develop a handheld scanner, Polar, equipped with IMU, LiDAR, and a fisheye camera, to facilitate accurate LiDAR and image data scanning. With this Polar device, we present a GarageWorld dataset consisting of five expansive garage scenes with diverse geometric structures and will release the dataset to the community for further research. We demonstrate that the collected LiDAR point cloud by the Polar device enhances a suite of 3D Gaussian splatting algorithms for garage scene modeling and rendering. We also propose a novel depth regularizer for 3D Gaussian splatting algorithm training, effectively eliminating floating artifacts in rendered images, and a lightweight Level of Detail (LOD) Gaussian renderer for real-time viewing on web-based devices. Additionally, we explore a hybrid representation that combines the advantages of traditional mesh in depicting simple geometry and colors (e.g., walls and the ground) with modern 3D Gaussian representations capturing complex details and high-frequency textures. This strategy achieves an optimal balance between memory performance and rendering quality. Experimental results on our dataset, along with ScanNet++ and KITTI-360, demonstrate the superiority of our method in rendering quality and resource efficiency.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# 自己指導型学習におけるデータ強化から解放できるか?

Can We Break Free from Strong Data Augmentations in Self-Supervised Learning? ( http://arxiv.org/abs/2404.09752v1 )

ライセンス: Link先を確認
Shruthi Gowda, Elahe Arani, Bahram Zonooz, (参考訳) 自己教師付き学習(SSL)は、ディープニューラルネットワーク(DNN)における限定ラベル付きデータの問題に対処し、スケーラビリティを提供するための、有望なソリューションとして登場した。 しかし、SSLフレームワークにおける設計依存性の影響は、まだ十分に調査されていない。 本研究では,SSLモデルの性能と学習機構の形成において重要な役割を担っていることを明らかにする。 これらの知見を生かして,より広範なデータ拡張の必要性を緩和し,学習表現の有効性を高めることを目的とした,事前知識を統合する新しい学習手法を提案する。 特に,従来の知識を取り入れたSSLモデルでは,テクスチャバイアスの低減,ショートカットや拡張への依存の低減,自然と敵の両方の汚職に対する堅牢性の向上が確認できた。 これらの発見はSSL研究の新たな方向性を照らすだけでなく、DNNのパフォーマンス向上の道を開くと同時に、集中的なデータ拡張のための命令を同時に緩和し、スケーラビリティと現実世界の問題解決能力を向上する。

Self-supervised learning (SSL) has emerged as a promising solution for addressing the challenge of limited labeled data in deep neural networks (DNNs), offering scalability potential. However, the impact of design dependencies within the SSL framework remains insufficiently investigated. In this study, we comprehensively explore SSL behavior across a spectrum of augmentations, revealing their crucial role in shaping SSL model performance and learning mechanisms. Leveraging these insights, we propose a novel learning approach that integrates prior knowledge, with the aim of curtailing the need for extensive data augmentations and thereby amplifying the efficacy of learned representations. Notably, our findings underscore that SSL models imbued with prior knowledge exhibit reduced texture bias, diminished reliance on shortcuts and augmentations, and improved robustness against both natural and adversarial corruptions. These findings not only illuminate a new direction in SSL research, but also pave the way for enhancing DNN performance while concurrently alleviating the imperative for intensive data augmentation, thereby enhancing scalability and real-world problem-solving capabilities.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# オンデバイス大規模言語モデルのためのパーソナライズされた協調的微調整

Personalized Collaborative Fine-Tuning for On-Device Large Language Models ( http://arxiv.org/abs/2404.09753v1 )

ライセンス: Link先を確認
Nicolas Wagner, Dongyang Fan, Martin Jaggi, (参考訳) ローカルデータ利用率に制限のある大規模言語モデルのデバイス上での自己教師型協調微調整について検討する。 協調学習コミュニティからインスピレーションを得て、重量類似度に基づく3つの信頼重み付き勾配集約スキーム、予測類似度に基づく1つの予測類似度に基づく2つの検証性能ベースのスキームを導入する。 通信オーバーヘッドを最小限に抑えるため、LoRA (Lo-Rank Adaptation) を統合し、LoRAの重み更新のみを交換する。 我々のプロトコルは予測と性能の指標によって駆動され、FedAvgと局所的な微調整手法の両方を超越しており、より多様なローカルデータ分布を持つ現実的なシナリオでは特に顕著である。 その結果,局所的なデータセットにおける不均一性と不足に対処する手法の有効性が示された。

We explore on-device self-supervised collaborative fine-tuning of large language models with limited local data availability. Taking inspiration from the collaborative learning community, we introduce three distinct trust-weighted gradient aggregation schemes: weight similarity-based, prediction similarity-based and validation performance-based. To minimize communication overhead, we integrate Low-Rank Adaptation (LoRA) and only exchange LoRA weight updates. Our protocols, driven by prediction and performance metrics, surpass both FedAvg and local fine-tuning methods, which is particularly evident in realistic scenarios with more diverse local data distributions. The results underscore the effectiveness of our approach in addressing heterogeneity and scarcity within local datasets.
翻訳日:2024-04-16 12:30:43 公開日:2024-04-15
# kNN-CLIP: Retrievalは、大規模語彙を継続的に拡張するトレーニング不要なセグメンテーションを可能にする

kNN-CLIP: Retrieval Enables Training-Free Segmentation on Continually Expanding Large Vocabularies ( http://arxiv.org/abs/2404.09447v1 )

ライセンス: Link先を確認
Zhongrui Gui, Shuyang Sun, Runjia Li, Jianhao Yuan, Zhaochong An, Karsten Roth, Ameya Prabhu, Philip Torr, (参考訳) 連続的なセグメンテーションの急速な進歩は、計算制約のあるシナリオの下で拡大する大規模な語彙にスケーリングのギャップを埋めるには至っていない。 従来の連続学習は,計算制約下での大惨な忘れを招き,ゼロショットセグメンテーション法を上回り得ないことがわかった。 本稿では,記憶コストの増大や再学習を伴わずに,連続的に成長する語彙に適応できるセマンティック・パノプティック・セグメンテーションの新たな戦略を提案する。 トレーニング不要のアプローチであるkNN-CLIPは、インスタンス埋め込みのデータベースを活用して、オープン語彙セグメンテーションアプローチにより、データの単一パスで任意のドメイン上で語彙を継続的に拡張し、計算コストとメモリコストを最小化する。 この手法は,大語彙セマンティクスと汎視的セグメンテーションデータセットをまたいで,最先端のmIoU性能を実現する。 我々は、kNN-CLIPがより効率的で適応可能な連続セグメンテーションを実現するための一歩であり、実世界の大語彙連続セグメンテーション手法の進歩の道を開くことを願っている。

Rapid advancements in continual segmentation have yet to bridge the gap of scaling to large continually expanding vocabularies under compute-constrained scenarios. We discover that traditional continual training leads to catastrophic forgetting under compute constraints, unable to outperform zero-shot segmentation methods. We introduce a novel strategy for semantic and panoptic segmentation with zero forgetting, capable of adapting to continually growing vocabularies without the need for retraining or large memory costs. Our training-free approach, kNN-CLIP, leverages a database of instance embeddings to enable open-vocabulary segmentation approaches to continually expand their vocabulary on any given domain with a single-pass through data, while only storing embeddings minimizing both compute and memory costs. This method achieves state-of-the-art mIoU performance across large-vocabulary semantic and panoptic segmentation datasets. We hope kNN-CLIP represents a step forward in enabling more efficient and adaptable continual segmentation, paving the way for advances in real-world large-vocabulary continual segmentation methods.
翻訳日:2024-04-16 12:20:55 公開日:2024-04-15
# シングルディープネットワークによるオブジェクトベーススタイル転送の改良

Improved Object-Based Style Transfer with Single Deep Network ( http://arxiv.org/abs/2404.09461v1 )

ライセンス: Link先を確認
Harshmohan Kulkarni, Om Khare, Ninad Barve, Sunil Mane, (参考訳) 本研究では,1つの深部畳み込みニューラルネットワークを用いたオブジェクトのイメージ・ツー・イメージ・スタイル・トランスファーのための新しい手法を提案する。 提案手法では,YOLOv8のバージョン8(YOLOv8)セグメンテーションモデルと,YOLOv8のバックボーンニューラルネットワークを用いてスタイル転送を行う。 主な目的は、オリジナルな物体の特徴を保ちながら、芸術的なスタイルをシームレスに転写することで、画像内の物体の視覚的魅力を高めることである。 提案されたアプローチの斬新さは、単一深部畳み込みニューラルネットワークにおけるセグメンテーションとスタイル転送の組み合わせにある。 このアプローチでは、複数のステージやモデルの必要性が省略され、実用的なアプリケーションのためのモデルのトレーニングとデプロイがより簡単になる。 このアプローチの結果は、異なるスタイルのイメージを適用して、2つのコンテンツイメージに示される。 また、同じ画像内の複数のオブジェクトにスタイル転送を適用する機能についても示す。

This research paper proposes a novel methodology for image-to-image style transfer on objects utilizing a single deep convolutional neural network. The proposed approach leverages the You Only Look Once version 8 (YOLOv8) segmentation model and the backbone neural network of YOLOv8 for style transfer. The primary objective is to enhance the visual appeal of objects in images by seamlessly transferring artistic styles while preserving the original object characteristics. The proposed approach's novelty lies in combining segmentation and style transfer in a single deep convolutional neural network. This approach omits the need for multiple stages or models, thus resulting in simpler training and deployment of the model for practical applications. The results of this approach are shown on two content images by applying different style images. The paper also demonstrates the ability to apply style transfer on multiple objects in the same image.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# 単眼深度推定のための仮想的に強化されたNYU深度V2データセット:人工拡張は必要か?

Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? ( http://arxiv.org/abs/2404.09469v1 )

ライセンス: Link先を確認
Dmitry Ignatov, Andrey Ignatov, Radu Timofte, (参考訳) 単眼深度推定のために設計された,NYU 深度 v2 データセットの事実上拡張版である ANYU を提案する。 仮想世界の完全な3Dシーンを利用して人工的なデータセットを生成する、よく知られたアプローチとは対照的に、ANYUは、VRオブジェクトのRGB-D表現を元のNYUの深度v2画像に組み込むことによって作成された。 具体的には,各生成した仮想オブジェクトに適切なテクスチャと実際の画像内の適切な位置を一致させなかった。 代わりに、テクスチャ、位置、照明、その他のレンダリングパラメータの割り当てがランダム化され、トレーニングデータの多様性を最大化し、データセットの一般化能力を向上できるランダム性を示す。 実際に修正されたデータセットを用いて広範な実験を行い、元のNYU depth v2とiBims-1ベンチマークで検証することにより、ANYUは、特に最先端のVPDモデルにおいて、異なるアーキテクチャを持つディープニューラルネットワークの単眼深度推定性能と一般化を改善していることを示す。 私たちの知る限りでは、これはモノクロ深度推定のためにランダムに生成された仮想3Dオブジェクトで現実世界のデータセットを拡張する最初の作品です。 ANYUデータセットを10%と100%追加のRGB-Dペアのトレーニングイメージで2つのトレーニング構成で公開し、https://github.com/ABrain-One/ANYUで仮想拡張の効率的なトレーニングと実証的な探索を行う。

We present ANYU, a new virtually augmented version of the NYU depth v2 dataset, designed for monocular depth estimation. In contrast to the well-known approach where full 3D scenes of a virtual world are utilized to generate artificial datasets, ANYU was created by incorporating RGB-D representations of virtual reality objects into the original NYU depth v2 images. We specifically did not match each generated virtual object with an appropriate texture and a suitable location within the real-world image. Instead, an assignment of texture, location, lighting, and other rendering parameters was randomized to maximize a diversity of the training data, and to show that it is randomness that can improve the generalizing ability of a dataset. By conducting extensive experiments with our virtually modified dataset and validating on the original NYU depth v2 and iBims-1 benchmarks, we show that ANYU improves the monocular depth estimation performance and generalization of deep neural networks with considerably different architectures, especially for the current state-of-the-art VPD model. To the best of our knowledge, this is the first work that augments a real-world dataset with randomly generated virtual 3D objects for monocular depth estimation. We make our ANYU dataset publicly available in two training configurations with 10% and 100% additional synthetically enriched RGB-D pairs of training images, respectively, for efficient training and empirical exploration of virtual augmentation at https://github.com/ABrain-One/ANYU
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# LoongServe: 弾力的シーケンス並列性を備えた長文大言語モデルの効率的な実行

LoongServe: Efficiently Serving Long-context Large Language Models with Elastic Sequence Parallelism ( http://arxiv.org/abs/2404.09526v1 )

ライセンス: Link先を確認
Bingyang Wu, Shengyu Liu, Yinmin Zhong, Peng Sun, Xuanzhe Liu, Xin Jin, (参考訳) 大規模言語モデル(LLM)のコンテキストウィンドウは急速に増加しており、異なる要求と同じ要求の異なるフェーズ間のリソース使用量に大きなばらつきをもたらしている。 静的並列化戦略によって制限され、既存のLLMサービスシステムは、異なるフェーズにおける可変長要求を効率的に利用できない。 この問題に対処するために、異なる要求と位相の分散に弾性的に適応する新しい並列性パラダイム、弾性列並列性(ESP)を提案する。 ESPに基づいて,(1)リアルタイムに並列性の度合いを弾性的に調整し,計算効率を向上させるLongServeを設計・構築し,(2)鍵値キャッシュマイグレーションオーバーヘッドの低減と計算による部分復号通信の重複による通信効率の向上,(3)インスタンス間のキー値キャッシュフラグメンテーションの低減によるGPUメモリ効率の向上を図った。 多様な実世界のデータセットによる評価では、LoongServeはチャンクプリフィルと比較して最大スループットを最大3.85$\times$、プリフィルデコードデアグリゲーションと比較して5.81$\times$に改善している。

The context window of large language models (LLMs) is rapidly increasing, leading to a huge variance in resource usage between different requests as well as between different phases of the same request. Restricted by static parallelism strategies, existing LLM serving systems cannot efficiently utilize the underlying resources to serve variable-length requests in different phases. To address this problem, we propose a new parallelism paradigm, elastic sequence parallelism (ESP), to elastically adapt to the variance between different requests and phases. Based on ESP, we design and build LoongServe, an LLM serving system that (1) improves computation efficiency by elastically adjusting the degree of parallelism in real-time, (2) improves communication efficiency by reducing key-value cache migration overhead and overlapping partial decoding communication with computation, and (3) improves GPU memory efficiency by reducing key-value cache fragmentation across instances. Our evaluation under diverse real-world datasets shows that LoongServe improves the maximum throughput by up to 3.85$\times$ compared to the chunked prefill and 5.81$\times$ compared to the prefill-decoding disaggregation.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# TMPQ-DM:効率的な拡散モデルのための共同時間ステップ削減と量子化精度の選択

TMPQ-DM: Joint Timestep Reduction and Quantization Precision Selection for Efficient Diffusion Models ( http://arxiv.org/abs/2404.09532v1 )

ライセンス: Link先を確認
Haojun Sun, Chen Tang, Zhi Wang, Yuan Meng, Jingyan jiang, Xinzhu Ma, Wenwu Zhu, (参考訳) 拡散モデルは、生成モデルの領域において支配的な競合者として現れてきた。 数百から数千のタイムステップを特徴とする、その特異な連続的な生成過程によって区別される拡散モデルは、純粋なガウスノイズから徐々にイメージを再構築し、各タイムステップはモデル全体の完全な推測を必要とする。 しかしながら、これらのモデルに固有のかなりの計算要求は、配置の課題を示し、量子化は、ストレージと計算オーバーヘッドを減らすためにビット幅を小さくするために広く使用される。 現在の量子化手法は主にモデル側の最適化に重点を置いており、時間列の長さなどの時間次元を無視しているため、冗長な時間ステップが計算資源を消費し続け、生成過程を加速するためのかなりのスコープを残している。 本稿では,TMPQ-DMを提案する。このTMPQ-DMは,時間的・モデル的最適化の両面に対処し,時間的削減と量子化を両立させ,優れた性能・効率のトレードオフを実現する。 時間ステップ削減のために,非均一なグループ化手法をデノナイジングプロセスの非均一性に合わせて考案し,時間ステップの爆発的組み合わせを緩和する。 量子化の観点では、最終生成性能に対するそれぞれの貢献に基づいて異なる層に異なるビット幅を割り当てる、きめ細かい層幅のアプローチを採用し、先行研究で観測された性能劣化を是正する。 微粒化量子化の評価を迅速化するために,共有量子化結果を活用することで,高精度な解法として機能するスーパーネットワークを考案する。 これらの2つの設計要素は、我々のフレームワークにシームレスに統合され、勾配のない進化的探索アルゴリズムを用いて指数関数的に大きな決定空間を迅速に探索することができる。

Diffusion models have emerged as preeminent contenders in the realm of generative models. Distinguished by their distinctive sequential generative processes, characterized by hundreds or even thousands of timesteps, diffusion models progressively reconstruct images from pure Gaussian noise, with each timestep necessitating full inference of the entire model. However, the substantial computational demands inherent to these models present challenges for deployment, quantization is thus widely used to lower the bit-width for reducing the storage and computing overheads. Current quantization methodologies primarily focus on model-side optimization, disregarding the temporal dimension, such as the length of the timestep sequence, thereby allowing redundant timesteps to continue consuming computational resources, leaving substantial scope for accelerating the generative process. In this paper, we introduce TMPQ-DM, which jointly optimizes timestep reduction and quantization to achieve a superior performance-efficiency trade-off, addressing both temporal and model optimization aspects. For timestep reduction, we devise a non-uniform grouping scheme tailored to the non-uniform nature of the denoising process, thereby mitigating the explosive combinations of timesteps. In terms of quantization, we adopt a fine-grained layer-wise approach to allocate varying bit-widths to different layers based on their respective contributions to the final generative performance, thus rectifying performance degradation observed in prior studies. To expedite the evaluation of fine-grained quantization, we further devise a super-network to serve as a precision solver by leveraging shared quantization results. These two design components are seamlessly integrated within our framework, enabling rapid joint exploration of the exponentially large decision space via a gradient-free evolutionary search algorithm.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# Dual Randomized Smoothing によるロバスト性認定のための次元曲線の修正

Mitigating the Curse of Dimensionality for Certified Robustness via Dual Randomized Smoothing ( http://arxiv.org/abs/2404.09586v1 )

ライセンス: Link先を確認
Song Xia, Yu Yi, Xudong Jiang, Henghui Ding, (参考訳) Randomized Smoothing (RS) は、任意の画像分類器に確証のあるロバスト性を与えるための有望な手法であることが証明されている。 しかし、高次元等方性ガウスノイズに固有のかなりの不確実性は、RSに次元性の呪いを課す。 具体的には、RS によって与えられる証明されたロバストネス半径 ${\ell_2}$ の上界は、入力次元 $d$ の膨張とともに減少傾向を示し、比例的に 1/\sqrt{d}$ の速度で減少する。 本稿では,低次元空間における双対平滑化の利用を通じて,高次元入力に対して${\ell_2}$認証ロバスト性を提供することの実現可能性について検討する。 提案したDual Randomized Smoothing (DRS)は、入力イメージを2つのサブイメージにダウンサンプルし、下位次元で2つのサブイメージを滑らかにする。 理論的には、DRSが元の入力に対して厳密な${\ell_2}$証明されたロバストネス半径を保証し、DRSが${\ell_2}$ロバストネス半径の上位境界に達することを証明し、$m+n=d$で$(1/\sqrt m + 1/\sqrt n )$で比例的に減少することを示す。 CIFAR-10 と ImageNet のデータセット上での RS の信頼性向上を${\ell_2}$ の証明されたロバストネスベースラインが得られた。 コードはhttps://github.com/xiasong0501/DRSで入手できる。

Randomized Smoothing (RS) has been proven a promising method for endowing an arbitrary image classifier with certified robustness. However, the substantial uncertainty inherent in the high-dimensional isotropic Gaussian noise imposes the curse of dimensionality on RS. Specifically, the upper bound of ${\ell_2}$ certified robustness radius provided by RS exhibits a diminishing trend with the expansion of the input dimension $d$, proportionally decreasing at a rate of $1/\sqrt{d}$. This paper explores the feasibility of providing ${\ell_2}$ certified robustness for high-dimensional input through the utilization of dual smoothing in the lower-dimensional space. The proposed Dual Randomized Smoothing (DRS) down-samples the input image into two sub-images and smooths the two sub-images in lower dimensions. Theoretically, we prove that DRS guarantees a tight ${\ell_2}$ certified robustness radius for the original input and reveal that DRS attains a superior upper bound on the ${\ell_2}$ robustness radius, which decreases proportionally at a rate of $(1/\sqrt m + 1/\sqrt n )$ with $m+n=d$. Extensive experiments demonstrate the generalizability and effectiveness of DRS, which exhibits a notable capability to integrate with established methodologies, yielding substantial improvements in both accuracy and ${\ell_2}$ certified robustness baselines of RS on the CIFAR-10 and ImageNet datasets. Code is available at https://github.com/xiasong0501/DRS.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# シーングラフ生成メトリクスのレビューと効率的な実装

A Review and Efficient Implementation of Scene Graph Generation Metrics ( http://arxiv.org/abs/2404.09616v1 )

ライセンス: Link先を確認
Julian Lorenz, Robin Schön, Katja Ludwig, Rainer Lienhart, (参考訳) シーングラフ生成はコンピュータビジョンにおける顕著な研究分野として現れており、近年の著しい進歩を目撃している。 しかし、これらの進歩にもかかわらず、シーングラフ生成モデルを評価するために使われるメトリクスの正確かつ徹底的な定義は欠落している。 本稿では、シーングラフ生成においてよく使われるメトリクスのレビューと正確な定義を提供することにより、文献におけるこのギャップに対処する。 総合的な検証により,これらの指標の根底にある原則が明確化され,シーングラフメトリクスの参照や導入として機能する。 さらに、これらのメトリクスの使用を容易にするために、SGBenchと呼ばれるスタンドアロンのPythonパッケージを導入し、すべての定義されたメトリクスを効率的に実装し、研究コミュニティへのアクセシビリティを確保する。 さらに,シーングラフ生成手法を研究者が比較し,中心となる場所で新たな手法の可視性を高めることのできるシーングラフベンチマークWebサービスを提案する。 すべてのコードはhttps://lorjul.github.io/sgbench/.com/で確認できます。

Scene graph generation has emerged as a prominent research field in computer vision, witnessing significant advancements in the recent years. However, despite these strides, precise and thorough definitions for the metrics used to evaluate scene graph generation models are lacking. In this paper, we address this gap in the literature by providing a review and precise definition of commonly used metrics in scene graph generation. Our comprehensive examination clarifies the underlying principles of these metrics and can serve as a reference or introduction to scene graph metrics. Furthermore, to facilitate the usage of these metrics, we introduce a standalone Python package called SGBench that efficiently implements all defined metrics, ensuring their accessibility to the research community. Additionally, we present a scene graph benchmarking web service, that enables researchers to compare scene graph generation methods and increase visibility of new methods in a central place. All of our code can be found at https://lorjul.github.io/sgbench/.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# 適応的手法の保護:バルジライ=ボルヴァインの大域収束とその他の段階的選択

Safeguarding adaptive methods: global convergence of Barzilai-Borwein and other stepsize choices ( http://arxiv.org/abs/2404.09617v1 )

ライセンス: Link先を確認
Ou Hongjia, Andreas Themelis, (参考訳) 本稿では, 凸最小化問題に対する適応手法の最近の進歩を生かして, バルジライ=ボルワインやアンダーソン加速度などの一般的なステップサイズ選択の収束をグローバル化する, 線形探索不要な近位勾配フレームワークを提供する。 この枠組みは、微分可能関数の勾配が単に局所的に H より古い連続であるような問題に対処することができる。 私たちの分析は、その分析を包含するだけでなく、構築した既存の結果を洗練します。 この理論は、高速なステップサイズ選択と適応的な方法の間の相乗的相互作用を示す数値的な証拠によって裏付けられている。

Leveraging on recent advancements on adaptive methods for convex minimization problems, this paper provides a linesearch-free proximal gradient framework for globalizing the convergence of popular stepsize choices such as Barzilai-Borwein and one-dimensional Anderson acceleration. This framework can cope with problems in which the gradient of the differentiable function is merely locally H\"older continuous. Our analysis not only encompasses but also refines existing results upon which it builds. The theory is corroborated by numerical evidence that showcases the synergetic interplay between fast stepsize selections and adaptive methods.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# 割り当て予測によるブリッジングビジョンと言語空間

Bridging Vision and Language Spaces with Assignment Prediction ( http://arxiv.org/abs/2404.09632v1 )

ライセンス: Link先を確認
Jungin Park, Jiyoung Lee, Kwanghoon Sohn, (参考訳) 本稿では,凍結LDMが視覚世界を理解するために,事前学習された視覚モデルと大規模言語モデル(LLM)をブリッジする新しいアプローチであるVLAPを紹介する。 VLAPは、学習済み視覚モデルの埋め込み空間を単一の線形層を用いてLLMの単語埋め込み空間に変換し、効率的で汎用的な視覚および言語理解を実現する。 具体的には、2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。 割り当て手順を最適な輸送問題として定式化することにより、視覚およびテキスト表現を事前訓練されたLLM内の単語埋め込みのセットに同時に割り当てる。 我々は、ペア化されたマルチモーダルデータに対して一貫した割り当てを課し、他のモーダルデータの表現から1つのモーダルの割り当てを予測する。 これにより、視覚と言語表現は同じ情報を含むことができ、凍結したLLMの単語埋め込みスペースを視覚データに埋め込むことができる。 さらに、LLMが単語埋め込み間の相関関係から言語情報を解釈し、推論するため、LLMの堅牢な意味分類を視覚データで保存することができる。 実験結果から,VLAPは画像キャプション,視覚的質問応答,モーダル間検索などの視覚言語タスクにおいて,従来の線形変換に基づくアプローチよりも大幅に改善されていることがわかった。 また、学習した視覚表現がLLMのセマンティックな分類を持ち、視覚的なセマンティックな算術を可能にすることを実証する。

This paper introduces VLAP, a novel approach that bridges pretrained vision models and large language models (LLMs) to make frozen LLMs understand the visual world. VLAP transforms the embedding space of pretrained vision models into the LLMs' word embedding space using a single linear layer for efficient and general-purpose visual and language understanding. Specifically, we harness well-established word embeddings to bridge two modality embedding spaces. The visual and text representations are simultaneously assigned to a set of word embeddings within pretrained LLMs by formulating the assigning procedure as an optimal transport problem. We predict the assignment of one modality from the representation of another modality data, enforcing consistent assignments for paired multimodal data. This allows vision and language representations to contain the same information, grounding the frozen LLMs' word embedding space in visual data. Moreover, a robust semantic taxonomy of LLMs can be preserved with visual data since the LLMs interpret and reason linguistic information from correlations between word embeddings. Experimental results show that VLAP achieves substantial improvements over the previous linear transformation-based approaches across a range of vision-language tasks, including image captioning, visual question answering, and cross-modal retrieval. We also demonstrate the learned visual representations hold a semantic taxonomy of LLMs, making visual semantic arithmetic possible.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# 正規化流を用いた自律走行におけるモデル予測軌道計画のサンプリング

Sampling for Model Predictive Trajectory Planning in Autonomous Driving using Normalizing Flows ( http://arxiv.org/abs/2404.09657v1 )

ライセンス: Link先を確認
Georg Rabenstein, Lars Ullrich, Knut Graichen, (参考訳) 最適化に基づくプランナーの他に、サンプリングに基づくアプローチは、単純さのために自動走行の軌道計画によく用いられる。 モデル予測経路積分制御は、入力軌跡の確率的サンプリングを取り入れつつ、最適化原理に基づくフレームワークである。 本稿では,軌道生成のためのサンプリング手法について検討する。 この文脈では、単純な分布からより複雑な分布の変換をモデル化するため、サンプリング分布の生成には変分推論の場に由来する正規化フローが考慮される。 したがって、学習に基づく正規化フローモデルを訓練し、タスクの入力領域をより効率的に探索する。 提案手法は,2つのシミュレーションシナリオで評価した。

Alongside optimization-based planners, sampling-based approaches are often used in trajectory planning for autonomous driving due to their simplicity. Model predictive path integral control is a framework that builds upon optimization principles while incorporating stochastic sampling of input trajectories. This paper investigates several sampling approaches for trajectory generation. In this context, normalizing flows originating from the field of variational inference are considered for the generation of sampling distributions, as they model transformations of simple to more complex distributions. Accordingly, learning-based normalizing flow models are trained for a more efficient exploration of the input domain for the task at hand. The developed algorithm and the proposed sampling distributions are evaluated in two simulation scenarios.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# AIによる前立腺癌診断のための変形性MRIシークエンス登録

Deformable MRI Sequence Registration for AI-based Prostate Cancer Diagnosis ( http://arxiv.org/abs/2404.09666v1 )

ライセンス: Link先を確認
Alessa Hering, Sarah de Boer, Anindo Saha, Jasper J. Twilt, Derya Yakar, Maarten de Rooij, Henkjan Huisman, Joeran S. Bosma, (参考訳) PI-CAI(Prostate Imaging: Cancer AI)の課題は、臨床上重要な前立腺がん検出のための専門家レベルの診断アルゴリズムに繋がった。 アルゴリズムは入力としてバイパラメトリックMRIスキャンを受け取り、これはT2重みと拡散重み付きスキャンからなる。 これらのスキャンは、スキャンプロセスの複数の要因により、不整合が生じる可能性がある。 画像登録は、シーケンス間の変形を予測することでこの問題を軽減することができる。 画像登録がAIによる前立腺癌診断の診断成績に及ぼす影響について検討した。 まず、MeVisLabで開発された画像登録アルゴリズムを、ペアの病変アノテーションを持つデータセットを用いて解析する。 第2に、元のデータセット、厳密に整列された拡散強調スキャン、または変形的に整列された拡散強調スキャンとのケースレベルがん診断性能を比較して、診断への影響を評価する。 登録は改善されなかった。 変形性登録では病変の重複(中央値の10%以上)が有意に改善し,診断成績はプラスでも有意な改善が認められた(+0.3% AUROC, p=0.18)。 本研究は, 病変アライメントの大幅な改善は, 診断成績の大幅な改善につながるものではないことを示唆している。 定性的分析により、画像登録法と診断AIアルゴリズムを共同開発することで、診断精度と患者の結果が向上することが示唆された。

The PI-CAI (Prostate Imaging: Cancer AI) challenge led to expert-level diagnostic algorithms for clinically significant prostate cancer detection. The algorithms receive biparametric MRI scans as input, which consist of T2-weighted and diffusion-weighted scans. These scans can be misaligned due to multiple factors in the scanning process. Image registration can alleviate this issue by predicting the deformation between the sequences. We investigate the effect of image registration on the diagnostic performance of AI-based prostate cancer diagnosis. First, the image registration algorithm, developed in MeVisLab, is analyzed using a dataset with paired lesion annotations. Second, the effect on diagnosis is evaluated by comparing case-level cancer diagnosis performance between using the original dataset, rigidly aligned diffusion-weighted scans, or deformably aligned diffusion-weighted scans. Rigid registration showed no improvement. Deformable registration demonstrated a substantial improvement in lesion overlap (+10% median Dice score) and a positive yet non-significant improvement in diagnostic performance (+0.3% AUROC, p=0.18). Our investigation shows that a substantial improvement in lesion alignment does not directly lead to a significant improvement in diagnostic performance. Qualitative analysis indicated that jointly developing image registration methods and diagnostic AI algorithms could enhance diagnostic accuracy and patient outcomes.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# AntDT: リーダとストラグラーノードのための自己適応型分散トレーニングフレームワーク

AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes ( http://arxiv.org/abs/2404.09679v1 )

ライセンス: Link先を確認
Youshao Xiao, Lin Ju, Zhenglei Zhou, Siyuan Li, Zhaoxin Huan, Dalong Zhang, Rujie Jiang, Lin Wang, Xiaolu Zhang, Lei Liang, Jun Zhou, (参考訳) パラメータサーバやAllReduceのような多くの分散トレーニング技術は、ますます大きなデータとリッチな機能を活用するために提案されている。 しかし、ストラグラーはリソースの競合やハードウェアの不均一性により分散トレーニングで頻繁に発生し、トレーニング効率を著しく損なう。 それまでの作業はストラグラーの一部にしか対応せず、実際には様々なストラグラーを適応的に解決できなかった。 さらに、データアロケーションやフォールトトレランスのメカニズムが多様であるため、すべてのストラグラーに対処するための体系的なフレームワークを使用することも困難である。 そこで本稿では,ストラグラー問題を適応的に解くために,AntDT(Ant Distributed Training Framework)と呼ばれる分散トレーニングフレームワークを提案する。 まず、このフレームワークはStateful Dynamic Data Sharding Service、Monitor、Controller、Agentの4つのコンポーネントで構成されている。 これらのコンポーネントは協調して、ワークロードを効率的に分散し、フォールトトレランスを備えた事前定義されたトラグラー緩和方法を提供し、データアロケーションとフォールトハンドリングの混乱した詳細を隠蔽する。 第二に、このフレームワークは高い柔軟性を提供し、クラスタの特定の状況に基づいたストラグラー緩和ソリューションのカスタマイズを可能にする。 この柔軟性を生かした2つのストラグラー緩和ソリューション、すなわち、非述語クラスタのAntDT-NDと専用クラスタのAntDT-DDを、Ant Groupにおける様々なタイプのストラグラーを解決するための実用的な例として導入する。 総合的な実験と産業展開統計によって正当化されたAntDTは、訓練効率の点で、他のSOTAメソッドよりも3倍以上に優れています。 さらに、Alipayのホームページレコメンデーションシナリオでは、AntDTを使用してランキングモデルのトレーニング期間を27.8時間から5.4時間に短縮する。

Many distributed training techniques like Parameter Server and AllReduce have been proposed to take advantage of the increasingly large data and rich features. However, stragglers frequently occur in distributed training due to resource contention and hardware heterogeneity, which significantly hampers the training efficiency. Previous works only address part of the stragglers and could not adaptively solve various stragglers in practice. Additionally, it is challenging to use a systematic framework to address all stragglers because different stragglers require diverse data allocation and fault-tolerance mechanisms. Therefore, this paper proposes a unified distributed training framework called AntDT (Ant Distributed Training Framework) to adaptively solve the straggler problems. Firstly, the framework consists of four components, including the Stateful Dynamic Data Sharding service, Monitor, Controller, and Agent. These components work collaboratively to efficiently distribute workloads and provide a range of pre-defined straggler mitigation methods with fault tolerance, thereby hiding messy details of data allocation and fault handling. Secondly, the framework provides a high degree of flexibility, allowing for the customization of straggler mitigation solutions based on the specific circumstances of the cluster. Leveraging this flexibility, we introduce two straggler mitigation solutions, namely AntDT-ND for non-dedicated clusters and AntDT-DD for dedicated clusters, as practical examples to resolve various types of stragglers at Ant Group. Justified by our comprehensive experiments and industrial deployment statistics, AntDT outperforms other SOTA methods more than 3x in terms of training efficiency. Additionally, in Alipay's homepage recommendation scenario, using AntDT reduces the training duration of the ranking model from 27.8 hours to just 5.4 hours.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# AntBatchInfer: KubernetesクラスタのElastic Batch推論

AntBatchInfer: Elastic Batch Inference in the Kubernetes Cluster ( http://arxiv.org/abs/2404.09686v1 )

ライセンス: Link先を確認
Siyuan Li, Youshao Xiao, Fanzhuang Meng, Lin Ju, Lei Liang, Lin Wang, Jun Zhou, (参考訳) オフラインバッチ推論は、ディープラーニングアプリケーション業界では一般的なタスクだが、大量のデータと複雑な推論パイプラインを扱う場合、安定性とパフォーマンスを確保することは難しい。 本稿では,非専用クラスタに最適化された弾力性のあるバッチ推論フレームワークAntBatchInferを実証した。 AntBatchInferは、多レベルのフォールトトレラント機能を提供することで、これらの課題に対処する。 また、パイプライニング、ノード内、ノード間スケーリングによる推論効率も向上する。 さらに、複雑なマルチモデルバッチ推論シナリオのパフォーマンスを最適化する。 大規模な実験と実世界の統計を通じて、安定性と効率性の観点から、我々のフレームワークの優位性を実証する。 実験では、シングルモデルまたはマルチモデルバッチ推論において、ベースラインを少なくとも$2\times$と$6\times$で上回る。 また、Ant Groupでも広く使われており、DLRM、CV、NLPといった様々なシナリオから毎日何千ものジョブが使われており、業界におけるその実践性を示している。

Offline batch inference is a common task in the industry for deep learning applications, but it can be challenging to ensure stability and performance when dealing with large amounts of data and complicated inference pipelines. This paper demonstrated AntBatchInfer, an elastic batch inference framework, which is specially optimized for the non-dedicated cluster. AntBatchInfer addresses these challenges by providing multi-level fault-tolerant capabilities, enabling the stable execution of versatile and long-running inference tasks. It also improves inference efficiency by pipelining, intra-node, and inter-node scaling. It further optimizes the performance in complicated multiple-model batch inference scenarios. Through extensive experiments and real-world statistics, we demonstrate the superiority of our framework in terms of stability and efficiency. In the experiment, it outperforms the baseline by at least $2\times$ and $6\times$ in the single-model or multiple-model batch inference. Also, it is widely used at Ant Group, with thousands of daily jobs from various scenarios, including DLRM, CV, and NLP, which proves its practicability in the industry.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# マルチエージェントアプリケーションのための保証付きカーネルベースの学習

Kernel-based learning with guarantees for multi-agent applications ( http://arxiv.org/abs/2404.09708v1 )

ライセンス: Link先を確認
Krzysztof Kowalczyk, Paweł Wachel, Cristian R. Rojas, (参考訳) 本稿では,雑音環境下での潜伏多次元非線形現象を局所的に観察するエージェントネットワークのカーネルベース学習問題に対処する。 本研究では,研究中の現象について軽度の事前知識のみを必要とする学習アルゴリズムを提案し,それに対応する非漸近的高確率誤差境界を持つモデルを提供する。 本論文では,本手法の非漸近解析と数値シミュレーションの結果について述べる。

This paper addresses a kernel-based learning problem for a network of agents locally observing a latent multidimensional, nonlinear phenomenon in a noisy environment. We propose a learning algorithm that requires only mild a priori knowledge about the phenomenon under investigation and delivers a model with corresponding non-asymptotic high probability error bounds. Both non-asymptotic analysis of the method and numerical simulation results are presented and discussed in the paper.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15
# シナリオ適応型微粒化パーソナライズネットワーク:シナリオコンテキストへのユーザ行動表現の調整

Scenario-Adaptive Fine-Grained Personalization Network: Tailoring User Behavior Representation to the Scenario Context ( http://arxiv.org/abs/2404.09709v1 )

ライセンス: Link先を確認
Moyu Zhang, Yongxiang Tang, Jinxin Hu, Yu Zhang, (参考訳) 既存の方法は、ユーザ行動シーケンスを集約した後のみ、適応的に表現を調整することが多い。 ユーザシーケンス全体を再重み付けするこの粗いアプローチは、さまざまなシナリオにわたるユーザ関心のマイグレーションを正確にモデル化するモデルの能力を損なう。 シナリオごとの履歴行動系列からユーザの興味を捉える能力を高めるため,シナリオ適応ファイングラインドパーソナライゼーションネットワーク (SFPNet) と呼ばれるランキングフレームワークを開発し,マルチシナリオパーソナライズされたレコメンデーションのための,ある種のきめ細かい手法を設計する。 具体的には、SFPNetはScenario-Tailoring Blockという名前の一連のブロックを順次積み重ねて構成する。 各ブロックは、まずパラメータパーソナライズユニットをデプロイし、基本的な特徴を再定義することで、粗い粒度レベルでシナリオ情報を統合する。 その後、シナリオ適応型特徴表現を統合化し、コンテキスト情報として機能させる。 残余接続を用いることで、このコンテキストを各履歴行動の表現に組み込むことで、シナリオレベルでの振る舞い表現のきめ細かいカスタマイズを可能にし、シナリオ対応のユーザ関心モデリングをサポートする。

Existing methods often adjust representations adaptively only after aggregating user behavior sequences. This coarse-grained approach to re-weighting the entire user sequence hampers the model's ability to accurately model the user interest migration across different scenarios. To enhance the model's capacity to capture user interests from historical behavior sequences in each scenario, we develop a ranking framework named the Scenario-Adaptive Fine-Grained Personalization Network (SFPNet), which designs a kind of fine-grained method for multi-scenario personalized recommendations. Specifically, SFPNet comprises a series of blocks named as Scenario-Tailoring Block, stacked sequentially. Each block initially deploys a parameter personalization unit to integrate scenario information at a coarse-grained level by redefining fundamental features. Subsequently, we consolidate scenario-adaptively adjusted feature representations to serve as context information. By employing residual connection, we incorporate this context into the representation of each historical behavior, allowing for context-aware fine-grained customization of the behavior representations at the scenario-level, which in turn supports scenario-aware user interest modeling.
翻訳日:2024-04-16 12:20:54 公開日:2024-04-15