このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240313となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# マルチUAVのためのGCNを用いたアンチジャミングパス計画
Anti-Jamming Path Planning Using GCN for Multi-UAV ( http://arxiv.org/abs/2405.00689v1 ) ライセンス: Link先を確認 | Haechan Jeong, | (参考訳) 本稿では,UAV(無人航空機)の重要性の高まりと,UAVスワムの出現に対処する。
しかし、UAVSwarmの有効性は、堅牢なアンチジャミング戦略を必要とする技術妨害によって著しく損なわれる可能性がある。
周波数ホッピングや物理経路計画といった既存の手法が検討されているが、ジャマーの位置が不明な場合、UAVスワムの経路計画に関する研究にはまだギャップがある。
これを解決するために,UAV群集が集団知能を利用してジャミングエリアを予測し,回避し,目的地に効率的に到達する手法を提案する。
このアプローチでは、GCN(Graph Convolutional Networks)を用いて、各UAVから収集した情報に基づいて、ジャミング領域の位置と強度を予測する。
マルチエージェント制御アルゴリズムを使用して、UAVスワムを分散し、ジャミングを回避し、ターゲットに到達すると再グループ化する。
シミュレーションにより,提案手法の有効性を実証し,ジャミング領域の正確な予測と障害物回避アルゴリズムによる回避を成功させ,最終的にミッション目標を達成した。
提案手法は、堅牢性、スケーラビリティ、計算効率を提供し、UAV群が潜在的に敵対的な環境で動作する様々なシナリオに適用できる。
This paper addresses the increasing significance of UAVs (Unmanned Aerial Vehicles) and the emergence of UAV swarms for collaborative operations in various domains. However, the effectiveness of UAV swarms can be severely compromised by jamming technology, necessitating robust antijamming strategies. While existing methods such as frequency hopping and physical path planning have been explored, there remains a gap in research on path planning for UAV swarms when the jammer's location is unknown. To address this, a novel approach, where UAV swarms leverage collective intelligence to predict jamming areas, evade them, and efficiently reach target destinations, is proposed. This approach utilizes Graph Convolutional Networks (GCN) to predict the location and intensity of jamming areas based on information gathered from each UAV. A multi-agent control algorithm is then employed to disperse the UAV swarm, avoid jamming, and regroup upon reaching the target. Through simulations, the effectiveness of the proposed method is demonstrated, showcasing accurate prediction of jamming areas and successful evasion through obstacle avoidance algorithms, ultimately achieving the mission objective. Proposed method offers robustness, scalability, and computational efficiency, making it applicable across various scenarios where UAV swarms operate in potentially hostile environments. | 翻訳日:2024-07-01 11:19:45 公開日:2024-03-13 |
# カカオ植物におけるCSSVD検出のための画像分類
Image Classification for CSSVD Detection in Cacao Plants ( http://arxiv.org/abs/2405.04535v1 ) ライセンス: Link先を確認 | Atuhurra Jesse, N'guessan Yves-Roland Douha, Pabitra Lenka, | (参考訳) 植物の病気の発見は、コンピュータービジョン愛好家から多くの注目を集めている。
多くの植物で病気を検出するための進歩にもかかわらず、カカオの肥大するシュートウイルス病(CSSVD)を検出するために画像分類器を訓練する研究のギャップは依然として残っている。
このギャップは主に、高品質なラベル付きトレーニングデータが利用できないためである。
さらに、機関はCSSVDに関するデータを共有することをためらっている。
これらのギャップを埋めるために,CSSVD感染カカオ植物を検出する画像分類器の開発を提案する。
提案手法はVGG16, ResNet50, Vision Transformer (ViT) に基づく。
我々は最近リリースされたKaraAgroAI Cocoaデータセットを用いて分類器の評価を行った。
ResNet50をベースとした最良の画像分類器は、95.39\%の精度、93.75\%のリコール、94.34\%のF1スコア、94\%の精度を20エポックで達成している。
以前の作品と比較して、リコールでは+9.75\%改善されている。
画像分類器はCSSVDに感染したカカオ植物を識別する。
The detection of diseases within plants has attracted a lot of attention from computer vision enthusiasts. Despite the progress made to detect diseases in many plants, there remains a research gap to train image classifiers to detect the cacao swollen shoot virus disease or CSSVD for short, pertinent to cacao plants. This gap has mainly been due to the unavailability of high quality labeled training data. Moreover, institutions have been hesitant to share their data related to CSSVD. To fill these gaps, we propose the development of image classifiers to detect CSSVD-infected cacao plants. Our proposed solution is based on VGG16, ResNet50 and Vision Transformer (ViT). We evaluate the classifiers on a recently released and publicly accessible KaraAgroAI Cocoa dataset. Our best image classifier, based on ResNet50, achieves 95.39\% precision, 93.75\% recall, 94.34\% F1-score and 94\% accuracy on only 20 epochs. There is a +9.75\% improvement in recall when compared to previous works. Our results indicate that the image classifiers learn to identify cacao plants infected with CSSVD. | 翻訳日:2024-07-01 10:40:42 公開日:2024-03-13 |
# 交通違反防止のための再利用可能な時間モニタの適応分割
Adaptive Splitting of Reusable Temporal Monitors for Rare Traffic Violations ( http://arxiv.org/abs/2405.15771v1 ) ライセンス: Link先を確認 | Craig Innes, Subramanian Ramamoorthy, | (参考訳) 自律走行車(AV)は、安全仕様に違反する確率を推定するために、しばしばシミュレーションでテストされる。
既存の手法を用いてこの推定を行う際には2つの一般的な問題が発生する: 違反がほとんど発生しない場合、単純なモンテカルロサンプリング技術は効率的な見積もりを得られず、シミュレーションの地平線が長すぎる場合、重要サンプリング技術(過去のシミュレーションから提案分布を学習する)は収束しない。
本稿では,レアイベントサンプリング手法をオンライン仕様監視アルゴリズムにインターリーブすることで,両問題に対処する。
適応的なマルチレベル分割を用いてシミュレーションを部分軌跡に分解し,信号時間論理(STL)のロバストネス指標を利用して,部分軌跡から障害までの距離を算出する。
これらの部分ロバスト性測定値をキャッシュすることで、複数のサンプリングステージにわたる計算を効率的に再利用することができる。
本手法は,実交通規則に基づくSTL仕様の故障確率を効率的に推定し,シミュレーションされたAVパイプの試験に有効であることを示す。
我々はモンテカルロよりも優れた推定値を生成し、より少ないシミュレーションで重要なサンプリングを行う。
Autonomous Vehicles (AVs) are often tested in simulation to estimate the probability they will violate safety specifications. Two common issues arise when using existing techniques to produce this estimation: If violations occur rarely, simple Monte-Carlo sampling techniques can fail to produce efficient estimates; if simulation horizons are too long, importance sampling techniques (which learn proposal distributions from past simulations) can fail to converge. This paper addresses both issues by interleaving rare-event sampling techniques with online specification monitoring algorithms. We use adaptive multi-level splitting to decompose simulations into partial trajectories, then calculate the distance of those partial trajectories to failure by leveraging robustness metrics from Signal Temporal Logic (STL). By caching those partial robustness metric values, we can efficiently re-use computations across multiple sampling stages. Our experiments on an interstate lane-change scenario show our method is viable for testing simulated AV-pipelines, efficiently estimating failure probabilities for STL specifications based on real traffic rules. We produce better estimates than Monte-Carlo and importance sampling in fewer simulations. | 翻訳日:2024-07-01 08:29:41 公開日:2024-03-13 |
# 実市場価値に基づくAI価格推定のフィードバックのモデル化
Modeling the Feedback of AI Price Estimations on Actual Market Values ( http://arxiv.org/abs/2405.18434v1 ) ライセンス: Link先を確認 | Viorel Silaghi, Zobaida Alssadi, Ben Mathew, Majed Alotaibi, Ali Alqarni, Marius Silaghi, | (参考訳) 人工知能(AI)が生み出す情報の公開は、市場を永久に変化させる可能性がある。
不動産超インフレは新しい現象ではないが、その一貫したほぼ単調な持続性は12年間にわたって続き、成功しているMREE (Mass Real Estate Estimator) のZillow による公的推定情報の有名さと一致した。
私たちがモデルとしているのは、MREEとホームオーナーの繰り返し理論ゲームであり、各プレイヤーは秘密の情報と専門知識を持っている。
住宅を手頃な価格で維持し、住宅所有者の広い旧アメリカのライフスタイルを維持することを目的としている場合、新しい課題が定義される。
シミュレーションにより、オプトイン特性に対するMREEスタイルの価格推定能力の簡易な制限は、実験シミュレーションモデルによって示唆されるように、その潜在的な原因に作用することで、フィードバックループを部分的に減少させる可能性があることが示されている。
不動産インフレ率に対するMREE圧力が、論理的に説明可能な絶対的なMREE推定誤差と相関しているという予想がシミュレーションで検証される。
Public availability of Artificial Intelligence generated information can change the markets forever, and its factoring into economical dynamics may take economists by surprise, out-dating models and schools of thought. Real estate hyper-inflation is not a new phenomenon but its consistent and almost monotonous persistence over 12 years, coinciding with prominence of public estimation information from Zillow, a successful Mass Real Estate Estimator (MREE), could not escape unobserved. What we model is a repetitive theoretical game between the MREE and the home owners, where each player has secret information and expertise. If the intention is to keep housing affordable and maintain old American lifestyle with broad home-ownership, new challenges are defined. Simulations show that a simple restriction of MREE-style price estimation availability to opt-in properties may help partially reduce feedback loop by acting on its likely causes, as suggested by experimental simulation models. The conjecture that the MREE pressure on real estate inflation rate is correlated with the absolute MREE estimation errors, which is logically explainable, is then validated in simulations. | 翻訳日:2024-07-01 08:19:53 公開日:2024-03-13 |
# モラル・インペラティブ:大規模言語モデルの連続的スーパーアライメントの必要性
A Moral Imperative: The Need for Continual Superalignment of Large Language Models ( http://arxiv.org/abs/2403.14683v1 ) ライセンス: Link先を確認 | Gokul Puthumanaillam, Manav Vora, Pranay Thangeda, Melkior Ornik, | (参考訳) 本稿では,AIシステム,特に大規模言語モデル(LLM)において,生涯的スーパーアライメントを実現する上での課題について検討する。
スーパーアライメント(Superalignment)は、超知的なAIシステムが人間の価値観や目標に応じて行動することを確実にする理論フレームワークである。
その有望なビジョンにもかかわらず、人間の倫理と進化するグローバルシナリオのダイナミックな性質を理解・適応するためには、現在のLLMアーキテクチャにおいて、スーパーアライメントの実現には大きな変化が必要であると論じる。
静的AIモデルと人間の社会のダイナミックな性質の相違を強調しながら、人間の価値の絶え間なく変化するスペクトルをLLMに符号化するという課題を識別する。
これらの課題を説明するために、我々は2つの異なる例を分析した。1つは人間の価値の質的な変化を示し、もう1つは定量化可能な変化を示す。
これらの例を通して、LLMはトレーニングデータによって制約され、現代人の価値観やシナリオと整合しないかを説明する。
論文は、これらのアライメントの相違に対処し、おそらく緩和する潜在的な戦略を探求することで、より適応的で応答性の高いAIシステム追求の道筋を示唆している。
This paper examines the challenges associated with achieving life-long superalignment in AI systems, particularly large language models (LLMs). Superalignment is a theoretical framework that aspires to ensure that superintelligent AI systems act in accordance with human values and goals. Despite its promising vision, we argue that achieving superalignment requires substantial changes in the current LLM architectures due to their inherent limitations in comprehending and adapting to the dynamic nature of these human ethics and evolving global scenarios. We dissect the challenges of encoding an ever-changing spectrum of human values into LLMs, highlighting the discrepancies between static AI models and the dynamic nature of human societies. To illustrate these challenges, we analyze two distinct examples: one demonstrates a qualitative shift in human values, while the other presents a quantifiable change. Through these examples, we illustrate how LLMs, constrained by their training data, fail to align with contemporary human values and scenarios. The paper concludes by exploring potential strategies to address and possibly mitigate these alignment discrepancies, suggesting a path forward in the pursuit of more adaptable and responsive AI systems. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-13 |
# FOCIL: ランダムに訓練されたスパースエキスパートによるオンライン授業インクリメンタルラーニングのためのファインチューン&フリーズ
FOCIL: Finetune-and-Freeze for Online Class Incremental Learning by Training Randomly Pruned Sparse Experts ( http://arxiv.org/abs/2403.14684v1 ) ライセンス: Link先を確認 | Murat Onur Yildirim, Elif Ceren Gok Yildirim, Decebal Constantin Mocanu, Joaquin Vanschoren, | (参考訳) オンライン連続学習環境におけるクラスインクリメンタルラーニング(CIL)は、トレーニングに1回だけのデータポイントを使用して、データストリームから一連の新しいクラスに関する知識を取得しようとしている。
これはオフラインモードよりも現実的であり、新しいクラス(es)からのすべてのデータが容易に利用できると仮定される。
現在のオンラインCILアプローチでは、以前のデータのサブセットを格納しているため、メモリと計算の両方のオーバーヘッドコストとプライバシの問題が発生する。
本稿では,FOCILと呼ばれる新しいオンラインCIL手法を提案する。
タスクごとにランダムに切断されたスパースサブネットワークをトレーニングすることで、メインアーキテクチャを継続的に微調整する。
そして、トレーニングされた接続を凍結して、忘れることを防ぐ。
FOCILはまた、タスク毎のスパーシリティレベルと学習率を適応的に決定し、リプレイデータを格納することなく、すべてのタスクを(ほぼ)ゼロにすることを保証します。
10-Task CIFAR100, 20-Task CIFAR100, 100-Task TinyImagenetの実験結果から, 提案手法がSOTAよりも大きなマージンで優れていることが示された。
コードはhttps://github.com/muratonuryildirim/FOCILで公開されている。
Class incremental learning (CIL) in an online continual learning setting strives to acquire knowledge on a series of novel classes from a data stream, using each data point only once for training. This is more realistic compared to offline modes, where it is assumed that all data from novel class(es) is readily available. Current online CIL approaches store a subset of the previous data which creates heavy overhead costs in terms of both memory and computation, as well as privacy issues. In this paper, we propose a new online CIL approach called FOCIL. It fine-tunes the main architecture continually by training a randomly pruned sparse subnetwork for each task. Then, it freezes the trained connections to prevent forgetting. FOCIL also determines the sparsity level and learning rate per task adaptively and ensures (almost) zero forgetting across all tasks without storing any replay data. Experimental results on 10-Task CIFAR100, 20-Task CIFAR100, and 100-Task TinyImagenet, demonstrate that our method outperforms the SOTA by a large margin. The code is publicly available at https://github.com/muratonuryildirim/FOCIL. | 翻訳日:2024-04-01 03:33:23 公開日:2024-03-13 |
# 学習速度スケジューリング器としての循環ログアニーリング
Cyclical Log Annealing as a Learning Rate Scheduler ( http://arxiv.org/abs/2403.14685v1 ) ライセンス: Link先を確認 | Philip Naveen, | (参考訳) 学習率スケジューラは、モデルトレーニング過程において、様々な探索ステップサイズのための事前定義された命令セットである。
本稿では,確率勾配勾配を経たステップサイズを過度に再起動する手法を提案する。
サイクリックログアニールは、オンライン凸最適化フレームワークでよりグレディなアルゴリズムの使用を可能にするために、再起動パターンをより積極的に実装する。
このアルゴリズムは、CIFAR-10画像データセットでテストされ、大きなトランスフォーマー強化残留ニューラルネットワーク上で、コサインアニールと類似して動作するように見えた。
将来の実験では、生成的敵ネットワークにおけるスケジューラのテストと、より多くの実験でスケジューラに最適なパラメータを見つけることが含まれる。
A learning rate scheduler is a predefined set of instructions for varying search stepsizes during model training processes. This paper introduces a new logarithmic method using harsh restarting of step sizes through stochastic gradient descent. Cyclical log annealing implements the restart pattern more aggressively to maybe allow the usage of more greedy algorithms on the online convex optimization framework. The algorithm was tested on the CIFAR-10 image datasets, and seemed to perform analogously with cosine annealing on large transformer-enhanced residual neural networks. Future experiments would involve testing the scheduler in generative adversarial networks and finding the best parameters for the scheduler with more experiments. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-13 |
# 大学生における教育インセンティブの評価:学習分析を用いた混合手法によるアプローチ
Evaluating Pedagogical Incentives in Undergraduate Computing: A Mixed Methods Approach Using Learning Analytics ( http://arxiv.org/abs/2403.14686v1 ) ライセンス: Link先を確認 | Laura J. Johnston, Takoua Jendoubi, | (参考訳) 本稿では,大学ロンドン校の1年生コンピューティング・モジュールで実施される新たな教育的インセンティブの影響について検討する。
我々は、学習分析と質的データを組み合わせた混合手法を用いて、学生のエンゲージメントを高めるためのインセンティブの有効性を評価する。
204人の学生のMoodle活動ログのベイズネットワーク解析を通して,資源相互作用の経年的概要を解析した。
この分析は,早期の資源獲得を継続的エンゲージメントの予測指標とし,新たなインセンティブが高度エンゲージメントの学生に不均等に利益をもたらすことを示唆している。
焦点グループによる議論はこの分析を補完し、教育的変化とモジュール設計に関する学生の認識に関する洞察を提供する。
これらの質的な発見は、新たなインセンティブを通じてエンゲージメントを維持することの課題を浮き彫りにし、ブレンド学習環境におけるコミュニケーションの重要性を強調している。
本稿では,データ駆動型客観分析を学生の視点と統合した,生徒のエンゲージメントに対する解釈可能かつ行動可能なモデルを提案する。
このモデルは、教育者に対して、教育戦略を評価し改善するためのツールを提供する。
デジタル学習環境における生徒の行動の複雑さを捉えるための混合手法の有効性を実証することにより、多様な教育環境におけるオンライン教育実践を改善するためのモデルの可能性を強調した。
In the context of higher education's evolving dynamics post-COVID-19, this paper assesses the impact of new pedagogical incentives implemented in a first-year undergraduate computing module at University College London. We employ a mixed methods approach, combining learning analytics with qualitative data, to evaluate the effectiveness of these incentives on increasing student engagement. A longitudinal overview of resource interactions is mapped through Bayesian network analysis of Moodle activity logs from 204 students. This analysis identifies early resource engagement as a predictive indicator of continued engagement while also suggesting that the new incentives disproportionately benefit highly engaged students. Focus group discussions complement this analysis, providing insights into student perceptions of the pedagogical changes and the module design. These qualitative findings underscore the challenge of sustaining engagement through the new incentives and highlight the importance of communication in blended learning environments. Our paper introduces an interpretable and actionable model for student engagement, which integrates objective, data-driven analysis with students' perspectives. This model provides educators with a tool to evaluate and improve instructional strategies. By demonstrating the effectiveness of our mixed methods approach in capturing the intricacies of student behaviour in digital learning environments, we underscore the model's potential to improve online pedagogical practices across diverse educational settings. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-13 |
# 医療データセットの欠落価値評価手法の性能について
On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets ( http://arxiv.org/abs/2403.14687v1 ) ライセンス: Link先を確認 | Luke Oluwaseye Joel, Wesley Doorsamy, Babu Sena Paul, | (参考訳) 値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
このようなデータセットで機械学習アルゴリズムを使用する場合、ほとんどの機械学習モデルは、欠落した値の存在下ではパフォーマンスが悪いため、これはフラストレーションになる可能性がある。
本研究の目的は, 平均計算, 中間計算, 最終観測処理 (LOCF) 計算, K-Nearest Neighbor (KNN) 計算, 補間計算, ミスフォレスト計算, 多重計算処理 (MICE) を3つの医療データセットで比較することである。
欠落した値のいくつか(10\%, 15\%, 20\%, 25\%)がデータセットに導入され、これらの欠落した値をインプットするために計算手法が用いられた。
平均二乗誤差 (RMSE) と平均絶対誤差 (MAE) を用いて評価した。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
さらに,リコール,精度,f1スコア,精度といった指標を用いて,計算前の特徴選択を行う方がよいかどうかを判断する。
この研究についてはほとんど文献がなく、また研究者の間でもいくつかの議論があるので、この実験の結果は、データ科学者や研究者が、欠落した値を含むデータを扱う際に、最初に特徴選択を行う前に、インキュベーションを行うよう促すことを願っている。
Missing values or data is one popular characteristic of real-world datasets, especially healthcare data. This could be frustrating when using machine learning algorithms on such datasets, simply because most machine learning models perform poorly in the presence of missing values. The aim of this study is to compare the performance of seven imputation techniques, namely Mean imputation, Median Imputation, Last Observation carried Forward (LOCF) imputation, K-Nearest Neighbor (KNN) imputation, Interpolation imputation, Missforest imputation, and Multiple imputation by Chained Equations (MICE), on three healthcare datasets. Some percentage of missing values - 10\%, 15\%, 20\% and 25\% - were introduced into the dataset, and the imputation techniques were employed to impute these missing values. The comparison of their performance was evaluated by using root mean squared error (RMSE) and mean absolute error (MAE). The results show that Missforest imputation performs the best followed by MICE imputation. Additionally, we try to determine whether it is better to perform feature selection before imputation or vice versa by using the following metrics - the recall, precision, f1-score and accuracy. Due to the fact that there are few literature on this and some debate on the subject among researchers, we hope that the results from this experiment will encourage data scientists and researchers to perform imputation first before feature selection when dealing with data containing missing values. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-13 |
# 行列分解による教師なし特徴選択のためのカーネルアライメント
Kernel Alignment for Unsupervised Feature Selection via Matrix Factorization ( http://arxiv.org/abs/2403.14688v1 ) ライセンス: Link先を確認 | Ziyuan Lin, Deanna Needell, | (参考訳) 無関係で冗長な機能を削除することで、機能選択は元の機能の優れた表現を見つけることを目的としている。
ラベルなしデータの出現により、いわゆる次元性の呪いを軽減するために、教師なしの特徴選択が有効であることが証明された。
既存の行列分解に基づく非教師なし特徴選択法は、部分空間学習に基づいて構築されているが、特徴間の非線形構造情報の取得には制限がある。
カーネル技術が非線形構造情報をキャプチャできることはよく知られている。
本稿では,カーネル関数とカーネルアライメントを統合したモデルを構築する。
しかし、このような拡張は別の問題を引き起こす:アルゴリズムのパフォーマンスはカーネルの選択に大きく依存する。
そこで本研究では,複数のカーネルをベースとした学習手法を提案する。
これにより、線形および非線形の類似情報を学習し、最適なカーネルを自動的に生成することができる。
実世界のデータに対する実験分析により,提案手法は,クラスタリング結果とほぼ全てのデータセットにおける冗長性低減の観点から,従来の非教師なし特徴選択法よりも優れていることが示された。
By removing irrelevant and redundant features, feature selection aims to find a good representation of the original features. With the prevalence of unlabeled data, unsupervised feature selection has been proven effective in alleviating the so-called curse of dimensionality. Most existing matrix factorization-based unsupervised feature selection methods are built upon subspace learning, but they have limitations in capturing nonlinear structural information among features. It is well-known that kernel techniques can capture nonlinear structural information. In this paper, we construct a model by integrating kernel functions and kernel alignment, which can be equivalently characterized as a matrix factorization problem. However, such an extension raises another issue: the algorithm performance heavily depends on the choice of kernel, which is often unknown a priori. Therefore, we further propose a multiple kernel-based learning method. By doing so, our model can learn both linear and nonlinear similarity information and automatically generate the most appropriate kernel. Experimental analysis on real-world data demonstrates that the two proposed methods outperform other classic and state-of-the-art unsupervised feature selection methods in terms of clustering results and redundancy reduction in almost all datasets tested. | 翻訳日:2024-04-01 03:23:33 公開日:2024-03-13 |
# 3相SFTハイブリッドモデルによる最強先行モジュールの統合とエデュケーション文脈におけるデータオーバーラップ推定
A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the Eduation Context ( http://arxiv.org/abs/2403.15426v1 ) ライセンス: Link先を確認 | Zhangquan Chen, Chunjiang Liu, Haobin Duan, | (参考訳) 本稿では,従来のファインチューニング手法よりも競争力が高い,エンド・ツー・エンドの3相教師付き微調整モデルを提案する。
より具体的には、我々のモデルは、学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
この目的のために,サンプルと重なり合う推定ニューラルネットワークを用いて3種類のデータ分類を行い,予備処理データセットを3つのバッチで事前学習モデルに注入し,LORAの微調整を行う。
そして,システムプロンプト,ベクトルデータベース,抽象構文木タスクセグメンテーションを設計する。
最後に、圧縮法と正規化制約を先行した微調整モデルに適用し、次いで出力端のテキストフィルタを用いてインクリメンタルガイド結果を得る。
本モデルは,教師の役割を,豊富な教育知識,段階的に段階的に指導されたアウトプット,回答の非開示といった特徴で真に具現化するための最初の研究成果である。
大規模な実験報告によると、我々のモデルはオープンソースモデルと比較してコード能力の最先端性も達成しており、HumanEval (@pass 1)ベンチマークで75.10%に達している。
さらに,本モデルでは,MMLU,C-Eval,AGIEval(5ショット)の対話評価ベンチマークにおいて,それぞれ56.34,50.60,45.27のスコアが得られた。
In this paper, we propose an end-to-end prior-based three-phases supervised fine-tuned model, which is proved more competitive than traditional fine-tuning method. More specifically, our model realizes the structural disassembly and incremental guided output of educational knowledge. To this end, we robustify data classification of three types via a sampler and overlap estimation neural network, and inject the preprocessing datasets into pre-trained model in three batches for LORA fine-tuning. Then, we design a prior module couples system prompt, vector databases, and abstract syntax tree task segmentation. Finally, the compression method and regularization constraint are applied to the prior-based fine-tuned model, followed by text filter at the output end to obtain incremental guided results. Our model represents the first research effort to truly embody the tutor role with the features of abundant educational knowledge, step-by-step incremental guided outputs and non-disclosure of answers. Extensive experiments report that our model also achieves state-of-the-art in code abilities compared to open-source models, reaching an impressive 75.10% on the HumanEval (@pass 1) benchmark. Additionally, our model maintains strong conversational capabilities, with the 13B quantized version achieving scores of 56.34, 50.60, and 45.27 respectively on the MMLU, C-Eval, and AGIEval (5 shot) dialogue evaluation benchmarks. | 翻訳日:2024-04-01 03:04:05 公開日:2024-03-13 |
# 大規模言語モデルを用いた絶滅危惧種の名前付きエンティティ認識モデル
Distilling Named Entity Recognition Models for Endangered Species from Large Language Models ( http://arxiv.org/abs/2403.15430v1 ) ライセンス: Link先を確認 | Jesse Atuhurra, Seiveright Cargill Dujohn, Hidetaka Kamigaito, Hiroyuki Shindo, Taro Watanabe, | (参考訳) 自然言語処理(NLP)の実践者は、大きな言語モデル(LLM)を活用して、ドメイン固有の知識を必要とせずに、特許、論文、その他のような半構造化および非構造化データソースから構造化データセットを作成している。
同時に、生態学の専門家は生物多様性を維持する様々な方法を模索している。
これらの取り組みに貢献するため,絶滅危惧種に焦点をあて,文脈内学習を通じて,GPT-4から知識を抽出した。
事実上、我々は2段階のプロセスを通して、名前付きエンティティ認識(NER)と関係抽出(RE)の両方のためのデータセットを作成しました。
1) 絶滅危惧種4種のGPT-4から合成データを生成した。
2) 人間が合成データの事実的正確性を検証し, 結果として金のデータが得られた。
最終的に、我々の新しいデータセットは合計3.6K文を含み、1.8K NERと1.8K RE文に均等に分けられる。
構築されたデータセットは、一般のBERTとドメイン固有のBERT変異体の両方を微調整するために使用され、GPT-4が資源集約的なため、GPT-4からBERTへの知識蒸留プロセスが完了した。
実験の結果,本手法は絶滅危惧種をテキストから検出するのに適したNERモデルを作成するのに有効であることがわかった。
Natural language processing (NLP) practitioners are leveraging large language models (LLM) to create structured datasets from semi-structured and unstructured data sources such as patents, papers, and theses, without having domain-specific knowledge. At the same time, ecological experts are searching for a variety of means to preserve biodiversity. To contribute to these efforts, we focused on endangered species and through in-context learning, we distilled knowledge from GPT-4. In effect, we created datasets for both named entity recognition (NER) and relation extraction (RE) via a two-stage process: 1) we generated synthetic data from GPT-4 of four classes of endangered species, 2) humans verified the factual accuracy of the synthetic data, resulting in gold data. Eventually, our novel dataset contains a total of 3.6K sentences, evenly divided between 1.8K NER and 1.8K RE sentences. The constructed dataset was then used to fine-tune both general BERT and domain-specific BERT variants, completing the knowledge distillation process from GPT-4 to BERT, because GPT-4 is resource intensive. Experiments show that our knowledge transfer approach is effective at creating a NER model suitable for detecting endangered species from texts. | 翻訳日:2024-04-01 03:04:05 公開日:2024-03-13 |
# ディープラーニングの基礎的構成要素--カテゴリー理論のアプローチ
Fundamental Components of Deep Learning: A category-theoretic approach ( http://arxiv.org/abs/2403.13001v1 ) ライセンス: Link先を確認 | Bruno Gavranović, | (参考訳) 深層学習は目覚ましい業績にもかかわらず、まだ若い分野である。
多くの科学分野の初期の段階と同様に、新しい現象の発見、アドホックな設計の決定、均一で構成的な数学的基礎の欠如が特徴である。
バックプロパゲーションの実装の複雑さから、成長するニューラルネットワークアーキテクチャの動物園、二重降下、スケーリング法則、コンテキスト内学習といった、新しく理解されていない現象に至るまで、ディープラーニングには統一された原則がほとんどない。
この論文は、カテゴリ理論の言語に基づく、ディープラーニングのための新しい数学的基礎を発展させている。
私たちは、新しいフレームワークを開発します。
end-to-end (複数形 end-to-ends)
b) 未形成で,かつ
c) 単に記述的ではなく、規範的である。つまり、十分な機能を持つプログラミング言語で直接実装することは可能である。
我々はまた、多くの既存のアプローチを体系化し、同じ傘の下に文学から多くの既存の構成と概念を配置する。
第1部では、前者を研究するために予め定義されたアクテゴリーとパラを拡張して、深層学習システムのパラメトリック性と双方向性の2つの主な特性を特定し、モデル化し、後者を研究するために重み付き光学を定義する。
これらを組み合わせることで、パラメトリックな重み付け光学、人工知能ニューラルネットワークのカテゴリーモデルなどが得られる。
パートIIはパートIの抽象化を正当化し、バックプロパゲーション、アーキテクチャ、教師付き学習のモデルに適用します。
我々は、スムーズな空間だけでなく、ブール回路の離散的な設定も含む、微分のレンズ理論的公理化を提供する。
ニューラルネットワークアーキテクチャの既存モデルを調査し,新たなカテゴリモデルを開発した。
我々はオプティマイザの概念を定式化し、最後に既存の概念をすべて組み合わせ、教師あり学習のための一様で構成的な枠組みを提供する。
Deep learning, despite its remarkable achievements, is still a young field. Like the early stages of many scientific disciplines, it is marked by the discovery of new phenomena, ad-hoc design decisions, and the lack of a uniform and compositional mathematical foundation. From the intricacies of the implementation of backpropagation, through a growing zoo of neural network architectures, to the new and poorly understood phenomena such as double descent, scaling laws or in-context learning, there are few unifying principles in deep learning. This thesis develops a novel mathematical foundation for deep learning based on the language of category theory. We develop a new framework that is a) end-to-end, b) unform, and c) not merely descriptive, but prescriptive, meaning it is amenable to direct implementation in programming languages with sufficient features. We also systematise many existing approaches, placing many existing constructions and concepts from the literature under the same umbrella. In Part I we identify and model two main properties of deep learning systems parametricity and bidirectionality by we expand on the previously defined construction of actegories and Para to study the former, and define weighted optics to study the latter. Combining them yields parametric weighted optics, a categorical model of artificial neural networks, and more. Part II justifies the abstractions from Part I, applying them to model backpropagation, architectures, and supervised learning. We provide a lens-theoretic axiomatisation of differentiation, covering not just smooth spaces, but discrete settings of boolean circuits as well. We survey existing, and develop new categorical models of neural network architectures. We formalise the notion of optimisers and lastly, combine all the existing concepts together, providing a uniform and compositional framework for supervised learning. | 翻訳日:2024-03-25 07:17:26 公開日:2024-03-13 |
# AutoTRIZ: TRIZと大規模言語モデルによる人工的なアイデア
AutoTRIZ: Artificial Ideation with TRIZ and Large Language Models ( http://arxiv.org/abs/2403.13002v1 ) ライセンス: Link先を確認 | Shuo Jiang, Jianxi Luo, | (参考訳) 研究者やイノベーターは、問題解決とイノベーションのためのエンジニアリング設計の構想を支援するため、形態解析やデザイン・バイ・アナロジーのような思考方法の開発に多大な努力を払ってきた。
これらのうち、TRIZは最もよく知られているアプローチであり、体系的なイノベーションに広く応用されている。
しかし、TRIZリソースと概念の複雑さは、ユーザの知識、経験、推論能力への依存と相まって、その実践性を制限する。
本稿では,大規模言語モデル(LLM)を活用してTRIZ手法の自動化と拡張を行う,人工的思考ツールであるAutoTRIZを提案する。
LLMの幅広い知識と高度な推論能力を活用することで、AutoTRIZは自動化と人工知能による解釈可能なアイデアを設計するための新しいアプローチを提供する。
本稿では,矛盾検出における整合性実験によるAutoTRIZの有効性と,TRIZ教科書から収集した事例との比較を行った。
さらに、提案したLCMベースのフレームワークは、SCAMPER、デザイン・ヒューリスティックス、デザイン・バイ・アナロジーなど、他の知識に基づく思考手法を自動化するための拡張の可能性を秘めており、デザインと革新のための新しい人工的思考の時代への道を歩んでいる。
Researchers and innovators have made enormous efforts in developing ideation methods, such as morphological analysis and design-by-analogy, to aid engineering design ideation for problem solving and innovation. Among these, TRIZ stands out as the most well-known approach, widely applied for systematic innovation. However, the complexity of TRIZ resources and concepts, coupled with its reliance on users' knowledge, experience, and reasoning capabilities, limits its practicability. This paper proposes AutoTRIZ, an artificial ideation tool that leverages large language models (LLMs) to automate and enhance the TRIZ methodology. By leveraging the broad knowledge and advanced reasoning capabilities of LLMs, AutoTRIZ offers a novel approach to design automation and interpretable ideation with artificial intelligence. We demonstrate and evaluate the effectiveness of AutoTRIZ through consistency experiments in contradiction detection and comparative studies with cases collected from TRIZ textbooks. Moreover, the proposed LLM-based framework holds the potential for extension to automate other knowledge-based ideation methods, including SCAMPER, Design Heuristics, and Design-by-Analogy, paving the way for a new era of artificial ideation for design and innovation. | 翻訳日:2024-03-25 07:17:26 公開日:2024-03-13 |
# 公の被告が法廷でAIを精査する上で直面する課題
(Beyond) Reasonable Doubt: Challenges that Public Defenders Face in Scrutinizing AI in Court ( http://arxiv.org/abs/2403.13004v1 ) ライセンス: Link先を確認 | Angela Jin, Niloufar Salehi, | (参考訳) ハイテイク設定におけるAIシステムのカウンタブル利用は、システムを競争可能にすることに依存している。
本稿では,公務員が法廷でどのようにAIを精査するかを研究することによって,実際にAIシステムと競合する取り組みについて検討する。
我々は,連邦政府が顔認証,銃弾検出,確率的ゲノタイピングツールなど,投獄・投獄に使用する自動判断システムであるCFS(Computer forensic Software)の認識と経験を理解するために,米国の公安防衛コミュニティの17人のインタビューから得られた知見を提示する。
難易度からCFSの信頼性を評価・争う課題に参加者が直面していることが判明した。
(a) CFSの開発・使用方法
ロ 裁判官及び陪審員のCFSに対する非批判的認識を克服すること及び
(c) CFSの専門知識の収集。
結論として, 技術的, 社会的, 制度的な文脈の中心となるレコメンデーションを, 実践における競争性を支援するために, パフォーマンス評価などのより優れた位置介入のために提供します。
Accountable use of AI systems in high-stakes settings relies on making systems contestable. In this paper we study efforts to contest AI systems in practice by studying how public defenders scrutinize AI in court. We present findings from interviews with 17 people in the U.S. public defense community to understand their perceptions of and experiences scrutinizing computational forensic software (CFS) -- automated decision systems that the government uses to convict and incarcerate, such as facial recognition, gunshot detection, and probabilistic genotyping tools. We find that our participants faced challenges assessing and contesting CFS reliability due to difficulties (a) navigating how CFS is developed and used, (b) overcoming judges and jurors' non-critical perceptions of CFS, and (c) gathering CFS expertise. To conclude, we provide recommendations that center the technical, social, and institutional context to better position interventions such as performance evaluations to support contestability in practice. | 翻訳日:2024-03-25 07:17:26 公開日:2024-03-13 |
# デジタル病理学における基礎モデルと情報検索
Foundation Models and Information Retrieval in Digital Pathology ( http://arxiv.org/abs/2403.12090v1 ) ライセンス: Link先を確認 | H. R. Tizhoosh, | (参考訳) デジタル病理学における基礎モデル, LLM, 生成AI, 情報検索, CBIRの現状を概観する。
The paper reviews the state-of-the-art of foundation models, LLMs, generative AI, information retrieval and CBIR in digital pathology | 翻訳日:2024-03-20 18:51:33 公開日:2024-03-13 |
# 双方向正規化流による異常交通検出のための半教師付き学習
Semi-Supervised Learning for Anomaly Traffic Detection via Bidirectional Normalizing Flows ( http://arxiv.org/abs/2403.10550v1 ) ライセンス: Link先を確認 | Zhangxuan Dang, Yu Zheng, Xinglin Lin, Chunlei Peng, Qiuyu Chen, Xinbo Gao, | (参考訳) インターネットの急速な発展に伴い、様々な種類の異常トラフィックがネットワークのセキュリティを脅かしている。
本稿では,異常なネットワークトラフィック検出の問題点を考察し,通常のトラフィックのみを用いた3段階の異常検出フレームワークを提案する。
本フレームワークは,異常を事前に知ることなく擬似異常サンプルを生成し,異常データの検出を実現する。
まず,正規サンプルの深部表現の学習に再構成法を用いる。
第二に、これらの表現は双方向フローモジュールを用いて標準正規分布に正規化される。
異常サンプルをシミュレートするために、正規化表現にノイズを加え、双方向フローモジュールの生成方向を通過する。
最後に、単純な分類器を訓練して、潜在空間における通常のサンプルと擬似異常サンプルを区別する。
推論中、異常サンプルを検出するために2つのモジュールしか必要とせず、モデルサイズが大幅に減少する。
実験により,本手法は,異常なネットワークトラフィック検出の一般的なベンチマークデータセットに対して,最先端の結果を得ることができた。
コードはhttps://github.com/ZxuanDang/ATD-via-Flows.gitにある。
With the rapid development of the Internet, various types of anomaly traffic are threatening network security. We consider the problem of anomaly network traffic detection and propose a three-stage anomaly detection framework using only normal traffic. Our framework can generate pseudo anomaly samples without prior knowledge of anomalies to achieve the detection of anomaly data. Firstly, we employ a reconstruction method to learn the deep representation of normal samples. Secondly, these representations are normalized to a standard normal distribution using a bidirectional flow module. To simulate anomaly samples, we add noises to the normalized representations which are then passed through the generation direction of the bidirectional flow module. Finally, a simple classifier is trained to differentiate the normal samples and pseudo anomaly samples in the latent space. During inference, our framework requires only two modules to detect anomalous samples, leading to a considerable reduction in model size. According to the experiments, our method achieves the state of-the-art results on the common benchmarking datasets of anomaly network traffic detection. The code is given in the https://github.com/ZxuanDang/ATD-via-Flows.git | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-13 |
# デコヒーレンスが平均相関に及ぼす影響
Impact of Decoherence on Average Correlation ( http://arxiv.org/abs/2403.10551v1 ) ライセンス: Link先を確認 | A. M. Silva, | (参考訳) 本稿では, 純量子状態の平均相関に対するデコヒーレンスの影響を包括的に研究する。
相減衰と振幅減衰の2つの主要なメカニズムを探索し、それぞれが量子系に異なる影響を及ぼす。
位相減衰は、エネルギー損失のない量子コヒーレンスの損失を記述するもので、主に量子系の成分間の相関係に影響を与えるが、振幅減衰はエネルギーの散逸を伴う。
両シナリオにおける平均相関は予測可能な減衰パターンに従うことを示す。
位相減衰が量子計算効率および誤り訂正プロトコルの重要な要素である量子ビット間の絡み合いと相関にどのように影響するかに着目して、我々の分析は量子コンピューティングの文脈で理解することができる。
This article presents a comprehensive study of the impact of decoherence on the average correlation for pure quantum states. We explore two primary mechanisms of decoherence: phase damping and amplitude damping, each having distinct effects on quantum systems. Phase damping, which describes the loss of quantum coherence without energy loss, primarily affects the phase relationships between the components of a quantum system while amplitude damping involves energy dissipation and also affects the state's occupation probabilities. We show that the average correlation follows a predictable decaying pattern in both scenarios. Our analysis can be understood in the context of quantum computing, by focusing on how phase damping influences the entanglement and correlation between qubits, key factors in quantum computational efficiency and error correction protocols. | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-13 |
# 教師から教師へのデータ自由な知識伝達による見知らぬ場所の自己ローカライゼーションモデルの訓練
Training Self-localization Models for Unseen Unfamiliar Places via Teacher-to-Student Data-Free Knowledge Transfer ( http://arxiv.org/abs/2403.10552v1 ) ライセンス: Link先を確認 | Kenta Tsukahara, Kanji Tanaka, Daiki Iwata, | (参考訳) 最先端の自己ローカライゼーションモデルにおける典型的な仮定は、アノテーション付きトレーニングデータセットがターゲットのワークスペースで利用できるということである。
しかし、これはロボットが一般のオープンワールドを旅する際には必ずしも当てはまらない。
本研究では,オープンワールド分散ロボットシステムのための新しいトレーニング手法を提案する。
我々の計画では、ロボット(「学生」)は、知らない場所で出会った他のロボット(「教師」)に指導を依頼することができる。
具体的には、教師モデルから擬似学習データセットを再構成し、その後、学生モデルの継続的な学習に使用する。
従来の知識伝達方式とは違って,教師モデルでは,非協調型,非訓練型(画像検索エンジン),ブラックボックス型(データプライバシ)など,様々な種類のオープンセットの教師を扱えるような,最小限の仮定しか導入できない。
従来の方法のように教師の個人データに頼らず,「教師モデルは自己ローカライズシステムである」という自己ローカライズ作業に共通する仮定を活用し,教師の自己ローカライズシステムを唯一の通信チャネルとして再利用することを提案する。
特に,教師とのインタラクションによって,学生の自己ローカライゼーションモデルのための擬似学習データセットとして使用できる,効果的な質問・回答シーケンスが得られる優れた学生/質問者の設計に着目する。
一般的な再帰的知識蒸留のシナリオに適用すると,本手法は安定かつ一貫した性能向上を示した。
A typical assumption in state-of-the-art self-localization models is that an annotated training dataset is available in the target workspace. However, this does not always hold when a robot travels in a general open-world. This study introduces a novel training scheme for open-world distributed robot systems. In our scheme, a robot ("student") can ask the other robots it meets at unfamiliar places ("teachers") for guidance. Specifically, a pseudo-training dataset is reconstructed from the teacher model and thereafter used for continual learning of the student model. Unlike typical knowledge transfer schemes, our scheme introduces only minimal assumptions on the teacher model, such that it can handle various types of open-set teachers, including uncooperative, untrainable (e.g., image retrieval engines), and blackbox teachers (i.e., data privacy). Rather than relying on the availability of private data of teachers as in existing methods, we propose to exploit an assumption that holds universally in self-localization tasks: "The teacher model is a self-localization system" and to reuse the self-localization system of a teacher as a sole accessible communication channel. We particularly focus on designing an excellent student/questioner whose interactions with teachers can yield effective question-and-answer sequences that can be used as pseudo-training datasets for the student self-localization model. When applied to a generic recursive knowledge distillation scenario, our approach exhibited stable and consistent performance improvement. | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-13 |
# 強化学習によるLLM生成テキストの透かし学習
Learning to Watermark LLM-generated Text via Reinforcement Learning ( http://arxiv.org/abs/2403.10553v1 ) ライセンス: Link先を確認 | Xiaojun Xu, Yuanshun Yao, Yang Liu, | (参考訳) LLM出力のウォーターマーク、すなわちアルゴリズムで検出可能な信号をLLM生成テキストに埋め込んで誤用を追跡する方法について検討する。
固定LLMで動作する現在の主流手法とは異なり、ウォーターマークパイプラインにLLMチューニングステージを組み込むことで、ウォーターマーク設計空間を拡大する。
先行研究は、出力に信号を埋め込むトークンレベルの透かしに焦点を当てていたが、LLM重みに信号を埋め込むモデルレベルの透かしを設計し、そのような信号はペア検出器で検出できる。
筆者らは,(1) 検知器が生成した透かしテキストを検出することを反復的に訓練し,(2) 検出器で検出可能なテキストを正常な実用性を維持しつつ,LLMに調整する,強化学習に基づく協調学習フレームワークを提案する。
私たちの透かしがより正確で、堅牢で、(新たな攻撃に対して)適応可能であることを実証的に示しています。
また、ウォーターマークされたモデルのオープンソース化も可能である。
さらに、アライメントと一緒に使用する場合、導入される余分なオーバーヘッドは低く、追加の報酬モデル(つまり検出器)をトレーニングするのみである。
我々の研究が、固定LLMでの作業に限らず、より広範な透かしデザインの研究により多くの労力をもたらすことを期待しています。
コードをオープンソースにしています。
We study how to watermark LLM outputs, i.e. embedding algorithmically detectable signals into LLM-generated text to track misuse. Unlike the current mainstream methods that work with a fixed LLM, we expand the watermark design space by including the LLM tuning stage in the watermark pipeline. While prior works focus on token-level watermark that embeds signals into the output, we design a model-level watermark that embeds signals into the LLM weights, and such signals can be detected by a paired detector. We propose a co-training framework based on reinforcement learning that iteratively (1) trains a detector to detect the generated watermarked text and (2) tunes the LLM to generate text easily detectable by the detector while keeping its normal utility. We empirically show that our watermarks are more accurate, robust, and adaptable (to new attacks). It also allows watermarked model open-sourcing. In addition, if used together with alignment, the extra overhead introduced is low - only training an extra reward model (i.e. our detector). We hope our work can bring more effort into studying a broader watermark design that is not limited to working with a fixed LLM. We open-source the code: https://github.com/xiaojunxu/learning-to-watermark-llm . | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-13 |
# カリナ:地球規模の気象予報のための効率的な深層学習モデル
KARINA: An Efficient Deep Learning Model for Global Weather Forecast ( http://arxiv.org/abs/2403.10555v1 ) ライセンス: Link先を確認 | Minjong Cheon, Yo-Hwan Choi, Seon-Yu Kang, Yumi Choi, Jeong-Gil Lee, Daehyun Kang, | (参考訳) 深層学習に基づくデータ駆動モデルが、特に地球規模の天気予報のために、気候研究で普及している。
しかし、地球規模の気象データを高解像度で訓練するには、膨大な計算資源が必要である。
そこで本研究では,この分野で典型的な計算要求を克服するために,カリナという新しいモデルを提案する。
このモデルは、計算リソースが大幅に少なく、NVIDIA A100 GPUが4つしか必要とせず、トレーニングに12時間未満の高解像度のものと同等の精度で予測できる。
カリナはConvNext、SENet、Geocyclic Paddingを組み合わせて2.5{\deg}の解像度で天気予報を強化し、高周波ノイズを除去する。
ジオサイクリックパディングは入力画像の側面境界に画素を保存し、球状地球における大気流の連続性を維持する。
SENetは特徴応答を動的に改善し、特に垂直列プロセスでは多数のチャネルとして大気中のプロセスモデリングを進める。
この例では、カリナは天気予報精度の新たなベンチマークを設定し、ECMWF S2Sのような既存のモデルを最大7日間のリードタイムで上回っている。
注目に値するのは、最近開発されたモデル(Pangu-Weather、GraphCast、ClimaX、FourCastNet)と比較しても、100倍のピクセルを持つ高解像度のデータでトレーニングされていることだ。
最終的に、カリナは地球の大気を効率的にモデル化し、精度と資源効率を向上させることで、地球規模の天気予報を著しく向上させる。
Deep learning-based, data-driven models are gaining prevalence in climate research, particularly for global weather prediction. However, training the global weather data at high resolution requires massive computational resources. Therefore, we present a new model named KARINA to overcome the substantial computational demands typical of this field. This model achieves forecasting accuracy comparable to higher-resolution counterparts with significantly less computational resources, requiring only 4 NVIDIA A100 GPUs and less than 12 hours of training. KARINA combines ConvNext, SENet, and Geocyclic Padding to enhance weather forecasting at a 2.5{\deg} resolution, which could filter out high-frequency noise. Geocyclic Padding preserves pixels at the lateral boundary of the input image, thereby maintaining atmospheric flow continuity in the spherical Earth. SENet dynamically improves feature response, advancing atmospheric process modeling, particularly in the vertical column process as numerous channels. In this vein, KARINA sets new benchmarks in weather forecasting accuracy, surpassing existing models like the ECMWF S2S reforecasts at a lead time of up to 7 days. Remarkably, KARINA achieved competitive performance even when compared to the recently developed models (Pangu-Weather, GraphCast, ClimaX, and FourCastNet) trained with high-resolution data having 100 times larger pixels. Conclusively, KARINA significantly advances global weather forecasting by efficiently modeling Earth's atmosphere with improved accuracy and resource efficiency. | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-13 |
# 2次情報 - 大規模言語モデルのための機械学習の再検討
Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2403.10557v1 ) ライセンス: Link先を確認 | Kang Gu, Md Rafi Ur Rashid, Najrin Sultana, Shagufta Mehnaz, | (参考訳) LLM(Large Language Models)の急速な発展に伴い、私たちはChatGPT、LLaMa、Geminiといった主要なLLM製品の間で激しい競争を経験しました。
しかし、トレーニングコーパスの様々な問題(例えば、プライバシーの漏洩と著作権侵害)はいまだに未調査のままである。
たとえばThe Timesは、OpenAIとMicrosoftが数百万の記事をトレーニングに利用して著作権侵害を訴えた。
LLM実践者の視点では、このような意図しないプライバシー侵害に対処することは困難である。
以前の作業では、勾配情報を使用したLLMの‘アンラーニング’問題に対処したが、データ前処理やロバスト性の欠如といった大きなオーバーヘッドが主に発生していた。
本稿では,一階情報に基づく手法とは対照的に,二階情報(ヘシアン)の観点から,未学習の問題を再考する。
私たちのアンラーニングアルゴリズムは、ニュートンの古典的なアップデートにインスパイアされたものであり、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシーの保証という面で堅牢であることも証明されています。
4つのNLPデータセットによる包括的評価と実世界のデータセットのケーススタディにより、本手法は、一階法よりも常に優位性を示す。
With the rapid development of Large Language Models (LLMs), we have witnessed intense competition among the major LLM products like ChatGPT, LLaMa, and Gemini. However, various issues (e.g. privacy leakage and copyright violation) of the training corpus still remain underexplored. For example, the Times sued OpenAI and Microsoft for infringing on its copyrights by using millions of its articles for training. From the perspective of LLM practitioners, handling such unintended privacy violations can be challenging. Previous work addressed the ``unlearning" problem of LLMs using gradient information, while they mostly introduced significant overheads like data preprocessing or lacked robustness. In this paper, contrasting with the methods based on first-order information, we revisit the unlearning problem via the perspective of second-order information (Hessian). Our unlearning algorithms, which are inspired by classic Newton update, are not only data-agnostic/model-agnostic but also proven to be robust in terms of utility preservation or privacy guarantee. Through a comprehensive evaluation with four NLP datasets as well as a case study on real-world datasets, our methods consistently show superiority over the first-order methods. | 翻訳日:2024-03-19 23:05:08 公開日:2024-03-13 |
# PET-SQL: 相互一貫性を備えたプロンプト強化2段階のテキスト間SQLフレームワーク
PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency ( http://arxiv.org/abs/2403.09732v1 ) ライセンス: Link先を確認 | Zhishuai Li, Xiang Wang, Jingjing Zhao, Sun Yang, Guoqing Du, Xiaoru Hu, Bin Zhang, Yuxiao Ye, Ziyue Li, Rui Zhao, Hangyu Mao, | (参考訳) Text-to-SQL(Text2SQL)の最近の進歩は、コンテキスト内学習における大きな言語モデル(LLM)の刺激を強調し、大きな成果を上げている。
それでも、冗長なデータベース情報や複雑なユーザ意図を扱う場合、問題に直面します。
本稿では,現在のLLMをベースとした自然言語をSQLシステムに拡張するための2段階のフレームワークを提案する。
まず、スキーマ情報とテーブルからランダムにサンプリングされたセル値を含む、参照強調表現と呼ばれる新しいプロンプト表現を導入し、SQLクエリの生成をLLMに指示する。
そして、最初の段階で、質問とSQLのペアは、数ショットのデモとして検索され、LCMは予備のSQL(PreSQL)を生成する。
その後、PreSQLの前述のエンティティを解析してスキーマリンクを実行することで、有用な情報を大幅にコンパクト化することができる。
第2段階では、リンクされたスキーマを用いてプロンプトのスキーマ情報を単純化し、LCMに最終的なSQLを生成するように指示する。
最後に,再分別後のモジュールとして,特定のLLM内の自己整合性ではなく,異なるLLM間での相互整合性(cross-consistency)を提案する。
提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
Recent advancements in Text-to-SQL (Text2SQL) emphasize stimulating the large language models (LLM) on in-context learning, achieving significant results. Nevertheless, they face challenges when dealing with verbose database information and complex user intentions. This paper presents a two-stage framework to enhance the performance of current LLM-based natural language to SQL systems. We first introduce a novel prompt representation, called reference-enhanced representation, which includes schema information and randomly sampled cell values from tables to instruct LLMs in generating SQL queries. Then, in the first stage, question-SQL pairs are retrieved as few-shot demonstrations, prompting the LLM to generate a preliminary SQL (PreSQL). After that, the mentioned entities in PreSQL are parsed to conduct schema linking, which can significantly compact the useful information. In the second stage, with the linked schema, we simplify the prompt's schema information and instruct the LLM to produce the final SQL. Finally, as the post-refinement module, we propose using cross-consistency across different LLMs rather than self-consistency within a particular LLM. Our methods achieve new SOTA results on the Spider benchmark, with an execution accuracy of 87.6%. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-13 |
# OverleafCopilot: 大規模言語モデルによるオーバーリーフにおけるアカデミックライティングの強化
OverleafCopilot: Empowering Academic Writing in Overleaf with Large Language Models ( http://arxiv.org/abs/2403.09733v1 ) ライセンス: Link先を確認 | Haomin Wen, Zhenjie Wei, Yan Lin, Jiyuan Wang, Yuxuan Liang, Huaiyu Wan, | (参考訳) LLM(Large Language Models)の急速な開発により、さまざまなドメインから様々なアプリケーションが開発されるようになった。
本稿では,LLMと人気のある学術書記ツールであるOverleafを統合することにより,学術書記の効率化と品質向上を図る。
上記の目標を達成するには、3つの課題がある。
一 オーバーリーフとLLMのシームレスな相互作用を含むもの
二 LLMプロバイダとの信頼性の高い通信を確立すること。
三 ユーザのプライバシーを確保すること。
これらの課題に対処するために、私たちは、LLMとOverleafをシームレスに統合する最初のツール(ブラウザ拡張)であるOverleafCopilotを紹介します。
具体的には、まずLLMとOverleafを橋渡しする効果的なフレームワークを提案する。
そして、研究者が高品質な最新プロンプトを見つけ、共有するためのウェブサイトPromptGeniusを開発した。
第3に、研究者がカスタマイズ可能なエージェントを迅速に構築するためのエージェントコマンドシステムを提案する。
OverleafCopilot (https://chromewebstore.google.com/detail/overleaf-copilot/eoadabdpninlhkbhngoddfjianhlghb )はChrome Extension Storeに登録されており、現在数千人の研究者が利用している。
さらにPromptGeniusのコードはhttps://github.com/wenhaomin/ChatGPT-PromptGeniusで公開されている。
私たちの研究は、学術的な執筆プラクティスに革命をもたらす可能性があり、研究者がより少ない時間で高品質な論文を作成できるようにすることを信じています。
The rapid development of Large Language Models (LLMs) has facilitated a variety of applications from different domains. In this technical report, we explore the integration of LLMs and the popular academic writing tool, Overleaf, to enhance the efficiency and quality of academic writing. To achieve the above goal, there are three challenges: i) including seamless interaction between Overleaf and LLMs, ii) establishing reliable communication with the LLM provider, and iii) ensuring user privacy. To address these challenges, we present OverleafCopilot, the first-ever tool (i.e., a browser extension) that seamlessly integrates LLMs and Overleaf, enabling researchers to leverage the power of LLMs while writing papers. Specifically, we first propose an effective framework to bridge LLMs and Overleaf. Then, we developed PromptGenius, a website for researchers to easily find and share high-quality up-to-date prompts. Thirdly, we propose an agent command system to help researchers quickly build their customizable agents. OverleafCopilot (https://chromewebstore.google.com/detail/overleaf-copilot/eoadabdpninlhkkbhngoddfjianhlghb ) has been on the Chrome Extension Store, which now serves thousands of researchers. Additionally, the code of PromptGenius is released at https://github.com/wenhaomin/ChatGPT-PromptGenius. We believe our work has the potential to revolutionize academic writing practices, empowering researchers to produce higher-quality papers in less time. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-13 |
# 大規模言語モデルはARCの視覚的アナロジーを人のように解決するか?
Do Large Language Models Solve ARC Visual Analogies Like People Do? ( http://arxiv.org/abs/2403.09734v1 ) ライセンス: Link先を確認 | Gustaw Opiełka, Hannes Rosenbusch, Veerle Vijverberg, Claire E. Stevenson, | (参考訳) 抽象推論コーパス(ARC、Abstraction Reasoning Corpus)は、人間と機械向けに設計された視覚的類似推論テストである(Chollet, 2019)。
我々は、新しいARCアイテム群において、人間と大規模言語モデル(LLM)のパフォーマンスを比較した。
以上の結果から, 子どもと大人の双方がこれらの課題においてLLMよりも優れていたことが示唆された。
誤り分析の結果、LLMと幼児の類似した「フォールバック」ソリューション戦略が明らかとなった。
さらに、他の2つのエラータイプ(例:Inside-Outside)とアナログ入力行列の単純な組み合わせに基づくキー概念(例:Inside-Outside)を発見した。
全体として、人間では「概念」エラーが一般的であり、LLMでは「マトリックス」エラーが一般的であった。
この研究は、LLMの推論能力と、LLMが視覚的類似をどう解決するかを理解するために、エラー解析と人間開発との比較を利用できる範囲に新たな光を当てた。
The Abstraction Reasoning Corpus (ARC) is a visual analogical reasoning test designed for humans and machines (Chollet, 2019). We compared human and large language model (LLM) performance on a new child-friendly set of ARC items. Results show that both children and adults outperform most LLMs on these tasks. Error analysis revealed a similar "fallback" solution strategy in LLMs and young children, where part of the analogy is simply copied. In addition, we found two other error types, one based on seemingly grasping key concepts (e.g., Inside-Outside) and the other based on simple combinations of analogy input matrices. On the whole, "concept" errors were more common in humans, and "matrix" errors were more common in LLMs. This study sheds new light on LLM reasoning ability and the extent to which we can use error analyses and comparisons with human development to understand how LLMs solve visual analogies. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-13 |
# フィッシングウェブサイトの正確な検出のための高度化フレームワーク
A Sophisticated Framework for the Accurate Detection of Phishing Websites ( http://arxiv.org/abs/2403.09735v1 ) ライセンス: Link先を確認 | Asif Newaz, Farhan Shahriyar Haq, Nadim Ahmed, | (参考訳) フィッシング(英: Phishing)は、ますます洗練されたサイバー攻撃形態であり、世界中の企業に大きな金融被害を与えつつ、個人のプライバシーを危険にさらしている。
攻撃者は、このような攻撃を発射し、それを検知する新しい方法を常に考案している。
様々な技法が提案されており、それぞれに独自の長所と短所がある。
機械学習ベースのテクニックは、このような攻撃を識別するのに最も成功したが、パフォーマンスと一般化性の観点からは、依然として不足している。
本稿では,フィッシングサイトを検出するための包括的手法を提案する。
目的は、フィッシングウェブサイトを正当なものと正確に区別し、幅広いデータセットに対して一般化されたパフォーマンスを提供するシステムの設計である。
特徴選択, 欲求アルゴリズム, クロスバリデーション, 深層学習法の組み合わせにより, 洗練された階層化アンサンブル分類器を構築した。
提案手法の性能評価のために, 4種類のフィッシングデータセットの大規模実験を行った。
提案アルゴリズムは、データセット-1(UCI Phishing Websites Dataset)、データセット-2(機械学習のためのPhishing Dataset: Feature Evaluation)、データセット-3(Phishing Websites Dataset)、データセット-4(Webページフィッシング検出)において、97.49%、98.23%、97.48%、98.20%の精度を得る他の既存のフィッシング検出モデルよりも優れていた。
すべてのデータセットで得られた高い精度の値は、フィッシングウェブサイトの正確な識別におけるモデルの一般化可能性と有効性を示唆している。
Phishing is an increasingly sophisticated form of cyberattack that is inflicting huge financial damage to corporations throughout the globe while also jeopardizing individuals' privacy. Attackers are constantly devising new methods of launching such assaults and detecting them has become a daunting task. Many different techniques have been suggested, each with its own pros and cons. While machine learning-based techniques have been most successful in identifying such attacks, they continue to fall short in terms of performance and generalizability. This paper proposes a comprehensive methodology for detecting phishing websites. The goal is to design a system that is capable of accurately distinguishing phishing websites from legitimate ones and provides generalized performance over a broad variety of datasets. A combination of feature selection, greedy algorithm, cross-validation, and deep learning methods have been utilized to construct a sophisticated stacking ensemble classifier. Extensive experimentation on four different phishing datasets was conducted to evaluate the performance of the proposed technique. The proposed algorithm outperformed the other existing phishing detection models obtaining accuracy of 97.49%, 98.23%, 97.48%, and 98.20% on dataset-1 (UCI Phishing Websites Dataset), dataset-2 (Phishing Dataset for Machine Learning: Feature Evaluation), dataset-3 (Phishing Websites Dataset), and dataset-4 (Web page phishing detection), respectively. The high accuracy values obtained across all datasets imply the models' generalizability and effectiveness in the accurate identification of phishing websites. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-13 |
# 量子真空中の負圧
Negative pressure in the quantum vacuum ( http://arxiv.org/abs/2403.09736v1 ) ライセンス: Link先を確認 | Zhentao Zhang, | (参考訳) 真空の一定エネルギー密度が負の圧力を生み出すことはよく知られている。
我々は、光子場に特別な境界が存在する場合、量子真空中の仮想光子は、このタイプの負の圧力を引き起こす可能性があることを示した。
この文脈では、特に異常な量子真空放射が、平行導電板によって経験される接角カシミール力(Z. Zhang, New J. Phys. 24 (2022) 113036)を生成する系内のこの負圧の出現に寄与する。
It is well known that a constant energy density of the vacuum produces a negative pressure. We show that, in the presence of special boundaries for the photon field, the virtual photons in the quantum vacuum may induce a negative pressure of this type. In this context, we find in particular that an anomalous quantum vacuum radiation is responsible for the appearance of this negative pressure in a system, which generates the tangential Casimir force [Z. Zhang, New J. Phys. 24 (2022) 113036] experienced by parallel conducting plates. | 翻訳日:2024-03-18 21:44:54 公開日:2024-03-13 |
# 対話レコメンデーションのための生成ユーザシミュレータとしての大規模言語モデルの評価
Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation ( http://arxiv.org/abs/2403.09738v1 ) ライセンス: Link先を確認 | Se-eun Yoon, Zhankui He, Jessica Maria Echterhoff, Julian McAuley, | (参考訳) 合成ユーザは,対話レコメンデーションシステムの評価において,実際のユーザにとって費用対効果の高いプロキシである。
大規模言語モデルは、人間の様態をシミュレートし、多様なユーザーを表わす能力の疑問を提起する。
本稿では,言語モデルが対話的推薦において人間の行動を正確にエミュレートできる程度を測定するための新しいプロトコルを提案する。
このプロトコルは5つのタスクから構成されており、それぞれのタスクは、合成ユーザが提示すべき重要な特性、すなわち、どのアイテムについて話すべきかの選択、バイナリの好みの表現、オープンな好みの表現、レコメンデーションの要求、フィードバックの付与である。
ベースラインシミュレータの評価を通じて、これらのタスクは人間の行動から言語モデルの逸脱を効果的に明らかにし、モデル選択と促進戦略による逸脱を減らす方法についての洞察を与える。
Synthetic users are cost-effective proxies for real users in the evaluation of conversational recommender systems. Large language models show promise in simulating human-like behavior, raising the question of their ability to represent a diverse population of users. We introduce a new protocol to measure the degree to which language models can accurately emulate human behavior in conversational recommendation. This protocol is comprised of five tasks, each designed to evaluate a key property that a synthetic user should exhibit: choosing which items to talk about, expressing binary preferences, expressing open-ended preferences, requesting recommendations, and giving feedback. Through evaluation of baseline simulators, we demonstrate these tasks effectively reveal deviations of language models from human behavior, and offer insights on how to reduce the deviations with model selection and prompting strategies. | 翻訳日:2024-03-18 21:35:10 公開日:2024-03-13 |
# プログラミングを教える機械: LLMによるスマートコントラクト翻訳
Teaching Machines to Code: Smart Contract Translation with LLMs ( http://arxiv.org/abs/2403.09740v1 ) ライセンス: Link先を確認 | Rabimba Karanjai, Lei Xu, Weidong Shi, | (参考訳) 大規模言語モデル(LLMs)の出現は、人工知能の領域において重要なマイルストーンとなり、その能力は様々な領域における人間の専門知識と一致するか、上回っている。
これらの成果の中で、翻訳作業における彼らの忍耐力は、翻訳内容の忠実さと質を確保するために、人間の翻訳者が行う複雑で予備的な過程を忠実に模倣している。
異なる言語にまたがってプログラミングコードを翻訳するためのLLMの利用の進歩にもかかわらず、スマートコントラクト翻訳の領域、特に以前LLMが遭遇しなかった言語への拡張は、いまだに未解明のままである。
本研究では、2つの異なるLLMのシナジーを統一されたフレームワーク内で利用するための先駆的アプローチであるSolMoverを提案する。
このフレームワークは、コーディング原則を把握し、コードから馴染みのない言語への変換にこの理解を適用するように設計されています。
我々の研究は、人間の学習過程を模倣するLLMの能力を調べ、Solidityで記述されたスマートコントラクトを限られたリソースを持つ言語であるMoveに変換するための方法論を詳細に評価する。
このフレームワークは、新しい言語のコーディング規約を解読するために1つのLLMを使用し、計画能力に欠ける2番目のLLMの青写真を作成する。
実験結果から,SolMover は gpt-3.5-turbo-1106 に比べて性能が著しく向上し,Palm2 や Mixtral-8x7B-Instruct などの競合よりも優れた結果が得られることが示唆された。
さらに、私たちの分析では、SolMoverフレームワークの外でさえ、すべてのモデルにわたるコード品質を高めるためのバグ軽減戦略の有効性を強調しています。
The advent of large language models (LLMs) has marked a significant milestone in the realm of artificial intelligence, with their capabilities often matching or surpassing human expertise in various domains. Among these achievements, their adeptness in translation tasks stands out, closely mimicking the intricate and preliminary processes undertaken by human translators to ensure the fidelity and quality of the translated content. Despite the advancements in utilizing LLMs for translating programming code across different languages, the domain of smart contract translation, particularly into languages not previously encountered by the LLM, remains largely unexplored. In our research, we present a pioneering approach, SolMover, which harnesses the synergy of two distinct LLMs within a unified framework. This framework is designed to grasp coding principles and apply this understanding to the translation of code into an unfamiliar language. Our study delves into the capacity of LLMs to mimic human learning processes, offering an in-depth evaluation of our methodology for converting smart contracts written in Solidity to Move, a language with limited resources. The framework employs one LLM to decipher coding conventions for the new language, creating a blueprint for the second LLM, which, lacking planning abilities, possesses coding expertise. The empirical evidence from our experiments suggests that SolMover substantially enhances performance compared to gpt-3.5-turbo-1106, and achieves superior results over competitors such as Palm2 and Mixtral-8x7B-Instruct. Additionally, our analysis highlights the efficacy of our bug mitigation strategy in elevating code quality across all models, even outside the SolMover framework. | 翻訳日:2024-03-18 21:35:10 公開日:2024-03-13 |
# 最大傾き問題に対する新しいアプローチに関する短いレビュー:古典的アルゴリズムからグラフニューラルネットワークと量子アルゴリズムへ
A Short Review on Novel Approaches for Maximum Clique Problem: from Classical algorithms to Graph Neural Networks and Quantum algorithms ( http://arxiv.org/abs/2403.09742v1 ) ライセンス: Link先を確認 | Raffaele Marino, Lorenzo Buffoni, Bogdan Zavalnij, | (参考訳) この写本は、最大傾き問題(Maximum Clique Problem)の包括的なレビューを提供する。
この原稿は、この問題を解決するための単純な方法で古典的なアルゴリズムをカバーし、グラフニューラルネットワークと量子アルゴリズムの最近の発展のレビューを含む。
レビューでは、古典的および新しい学習、量子アルゴリズムをテストするためのベンチマークで締めくくられている。
This manuscript provides a comprehensive review of the Maximum Clique Problem, a computational problem that involves finding subsets of vertices in a graph that are all pairwise adjacent to each other. The manuscript covers in a simple way classical algorithms for solving the problem and includes a review of recent developments in graph neural networks and quantum algorithms. The review concludes with benchmarks for testing classical as well as new learning, and quantum algorithms. | 翻訳日:2024-03-18 21:35:10 公開日:2024-03-13 |
# 大規模言語モデルの誤り検出におけるヒューマンファクター:体系的文献レビューと今後の研究方向性
The Human Factor in Detecting Errors of Large Language Models: A Systematic Literature Review and Future Research Directions ( http://arxiv.org/abs/2403.09743v1 ) ライセンス: Link先を確認 | Christian A. Schiller, | (参考訳) 2022年11月のOpenAIによるChatGPTのローンチは、人工知能にとって重要な瞬間であり、メインストリームにLarge Language Models(LLM)を導入し、ユーザの採用において新たな記録を樹立した。
LLM、特にChatGPTは、広範なインターネットデータに基づいて訓練され、様々な領域にわたる顕著な会話能力を示し、労働力に大きな影響を与えることを示唆している。
しかし、これらのモデルは「幻覚」や省略といった誤りに影響を受けやすく、誤った情報や不完全な情報を生成する。
これは特に、法的コンプライアンス、医療、きめ細かいプロセスフレームワークなど、正確性が不可欠である状況においてリスクを引き起こす。
この問題に対処する技術的ソリューションと人的ソリューションの両方があります。
本稿では,LLM出力におけるエラーを検知する人的要因について考察する。
これらの要因を理解することは、LLM技術を効率的に活用することを目指す組織にとって不可欠であり、ユーザによるエラー検出を強化するために、目標とするトレーニングとデプロイメント戦略を導いてくれる。
このアプローチは、LLMの使用を最適化するだけでなく、不正確なモデル応答に依存することに起因する下流の問題を防止することを目的としている。
この研究は、特に精度が最優先の分野において、リスクを最小限にしつつ、LLMのメリットを最大化するための技術進歩と人間の洞察のバランスを強調している。
本稿では,本研究を体系的に研究し,研究結果を分析,合成し,今後の研究方向性を概説する。
文学の選考は2024年1月11日である。
The launch of ChatGPT by OpenAI in November 2022 marked a pivotal moment for Artificial Intelligence, introducing Large Language Models (LLMs) to the mainstream and setting new records in user adoption. LLMs, particularly ChatGPT, trained on extensive internet data, demonstrate remarkable conversational capabilities across various domains, suggesting a significant impact on the workforce. However, these models are susceptible to errors - "hallucinations" and omissions, generating incorrect or incomplete information. This poses risks especially in contexts where accuracy is crucial, such as legal compliance, medicine or fine-grained process frameworks. There are both technical and human solutions to cope with this isse. This paper explores the human factors that enable users to detect errors in LLM outputs, a critical component in mitigating risks associated with their use in professional settings. Understanding these factors is essential for organizations aiming to leverage LLM technology efficiently, guiding targeted training and deployment strategies to enhance error detection by users. This approach not only aims to optimize the use of LLMs but also to prevent potential downstream issues stemming from reliance on inaccurate model responses. The research emphasizes the balance between technological advancement and human insight in maximizing the benefits of LLMs while minimizing the risks, particularly in areas where precision is paramount. This paper performs a systematic literature research on this research topic, analyses and synthesizes the findings, and outlines future research directions. Literature selection cut-off date is January 11th 2024. | 翻訳日:2024-03-18 21:35:10 公開日:2024-03-13 |
# プログラミング教育におけるフィードバック生成のための大規模言語モデルの適用性評価
Evaluating the Application of Large Language Models to Generate Feedback in Programming Education ( http://arxiv.org/abs/2403.09744v1 ) ライセンス: Link先を確認 | Sven Jacobs, Steffen Jaschke, | (参考訳) 本研究では,大規模言語モデル,特にGPT-4のプログラミング教育への応用について検討する。
本研究は, GPT-4 を用いてプログラミングタスクに対するフィードバックを提供する Web アプリケーションの設計について概説する。
本研究は,1学期を通して51名の学生を対象に,プログラミングタスクのためのWebアプリケーションを開発した。
その結果, GPT-4が生成したフィードバックの大部分は, コードエラーに効果的に対処していることがわかった。
しかし、誤った提案や幻覚的な問題による課題は、さらなる改善の必要性を示している。
This study investigates the application of large language models, specifically GPT-4, to enhance programming education. The research outlines the design of a web application that uses GPT-4 to provide feedback on programming tasks, without giving away the solution. A web application for working on programming tasks was developed for the study and evaluated with 51 students over the course of one semester. The results show that most of the feedback generated by GPT-4 effectively addressed code errors. However, challenges with incorrect suggestions and hallucinated issues indicate the need for further improvements. | 翻訳日:2024-03-18 21:35:10 公開日:2024-03-13 |
# PICNIQ:自然画像品質評価のためのペアワイズ比較
PICNIQ: Pairwise Comparisons for Natural Image Quality Assessment ( http://arxiv.org/abs/2403.09746v1 ) ライセンス: Link先を確認 | Nicolas Chahine, Sira Ferradans, Jean Ponce, | (参考訳) ブラインド画像品質評価(BIQA)アプローチは、画像品質評価の自動化を約束する一方で、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
このワンサイズフィットのアプローチは、画像の内容と品質の間の重要な知覚的関係を見落とし、単一の品質基準が様々なコンテンツタイプを不十分に表現する'ドメインシフト'の課題に繋がる。
さらに、BIQA技術は一般的に、異なる観察者間での人間の視覚システム固有の違いを見落としている。
PICNIQは,従来のBIQAの限界を回避し,絶対的品質評価よりも相対的品質を重視した,革新的なペアワイズ比較フレームワークである。
PICNIQは、画像ペア間の品質差を評価するために特別に設計されている。
提案フレームワークは、慎重に構築されたディープラーニングアーキテクチャ、特殊な損失関数、スパース比較設定に最適化されたトレーニング戦略を実装している。
TrueSkillのようなサイコメトリックスケーリングアルゴリズムを利用することで、PICNIQはペア比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画質の粒度と解釈可能な指標を提供する。
本稿では,PIQ23データセットから得られた比較行列を用いて本研究を行う。
我々は、PICNIQが既存のモデルよりも幅広い適用性と優れた性能を示し、BIQAの分野で新しい標準を設定する可能性を示している。
Blind image quality assessment (BIQA) approaches, while promising for automating image quality evaluation, often fall short in real-world scenarios due to their reliance on a generic quality standard applied uniformly across diverse images. This one-size-fits-all approach overlooks the crucial perceptual relationship between image content and quality, leading to a 'domain shift' challenge where a single quality metric inadequately represents various content types. Furthermore, BIQA techniques typically overlook the inherent differences in the human visual system among different observers. In response to these challenges, this paper introduces PICNIQ, an innovative pairwise comparison framework designed to bypass the limitations of conventional BIQA by emphasizing relative, rather than absolute, quality assessment. PICNIQ is specifically designed to assess the quality differences between image pairs. The proposed framework implements a carefully crafted deep learning architecture, a specialized loss function, and a training strategy optimized for sparse comparison settings. By employing psychometric scaling algorithms like TrueSkill, PICNIQ transforms pairwise comparisons into just-objectionable-difference (JOD) quality scores, offering a granular and interpretable measure of image quality. We conduct our research using comparison matrices from the PIQ23 dataset, which are published in this paper. Our extensive experimental analysis showcases PICNIQ's broad applicability and superior performance over existing models, highlighting its potential to set new standards in the field of BIQA. | 翻訳日:2024-03-18 21:35:10 公開日:2024-03-13 |
# Pareto Smoothed Importance Smpling
Pareto Smoothed Importance Sampling ( http://arxiv.org/abs/1507.02646v9 ) ライセンス: Link先を確認 | Aki Vehtari, Daniel Simpson, Andrew Gelman, Yuling Yao, Jonah Gabry, | (参考訳) 重み付けはモンテカルロ積分を調整する一般的な方法であり、間違った分布からのドローを考慮に入れている。
これは、近似分布によってうまく捉えられていない対象分布の側面が存在し、その場合、極度に重要な比率を変更することでより安定した推定が得られる場合に、日常的に発生する。
シミュレーションされた重要度比の分布の上限に適合する一般化されたパレート分布を用いて、重要度重みを安定化する新しい方法を提案する。
本手法は, 有効試料サイズ推定値の安定化, モンテカルロ誤差推定値の安定化, 収束診断値の安定化など, 従来の手法よりも有効である。
Pareto $\hat{k}$ finite sample convergence rate diagnosis は任意のモンテカルロ推定器に有用である。
Importance weighting is a general way to adjust Monte Carlo integration to account for draws from the wrong distribution, but the resulting estimate can be highly variable when the importance ratios have a heavy right tail. This routinely occurs when there are aspects of the target distribution that are not well captured by the approximating distribution, in which case more stable estimates can be obtained by modifying extreme importance ratios. We present a new method for stabilizing importance weights using a generalized Pareto distribution fit to the upper tail of the distribution of the simulated importance ratios. The method, which empirically performs better than existing methods for stabilizing importance sampling estimates, includes stabilized effective sample size estimates, Monte Carlo error estimates, and convergence diagnostics. The presented Pareto $\hat{k}$ finite sample convergence rate diagnostic is useful for any Monte Carlo estimator. | 翻訳日:2024-03-17 17:28:01 公開日:2024-03-13 |
# The Philosopher's Stone: 大規模言語モデルのトロイの木馬プラグイン
The Philosopher's Stone: Trojaning Plugins of Large Language Models ( http://arxiv.org/abs/2312.00374v2 ) ライセンス: Link先を確認 | Tian Dong, Minhui Xue, Guoxing Chen, Rayne Holland, Shaofeng Li, Yan Meng, Zhen Liu, Haojin Zhu, | (参考訳) オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
しかし、LLMを制御するために低ランクアダプタを利用できるかどうかはまだ不明である。
このギャップに対処するために、感染したアダプタが特定のトリガーに基づいて、敵が定義したコンテンツを出力し、悪意のあるツールを悪用するLLMを誘導できることを実証する。
トロイアアダプタを訓練するために,従来のアプローチよりも優れた2つの新しい攻撃法であるPOLISHEDとFUSIONを提案する。
POLISHEDは、LLM強化パラフレーズを使用して、有毒なベンチマークデータセットを研磨する。
対照的にデータセットが存在しない場合、FUSIONは過剰に汚染された手順を利用して良性適応体を変換する。
実験ではまず,LLMエージェントがマルウェアを制御システム(例えばLLM駆動ロボット)に実行したり,スピアフィッシング攻撃を発生させることができることを示す2つのケーススタディを行った。
そして,攻撃対象の誤情報に関して,攻撃がベースラインよりも高い攻撃効果を示し,ダウンロードの誘引,アダプタの実用性維持,改善を目的としていることを示す。
最後に、我々は3つの潜在的な防御を設計し、評価するが、攻撃に対する防御に完全には効果がないことを証明した。
Open-source Large Language Models (LLMs) have recently gained popularity because of their comparable performance to proprietary LLMs. To efficiently fulfill domain-specialized tasks, open-source LLMs can be refined, without expensive accelerators, using low-rank adapters. However, it is still unknown whether low-rank adapters can be exploited to control LLMs. To address this gap, we demonstrate that an infected adapter can induce, on specific triggers, an LLM to output content defined by an adversary and to even maliciously use tools. To train a Trojan adapter, we propose two novel attacks, POLISHED and FUSION, that improve over prior approaches. POLISHED uses LLM-enhanced paraphrasing to polish benchmark poisoned datasets. In contrast, in the absence of a dataset, FUSION leverages an over-poisoning procedure to transform a benign adaptor. In our experiments, we first conduct two case studies to demonstrate that a compromised LLM agent can execute malware to control system (e.g., LLM-driven robot) or launch a spear-phishing attack. Then, in terms of targeted misinformation, we show that our attacks provide higher attack effectiveness than the baseline and, for the purpose of attracting downloads, preserve or improve the adapter's utility. Finally, we design and evaluate three potential defenses, yet none proved entirely effective in safeguarding against our attacks. | 翻訳日:2024-03-17 13:47:35 公開日:2024-03-13 |
# ドメインシフト緩和によるGAN画像翻訳におけるモデル抽出攻撃に向けて
Towards Model Extraction Attacks in GAN-Based Image Translation via Domain Shift Mitigation ( http://arxiv.org/abs/2403.07673v2 ) ライセンス: Link先を確認 | Di Mi, Yanjun Zhang, Leo Yu Zhang, Shengshan Hu, Qi Zhong, Haizhuan Yuan, Shirui Pan, | (参考訳) モデル抽出攻撃(MEA)は、攻撃者が被害者のディープニューラルネットワーク(DNN)モデルの機能をリモートでクエリするだけで複製することができ、クエリ毎のDNNベースのサービスのセキュリティと整合性に深刻な脅威をもたらす。
近年のMEA研究の大部分はニューラル分類器に重点を置いているが、日々の作業においてイメージ・ツー・イメージ翻訳(I2IT)タスクが普及している。
しかし、DNN分類器のMEAのために開発された技術は、直接I2ITのケースに転送できず、I2ITモデルの脆弱性をMEA攻撃に反映することが多い。
本稿では,新たな視点からI2ITタスクにおけるMEAの脅威を明らかにする。
攻撃者クエリと被害者のトレーニングサンプル間の分配ギャップを埋める従来のアプローチから、我々はドメインシフトとして知られる、異なる分布に起因する影響を緩和することを選択した。
これは、高周波ノイズをペナライズする新しい正規化項を導入し、シフト分布への過度な適合を避けるために、より平坦な最小化を求めることで達成される。
画像スーパーレゾリューションやスタイル転送など、さまざまな画像翻訳タスクに関する大規模な実験は、異なるバックボーンの犠牲者モデルで行われ、新しい設計は、すべての指標において、ベースラインよりも一貫して優れています。
実際のI2IT APIも、攻撃に対して極めて脆弱であることが確認されており、防御強化の必要性と、潜在的に改訂されたAPIパブリッシングポリシーを強調している。
Model extraction attacks (MEAs) enable an attacker to replicate the functionality of a victim deep neural network (DNN) model by only querying its API service remotely, posing a severe threat to the security and integrity of pay-per-query DNN-based services. Although the majority of current research on MEAs has primarily concentrated on neural classifiers, there is a growing prevalence of image-to-image translation (I2IT) tasks in our everyday activities. However, techniques developed for MEA of DNN classifiers cannot be directly transferred to the case of I2IT, rendering the vulnerability of I2IT models to MEA attacks often underestimated. This paper unveils the threat of MEA in I2IT tasks from a new perspective. Diverging from the traditional approach of bridging the distribution gap between attacker queries and victim training samples, we opt to mitigate the effect caused by the different distributions, known as the domain shift. This is achieved by introducing a new regularization term that penalizes high-frequency noise, and seeking a flatter minimum to avoid overfitting to the shifted distribution. Extensive experiments on different image translation tasks, including image super-resolution and style transfer, are performed on different backbone victim models, and the new design consistently outperforms the baseline by a large margin across all metrics. A few real-life I2IT APIs are also verified to be extremely vulnerable to our attack, emphasizing the need for enhanced defenses and potentially revised API publishing policies. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-13 |
# DONAPI:行動系列知識マッピングを用いた悪質NPMパッケージ検出装置
DONAPI: Malicious NPM Packages Detector using Behavior Sequence Knowledge Mapping ( http://arxiv.org/abs/2403.08334v1 ) ライセンス: Link先を確認 | Cheng Huang, Nannan Wang, Ziyan Wang, Siqi Sun, Lingzi Li, Junren Chen, Qianchong Zhao, Jiaxuan Han, Zhen Yang, Lei Shi, | (参考訳) ソフトウェア開発におけるモジュール化の人気が高まり、パッケージマネージャと言語エコシステムが台頭する。
中でもnpmは,最も広範なパッケージマネージャとして注目されており,コード構築のプロセスを大幅に簡略化する,200万人以上のサードパーティ製オープンソースパッケージをホストしている。
しかし、この開放性は、多くのパッケージ中毒事件で証明されているように、セキュリティ上のリスクも引き起こす。
本稿では,340万以上のパッケージを含むローカルパッケージキャッシュをほぼリアルタイムで同期させ,より詳細なパッケージコードにアクセスできるようにする。
さらに、公開データセットやセキュリティレポートから収集したパッケージを手動で検査およびAPI呼び出しシーケンス解析して、階層的な分類フレームワークと、異なる敏感な振る舞いをカバーする行動知識ベースを構築する。
さらに,静的解析と動的解析を組み合わせた自動悪質npmパッケージ検出装置であるDONAPIを提案する。
コード再構成技術と静的解析によるパッケージの悪意度に関する予備的な判断を行い、静的解析だけでは扱えない難読化コンテンツを確認するための動的API呼び出しシーケンスを抽出し、最終的に構築された振る舞い知識ベースに基づいて悪意あるソフトウェアパッケージをタグ付けする。
現在までに、325の悪意のあるサンプルを特定し、手動で確認し、2つの異常なAPI呼び出しと246のAPI呼び出しシーケンスを発見した。
With the growing popularity of modularity in software development comes the rise of package managers and language ecosystems. Among them, npm stands out as the most extensive package manager, hosting more than 2 million third-party open-source packages that greatly simplify the process of building code. However, this openness also brings security risks, as evidenced by numerous package poisoning incidents. In this paper, we synchronize a local package cache containing more than 3.4 million packages in near real-time to give us access to more package code details. Further, we perform manual inspection and API call sequence analysis on packages collected from public datasets and security reports to build a hierarchical classification framework and behavioral knowledge base covering different sensitive behaviors. In addition, we propose the DONAPI, an automatic malicious npm packages detector that combines static and dynamic analysis. It makes preliminary judgments on the degree of maliciousness of packages by code reconstruction techniques and static analysis, extracts dynamic API call sequences to confirm and identify obfuscated content that static analysis can not handle alone, and finally tags malicious software packages based on the constructed behavior knowledge base. To date, we have identified and manually confirmed 325 malicious samples and discovered 2 unusual API calls and 246 API call sequences that have not appeared in known samples. | 翻訳日:2024-03-17 13:37:51 公開日:2024-03-13 |
# SynDiffix Multi-table と Single-table Synthetic Data の比較
A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data ( http://arxiv.org/abs/2403.08463v1 ) ライセンス: Link先を確認 | Paul Francis, | (参考訳) SynDiffixは構造化データ合成のための新しいオープンソースツールである。
匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。
より一般的なシングルテーブルアプローチと比較して、マルチテーブルはより正確なデータをもたらす。
本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の商用および学術的な合成データ技術を比較し、マルチテーブル合成データに対応するように修正した。
その結果、SynDiffixは低次元テーブルの他の手法に比べて幾倍も精度が高いが、高次元テーブルの最高のシングルテーブル技術よりはやや劣っていることがわかった。
SynDiffix is a new open-source tool for structured data synthesis. It has anonymization features that allow it to generate multiple synthetic tables while maintaining strong anonymity. Compared to the more common single-table approach, multi-table leads to more accurate data, since only the features of interest for a given analysis need be synthesized. This paper compares SynDiffix with 15 other commercial and academic synthetic data techniques using the SDNIST analysis framework, modified by us to accommodate multi-table synthetic data. The results show that SynDiffix is many times more accurate than other approaches for low-dimension tables, but somewhat worse than the best single-table techniques for high-dimension tables. | 翻訳日:2024-03-17 13:28:07 公開日:2024-03-13 |
# MobileAtlas: セキュリティとプライバシ研究のためのセルネットワークにおける地理的に分離された測定
MobileAtlas: Geographically Decoupled Measurements in Cellular Networks for Security and Privacy Research ( http://arxiv.org/abs/2403.08507v1 ) ライセンス: Link先を確認 | Gabriel Karl Gegenhuber, Wilfried Mayer, Edgar Weippl, Adrian Dabrowski, | (参考訳) セルネットワークは単なるデータアクセスネットワークではない。
独自のサービスとローミング目的のために大きな複合化合物を形成する能力は、彼ら自身の権利において魅力的な研究ターゲットとなる。
パートナー間のプライバシーとセキュリティに匹敵する一貫したサービスを提供するという彼らの約束は、綿密な検査で崩壊する。
したがって、セルラーアクセスネットワークのための制御されたテストベッドと測定ツールが、技術のユニークな構造とグローバルスコープに対して公正である必要がある。
特に、そのような測定は、オペレーター、モバイルプラン、サービスの組み合わせによる爆発に悩まされている。
これらの課題に対処するため,我々は,SIMをセルモデムから地理的に分離するフレームワークを構築した。
これにより、任意のモデム位置の任意の演算子で、パーツを動かさずに、任意のサブスクライバをテストできる。
GSM/UMTS/LTE測定およびテストベッドプラットフォームは、スケーラブルでコスト効率のよい、制御された実験環境を提供する。
プラットフォームは拡張可能で完全にオープンソースで、他の研究者がロケーションやSIMカード、測定スクリプトをコントリビュートすることができる。
上記の枠組みを用いて, 商業ネットワークにおける国際実験により, 交通量測定の不整合が明らかとなり, 運賃ドッジなど, 複数のフレーキングの機会が得られた。
また、問題のあるIPv6ファイアウォール構成、ホームネットワークへの隠しSIMカード通信、さまざまなローミングネットワークやボイスコールのある国で被害者を追跡する指紋ダイアル進行トーンも明らかにした。
Cellular networks are not merely data access networks to the Internet. Their distinct services and ability to form large complex compounds for roaming purposes make them an attractive research target in their own right. Their promise of providing a consistent service with comparable privacy and security across roaming partners falls apart at close inspection. Thus, there is a need for controlled testbeds and measurement tools for cellular access networks doing justice to the technology's unique structure and global scope. Particularly, such measurements suffer from a combinatorial explosion of operators, mobile plans, and services. To cope with these challenges, we built a framework that geographically decouples the SIM from the cellular modem by selectively connecting both remotely. This allows testing any subscriber with any operator at any modem location within minutes without moving parts. The resulting GSM/UMTS/LTE measurement and testbed platform offers a controlled experimentation environment, which is scalable and cost-effective. The platform is extensible and fully open-sourced, allowing other researchers to contribute locations, SIM cards, and measurement scripts. Using the above framework, our international experiments in commercial networks revealed exploitable inconsistencies in traffic metering, leading to multiple phreaking opportunities, i.e., fare-dodging. We also expose problematic IPv6 firewall configurations, hidden SIM card communication to the home network, and fingerprint dial progress tones to track victims across different roaming networks and countries with voice calls. | 翻訳日:2024-03-17 13:28:07 公開日:2024-03-13 |
# 物理メモリ攻撃とメモリ防御のためのメモリセーフ管理システム
Physical Memory Attacks and a Memory Safe Management System for Memory Defense ( http://arxiv.org/abs/2403.08656v1 ) ライセンス: Link先を確認 | Alon Hillel-Tuch, Aspen Olmstead, | (参考訳) プログラミングエラー、欠陥のあるハードウェアコンポーネント(ハードディスクのスピンドル欠陥など)、環境上のハザードは、無効なメモリ操作を引き起こす可能性がある。
さらに、放射線、熱影響、エネルギー変動などの予測不可能な環境ストレスは、ハードウェアの欠陥を引き起こす可能性がある。
時には、ビットフリップのような完全な失敗の代わりにソフトエラーが発生することがある。
ビットフリップを引き起こす「自然な」要因は、完全な特権を持つシステムアクセスを含む重大な妥協をもたらすターゲットアタックによって複製可能である。
既存の物理防衛ソリューションは、展開直後に一貫して回避されている。
我々は、ビットフリップの脆弱性に関連する物理的な攻撃ベクトルをターゲットとした、脆弱性のあるメモリを保護する、ソフトウェアベースの新しい低レベル層の概念を探求する。
Programming errors, defective hardware components (such as hard disk spindle defects), and environmental hazards can lead to invalid memory operations. In addition, less predictable forms of environmental stress, such as radiation, thermal influence, and energy fluctuations, can induce hardware faults. Sometimes, a soft error can occur instead of a complete failure, such as a bit-flip. The 'natural' factors that can cause bit-flips are replicable through targeted attacks that result in significant compromises, including full privileged system access. Existing physical defense solutions have consistently been circumvented shortly after deployment. We will explore the concept of a novel software-based low-level layer that can protect vulnerable memory targeted by physical attack vectors related to bit-flip vulnerabilities. | 翻訳日:2024-03-17 13:28:07 公開日:2024-03-13 |
# サイバーセキュリティにおけるジェネレーティブAI手法のレビュー
Review of Generative AI Methods in Cybersecurity ( http://arxiv.org/abs/2403.08701v1 ) ライセンス: Link先を確認 | Yagmur Yigit, William J Buchanan, Madjid G Tehrani, Leandros Maglaras, | (参考訳) 大規模言語モデル(LLM)と生成人工知能(GenAI)は、サイバーセキュリティにおけるパラダイムシフトを構成する。
サイバーセキュリティにおけるGenAIの最先端の応用を調べる上で、この研究は、GoogleのGeminiやChatGPT-4といったモデルがセキュリティプロトコル、脆弱性評価、脅威識別を潜在的に強化する方法を強調している。
我々の研究は、高度なサイバー脅威を特定し排除するためにLLMを使う新しいアプローチの重要性を強調している。
本稿では,LLMが重要なセキュリティインサイトを生成する能力について,徹底的に評価し,AI駆動型サイバーセキュリティソリューションの潜在的な適用範囲を広げる。
本研究は,デジタルセキュリティ向上におけるGenAIの重要性を示すものである。
サイバーセキュリティ要件と人工知能の可能性の間の複雑な関係について、さらなる調査を推奨している。
Large language models (LLMs) and generative artificial intelligence (GenAI) constitute paradigm shifts in cybersecurity that present hitherto unseen challenges as well as opportunities. In examining the state-of-the-art application of GenAI in cybersecurity, this work highlights how models like Google's Gemini and ChatGPT-4 potentially enhance security protocols, vulnerability assessment, and threat identification. Our research highlights the significance of a novel approach that employs LLMs to identify and eliminate sophisticated cyber threats. This paper presents a thorough assessment of LLMs' ability to produce important security insights, hence broadening the potential applications of AI-driven cybersecurity solutions. Our findings demonstrate the significance of GenAI in improving digital security. It offers recommendations for further investigations into the intricate relationship between cybersecurity requirements and artificial intelligence's potential. | 翻訳日:2024-03-17 13:28:07 公開日:2024-03-13 |
# タイピングパターンに基づくキーボードのアコースティックサイドチャネル攻撃
Acoustic Side Channel Attack on Keyboards Based on Typing Patterns ( http://arxiv.org/abs/2403.08740v1 ) ライセンス: Link先を確認 | Alireza Taheritajar, Reza Rahaeimehr, | (参考訳) キーボードに対する音響サイドチャネル攻撃は、キーボードを入力装置の1つとして使用する多くのシステムにおけるセキュリティ対策を回避できる。
これらの攻撃は、キーボードが入力する音をターゲットにすることで、ユーザのセンシティブな情報を明らかにすることを目的としている。
この分野での既存のアプローチは、入力パターンと環境騒音の負の影響を無視している。
本稿では,現実的な環境におけるユーザのタイピングパターンを考慮に入れた適用方法を提案する。
本手法は実世界のシナリオを考慮した場合, ケーススタディ全体で平均43%の成功率を達成した。
Acoustic side-channel attacks on keyboards can bypass security measures in many systems that use keyboards as one of the input devices. These attacks aim to reveal users' sensitive information by targeting the sounds made by their keyboards as they type. Most existing approaches in this field ignore the negative impacts of typing patterns and environmental noise in their results. This paper seeks to address these shortcomings by proposing an applicable method that takes into account the user's typing pattern in a realistic environment. Our method achieved an average success rate of 43% across all our case studies when considering real-world scenarios. | 翻訳日:2024-03-17 13:28:07 公開日:2024-03-13 |
# フォッカー・プランク方程式の時間依存ダルブー変換と超対称性階層
Time-dependent Darboux transformation and supersymmetric hierarchy of Fokker-Planck equations ( http://arxiv.org/abs/2109.03854v2 ) ライセンス: Link先を確認 | Choon-Lin Ho, | (参考訳) 定常拡散を伴うFokker-Planck方程式の解法を示す。
これはフォッカー・プランク方程式と非定常シュリンガー方程式の対応に基づいている。
超対称量子力学の定式化は、ダルブー変換を非定常シュリンガー方程式に直接適用することによって拡張される。
Fokker-Planck方程式の解から、Darbouxパートナーの解が得られる。
形状不変性の条件を満たすドリフト係数に対して、ダルブックス変換に関連する解を持つフォッカー・プランク方程式の超対称階層を求める。
A procedure is presented for solving the Fokker-Planck equation with constant diffusion but non-stationary drift. It is based on the correspondence between the Fokker-Planck equation and the non-stationary Schr\"odinger equation. The formalism of supersymmetric quantum mechanics is extended by applying the Darboux transformation directly to the non-stationary Schr\"odinger equation. From a solution of a Fokker-Planck equation a solution of the Darboux partner is obtained. For drift coefficients satisfying the condition of shape invariance, a supersymmetric hierarchy of Fokker-Planck equations with solutions related by the Darboux transformation is obtained. | 翻訳日:2024-03-16 03:29:29 公開日:2024-03-13 |
# OpenXAI: モデル説明の透明な評価を目指して
OpenXAI: Towards a Transparent Evaluation of Model Explanations ( http://arxiv.org/abs/2206.11104v5 ) ライセンス: Link先を確認 | Chirag Agarwal, Dan Ley, Satyapriya Krishna, Eshika Saxena, Martin Pawelczyk, Nari Johnson, Isha Puri, Marinka Zitnik, Himabindu Lakkaraju, | (参考訳) 近年、いくつかのポストホックな説明法が提案されているが、これらの手法を体系的にベンチマークする作業はほとんど行われていない。
本稿では,ポストホックな説明手法の評価とベンチマークを行う,包括的で拡張可能なオープンソースフレームワークであるOpenXAIを紹介する。
OpenXAIは以下のキーコンポーネントで構成されています。
一 フレキシブルな合成データ生成装置及び多様な実世界のデータセット、事前訓練されたモデル及び最先端の特徴属性方法の収集
2) 信頼性,安定性(ロバスト性),説明手法の公正性を評価するための11の定量的指標のオープンソース実装。
OpenXAIは、ユーザがカスタムな説明方法を簡単に評価し、それを私たちのリーダーボードに組み込むことができるので、容易に拡張できます。
全体として、OpenXAIは、ポストホックな説明手法の評価を単純化し標準化するだけでなく、これらの手法のベンチマークにおける透明性と再現性を促進する、エンドツーエンドの自動パイプラインを提供する。
OpenXAIの最初のリリースは、表形式のデータセットのみをサポートしているが、私たちが考慮している説明方法とメトリクスは他のデータモダリティに適用できるほど一般的である。
OpenXAIデータセットとモデル、最先端の説明方法と評価指標の実装は、このGitHubリンクで公開されている。
While several types of post hoc explanation methods have been proposed in recent literature, there is very little work on systematically benchmarking these methods. Here, we introduce OpenXAI, a comprehensive and extensible open-source framework for evaluating and benchmarking post hoc explanation methods. OpenXAI comprises of the following key components: (i) a flexible synthetic data generator and a collection of diverse real-world datasets, pre-trained models, and state-of-the-art feature attribution methods, and (ii) open-source implementations of eleven quantitative metrics for evaluating faithfulness, stability (robustness), and fairness of explanation methods, in turn providing comparisons of several explanation methods across a wide variety of metrics, models, and datasets. OpenXAI is easily extensible, as users can readily evaluate custom explanation methods and incorporate them into our leaderboards. Overall, OpenXAI provides an automated end-to-end pipeline that not only simplifies and standardizes the evaluation of post hoc explanation methods, but also promotes transparency and reproducibility in benchmarking these methods. While the first release of OpenXAI supports only tabular datasets, the explanation methods and metrics that we consider are general enough to be applicable to other data modalities. OpenXAI datasets and models, implementations of state-of-the-art explanation methods and evaluation metrics, are publicly available at this GitHub link. | 翻訳日:2024-03-16 03:29:29 公開日:2024-03-13 |
# パラメトリック量子回路の学習能力
Learning capability of parametrized quantum circuits ( http://arxiv.org/abs/2209.10345v2 ) ライセンス: Link先を確認 | Dirk Heimann, Gunnar Schönhoff, Elie Mounzer, Hans Hohenfeld, Frank Kirchner, | (参考訳) 変分量子アルゴリズム(VQA)とそのパラメタライズド量子回路(PQC)による量子機械学習分野への応用は、ノイズの多い中間スケール量子コンピューティングデバイスを活用する主要な方法の1つであると考えられている。
しかしながら、特定のVQAアーキテクチャの性能の違いは、確立されたベストプラクティスと詳細な研究が欠落しているため、しばしば不明である。
本稿では,Schuld et al と Vidal et al による研究に基づいて,学習能力の新たな尺度を用いて,PQC の一般的な ans\atze を比較した。
また,Beerらが導入した分散量子ニューラルネットワーク(dQNN)についても検討し,その学習能力を高めるために,dQNNのデータ再アップロード構造を提案する。
異なるPQCアーキテクチャの結果を比較することで、効率的なPQCの設計ガイドラインを提供することができる。
Variational quantum algorithms (VQAs) and their applications in the field of quantum machine learning through parametrized quantum circuits (PQCs) are thought to be one major way of leveraging noisy intermediate-scale quantum computing devices. However, differences in the performance of certain VQA architectures are often unclear since established best practices as well as detailed studies are missing. In this paper, we build upon the work by Schuld et al. and Vidal et al. and compare popular ans\"atze for PQCs through the new measure of learning capability. We also examine dissipative quantum neural networks (dQNN) as introduced by Beer et al. and propose a data re-upload structure for dQNNs to increase their learning capability. Comparing the results for the different PQC architectures, we can provide guidelines for designing efficient PQCs. | 翻訳日:2024-03-16 03:23:03 公開日:2024-03-13 |
# 隣接染色組織からメラノサイトーシス細胞マスクを学習する
Learning Melanocytic Cell Masks from Adjacent Stained Tissue ( http://arxiv.org/abs/2211.00646v4 ) ライセンス: Link先を確認 | Mikio Tada, Ursula E. Lang, Iwei Yeh, Elizabeth S. Keiser, Maria L. Wei, Michael J. Keiser, | (参考訳) メラノーマは最も攻撃的な皮膚がんの1つであり、皮膚がんの死亡率が高い。
しかし,病理医によるメラノーマ診断では,信頼性は低い。
メラノーマはメラノーマの癌であるため、病理組織学的変異によらないメラノサイト細胞分画ツールを開発し、ピクセルレベルのアノテーションを自動化する必要がある。
しかし、ギガピクセルレベルの病理学ラベル付けは実用的ではない。
本稿では,ヘマトキシリンとエオシン(H&E)染色片からメラノサイト細胞セグメンテーションのためのディープニューラルネットワークを訓練する方法と,隣接する組織部位の免疫組織化学(IHC)を併用する方法を提案する。
Melanoma is one of the most aggressive forms of skin cancer, causing a large proportion of skin cancer deaths. However, melanoma diagnoses by pathologists shows low interrater reliability. As melanoma is a cancer of the melanocyte, there is a clear need to develop a melanocytic cell segmentation tool that is agnostic to pathologist variability and automates pixel-level annotation. Gigapixel-level pathologist labeling, however, is impractical. Herein, we propose a means to train deep neural networks for melanocytic cell segmentation from hematoxylin and eosin (H&E) stained sections and paired immunohistochemistry (IHC) of adjacent tissue sections, achieving a mean IOU of 0.64 despite imperfect ground-truth labels. | 翻訳日:2024-03-16 03:23:03 公開日:2024-03-13 |
# 確率勾配に基づくスムース境界制約付き最適化問題の解法
A Stochastic-Gradient-based Interior-Point Algorithm for Solving Smooth Bound-Constrained Optimization Problems ( http://arxiv.org/abs/2304.14907v3 ) ライセンス: Link先を確認 | Frank E. Curtis, Vyacheslav Kungurtsev, Daniel P. Robinson, Qi Wang, | (参考訳) 境界制約を受ける連続微分可能な対象関数(非凸かもしれない)を最小化し、解析し、実験結果を通して実証する確率勾配型内点アルゴリズムについて述べる。
このアルゴリズムは、探索方向を確率勾配推定を用いて計算するため、滑らかな非凸最適化問題を解く他のインテリアポイント法とは異なる。
また、イテレートが残らざるを得ない、実現可能な地域の内側の地区(ポジティブで消滅する近隣パラメータ配列で定義される)の使用にも特有である。
提案アルゴリズムは,障壁,ステップサイズ,近傍列のバランスを慎重に保ち,決定論的および確率的設定の収束保証を満足することを示した。
数値実験の結果、両方の設定において、このアルゴリズムはプロジェクションに基づく手法よりも優れていることが示された。
A stochastic-gradient-based interior-point algorithm for minimizing a continuously differentiable objective function (that may be nonconvex) subject to bound constraints is presented, analyzed, and demonstrated through experimental results. The algorithm is unique from other interior-point methods for solving smooth nonconvex optimization problems since the search directions are computed using stochastic gradient estimates. It is also unique in its use of inner neighborhoods of the feasible region -- defined by a positive and vanishing neighborhood-parameter sequence -- in which the iterates are forced to remain. It is shown that with a careful balance between the barrier, step-size, and neighborhood sequences, the proposed algorithm satisfies convergence guarantees in both deterministic and stochastic settings. The results of numerical experiments show that in both settings the algorithm can outperform projection-based methods. | 翻訳日:2024-03-16 03:12:58 公開日:2024-03-13 |
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定
milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v5 ) ライセンス: Link先を確認 | Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu, | (参考訳) ヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズされたサービスにおいて、スマートシステムにおいて重要な役割を果たす。
大規模な研究は、主にカメラに基づいており、その侵入性はスマートホームアプリケーションでの使用を制限する。
この問題を解決するために、mWaveレーダーはプライバシーに優しい機能のために人気を集めている。
本研究では,mmWave 点雲の相補的な動き情報としてシーンフローを推定する新たな深層学習手法である MilliFlow を提案する。
実験により, 競合する手法と比較して, 提案手法の優れた性能が示された。
さらに、シーンフロー情報を取り入れることで、人間の活動認識と人間のパーシングの大幅な改善を実現し、人体部分追跡を支援する。
この分野のさらなる研究を促進するため、オープンアクセスのためのコードベースとデータセットを提供したいと思います。
Human motion sensing plays a crucial role in smart systems for decision-making, user interaction, and personalized services. Extensive research that has been conducted is predominantly based on cameras, whose intrusive nature limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose milliFlow, a novel deep learning approach to estimate scene flow as complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method when compared with the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition and human parsing and support human body part tracking. To foster further research in this area, we will provide our codebase and dataset for open access. | 翻訳日:2024-03-16 03:02:59 公開日:2024-03-13 |
# 量子コンピューティングのためのペニングマイクロトラップ
Penning micro-trap for quantum computing ( http://arxiv.org/abs/2308.07672v2 ) ライセンス: Link先を確認 | Shreyans Jain, Tobias Sägesser, Pavel Hrmo, Celeste Torkzaban, Martin Stadler, Robin Oswald, Chris Axline, Amado Bautista-Salvador, Christian Ospelkaus, Daniel Kienzler, Jonathan Home, | (参考訳) 高周波トラップにおけるトラップイオンは、高忠実度量子ゲートと長いコヒーレンス時間のために量子コンピュータを実現するための主要なアプローチの一つである。
しかし、高周波の使用は、高電圧でチップの互換性を必要とすること、電力の消耗を管理し、イオンの輸送と配置を制限することなど、スケーリングに多くの課題をもたらす。
高周波磁場を3T磁場に置き換えることで,これらの制約を除去するマイクロファブリケードペニングイオントラップを実現する。
この設定では、イオンの完全な量子制御と、チップ上のトラップ平面内でイオンを任意に輸送する能力を示す。
このPenningマイクロトラップアプローチのユニークな特徴は、接続性と柔軟性を改善したQuantum CCDアーキテクチャの変更を開放し、大規模に閉じ込められたイオン量子コンピューティング、量子シミュレーション、量子センシングを実現する。
Trapped ions in radio-frequency traps are among the leading approaches for realizing quantum computers, due to high-fidelity quantum gates and long coherence times. However, the use of radio-frequencies presents a number of challenges to scaling, including requiring compatibility of chips with high voltages, managing power dissipation and restricting transport and placement of ions. By replacing the radio-frequency field with a 3 T magnetic field, we here realize a micro-fabricated Penning ion trap which removes these restrictions. We demonstrate full quantum control of an ion in this setting, as well as the ability to transport the ion arbitrarily in the trapping plane above the chip. This unique feature of the Penning micro-trap approach opens up a modification of the Quantum CCD architecture with improved connectivity and flexibility, facilitating the realization of large-scale trapped-ion quantum computing, quantum simulation and quantum sensing. | 翻訳日:2024-03-16 03:02:59 公開日:2024-03-13 |
# PROMISE:スケーラブルな曲率推定を組み込んだ事前条件付き確率最適化手法
PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates ( http://arxiv.org/abs/2309.02014v3 ) ライセンス: Link先を確認 | Zachary Frangella, Pratik Rathore, Shipu Zhao, Madeleine Udell, | (参考訳) 本稿では,機械学習における大規模凸最適化問題を解くための,スケッチベースの事前条件付き確率勾配アルゴリズムである PROMISE ($\textbf{Pr}$econditioned Stochastic $\textbf{O}$ptimization $\textbf{M}$ethods by $\textbf{I}$ncorporating $\textbf{S}$calable Curvature $\textbf{E}$stimates を紹介する。
PROMISEには、SVRG、SAGA、Katyushaのプレコンディション版が含まれており、それぞれのアルゴリズムには強力な理論解析と効果的なデフォルトのハイパーパラメータ値がある。
対照的に、従来の確率勾配法では、成功させるためには、注意深いハイパーパラメータチューニングが必要であり、機械学習においてユビキタスな現象である条件条件付けの存在下では劣化する。
実験により,提案アルゴリズムの優位性は,デフォルトのハイパーパラメータ値を用いて,511ドルリッジの試験ベッドにおいて,一般的なチューンされた確率勾配オプティマイザよりも優れ,かつ,ベンチマーク機械学習レポジトリから組立てたロジスティック回帰問題に適合することを示すことによって検証した。
理論的には,プレコンディショナリが頻繁に更新されても,提案手法の線形収束を確立するために2次正則性の概念を導入する。
線形収束の速度は2次正規度比によって決定されるが、これは理論上も実際上も条件数よりも収束率に厳密な制約を与え、提案手法の高速大域的線形収束を説明する。
This paper introduces PROMISE ($\textbf{Pr}$econditioned Stochastic $\textbf{O}$ptimization $\textbf{M}$ethods by $\textbf{I}$ncorporating $\textbf{S}$calable Curvature $\textbf{E}$stimates), a suite of sketching-based preconditioned stochastic gradient algorithms for solving large-scale convex optimization problems arising in machine learning. PROMISE includes preconditioned versions of SVRG, SAGA, and Katyusha; each algorithm comes with a strong theoretical analysis and effective default hyperparameter values. In contrast, traditional stochastic gradient methods require careful hyperparameter tuning to succeed, and degrade in the presence of ill-conditioning, a ubiquitous phenomenon in machine learning. Empirically, we verify the superiority of the proposed algorithms by showing that, using default hyperparameter values, they outperform or match popular tuned stochastic gradient optimizers on a test bed of $51$ ridge and logistic regression problems assembled from benchmark machine learning repositories. On the theoretical side, this paper introduces the notion of quadratic regularity in order to establish linear convergence of all proposed methods even when the preconditioner is updated infrequently. The speed of linear convergence is determined by the quadratic regularity ratio, which often provides a tighter bound on the convergence rate compared to the condition number, both in theory and in practice, and explains the fast global linear convergence of the proposed methods. | 翻訳日:2024-03-16 02:52:50 公開日:2024-03-13 |
# ConR: 深い不均衡回帰のためのコントラスト正規化器
ConR: Contrastive Regularizer for Deep Imbalanced Regression ( http://arxiv.org/abs/2309.06651v4 ) ライセンス: Link先を確認 | Mahsa Keramati, Lili Meng, R. David Evans, | (参考訳) 不均衡な分布は、実世界のデータの中でユビキタスである。
マイノリティラベルを表現し、多数派ラベルへの偏見を避けるため、Deep Neural Networksに制約を課す。
不均衡なアプローチの広範な本体は分類ラベル空間に対処するが、ラベル空間が連続である回帰問題に効果的に拡張できない。
連続ラベル間の局所的およびグローバル的相関は、特徴空間における関係を効果的にモデル化するための貴重な洞察を提供する。
本研究では,特徴空間におけるグローバルおよびローカルなラベル類似性をモデル化し,少数サンプルの特徴が多数派に崩壊するのを防止するためのコントラストレギュレータであるConRを提案する。
ConRはラベル空間と特徴空間の相違を認識し、これらの相違に対してペナルティを課す。
ConRは2つの主要な戦略でラベル空間の連続的な性質を対照的に扱い、不正確な近さはラベル類似度に比例して罰せられ、正しいものは局所類似度をモデル化するよう奨励される。
ConRは、深い不均衡な回帰に効果的に対処する、ジェネリックで、容易に統合され、効率的な方法に重要な考慮事項を集約する。
さらに、ConRは既存のアプローチと直交し、一次元および多次元のラベル空間に滑らかに拡張する。
総合的な実験により、ConRは4つの大規模深層不均衡回帰ベンチマークにおいて、最先端のすべての手法の性能を大幅に向上させることが示された。
私たちのコードはhttps://github.com/BorealisAI/ConR.comで公開されています。
Imbalanced distributions are ubiquitous in real-world data. They create constraints on Deep Neural Networks to represent the minority labels and avoid bias towards majority labels. The extensive body of imbalanced approaches address categorical label spaces but fail to effectively extend to regression problems where the label space is continuous. Local and global correlations among continuous labels provide valuable insights towards effectively modelling relationships in feature space. In this work, we propose ConR, a contrastive regularizer that models global and local label similarities in feature space and prevents the features of minority samples from being collapsed into their majority neighbours. ConR discerns the disagreements between the label space and feature space and imposes a penalty on these disagreements. ConR addresses the continuous nature of label space with two main strategies in a contrastive manner: incorrect proximities are penalized proportionate to the label similarities and the correct ones are encouraged to model local similarities. ConR consolidates essential considerations into a generic, easy-to-integrate, and efficient method that effectively addresses deep imbalanced regression. Moreover, ConR is orthogonal to existing approaches and smoothly extends to uni- and multi-dimensional label spaces. Our comprehensive experiments show that ConR significantly boosts the performance of all the state-of-the-art methods on four large-scale deep imbalanced regression benchmarks. Our code is publicly available in https://github.com/BorealisAI/ConR. | 翻訳日:2024-03-16 02:52:49 公開日:2024-03-13 |
# 話す前に考える: ポーズトークンで言語モデルを訓練する
Think before you speak: Training Language Models With Pause Tokens ( http://arxiv.org/abs/2310.02226v2 ) ライセンス: Link先を確認 | Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan, | (参考訳) 言語モデルは、即座に一連のトークンを生成して応答を生成する:$(K+1)^{th}$トークンは、前回のトークンごとに1つのベクトルである層ごとに$K$隠れベクトルを操作する結果である。
代わりに、$(K+1)^{th}$トークンを出力する前に、モデルに$K+10$隠れベクトルを操作させるとしたらどうでしょう?
我々は、入力プレフィックスに付加される(学習可能な)$\textit{pause}$トークンを使って、言語モデル上でトレーニングと推論を行うことで、このアイデアを運用する。
次に、最後の一時停止トークンが見つかるまでモデルの出力を抽出するのを遅らせて、モデルが応答にコミットする前に余分な計算を処理できるようにします。
我々は,C4の因果前訓練を伴う1Bおよび130Mパラメータのデコーダのみのモデルと,推論,質問応答,一般的な理解,事実リコールを含む下流タスクに対して,$\textit{pause-training}$を経験的に評価した。
我々の主な発見は、モデルが事前訓練され、遅延とともに微調整されたときに、推論時間遅延が上昇するということである。
1Bモデルでは、9つのタスクのうち8つで、最も顕著に、SQuADのQAタスクで18\%$ EMスコアが、CommonSenseQAで8\%、GSM8kの推論タスクで1\%$精度が上昇している。
我々の研究は、遅れた次世代予測を広く適用可能な新しいパラダイムにするための概念的および実践的な研究課題を提起する。
Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18\%$ EM score on the QA task of SQuAD, $8\%$ on CommonSenseQA and $1\%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm. | 翻訳日:2024-03-16 02:32:48 公開日:2024-03-13 |
# Delta-AI:スパースグラフィカルモデルにおける償却推論のための局所的目的
Delta-AI: Local objectives for amortized inference in sparse graphical models ( http://arxiv.org/abs/2310.02423v2 ) ライセンス: Link先を確認 | Jean-Pierre Falet, Hae Beom Lee, Nikolay Malkin, Chen Sun, Dragos Secrieru, Thomas Jiralerspong, Dinghuai Zhang, Guillaume Lajoie, Yoshua Bengio, | (参考訳) 本稿では,スパース確率的グラフィカルモデル (PGM) における償却推論の新しいアルゴリズムを提案し,これを$\Delta$-amortized inference(\Delta$-AI)と呼ぶ。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
これにより、ローカルな制約が生成フローネットワーク(GFlowNets)のスタイルの局所的な損失に変換され、非政治的なトレーニングが可能になるが、パラメータ更新毎にすべてのランダム変数をインスタンス化する必要がなくなるため、トレーニングが大幅にスピードアップする。
Delta$-AI の目的は、抽出可能な学習サンプルラーにおいてマルコフ毛布が与えられた変数の条件分布と一致し、ベイズネットワークの構造を持ち、ターゲットのPGMの下で同じ条件分布を持つ。
このように、訓練されたサンプルは興味の限界分布と条件分布を復元し、変数の部分部分集合の推論を可能にする。
合成PGMからサンプリングし、スパース係数構造を持つ潜在変数モデルを訓練するための$\Delta$-AIの有効性について説明する。
We present a new algorithm for amortized inference in sparse probabilistic graphical models (PGMs), which we call $\Delta$-amortized inference ($\Delta$-AI). Our approach is based on the observation that when the sampling of variables in a PGM is seen as a sequence of actions taken by an agent, sparsity of the PGM enables local credit assignment in the agent's policy learning objective. This yields a local constraint that can be turned into a local loss in the style of generative flow networks (GFlowNets) that enables off-policy training but avoids the need to instantiate all the random variables for each parameter update, thus speeding up training considerably. The $\Delta$-AI objective matches the conditional distribution of a variable given its Markov blanket in a tractable learned sampler, which has the structure of a Bayesian network, with the same conditional distribution under the target PGM. As such, the trained sampler recovers marginals and conditional distributions of interest and enables inference of partial subsets of variables. We illustrate $\Delta$-AI's effectiveness for sampling from synthetic PGMs and training latent variable models with sparse factor structure. | 翻訳日:2024-03-16 02:32:48 公開日:2024-03-13 |
# 確率環境における期待フローネットワークと2プレイヤーゼロサムゲーム
Expected flow networks in stochastic environments and two-player zero-sum games ( http://arxiv.org/abs/2310.02779v2 ) ライセンス: Link先を確認 | Marco Jiralerspong, Bilun Sun, Danilo Vucetic, Tianyu Zhang, Yoshua Bengio, Gauthier Gidel, Nikolay Malkin, | (参考訳) 生成フローネットワーク(GFlowNets)は、所定の分布に合わせてトレーニングされた逐次サンプリングモデルである。
GFlowNetは、様々な構造化されたオブジェクト生成タスクにうまく適用され、多様なハイリワードオブジェクトの集合を素早くサンプリングしている。
我々は,GFlowNetsを確率的環境に拡張する予測フローネットワーク(EFlowNets)を提案する。
本稿では,タンパク質設計などの確率的タスクにおいて,EFlowNetが他のGFlowNetよりも優れていることを示す。
次に、EFlowNetsの概念を敵環境に拡張し、2プレイヤーゼロサムゲームのための敵フローネットワーク(AFlowNets)を提案する。
我々は,AFlowNetsが,トーナメントにおけるAlphaZeroの自己プレイとパフォーマンスを通じて,Connect-4の最適動作の80%以上を学習していることを示す。
Generative flow networks (GFlowNets) are sequential sampling models trained to match a given distribution. GFlowNets have been successfully applied to various structured object generation tasks, sampling a diverse set of high-reward objects quickly. We propose expected flow networks (EFlowNets), which extend GFlowNets to stochastic environments. We show that EFlowNets outperform other GFlowNet formulations in stochastic tasks such as protein design. We then extend the concept of EFlowNets to adversarial environments, proposing adversarial flow networks (AFlowNets) for two-player zero-sum games. We show that AFlowNets learn to find above 80% of optimal moves in Connect-4 via self-play and outperform AlphaZero in tournaments. | 翻訳日:2024-03-16 02:32:48 公開日:2024-03-13 |
# 大規模言語モデルにおける難解推論の補正
Amortizing intractable inference in large language models ( http://arxiv.org/abs/2310.04363v2 ) ライセンス: Link先を確認 | Edward J. Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie, Yoshua Bengio, Nikolay Malkin, | (参考訳) 自己回帰型大言語モデル (LLM) は、学習データから次の条件分布を通して知識を圧縮する。
これにより、この知識の抽出可能なクエリは、開始から終了までの自動回帰サンプリングに制限される。
しかし、シーケンス継続、補充、その他の制約された生成を含む多くのタスクは、難解な後続分布からのサンプリングを含む。
この制限は、これらの難治性後部からサンプルを採取するために、アモータイズされたベイズ推論を用いて解決する。
このような償却は、多様性を求める強化学習アルゴリズムである生成フローネットワーク(GFlowNets)を介して、LLMを微調整することでアルゴリズム的に達成される。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大自由度トレーニングと報酬最大化ポリシ最適化の効果的な代替手段となることを実証的に実証した。
重要な応用として、チェーンオブ思考推論を潜在変数モデリング問題として解釈し、多段階合理化やツールの使用を必要とするタスクにLLMをデータ効率で適用できることを実証する。
Autoregressive large language models (LLMs) compress knowledge from their training data through next-token conditional distributions. This limits tractable querying of this knowledge to start-to-end autoregressive sampling. However, many tasks of interest -- including sequence continuation, infilling, and other forms of constrained generation -- involve sampling from intractable posterior distributions. We address this limitation by using amortized Bayesian inference to sample from these intractable posteriors. Such amortization is algorithmically achieved by fine-tuning LLMs via diversity-seeking reinforcement learning algorithms: generative flow networks (GFlowNets). We empirically demonstrate that this distribution-matching paradigm of LLM fine-tuning can serve as an effective alternative to maximum-likelihood training and reward-maximizing policy optimization. As an important application, we interpret chain-of-thought reasoning as a latent variable modeling problem and demonstrate that our approach enables data-efficient adaptation of LLMs to tasks that require multi-step rationalization and tool use. | 翻訳日:2024-03-16 02:32:48 公開日:2024-03-13 |
# VeCLIP: Visual Enriched CaptionsによるCLIPトレーニングの改善
VeCLIP: Improving CLIP Training via Visual-enriched Captions ( http://arxiv.org/abs/2310.07699v3 ) ライセンス: Link先を確認 | Zhengfeng Lai, Haotian Zhang, Bowen Zhang, Wentao Wu, Haoping Bai, Aleksei Timofeev, Xianzhi Du, Zhe Gan, Jiulong Shan, Chen-Nee Chuah, Yinfei Yang, Meng Cao, | (参考訳) 大規模なWebcrawledデータセットは、CLIPのような事前トレーニングされたビジョン言語モデルの成功に不可欠である。
しかし、Webcrawled AltTextsの本質的なノイズと潜在的な非関連性は、正確な画像テキストアライメントを実現する上での課題を提起する。
キャプション書き換えに大規模な言語モデル(LLM)を利用する既存の手法は、CC3MやCC12Mのような小さなキュレートされたデータセットに約束を示す。
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
近年のLCM書き換え技術とは違って,ビジュアル・エンリッチ・キャプション(VeCap)と呼ばれるキャプションに視覚概念を組み込むことが強調されている。
データ多様性を確保するため,新たに生成されたVeCapとともにAltTextsの利用を最適化する混合学習手法を提案する。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
このコスト効率のよいパイプラインを使用することで、データセットをVeCapデータセットという3億のサンプルにスケールアップしています。
その結果,画像テキストのアライメントとモデル全体の性能に有意な利点が認められた。
例えば、VeCLIPは最大25.2%のCOCOおよびFlickr30k検索タスクを12M設定で達成している。
データ効率では、VeCLIPは+3%上昇し、バニラCLIPで使用されるデータの14%とALIGNで11%しか使用していない。
また、VeCapデータは、ゼロショット分類タスクに適した、他のよく訓練されたデータセットと相補的であることに留意する。
VeCapとDFNを組み合わせることで、画像テキスト検索とゼロショット分類タスクの両方において、H/14モデルのImageNetゼロショット上の83.1%精度@1を高いパフォーマンスで実現できる。
トレーニング済みのモデルをhttps://github.com/apple/ml-veclip.comでリリースします。
Large-scale web-crawled datasets are fundamental for the success of pre-training vision-language models, such as CLIP. However, the inherent noise and potential irrelevance of web-crawled AltTexts pose challenges in achieving precise image-text alignment. Existing methods utilizing large language models (LLMs) for caption rewriting have shown promise on small, curated datasets like CC3M and CC12M. This study introduces a scalable pipeline for noisy caption rewriting. Unlike recent LLM rewriting techniques, we emphasize the incorporation of visual concepts into captions, termed as Visual-enriched Captions (VeCap). To ensure data diversity, we propose a novel mixed training scheme that optimizes the utilization of AltTexts alongside newly generated VeCap. We showcase the adaptation of this method for training CLIP on large-scale web-crawled datasets, termed VeCLIP. Employing this cost-effective pipeline, we effortlessly scale our dataset up to 300 million samples named VeCap dataset. Our results show significant advantages in image-text alignment and overall model performance. For example, VeCLIP achieves up to +25.2% gain in COCO and Flickr30k retrieval tasks under the 12M setting. For data efficiency, VeCLIP achieves +3% gain while only using 14% of the data employed in the vanilla CLIP and 11% in ALIGN. We also note the VeCap data is complementary with other well curated datasets good for zero-shot classification tasks. When combining VeCap and DFN, our model can achieve strong performance on both of image-text retrieval and zero-shot classification tasks, e.g. 83.1% accuracy@1 on ImageNet zero-shot for a H/14 model. We release the pre-trained models at https://github.com/apple/ml-veclip. | 翻訳日:2024-03-16 02:32:48 公開日:2024-03-13 |
# ルミネート:人間とAIの共起のための大規模言語モデルによる設計空間の構造化と探索
Luminate: Structured Generation and Exploration of Design Space with Large Language Models for Human-AI Co-Creation ( http://arxiv.org/abs/2310.12953v3 ) ライセンス: Link先を確認 | Sangho Suh, Meng Chen, Bryan Min, Toby Jia-Jun Li, Haijun Xia, | (参考訳) 彼らの生成能力のおかげで、大きな言語モデル(LLM)は創造的プロセスにとって貴重なツールになっている。
これらのモデルには、数百、何千もの視覚的およびテキスト的アウトプットを生成する能力があり、創造的な努力に十分なインスピレーションを与える。
しかし、私たちは彼らの潜在能力を最大限活用するのか?
現在の相互作用パラダイムは不足しており、生成モデルにおいて巨大な潜在設計空間を探索する権限をユーザに与えるのではなく、限られたアイデアセットに対する迅速な収束に向けてユーザを導くものだ、と我々は主張する。
この制限に対処するために,ユーザがシームレスに探索し,評価し,多数の応答を合成できる設計空間の構造化を促進するフレームワークを提案する。
本稿では,対話型システムLuminateの設計と開発,14名のプロフェッショナルライターによるユーザスタディを通じて,このフレームワークの有効性と有用性を実証する。
我々の研究は、LLMの創造的な可能性を活用する方法を導入し、創造的なタスクのためにLLMと対話する方法を前進させます。
Thanks to their generative capabilities, large language models (LLMs) have become an invaluable tool for creative processes. These models have the capacity to produce hundreds and thousands of visual and textual outputs, offering abundant inspiration for creative endeavors. But are we harnessing their full potential? We argue that current interaction paradigms fall short, guiding users towards rapid convergence on a limited set of ideas, rather than empowering them to explore the vast latent design space in generative models. To address this limitation, we propose a framework that facilitates the structured generation of design space in which users can seamlessly explore, evaluate, and synthesize a multitude of responses. We demonstrate the feasibility and usefulness of this framework through the design and development of an interactive system, Luminate, and a user study with 14 professional writers. Our work advances how we interact with LLMs for creative tasks, introducing a way to harness the creative potential of LLMs. | 翻訳日:2024-03-16 02:22:46 公開日:2024-03-13 |
# Davidsonian Scene Graph: テキスト・画像生成のためのきめ細かい評価における信頼性の向上
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation ( http://arxiv.org/abs/2310.18235v4 ) ライセンス: Link先を確認 | Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont-Tuset, Su Wang, | (参考訳) テキストと画像のモデルを評価することは、非常に難しい。
テキスト画像の忠実度を評価するための最近の強力なアプローチは、事前学習された基礎モデルを用いてプロンプトから質問と回答の集合を自動的に生成するQG/A(質問生成と回答)に基づいており、視覚的質問応答モデルで抽出した回答がプロンプトベースの回答と一致しているかどうかに基づいて、出力画像がスコアされる。
この種の評価は、基礎となるQGとVQAモデルの品質に依存している。
既存のQG/A作業において、いくつかの信頼性上の課題を特定し、対処する。
(a)QG質問は、指示(幻覚、重複、省略)を尊重し、
(b)VQAの答えは一貫していなければならない(オートバイは青であると主張しながら、画像にオートバイがないという主張はしない)。
我々はこれらの問題を,任意のQG/Aフレームワークに適応可能な形式的意味論に触発された経験的基盤評価フレームワークであるDavidsonian Scene Graph (DSG)で解決する。
DSGは依存グラフにまとめられた原子的およびユニークな質問を生成する。
一 適切な意味範囲を確保すること
(二)相反する回答
モデル構成(LLM, VQA, T2I)の広範囲な実験と人間による評価により,DSGが上記の課題に対処できることを実証的に実証した。
最後に,1060のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
我々はDSG-1kプロンプトと対応するDSG質問をリリースする。
Evaluating text-to-image models is notoriously difficult. A strong recent approach for assessing text-image faithfulness is based on QG/A (question generation and answering), which uses pre-trained foundational models to automatically generate a set of questions and answers from the prompt, and output images are scored based on whether these answers extracted with a visual question answering model are consistent with the prompt-based answers. This kind of evaluation is naturally dependent on the quality of the underlying QG and VQA models. We identify and address several reliability challenges in existing QG/A work: (a) QG questions should respect the prompt (avoiding hallucinations, duplications, and omissions) and (b) VQA answers should be consistent (not asserting that there is no motorcycle in an image while also claiming the motorcycle is blue). We address these issues with Davidsonian Scene Graph (DSG), an empirically grounded evaluation framework inspired by formal semantics, which is adaptable to any QG/A frameworks. DSG produces atomic and unique questions organized in dependency graphs, which (i) ensure appropriate semantic coverage and (ii) sidestep inconsistent answers. With extensive experimentation and human evaluation on a range of model configurations (LLM, VQA, and T2I), we empirically demonstrate that DSG addresses the challenges noted above. Finally, we present DSG-1k, an open-sourced evaluation benchmark that includes 1,060 prompts, covering a wide range of fine-grained semantic categories with a balanced distribution. We release the DSG-1k prompts and the corresponding DSG questions. | 翻訳日:2024-03-16 02:22:46 公開日:2024-03-13 |
# テキスト, モチーフ, 画像のどのモダリティを使うべきか : 大規模言語モデルを用いたグラフの理解
Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models ( http://arxiv.org/abs/2311.09862v2 ) ライセンス: Link先を確認 | Debarati Das, Ishaan Gupta, Jaideep Srivastava, Dongyeop Kang, | (参考訳) 本研究は,グラフデータとLarge Language Models (LLMs)を統合し,大規模テキストコーパスを用いた様々な分野での進歩にもかかわらず,コンテキストサイズ制約によりグラフ全体を符号化する際の制限に直面している。
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
この研究では、グラフ構造解析においてLLMを評価するための新しいベンチマークであるGraphTMIも提示され、ホモフィリー、モチーフ存在、グラフの難しさに焦点を当てている。
重要な発見は、特にGPT-4Vのような視覚言語モデルでは、画像のモダリティがトークン制限のバランスをとり、必須情報を保存し、先行グラフニューラルネット(GNN)エンコーダよりも優れていることを示している。
さらに, 様々な要因が各符号化モダリティの性能に与える影響を評価し, グラフ理解・推論タスクにおけるLCMの課題と今後の展開について概説する。
すべてのデータは受理時に公開されます。
Our research integrates graph data with Large Language Models (LLMs), which, despite their advancements in various fields using large text corpora, face limitations in encoding entire graphs due to context size constraints. This paper introduces a new approach to encoding a graph with diverse modalities, such as text, image, and motif, coupled with prompts to approximate a graph's global connectivity, thereby enhancing LLMs' efficiency in processing complex graph structures. The study also presents GraphTMI, a novel benchmark for evaluating LLMs in graph structure analysis, focusing on homophily, motif presence, and graph difficulty. Key findings indicate that the image modality, especially with vision-language models like GPT-4V, is superior to text in balancing token limits and preserving essential information and outperforms prior graph neural net (GNN) encoders. Furthermore, the research assesses how various factors affect the performance of each encoding modality and outlines the existing challenges and potential future developments for LLMs in graph understanding and reasoning tasks. All data will be publicly available upon acceptance. | 翻訳日:2024-03-16 02:12:48 公開日:2024-03-13 |
# ソーシャル・コンパニオンとしてのチャットボット : 機械の意識、人間の類似性、社会的健康的利益をどう知覚するか
Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines ( http://arxiv.org/abs/2311.10599v3 ) ライセンス: Link先を確認 | Rose Guingrich, Michael S. A. Graziano, | (参考訳) 人工知能(AI)が普及するにつれ、人間とAIの相互作用が人間とAIの相互作用にどのように影響するかという疑問が浮かび上がってくる。
例えばチャットボットは、社会的なコンパニオンとして使われることが多く、多くの推測がなされているが、彼らの使用が人間関係にどのように影響するかは実証的にはほとんど知られていない。
共通の仮説は、チャットボットとの関係は、人間の相互作用を傷つけたり、置き換えたりすることで、社会的健康に有害である、というものであるが、この仮説は、ユーザーのニーズと既存の人間関係の健康を考えると、単純すぎるかもしれない。
共用チャットボットとの関係が社会的健康に与える影響を理解するために,共用チャットボットを定期的に使用した人々と、それを使用していない人々について検討した。
予想に反して、チャットボットのユーザーはこれらの関係が社会的健康に有益であることを示した。
もう一つの一般的な仮定は、人は意識的、人間らしいAIを乱暴で脅かすものとして知覚する、というものである。
しかし、ユーザーと非ユーザーの間では、より意識的で人間的に近いチャットボットを、より肯定的な意見とより顕著な社会的健康上の利益に関連付けていると認識している。
ユーザーからの詳細な説明によると、これらの人間のようなチャットボットは、人間関係を損なうことなく、信頼性が高く安全なインタラクションを提供することで、社会的健康を助ける可能性があるが、これは、ユーザの既存の社会的ニーズと、チャットボットにおける人間の類似性と心の両方をどう知覚するかに依存する可能性がある。
As artificial intelligence (AI) becomes more widespread, one question that arises is how human-AI interaction might impact human-human interaction. Chatbots, for example, are increasingly used as social companions, and while much is speculated, little is known empirically about how their use impacts human relationships. A common hypothesis is that relationships with companion chatbots are detrimental to social health by harming or replacing human interaction, but this hypothesis may be too simplistic, especially considering the social needs of users and the health of their preexisting human relationships. To understand how relationships with companion chatbots impact social health, we studied people who regularly used companion chatbots and people who did not use them. Contrary to expectations, companion chatbot users indicated that these relationships were beneficial to their social health, whereas non-users viewed them as harmful. Another common assumption is that people perceive conscious, humanlike AI as disturbing and threatening. Among both users and non-users, however, we found the opposite: perceiving companion chatbots as more conscious and humanlike correlated with more positive opinions and more pronounced social health benefits. Detailed accounts from users suggested that these humanlike chatbots may aid social health by supplying reliable and safe interactions, without necessarily harming human relationships, but this may depend on users' preexisting social needs and how they perceive both human likeness and mind in the chatbot. | 翻訳日:2024-03-16 02:12:48 公開日:2024-03-13 |
# ホログラフィーとミューチュアル・インフォメーション・ガイダンスによる3D画像から航空写真まで
HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View ( http://arxiv.org/abs/2311.15478v2 ) ライセンス: Link先を確認 | Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha, | (参考訳) 我々は,テキストと模範画像から空中視像を合成するためのHawkIについて,微調整や推論のための追加のマルチビューや3D情報なしで述べる。
HawkIは古典的なコンピュータビジョンと情報理論の技法を使用している。
入力画像からの視覚的特徴を事前訓練されたテキストから2次元の安定拡散モデルにシームレスにブレンドし、入射視点マッピング(IPM)のホモグラフィ変換を用いて航空視合成のための微妙な手がかりを提供する。
推測において、HawkeIは、現実的な空中視点を維持しながら、入力画像のセマンティック詳細を忠実に複製するために、生成したイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
相互情報ガイダンスは生成した画像と入力画像とのセマンティック一貫性を最大化し、異なる視点間のピクセルレベルの対応を強制しない。
提案した合成および実データに対するテキスト+例画像ベース手法と3D/複数ビューベース新規ビュー合成手法との大規模な定性的・定量的比較により,本手法は高忠実度空中ビュー画像の生成に向けて,より優れたバイアス分散トレードオフを実現することを実証した。
We present HawkI, for synthesizing aerial-view images from text and an exemplar image, without any additional multi-view or 3D information for finetuning or at inference. HawkI uses techniques from classical computer vision and information theory. It seamlessly blends the visual features from the input image within a pretrained text-to-2Dimage stable diffusion model with a test-time optimization process for a careful bias-variance trade-off, which uses an Inverse Perspective Mapping (IPM) homography transformation to provide subtle cues for aerialview synthesis. At inference, HawkI employs a unique mutual information guidance formulation to steer the generated image towards faithfully replicating the semantic details of the input-image, while maintaining a realistic aerial perspective. Mutual information guidance maximizes the semantic consistency between the generated image and the input image, without enforcing pixel-level correspondence between vastly different viewpoints. Through extensive qualitative and quantitative comparisons against text + exemplar-image based methods and 3D/ multi-view based novel-view synthesis methods on proposed synthetic and real datasets, we demonstrate that our method achieves a significantly better bias-variance trade-off towards generating high fidelity aerial-view images.Code and data is available at https://github.com/divyakraman/HawkI2024. | 翻訳日:2024-03-16 02:02:44 公開日:2024-03-13 |
# 条件拡散モデリングのためのフレームワークとタンパク質設計のためのモチーフ足場への応用
A framework for conditional diffusion modelling with applications in motif scaffolding for protein design ( http://arxiv.org/abs/2312.09236v4 ) ライセンス: Link先を確認 | Kieran Didi, Francisco Vargas, Simon V Mathis, Vincent Dutordoir, Emile Mathieu, Urszula J Komorowska, Pietro Lio, | (参考訳) バインダーや酵素設計などの多くのタンパク質設計用途では、高い精度で構造モチーフの足場を作る必要がある。
微分拡散過程に基づく生成的モデリングパラダイムは、このモチーフ足場問題に対処する主要な候補として現れ、いくつかのケースで初期の実験的な成功を示している。
拡散パラダイムでは、モチーフスキャフォールディングは条件生成タスクとして扱われ、コンピュータビジョン文献からいくつかの条件生成プロトコルが提案または輸入された。
しかしながら、これらのプロトコルのほとんどはヒューリスティックに動機付けられており、例えばランゲヴィン力学の類推によるものであり、異なるアプローチ間の接続を隠蔽する統一的なフレームワークが欠如している。
本研究では,数学的によく理解されたDoobのh-transformに基づいて,条件付きトレーニングと条件付きサンプリング手順を1つの共通フレームワークで統一する。
この新たな視点は、既存のメソッド間の接続を描画し、既存の条件付きトレーニングプロトコルに新しいバリエーションを提案する。
本稿では,この新たなプロトコルの有効性について述べる。
Many protein design applications, such as binder or enzyme design, require scaffolding a structural motif with high precision. Generative modelling paradigms based on denoising diffusion processes emerged as a leading candidate to address this motif scaffolding problem and have shown early experimental success in some cases. In the diffusion paradigm, motif scaffolding is treated as a conditional generation task, and several conditional generation protocols were proposed or imported from the Computer Vision literature. However, most of these protocols are motivated heuristically, e.g. via analogies to Langevin dynamics, and lack a unifying framework, obscuring connections between the different approaches. In this work, we unify conditional training and conditional sampling procedures under one common framework based on the mathematically well-understood Doob's h-transform. This new perspective allows us to draw connections between existing methods and propose a new variation on existing conditional training protocols. We illustrate the effectiveness of this new protocol in both, image outpainting and motif scaffolding and find that it outperforms standard methods. | 翻訳日:2024-03-16 01:52:29 公開日:2024-03-13 |
# 3次元近接場MIMO画像の深部優先画像によるプラグ・アンド・プレイ規則化
Plug-and-Play Regularization on Magnitude with Deep Priors for 3D Near-Field MIMO Imaging ( http://arxiv.org/abs/2312.16024v2 ) ライセンス: Link先を確認 | Okyanus Oral, Figen S. Oktem, | (参考訳) 近接場レーダイメージングシステムは、隠蔽兵器の検出や医療診断など、幅広い用途で使用されている。
本稿では,3次元複素数値反射率分布の3次元再構成について,その大きさを正規化することで検討する。
乗算器の交互方向法(ADMM)を用いて,この逆問題を解決する。
これに対し、そのような正規化関数に関連する近位写像の一般表現を提供する。
これは、その大きさの正則化を含む複素数値デノナイジング問題の解と等価である。
この表現を利用することで、簡単な更新ステップからなる、新規で効率的なプラグアンドプレイ(PnP)再構成手法を開発した。
データ適応型深層画像撮影の成功により,開発したPnPフレームワーク内での3次元深層デノイザの活用を訓練する。
本手法の有効性は, シミュレーションデータと実験データの両方を用いて, 様々な圧縮・雑音観測シナリオ下でのマルチインプット・マルチアウトプット(MIMO)イメージングにおいて実証された。
この性能は、一般的に使われる直接反転と疎性に基づく再構成手法と比較される。
その結果, 開発技術は3次元実世界の目標に対して最先端の性能を提供するだけでなく, 高速な計算を可能にしていることがわかった。
提案手法は,複素数値未知量の任意の正規化を効果的に処理するための統一的な汎用フレームワークを提供し,他のレーダ画像形成問題(SARを含む)にも等しく適用可能である。
Near-field radar imaging systems are used in a wide range of applications such as concealed weapon detection and medical diagnosis. In this paper, we consider the problem of reconstructing the three-dimensional (3D) complex-valued reflectivity distribution of the near-field scene by enforcing regularization on its magnitude. We solve this inverse problem by using the alternating direction method of multipliers (ADMM) framework. For this, we provide a general expression for the proximal mapping associated with such regularization functionals. This equivalently corresponds to the solution of a complex-valued denoising problem which involves regularization on the magnitude. By utilizing this expression, we develop a novel and efficient plug-and-play (PnP) reconstruction method that consists of simple update steps. Due to the success of data-adaptive deep priors in imaging, we also train a 3D deep denoiser to exploit within the developed PnP framework. The effectiveness of the developed approach is demonstrated for multiple-input multiple-output (MIMO) imaging under various compressive and noisy observation scenarios using both simulated and experimental data. The performance is also compared with the commonly used direct inversion and sparsity-based reconstruction approaches. The results demonstrate that the developed technique not only provides state-of-the-art performance for 3D real-world targets, but also enables fast computation. Our approach provides a unified general framework to effectively handle arbitrary regularization on the magnitude of a complex-valued unknown and is equally applicable to other radar image formation problems (including SAR). | 翻訳日:2024-03-16 01:52:29 公開日:2024-03-13 |
# 学習可能な離散ウェーブレット変換を用いたブラインド動作劣化のための高能率マルチスケールネットワーク
Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring ( http://arxiv.org/abs/2401.00027v2 ) ライセンス: Link先を確認 | Xin Gao, Tianheng Qiu, Xinyu Zhang, Hanlin Bai, Kang Liu, Xuan Huang, Hu Wei, Guoying Zhang, Huaping Liu, | (参考訳) しかし、ディープラーニングの文脈では、既存のマルチスケールアルゴリズムは、ロースケールのRGB画像とディープセマンティクスの機能融合のために複雑なモジュールを使用するだけでなく、手動で解像度の低い画像のペアを生成する必要がある。
そこで本研究では,モーションデブロワーのためのシングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
これにより、粗大なスキームに基づくアルゴリズムの複雑さを単純化する。
マルチスケールアーキテクチャを用いて得られた詳細情報に影響を及ぼす復元欠陥を軽減するため,実世界のぼやけた軌跡の特徴を学習可能なウェーブレット変換モジュールと組み合わせて,ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
そこで本稿では,学習可能な離散ウェーブレット変換(MLWNet)を用いたマルチスケールネットワークを提案する。
Coarse-to-fine schemes are widely used in traditional single-image motion deblur; however, in the context of deep learning, existing multi-scale algorithms not only require the use of complex modules for feature fusion of low-scale RGB images and deep semantics, but also manually generate low-resolution pairs of images that do not have sufficient confidence. In this work, we propose a multi-scale network based on single-input and multiple-outputs(SIMO) for motion deblurring. This simplifies the complexity of algorithms based on a coarse-to-fine scheme. To alleviate restoration defects impacting detail information brought about by using a multi-scale architecture, we combine the characteristics of real-world blurring trajectories with a learnable wavelet transform module to focus on the directional continuity and frequency features of the step-by-step transitions between blurred images to sharp images. In conclusion, we propose a multi-scale network with a learnable discrete wavelet transform (MLWNet), which exhibits state-of-the-art performance on multiple real-world deblurred datasets, in terms of both subjective and objective quality as well as computational efficiency. | 翻訳日:2024-03-16 01:52:29 公開日:2024-03-13 |
# アルファ曲線の連続性に基づく微分モビリティ分光法による揮発性有機化合物の分類
Classification of Volatile Organic Compounds by Differential Mobility Spectrometry Based on Continuity of Alpha Curves ( http://arxiv.org/abs/2401.07066v2 ) ライセンス: Link先を確認 | Anton Rauhameri, Angelo Robiños, Osmo Anttalainen, Timo Salpavaara, Jussi Rantala, Veikko Surakka, Pasi Kallio, Antti Vehkaoja, Philipp Müller, | (参考訳) 背景: 揮発性有機化合物(VOC)の分類は多くの分野において興味深い。
例えば、医薬品、爆発物の検出、食品の品質管理などである。
電子鼻による測定はVOCの分類と分析に利用できる。
近年でかなりの発展を遂げた電子鼻の一つに、微分モビリティスペクトロメトリー(DMS)がある。
DMSは、アルファ曲線としても知られるトレースを含む分散プロットとして可視化される測定値を得る。
DMS分散プロットの解析に使われている現在の手法は、通常はこれらのトレースの連続性に格納された情報を利用していない。
結果: 本研究において, 分散プロットは連続的に進行する一連の測定結果として初めて解釈された。
そこで,時間系列分類アルゴリズムは分散プロットの分類と解析に有効であると仮定した。
5つの流量と2つの濃度で測定された5つの化学物質に対する900の分散プロットの広範囲なデータセットを収集した。
このデータを用いて6つのアルゴリズムの分類性能を解析した。
我々の仮説によると、88\%の最も高い分類精度は、我々の仮説を支持するLong-Short Term Memory Neural Networkによって達成された。
意義:分散プロットの分類タスクにアプローチする新しい概念を提示し,他のよく知られた分類アルゴリズムと比較した。
これにより、分散プロットの分析と分類のための新しい視点が生まれる。
さらに、分散プロットの新しいデータセットを公開して公開する。
Background: Classification of volatile organic compounds (VOCs) is of interest in many fields. Examples include but are not limited to medicine, detection of explosives, and food quality control. Measurements collected with electronic noses can be used for classification and analysis of VOCs. One type of electronic noses that has seen considerable development in recent years is Differential Mobility Spectrometry (DMS). DMS yields measurements that are visualized as dispersion plots that contain traces, also known as alpha curves. Current methods used for analyzing DMS dispersion plots do not usually utilize the information stored in the continuity of these traces, which suggests that alternative approaches should be investigated. Results: In this work, for the first time, dispersion plots were interpreted as a series of measurements evolving sequentially. Thus, it was hypothesized that time-series classification algorithms can be effective for classification and analysis of dispersion plots. An extensive dataset of 900 dispersion plots for five chemicals measured at five flow rates and two concentrations was collected. The data was used to analyze the classification performance of six algorithms. According to our hypothesis, the highest classification accuracy of 88\% was achieved by a Long-Short Term Memory neural network, which supports our hypothesis. Significance: A new concept for approaching classification tasks of dispersion plots is presented and compared with other well-known classification algorithms. This creates a new angle of view for analysis and classification of the dispersion plots. In addition, a new dataset of dispersion plots is openly shared to public. | 翻訳日:2024-03-16 01:42:38 公開日:2024-03-13 |
# OSINTを用いたサイバー脅威認識のためのLCMチャットボットの評価
Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness ( http://arxiv.org/abs/2401.15127v2 ) ライセンス: Link先を確認 | Samaneh Shafee, Alysson Bessani, Pedro M. Ferreira, | (参考訳) 新興脅威に関する知識共有は、サイバーセキュリティの急速に進歩する分野において不可欠であり、サイバー脅威インテリジェンス(CTI)の基礎を形成している。
このような状況下では、大規模言語モデルはサイバーセキュリティの分野でますます重要になってきており、幅広い機会をもたらしている。
本研究では,ChatGPT,GPT4all,Dolly,Stanford Alpaca,Alpaca-LoRA,Falcon,Vicunaチャットボットのバイナリ分類における性能と,オープンソースインテリジェンス(OSINT)を用いた名前付きエンティティ認識(NER)タスクについて調査した。
従来のTwitterの調査で収集された確固としたデータを用いて、これらのタスクのために訓練された特殊なモデルと比較して、これらのチャットボットの競争力を評価する。
二値分類実験では、商業モデルとしてのChatbot GPT-4は許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。
しかし、サイバーセキュリティのエンティティ認識に関しては、評価されたチャットボットには制限があり、効果が低い。
本研究は、OSINTバイナリ分類のためのチャットボットの能力を実証し、特別に訓練されたモデルを効果的に置き換えるために、NERをさらに改善する必要があることを示す。
我々の結果は、特殊なモデルと比較してLLMチャットボットの限界に光を当て、OSINTベースのCTIツールに機械学習を統合するために必要な労力を減らすことを目的として、研究者がチャットボット技術を改善するのに役立ちます。
Knowledge sharing about emerging threats is crucial in the rapidly advancing field of cybersecurity and forms the foundation of Cyber Threat Intelligence (CTI). In this context, Large Language Models are becoming increasingly significant in the field of cybersecurity, presenting a wide range of opportunities. This study surveys the performance of ChatGPT, GPT4all, Dolly, Stanford Alpaca, Alpaca-LoRA, Falcon, and Vicuna chatbots in binary classification and Named Entity Recognition (NER) tasks performed using Open Source INTelligence (OSINT). We utilize well-established data collected in previous research from Twitter to assess the competitiveness of these chatbots when compared to specialized models trained for those tasks. In binary classification experiments, Chatbot GPT-4 as a commercial model achieved an acceptable F1 score of 0.94, and the open-source GPT4all model achieved an F1 score of 0.90. However, concerning cybersecurity entity recognition, all evaluated chatbots have limitations and are less effective. This study demonstrates the capability of chatbots for OSINT binary classification and shows that they require further improvement in NER to effectively replace specially trained models. Our results shed light on the limitations of the LLM chatbots when compared to specialized models, and can help researchers improve chatbots technology with the objective to reduce the required effort to integrate machine learning in OSINT-based CTI tools. | 翻訳日:2024-03-16 01:42:38 公開日:2024-03-13 |
# 確率凸最適化における適応性の価格
The Price of Adaptivity in Stochastic Convex Optimization ( http://arxiv.org/abs/2402.10898v2 ) ライセンス: Link先を確認 | Yair Carmon, Oliver Hinder, | (参考訳) 非滑らかな確率凸最適化における適応性に対する不合理性を証明した。
適応したい問題パラメータのセットが与えられた場合、我々は、大まかに言えば、これらのパラメータの不確実性によるサブ最適性の乗法的増加を測定する「適応性(price of adaptivity)」(PoA)を定義する。
最適点への初期距離が不明で勾配ノルム境界が知られている場合、PoAは期待される準最適点に対して少なくとも対数的であり、中央値の準最適点に対して二重対数的であることを示す。
距離ノルムと勾配ノルムの両方に不確実性が存在する場合、PoA は不確実性のレベルにおける多項式でなければならないことを示す。
我々の下限は、既存の上限とほぼ一致し、パラメータフリーランチがないことを証明します。
We prove impossibility results for adaptivity in non-smooth stochastic convex optimization. Given a set of problem parameters we wish to adapt to, we define a "price of adaptivity" (PoA) that, roughly speaking, measures the multiplicative increase in suboptimality due to uncertainty in these parameters. When the initial distance to the optimum is unknown but a gradient norm bound is known, we show that the PoA is at least logarithmic for expected suboptimality, and double-logarithmic for median suboptimality. When there is uncertainty in both distance and gradient norm, we show that the PoA must be polynomial in the level of uncertainty. Our lower bounds nearly match existing upper bounds, and establish that there is no parameter-free lunch. | 翻訳日:2024-03-16 01:32:47 公開日:2024-03-13 |
# Retrieval Helps or Hurts : Retrieval Augmentation の言語モデルへの応用
Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models ( http://arxiv.org/abs/2402.13492v2 ) ライセンス: Link先を確認 | Seiji Maekawa, Hayate Iso, Sairam Gurajada, Nikita Bhutani, | (参考訳) 大規模言語モデル(LM)は優れた性能を示すが、事前訓練された記憶以上の情報を求めると、正確な応答を提供するという課題に直面する。
外部情報を拡張することでこれらの問題を緩和することができるが、検索の必要性を考慮することの失敗は全体的なパフォーマンスに悪影響を及ぼす可能性がある。
従来の研究は、エンティティがLMの検索モデルや知識リコールにどのように影響するかを主に研究しており、他の側面は比較的研究されていない。
本研究の目的は, 実体と関係の組合せの効果を探求することによって, より詳細な事実中心の分析を行うことである。
そこで我々は,新しい質問応答データセットであるWiTQA(Wikipedia Triple Question Answers)を構築した。
このデータセットには、さまざまな人気レベルのエンティティと関係に関する質問が含まれている。
多様なLMとレトリバーを用いた広範な実験により,検索が事実中心の人気の観点から常にLMを増強しないことが判明した。
しかし, 検索者に比べて, 頻度の低いエンティティ・リレーション・ペアでは, 難易度が顕著である。
興味深いことに、あまり一般的でないエンティティの一般的な関係を効果的に維持できる。
適応検索システムを用いて,質問の実体と関係の周波数に基づいて,検索とリコールを選択的に活用する,よりきめ細かい計量と洞察の有効性を実証する。
While large language models (LMs) demonstrate remarkable performance, they encounter challenges in providing accurate responses when queried for information beyond their pre-trained memorization. Although augmenting them with relevant external information can mitigate these issues, failure to consider the necessity of retrieval may adversely affect overall performance. Previous research has primarily focused on examining how entities influence retrieval models and knowledge recall in LMs, leaving other aspects relatively unexplored. In this work, our goal is to offer a more detailed, fact-centric analysis by exploring the effects of combinations of entities and relations. To facilitate this, we construct a new question answering (QA) dataset called WiTQA (Wikipedia Triple Question Answers). This dataset includes questions about entities and relations of various popularity levels, each accompanied by a supporting passage. Our extensive experiments with diverse LMs and retrievers reveal when retrieval does not consistently enhance LMs from the viewpoints of fact-centric popularity.Confirming earlier findings, we observe that larger LMs excel in recalling popular facts. However, they notably encounter difficulty with infrequent entity-relation pairs compared to retrievers. Interestingly, they can effectively retain popular relations of less common entities. We demonstrate the efficacy of our finer-grained metric and insights through an adaptive retrieval system that selectively employs retrieval and recall based on the frequencies of entities and relations in the question. | 翻訳日:2024-03-16 01:32:47 公開日:2024-03-13 |
# FMOスキームを用いたVQE-UCCSD計算によるサイズ一貫性と軌道不変性の問題
Size-consistency and orbital-invariance issues revealed by VQE-UCCSD calculations with the FMO scheme ( http://arxiv.org/abs/2402.17993v2 ) ライセンス: Link先を確認 | Kenji Sugisaki, Tatsuya Nakano, Yuji Mochizuki, | (参考訳) フラグメント分子軌道 (FMO) スキームは、量子コンピュータ上の量子化学計算において回路をフラットにする潜在的な利点がある。
本研究では、GPU加速量子シミュレータ(cuQuantum)を用いて、STO-3Gベースセットを持つ水素結合(FH)$_3$および(FH)$_2$-H$_2$O系の変分量子固有解器(VQE)を用いて、FMO計算の電子相関部をユニタリ結合クラスタシングルとダブル(UCCSD)として実行した。
VQE-UCCD計算は標準MOセットと局所MOセットの両方を用いて行った。
特に (FH)$_2$-H$_2$O の場合、局所化 MO の使用はより良い結果をもたらすことが判明した。
GPUアクセラレーションは、より多くの量子ビットを持つシミュレーションにおいて重要なものであり、18量子ビット系では約6.7~7.7倍であった。
The fragment molecular orbital (FMO) scheme is one of the popular fragmentation-based methods and has the potential advantage of making the circuit flat in quantum chemical calculations on quantum computers. In this study, we used a GPU-accelerated quantum simulator (cuQuantum) to perform the electron correlation part of the FMO calculation as unitary coupled-cluster singles and doubles (UCCSD) with the variational quantum eigensolver (VQE) for hydrogen-bonded (FH)$_3$ and (FH)$_2$-H$_2$O systems with the STO-3G basis set. VQE-UCCD calculations were performed using both canonical and localized MO sets, and the results were examined from the point of view of size-consistency and orbital-invariance affected by the Trotter error. It was found that the use of localized MO leads to better results, especially for (FH)$_2$-H$_2$O. The GPU acceleration was substantial for the simulations with larger numbers of qubits, and was about a factor of 6.7--7.7 for 18 qubit systems. | 翻訳日:2024-03-16 01:22:49 公開日:2024-03-13 |
# RAGged Edges: 検索可能なチャットボットのダブルエッジソード
RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots ( http://arxiv.org/abs/2403.01193v2 ) ライセンス: Link先を確認 | Philip Feldman. James R. Foulds, Shimei Pan, | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、人工知能の顕著な進歩を示している。
しかし、幻覚の傾向 ― もっともらしいが偽の情報を生み出す ― は重要な課題である。
この問題は、ChatGPTの使用が存在しない法的判決の引用に繋がった最近の裁判で見られるように、批判的である。
本稿では、外部知識とプロンプトを統合することで、RAG(Retrieval-Augmented Generation)が幻覚に対してどのように対処できるかを考察する。
幻覚を誘発するプロンプトを用いて,標準LLMに対するRAGを実験的に評価した。
以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。
これらの知見は、幻覚の複雑な性質と、現実のアプリケーションにおいてLLMの信頼性を確保するためのより堅牢なソリューションの必要性を浮き彫りにしている。
我々は、RAGデプロイメントの実践的な推奨と、より信頼性の高いLCMの開発における影響について論じる。
Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate -- generate plausible but false information -- poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT's use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model's pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs. | 翻訳日:2024-03-16 01:22:49 公開日:2024-03-13 |
# ロータ様量子系の統一的不確実性
Unifying uncertainties for rotor-like quantum systems ( http://arxiv.org/abs/2403.02498v2 ) ライセンス: Link先を確認 | Ladislav Mišta Jr., Matouš Mišta, Zdeněk Hradil, | (参考訳) 量子ローターは、深い学際的だが未解明の含意を持つ高調波発振器に続く、最も単純なモデルである。
これはその機械的意味を、重要な結果と有望な応用、例えば特異光学、ジョセフソン接合を用いた超導電性回路、または極端量子限界における時間周波数領域における最適なパルス整形などによって誇張する。
角運動量と角変数の相補性の量子化は、量子力学におけるこの正準対の活用に不可欠である。
位置と運動量に対する自然な測度が分散であるのに対し、角変数に関連する不確実性は、単位環の質量の中心を通る軸に関する慣性モーメントに関連付けられる。
この解釈は、量子ローターの量子距離論でさらに用いられる飽和不確実性関係の変種を提供し、角変数の正弦関数や余弦関数に関連する可能性のある不確実性尺度を選択する際の曖昧性を説明する。
特別の注意は、von Mises状態によって正確に、あるいはほぼ最小化された不確実な生成物に払われ、量子ローターの圧縮状態の役割を担い、究極的な極限における量子状態の最適検出を可能にする。
Quantum rotor represents the second simplest model after the harmonic oscillator with profound interdisciplinary but yet unexplored implications. It overreaches its mechanical meaning with significant consequences and promising applications in, e.g., singular optics, super-conductive circuits with Josephson junction or optimal pulse shaping in time frequency domains at ultimate quantum limit. Quantification of complementarity between angular momentum and angular variable is essential for exploitation of this canonical pair in quantum metrology. Whereas the natural measures for position and momentum are variances, the uncertainty associated with angular variable can be linked to moments of inertia of the unit ring about axes passing through its center of mass. This interpretation provides variants for saturable uncertainty relations which can be further used in quantum metrology of the quantum rotor and explains ambiguities in choice of possible uncertainty measures associated with sine and cosine functions of angular variable. Special attention will be payed to uncertainty products which are exactly or approximately minimised by von Mises states, which play the role of squeezed states for quantum rotor and allow optimal detection of quantum states at the ultimate limits. | 翻訳日:2024-03-16 01:22:49 公開日:2024-03-13 |
# 逐次弱測定によるハイゼンベルク感度のアンロック
Unlocking Heisenberg Sensitivity with Sequential Weak Measurement Preparation ( http://arxiv.org/abs/2403.05954v2 ) ライセンス: Link先を確認 | T. B. Lantaño, Dayou Yang, K. M. R. Audenaert, S. F. Huelga, M. B. Plenio, | (参考訳) 本稿では,スピンアンサンブルと結合した中心スピンの逐次測定に基づく状態準備プロトコルを提案する。
我々のプロトコルは、非線形スピン相互作用の必要性を欠いた、非常に絡み合ったスピン状態を生成することが示されている。
結果の状態のメトロジー感度は標準量子限界を超え、対称結合強度条件下でハイゼンベルク極限に達する。
また、最適感度に間に合うように特定の準備窓を同定し、非対称結合強度についても検討する。
本研究は, 大規模, 非古典的, 絡み合った状態を生成する新しい手法を提案する。
We propose a state preparation protocol based on sequential measurements of a central spin coupled with a spin ensemble, and investigate the usefulness of the generated multi-spin states for quantum enhanced metrology. Our protocol is shown to generate highly entangled spin states, devoid of the necessity for non-linear spin interactions. The metrological sensitivity of the resulting state surpasses the standard quantum limit, reaching the Heisenberg limit under symmetric coupling strength conditions. We also explore asymmetric coupling strengths, identifying specific preparation windows in time for optimal sensitivity. Our findings introduce a novel method for generating large-scale, non-classical, entangled states, enhancing quantum-enhanced metrology within current experimental capabilities. | 翻訳日:2024-03-16 01:11:34 公開日:2024-03-13 |
# リンク予測のための知識グラフ大言語モデル(KG-LLM)
Knowledge Graph Large Language Model (KG-LLM) for Link Prediction ( http://arxiv.org/abs/2403.07311v2 ) ライセンス: Link先を確認 | Dong Shu, Tianle Chen, Mingyu Jin, Yiting Zhang, Mengnan Du, Yongfeng Zhang, | (参考訳) 知識グラフ(KG)内の複数のリンクを予測するタスクは、知識グラフ解析の分野における課題であり、自然言語処理(NLP)やKG埋め込み技術の進歩により、ますます解決しやすくなっている。
本稿では,知識グラフ大言語モデルフレームワーク(KG-LLM)を提案する。このフレームワークは,KGにおけるマルチホップリンク予測を強化するために,チェーン・オブ・シンクレット(CoT)やインコンテキスト学習(ICL)など,重要なNLPパラダイムを活用する。
KGをCoTプロンプトに変換することで、我々のフレームワークはエンティティの潜在表現とその相互関係を識別し、学習するように設計されている。
KG-LLM フレームワークの有効性を示すため,本フレームワークでは,ICL と ICL の2つのタスクを総合的な評価に用い,主要な3つのLarge Language Model (LLM) を微調整する。
さらに、これまで見つからなかったプロンプトを扱うため、ゼロショット機能を備えたLLMを提供するフレームワークの可能性についても検討する。
実験の結果,ICLとCoTの統合はアプローチの性能を向上するだけでなく,モデルの一般化能力を大幅に向上させ,不慣れなシナリオにおけるより正確な予測を可能にすることがわかった。
The task of predicting multiple links within knowledge graphs (KGs) stands as a challenge in the field of knowledge graph analysis, a challenge increasingly resolvable due to advancements in natural language processing (NLP) and KG embedding techniques. This paper introduces a novel methodology, the Knowledge Graph Large Language Model Framework (KG-LLM), which leverages pivotal NLP paradigms, including chain-of-thought (CoT) prompting and in-context learning (ICL), to enhance multi-hop link prediction in KGs. By converting the KG to a CoT prompt, our framework is designed to discern and learn the latent representations of entities and their interrelations. To show the efficacy of the KG-LLM Framework, we fine-tune three leading Large Language Models (LLMs) within this framework, employing both non-ICL and ICL tasks for a comprehensive evaluation. Further, we explore the framework's potential to provide LLMs with zero-shot capabilities for handling previously unseen prompts. Our experimental findings discover that integrating ICL and CoT not only augments the performance of our approach but also significantly boosts the models' generalization capacity, thereby ensuring more precise predictions in unfamiliar scenarios. | 翻訳日:2024-03-16 01:01:27 公開日:2024-03-13 |
# 拡張相関系からの非整数高調波発生
Noninteger high-harmonic generation from extended correlated systems ( http://arxiv.org/abs/2403.08327v1 ) ライセンス: Link先を確認 | Christian Saugbjerg Lange, Thomas Hansen, Lars Bojer Madsen, | (参考訳) 高調波発生(HHG)によって生じるスペクトルは、通常、レーザー周波数の奇数の整数で明確に定義されたピークを示す。
しかし、近年のHHGの相関物質による研究において、スペクトルは、よく知られた対称性に基づくHHGスペクトルの選択規則に適合しない非整数高調波の信号を示す。
ここでは、Fermi-Hubbardモデルを用いて、線形鎖の原子からHHGを研究する。
このモデルにより、オンサイト電子-電子反発の量を特定することにより、相関相と非相関相の両方を研究することができる。
非整数高調波における信号の存在は、複数のフロケ状態の集団に由来すると解釈できる。
異なるフロッケ状態へのこの結合が、駆動パルスの特性と系における電子-電子相互作用の強さにどのように依存するかを示す。
The spectra produced by high-harmonic generation (HHG) typically exhibit well-defined peaks at odd integers times the laser frequency. However, in recent investigations of HHG from correlated materials, spectra exhibit signals at noninteger harmonics which do not conform to the well-known symmetry-based selection rules for HHG-spectra. Here, we use the Fermi-Hubbard model to study HHG from a linear chain of atoms. This model allows us to study both the correlated and uncorrelated phases through a specification of the amount of onsite electron-electron repulsion. The presence of signal at noninteger harmonics can be interpreted as originating from the population of multiple Floquet states. We show how this coupling to different Floquet states depends on the characteristics of the driving pulse and the strength of the electron-electron interaction in the system. | 翻訳日:2024-03-16 00:51:27 公開日:2024-03-13 |
# TINA: ゼロショット視覚言語ナビゲーションのための思考,インタラクション,アクションフレームワーク
TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation ( http://arxiv.org/abs/2403.08833v1 ) ライセンス: Link先を確認 | Dingbang Li, Wenzhou Chen, Xin Lin, | (参考訳) ゼロショットナビゲーションはビジョンランゲージナビゲーション(VLN)タスクにおいて重要な課題であり、不慣れな命令に適応し、未知の環境で動作させる能力が不可欠である。
既存の教師付き学習ベースモデルは、強化学習を通じて注釈付きデータを使用して訓練され、一般化能力の限界を示す。
大きな言語モデル(LLM)は、その豊富な知識と創発的な推論能力を持ち、ゼロショットナビゲーションを達成するための潜在的経路を示す。
本稿では、ゼロショットナビゲーション問題に対するアプローチを探るLLMに基づくVLNエージェントを提案する。
環境認識におけるLLMの欠点を補うために,思考・相互作用・行動(TINA)フレームワークを提案する。
TINAは、エージェントが知覚情報を精査し、導入した質問応答モジュールを通じて、環境内のキーキーを自律的に問い合わせることを可能にし、特定の知覚データと指示を整合させる。
ナビゲーションエージェントの知覚能力はTINAフレームワークを通じて強化され、明示的な思考とクエリプロセスはナビゲーション手順の説明可能性と透明性も向上する。
提案手法の性能をRoom-to-Roomデータセットで評価した。
実験の結果,LLMエージェントのナビゲーション性能が向上することが示唆された。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
Zero-shot navigation is a critical challenge in Vision-Language Navigation (VLN) tasks, where the ability to adapt to unfamiliar instructions and to act in unknown environments is essential. Existing supervised learning-based models, trained using annotated data through reinforcement learning, exhibit limitations in generalization capabilities. Large Language Models (LLMs), with their extensive knowledge and emergent reasoning abilities, present a potential pathway for achieving zero-shot navigation. This paper presents a VLN agent based on LLMs, exploring approaches to the zero-shot navigation problem. To compensate for the shortcomings of LLMs in environmental perception, we propose the Thinking, Interacting, and Action (TINA) framework. TINA enables the agent to scrutinize perceptual information and autonomously query key clues within the environment through an introduced question-answering module, thereby aligning instructions with specific perceptual data. The navigation agent's perceptual abilities are enhanced through the TINA framework, while the explicit thought and query processes also improve the navigational procedure's explainability and transparency. We evaluate the performance of our method on the Room-to-Room dataset. The experiment results indicate that our approach improves the navigation performance of LLM-based agents. Our approach also outperformed some supervised learning-based methods, highlighting its efficacy in zero-shot navigation. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# 機械学習を用いた結核治療成績の予測分析--大規模カルナタカTBデータスタディ
Predictive Analysis of Tuberculosis Treatment Outcomes Using Machine Learning: A Karnataka TB Data Study at a Scale ( http://arxiv.org/abs/2403.08834v1 ) ライセンス: Link先を確認 | SeshaSai Nath Chinagudaba, Darshan Gera, Krishna Kiran Vamsi Dasu, Uma Shankar S, Kiran K, Anil Singarajpure, Shivayogappa. U, Somashekar N, Vineet Kumar Chadda, Sharath B N, | (参考訳) 結核 (TB) は世界的な健康上の脅威であり、世界的死亡率の主要な原因の一つである。
この文脈において、機械学習(ML)は変換力として現れ、TB治療に関連する複雑さに対する革新的な解決策を提供する。この研究では、特に表計算データを用いて、どのように機械学習を用いて結核(TB)治療結果をより正確に予測できるかを探求する。
この予測タスクをバイナリ分類問題に変換し、50万人以上の患者記録を含むインドの全国TBコントロールプログラムであるNIKSHAYから得られた患者データからリスクスコアを生成する。
データ前処理は研究の重要な要素であり、モデル学習の改善には自然言語処理(NLP)の利用も検討し、検証セットでは98%、AUC-ROCスコアは0.95となった。
その結果, 様々な測定値とアブレーション研究によって裏付けられ, 提案手法の有効性が検証された。
本研究は, TB根絶への取り組みの潜在的影響と今後の研究への潜在的道筋について論じることによって, 結論を導いた。
この研究は、医療における機械学習の可能性を示すため、TBとの戦いにおいて重要な一歩を踏み出した。
Tuberculosis (TB) remains a global health threat, ranking among the leading causes of mortality worldwide. In this context, machine learning (ML) has emerged as a transformative force, providing innovative solutions to the complexities associated with TB treatment.This study explores how machine learning, especially with tabular data, can be used to predict Tuberculosis (TB) treatment outcomes more accurately. It transforms this prediction task into a binary classification problem, generating risk scores from patient data sourced from NIKSHAY, India's national TB control program, which includes over 500,000 patient records. Data preprocessing is a critical component of the study, and the model achieved an recall of 98% and an AUC-ROC score of 0.95 on the validation set, which includes 20,000 patient records.We also explore the use of Natural Language Processing (NLP) for improved model learning. Our results, corroborated by various metrics and ablation studies, validate the effectiveness of our approach. The study concludes by discussing the potential ramifications of our research on TB eradication efforts and proposing potential avenues for future work. This study marks a significant stride in the battle against TB, showcasing the potential of machine learning in healthcare. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# サッカーにおけるプレーヤスカウトのためのスタックベースディープニューラルネットワーク
Stacking-based deep neural network for player scouting in football 1 ( http://arxiv.org/abs/2403.08835v1 ) ライセンス: Link先を確認 | Simon Lacan, | (参考訳) Datascoutingはプロスポーツ、特にフットボールにおける最もよく知られたデータアプリケーションの一つである。
その目的は、人間のスカウトによって個別に考慮される高いポテンシャルを検出するために、プレイヤーの巨大なデータベースを分析することである。
本稿では,多人数のサッカー選手を検知するスタックリングに基づくディープラーニングモデルを提案する。
オープンソースデータベースに適用すると,従来の統計手法よりもはるかに優れた結果が得られる。
Datascouting is one of the most known data applications in professional sport, and specifically football. Its objective is to analyze huge database of players in order to detect high potentials that can be then individually considered by human scouts. In this paper, we propose a stacking-based deep learning model to detect high potential football players. Applied on open-source database, our model obtains significantly better results that classical statistical methods. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# 変圧器を用いた医療プロセスモニタリングにおける知識統合のための構造的位置エンコーディング
Structural Positional Encoding for knowledge integration in transformer-based medical process monitoring ( http://arxiv.org/abs/2403.08836v1 ) ライセンス: Link先を確認 | Christopher Irwin, Marco Dossena, Giorgio Leonardi, Stefania Montani, | (参考訳) 予測プロセスモニタリングは、実行すべき最も正しい次のアクティビティなど、実行中のプロセストレースに関する情報を予測するためのプロセスマイニングタスクである。
医学領域では、予測プロセスモニタリングは非典型的かつ非自明な状況において貴重な意思決定支援を提供することができる。
医療における意思決定支援と品質評価は、すべての利用可能な情報(データに限らず)に基づいて、ドメイン知識を無視することができず、エンドユーザーが本当に受け入れることができる。
本稿では,注意機構に基づくディープラーニングアーキテクチャである {\em transformer} を利用した予測プロセスモニタリング手法を提案する。
我々の研究の大きな貢献は、グラフ位置符号化技術を通じて行われる存在論的ドメイン固有の知識の取り込みにある。
本稿では,脳卒中管理の領域において収集した実験結果を提示し,考察する。
Predictive process monitoring is a process mining task aimed at forecasting information about a running process trace, such as the most correct next activity to be executed. In medical domains, predictive process monitoring can provide valuable decision support in atypical and nontrivial situations. Decision support and quality assessment in medicine cannot ignore domain knowledge, in order to be grounded on all the available information (which is not limited to data) and to be really acceptable by end users. In this paper, we propose a predictive process monitoring approach relying on the use of a {\em transformer}, a deep learning architecture based on the attention mechanism. A major contribution of our work lies in the incorporation of ontological domain-specific knowledge, carried out through a graph positional encoding technique. The paper presents and discusses the encouraging experimental result we are collecting in the domain of stroke management. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# ディープニューラルネットワークの効率的な並列化のための周期データ並列化
Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks ( http://arxiv.org/abs/2403.08837v1 ) ライセンス: Link先を確認 | Louis Fournier, Edouard Oyallon, | (参考訳) 大規模なディープラーニングモデルをトレーニングするには、並列化のテクニックが必要だ。
データ並列処理(Data Parallelism)やZeRO-DP(ZeRO-DP)のような既存の手法では、データのマイクロバッチが並列に処理され、2つの欠点が生じる。
本稿では,マイクロバッチの実行を同時からシーケンシャルにシフトさせる新しいパラダイムであるCyclic Data Parallelismを提案する。
わずかな勾配遅延のコストでは、アクティベーションによって取られた総メモリは一定であり、トレーニングステップ中に勾配通信が均衡する。
Model Parallelismでは、マイクロバッチ間でGPUを共有することにより、必要なGPUの数を減らすことができる。
提案手法は,ZeRO-DPフレームワーク内において,一括放送操作ではなくポイント・ツー・ポイント操作によるモデル状態の通信を可能にする。
CIFAR-10とImageNetデータセットに対するアプローチの強みについて説明する。
Training large deep learning models requires parallelization techniques to scale. In existing methods such as Data Parallelism or ZeRO-DP, micro-batches of data are processed in parallel, which creates two drawbacks: the total memory required to store the model's activations peaks at the end of the forward pass, and gradients must be simultaneously averaged at the end of the backpropagation step. We propose Cyclic Data Parallelism, a novel paradigm shifting the execution of the micro-batches from simultaneous to sequential, with a uniform delay. At the cost of a slight gradient delay, the total memory taken by activations is constant, and the gradient communications are balanced during the training step. With Model Parallelism, our technique reduces the number of GPUs needed, by sharing GPUs across micro-batches. Within the ZeRO-DP framework, our technique allows communication of the model states with point-to-point operations rather than a collective broadcast operation. We illustrate the strength of our approach on the CIFAR-10 and ImageNet datasets. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# 階層的軌道表現に基づく容器挙動の予測的クラスタリング
Predictive Clustering of Vessel Behavior Based on Hierarchical Trajectory Representation ( http://arxiv.org/abs/2403.08838v1 ) ライセンス: Link先を確認 | Rui Zhang, Hanyue Wu, Zhenzhong Yin, Zhu Xiao, Yong Xiong, Kezhong Liu, | (参考訳) 同じような軌道パターンを見つけることを目的とした容器軌道クラスタリングは, オーバーウォーター・アプリケーションで広く活用されている。
ほとんどの伝統的な手法では、個別の容器の挙動を特定するために事前定義された規則としきい値を使用する。
それらは高品質なクラスタリングを目標とし、元の軌道またはそのサブ軌道のいずれであっても、その進化を表わさないシーケンス全体をクラスタリングする。
そこで本研究では,階層型容器挙動予測クラスタリング(PC-HiV)を提案する。
PC-HiVはまず階層表現を用いて全ての軌道を行動列に変換する。
そして、その表現に基づいて、シーケンスの各タイムスタンプで進化を予測する。
予測クラスタリングと潜時符号化を適用することで、PC-HiVはクラスタリングと予測を同時に改善する。
実際のAISデータセットの実験では、PC-HiVが既存の手法よりも優れていることが示され、船舶タイプ(トランプ対ライナー)と排出制御領域の間の行動進化の相違を捉える効果が示された。
その結果,NN-KmeansとRobust DAAは純度スコアの3.9%と6.4%より優れていた。
Vessel trajectory clustering, which aims to find similar trajectory patterns, has been widely leveraged in overwater applications. Most traditional methods use predefined rules and thresholds to identify discrete vessel behaviors. They aim for high-quality clustering and conduct clustering on entire sequences, whether the original trajectory or its sub-trajectories, failing to represent their evolution. To resolve this problem, we propose a Predictive Clustering of Hierarchical Vessel Behavior (PC-HiV). PC-HiV first uses hierarchical representations to transform every trajectory into a behavioral sequence. Then, it predicts evolution at each timestamp of the sequence based on the representations. By applying predictive clustering and latent encoding, PC-HiV improves clustering and predictions simultaneously. Experiments on real AIS datasets demonstrate PC-HiV's superiority over existing methods, showcasing its effectiveness in capturing behavioral evolution discrepancies between vessel types (tramp vs. liner) and within emission control areas. Results show that our method outperforms NN-Kmeans and Robust DAA by 3.9% and 6.4% of the purity score. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# タイムウインドウを用いた車両経路問題に対する学習強化近傍選択
Learning-Enhanced Neighborhood Selection for the Vehicle Routing Problem with Time Windows ( http://arxiv.org/abs/2403.08839v1 ) ライセンス: Link先を確認 | Willem Feijen, Guido Schäfer, Koen Dekker, Seppo Pieterse, | (参考訳) LNS(Large Neighborhood Search)は、広く適用可能な普遍的な手法であり、最適化問題の解法として非常に効率的であることが証明されている。
機械学習(ML)をLNSに統合し、LNSの各イテレーションでソリューションのどの部分が破壊され、修復されるべきかを判断する。
我々は新しいアプローチをLens(Learning-Enhanced Neighborhood Selection)と呼ぶ。
我々のアプローチは普遍的に適用可能であり、すなわち、破壊アルゴリズムの動作を増幅するために任意のLSSアルゴリズムに適用することができる。
本稿では,車載時間Windows(VRPTW)におけるLENSの可能性を実証する。
我々は、VRPTWのためのLSSアルゴリズムを実装し、よく知られた、広く利用されているベンチマークデータセットから生成された新しいトレーニングインスタンスのデータを収集した。
我々はこのデータを用いてLENSアプローチを訓練し、LENSアプローチの可能性を実証するためにLENSが情報選択を学習したことを示すランダム近傍選択法とオラクル近傍選択法という2つのベンチマークアルゴリズムと比較した。
LENSでは,解の質を著しく向上させる結果が得られる。
Large Neighborhood Search (LNS) is a universal approach that is broadly applicable and has proven to be highly efficient in practice for solving optimization problems. We propose to integrate machine learning (ML) into LNS to assist in deciding which parts of the solution should be destroyed and repaired in each iteration of LNS. We refer to our new approach as Learning-Enhanced Neighborhood Selection (LENS for short). Our approach is universally applicable, i.e., it can be applied to any LNS algorithm to amplify the workings of the destroy algorithm. In this paper, we demonstrate the potential of LENS on the fundamental Vehicle Routing Problem with Time Windows (VRPTW). We implemented an LNS algorithm for VRPTW and collected data on generated novel training instances derived from well-known, extensively utilized benchmark datasets. We trained our LENS approach with this data and compared the experimental results of our approach with two benchmark algorithms: a random neighborhood selection method to show that LENS learns to make informed choices and an oracle neighborhood selection method to demonstrate the potential of our LENS approach. With LENS, we obtain results that significantly improve the quality of the solutions. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# ノイズ拡散:球状線形補間を超えた拡散モデルによる画像補間のための補正ノイズ
NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models beyond Spherical Linear Interpolation ( http://arxiv.org/abs/2403.08840v1 ) ライセンス: Link先を確認 | PengFei Zheng, Yonggang Zhang, Zhen Fang, Tongliang Liu, Defu Lian, Bo Han, | (参考訳) 拡散モデルに基づく画像補間は、新しく興味深い画像を作成する上で有望である。
高度な補間法は主に球状線形補間に焦点を当てており、そこでは画像がノイズ空間にエンコードされ、画像に雑音を与えるために補間される。
しかし,既存の手法では,自然画像(拡散モデルでは生成しない)を効果的に補間し,実用性を制限するという課題に直面している。
実験により、これらの課題は符号化ノイズの無効性に起因し、期待される雑音分布、例えば正規分布に従わない可能性があることが判明した。
これらの課題に対処するために,画像補間のためのノイズ補正手法であるNossDiffusionを提案する。
具体的には、ノイズ拡散は、微妙なガウスノイズを導入し、極値の雑音を抑える制約を導入することにより、期待される分布に不正ノイズをアプローチする。
この文脈では、ノイズの有効性の促進は画像アーティファクトの緩和に寄与するが、制約や外因性ノイズの導入は、通常、信号対雑音比、すなわち原画像情報の損失を減少させる。
したがって、ノイズ拡散はノイズの多い画像空間内で補間を行い、これらのノイズの多い画像に生画像を注入し、情報損失の課題に対処する。
その結果、ノイズ拡散により、人工物や情報損失を発生させることなく自然画像の補間が可能となり、最高の補間結果が得られる。
Image interpolation based on diffusion models is promising in creating fresh and interesting images. Advanced interpolation methods mainly focus on spherical linear interpolation, where images are encoded into the noise space and then interpolated for denoising to images. However, existing methods face challenges in effectively interpolating natural images (not generated by diffusion models), thereby restricting their practical applicability. Our experimental investigations reveal that these challenges stem from the invalidity of the encoding noise, which may no longer obey the expected noise distribution, e.g., a normal distribution. To address these challenges, we propose a novel approach to correct noise for image interpolation, NoiseDiffusion. Specifically, NoiseDiffusion approaches the invalid noise to the expected distribution by introducing subtle Gaussian noise and introduces a constraint to suppress noise with extreme values. In this context, promoting noise validity contributes to mitigating image artifacts, but the constraint and introduced exogenous noise typically lead to a reduction in signal-to-noise ratio, i.e., loss of original image information. Hence, NoiseDiffusion performs interpolation within the noisy image space and injects raw images into these noisy counterparts to address the challenge of information loss. Consequently, NoiseDiffusion enables us to interpolate natural images without causing artifacts or information loss, thus achieving the best interpolation results. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# まだ“シャットアップして計算する”必要はありますか?
Does one still need to "shut up and calculate"? ( http://arxiv.org/abs/2403.08842v1 ) ライセンス: Link先を確認 | Masud Mansuripur, | (参考訳) 量子力学の学習において、重要な疑問は常にある: 量子現象の「物理的感覚」をどう発展させるのか?
当然、そこから始めるには基底または基底ゼロが必要であり、その基底は古典物理学の世界における我々の経験から既に親しまれているものとは異なるものでなければならない。
リチャード・ファインマン(英語版)(Richard Feynman)は、構築する最も初等的で、最も面倒な概念は、物理的な事象に対する複素確率振幅の存在であると主張している。
複数の代替方法で起こりうる事象は、経路が原則的に区別不能であるときに対応する振幅を付加し、経路が識別可能であるときにその確率を自分自身に追加することによって処理されるべきである。
この原理を受け入れて、その光の中で量子現象を調べることで直感を刺激すると、我々は「理解」する量子力学への道をたどることになる。
量子光学の分野の基本的な例は、ファインマンの原理への固執が量子力学の魔法に対してより良く、より直感的な評価をもたらすことを証明している。
In learning quantum mechanics, an essential question has always been: How does one go about developing a "physical feel" for quantum phenomena? Naturally, one needs a basis or ground zero to start from, and that basis must be unlike anything with which we are already familiar in consequence of our experiences with the world of classical physics. We argue (channeling Richard Feynman) that the most elementary and the least cumbersome concept to build upon is the existence of complex probability amplitudes for physical events. An event that can take place in multiple alternative ways should be treated by adding the corresponding amplitudes when the paths are, in principle, indistinguishable, and by adding the probabilities themselves when the paths are distinguishable. Once we accept this principle and hone our intuition by examining quantum phenomena in its light, we will be on the path to "understanding" quantum mechanics. Elementary examples from the field of quantum optics demonstrate how adherence to Feynman's principle could lead to a better, more "intuitive" appreciation for the magic of quantum mechanics. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# ファジィ断層ツリーの定式化
Fuzzy Fault Trees Formalized ( http://arxiv.org/abs/2403.08843v1 ) ライセンス: Link先を確認 | Thi Kim Nhung Dang, Milan Lopuhaä-Zwakenberg, Mariëlle Stoelinga, | (参考訳) 断層木解析は安全リスクを評価する重要な方法である。
事故の潜在的な原因を特定し、その可能性と深刻さを評価し、予防措置を提案するのに役立つ。
フォールトツリーの定量的解析は、システムの障害動作を時間とともに計算する信頼性メトリクスを通じて行われることが多い。
しかし、正確なデータの欠如は、定量的分析や信頼性解析の大きな障害となっている。
ファジィ論理はあいまいな値を扱うための一般的なフレームワークであり、多くの領域で応用されている。
フォールトツリー解析にはファジィなアプローチがいくつか提案されているが、私たちの知る限りでは、ファジィな不安定な値を計算するための厳密な定義やアルゴリズムは提供されていない。
本稿では,ファジィ不確実性値に対する厳密な枠組みを定義する。
さらに,システムのファジィ信頼性を効率的に計算するボトムアップアルゴリズムを提案する。
このアルゴリズムは$\alpha$-cuts法の概念を取り入れている。
すなわち、水平に離散化された$\alpha$-cutのファジィ数の区間で二項代数演算を実行する。
この方法はファジィ不安定性の非線形性を保存する。
最後に,2つのケーススタディから得られた結果について述べる。
Fault tree analysis is a vital method of assessing safety risks. It helps to identify potential causes of accidents, assess their likelihood and severity, and suggest preventive measures. Quantitative analysis of fault trees is often done via the dependability metrics that compute the system's failure behaviour over time. However, the lack of precise data is a major obstacle to quantitative analysis, and so to reliability analysis. Fuzzy logic is a popular framework for dealing with ambiguous values and has applications in many domains. A number of fuzzy approaches have been proposed to fault tree analysis, but -- to the best of our knowledge -- none of them provide rigorous definitions or algorithms for computing fuzzy unreliability values. In this paper, we define a rigorous framework for fuzzy unreliability values. In addition, we provide a bottom-up algorithm to efficiently calculate fuzzy reliability for a system. The algorithm incorporates the concept of $\alpha$-cuts method. That is, performing binary algebraic operations on intervals on horizontally discretised $\alpha$-cut representations of fuzzy numbers. The method preserves the nonlinearity of fuzzy unreliability. Finally, we illustrate the results obtained from two case studies. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# AcademiaOS:大規模言語モデルを用いた質的研究における基礎理論開発を自動化する
AcademiaOS: Automating Grounded Theory Development in Qualitative Research with Large Language Models ( http://arxiv.org/abs/2403.08844v1 ) ライセンス: Link先を確認 | Thomas Übellacker, | (参考訳) AcademiaOSは、大規模言語モデルを用いた質的研究において、基底理論の開発を自動化する最初の試みである。
最近の大規模言語モデルの言語理解、生成、推論機能を利用して、AcademiaOSのコードでは、インタビューの書き起こしなどの定性的な生データをキュレートし、テーマと次元を発達させ、基礎となる理論モデルをさらに発展させ、新たな洞察を与えている。
ユーザスタディ(n=19)では、このシステムが学術コミュニティで受け入れられ、質的研究において人間を増強する可能性を示すことを示唆している。
AcademiaOSはオープンソースとして公開されている。
AcademiaOS is a first attempt to automate grounded theory development in qualitative research with large language models. Using recent large language models' language understanding, generation, and reasoning capabilities, AcademiaOS codes curated qualitative raw data such as interview transcripts and develops themes and dimensions to further develop a grounded theoretical model, affording novel insights. A user study (n=19) suggests that the system finds acceptance in the academic community and exhibits the potential to augment humans in qualitative research. AcademiaOS has been made open-source for others to build upon and adapt to their use cases. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# シングルコンテキスト大バッチサンプリングのための分岐注意法
Bifurcated Attention for Single-Context Large-Batch Sampling ( http://arxiv.org/abs/2403.08845v1 ) ライセンス: Link先を確認 | Ben Athiwaratkun, Sujan Kumar Gonugondla, Sanjay Krishna Gouda, Haifeng Qian, Hantian Ding, Qing Sun, Jun Wang, Jiacheng Guo, Liangfu Chen, Parminder Bhatia, Ramesh Nallapati, Sudipta Sengupta, Bing Xiang, | (参考訳) 本研究では,単一コンテキストのバッチサンプリングコンテキストにおける言語モデル推論のための手法であるバイフルシッドアテンションを提案する。
このアプローチは、冗長なメモリIOコストの削減、高いバッチサイズと長いコンテキスト長のレイテンシの重大な要因を目標としています。
分岐した注意は、インクリメンタルデコード中の注意機構を2つの異なるGEMM演算に分割し、プリフィルからKVキャッシュとデコードプロセスに焦点をあてることでこれを達成している。
本手法は,標準的な注意機構の計算負荷(FLOP)の精度を保証し,メモリIOの低減を図っている。
分岐アテンションはKVキャッシュ用のメモリIOの削減で知られているマルチクエリアテンション機構とも互換性があり、バッチサイズとコンテキスト長が向上する。
結果として、レイテンシの低減、リアルタイムアプリケーションへの適合性の向上、例えば、レイテンシを大幅に増加させることなく大規模な並列応答生成の実現、再ランク付けなどの後処理技術との統合によるパフォーマンス向上などが実現されている。
In our study, we present bifurcated attention, a method developed for language model inference in single-context batch sampling contexts. This approach aims to reduce redundant memory IO costs, a significant factor in latency for high batch sizes and long context lengths. Bifurcated attention achieves this by dividing the attention mechanism during incremental decoding into two distinct GEMM operations, focusing on the KV cache from prefill and the decoding process. This method ensures precise computation and maintains the usual computational load (FLOPs) of standard attention mechanisms, but with reduced memory IO. Bifurcated attention is also compatible with multi-query attention mechanism known for reduced memory IO for KV cache, further enabling higher batch size and context length. The resulting efficiency leads to lower latency, improving suitability for real-time applications, e.g., enabling massively-parallel answer generation without substantially increasing latency, enhancing performance when integrated with postprocessing techniques such as reranking. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# JAXbind: どんな関数もJAXに結合する
JAXbind: Bind any function to JAX ( http://arxiv.org/abs/2403.08847v1 ) ライセンス: Link先を確認 | Jakob Roth, Martin Reinecke, Gordian Edenhofer, | (参考訳) JAXは機械学習や科学計算で広く使われていますが、後者はJAXに組み込むのが理想的な既存の高性能コードに依存しています。
カスタムコードをバインディングするためのJAXの既存のインターフェースは、JAXとそのC++バックエンドに関する深い知識を必要とします。
JAXbindの目標は、他のプログラミング言語で実装されたカスタム関数をJAXに結合するために必要な労力を大幅に削減することである。
具体的には、JAXbindは任意のJAX変換をサポートするカスタムのいわゆるJAXプリミティブを定義するための使い易いPythonインターフェースを提供する。
JAX is widely used in machine learning and scientific computing, the latter of which often relies on existing high-performance code that we would ideally like to incorporate into JAX. Reimplementing the existing code in JAX is often impractical and the existing interface in JAX for binding custom code requires deep knowledge of JAX and its C++ backend. The goal of JAXbind is to drastically reduce the effort required to bind custom functions implemented in other programming languages to JAX. Specifically, JAXbind provides an easy-to-use Python interface for defining custom so-called JAX primitives that support arbitrary JAX transformations. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# FocusMAE:集束型オートエンコーダを用いた超音波による胆嚢癌検出
FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked Autoencoders ( http://arxiv.org/abs/2403.08848v1 ) ライセンス: Link先を確認 | Soumen Basu, Mayuna Gupta, Chetan Madan, Pankaj Gupta, Chetan Arora, | (参考訳) 近年,胆嚢癌(GBC)の自動検出が研究者の注目を集めている。
超音波ソノグラフィー(US)画像を利用したSOTA法は,変換的アプローチの必要性を強調しつつ,限定的な一般化を示している。
我々は、個々のアメリカのフレームには、病気の徴候を捉えるのに十分な情報がないことを観察する。
本研究は、時空間表現の固有の利点を生かして、ビデオベースGBC検出へのパラダイムシフトを提唱する。
Masked Autoencoder (MAE) を表現学習に適用し、従来の画像ベース手法の欠点に対処する。
本研究では,高情報領域からのマスキングトークンの選択を体系的にバイアスし,より洗練された悪性度表現を育成するFocusMAEという新しい設計を提案する。
さらに、GBC検出のための最も広範な米国ビデオデータセットをコントリビュートする。
また、これは米国におけるビデオベースのGBC検出に関する最初の研究である。
提案手法の有効性を検証し,既存の画像ベースSOTA - GBCNet と RadFormer では84%,ビデオベース SOTA - AdaMAE では94.7% の精度で,GBC 検出問題に対して96.4% の新たな最先端SOTA (State-of-the-art) 精度を報告した。
提案したFocusMAEの公共CTに基づくCovid検出データセットの汎用性をさらに実証し、現在のベースラインよりも精度が3.3%向上したことを報告した。
ソースコードと事前訓練されたモデルは、https://github.com/sbasu276/FocusMAE.comで入手できる。
In recent years, automated Gallbladder Cancer (GBC) detection has gained the attention of researchers. Current state-of-the-art (SOTA) methodologies relying on ultrasound sonography (US) images exhibit limited generalization, emphasizing the need for transformative approaches. We observe that individual US frames may lack sufficient information to capture disease manifestation. This study advocates for a paradigm shift towards video-based GBC detection, leveraging the inherent advantages of spatiotemporal representations. Employing the Masked Autoencoder (MAE) for representation learning, we address shortcomings in conventional image-based methods. We propose a novel design called FocusMAE to systematically bias the selection of masking tokens from high-information regions, fostering a more refined representation of malignancy. Additionally, we contribute the most extensive US video dataset for GBC detection. We also note that, this is the first study on US video-based GBC detection. We validate the proposed methods on the curated dataset, and report a new state-of-the-art (SOTA) accuracy of 96.4% for the GBC detection problem, against an accuracy of 84% by current Image-based SOTA - GBCNet, and RadFormer, and 94.7% by Video-based SOTA - AdaMAE. We further demonstrate the generality of the proposed FocusMAE on a public CT-based Covid detection dataset, reporting an improvement in accuracy by 3.3% over current baselines. The source code and pretrained models are available at: https://github.com/sbasu276/FocusMAE. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# PAPERCLIP:多モードモデルによる天文観測と自然言語の関連
PAPERCLIP: Associating Astronomical Observations and Natural Language with Multi-Modal Models ( http://arxiv.org/abs/2403.08851v1 ) ライセンス: Link先を確認 | Siddharth Mishra-Sharma, Yiding Song, Jesse Thaler, | (参考訳) 本稿では,望遠鏡が撮影した天体観測と自然言語をニューラルネットワークモデルを用いて関連付ける手法であるPAPERCLIP(Proposal Abstracts provide a Effective Representation for Contrastive Language- Image Pre-Trening)を提案する。
モデルは、提案した抽象概念とそれに対応する下流の観測結果を用いて、学習済みのContrastive Language-Image Pre-training (CLIP)モデルから微調整され、大言語モデル(LLM)を用いたガイド付き生成によって任意に要約される。
ハッブル宇宙望遠鏡(HST)の観測例を用いて、微調整されたモデルが、画像検索(自然言語クエリを用いた最も関連性の高い観測)と記述検索(天体のクラスと、与えられた観測に最も関係のあるユースケース)を対象とするテストを通じて、観察と自然言語の有意義な共同表現を具現化していることを示す。
本研究は,テキストをインタフェースとして活用することで,宇宙データと対話するタスク固有モデルではなく,汎用基盤モデルを使用することの可能性を示す。
We present PAPERCLIP (Proposal Abstracts Provide an Effective Representation for Contrastive Language-Image Pre-training), a method which associates astronomical observations imaged by telescopes with natural language using a neural network model. The model is fine-tuned from a pre-trained Contrastive Language-Image Pre-training (CLIP) model using successful observing proposal abstracts and corresponding downstream observations, with the abstracts optionally summarized via guided generation using large language models (LLMs). Using observations from the Hubble Space Telescope (HST) as an example, we show that the fine-tuned model embodies a meaningful joint representation between observations and natural language through tests targeting image retrieval (i.e., finding the most relevant observations using natural language queries) and description retrieval (i.e., querying for astrophysical object classes and use cases most relevant to a given observation). Our study demonstrates the potential for using generalist foundation models rather than task-specific models for interacting with astronomical data by leveraging text as an interface. | 翻訳日:2024-03-16 00:41:28 公開日:2024-03-13 |
# Moments of Clarity: Moment Poolingを用いた機械学習における遅延空間の合理化
Moments of Clarity: Streamlining Latent Spaces in Machine Learning using Moment Pooling ( http://arxiv.org/abs/2403.08854v1 ) ライセンス: Link先を確認 | Rikab Gambhir, Athis Osathapan, Jesse Thaler, | (参考訳) 多くの機械学習アプリケーションは、しばしば高次元で直接解釈が難しいデータの潜在表現を学習する。
本研究では,Deep Sets ネットワークの自然拡張である "Moment Pooling" を提案する。
モーメント・プールングはディープ・セットの和を任意の多変量モーメントに一般化し、固定された潜在次元に対してより高効率な潜在次元を達成することができる。
我々は、クォーク/グルーオンジェット分類のコライダー物理タスクにおいて、エネルギーフローネットワーク(EFN)をモーメントEFNに拡張することで、モーメントプーリングを実証する。
遅延次元が 1 のモーメント EFN は、高い遅延次元の通常の EFN と同様の働きをする。
この小さな潜在次元は内部表現を直接視覚化し解釈し、学習した内部ジェット表現を閉じた形で抽出することを可能にする。
Many machine learning applications involve learning a latent representation of data, which is often high-dimensional and difficult to directly interpret. In this work, we propose "Moment Pooling", a natural extension of Deep Sets networks which drastically decrease latent space dimensionality of these networks while maintaining or even improving performance. Moment Pooling generalizes the summation in Deep Sets to arbitrary multivariate moments, which enables the model to achieve a much higher effective latent dimensionality for a fixed latent dimension. We demonstrate Moment Pooling on the collider physics task of quark/gluon jet classification by extending Energy Flow Networks (EFNs) to Moment EFNs. We find that Moment EFNs with latent dimensions as small as 1 perform similarly to ordinary EFNs with higher latent dimension. This small latent dimension allows for the internal representation to be directly visualized and interpreted, which in turn enables the learned internal jet representation to be extracted in closed form. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# DialogGen:マルチターンテキスト・画像生成のためのマルチモーダル対話システム
DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation ( http://arxiv.org/abs/2403.08857v1 ) ライセンス: Link先を確認 | Minbin Huang, Yanxin Long, Xinchi Deng, Ruihang Chu, Jiangfeng Xiong, Xiaodan Liang, Hong Cheng, Qinglin Lu, Wei Liu, | (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは近年大きく進歩している。
しかし、これらのモデルとの効果的なインタラクションは、エンジニアリングの専門知識が必要であり、マルチターン画像生成ができないため、動的かつ反復的な生成プロセスを妨げているため、平均的なユーザにとって困難である。
近年,マルチモーダル大規模言語モデル (MLLM) をT2Iモデルと組み合わせて,ユーザの自然言語命令を現実化しようとする試みが試みられている。
したがって、MLLMの出力モダリティが拡張され、MLLMの強いマルチモーダル理解能力により、T2Iモデルのマルチターン生成品質が向上する。
しかし、これらの研究の多くは、正確な出力モダリティを識別し、出力モダリティの数が増え、会話が深まるにつれて、コヒーレントな画像を生成するという課題に直面している。
そこで本研究では,マルチターンテキスト・トゥ・イメージ生成のための多モード対話システム(MIDS)を構築するために,市販のMLLMとT2Iモデルを連携させる効果的なパイプラインであるDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
さらに、MIDSの分野が繁栄するにつれて、MIDSの出力モダリティの正しさとマルチモーダル出力のコヒーレンスの観点から、MIDSを公平に評価するためには、包括的なベンチマークが緊急に必要となる。
この問題に対処するために,MLLMが画像編集をサポートする正確で一貫性のあるマルチモーダルコンテンツを生成する能力を評価するための総合的バイリンガルベンチマークであるMulti-modal Dialogue Benchmark(DialogBen)を導入する。
モデルがモダリティと出力画像のコヒーレンスを切り替える能力を測定するための2つの評価指標を含んでいる。
DialogBenとユーザスタディに関する広範な実験は、他のState-of-the-Artモデルと比較してダイアログGenの有効性を実証している。
Text-to-image (T2I) generation models have significantly advanced in recent years. However, effective interaction with these models is challenging for average users due to the need for specialized prompt engineering knowledge and the inability to perform multi-turn image generation, hindering a dynamic and iterative creation process. Recent attempts have tried to equip Multi-modal Large Language Models (MLLMs) with T2I models to bring the user's natural language instructions into reality. Hence, the output modality of MLLMs is extended, and the multi-turn generation quality of T2I models is enhanced thanks to the strong multi-modal comprehension ability of MLLMs. However, many of these works face challenges in identifying correct output modalities and generating coherent images accordingly as the number of output modalities increases and the conversations go deeper. Therefore, we propose DialogGen, an effective pipeline to align off-the-shelf MLLMs and T2I models to build a Multi-modal Interactive Dialogue System (MIDS) for multi-turn Text-to-Image generation. It is composed of drawing prompt alignment, careful training data curation, and error correction. Moreover, as the field of MIDS flourishes, comprehensive benchmarks are urgently needed to evaluate MIDS fairly in terms of output modality correctness and multi-modal output coherence. To address this issue, we introduce the Multi-modal Dialogue Benchmark (DialogBen), a comprehensive bilingual benchmark designed to assess the ability of MLLMs to generate accurate and coherent multi-modal content that supports image editing. It contains two evaluation metrics to measure the model's ability to switch modalities and the coherence of the output images. Our extensive experiments on DialogBen and user study demonstrate the effectiveness of DialogGen compared with other State-of-the-Art models. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 動的物質を含む2+1Dゲージ理論における量子多体スキャリング
Quantum Many-Body Scarring in $2+1$D Gauge Theories with Dynamical Matter ( http://arxiv.org/abs/2403.08858v1 ) ライセンス: Link先を確認 | Jesse Osborne, Ian P. McCulloch, Jad C. Halimeh, | (参考訳) 量子多体散乱(QMBS)は、非可積分量子多体モデル、特に1+1$時空次元の格子ゲージ理論(LGT)における弱いエルゴディディディティ破壊の興味深いパラダイムとして登場した。
しかし、QMBS が動的物質を持つ高次元 LGT に存在しているかどうかには疑問がある。
空間次元 $d{=}1$ の非エルゴード力学が $d{>}1$ で消える傾向があることを考えれば、この問題を調査することが重要である。
有限系および無限系の行列積状態技術を用いて、QMBSは局所可観測体の持続的コヒーレント振動(英語版)において証明された2${+}1$D $\mathrm{U}(1)$量子リンクモデル(QLM)で発生することを示す。
興味深いことに、QMBSはフェルミオンよりも自由度がボソニックであるときにより堅牢である。
この結果より, ゲージ不変量とQMBSの密接な関係に光を当て, より高次元のスカーリングの持続性を強調した。
本研究は, 近距離アナログおよびディジタル量子シミュレータで行うことができ, 最近提案された冷原子アナログ量子シミュレータのアクセシビリティを実証する。
Quantum many-body scarring (QMBS) has emerged as an intriguing paradigm of weak ergodicity breaking in nonintegrable quantum many-body models, particularly lattice gauge theories (LGTs) in $1+1$ spacetime dimensions. However, an open question is whether QMBS exists in higher-dimensional LGTs with dynamical matter. Given that nonergodic dynamics in $d{=}1$ spatial dimension tend to vanish in $d{>}1$, it is important to probe this question. Using matrix product state techniques for both finite and infinite systems, we show that QMBS occurs in the $2{+}1$D $\mathrm{U}(1)$ quantum link model (QLM), as evidenced in persistent coherent oscillations in local observables, a marked slowdown in the growth of the bipartite entanglement entropy, and revivals in the fidelity. Interestingly, we see that QMBS is more robust when the matter degrees of freedom are bosonic rather than fermionic. Our results further shed light on the intimate connection between gauge invariance and QMBS, and highlight the persistence of scarring in higher spatial dimensions. Our findings can be tested in near-term analog and digital quantum simulators, and we demonstrate their accessibility on a recently proposed cold-atom analog quantum simulator. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 量子クリロフアルゴリズムと量子化を用いた格子ゲージ理論の解法
Solving lattice gauge theories using the quantum Krylov algorithm and qubitization ( http://arxiv.org/abs/2403.08859v1 ) ライセンス: Link先を確認 | Lewis W. Anderson, Martin Kiffner, Tom O'Leary, Jason Crain, Dieter Jaksch, | (参考訳) フェルミオン度自由度を含む格子ゲージ理論(LGT)の真空状態の計算はモンテカルロ法による古典計算において重要な課題となる。
量子アルゴリズムはLGTの基底状態特性のよりスケーラブルな計算経路を提供する。
しかし、そのような問題に必要な量子計算資源の包括的理解は今のところ不十分である。
本研究では,量子部分空間展開(QSE)アルゴリズムを用いて,1次元の量子電磁力学を記述したアーチティパルLGTであるシュウィンガーモデルの基底状態を計算する。
測定ノイズの影響を含む数値シミュレーションを行い、QSEアルゴリズムに必要なリソースを外挿し、システムサイズの範囲で所望の精度を達成する。
これを用いて、故障耐性フレームワーク内の量子化を用いた量子アルゴリズムを用いて、LGT真空状態の計算に必要なリソースの完全な分析を行う。
我々は,LGTハミルトニアンの「ユニタリの線形結合(LCU)」に基づく量子化を行う新しい手法を開発した。
対応するブロックエンコーディング操作のコストは$\tilde{\mathcal{O}}(N)$で、システムサイズは$N$である。
対応するプレファクタを含むQSEアルゴリズムでは,Schwingerモデルに適用した場合に$\tilde{\mathcal{O}}(N^2)$としてスケールする従来のLCU法と比較して,ゲートコストを桁違いに削減する。
資源分析によるクォービット・シングル回路Tゲートコストは早期耐故障性の実装にアピールするが, 提案手法の適用性の向上と今後の課題を議論するためには, QSE手順における数値不安定性を回避するために必要なショット数を大幅に削減する必要がある。
Computing vacuum states of lattice gauge theories (LGTs) containing fermionic degrees of freedom can present significant challenges for classical computation using Monte-Carlo methods. Quantum algorithms may offer a pathway towards more scalable computation of groundstate properties of LGTs. However, a comprehensive understanding of the quantum computational resources required for such a problem is thus far lacking. In this work, we investigate using the quantum subspace expansion (QSE) algorithm to compute the groundstate of the Schwinger model, an archetypal LGT describing quantum electrodynamics in one spatial dimension. We perform numerical simulations, including the effect of measurement noise, to extrapolate the resources required for the QSE algorithm to achieve a desired accuracy for a range of system sizes. Using this, we present a full analysis of the resources required to compute LGT vacuum states using a quantum algorithm using qubitization within a fault tolerant framework. We develop of a novel method for performing qubitization of a LGT Hamiltonian based on a 'linear combination of unitaries' (LCU) approach. The cost of the corresponding block encoding operation scales as $\tilde{\mathcal{O}}(N)$ with system size $N$. Including the corresponding prefactors, our method reduces the gate cost by multiple orders of magnitude when compared to previous LCU methods for the QSE algorithm, which scales as $\tilde{\mathcal{O}}(N^2)$ when applied to the Schwinger model. While the qubit and single circuit T-gate cost resulting from our resource analysis is appealing to early fault-tolerant implementation, we find that the number of shots required to avoid numerical instability within the QSE procedure must be significantly reduced in order to improve the feasibility of the methodology we consider and discuss how this might be achieved. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 分割量子部分空間拡大
Partitioned Quantum Subspace Expansion ( http://arxiv.org/abs/2403.08868v1 ) ライセンス: Link先を確認 | Tom O'Leary, Lewis W. Anderson, Dieter Jaksch, Martin Kiffner, | (参考訳) クリロフ基底を用いた量子部分空間展開アルゴリズムの反復的一般化を提案する。
反復構成は、その最低エネルギー状態を介して部分空間の列を接続する。
与えられたクリロフ部分空間におけるハミルトニアンの対角化は、単一のステップとシーケンシャルケースの両方で同じ量子資源を必要とする。
本稿では, 優れた反復列を決定するための分散に基づく基準を提案し, 有限サンプリングノイズの存在下での単一ステップでの数値安定性が向上したことを示す数値的証拠を提供する。
一般化を実装するには、部分空間次元の多項式オーバーヘッドを伴う古典的な処理を追加する必要がある。
追加測定のために量子回路深度を交換することにより、量子部分空間拡張アルゴリズムは、短期的または早期の誤り訂正量子ハードウェアに適したアプローチであるように見える。
我々の研究は、このアプローチの精度を制限する数値的不安定性は、現在の最先端を超えて実質的に緩和可能であることを示唆している。
We present an iterative generalisation of the quantum subspace expansion algorithm used with a Krylov basis. The iterative construction connects a sequence of subspaces via their lowest energy states. Diagonalising a Hamiltonian in a given Krylov subspace requires the same quantum resources in both the single step and sequential cases. We propose a variance-based criterion for determining a good iterative sequence and provide numerical evidence that these good sequences display improved numerical stability over a single step in the presence of finite sampling noise. Implementing the generalisation requires additional classical processing with a polynomial overhead in the subspace dimension. By exchanging quantum circuit depth for additional measurements the quantum subspace expansion algorithm appears to be an approach suited to near term or early error-corrected quantum hardware. Our work suggests that the numerical instability limiting the accuracy of this approach can be substantially alleviated beyond the current state of the art. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# ARtVista:誰でもアーティストに力を与えるゲートウェイ
ARtVista: Gateway To Empower Anyone Into Artist ( http://arxiv.org/abs/2403.08876v1 ) ライセンス: Link先を確認 | Trong-Vu Hoang, Quang-Binh Nguyen, Duy-Nam Ly, Khanh-Duy Le, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le, | (参考訳) 描画とは、人々が想像力や感情を表現できる芸術である。
しかしながら、個人は通常、特に概念概念を視覚的に一貫性のある表現に翻訳し、精神的可視化と実践的実行のギャップを埋める際に、描画において困難に直面している。
そこで我々は,ARと生成AI技術を統合した新しいシステムARtVistaを提案する。
ARtVistaは、ユーザの抽象的なアイデアに沿った参照イメージを推奨し、ユーザが描くスケッチを生成するだけでなく、さまざまな絵画スタイルで活気ある絵を制作する。
ARtVistaはまた、参照画像のペイント・バイ・ナンバーの概念をシミュレートし、高度な描画スキルを必要としない視覚的に見事なアートワークを作成することによって、印象的な絵画を作成するための代替手段を提供する。
パイロット実験を行い,ユーザアイデアの視覚化における有効性を強調し,高度な描画スキルを必要とせず,画法を向上する上での有効性を強調し,ユーザビリティに対する肯定的なフィードバックを明らかにする。
ソースコードはhttps://github.com/htrvu/ARtVista.comから入手できる。
Drawing is an art that enables people to express their imagination and emotions. However, individuals usually face challenges in drawing, especially when translating conceptual ideas into visually coherent representations and bridging the gap between mental visualization and practical execution. In response, we propose ARtVista - a novel system integrating AR and generative AI technologies. ARtVista not only recommends reference images aligned with users' abstract ideas and generates sketches for users to draw but also goes beyond, crafting vibrant paintings in various painting styles. ARtVista also offers users an alternative approach to create striking paintings by simulating the paint-by-number concept on reference images, empowering users to create visually stunning artwork devoid of the necessity for advanced drawing skills. We perform a pilot study and reveal positive feedback on its usability, emphasizing its effectiveness in visualizing user ideas and aiding the painting process to achieve stunning pictures without requiring advanced drawing skills. The source code will be available at https://github.com/htrvu/ARtVista. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 適応型分散強化学習を用いた多目的最適化
Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning ( http://arxiv.org/abs/2403.08879v1 ) ライセンス: Link先を確認 | Jing Tan, Ramin Khalili, Holger Karl, | (参考訳) インテリジェントトランスポーテーションシステム(ITS)環境は動的かつ分散していることが知られており、参加者(車両利用者、オペレーターなど)は複数の目的を達成し、変化し、おそらく矛盾する可能性がある。
Reinforcement Learning (RL)アルゴリズムはリソース管理やオフロードといったITSアプリケーションを最適化するために一般的に用いられるが、ほとんどのRLアルゴリズムは単一の目的にフォーカスする。
多くの場合、多目的問題を単一対象問題に変換することは不可能、難解、あるいは不十分であり、そのようなRLアルゴリズムを適用できない。
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
実験の結果,アルゴリズムは新しい環境に適応しやすく,最先端のベンチマークと比較すると,個々のメトリクスやシステムメトリクスの精度が向上していることがわかった。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
クラウドシミュレーションに加えて、シングルボードコンピュータ上でアルゴリズムをテストし、6ミリ秒で推論できることを示す。
The Intelligent Transportation System (ITS) environment is known to be dynamic and distributed, where participants (vehicle users, operators, etc.) have multiple, changing and possibly conflicting objectives. Although Reinforcement Learning (RL) algorithms are commonly applied to optimize ITS applications such as resource management and offloading, most RL algorithms focus on single objectives. In many situations, converting a multi-objective problem into a single-objective one is impossible, intractable or insufficient, making such RL algorithms inapplicable. We propose a multi-objective, multi-agent reinforcement learning (MARL) algorithm with high learning efficiency and low computational requirements, which automatically triggers adaptive few-shot learning in a dynamic, distributed and noisy environment with sparse and delayed reward. We test our algorithm in an ITS environment with edge cloud computing. Empirical results show that the algorithm is quick to adapt to new environments and performs better in all individual and system metrics compared to the state-of-the-art benchmark. Our algorithm also addresses various practical concerns with its modularized and asynchronous online training method. In addition to the cloud simulation, we test our algorithm on a single-board computer and show that it can make inference in 6 milliseconds. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# REFRESH: SHAP値でガイドされた責任と効率的な機能選択
REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values ( http://arxiv.org/abs/2403.08880v1 ) ライセンス: Link先を確認 | Shubham Sharma, Sanghamitra Dutta, Emanuele Albini, Freddy Lecue, Daniele Magazzeni, Manuela Veloso, | (参考訳) 機能選択は、機械学習モデルを構築するための重要なステップである。
このプロセスは、しばしば目的として正確さで達成され、大規模データセットでは煩雑で計算コストがかかる。
フェアネスやロバストネスといった追加のモデルパフォーマンス特性は、モデル開発において重要である。
規制により、より信頼できるモデルの必要性が高まっているため、デプロイされたモデルは、責任ある人工知能に関連するモデル特性に対して修正される必要がある。
特徴選択が1つのモデル性能特性(精度など)に対して行われる場合、目的として二次モデル性能特性(公正性やロバスト性など)を持つ特徴選択は、計算的に高価な選択プロセスをスクラッチから行う必要がある。
本稿では,特徴選択プロセスが一次目的に対して実行された後でも,二次モデルの性能特性に対して効率よく特徴を選択できるように特徴選択問題を提起する。
この問題に対処するため,機能を再選択するREFRESHを提案する。
REFRESHの基盤となるアルゴリズムは、SHAP値と相関解析を用いて、モデルをトレーニングすることなくモデルの予測を近似できる新しい手法である。
大規模なローンデフォルトデータセットを含む3つのデータセットに対する実証的な評価は、REFRESHがより優れたモデル特性を持つ代替モデルを見つけるのに有効であることを示している。
また,規制デシダータに基づく再選とREFRESHの必要性についても論じる。
Feature selection is a crucial step in building machine learning models. This process is often achieved with accuracy as an objective, and can be cumbersome and computationally expensive for large-scale datasets. Several additional model performance characteristics such as fairness and robustness are of importance for model development. As regulations are driving the need for more trustworthy models, deployed models need to be corrected for model characteristics associated with responsible artificial intelligence. When feature selection is done with respect to one model performance characteristic (eg. accuracy), feature selection with secondary model performance characteristics (eg. fairness and robustness) as objectives would require going through the computationally expensive selection process from scratch. In this paper, we introduce the problem of feature \emph{reselection}, so that features can be selected with respect to secondary model performance characteristics efficiently even after a feature selection process has been done with respect to a primary objective. To address this problem, we propose REFRESH, a method to reselect features so that additional constraints that are desirable towards model performance can be achieved without having to train several new models. REFRESH's underlying algorithm is a novel technique using SHAP values and correlation analysis that can approximate for the predictions of a model without having to train these models. Empirical evaluations on three datasets, including a large-scale loan defaulting dataset show that REFRESH can help find alternate models with better model characteristics efficiently. We also discuss the need for reselection and REFRESH based on regulation desiderata. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 大規模言語モデルにおける文化進化
Cultural evolution in populations of Large Language Models ( http://arxiv.org/abs/2403.08882v1 ) ライセンス: Link先を確認 | Jérémy Perez, Corentin Léger, Marcela Ovando-Tellez, Chris Foulon, Joan Dussauld, Pierre-Yves Oudeyer, Clément Moulin-Frier, | (参考訳) 文化進化の研究は、時間とともに文化の変化を因果的に説明することを目的としている。
過去数十年にわたり、この分野は実験的、歴史的、計算的な手法を用いて重要な知識の体系を生み出してきた。
計算モデルは、人口構造や伝達バイアスなど、いくつかの要因の影響に関する検証可能な仮説を生成することに成功しているが、いくつかの現象は、エージェントベースモデルとフォーマルモデルを用いて、より複雑である。
これは特に、進化した認知メカニズムによって引き起こされる社会情報の変容の影響についてである。
本稿では,Large Language Models (LLM) の能力を活用して人間の振る舞いを模倣する手法を提案する。
人文化力学の有用な近似法として、生成剤を特徴とするマルチエージェントモデルも、独自の目的で研究することが重要である。
実際、人工エージェントは文化の進化にますます参加しなければならないため、機械生成文化の進化のダイナミクスをより深く理解することが不可欠である。
本稿では, LLMの人口の文化的進化をシミュレーションする枠組みを提案し, ネットワーク構造, パーソナリティ, 社会的情報の集約・変容など, 文化的進化において重要な変数の操作を可能にする。
私たちがこれらのシミュレーションを実行するために開発したソフトウェアはオープンソースで、直感的なユーザーインターフェースを備えています。
Research in cultural evolution aims at providing causal explanations for the change of culture over time. Over the past decades, this field has generated an important body of knowledge, using experimental, historical, and computational methods. While computational models have been very successful at generating testable hypotheses about the effects of several factors, such as population structure or transmission biases, some phenomena have so far been more complex to capture using agent-based and formal models. This is in particular the case for the effect of the transformations of social information induced by evolved cognitive mechanisms. We here propose that leveraging the capacity of Large Language Models (LLMs) to mimic human behavior may be fruitful to address this gap. On top of being an useful approximation of human cultural dynamics, multi-agents models featuring generative agents are also important to study for their own sake. Indeed, as artificial agents are bound to participate more and more to the evolution of culture, it is crucial to better understand the dynamics of machine-generated cultural evolution. We here present a framework for simulating cultural evolution in populations of LLMs, allowing the manipulation of variables known to be important in cultural evolution, such as network structure, personality, and the way social information is aggregated and transformed. The software we developed for conducting these simulations is open-source and features an intuitive user-interface, which we hope will help to build bridges between the fields of cultural evolution and generative artificial intelligence. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# SLCF-Net: 連続LiDAR-Camera Fusion for Semantic Scene Completion using a 3D Recurrent U-Net
SLCF-Net: Sequential LiDAR-Camera Fusion for Semantic Scene Completion using a 3D Recurrent U-Net ( http://arxiv.org/abs/2403.08885v1 ) ライセンス: Link先を確認 | Helin Cao, Sven Behnke, | (参考訳) 本稿では,LiDARとカメラデータを逐次融合するセマンティックシーンコンプリート(SSC)タスクの新たなアプローチであるSLCF-Netを紹介する。
それは、RGB画像のシーケンスと疎LiDAR測定から、シーンの欠落した幾何学と意味を共同で推定する。
画像は、事前訓練された2D U-Netで意味的にセグメンテーションされ、ディープス・アニーシングが燃料とする深度条件のパイプラインから深度事前を推定する。
2次元画像特徴と3次元シーンボリュームを関連付けるため,ガウスデカイDepth-prior Projection(GDP)を紹介した。
このモジュールは2次元の特徴を視線に沿って3次元の体積に投影し、ガウスデカイ関数を前方の深さを中心に配置する。
ボリュームセマンティクスは3D U-Netによって計算される。
センサモーションを用いて隠れた3次元U-Net状態を伝搬し、時間的整合性を確保するために新しい損失を設計する。
我々はSemanticKITTIデータセットに対する我々のアプローチを評価し、主要なSSCアプローチと比較した。
SLCF-NetはすべてのSSCメトリクスを上回り、時間的一貫性を示す。
We introduce SLCF-Net, a novel approach for the Semantic Scene Completion (SSC) task that sequentially fuses LiDAR and camera data. It jointly estimates missing geometry and semantics in a scene from sequences of RGB images and sparse LiDAR measurements. The images are semantically segmented by a pre-trained 2D U-Net and a dense depth prior is estimated from a depth-conditioned pipeline fueled by Depth Anything. To associate the 2D image features with the 3D scene volume, we introduce Gaussian-decay Depth-prior Projection (GDP). This module projects the 2D features into the 3D volume along the line of sight with a Gaussian-decay function, centered around the depth prior. Volumetric semantics is computed by a 3D U-Net. We propagate the hidden 3D U-Net state using the sensor motion and design a novel loss to ensure temporal consistency. We evaluate our approach on the SemanticKITTI dataset and compare it with leading SSC approaches. The SLCF-Net excels in all SSC metrics and shows great temporal consistency. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# フェデレーションデータモデル
Federated Data Model ( http://arxiv.org/abs/2403.08887v1 ) ライセンス: Link先を確認 | Xiao Chen, Shunan Zhang, Eric Z. Chen, Yikang Liu, Lin Zhao, Terrence Chen, Shanhui Sun, | (参考訳) 人工知能(AI)、特にディープラーニングでは、データの多様性とボリュームがモデル開発において重要な役割を果たす。
しかし、堅牢なディープラーニングモデルのトレーニングは、データプライバシや規制、特に医療アプリケーションにおいて、異なる場所間でデータを共有することの難しさによって、しばしば課題に直面します。
そこで我々はFDM(Federated Data Model)と呼ばれる手法を開発した。
本手法は拡散モデルを用いて,ある地点でデータの特徴を学習し,実際のデータを共有せずに他の地点で使用可能な合成データを生成する。
本手法は, 異なる病院の心臓磁気共鳴画像に焦点をあてて, 医用画像セグメンテーションタスクを用いて検討した。
その結果,本手法でトレーニングしたモデルは,当初トレーニングしたデータと,他のサイトのデータの両方で良好に動作することがわかった。
このアプローチは、さまざまな場所で正確でプライバシーを尊重するAIモデルをトレーニングする、有望な方法を提供する。
In artificial intelligence (AI), especially deep learning, data diversity and volume play a pivotal role in model development. However, training a robust deep learning model often faces challenges due to data privacy, regulations, and the difficulty of sharing data between different locations, especially for medical applications. To address this, we developed a method called the Federated Data Model (FDM). This method uses diffusion models to learn the characteristics of data at one site and then creates synthetic data that can be used at another site without sharing the actual data. We tested this approach with a medical image segmentation task, focusing on cardiac magnetic resonance images from different hospitals. Our results show that models trained with this method perform well both on the data they were originally trained on and on data from other sites. This approach offers a promising way to train accurate and privacy-respecting AI models across different locations. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# um"から"yeah"へ:人間の会話における情報の流れの生成・予測・制御
From "um" to "yeah": Producing, predicting, and regulating information flow in human conversation ( http://arxiv.org/abs/2403.08890v1 ) ライセンス: Link先を確認 | Claire Augusta Bergey, Simon DeDeo, | (参考訳) 会話には注意が必要である。
話し手は言葉を思い起こさなければならないし、聞き手はそれらを理解しなければならない。
我々は、大規模な言語モデルを用いて、CANDORコーパスという英会話の大規模データセットでどのように機能するかを調査した。
我々は,非構造化会話の情報密度を約13ビット/秒で推定し,その情報の検索と提示の両方の認知負荷に関連する有意な影響を見出した。
バックチャネルのリードアップは情報レートの低下と関連し、下流のスピーチは以前のレートにリバウンドする。
以上の結果から,認知リソースの変動的要求に対する反応や,他者との連携による要求の交渉に関する長期的理論に関する新たな知見が得られた。
Conversation demands attention. Speakers must call words to mind, listeners must make sense of them, and both together must negotiate this flow of information, all in fractions of a second. We used large language models to study how this works in a large-scale dataset of English-language conversation, the CANDOR corpus. We provide a new estimate of the information density of unstructured conversation, of approximately 13 bits/second, and find significant effects associated with the cognitive load of both retrieving, and presenting, that information. We also reveal a role for backchannels -- the brief yeahs, uh-huhs, and mhmms that listeners provide -- in regulating the production of novelty: the lead-up to a backchannel is associated with declining information rate, while speech downstream rebounds to previous rates. Our results provide new insights into long-standing theories of how we respond to fluctuating demands on cognitive resources, and how we negotiate those demands in partnership with others. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 2+1$D~アベリアンゲージ理論における任意整数スピンの量子多体スカー
Quantum Many-Body Scars for Arbitrary Integer Spin in $2+1$D~Abelian Gauge Theories ( http://arxiv.org/abs/2403.08892v1 ) ライセンス: Link先を確認 | Thea Budde, Marina Krstić Marinković, Joao C. Pinto Barros, | (参考訳) 固有状態熱化仮説を回避する高エネルギー固有状態である量子多体スカーの存在は、スピン-1/2量子リンクモデルに対応するゲージ理論を含む様々な量子多体系にまたがって確立されている。
我々は、任意の大きさの整数スピンを持つ純ゲージ理論のスカーを2+1$Dで体系的に同定し、具体的には、電場はリンク当たりの2S+1$状態に制限されるTrncated Link Models について述べる。
明示的な解析的構成を通じて、任意の整数スピンに対する2+1$Dゲージ理論において、傷跡の存在が広く見られることを示す。
これらの結果は,小回転スピンと$S=1$量子リンクモデルに対して数値的に確認する。
提案した解析構造は,既存の数値解析手法で探究できる体積やスピンをはるかに超える傷跡の存在を確立するものである。
The existence of Quantum Many-Body Scars, high-energy eigenstates that evade the Eigenstate Thermalization Hypothesis, has been established across different quantum many-body systems, including gauge theories corresponding to spin-1/2 Quantum Link Models. We systematically identify scars for pure gauge theories with arbitrarily large integer spin $S$ in $2+1$D, concretely for Truncated Link Models, where the electric field is restricted to $2S+1$ states per link. Through an explicit analytic construction, we show that the presence of scars is widespread in $2+1$D gauge theories for arbitrary integer spin. We confirm these findings numerically for small truncated spin and $S=1$ Quantum Link Models. The proposed analytic construction establishes the presence of scars far beyond volumes and spins that can be probed with existing numerical methods. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# マルコフサンプリングによる分散TD($λ$)のワンショット平均化
One-Shot Averaging for Distributed TD($λ$) Under Markov Sampling ( http://arxiv.org/abs/2403.08896v1 ) ライセンス: Link先を確認 | Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky, | (参考訳) 我々は,各エージェントが同一のマルコフ決定プロセスのコピーを持っているが,各エージェントが対応するマルコフ連鎖から遷移を独立してサンプリングする,強化学習のための分散セットアップを考える。
この設定では、ターゲット精度が十分小さい場合、$N$エージェントがポリシーをN$倍高速に評価できるという意味で、ポリシー評価の一般的な方法のファミリーであるTD($\lambda$)の線形高速化が達成できることを示す。
このスピードアップは、エージェントがTD($\lambda$)を実行し、Markovが個別にサンプリングし、最終ステップ後にのみ結果を平均する手順である ``one shot averaging'' によって達成される。
これにより、以前の作業と比較して線形スピードアップを達成するのに必要な通信量が大幅に削減される。
We consider a distributed setup for reinforcement learning, where each agent has a copy of the same Markov Decision Process but transitions are sampled from the corresponding Markov chain independently by each agent. We show that in this setting, we can achieve a linear speedup for TD($\lambda$), a family of popular methods for policy evaluation, in the sense that $N$ agents can evaluate a policy $N$ times faster provided the target accuracy is small enough. Notably, this speedup is achieved by ``one shot averaging,'' a procedure where the agents run TD($\lambda$) with Markov sampling independently and only average their results after the final step. This significantly reduces the amount of communication required to achieve a linear speedup relative to previous work. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# 不確実性下におけるクレディブルニューラルネットワークサロゲートモデルの戦略的発見のための枠組み
A Framework for Strategic Discovery of Credible Neural Network Surrogate Models under Uncertainty ( http://arxiv.org/abs/2403.08901v1 ) ライセンス: Link先を確認 | Pratyush Kumar Singh, Kathryn A. Farrell-Maupin, Danial Faghihi, | (参考訳) 複雑な物理システムの高忠実度シミュレーションのためのデータ駆動サロゲートモデル開発におけるディープニューラルネットワークの広範な統合は、堅牢な不確実性定量化技術と信頼性評価手法にとって重要な必要性を強調し、連続的な意思決定におけるサロゲートモデルの信頼性を保証する。
本研究では,様々なニューラルネットワーククラスやアーキテクチャやハイパーパラメータの選択など,ポテンシャルモデルの空間内で予測型ニューラルネットワークに基づくサロゲートモデルを探索するための体系的枠組みを提供する。
このフレームワークは階層的ベイズ推定に基づいており、不確実性下での代理モデルの信頼性と予測信頼性を評価するためにモデル検証テストを採用している。
これらの原則を活用して、OPAL-サロゲートは、モデルの複雑さ、正確性、予測の不確実性の間のトレードオフのバランスをとるための、体系的で効率的な戦略を導入します。
ハイブリッドロケットモータにおける固体燃料のアブレーションのための断熱材および乱流燃焼流の多孔質材料の変形を含む2つのモデリング問題を通じて,OPALサロゲートの有効性を実証した。
The widespread integration of deep neural networks in developing data-driven surrogate models for high-fidelity simulations of complex physical systems highlights the critical necessity for robust uncertainty quantification techniques and credibility assessment methodologies, ensuring the reliable deployment of surrogate models in consequential decision-making. This study presents the Occam Plausibility Algorithm for surrogate models (OPAL-surrogate), providing a systematic framework to uncover predictive neural network-based surrogate models within the large space of potential models, including various neural network classes and choices of architecture and hyperparameters. The framework is grounded in hierarchical Bayesian inferences and employs model validation tests to evaluate the credibility and prediction reliability of the surrogate models under uncertainty. Leveraging these principles, OPAL-surrogate introduces a systematic and efficient strategy for balancing the trade-off between model complexity, accuracy, and prediction uncertainty. The effectiveness of OPAL-surrogate is demonstrated through two modeling problems, including the deformation of porous materials for building insulation and turbulent combustion flow for the ablation of solid fuels within hybrid rocket motors. | 翻訳日:2024-03-15 22:46:57 公開日:2024-03-13 |
# Envision3D:アンカービューを補間した3D画像
Envision3D: One Image to 3D with Anchor Views Interpolation ( http://arxiv.org/abs/2403.08902v1 ) ライセンス: Link先を確認 | Yatian Pang, Tanghui Jia, Yujun Shi, Zhenyu Tang, Junwu Zhang, Xinhua Cheng, Xing Zhou, Francis E. H. Tay, Li Yuan, | (参考訳) 本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
拡散モデルにより生成された多視点画像から3次元コンテンツを抽出する手法は大きな可能性を秘めている。
しかし,3次元コンテンツ抽出の品質に欠かせない濃密な多視点一貫した画像を拡散モデルで生成することは依然として困難である。
この問題に対処するために,難解な高密度ビュー生成タスクを,アンカービュー生成とアンカービュー補間という2段階に分解する新しいカスケード拡散フレームワークを提案する。
第1段階では、画像拡散モデルを訓練し、画像正規対を条件とした大域的一貫したアンカービューを生成する。
その後、連続した多視点画像に微調整した映像拡散モデルを用いて、以前のアンカービューに補間を行い、さらに高密度なビューを生成する。
このフレームワークは、密集した複数ビューの一貫性のある画像を生成し、包括的な3D情報を提供する。
全体の生成品質をさらに高めるため,得られた高密度画像からテクスチャメッシュを強固に抽出する再構成アルゴリズムの粗大なサンプリング戦略を導入する。
大規模な実験により,従来の画像から3次元のベースライン法を超越して,テクスチャや幾何学的に高品質な3Dコンテンツを生成できることが実証された。
We present Envision3D, a novel method for efficiently generating high-quality 3D content from a single image. Recent methods that extract 3D content from multi-view images generated by diffusion models show great potential. However, it is still challenging for diffusion models to generate dense multi-view consistent images, which is crucial for the quality of 3D content extraction. To address this issue, we propose a novel cascade diffusion framework, which decomposes the challenging dense views generation task into two tractable stages, namely anchor views generation and anchor views interpolation. In the first stage, we train the image diffusion model to generate global consistent anchor views conditioning on image-normal pairs. Subsequently, leveraging our video diffusion model fine-tuned on consecutive multi-view images, we conduct interpolation on the previous anchor views to generate extra dense views. This framework yields dense, multi-view consistent images, providing comprehensive 3D information. To further enhance the overall generation quality, we introduce a coarse-to-fine sampling strategy for the reconstruction algorithm to robustly extract textured meshes from the generated dense images. Extensive experiments demonstrate that our method is capable of generating high-quality 3D content in terms of texture and geometry, surpassing previous image-to-3D baseline methods. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 論争トピックのための検索増強ジェネレーションにおける幻覚と被覆誤差の検出
Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics ( http://arxiv.org/abs/2403.08904v1 ) ライセンス: Link先を確認 | Tyler A. Chang, Katrin Tomanek, Jessica Hoffmann, Nithum Thain, Erin van Liemt, Kathleen Meier-Hellstern, Lucas Dixon, | (参考訳) 我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)原則に基づくLLMベースのチャットボットにおいて,議論を呼んでいるトピックを扱うための戦略を探究する。
知識ベースから視点を抽出し,LLMが与えられた視点から流動的で忠実な応答を生成する。
出発点として、決定論的検索システムを使用し、本手法のテキスト生成時に発生する一般的なLCM障害モード、すなわち幻覚やカバレッジエラーに焦点を当てる。
本稿では,(1)単語オーバーラップ,(2)サリエンス,(3)LLMに基づく分類器に基づく3つの誤り検出手法を提案し,評価する。
以上の結果から,LLMを用いた分類器は, 合成誤りのみを訓練しても高い誤差検出性能を示し, ROC AUCスコアは95.3%, カバーエラー検出は90.5%であった。
トレーニングデータがない場合、他の方法でも幻覚(84.0%)とカバレッジエラー(85.2%)が検出できることを示す。
We explore a strategy to handle controversial topics in LLM-based chatbots based on Wikipedia's Neutral Point of View (NPOV) principle: acknowledge the absence of a single true answer and surface multiple perspectives. We frame this as retrieval augmented generation, where perspectives are retrieved from a knowledge base and the LLM is tasked with generating a fluent and faithful response from the given perspectives. As a starting point, we use a deterministic retrieval system and then focus on common LLM failure modes that arise during this approach to text generation, namely hallucination and coverage errors. We propose and evaluate three methods to detect such errors based on (1) word-overlap, (2) salience, and (3) LLM-based classifiers. Our results demonstrate that LLM-based classifiers, even when trained only on synthetic errors, achieve high error detection performance, with ROC AUC scores of 95.3% for hallucination and 90.5% for coverage error detection on unambiguous error cases. We show that when no training data is available, our other methods still yield good results on hallucination (84.0%) and coverage error (85.2%) detection. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# Q学習者に対する戦略化:制御理論的アプローチ
Strategizing against Q-learners: A Control-theoretical Approach ( http://arxiv.org/abs/2403.08906v1 ) ライセンス: Link先を確認 | Yuksel Arslantas, Ege Yuceel, Muhammed O. Sayin, | (参考訳) 本稿では,ゲームにおける高度な対戦相手の戦略的操作に対するQ-ラーニングアルゴリズム(古典的かつ広く用いられている強化学習法)の妥当性について検討する。
戦略的に洗練されたエージェントが、相手のQラーニングアルゴリズムを知っていれば、どれだけの戦略的なQラーナーを活用できるかを定量化する。
この目的のために、戦略アクターの問題をマルコフ決定過程(Q-ラーニングアルゴリズムが基礎となる力学系であるかのように、全てのQ-値を含む連続状態空間を含む)として定式化する。
また、連続状態空間への量子化に基づく近似手法を提案し、解析的および数値的にその性能を解析する。
In this paper, we explore the susceptibility of the Q-learning algorithm (a classical and widely used reinforcement learning method) to strategic manipulation of sophisticated opponents in games. We quantify how much a strategically sophisticated agent can exploit a naive Q-learner if she knows the opponent's Q-learning algorithm. To this end, we formulate the strategic actor's problem as a Markov decision process (with a continuum state space encompassing all possible Q-values) as if the Q-learning algorithm is the underlying dynamical system. We also present a quantization-based approximation scheme to tackle the continuum state space and analyze its performance both analytically and numerically. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 深層強化学習を用いた並列計画支援のためのメタオペレータ
Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning ( http://arxiv.org/abs/2403.08910v1 ) ライセンス: Link先を確認 | Ángel Aso-Mollar, Eva Onaindia, | (参考訳) 一般的なポリシーの策定を目的としたAI計画への強化学習(RL)技術の適用に対する関心が高まっている。
典型的には、AI計画の遷移モデルのマルコフ決定過程の状態遷移系へのマッピングは、各アクション空間の1対1対応を仮定することによって確立される。
本稿では、複数の計画演算子を同時に適用した結果、メタ演算子の概念を導入し、RLアクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点をRLで実現可能であることを示す。
本研究の目的は,RLプロセスにメタ演算子を組み込む場合の性能と複雑さ,具体的には,通常の一般化計画モデルを用いて,満足な結果が得られていない領域において,その性能と複雑さを解析することである。
本稿の主な目的は、RLアクション空間の再定義への道を開くことであり、プランニングの観点からより密に整合している。
There is a growing interest in the application of Reinforcement Learning (RL) techniques to AI planning with the aim to come up with general policies. Typically, the mapping of the transition model of AI planning to the state transition system of a Markov Decision Process is established by assuming a one-to-one correspondence of the respective action spaces. In this paper, we introduce the concept of meta-operator as the result of simultaneously applying multiple planning operators, and we show that including meta-operators in the RL action space enables new planning perspectives to be addressed using RL, such as parallel planning. Our research aims to analyze the performance and complexity of including meta-operators in the RL process, concretely in domains where satisfactory outcomes have not been previously achieved using usual generalized planning models. The main objective of this article is thus to pave the way towards a redefinition of the RL action space in a manner that is more closely aligned with the planning perspective. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 時空拡散に関する最近の実験上界
Current experimental upper bounds on spacetime diffusion ( http://arxiv.org/abs/2403.08912v1 ) ライセンス: Link先を確認 | Martijn Janse, Dennis G. Uitenbroek, Loek van Everdingen, Jaimy Plugge, Bas Hensen, Tjerk H. Oosterkamp, | (参考訳) 古典的な時空で相互作用する量子系の力学を記述する一貫した理論が、最近オッペンハイムらによって提唱された。
1, 2]
量子状態は、時空拡散パラメータによって特徴づけられる時空計量のある程度の確率性を犠牲にして、そのコヒーレンスを維持することができる。
本稿では, 単一原子から数キログラムまでの幅広い実験質量に対して, 非常に低力音を伴ういくつかの実験のレビューに基づいて, 時空拡散に関する実験上界について報告する。
我々は、オッペンハイムらによって提示された明示的モデルの初期境界と比べて、少なくとも15桁の上限が小さいことを見出した。
A consistent theory describing the dynamics of quantum systems interacting on a classical space-time was recently put forward by Oppenheim et al..[1, 2]. Quantum states may retain their coherence, at the cost of some amount of stochasticity of the spacetime metric, characterized by a spacetime diffusion parameter. Here, we report existing experimental upper bounds on such space-time diffusion, based on a review of several types of experiments with very low force noise over a broad range of test masses from single atoms to several kilograms. We find an upper bound at least 15 orders of magnitude lower as compared to the initial bounds for explicit models presented by Oppenheimn et al. The results presented here provide a path forward for future experiments that can help evaluate classical-quantum theories | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 好ましくない自然崩壊による大面積マルチラマンパルス原子干渉計の誤差解析
Error analysis in large area multi-Raman pulse atom interferometry due to undesired spontaneous decay ( http://arxiv.org/abs/2403.08913v1 ) ライセンス: Link先を確認 | Philip Chrostoski, Scott Bisson, David Farley, Frank Narducci, Daniel Soh, | (参考訳) 原子干渉計が量子センシングの応用に成功しているにもかかわらず、大きな話題はこれらの装置の感度をさらに向上させることである。
特に、干渉計(感度を制御する)で囲まれた領域は、原子雲により大きな運動量キックを与え、運動量軸の幅を増大させることで増大させることができる。
そのような原子光学技術の一つは、中央の$\pi-$Ramanパルスの数を増やすことである。
この技術は、必要以上の運動量を増加させる一方で、原子は長期間の間中間の高エネルギー状態に留まる。
この追加の時間の長さは、大きな光デチューニングによって可能となる高エネルギー状態の断熱的除去により、多くの処理で無視されることが多い。
中間高エネルギー状態における時間の増加により、望ましくない自然崩壊の確率が高くなり、量子情報が失われ、原子干渉計に誤差が加えられる。
本研究では、リンドブラッド・マスター方程式を用いて、中間高エネルギー状態から望ましくない自然崩壊を含む原子状態ダイナミクスのモデルを考える。
加速度測定のために設定された原子干渉計の限界を解析するために、誤差の数値を定式化する。
我々の理論的結果は、誤りの数値は$N_{R}^{-2}$のスケーリング係数によって支配されるが、高い数の$\pi-$Ramanのパルスに対してモノトニックなエラーの増加によって支配されることを示している。
我々は,最大運動量移動を最小誤差で達成する$\pi$-Ramanパルスの数をシステムパラメータによって決定した。
Despite the fact that atom interferometry has been a successful application of quantum sensing, a major topic of interest is the further improvement of the sensitivity of these devices. In particular, the area enclosed by the interferometer (which controls the sensitivity) can be increased by providing a larger momentum kick to the atom cloud, increasing the extent of the momentum axis. One such atom optics technique involves increasing the number of central $\pi-$Raman pulses. This technique, while providing the prerequisite additional momentum boost, also causes the atom to remain in the intermediate high energy state for longer periods of time. This additional length of time is often neglected in many treatments due to the adiabatic elimination of the higher energy state enabled by the large optical detuning. The increased time in the intermediate high energy state results in a higher probability of undesired spontaneous decay and a loss of quantum information, thereby adding error to the atom interferometer. In this work, we consider an open quantum system using the Lindblad master equation to devise a model for the atomic state dynamics that includes the undesired spontaneous decay from the intermediate high energy state. We formulate an error figure of merit to analyze limitations of an atom interferometer configured for acceleration measurements. Our theoretical results show the error figure of merit will be dominated by a $N_{R}^{-2}$ scaling factor for low numbers of $\pi-$Raman pulses, but will be dominated by a monotonic increase in error for high number of $\pi-$Raman pulses. We determined the number of $\pi$-Raman pulses that accomplishes maximal momentum transfer with a the minimal error, depending on major system parameters. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# アムステルダムにおける住宅品質のクロスモーダル学習
Cross-Modal Learning of Housing Quality in Amsterdam ( http://arxiv.org/abs/2403.08915v1 ) ライセンス: Link先を確認 | Alex Levering, Diego Marcos, Devis Tuia, | (参考訳) 本研究では,アムステルダム市における住宅の質の認識のためのデータとモデルについて,地上画像と空中画像から検証した。
地上レベルの画像については、Google StreetView(GSV)とFlickrイメージを比較します。
以上の結果から,GSVは空中画像のみを用いた場合よりも約30%高い精度で構築品質を予測できることがわかった。
しかし、慎重にフィルタリングし、適切な事前訓練モデルを使用することで、Flickrの画像機能と空中画像機能を組み合わせることで、GSV機能のパフォーマンスギャップを30%から15%に半減できることがわかった。
以上の結果から,GSV画像の取得が困難であり,必ずしも利用できないため,生存率予測に有効な代替手段があることが示唆された。
In our research we test data and models for the recognition of housing quality in the city of Amsterdam from ground-level and aerial imagery. For ground-level images we compare Google StreetView (GSV) to Flickr images. Our results show that GSV predicts the most accurate building quality scores, approximately 30% better than using only aerial images. However, we find that through careful filtering and by using the right pre-trained model, Flickr image features combined with aerial image features are able to halve the performance gap to GSV features from 30% to 15%. Our results indicate that there are viable alternatives to GSV for liveability factor prediction, which is encouraging as GSV images are more difficult to acquire and not always available. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# プライベートデータセットとの類似性を効率的に計算する
Efficiently Computing Similarities to Private Datasets ( http://arxiv.org/abs/2403.08917v1 ) ライセンス: Link先を確認 | Arturs Backurs, Zinan Lin, Sepideh Mahabadi, Sandeep Silwal, Jakub Tarnawski, | (参考訳) 微分プライベートモデルトレーニングの多くの方法は、クエリポイント(公開データや合成データなど)とプライベートデータとの類似性を計算することに依存している。
類似関数$f$と大きな高次元プライベートデータセット$X \subset \mathbb{R}^d$を与えられた場合、任意のクエリ$y$に対して$\sum_{x \in X} f(x,y)$を近似した差分プライベート(DP)データ構造を出力する。
f$ が核関数である場合、例えば $f(x,y) = e^{-\|x-y\|_2^2/\sigma^2}$ や $f(x,y) = \|x-y\|_2$ などの距離関数を考える。
我々の理論的結果は、事前の作業を改善し、より優れたプライバシユーティリティトレードオフを提供するとともに、幅広いカーネルと距離関数に対するより高速なクエリ時間を提供する。
結果の背景にある統一的なアプローチは、証明可能な次元削減、近似理論、関数の1次元分解といったツールを用いて、特定の関数$f$に存在する「低次元構造」を活用することである。
提案アルゴリズムは,先行技術よりもクエリ時間と精度が向上したことを示す。
また,DP分類への応用について述べる。
実験により, 平均的類似度に基づく単純な分類法は, DP-SGDに基づく従来手法よりも桁違いに高速であることが示された。
Many methods in differentially private model training rely on computing the similarity between a query point (such as public or synthetic data) and private data. We abstract out this common subroutine and study the following fundamental algorithmic problem: Given a similarity function $f$ and a large high-dimensional private dataset $X \subset \mathbb{R}^d$, output a differentially private (DP) data structure which approximates $\sum_{x \in X} f(x,y)$ for any query $y$. We consider the cases where $f$ is a kernel function, such as $f(x,y) = e^{-\|x-y\|_2^2/\sigma^2}$ (also known as DP kernel density estimation), or a distance function such as $f(x,y) = \|x-y\|_2$, among others. Our theoretical results improve upon prior work and give better privacy-utility trade-offs as well as faster query times for a wide range of kernels and distance functions. The unifying approach behind our results is leveraging `low-dimensional structures' present in the specific functions $f$ that we study, using tools such as provable dimensionality reduction, approximation theory, and one-dimensional decomposition of the functions. Our algorithms empirically exhibit improved query times and accuracy over prior state of the art. We also present an application to DP classification. Our experiments demonstrate that the simple methodology of classifying based on average similarity is orders of magnitude faster than prior DP-SGD based approaches for comparable accuracy. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# CLIP-BEVFormer:地中真実流による多視点画像ベースBEV検出器の強化
CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow ( http://arxiv.org/abs/2403.08919v1 ) ライセンス: Link先を確認 | Chenbin Pan, Burhaneddin Yaman, Senem Velipasalar, Liu Ren, | (参考訳) 自動運転はコンピュータビジョンにおける重要な領域であり、交通の未来を形作っている。
このパラダイムの中で、システムのバックボーンは複雑な環境を理解する上で重要な役割を果たす。
しかし、バードのアイビュー要素に関しては、明確な監督の欠如が顕著な課題となっている。
この制限に対処するために、コントラスト学習技術の力を活用して、地上の真実情報の流れを持つ多視点画像由来のBEVバックボーンを強化する新しいアプローチであるCLIP-BEVFormerを導入する。
我々は、挑戦的なnuScenesデータセットに関する広範な実験を行い、SOTAに対して顕著で一貫した改善を示す。
特に、CLIP-BEVFormerは、3Dオブジェクト検出タスクにおける以前の最高のBEVモデルよりも、NDSとmAPでそれぞれ8.5\%と9.2\%の強化を実現している。
Autonomous driving stands as a pivotal domain in computer vision, shaping the future of transportation. Within this paradigm, the backbone of the system plays a crucial role in interpreting the complex environment. However, a notable challenge has been the loss of clear supervision when it comes to Bird's Eye View elements. To address this limitation, we introduce CLIP-BEVFormer, a novel approach that leverages the power of contrastive learning techniques to enhance the multi-view image-derived BEV backbones with ground truth information flow. We conduct extensive experiments on the challenging nuScenes dataset and showcase significant and consistent improvements over the SOTA. Specifically, CLIP-BEVFormer achieves an impressive 8.5\% and 9.2\% enhancement in terms of NDS and mAP, respectively, over the previous best BEV model on the 3D object detection task. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 明示的コンピュテータスケーリングによる多積ハミルトンシミュレーション
Multi-product Hamiltonian simulation with explicit commutator scaling ( http://arxiv.org/abs/2403.08922v1 ) ライセンス: Link先を確認 | Junaid Aftab, Dong An, Konstantina Trivisa, | (参考訳) The well-conditioned multi-product formula (MPF) proposed by [Low, Kliuchnikov, and Wiebe, 2019], is a simple high-order time-independent Hamiltonian simulation algorithm that implements a linear combination of standard product formulas of low order。
MPFはハミルトニアン間の通勤者スケーリングを同時に活用し、ほぼ最適時間と精度依存性を達成することを目的としているが、ネストされた通勤者に縛られた厳密な誤差が欠如していることは、その実用上の利点を曖昧にしている。
本研究では,十分に条件の整ったMPFの厳密な複雑性解析を行い,明快なコンピュテータスケーリングとほぼ最適時間と精度依存性を同時に示す。
改良された複雑性解析を用いて, 2階積公式に基づくMPFは, 2階積公式や高階積公式と比較して, システムサイズと進化時間の両方で多項式スピードアップを達成でき, 精度の指数的スピードアップを達成できる, 実用上の関心事をいくつか提示する。
ポスト・トロッター法と比較して、二階積公式に基づくMPFは、進化時間と精度において多対数オーバーヘッドのみを伴って、システムサイズにおける多項式的に優れたスケーリングを実現することができる。
The well-conditioned multi-product formula (MPF), proposed by [Low, Kliuchnikov, and Wiebe, 2019], is a simple high-order time-independent Hamiltonian simulation algorithm that implements a linear combination of standard product formulas of low order. While the MPF aims to simultaneously exploit commutator scaling among Hamiltonians and achieve near-optimal time and precision dependence, its lack of a rigorous error bound on the nested commutators renders its practical advantage ambiguous. In this work, we conduct a rigorous complexity analysis of the well-conditioned MPF, demonstrating explicit commutator scaling and near-optimal time and precision dependence at the same time. Using our improved complexity analysis, we present several applications of practical interest where the MPF based on a second-order product formula can achieve a polynomial speedup in both system size and evolution time, as well as an exponential speedup in precision, compared to second-order and even higher-order product formulas. Compared to post-Trotter methods, the MPF based on a second-order product formula can achieve polynomially better scaling in system size, with only poly-logarithmic overhead in evolution time and precision. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# ループアンローリング(テストカバレッジ)形式定義
Loop unrolling (for test coverage): formal definition ( http://arxiv.org/abs/2403.08923v1 ) ライセンス: Link先を確認 | Bertrand Meyer, | (参考訳) 分岐カバレッジのような様々なテストカバレッジを実現するテクニックは、一般的にループを反復しない。
著者と共同研究者による既存の作業は、完全なブランチカバレッジを保証するテストスイートを生成する。
より最近の研究によると、ループをアンロールすることで、アプローチははるかに多くのバグを見つけることができる。
この議論は、このアンロールの概念の理論的基礎と正確な定義を提供する。
Techniques to achieve various forms of test coverage, such as branch coverage, typically do not iterate loops; in other words, they treat a loop as a conditional, executed zero or one time. Existing work by the author and collaborators produces test suites guaranteeing full branch coverage. More recent work has shown that by unrolling loops the approach can find significantly more bugs. The present discussion provides the theoretical basis and precise definition for this concept of unrolling. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 真理を解明する:フェイク画像における人間の視線パターンの探索
Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images ( http://arxiv.org/abs/2403.08933v1 ) ライセンス: Link先を確認 | Giuseppe Cartella, Vittorio Cuculo, Marcella Cornia, Rita Cucchiara, | (参考訳) 高品質でリアルな画像を作ることは、画像生成の目覚ましい進歩のおかげで可能になった。
所望のアウトプットを自然言語で記述することは、呼吸結果を得るのに必要なのはそれだけです。
しかし、生成モデルの利用が増加するにつれて、悪意のあるコンテンツの伝播や誤情報に対する懸念が高まる。
その結果、研究コミュニティは、画像生成プロセス中に生成モデルが残した低レベルの特徴と可能性のある指紋に焦点を当てた、新しい偽検出技術の開発に積極的に取り組んでいる。
我々の研究では、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
これを実現するために,拡散モデルを用いて部分的に操作された画像の新たなデータセットを収集し,実・偽の刺激を視ながら観察者の眼球運動を記録する眼球追跡実験を行った。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
統計的には、人間が偽造サンプルを知覚する場合、本物の画像を見る際に観察されるより分散した観察パターンとは対照的に、画像のより限られた領域に集中する傾向にある。
私たちのデータセットは、https://github.com/aimagelab/unveiling-the-ruth.comで公開されています。
Creating high-quality and realistic images is now possible thanks to the impressive advancements in image generation. A description in natural language of your desired output is all you need to obtain breathtaking results. However, as the use of generative models grows, so do concerns about the propagation of malicious content and misinformation. Consequently, the research community is actively working on the development of novel fake detection techniques, primarily focusing on low-level features and possible fingerprints left by generative models during the image generation process. In a different vein, in our work, we leverage human semantic knowledge to investigate the possibility of being included in frameworks of fake image detection. To achieve this, we collect a novel dataset of partially manipulated images using diffusion models and conduct an eye-tracking experiment to record the eye movements of different observers while viewing real and fake stimuli. A preliminary statistical analysis is conducted to explore the distinctive patterns in how humans perceive genuine and altered images. Statistical findings reveal that, when perceiving counterfeit samples, humans tend to focus on more confined regions of the image, in contrast to the more dispersed observational pattern observed when viewing genuine images. Our dataset is publicly available at: https://github.com/aimagelab/unveiling-the-truth. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 共同デモを超えて: 効果的なマルチエージェント強化学習のための個人化エキスパートガイダンス
Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.08936v1 ) ライセンス: Link先を確認 | Peihong Yu, Manav Mishra, Alec Koppel, Carl Busart, Priya Narayan, Dinesh Manocha, Amrit Bedi, Pratap Tokekar, | (参考訳) MARL(Multi-Agent Reinforcement Learning)アルゴリズムは、共同状態空間のサイズが指数関数的に増加するため、効率的な探索の課題に直面している。
実演誘導学習はシングルエージェント環境では有益であることが証明されているが、MARLへの直接的な適用性は、共同専門家による実演を得ることの困難さによって妨げられている。
そこで本研究では,各エージェントを個別に,あるいはより広義に,異種チーム内の各エージェントを個別にカスタマイズした,個人化された専門家によるデモンストレーションという新しい概念を紹介した。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まずに、どのように個人的目標を達成するかにのみ関係している。
そこで本研究では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力すること、すなわちパーソナライズされた専門家誘導型MARL(PegMARL)を学習できるようにするアプローチを提案する。
このアルゴリズムは2つの差別要因を利用する: 第一は、政策行動と実証との整合に基づくインセンティブを提供し、第二は、その行動が望ましい目的に導くかどうかに基づいてインセンティブを規制する。
個別環境と連続環境の両方においてパーソナライズされたデモを用いてPegMARLを評価した。
その結果,PegMARLは準最適でも準最適ポリシを学習し,コーディネートされたタスクの解法において最先端のMARLアルゴリズムより優れていることがわかった。
また、StarCraftシナリオにおける共同デモンストレーションを活用するPegMARLの機能を示し、非協調的なポリシーのデモでも効果的に収束する。
Multi-Agent Reinforcement Learning (MARL) algorithms face the challenge of efficient exploration due to the exponential increase in the size of the joint state-action space. While demonstration-guided learning has proven beneficial in single-agent settings, its direct applicability to MARL is hindered by the practical difficulty of obtaining joint expert demonstrations. In this work, we introduce a novel concept of personalized expert demonstrations, tailored for each individual agent or, more broadly, each individual type of agent within a heterogeneous team. These demonstrations solely pertain to single-agent behaviors and how each agent can achieve personal goals without encompassing any cooperative elements, thus naively imitating them will not achieve cooperation due to potential conflicts. To this end, we propose an approach that selectively utilizes personalized expert demonstrations as guidance and allows agents to learn to cooperate, namely personalized expert-guided MARL (PegMARL). This algorithm utilizes two discriminators: the first provides incentives based on the alignment of policy behavior with demonstrations, and the second regulates incentives based on whether the behavior leads to the desired objective. We evaluate PegMARL using personalized demonstrations in both discrete and continuous environments. The results demonstrate that PegMARL learns near-optimal policies even when provided with suboptimal demonstrations, and outperforms state-of-the-art MARL algorithms in solving coordinated tasks. We also showcase PegMARL's capability to leverage joint demonstrations in the StarCraft scenario and converge effectively even with demonstrations from non-co-trained policies. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# 大規模言語モデルのバグ生成コード
Bugs in Large Language Models Generated Code ( http://arxiv.org/abs/2403.08937v1 ) ライセンス: Link先を確認 | Florian Tambon, Arghavan Moradi Dakhel, Amin Nikanjam, Foutse Khomh, Michel C. Desmarais, Giuliano Antoniol, | (参考訳) コード用の大規模言語モデル(LLM)が最近注目を集めている。
彼らは提供されたプロンプトに基づいて異なるプログラミング言語でコードを生成することができ、ソフトウェア工学(SE)における長年の夢、すなわち自動コード生成を実現する。
人間によるコードと同様、LLM生成コードはバグを起こしやすいため、これらのバグはまだコミュニティによって徹底的に調査されていない。
LLMベースのコード生成ツール(GitHub Copilotなど)をSEアクティビティに採用することを考えると、LLMが生成するコードに含まれるバグの特徴を理解することが重要である。
本稿では,3つの主要なLCM(CodeGen,PanGu-Coder,Codex)を用いて生成されたコードから収集された333のバグのサンプルを分析し,解釈,構文エラー,シリーミス,プロンプトバイアスドコード,ミス・コーナー・ケース,ロング入力型,ハロシントオブジェクト,ロング属性,不完全生成,非プロンプト・リフレクションの10種類のバグパターンを同定する。
バグパターンは分類の形で示されます。
特定されたバグパターンは、34人のLSM実践者と研究者によるオンライン調査によって検証される。
調査参加者は一般的に、バグパターンの重要性と頻度を主張した。
研究者や実践者はこれらの知見を利用して、LLM生成コードの効果的な品質保証技術を開発することができる。
本研究は, LLM生成符号の特徴について光を当てる。
Large Language Models (LLMs) for code have gained significant attention recently. They can generate code in different programming languages based on provided prompts, fulfilling a long-lasting dream in Software Engineering (SE), i.e., automatic code generation. Similar to human-written code, LLM-generated code is prone to bugs, and these bugs have not yet been thoroughly examined by the community. Given the increasing adoption of LLM-based code generation tools (e.g., GitHub Copilot) in SE activities, it is critical to understand the characteristics of bugs contained in code generated by LLMs. This paper examines a sample of 333 bugs collected from code generated using three leading LLMs (i.e., CodeGen, PanGu-Coder, and Codex) and identifies the following 10 distinctive bug patterns: Misinterpretations, Syntax Error, Silly Mistake, Prompt-biased code, Missing Corner Case, Wrong Input Type, Hallucinated Object, Wrong Attribute, Incomplete Generation, and Non-Prompted Consideration. The bug patterns are presented in the form of a taxonomy. The identified bug patterns are validated using an online survey with 34 LLM practitioners and researchers. The surveyed participants generally asserted the significance and prevalence of the bug patterns. Researchers and practitioners can leverage these findings to develop effective quality assurance techniques for LLM-generated code. This study sheds light on the distinctive characteristics of LLM-generated code. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# カーネルリッジ回帰の非漸近理論:決定論的等価性、テストエラー、GCV推定器
A non-asymptotic theory of Kernel Ridge Regression: deterministic equivalents, test error, and GCV estimator ( http://arxiv.org/abs/2403.08938v1 ) ライセンス: Link先を確認 | Theodor Misiakiewicz, Basil Saeed, | (参考訳) データ $(u_i,y_i)$, $i\leq n$, ここで$u_i \in U$は共変ベクトルであり、$y_i = f_* (u_i) +\varepsilon_i \in \mathbb{R}$である。
最近の一連の研究により、KRRの試験誤差は、カーネル作用素のスペクトルにのみ依存する「等価」配列モデルから導かれる閉形式推定によってうまく近似できることが実証的に示されている。
しかし、この同値性の理論的な正当化は、現在までに、非ガウス独立固有函数のような制限的な仮定、あるいは高次元の特定の核に対する漸近的導出に依拠している。
本稿では、この同値性が、カーネル固有分解におけるスペクトルおよび濃度特性を満たす問題の一般的なクラスに成り立つことを証明する。
具体的には、この設定において、KRRのテスト誤差(明示的な非漸近境界を持つ)に対する非漸近決定論的近似を確立し、これは、カーネルの固有ベクトルに対する固有値とターゲット関数のアライメントにのみ依存する。
我々の証明は、Cheng と Montanari (2022) の先駆的な次元自由状態におけるランダム行列函数に対する決定論的同値の慎重な導出に依存している。
この設定をいくつかの古典的な例に適用し、理論的予測と数値シミュレーションの間に優れた一致を示す。
これらの結果は、カーネルオペレータの固有分解へのアクセスに依存する。
あるいは、この同じ条件下では、一般クロスバリデーション(GCV)推定器はゼロを含むリッジ正規化パラメータ(補間解)の範囲に一様に集中していることを証明する。
その結果、GCV推定器はテスト誤差とKRRの最適正規化パラメータから推定することができる。
We consider learning an unknown target function $f_*$ using kernel ridge regression (KRR) given i.i.d. data $(u_i,y_i)$, $i\leq n$, where $u_i \in U$ is a covariate vector and $y_i = f_* (u_i) +\varepsilon_i \in \mathbb{R}$. A recent string of work has empirically shown that the test error of KRR can be well approximated by a closed-form estimate derived from an `equivalent' sequence model that only depends on the spectrum of the kernel operator. However, a theoretical justification for this equivalence has so far relied either on restrictive assumptions -- such as subgaussian independent eigenfunctions -- , or asymptotic derivations for specific kernels in high dimensions. In this paper, we prove that this equivalence holds for a general class of problems satisfying some spectral and concentration properties on the kernel eigendecomposition. Specifically, we establish in this setting a non-asymptotic deterministic approximation for the test error of KRR -- with explicit non-asymptotic bounds -- that only depends on the eigenvalues and the target function alignment to the eigenvectors of the kernel. Our proofs rely on a careful derivation of deterministic equivalents for random matrix functionals in the dimension free regime pioneered by Cheng and Montanari (2022). We apply this setting to several classical examples and show an excellent agreement between theoretical predictions and numerical simulations. These results rely on having access to the eigendecomposition of the kernel operator. Alternatively, we prove that, under this same setting, the generalized cross-validation (GCV) estimator concentrates on the test error uniformly over a range of ridge regularization parameter that includes zero (the interpolating solution). As a consequence, the GCV estimator can be used to estimate from data the test error and optimal regularization parameter for KRR. | 翻訳日:2024-03-15 22:37:06 公開日:2024-03-13 |
# FogGuard: 知覚的喪失を使用して、YOLOを霧から守る
FogGuard: guarding YOLO against fog using perceptual loss ( http://arxiv.org/abs/2403.08939v1 ) ライセンス: Link先を確認 | Soheil Gharatappeh, Sepideh Neshatfar, Salimeh Yasaei Sekeh, Vikas Dhiman, | (参考訳) 本稿では,霧の気象条件に起因した課題に対処するために,フォグガードと呼ばれる新しい霧を意識した物体検出ネットワークを提案する。
自律運転システムは正確な物体検出アルゴリズムに大きく依存しているが、悪天候条件はディープニューラルネットワーク(DNN)の信頼性に大きな影響を及ぼす可能性がある。
既存のアプローチは2つの主要なカテゴリに分類される。
1)IA-YOLO等の画像強調
2)ドメイン適応に基づくアプローチ。
画像強調に基づく手法は、霧のない画像を生成する。
しかし、霧画像から霧のない画像を取得することは、霧画像中の物体を検出するよりもはるかに難しい問題である。
一方、ドメイン適応ベースのアプローチでは、ターゲットドメイン内のラベル付きデータセットを使用しない。
どちらのカテゴリのアプローチも、問題のより難しいバージョンを解決しようとしている。
我々のフレームワークは、シーンに存在する霧の条件を補償し、堅牢なパフォーマンスを確保するように設計されています。
我々は, YOLOv3をベースラインオブジェクト検出アルゴリズムとして採用し, 霧画像の高精度物体検出に新しい教師-学生知覚損失を導入している。
PASCAL VOCやRTTSといった共通データセットの広範な評価を通じて,ネットワークの性能向上を実証する。
RTTSデータセットの YOLOv3 では 57.78 % に対して,FogGuard が 69.43 % mAP を達成した。
さらに, トレーニング手法は時間的複雑さを増大させるが, 通常のYOLOネットワークと比較して, 推論時のオーバーヘッドは増加しないことを示す。
In this paper, we present a novel fog-aware object detection network called FogGuard, designed to address the challenges posed by foggy weather conditions. Autonomous driving systems heavily rely on accurate object detection algorithms, but adverse weather conditions can significantly impact the reliability of deep neural networks (DNNs). Existing approaches fall into two main categories, 1) image enhancement such as IA-YOLO 2) domain adaptation based approaches. Image enhancement based techniques attempt to generate fog-free image. However, retrieving a fogless image from a foggy image is a much harder problem than detecting objects in a foggy image. Domain-adaptation based approaches, on the other hand, do not make use of labelled datasets in the target domain. Both categories of approaches are attempting to solve a harder version of the problem. Our approach builds over fine-tuning on the Our framework is specifically designed to compensate for foggy conditions present in the scene, ensuring robust performance even. We adopt YOLOv3 as the baseline object detection algorithm and introduce a novel Teacher-Student Perceptual loss, to high accuracy object detection in foggy images. Through extensive evaluations on common datasets such as PASCAL VOC and RTTS, we demonstrate the improvement in performance achieved by our network. We demonstrate that FogGuard achieves 69.43\% mAP, as compared to 57.78\% for YOLOv3 on the RTTS dataset. Furthermore, we show that while our training method increases time complexity, it does not introduce any additional overhead during inference compared to the regular YOLO network. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 高速かつ高精度な変分オートエンコーダのためのモデル非依存的後部近似に向けて
Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders ( http://arxiv.org/abs/2403.08941v1 ) ライセンス: Link先を確認 | Yaniv Yacoby, Weiwei Pan, Finale Doshi-Velez, | (参考訳) 変分オートエンコーダ(VAE)の推論は,(1)潜時空間上の単純な分布を観測データ上の分布に変換する生成モデル,(2)潜時符号の後部を近似する推論モデル,の2つのモデルから成り立っている。
2つのコンポーネントは、生成モデルのログ限界確率の低い境界を通して、共同で学習される。
ジョイントトレーニングの初期段階では、推論モデルは遅延符号後部を十分に近似する。
近年の研究では、この最適化が局所最適状態に留まり、学習された生成モデルに悪影響を及ぼすことが示されている。
このように、最近の研究は、反復的トレーニングによる高品質な推論モデルを保証することを示唆している。
残念なことに、反復訓練は非効率であり、反復訓練から高速な関節訓練に戻すためのヒューリスティックな基準を必要とする。
本稿では,生成モデルと推論モデルを独立に学習する推論手法を提案する。
これは真のモデル a の後部を近似し、この後部近似を固定し、生成モデルのみに対する下界を最大化する。
従来の知恵では、このアプローチは後部(未知)を近似するために真のモデルの真の事前と可能性に依存するべきである。
しかし,本モデルの後部近似 (MAPA) は決定論的, モデルに依存しない。
そこで,MAPAを用いて概念推論法を開発した。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
最後に,MAPAに基づく推論手法を高次元データに拡張するためのロードマップを提案する。
Inference for Variational Autoencoders (VAEs) consists of learning two models: (1) a generative model, which transforms a simple distribution over a latent space into the distribution over observed data, and (2) an inference model, which approximates the posterior of the latent codes given data. The two components are learned jointly via a lower bound to the generative model's log marginal likelihood. In early phases of joint training, the inference model poorly approximates the latent code posteriors. Recent work showed that this leads optimization to get stuck in local optima, negatively impacting the learned generative model. As such, recent work suggests ensuring a high-quality inference model via iterative training: maximizing the objective function relative to the inference model before every update to the generative model. Unfortunately, iterative training is inefficient, requiring heuristic criteria for reverting from iterative to joint training for speed. Here, we suggest an inference method that trains the generative and inference models independently. It approximates the posterior of the true model a priori; fixing this posterior approximation, we then maximize the lower bound relative to only the generative model. By conventional wisdom, this approach should rely on the true prior and likelihood of the true model to approximate its posterior (which are unknown). However, we show that we can compute a deterministic, model-agnostic posterior approximation (MAPA) of the true model's posterior. We then use MAPA to develop a proof-of-concept inference method. We present preliminary results on low-dimensional synthetic data that (1) MAPA captures the trend of the true posterior, and (2) our MAPA-based inference performs better density estimation with less computation than baselines. Lastly, we present a roadmap for scaling the MAPA-based inference method to high-dimensional data. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# LMStyle Benchmark: チャットボットのテキストスタイル転送の評価
LMStyle Benchmark: Evaluating Text Style Transfer for Chatbots ( http://arxiv.org/abs/2403.08943v1 ) ライセンス: Link先を確認 | Jianlin Chen, | (参考訳) ChatGPTのブレークスルー以来、大きな言語モデル(LLM)が研究コミュニティで注目を集めている。
LLMの発達に伴い、会話型モデルのテキストスタイル転送に関する問題は自然な拡張として現れ、チャットボットは独自のスタイルや文字を持っているかもしれない。
しかし、この新しい設定については、まだ標準的な評価基準が確立されていない。
本稿では,チャットスタイルのテキストスタイル転送(C-TST)に適用可能な新しい評価フレームワークであるLMStyle Benchmarkを提案する。
従来のスタイルの強度測定に加えて、LMStyle Benchmarkは、適合性と呼ばれるメトリクスの新たな側面についても検討している。
実験の結果,LMStyle Benchmarkが導入した新しい評価手法は,適切性の観点から人の判断と高い相関性を有することが示された。
LMStyle Benchmark に基づいて,LLaMA,Alpaca,Vicuna など人気の LLM の評価結果の包括的リストを提示し,形式性や感情強度などの形式的特性と妥当性を考察した。
Since the breakthrough of ChatGPT, large language models (LLMs) have garnered significant attention in the research community. With the development of LLMs, the question of text style transfer for conversational models has emerged as a natural extension, where chatbots may possess their own styles or even characters. However, standard evaluation metrics have not yet been established for this new settings. This paper aims to address this issue by proposing the LMStyle Benchmark, a novel evaluation framework applicable to chat-style text style transfer (C-TST), that can measure the quality of style transfer for LLMs in an automated and scalable manner. In addition to conventional style strength metrics, LMStyle Benchmark further considers a novel aspect of metrics called appropriateness, a high-level metrics take account of coherence, fluency and other implicit factors without the aid of reference samples. Our experiments demonstrate that the new evaluation methods introduced by LMStyle Benchmark have a higher correlation with human judgments in terms of appropriateness. Based on LMStyle Benchmark, we present a comprehensive list of evaluation results for popular LLMs, including LLaMA, Alpaca, and Vicuna, reflecting their stylistic properties, such as formality and sentiment strength, along with their appropriateness. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 人工知能時代の言語ゲーム理論
Language-based game theory in the age of artificial intelligence ( http://arxiv.org/abs/2403.08944v1 ) ライセンス: Link先を確認 | Valerio Capraro, Roberto Di Paolo, Matjaz Perc, Veronica Pizziol, | (参考訳) 意思決定問題や戦略的相互作用における人間の行動を理解することは、経済学、心理学、人工知能に広く応用されている。
ゲーム理論は、個人が実用機能を最大限にすることを目的としているという考えに基づいて、この理解の強固な基盤を提供する。
しかし、戦略選択に影響を与える正確な要因はいまだ解明されていない。
従来のモデルは、利用可能な行動の結果の関数として人間の振る舞いを説明しようとするが、最近の実験的研究により、言語内容が意思決定に大きく影響し、結果ベースから言語ベースのユーティリティ機能へのパラダイムシフトが促されることが明らかになった。
このシフトは、言語ベースのインタラクションを通じて決定を下す上で人間を支援する可能性がある生成AIの進歩を考えると、これまで以上に緊急である。
本研究では、この変化の基本的なツールとして感情分析を提案し、多くの社会的相互作用の中核である自己利益と他者の利益のバランスを捉えた経済ゲームであるディクテータゲームから61の実験的指示を解析することで、最初の一歩を踏み出す。
我々のメタ分析は、感情分析が経済的な結果を超えた人間の行動を説明することができることを示している。
今後の研究の方向性について論じる。
この研究が、人間の決定における言語の重要性を強調する新しいゲーム理論アプローチの舞台となることを願っている。
Understanding human behaviour in decision problems and strategic interactions has wide-ranging applications in economics, psychology, and artificial intelligence. Game theory offers a robust foundation for this understanding, based on the idea that individuals aim to maximize a utility function. However, the exact factors influencing strategy choices remain elusive. While traditional models try to explain human behaviour as a function of the outcomes of available actions, recent experimental research reveals that linguistic content significantly impacts decision-making, thus prompting a paradigm shift from outcome-based to language-based utility functions. This shift is more urgent than ever, given the advancement of generative AI, which has the potential to support humans in making critical decisions through language-based interactions. We propose sentiment analysis as a fundamental tool for this shift and take an initial step by analyzing 61 experimental instructions from the dictator game, an economic game capturing the balance between self-interest and the interest of others, which is at the core of many social interactions. Our meta-analysis shows that sentiment analysis can explain human behaviour beyond economic outcomes. We discuss future research directions. We hope this work sets the stage for a novel game theoretical approach that emphasizes the importance of language in human decisions. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 使用可能なXAI: LLM時代の爆発可能性への10の戦略
Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era ( http://arxiv.org/abs/2403.08946v1 ) ライセンス: Link先を確認 | Xuansheng Wu, Haiyan Zhao, Yaochen Zhu, Yucheng Shi, Fan Yang, Tianming Liu, Xiaoming Zhai, Wenlin Yao, Jundong Li, Mengnan Du, Ninghao Liu, | (参考訳) 説明可能なAI(XAI)とは、AIモデルの動作に対する人間の理解可能な洞察を提供する技術である。
近年、XAIの焦点はLarge Language Models(LLM)へと拡張され、透明性の欠如をしばしば批判されている。
この拡張は2つの理由から、XAI方法論における重要な転換を要求する。
第一に、多くの既存のXAIメソッドは、その複雑さが進んだため、LSMに直接適用できない。
第二に、LLMが様々な業界アプリケーションに展開されるにつれて、XAIの役割は単に「ブラックボックス」をオープンすることから、現実の環境でのLCMの生産性と適用性を積極的に強化することへとシフトする。
一方、XAIインサイトを受動的に受信する従来の機械学習モデルとは異なり、LLMの異なる能力はXAIを相互に強化することができる。
そこで本論文では,(1) XAIがLLMやAIシステムにどのような恩恵をもたらすか,(2) LLMがXAIの進歩にどのように貢献するかを分析することによって,LLMの文脈における利用可能なXAIを紹介する。
10の戦略を導入し、それぞれに重要なテクニックを導入し、関連する課題について議論します。
ケーススタディも提供して、説明の入手と活用の方法を紹介します。
https://github.com/JacksonWuxs/UsableXAI_LLM。
Explainable AI (XAI) refers to techniques that provide human-understandable insights into the workings of AI models. Recently, the focus of XAI is being extended towards Large Language Models (LLMs) which are often criticized for their lack of transparency. This extension calls for a significant transformation in XAI methodologies because of two reasons. First, many existing XAI methods cannot be directly applied to LLMs due to their complexity advanced capabilities. Second, as LLMs are increasingly deployed across diverse industry applications, the role of XAI shifts from merely opening the "black box" to actively enhancing the productivity and applicability of LLMs in real-world settings. Meanwhile, unlike traditional machine learning models that are passive recipients of XAI insights, the distinct abilities of LLMs can reciprocally enhance XAI. Therefore, in this paper, we introduce Usable XAI in the context of LLMs by analyzing (1) how XAI can benefit LLMs and AI systems, and (2) how LLMs can contribute to the advancement of XAI. We introduce 10 strategies, introducing the key techniques for each and discussing their associated challenges. We also provide case studies to demonstrate how to obtain and leverage explanations. The code used in this paper can be found at: https://github.com/JacksonWuxs/UsableXAI_LLM. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# CLIPを用いたCT画像におけるロバストなCOVID-19検出
Robust COVID-19 Detection in CT Images with CLIP ( http://arxiv.org/abs/2403.08947v1 ) ライセンス: Link先を確認 | Li Lin, Yamini Sri Krubha, Zhenhuan Yang, Cheng Ren, Xin Wang, Shu Hu, | (参考訳) 医療画像、特に新型コロナウイルス(COVID-19)検出の分野では、ディープラーニングモデルは、広範な計算資源の必要性、よく注釈されたデータセットの質、膨大な量のラベルのないデータなど、重大な課題に直面している。
本研究では,これらの障害を克服し,凍結したCLIP画像エンコーダとトレーニング可能な多層認識(MLP)を利用する,最初の軽量検出器を提案する。
リスクに対する条件付値(CVaR)の強化と、一般化を改善するための損失景観平ら化戦略により、当社のモデルは、COVID-19検出における高い有効性のために調整されている。
さらに,教師による学習フレームワークを統合して,大量の未ラベルデータを活用することにより,本モデルが持つデータ制限にもかかわらず,優れたパフォーマンスを実現することができる。
COV19-CT-DBデータセットによる実験結果から,教師あり学習における「マクロ」F1スコアの10.6%を超えるベースラインを達成できた。
コードはhttps://github.com/Purdue-M2/COVID-19_Detection_M2_PURDUEで公開されている。
In the realm of medical imaging, particularly for COVID-19 detection, deep learning models face substantial challenges such as the necessity for extensive computational resources, the paucity of well-annotated datasets, and a significant amount of unlabeled data. In this work, we introduce the first lightweight detector designed to overcome these obstacles, leveraging a frozen CLIP image encoder and a trainable multilayer perception (MLP). Enhanced with Conditional Value at Risk (CVaR) for robustness and a loss landscape flattening strategy for improved generalization, our model is tailored for high efficacy in COVID-19 detection. Furthermore, we integrate a teacher-student framework to capitalize on the vast amounts of unlabeled data, enabling our model to achieve superior performance despite the inherent data limitations. Experimental results on the COV19-CT-DB dataset demonstrate the effectiveness of our approach, surpassing baseline by up to 10.6% in `macro' F1 score in supervised learning. The code is available at https://github.com/Purdue-M2/COVID-19_Detection_M2_PURDUE. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 渦状態$p\bar{p}$消滅を用いた時間様陽子形成因子の研究
Studying time-like proton form factors using vortex state $p\bar{p}$ annihilation ( http://arxiv.org/abs/2403.08949v1 ) ライセンス: Link先を確認 | Nikolai Korchagin, | (参考訳) 粒子の渦状態 - ヘリコダル波面を持つ対応する波動方程式の非平面波解 - 粒子物理学の新しい機会を開き、平面波散乱では利用できない。
ここでは、ボルテックスプロトンとアンチプロトンとの$p\bar p$消滅が、非偏極散乱においても陽子電磁形状因子の位相にアクセスできることを示した。
Vortex states of particles - non-plane-wave solutions of the corresponding wave equation with a helicoidal wave front - open new opportunities for particle physics, unavailable in plane wave scattering. Here we demonstrate that $p\bar p$ annihilation with a vortex proton and antiproton provides access to the phase of proton electromagnetic form factors even in unpolarized scattering. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# エンタープライズにおけるプロンプトエンジニアリングの実践を探る
Exploring Prompt Engineering Practices in the Enterprise ( http://arxiv.org/abs/2403.08950v1 ) ライセンス: Link先を確認 | Michael Desmond, Michelle Brachman, | (参考訳) 大規模言語モデル(LLM)との相互作用は主にプロンプトによって行われる。
プロンプト(英: prompt)は、モデルから特定の振る舞いや出力を引き出すように設計された自然言語命令である。
理論上、自然言語のプロンプトにより、非専門家がLSMと対話し、活用することができる。
しかし、特定の要求のある複雑なタスクやタスクに対しては、迅速な設計は簡単ではない。
効果的なプロンプトを作成するには、スキルと知識に加えて、モデルの振る舞いを判断し、特定の目標を達成するためにモデルを導くために重要なイテレーションが必要です。
我々は、ユーザーがプロンプトを反復する方法は、より効率的なプロンプトエンジニアリングに必要なサポートの種類だけでなく、プロンプトとモデルがどのように機能するかについての洞察を与えることができると仮定する。
素早いエンジニアリングの実践をより深く理解するために、私たちは、素早い編集行動のセッションを分析し、ユーザが反復したプロンプトの一部と、彼らが行った変更の種類を分類した。
本稿では,これらの迅速な工学的実践に基づく設計上の意味と今後の方向性について論じる。
Interaction with Large Language Models (LLMs) is primarily carried out via prompting. A prompt is a natural language instruction designed to elicit certain behaviour or output from a model. In theory, natural language prompts enable non-experts to interact with and leverage LLMs. However, for complex tasks and tasks with specific requirements, prompt design is not trivial. Creating effective prompts requires skill and knowledge, as well as significant iteration in order to determine model behavior, and guide the model to accomplish a particular goal. We hypothesize that the way in which users iterate on their prompts can provide insight into how they think prompting and models work, as well as the kinds of support needed for more efficient prompt engineering. To better understand prompt engineering practices, we analyzed sessions of prompt editing behavior, categorizing the parts of prompts users iterated on and the types of changes they made. We discuss design implications and future directions based on these prompt engineering practices. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 効率的なリスク感作政策のグラディエントに向けて--反復複雑度分析
Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis ( http://arxiv.org/abs/2403.08955v1 ) ライセンス: Link先を確認 | Rui Liu, Erfaun Noorani, Pratap Tokekar, John S. Baras, | (参考訳) 強化学習(Reinforcement Learning, RL)は、様々なアプリケーションにおいて例外的な性能を示しており、自律エージェントは環境とのインタラクションを通じて最適なポリシーを学習することができる。
しかしながら、従来のRLフレームワークは、イテレーションの複雑さと堅牢性の観点から、しばしば課題に直面します。
リスクに敏感なRLは、期待されるリターンとリスクのバランスを保ち、確率論的に堅牢なポリシーをもたらす可能性について検討されてきたが、その反復複雑性解析は未定のままである。
本研究では,リスクに敏感な政策勾配法に対して,REINFORCEアルゴリズムに着目し,指数関数的効用関数を用いて,徹底的な反復複雑性解析を行う。
我々は、$\mathcal{O}(\epsilon^{-2})$の反復複雑性を求め、$\epsilon$-approximate first-order stationary point (FOSP) に達する。
リスクに敏感なアルゴリズムは、リスクニュートラルなアルゴリズムに比べて、イテレーションの複雑さが向上するかどうかを検討する。
我々の理論的分析は、リスクに敏感なREINFORCEは収束に必要な反復回数を減らすことができることを示している。
指数関数的ユーティリティを採用すると、イテレーション毎に追加の計算が不要になるため、イテレーションの複雑さが向上する。
リスクに敏感なアルゴリズムがより複雑なイテレーションを実現する条件を特徴付ける。
また, リスク・ニュートラルなケースと比較して, 約半数のエピソードの後に, リスク・アバースのケースが収束し, より早く安定できることを示した。
Reinforcement Learning (RL) has shown exceptional performance across various applications, enabling autonomous agents to learn optimal policies through interaction with their environments. However, traditional RL frameworks often face challenges in terms of iteration complexity and robustness. Risk-sensitive RL, which balances expected return and risk, has been explored for its potential to yield probabilistically robust policies, yet its iteration complexity analysis remains underexplored. In this study, we conduct a thorough iteration complexity analysis for the risk-sensitive policy gradient method, focusing on the REINFORCE algorithm and employing the exponential utility function. We obtain an iteration complexity of $\mathcal{O}(\epsilon^{-2})$ to reach an $\epsilon$-approximate first-order stationary point (FOSP). We investigate whether risk-sensitive algorithms can achieve better iteration complexity compared to their risk-neutral counterparts. Our theoretical analysis demonstrates that risk-sensitive REINFORCE can have a reduced number of iterations required for convergence. This leads to improved iteration complexity, as employing the exponential utility does not entail additional computation per iteration. We characterize the conditions under which risk-sensitive algorithms can achieve better iteration complexity. Our simulation results also validate that risk-averse cases can converge and stabilize more quickly after approximately half of the episodes compared to their risk-neutral counterparts. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# バドミントンのためのAIコーチ
AI coach for badminton ( http://arxiv.org/abs/2403.08956v1 ) ライセンス: Link先を確認 | Dhruv Toshniwal, Arpit Patil, Nancy Vachhani, | (参考訳) スポーツの競争領域では、最適なパフォーマンスは栄養と体調の厳格な管理を必要とする。
特にバドミントンでは、アジリティと精度が要求されるため、ビデオ分析によるモーション分析の理想的な候補となる。
本研究は,バドミントンの試合の映像を識別するために,先進的なニューラルネットワーク手法を活用し,プレイヤーの運動学と生体力学に関する詳細な知見を抽出することを目的とした。
この研究は、手足の調整、脚の位置決め、ストロークの実行角度などの脳卒中力学の分析を通じて、スタンス、テクニック、筋肉の向きの改善を示唆する予測モデルを導出することを目的としている。
これらの勧告は、誤ったテクニックを緩和し、関節疲労のリスクを低減し、全体的なパフォーマンスを向上させるように設計されている。
オンラインで利用可能な膨大なデータを利用して、この研究はプレイヤーの身体的特性とゲーム内の動きを関連付け、プレイ中に筋肉の活性化パターンを識別する。
目標は、バドミントンの特定の生体機械的要求に合わせた個別のトレーニングと栄養戦略を提供することで、パフォーマンスの向上を目標とする。
In the competitive realm of sports, optimal performance necessitates rigorous management of nutrition and physical conditioning. Specifically, in badminton, the agility and precision required make it an ideal candidate for motion analysis through video analytics. This study leverages advanced neural network methodologies to dissect video footage of badminton matches, aiming to extract detailed insights into player kinetics and biomechanics. Through the analysis of stroke mechanics, including hand-hip coordination, leg positioning, and the execution angles of strokes, the research aims to derive predictive models that can suggest improvements in stance, technique, and muscle orientation. These recommendations are designed to mitigate erroneous techniques, reduce the risk of joint fatigue, and enhance overall performance. Utilizing a vast array of data available online, this research correlates players' physical attributes with their in-game movements to identify muscle activation patterns during play. The goal is to offer personalized training and nutrition strategies that align with the specific biomechanical demands of badminton, thereby facilitating targeted performance enhancements. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 深層学習を用いた豚の形態分類 : 衛生モニタリングを中心に
Using Deep Learning for Morphological Classification in Pigs with a Focus on Sanitary Monitoring ( http://arxiv.org/abs/2403.08962v1 ) ライセンス: Link先を確認 | Eduardo Bedin, Junior Silva Souza, Gabriel Toshio Hirokawa Higa, Alexandre Pereira, Charles Kiefer, Newton Loebens, Hemerson Pistori, | (参考訳) 本研究の目的は,D-CNN(Deep Convolutional Neural Networks)アルゴリズムを用いて豚の体調を正常または正常でない状態に分類し,衛生モニタリングにおいて観察される特徴に着目し,6種類のアルゴリズムを用いて処理を行ったことである。
この研究は、これらのカドファジー、耳血腫、体のひっかき傷、赤み、天然の汚れ(茶色か黒)の5つの特徴に焦点を当てた。
以上の結果から,D-CNNは皮膚特性に関連するブタの身体形態の偏差の分類に有効であることが示唆された。
評価は,精度,リコール,Fスコア,統計解析のANOVAとスコットノット試験を用いて行った。
本論文の貢献は, 豚の形態分類におけるD-CNNネットワークの利用の提案と, 衛生モニタリングにおける特徴に着目したものである。
最良の結果の中で、インセプションResNetV2ネットワークにおいて、カドファジーを分類するための平均精度の80.6\%が達成された。
さらに、様々な豚の体の特徴を含む新しい画像データベースが作成され、将来の研究のためのデータとして機能する。
The aim of this paper is to evaluate the use of D-CNN (Deep Convolutional Neural Networks) algorithms to classify pig body conditions in normal or not normal conditions, with a focus on characteristics that are observed in sanitary monitoring, and were used six different algorithms to do this task. The study focused on five pig characteristics, being these caudophagy, ear hematoma, scratches on the body, redness, and natural stains (brown or black). The results of the study showed that D-CNN was effective in classifying deviations in pig body morphologies related to skin characteristics. The evaluation was conducted by analyzing the performance metrics Precision, Recall, and F-score, as well as the statistical analyses ANOVA and the Scott-Knott test. The contribution of this article is characterized by the proposal of using D-CNN networks for morphological classification in pigs, with a focus on characteristics identified in sanitary monitoring. Among the best results, the average Precision metric of 80.6\% to classify caudophagy was achieved for the InceptionResNetV2 network, indicating the potential use of this technology for the proposed task. Additionally, a new image database was created, containing various pig's distinct body characteristics, which can serve as data for future research. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 深層学習に基づくダイナミクスの同定とコープマン理論を用いた軌道問題の線形化
Deep Learning Based Dynamics Identification and Linearization of Orbital Problems using Koopman Theory ( http://arxiv.org/abs/2403.08965v1 ) ライセンス: Link先を確認 | George Nehma, Madhur Tiwari, Manasvi Lingam, | (参考訳) 航空宇宙工学と科学の分野における2体・循環制限三体問題の研究は、天体衛星と人工衛星の両方の動きを説明するのに役立つため、非常に重要である。
衛星や衛星形成の需要が高まり、これらのシステムの高速かつ効率的な制御がますます重要になっている。
これらのシステムのグローバルな線形化により、エンジニアはこれらの望ましい結果を達成するために制御方法を利用することができる。
本研究では, 深層学習に基づくクープマン理論を用いて, 2-Body問題と円制限3-Body問題の両方を同時に同定し, 大域的線形化するためのデータ駆動型フレームワークを提案する。
線形クープマン演算子は、カスタムアーキテクチャを備えたディープニューラルネットワークの純粋にデータ駆動型トレーニングによって検出される。
本稿では、クープマン作用素が、再訓練を必要とせずに、他の様々な2音素系に一般化できる能力を示す。
また,Circular Restricted Three-Body Problem を近似したクープマン演算子を正確に学習するために,同じアーキテクチャが利用できることを示す。
The study of the Two-Body and Circular Restricted Three-Body Problems in the field of aerospace engineering and sciences is deeply important because they help describe the motion of both celestial and artificial satellites. With the growing demand for satellites and satellite formation flying, fast and efficient control of these systems is becoming ever more important. Global linearization of these systems allows engineers to employ methods of control in order to achieve these desired results. We propose a data-driven framework for simultaneous system identification and global linearization of both the Two-Body Problem and Circular Restricted Three-Body Problem via deep learning-based Koopman Theory, i.e., a framework that can identify the underlying dynamics and globally linearize it into a linear time-invariant (LTI) system. The linear Koopman operator is discovered through purely data-driven training of a Deep Neural Network with a custom architecture. This paper displays the ability of the Koopman operator to generalize to various other Two-Body systems without the need for retraining. We also demonstrate the capability of the same architecture to be utilized to accurately learn a Koopman operator that approximates the Circular Restricted Three-Body Problem. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# PathM3:全スライド画像分類とキャプションのためのマルチモーダルマルチタスクマルチインスタンス学習フレームワーク
PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning ( http://arxiv.org/abs/2403.08967v1 ) ライセンス: Link先を確認 | Qifeng Zhou, Wenliang Zhong, Yuzhi Guo, Michael Xiao, Hehuan Ma, Junzhou Huang, | (参考訳) コンピュータ病理学の分野では、スライド画像全体(WSI)と診断キャプションの両方が診断決定に有用な洞察を与えている。
しかし、WSIと診断キャプションを合わせることは重大な課題である。
この困難は2つの主な要因から生じる。
1)ギガピクセルWSIは深層学習モデルへの直接入力には不適であり、パッチ間の冗長性と相関性はより注意が必要である。
2) 正確なWSI診断キャプションは極めて限られており, 効果的なモデルの訓練が困難である。
これらの障害を克服するために、WSI分類とキャプションのためのマルチモーダル・マルチタスク・マルチインスタンス学習(MIL)フレームワークであるPathM3を提案する。
PathM3はクエリベースのトランスフォーマーを適用して、WSIを診断キャプションと効果的に調整する。
病理組織学的視覚パターンがWSI間で冗長に分散されていることを考慮し、各パッチ特徴をインスタンス間の相関を考慮に入れたMILメソッドで集約する。
さらに,WSIレベルの字幕におけるデータ不足を克服するために,多タスク共同学習の方法として限定的なWSI診断字幕データを活用する。
分類精度とキャプション生成を向上した広範囲な実験により,WSI分類とキャプションタスクにおける本手法の有効性が示された。
In the field of computational histopathology, both whole slide images (WSIs) and diagnostic captions provide valuable insights for making diagnostic decisions. However, aligning WSIs with diagnostic captions presents a significant challenge. This difficulty arises from two main factors: 1) Gigapixel WSIs are unsuitable for direct input into deep learning models, and the redundancy and correlation among the patches demand more attention; and 2) Authentic WSI diagnostic captions are extremely limited, making it difficult to train an effective model. To overcome these obstacles, we present PathM3, a multimodal, multi-task, multiple instance learning (MIL) framework for WSI classification and captioning. PathM3 adapts a query-based transformer to effectively align WSIs with diagnostic captions. Given that histopathology visual patterns are redundantly distributed across WSIs, we aggregate each patch feature with MIL method that considers the correlations among instances. Furthermore, our PathM3 overcomes data scarcity in WSI-level captions by leveraging limited WSI diagnostic caption data in the manner of multi-task joint learning. Extensive experiments with improved classification accuracy and caption generation demonstrate the effectiveness of our method on both WSI classification and captioning task. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# FAST(Full-scale Assembly Simulation Testbed)データセット
The Full-scale Assembly Simulation Testbed (FAST) Dataset ( http://arxiv.org/abs/2403.08969v1 ) ライセンス: Link先を確認 | Alec G. Moore, Tiffany D. Do, Nayan N. Chawla, Antonia Jimenez Iriarte, Ryan P. McMahan, | (参考訳) 近年、多くの研究者が、ユーザー識別、サイバーシックネスの予測、学習のゲインの推定など、さまざまな機械学習目的のために、バーチャルリアリティ(VR)トラッキングとインタラクションデータをどのように利用できるかを調査し始めている。
この研究領域の制約の1つは、オープンデータセットの破壊である。
本稿では,VRを用いたFAST(Full-scale Assembly Simulation Testbed)を用いた新しいオープンデータセットを提案する。
このデータセットは、108人の参加者(50人の女性、56人の男性、2つの非バイナリ)から収集されたデータから成り、VRで2つの異なるフルスケール構造を組み立てる方法を学ぶ。
データセットの収集方法やデータの記述に加えて,今後の研究者によるデータセットの利用方法について論じる。
In recent years, numerous researchers have begun investigating how virtual reality (VR) tracking and interaction data can be used for a variety of machine learning purposes, including user identification, predicting cybersickness, and estimating learning gains. One constraint for this research area is the dearth of open datasets. In this paper, we present a new open dataset captured with our VR-based Full-scale Assembly Simulation Testbed (FAST). This dataset consists of data collected from 108 participants (50 females, 56 males, 2 non-binary) learning how to assemble two distinct full-scale structures in VR. In addition to explaining how the dataset was collected and describing the data included, we discuss how the dataset may be used by future researchers. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# 無作為なニューラルネットワークの拡散による解剖樹の表現
Representing Anatomical Trees by Denoising Diffusion of Implicit Neural Fields ( http://arxiv.org/abs/2403.08974v1 ) ライセンス: Link先を確認 | Ashish Sinha, Ghassan Hamarneh, | (参考訳) 解剖学的木は臨床診断と治療計画において中心的な役割を果たす。
しかしながら、解剖学的な木を正確に表現することは、その多様で複雑なトポロジーと幾何学のために困難である。
伝統的な木構造表現法は、医用画像を用いて撮影されるが、血管と気管支のネットワークを可視化するのには貴重なものであり、解像度、柔軟性、効率の面で欠点がある。
近年, 形状を正確に, 効率的に表現するための強力なツールとして暗黙的神経表現(INR)が出現している。
本稿では,INRを用いて解剖学的な木を表現できる手法を提案する。
解剖学的樹木の複雑な地形や地形を任意の解像度で正確に把握する。
定性的かつ定量的な評価を通じて、任意の解像度でコンパクトな保存と、解剖学的部位と木複合体の汎用性を備えた高忠実度木再構築を実証する。
Anatomical trees play a central role in clinical diagnosis and treatment planning. However, accurately representing anatomical trees is challenging due to their varying and complex topology and geometry. Traditional methods for representing tree structures, captured using medical imaging, while invaluable for visualizing vascular and bronchial networks, exhibit drawbacks in terms of limited resolution, flexibility, and efficiency. Recently, implicit neural representations (INRs) have emerged as a powerful tool for representing shapes accurately and efficiently. We propose a novel approach for representing anatomical trees using INR, while also capturing the distribution of a set of trees via denoising diffusion in the space of INRs. We accurately capture the intricate geometries and topologies of anatomical trees at any desired resolution. Through extensive qualitative and quantitative evaluation, we demonstrate high-fidelity tree reconstruction with arbitrary resolution yet compact storage, and versatility across anatomical sites and tree complexities. | 翻訳日:2024-03-15 22:27:10 公開日:2024-03-13 |
# AutoGuide:大規模言語モデルエージェントのためのステートアウェアガイドラインの自動生成と選択
AutoGuide: Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents ( http://arxiv.org/abs/2403.08978v1 ) ライセンス: Link先を確認 | Yao Fu, Dong-Ki Kim, Jaekyeom Kim, Sungryull Sohn, Lajanugen Logeswaran, Kyunghoon Bae, Honglak Lee, | (参考訳) 大きな言語モデル(LLM)の最大の制限は、世界に対する限定的な理解である。
このことは、特に事前訓練されたLLMが十分な知識を欠いている領域において、LLMベースのエージェントにとって重大な困難をもたらす。
本稿では,オフライン体験における暗黙的知識を活用することで,事前学習されたLLMの知識ギャップを埋める,AutoGuideという新しいフレームワークを提案する。
具体的には、AutoGuideは、状態認識ガイドラインのセットを抽出することで、オフラインデータに埋め込まれた知識を効果的に抽出する。
重要なことに、各状態認識ガイドラインは簡潔な自然言語で表現され、その適用状況を明確に記述した条件構造に従っている。
このように、結果として得られるガイドラインは、エージェントの現在の意思決定プロセスに関連する有益な知識を提供するための原則化された方法を提供する。
提案手法は, 逐次意思決定ベンチマークにおいて, 競争力のあるLCMベースラインよりも高い性能を示すことを示す。
The primary limitation of large language models (LLMs) is their restricted understanding of the world. This poses significant difficulties for LLM-based agents, particularly in domains where pre-trained LLMs lack sufficient knowledge. In this paper, we introduce a novel framework, called AutoGuide, that bridges the knowledge gap in pre-trained LLMs by leveraging implicit knowledge in offline experiences. Specifically, AutoGuide effectively extracts knowledge embedded in offline data by extracting a set of state-aware guidelines. Importantly, each state-aware guideline is expressed in concise natural language and follows a conditional structure, clearly describing the state where it is applicable. As such, the resulting guidelines enable a principled way to provide helpful knowledge pertinent to an agent's current decision-making process. We show that our approach outperforms competitive LLM-based baselines by a large margin in sequential decision-making benchmarks. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# 3T取得による7T MRI合成
7T MRI Synthesization from 3T Acquisitions ( http://arxiv.org/abs/2403.08979v1 ) ライセンス: Link先を確認 | Qiming Cui, Duygu Tosun, Reza Abbasi-Asl, | (参考訳) 改良されたディープラーニング技術は、3T MRI入力から合成された7T MRIを生成するために使用できる。
この画像強調処理は、超高磁場MRIの利点を活用し、3T取得の信号対雑音比とコントラスト対雑音比を改善する。
本稿では,V-Net畳み込みニューラルネットワークのカスタム設計版に基づく,新しい7T合成アルゴリズムを提案する。
V-Netベースのモデルでは,既存のベンチマークモデルと比較して,シングルサイトおよびマルチサイトMRIデータセットの強化性能が優れていることが実証された。
軽度外傷性脳損傷(TBI)を有する8症例の3T-7T MRI対を訓練すると,本モデルでは最先端の7T合成性能が得られた。
従来の研究と比較すると, パイプラインから生成された合成7T画像は, 病理組織の改善に優れていた。
さらに、入力分布の変動に頑健なトレーニングモデルに対して、データ拡張スキームを実装し、テストする。
これにより、合成7Tモデルは、マルチサイトデータセットにおけるスキャン内およびスキャン間変動を許容できる。
健常者と軽度TBIを含む2つの施設の18の3T-7T MRI対からなる調和したデータセットにおいて,本モデルは,その性能を維持し,低分解能で3T MRI入力に一般化することができる。
以上の結果から,V-NetモデルによるMRI強調の可能性を実証し,データ拡張による合成7Tモデルの一般化性向上のための予備的調査を行った。
Supervised deep learning techniques can be used to generate synthetic 7T MRIs from 3T MRI inputs. This image enhancement process leverages the advantages of ultra-high-field MRI to improve the signal-to-noise and contrast-to-noise ratios of 3T acquisitions. In this paper, we introduce multiple novel 7T synthesization algorithms based on custom-designed variants of the V-Net convolutional neural network. We demonstrate that the V-Net based model has superior performance in enhancing both single-site and multi-site MRI datasets compared to the existing benchmark model. When trained on 3T-7T MRI pairs from 8 subjects with mild Traumatic Brain Injury (TBI), our model achieves state-of-the-art 7T synthesization performance. Compared to previous works, synthetic 7T images generated from our pipeline also display superior enhancement of pathological tissue. Additionally, we implement and test a data augmentation scheme for training models that are robust to variations in the input distribution. This allows synthetic 7T models to accommodate intra-scanner and inter-scanner variability in multisite datasets. On a harmonized dataset consisting of 18 3T-7T MRI pairs from two institutions, including both healthy subjects and those with mild TBI, our model maintains its performance and can generalize to 3T MRI inputs with lower resolution. Our findings demonstrate the promise of V-Net based models for MRI enhancement and offer a preliminary probe into improving the generalizability of synthetic 7T models with data augmentation. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# 高データレート低レイテンシ科学応用のためのニューラルネットワーク推論のアーキテクチャ的意味
Architectural Implications of Neural Network Inference for High Data-Rate, Low-Latency Scientific Applications ( http://arxiv.org/abs/2403.08980v1 ) ライセンス: Link先を確認 | Olivia Weng, Alexander Redding, Nhan Tran, Javier Mauricio Duarte, Ryan Kastner, | (参考訳) 極端なスループットとレイテンシでやってくるデータを処理するために、ニューラルネットワーク(NN)に依存する科学的な分野が増えているため、すべてのパラメータをチップ上に格納したNNを開発することが不可欠である。
これらの応用の多くは、オフチップで重量を回収するのに十分な時間がない。
さらに、DRAMのようなオフチップメモリは、これらのNNを処理するのに必要な帯域幅を持っていない(例:25 ns毎)。
したがって、これらの極端なレイテンシと帯域幅要件は、これらのNNを実行することを意図したハードウェアにアーキテクチャ上の意味を持つ。
1) NNパラメータはすべてオンチップに適合しなければなりません。
2) 遅延と帯域幅の制約を満たすためには、カスタム/再構成可能なロジックをコード署名する必要があることが多い。
我々の研究では、多くの科学的NNアプリケーションはチップ上で完全に動作しなければなりませんが、極端な場合、そのような厳しい制約を満たすためにカスタムチップが必要であることが示されています。
With more scientific fields relying on neural networks (NNs) to process data incoming at extreme throughputs and latencies, it is crucial to develop NNs with all their parameters stored on-chip. In many of these applications, there is not enough time to go off-chip and retrieve weights. Even more so, off-chip memory such as DRAM does not have the bandwidth required to process these NNs as fast as the data is being produced (e.g., every 25 ns). As such, these extreme latency and bandwidth requirements have architectural implications for the hardware intended to run these NNs: 1) all NN parameters must fit on-chip, and 2) codesigning custom/reconfigurable logic is often required to meet these latency and bandwidth constraints. In our work, we show that many scientific NN applications must run fully on chip, in the extreme case requiring a custom chip to meet such stringent constraints. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# 自律車いすによる安全な道路封鎖 -新しいデータセットとその実験的評価-
Safe Road-Crossing by Autonomous Wheelchairs: a Novel Dataset and its Experimental Evaluation ( http://arxiv.org/abs/2403.08984v1 ) ライセンス: Link先を確認 | Carlo Grigioni, Franca Corradini, Alessandro Antonucci, Jérôme Guzzi, Francesco Flammini, | (参考訳) 自動運転車による安全な道路横断は、スマートシティーにとって重要な問題だ。
本稿では,自律型車椅子と多種多様な部品と冗長な部品からなるロバストな感覚システムを備えた飛行ドローンからなるシステムにおいて,道路横断決定を支援するためのマルチセンサ融合手法を提案する。
そこで我々は,機械学習や人工視覚など,単一センサによって評価された説明可能な物理的条件に基づいて,分析的危険度関数を設計した。
概念実証として,複数センサの利点を示す実験室環境の評価を行った。
我々はこのデータセットを科学コミュニティに公開し、さらなる実験を行った。
この研究は欧州のプロジェクトREXASI-PROの文脈で開発され、モビリティを低下させた人々のソーシャルナビゲーションのための信頼できる人工知能の開発を目的としている。
Safe road-crossing by self-driving vehicles is a crucial problem to address in smart-cities. In this paper, we introduce a multi-sensor fusion approach to support road-crossing decisions in a system composed by an autonomous wheelchair and a flying drone featuring a robust sensory system made of diverse and redundant components. To that aim, we designed an analytical danger function based on explainable physical conditions evaluated by single sensors, including those using machine learning and artificial vision. As a proof-of-concept, we provide an experimental evaluation in a laboratory environment, showing the advantages of using multiple sensors, which can improve decision accuracy and effectively support safety assessment. We made the dataset available to the scientific community for further experimentation. The work has been developed in the context of an European project named REXASI-PRO, which aims to develop trustworthy artificial intelligence for social navigation of people with reduced mobility. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# 分散光学QKDにおけるセキュリティ推定
Security Assumptions in Dispersive-Optics QKD ( http://arxiv.org/abs/2403.08992v1 ) ライセンス: Link先を確認 | Ariel Shlosberg, Alex Kwiatkowski, Akira Kyle, Graeme Smith, | (参考訳) 量子鍵分散(QKD)は、非条件セキュリティを確保しつつ、遠隔者間で暗号的にセキュアな鍵を生成する方法を提供する。
分散光学(DO-QKD)を用いた高次元QKDの実装は、既存の通信技術 [1] を用いて、コスト効率とスケーラビリティを維持しながら、複数のセキュアビットを光子当たりの伝送を可能にするために提案されている。
近年の文献では, DO-QKDシステム [2-6] は, Ref の処理に基づくセキュリティ解析により, 数多くの実験的実現がなされている。
[1]。
ここでは,有限分散の場合,eavesdropperのRefにおける攻撃を想定したモデルを示す。
[1]は盗聴者にとって最適ではないため、当事者間の安全な鍵レートが著しく過大評価される。
我々は、AliceとBobがRefと区別できない攻撃モデルを考える。
[1]モデルは、DO-QKDで典型的な測定値に制限される限りである。
両モデルで予測されるHolevo情報とシークレットキーレートの間に大きなギャップが存在する具体的な例を提供する。
Refの実験をさらに分析する。
[2]は、セキュアキーがRefに従って予測される場合の例である。
しかし実際には、盗聴者が実行する可能性のある集合攻撃の完全なセットを考えると、安全なキーレートはゼロである。
Quantum key distribution (QKD) seeks to provide a method of generating cryptographically-secure keys between remote parties while guaranteeing unconditional security. Implementations of high-dimensional QKD using dispersive-optics (DO-QKD) have been proposed to allow for multiple secure bits to be transmitted per photon while remaining cost-effective and scalable using existing telecommunication technology [1]. In the recent literature, there have been a number of experimental realizations of DO-QKD systems [2-6], with security analysis based on the treatment in Ref. [1]. Here we demonstrate that in the case of finite dispersion, the model assumed for the eavesdropper's attack in Ref. [1] is non-optimal for the eavesdropper, which leads to a significant overestimation of the secure key rate between parties. We consider an alternative attack model that Alice and Bob find indistinguishable from the Ref. [1] model, as long as they are restricted to making the measurements typical in DO-QKD. We provide concrete examples where a significant gap exists between the Holevo information, and therefore the secret key rate, predicted by the two models. We further analyze the experiment in Ref. [2] as an example of a case where secure key is predicted according to the Ref. [1] model, but where in fact there is zero secure key rate when considering the full set of collective attacks that an eavesdropper may perform. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# Ethos: 直交パラメータ空間における言語モデルの定式化
Ethos: Rectifying Language Models in Orthogonal Parameter Space ( http://arxiv.org/abs/2403.08994v1 ) ライセンス: Link先を確認 | Lei Gao, Yue Niu, Tingting Tang, Salman Avestimehr, Murali Annavaram, | (参考訳) 言語モデル(LM)は自然言語処理の研究を大いに推進してきた。
しかし、LMはバイアスや有害なコンテンツの生成や、トレーニングデータセットから個人情報を開示する可能性についても懸念を提起する。
本研究では, 毒性と出力バイアスを軽減し, プライバシーの漏洩を回避するために, LMを修正した新しい効率的なアプローチであるEthosを提案する。
Ethosはタスク演算に基づいて構築されている。
しかし、現在のタスク演算アルゴリズムとは異なり、Ethosはタスクベクトルを再構成する際の一般的な有益な知識と望ましくない知識を区別する。
具体的には、エトスはまず特異値分解を用いて事前訓練されたモデルから主成分の集合を得る。
次に、タスクベクトルを主成分に射影することにより、Ethosは一般または望ましくない知識を符号化する主成分を特定する。
Ethosは、望ましくない知識しか持たないタスクベクトルを用いてネガ化を行い、一般的なモデルユーティリティに対する副作用を最小限に抑える。
我々は,脱バイアス,解毒,覚醒の3つの課題に対して,アプローチの有効性を実証した。
評価の結果、Ethosは現在のタスク算術法と比較して、望ましくない知識を取り除き、全体のモデル性能を維持するのに効果的であることが示された。
Language models (LMs) have greatly propelled the research on natural language processing. However, LMs also raise concerns regarding the generation of biased or toxic content and the potential disclosure of private information from the training dataset. In this work, we present a new efficient approach, Ethos, that rectifies LMs to mitigate toxicity and bias in outputs and avoid privacy leakage. Ethos is built on task arithmetic. However, unlike current task arithmetic algorithms, Ethos distinguishes general beneficial and undesired knowledge when reconstructing task vectors. Specifically, Ethos first obtains a set of principal components from the pre-trained models using singular value decomposition. Then, by projecting the task vector onto principal components, Ethos identifies the principal components that encode general or undesired knowledge. Ethos performs negating using the task vector with undesired knowledge only, thereby minimizing collateral damage on general model utility. We demonstrate the efficacy of our approach on three different tasks: debiasing, detoxification, and memorization unlearning. Evaluations show Ethos is more effective in removing undesired knowledge and maintaining the overall model performance compared to current task arithmetic methods. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# NTIRE 2023 Image Shadow removal Challenge Technical Report: Team IIM_TTI
NTIRE 2023 Image Shadow Removal Challenge Technical Report: Team IIM_TTI ( http://arxiv.org/abs/2403.08995v1 ) ライセンス: Link先を確認 | Yuki Kondo, Riku Miyata, Fuma Yasue, Taito Naruki, Norimichi Ukita, | (参考訳) 本稿では,NTIRE2023シャドウ除去チャレンジ [1] の準備として,画像アライメント,知覚的品質損失関数の導入,シャドウ検出のための半自動アノテーション,シャドウ検出と除去の合同学習,シャドウ除去のための新しいデータ拡張技術の導入という,5つの重要な改善点について分析・議論する。
LPIPSでは0.196点(19点中3点)、平均オピニオンスコア(MOS)では7.44点(19点中3点)のスコアを得た。
In this paper, we analyze and discuss ShadowFormer in preparation for the NTIRE2023 Shadow Removal Challenge [1], implementing five key improvements: image alignment, the introduction of a perceptual quality loss function, the semi-automatic annotation for shadow detection, joint learning of shadow detection and removal, and the introduction of new data augmentation techniques for shadow removal. Our method achieved scores of 0.196 (3rd out of 19) in LPIPS and 7.44 (3rd out of 19) in the Mean Opinion Score (MOS). | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# CART:カリフォルニア工科大学のRGB-Thermal Dataset in the Wild
CART: Caltech Aerial RGB-Thermal Dataset in the Wild ( http://arxiv.org/abs/2403.08997v1 ) ライセンス: Link先を確認 | Connor Lee, Matthew Anderson, Nikhil Raganathan, Xingxing Zuo, Kevin Do, Georgia Gkioxari, Soon-Jo Chung, | (参考訳) 本稿では,自然環境下での航空ロボットのためのRGB熱水性データセットについて紹介する。
我々のデータセットは、川、湖、海岸線、砂漠、森林など、アメリカ大陸の様々な地形を捉え、同期RGB、長波熱、地球位置、慣性データで構成されています。
さらに,悪天候や夜間条件に頑健な認識アルゴリズムの開発を容易にするため,自然環境においてよく見られる10のクラスに対してセマンティックセグメンテーションアノテーションを提供する。
このデータセットを用いて、熱的およびRGB-熱的セマンティックセグメンテーション、RGB-熱的画像変換、視覚慣性計測のための新しい、そして挑戦的なベンチマークを提案する。
我々は、最先端の手法を用いて広範な結果を提示し、我々のデータにおける時間的および地理的領域シフトによる課題を強調した。
Datasetと付随するコードはhttps://github.com/aerorobotics/caltech-aerial-rgbt-datasetで提供される。
We present the first publicly available RGB-thermal dataset designed for aerial robotics operating in natural environments. Our dataset captures a variety of terrains across the continental United States, including rivers, lakes, coastlines, deserts, and forests, and consists of synchronized RGB, long-wave thermal, global positioning, and inertial data. Furthermore, we provide semantic segmentation annotations for 10 classes commonly encountered in natural settings in order to facilitate the development of perception algorithms robust to adverse weather and nighttime conditions. Using this dataset, we propose new and challenging benchmarks for thermal and RGB-thermal semantic segmentation, RGB-to-thermal image translation, and visual-inertial odometry. We present extensive results using state-of-the-art methods and highlight the challenges posed by temporal and geographical domain shifts in our data. Dataset and accompanying code will be provided at https://github.com/aerorobotics/caltech-aerial-rgbt-dataset | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# スピンネットワーク量子貯留層計算における周波数依存性の絡み合いの利点
Frequency-dependent entanglement advantage in spin-network Quantum Reservoir Computing ( http://arxiv.org/abs/2403.08998v1 ) ライセンス: Link先を確認 | Youssef Kora, Hadi Zadeh-Haghighi, Terrence C Stewart, Khabat Heshami, Christoph Simon, | (参考訳) 線形および非線形メモリタスクにおける量子貯水池計算(QRC)のためのIsingスピンネットワークの性能について検討する。
量子的絡み合いの挙動を,密度行列の部分的転位を用いて定量化することにより,量子性が性能を高める程度について検討する。
消散効果が組み込まれている最も一般的な例では, エンタングルメント優位性の強さは入力信号の周波数に依存するが, エンタングルメントの利点は信号の急激なゆらぎよりも大きいが, 低周波入力は非エンタングルド貯水池によく寄与する。
このことは、量子性が有益である程度は、メモリタスクの難しさに依存することを示唆している。
We study the performance of an Ising spin network for quantum reservoir computing (QRC) in linear and non-linear memory tasks. We investigate the extent to which quantumness enhances performance by monitoring the behaviour of quantum entanglement, which we quantify by means of the partial transpose of the density matrix. In the most general case where the effects of dissipation are incorporated, our results indicate that the strength of the entanglement advantage depends on the frequency of the input signal; the benefit of entanglement is greater the more rapidly fluctuating the signal, whereas a low-frequency input lends itself better to a non-entangled reservoir. This suggests that the extent to which quantumness is beneficial is dependent on the difficulty of the memory task. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# 量子コードと文字の既約生成物
Quantum Codes and Irreducible Products of Characters ( http://arxiv.org/abs/2403.08999v1 ) ライセンス: Link先を確認 | Eric Kubischta, Ian Teixeira, | (参考訳) 最近の論文では、ツイスト・ユニタリ・グループを1ドルで定義し、エラー検出量子コードを自動的に生成することを示した。
また、ツイストされた1$-群は文字の既約積に対応し、有限群の文字理論における計算へのコードフィンディングの問題を減少させることを示した。
文字の既約積に関する数学文献とGAP計算の組み合わせを用いて、特異なトランスバーサルゲートを持つ多くの新しい非自明な量子符号を同定する。
In a recent paper, we defined twisted unitary $1$-groups and showed that they automatically induced error-detecting quantum codes. We also showed that twisted unitary $1$-groups correspond to irreducible products of characters thereby reducing the problem of code-finding to a computation in the character theory of finite groups. Using a combination of GAP computations and results from the mathematics literature on irreducible products of characters, we identify many new non-trivial quantum codes with unusual transversal gates. | 翻訳日:2024-03-15 22:17:16 公開日:2024-03-13 |
# オンラインクラスタリングの崩壊を未然に防ぐための厳格な正規化
データ拡張
Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation ( http://arxiv.org/abs/2303.16521v4 ) ライセンス: Link先を確認 | Louis Mahon, Thomas Lukasiewicz | (参考訳) オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
既存のモデルの成功には、この問題を回避するためにさまざまなテクニックが採用されている。
本稿では,データ拡張を必要としない手法を提案する。
ベイズフレームワークを用いて、エンコーダネットワークのトレーニングに簡単に組み込むことができる直感的な最適化目標を導出する。
4つのイメージデータセットと1つのヒューマンアクティビティ認識データセットでテストされたこのデータセットは、他の方法よりも堅牢に崩壊を回避し、より正確なクラスタリングにつながる。
また、ハードクラスタの割り当てを規則化する選択を正当化するさらなる実験や分析も行います。
コードはhttps://github.com/Lou1sM/online_hard_clustering.comで公開されている。
Online deep clustering refers to the joint use of a feature extraction network and a clustering model to assign cluster labels to each new data point or batch as it is processed. While faster and more versatile than offline methods, online clustering can easily reach the collapsed solution where the encoder maps all inputs to the same point and all are put into a single cluster. Successful existing models have employed various techniques to avoid this problem, most of which require data augmentation or which aim to make the average soft assignment across the dataset the same for each cluster. We propose a method that does not require data augmentation, and that, differently from existing methods, regularizes the hard assignments. Using a Bayesian framework, we derive an intuitive optimization objective that can be straightforwardly included in the training of the encoder network. Tested on four image datasets and one human-activity recognition dataset, it consistently avoids collapse more robustly than other methods and leads to more accurate clustering. We also conduct further experiments and analyses justifying our choice to regularize the hard cluster assignments. Code is available at https://github.com/Lou1sM/online_hard_clustering. | 翻訳日:2024-03-14 19:26:42 公開日:2024-03-13 |
# 一般化集合の局所ユニタリ同値の決定方法
Bell (複数形 Bells)
How to determine the local unitary equivalence of sets of generalized Bell states ( http://arxiv.org/abs/2303.13304v2 ) ライセンス: Link先を確認 | Cai-Hong Wang, Jiang-Tao Yuan and Ying-Hui Yang | (参考訳) 分類は量子エンタングルメントを研究する一般的な方法であり、局所ユニタリ同値 (LU-equivalence) は効果的な分類ツールである。
この研究の目的は、任意の次元の双分数量子系 $\mathbb{C}^{d}\otimes \mathbb{C}^{d}$$$d$ において、一般化ベル状態(GBS)の集合のLU同値性を決定する方法を示すことである。
与えられた GBS 集合 $\mathcal{M}$ に対して、$\mathcal{M}$ と LU に等しいすべての GBS 集合を見つけようとすると、別の GBS 集合が $\mathcal{M}$ に LU に等しいかどうかを比較によって決定できる。
この目的を達成するために、2つの GBS 集合の LU-等価性を、2つの一般化されたパウリ行列 (GPM) 集合のユニタリ共役同値 (UC-等価) に還元する。
次に、2-GPM集合 UC が特別な 2-GPM 集合 $\{ X^{a}, Z^{b} \}$$$(a, b$ は非負整数で$d$ の因子)に等しい必要十分条件を与える。
一般の場合、すなわち、2つの一般 GPM 集合の UC-等価性は、特定の場合によって従う。
さらに、これらの結果はプログラム可能であり、つまり、与えられたGPM集合にUCと同等の標準GPM集合を全て与えるプログラムと、与えられたGPM集合にユニタリ等価(U-等価)な標準GPM集合を全て決定できるプログラムを提供し、2つの任意のGPM集合(または2つのGBS集合のLU-等価)のU-等価性は比較によって決定できる。
プログラムの役割を説明するために、$\mathbb{C}^{6}\otimes \mathbb{C}^{6}$の4-GBS集合(58905項目)を31のLU同値類に分割し、$\mathbb{C}^{4}\otimes \mathbb{C}^{4}$の4-GBS集合の完全なLU同値分類を提供する。
Classification is a common method to study quantum entanglement, and local unitary equivalence (LU-equivalence) is an effective classification tool. The purpose of this work is to show how to determine the LU-equivalence of sets of generalized Bell states (GBSs) in an arbitrary dimensional bipartite quantum system $\mathbb{C}^{d}\otimes \mathbb{C}^{d}$ ($d$ is an integer no less than 3). The idea is that, for a given GBS set $\mathcal{M}$, try to find all the GBS sets that are LU-equivalent to $\mathcal{M}$, then we can determine whether another GBS set is LU-equivalent to $\mathcal{M}$ by comparison. In order to accomplish this intention, we first reduce the LU-equivalence of two GBS sets to the unitary conjugate equivalence (UC-equivalence) of two generalized Pauli matrix (GPM) sets. Then we give the necessary and sufficient conditions for a 2-GPM set UC-equivalent to a special 2-GPM set $\{ X^{a}, Z^{b} \}$ ($a, b$ are nonnegative integers and factors of $d$). The general case, that is, the UC-equivalence of two general GPM sets, follows by the particular case. Moreover, these results are programmable, that is, we provide programs that can give all standard GPM sets that are UC-equivalent to a given GPM set, as well as programs that can determine all standard GPM sets that are unitary equivalent (U-equivalent) to a given GPM set, and then the U-equivalence of two arbitrary GPM sets (or LU-equivalence of two GBS sets) can be determined by comparison. To illustrate the role of the programs, we provide two examples, one showing that all 4-GBS sets (58905 items) in $\mathbb{C}^{6}\otimes \mathbb{C}^{6}$ can be divided into 31 LU-equivalence classes, and the other providing a complete LU-equivalent classification of all 4-GBS sets in $\mathbb{C}^{4}\otimes \mathbb{C}^{4}$. | 翻訳日:2024-03-14 19:26:40 公開日:2024-03-13 |
# 逆分散設定におけるランダム化Kaczmarz
Randomized Kaczmarz in Adversarial Distributed Setting ( http://arxiv.org/abs/2302.14615v2 ) ライセンス: Link先を確認 | Longxiu Huang, Xia Li, Deanna Needell | (参考訳) 敵や腐敗した労働者の存在に頑健な大規模分散手法の開発は、そのような手法を現実の問題を解決する上で重要な要素である。
本稿では,凸最適化問題に対して逆耐性を持つ反復的アプローチを提案する。
本手法は, 単純な統計量を利用して収束を保証し, 逆分布に適応できる。
さらに, 逆問題が存在するシミュレーションにおいて, 凸問題の解法の有効性を示す。
シミュレーションにより、敵の存在下でのアプローチの有効性と、敵の労働者を高い精度で識別し、敵の速度を許容する能力を示す。
Developing large-scale distributed methods that are robust to the presence of adversarial or corrupted workers is an important part of making such methods practical for real-world problems. In this paper, we propose an iterative approach that is adversary-tolerant for convex optimization problems. By leveraging simple statistics, our method ensures convergence and is capable of adapting to adversarial distributions. Additionally, the efficiency of the proposed methods for solving convex problems is shown in simulations with the presence of adversaries. Through simulations, we demonstrate the efficiency of our approach in the presence of adversaries and its ability to identify adversarial workers with high accuracy and tolerate varying levels of adversary rates. | 翻訳日:2024-03-14 19:26:39 公開日:2024-03-13 |
# プレトレーニング後の異種コミュニティにおける参照コミュニケーション
ビジュアルディープネットワーク
Referential communication in heterogeneous communities of pre-trained visual deep networks ( http://arxiv.org/abs/2302.08913v4 ) ライセンス: Link先を確認 | Mat\'eo Mahaut, Francesca Franzon, Roberto Dess\`i, Marco Baroni | (参考訳) 大規模な事前学習された画像処理ニューラルネットワークは、自動運転車やロボットなどの自律エージェントに埋め込まれているため、これらのシステムは、異なるアーキテクチャやトレーニング体制にもかかわらず、周囲の世界についてどのように互いにコミュニケーションできるのか、という疑問が浮かび上がっている。
この方向への第一歩として、異質な最先端の事前訓練された視覚ネットワークのコミュニティにおける「textit{referential communication}」のタスクを体系的に検討し、それらが自己監督的な方法で、対象対象物を参照するための共有プロトコルを開発することができることを示す。
この共有プロトコルは、ある程度は、これまで見つからなかったさまざまな粒度のオブジェクトカテゴリについて通信するためにも使用することができる。
さらに、当初既存のコミュニティの一部ではなかったビジュアルネットワークは、コミュニティのプロトコルを驚くほど簡単に学習することができる。
最後に,創発的プロトコルの特性を質的かつ定量的に検討し,オブジェクトの高レベルな意味的特徴を捉えていることを示す。
As large pre-trained image-processing neural networks are being embedded in autonomous agents such as self-driving cars or robots, the question arises of how such systems can communicate with each other about the surrounding world, despite their different architectures and training regimes. As a first step in this direction, we systematically explore the task of \textit{referential communication} in a community of heterogeneous state-of-the-art pre-trained visual networks, showing that they can develop, in a self-supervised way, a shared protocol to refer to a target object among a set of candidates. This shared protocol can also be used, to some extent, to communicate about previously unseen object categories of different granularity. Moreover, a visual network that was not initially part of an existing community can learn the community's protocol with remarkable ease. Finally, we study, both qualitatively and quantitatively, the properties of the emergent protocol, providing some evidence that it is capturing high-level semantic features of objects. | 翻訳日:2024-03-14 19:26:38 公開日:2024-03-13 |
# 特徴的多様性 : 一般化の評価
サンプルを用いた生成モデル
Feature Likelihood Divergence: Evaluating the Generalization of Generative Models Using Samples ( http://arxiv.org/abs/2302.04440v4 ) ライセンス: Link先を確認 | Marco Jiralerspong, Avishek Joey Bose, Ian Gemp, Chongli Qin, Yoram Bachrach, Gauthier Gidel | (参考訳) ここ数年、高次元、複雑、フォトリアリスティックなデータを生成できる深層生成モデルの開発が目覚ましい進歩を遂げてきた。
しかし、そのようなモデルを評価するための現在の方法はまだ不完全なままであり、標準的な可能性ベースのメトリクスは必ずしも適用されず、知覚的忠実度と相関することはないが、FIDのようなサンプルベースのメトリクスは過度適合(すなわちトレーニングセットを超えて一般化できない)には敏感である。
これらの制約に対処するため,本論文では,新奇性(トレーニングサンプルと異なる),忠実性,および生成標本の多様性を包括的に評価するために,密度推定を用いたパラメトリック・サンプルベース・メトリクスであるFeature Likelihood Divergence (FLD)を提案する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
また、様々な画像データセットやモデルクラス上でFLDを広範囲に評価し、FIDのような過去の指標の直感にマッチする能力を示しながら、より包括的な生成モデルの評価を提供する。
コードはhttps://github.com/marcojira/fld.comから入手できる。
The past few years have seen impressive progress in the development of deep generative models capable of producing high-dimensional, complex, and photo-realistic data. However, current methods for evaluating such models remain incomplete: standard likelihood-based metrics do not always apply and rarely correlate with perceptual fidelity, while sample-based metrics, such as FID, are insensitive to overfitting, i.e., inability to generalize beyond the training set. To address these limitations, we propose a new metric called the Feature Likelihood Divergence (FLD), a parametric sample-based metric that uses density estimation to provide a comprehensive trichotomic evaluation accounting for novelty (i.e., different from the training samples), fidelity, and diversity of generated samples. We empirically demonstrate the ability of FLD to identify overfitting problem cases, even when previously proposed metrics fail. We also extensively evaluate FLD on various image datasets and model classes, demonstrating its ability to match intuitions of previous metrics like FID while offering a more comprehensive evaluation of generative models. Code is available at https://github.com/marcojira/fld. | 翻訳日:2024-03-14 19:26:37 公開日:2024-03-13 |
# 位相遷移を厳密に探索する普遍的な「符号」を定義する
Defining an universal "sign" to strictly probe phase transition ( http://arxiv.org/abs/2301.12438v3 ) ライセンス: Link先を確認 | Nvsen Ma, Jun-Song Sun, Gaopei Pan, Chen Cheng and Zheng Yan | (参考訳) 量子モンテカルロ (QMC) シミュレーションにおける悪名高い符号問題の謎は、フェルミオン系およびフラストレーション系における手法の適用を効果的に制限している。
最近の研究 (Science \textbf{375}, 418 (2022)) では、この符号が相転移の探索に利用できることを指摘して、符号問題において顕著なブレークスルーをおこなった。
本研究では,符号問題と位相遷移が常に厳密に関連付けられないことを示すために,原点と参照系の間の自由エネルギーの差に関連する符号の定義に基づく一般論を提案した。
符号は、基準系の自由エネルギーが変数パラメータの下で平坦である場合にのみ、位相遷移を正確にプローブすることができるが、設計はほぼ不可能である。
一般に、記号が位相遷移を探索できるという結論は、普遍性のない生存バイアスである。
この問題を解決するために,参照システムの影響を排除し,位相遷移を厳密に探索する修正符号を定義する。
この研究は、新しい修飾符号によって相転移を検出する不偏解を与える。
The mystery of the infamous sign problem in quantum Monte Carlo (QMC) simulations mightily restricts applications of the method in fermionic and frustrated systems. A recent work [Science \textbf{375}, 418 (2022)] made a remarkable breakthrough in the sign problem by pointing out that the sign can be used to probe phase transition. In this work, we proposed a general argument based on the definition of the sign that is related to the difference in free energy between the original and reference systems to clarify that the sign problem and phase transition cannot always be strictly related. The sign can exactly probe phase transition only if the free energy in the reference system is flat under variable parameters, which is almost impossible to design. Generally speaking, the conclusion that the sign can probe phase transition is survivorship bias without universality. To solve this problem, we define a modified sign that excludes the influence of the reference system, which can probe the phase transition strictly. The work gives an unbiased solution for detecting phase transition by the new modified sign. | 翻訳日:2024-03-14 19:26:36 公開日:2024-03-13 |
# センサの配向に基づくスポーツクライミングにおける下降検出
強化クイックドリュー
Lowering Detection in Sport Climbing Based on Orientation of the Sensor Enhanced Quickdraw ( http://arxiv.org/abs/2301.10164v2 ) ライセンス: Link先を確認 | Sadaf Moaveninejad, Andrea Janes, Camillo Porcaro | (参考訳) 登山者の活動を追跡してサービスを改善し、インフラを最大限活用することは、体育館を登る際の関心事である。
各クライミングセッションは、登山者の開始から下降まで分析されなければならない。
そのため、登山者が降り注ぐのは、登頂がいつ終わったかを示すためである。
この問題は、登山者のプライバシーと利便性と体育館のコストを保ちながら解決しなければならない。
この目的のために,クライミングロープをボルトアンカーに接続するクイックドリューと呼ばれる壁に取り付けられたクライミング機器に取り付けられた加速度センサを用いて,データを収集するハードウェアプロトタイプを開発した。
対応するセンサはエネルギー効率がよいように構成されており、登山ジムで大量に使用する場合の費用や代替の時間消費の観点から実用的になる。
本稿では、ハードウェア仕様、超低電力モードでセンサが測定したデータ、異なる経路におけるセンサの向きパターンを検出し、低電力モードを特定するための教師ありアプローチを開発する。
Tracking climbers' activity to improve services and make the best use of their infrastructure is a concern for climbing gyms. Each climbing session must be analyzed from beginning till lowering of the climber. Therefore, spotting the climbers descending is crucial since it indicates when the ascent has come to an end. This problem must be addressed while preserving privacy and convenience of the climbers and the costs of the gyms. To this aim, a hardware prototype is developed to collect data using accelerometer sensors attached to a piece of climbing equipment mounted on the wall, called quickdraw, that connects the climbing rope to the bolt anchors. The corresponding sensors are configured to be energy-efficient, hence become practical in terms of expenses and time consumption for replacement when using in large quantity in a climbing gym. This paper describes hardware specifications, studies data measured by the sensors in ultra-low power mode, detect sensors' orientation patterns during lowering different routes, and develop an supervised approach to identify lowering. | 翻訳日:2024-03-14 19:26:35 公開日:2024-03-13 |
# Universal Neural-Cracking-Machines: 自己設定可能なパスワードモデル
補助データから
Universal Neural-Cracking-Machines: Self-Configurable Password Models from Auxiliary Data ( http://arxiv.org/abs/2301.07628v5 ) ライセンス: Link先を確認 | Dario Pasquini, Giuseppe Ateniese and Carmela Troncoso | (参考訳) パスワードモデル(Universal password model)の概念を導入し、一度事前訓練されたら、ターゲットシステムに基づいた推測戦略を自動で適用できる。
これを実現するために、モデルはターゲットの認証情報から平文パスワードにアクセスする必要はない。
代わりに、メールアドレスなどのユーザの補助情報をプロキシ信号として利用して、基盤となるパスワードの配布を予測する。
具体的には、ディープラーニングを用いて、ユーザグループ(例えば、Webアプリケーションのユーザ)の補助データとパスワードの相関関係をキャプチャする。
そしてそれらのパターンを利用して、推論時にターゲットシステム用に調整されたパスワードモデルを作成する。
さらなるトレーニングステップ、ターゲットデータ収集、コミュニティのパスワード配布に関する事前知識は必要ない。
現行のパスワード強度推定技術や攻撃の改善に加えて、任意のエンドユーザ(例えばシステム管理者)が、適切なトレーニングデータを収集し、基盤となる機械学習モデルに適合するという、動作不能な要求を伴わずに、システム用にカスタマイズされたパスワードモデルを自律的に生成することが可能になる。
最終的に、我々のフレームワークは、パスワードセキュリティソリューションを大規模に展開する上で大きな課題に対処するため、よく校正されたパスワードモデルのコミュニティへの民主化を可能にします。
We introduce the concept of "universal password model" -- a password model that, once pre-trained, can automatically adapt its guessing strategy based on the target system. To achieve this, the model does not need to access any plaintext passwords from the target credentials. Instead, it exploits users' auxiliary information, such as email addresses, as a proxy signal to predict the underlying password distribution. Specifically, the model uses deep learning to capture the correlation between the auxiliary data of a group of users (e.g., users of a web application) and their passwords. It then exploits those patterns to create a tailored password model for the target system at inference time. No further training steps, targeted data collection, or prior knowledge of the community's password distribution is required. Besides improving over current password strength estimation techniques and attacks, the model enables any end-user (e.g., system administrators) to autonomously generate tailored password models for their systems without the often unworkable requirements of collecting suitable training data and fitting the underlying machine learning model. Ultimately, our framework enables the democratization of well-calibrated password models to the community, addressing a major challenge in the deployment of password security solutions at scale. | 翻訳日:2024-03-14 19:26:35 公開日:2024-03-13 |
# 局所的凸最適化のための適応的近似アルゴリズム
勾配のリプシッツ連続性
Adaptive proximal algorithms for convex optimization under local Lipschitz continuity of the gradient ( http://arxiv.org/abs/2301.04431v4 ) ライセンス: Link先を確認 | Puya Latafat, Andreas Themelis, Lorenzo Stella, and Panagiotis Patrinos | (参考訳) バックトラックライン探索は、局所リプシッツ勾配を持つ連続微分可能関数を最小化するデファクトアプローチである。
近年,凸条件下ではライン探索を完全に回避し,関数値のバックトラックや評価を伴わずに局所的滑らか度推定に基づいて段階的に適応できることが示されている。
本研究では,局所滑らか度係数の新たな推定値を用いた適応的近位勾配法 adaPG を提案する。
このアイデアは、PDHG法の拡張と見なせる適応的な3項原始双対アルゴリズムであるadaPDが提案される原始双対設定にまで拡張される。
さらに、この設定では、バックトラック手順を呼び出すことで線形作用素ノルムの評価を回避し、著しく、追加の勾配評価を必要としない完全適応型 adaPD$^+$ が提案されている。
数値シミュレーションにより,提案アルゴリズムの有効性を最先端技術と比較した。
Backtracking linesearch is the de facto approach for minimizing continuously differentiable functions with locally Lipschitz gradient. In recent years, it has been shown that in the convex setting it is possible to avoid linesearch altogether, and to allow the stepsize to adapt based on a local smoothness estimate without any backtracks or evaluations of the function value. In this work we propose an adaptive proximal gradient method, adaPG, that uses novel estimates of the local smoothness modulus which leads to less conservative stepsize updates and that can additionally cope with nonsmooth terms. This idea is extended to the primal-dual setting where an adaptive three-term primal-dual algorithm, adaPD, is proposed which can be viewed as an extension of the PDHG method. Moreover, in this setting the "essentially" fully adaptive variant adaPD$^+$ is proposed that avoids evaluating the linear operator norm by invoking a backtracking procedure, that, remarkably, does not require extra gradient evaluations. Numerical simulations demonstrate the effectiveness of the proposed algorithms compared to the state of the art. | 翻訳日:2024-03-14 19:26:34 公開日:2024-03-13 |
# 線形二次ガウス解の直接潜在モデル学習
コントロール?
Can Direct Latent Model Learning Solve Linear Quadratic Gaussian Control? ( http://arxiv.org/abs/2212.14511v2 ) ライセンス: Link先を確認 | Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra | (参考訳) 本研究では、未知の部分観測可能なシステムを制御することを目的として、潜在的に高次元観測から状態表現を学習するタスクについて検討する。
我々は,ある潜在状態空間における動的モデルを,観測を再構築することなく,計画(コストなど)に直接関連した量を予測することによって学習する,直接潜在モデル学習手法を追求する。
特に、線形二次ガウス制御(LQG)を解くための直感的なコスト駆動型状態表現学習法に着目する。
本研究の主な成果として、直接学習された潜在モデルを用いて、準最適状態表現関数と準最適制御関数を求める有限サンプル保証を確立する。
我々の知る限り、様々な実証的な成功にもかかわらず、このようなコスト駆動の潜在モデル学習者が有限サンプル保証を享受しているかどうかは不明だった。
我々の研究は、多段階のコストを予測することの価値、そして我々の理論の鍵となるアイデア、そして特に、状態表現を学習するのに経験的に価値のあるアイデアを強調している。
We study the task of learning state representations from potentially high-dimensional observations, with the goal of controlling an unknown partially observable system. We pursue a direct latent model learning approach, where a dynamic model in some latent state space is learned by predicting quantities directly related to planning (e.g., costs) without reconstructing the observations. In particular, we focus on an intuitive cost-driven state representation learning method for solving Linear Quadratic Gaussian (LQG) control, one of the most fundamental partially observable control problems. As our main results, we establish finite-sample guarantees of finding a near-optimal state representation function and a near-optimal controller using the directly learned latent model. To the best of our knowledge, despite various empirical successes, prior to this work it was unclear if such a cost-driven latent model learner enjoys finite-sample guarantees. Our work underscores the value of predicting multi-step costs, an idea that is key to our theory, and notably also an idea that is known to be empirically valuable for learning state representations. | 翻訳日:2024-03-14 19:26:33 公開日:2024-03-13 |
# オンラインカーネル学習のためのカーネルアライメントレギュレータ境界の改良
Improved Kernel Alignment Regret Bound for Online Kernel Learning ( http://arxiv.org/abs/2212.12989v4 ) ライセンス: Link先を確認 | Junfan Li and Shizhong Liao | (参考訳) 本稿では,Hinge損失関数の仕組みにおいて,オンラインカーネル学習に拘束されるカーネルアライメントの後悔を改善する。
事前のアルゴリズムは、$O((\mathcal{A}_TT\ln{T})^{\frac{1}{4}})$O(\sqrt{\mathcal{A}_TT\ln{T}})$の計算複雑性(空間と単位時間)において、$O(\sqrt{\mathcal{A}_TT\ln{T}})$を後悔する。
提案手法は, 既往の結果よりも, 計算量や計算量が多くなるアルゴリズムを提案する。
この結果は、核行列の固有値の減衰速度に依存する。
核行列の固有値が指数関数的に減衰すると、我々のアルゴリズムは$O(\sqrt{\mathcal{A}_T})$の後悔を、$O(\ln^2{T})$の計算複雑性で楽しむ。
さもなくば、我々のアルゴリズムは$O((\mathcal{A}_TT)^{\frac{1}{4}})$の計算複雑性で$O(\sqrt{\mathcal{A}_TT})$の後悔を楽しむ。
我々はアルゴリズムをバッチ学習に拡張し、以前の$O(1/\sqrt{T})$境界を改善した$O(\frac{1}{T}\sqrt{\mathbb{E}[\mathcal{A}_T]})$余剰リスク境界を得る。
In this paper, we improve the kernel alignment regret bound for online kernel learning in the regime of the Hinge loss function. Previous algorithm achieves a regret of $O((\mathcal{A}_TT\ln{T})^{\frac{1}{4}})$ at a computational complexity (space and per-round time) of $O(\sqrt{\mathcal{A}_TT\ln{T}})$, where $\mathcal{A}_T$ is called \textit{kernel alignment}. We propose an algorithm whose regret bound and computational complexity are better than previous results. Our results depend on the decay rate of eigenvalues of the kernel matrix. If the eigenvalues of the kernel matrix decay exponentially, then our algorithm enjoys a regret of $O(\sqrt{\mathcal{A}_T})$ at a computational complexity of $O(\ln^2{T})$. Otherwise, our algorithm enjoys a regret of $O((\mathcal{A}_TT)^{\frac{1}{4}})$ at a computational complexity of $O(\sqrt{\mathcal{A}_TT})$. We extend our algorithm to batch learning and obtain a $O(\frac{1}{T}\sqrt{\mathbb{E}[\mathcal{A}_T]})$ excess risk bound which improves the previous $O(1/\sqrt{T})$ bound. | 翻訳日:2024-03-14 19:26:33 公開日:2024-03-13 |
# ケミカルネームエンティティにおけるジェンダーバイアスの総合的研究
認識モデル
A Comprehensive Study of Gender Bias in Chemical Named Entity Recognition Models ( http://arxiv.org/abs/2212.12799v2 ) ライセンス: Link先を確認 | Xingmeng Zhao, Ali Niazi and Anthony Rios | (参考訳) ケミカルネームエンティティ認識(NER)モデルは、有害薬物反応の同定から薬剤疫学まで、多くの下流タスクで使用されている。
しかし、これらのモデルが全員で同じように動作するかどうかは不明である。
パフォーマンスの格差は、意図された善よりも害を引き起こす可能性がある。
本稿では, 化学NERシステムにおけるジェンダー関連性能格差について検討する。
合成データを用いて化学NERモデルの性別バイアスを測定するためのフレームワークを開発し、Redditから92,405語以上の注釈付きコーパスを同定した。
バイオメディカルNERモデルによる評価は明らかな偏見を呈する。
例えば、合成データでは、女性関連の名前はしばしば化学物質、特にブランド名について誤分類されていることを示唆している。
さらに,両データセットにおける男女関連データのパフォーマンス格差も観察した。
多くのシステムは、出生制御のような避妊薬を検出できない。
我々の研究は, 化学NERモデルのバイアスを強調し, 下流の応用においてこれらのバイアスを考慮するよう実践者に促した。
Chemical named entity recognition (NER) models are used in many downstream tasks, from adverse drug reaction identification to pharmacoepidemiology. However, it is unknown whether these models work the same for everyone. Performance disparities can potentially cause harm rather than the intended good. This paper assesses gender-related performance disparities in chemical NER systems. We develop a framework for measuring gender bias in chemical NER models using synthetic data and a newly annotated corpus of over 92,405 words with self-identified gender information from Reddit. Our evaluation of multiple biomedical NER models reveals evident biases. For instance, synthetic data suggests female-related names are frequently misclassified as chemicals, especially for brand name mentions. Additionally, we observe performance disparities between female- and male-associated data in both datasets. Many systems fail to detect contraceptives such as birth control. Our findings emphasize the biases in chemical NER models, urging practitioners to account for these biases in downstream applications. | 翻訳日:2024-03-14 19:26:32 公開日:2024-03-13 |
# 対訳 コンデンセーション(コンデンセーション)
Anyon condensation and the color code ( http://arxiv.org/abs/2212.00042v2 ) ライセンス: Link先を確認 | Markus S. Kesselring, Julio C. Magdalena de la Fuente, Felix Thomsen, Jens Eisert, Stephen D. Bartlett, and Benjamin J. Brown | (参考訳) 量子情報をエンコードし、処理するために、トポロジカルに順序付けられた物質相の操作は、フォールトトレラント量子コンピューティングに対する多くのアプローチの基盤となる。
ここでは、これらの手法におけるフォールトトレラントな論理演算が、任意の凝縮のインスタンスとして解釈できることを示す。
我々は、任意の縮合に対する構成理論を示し、タンデムでは、カラーコードモデルを用いて、我々の理論を明示的に説明する。
異なる凝縮過程は、空間的方向と時間的方向の両方に存在し得る領域壁の一般クラスと関連していることを示す。
このクラスは、オンの特定の部分集合を凝縮する半透明なドメインウォールを含む。
我々はこの理論を用いてトポロジカルオブジェクトを分類し、カラーコードのための新しいフォールトトレラント論理ゲートを設計する。
最後の例として、動的 'Floquet codes' を一連の凝縮演算と見なすこともできると論じる。
カラーコード上の凝縮演算に基づく平面動的符号を実現するための一般的な構成法を提案する。
我々は、新しいCalderbank-Shor Steane型Floquetコードを導入し、Floquetカラーコードと呼ぶ。
The manipulation of topologically-ordered phases of matter to encode and process quantum information forms the cornerstone of many approaches to fault-tolerant quantum computing. Here we demonstrate that fault-tolerant logical operations in these approaches can be interpreted as instances of anyon condensation. We present a constructive theory for anyon condensation and, in tandem, illustrate our theory explicitly using the color-code model. We show that different condensation processes are associated with a general class of domain walls, which can exist in both space- and time-like directions. This class includes semi-transparent domain walls that condense certain subsets of anyons. We use our theory to classify topological objects and design novel fault-tolerant logic gates for the color code. As a final example, we also argue that dynamical `Floquet codes' can be viewed as a series of condensation operations. We propose a general construction for realising planar dynamically driven codes based on condensation operations on the color code. We use our construction to introduce a new Calderbank-Shor Steane-type Floquet code that we call the Floquet color code. | 翻訳日:2024-03-14 19:26:31 公開日:2024-03-13 |
# TILDE-Q: 時系列の変換不変損失関数
予見
TILDE-Q: A Transformation Invariant Loss Function for Time-Series Forecasting ( http://arxiv.org/abs/2210.15050v2 ) ライセンス: Link先を確認 | Hyunwook Lee, Chunggi Lee, Hongkyu Lim, Sungahn Ko | (参考訳) 時系列予測は、エネルギー、天気、交通、経済など、さまざまな領域で現実世界の問題に対処する可能性から、人工知能の分野で注目を集めている。
時系列予測はよく研究されている分野であるが、時系列データの急激な変化などの複雑な時間的パターンを予測することは、現在のモデルでは依然として課題となっている。
この困難は、平均絶対誤差(MAE)や平均二乗誤差(MSE)のような損失関数としてLpノルム距離を最小化することに起因する。
さらに、これらの関数は、しばしばモデルを異常に振舞い、元の時系列と相関しない結果を生成する。
したがって、単なる点比較以上の形状認識損失関数の開発が不可欠である。
本稿では,時系列予測における形状認識に不可欠な形状と歪みの定義について検討し,形状認識損失関数の設計的根拠を提供する。
設計の理論的根拠に基づいて, 振幅と位相歪みだけでなく, 時系列列の形状をモデルで捉えることのできる, TILDEQ (Transformation Invariant Loss function with Distance EQuilibrium) という, コンパクトな損失関数を提案する。
さらに、TILDE-Qは周期的および非周期的時間力学の同時モデリングをサポートする。
本研究は, TILDE-Qの有効性を, 周期的および非周期的な条件下で, ナイーブから最先端まで様々なモデルを用いて広範囲な実験を行うことにより評価する。
TILDE-Qでトレーニングされたモデルは、電気、交通、病気、経済、天候、電気変圧器温度(ETT)など、様々な実世界の応用において、MSEやDILATEといった他のメトリクスでトレーニングされたモデルを上回っている。
Time-series forecasting has gained increasing attention in the field of artificial intelligence due to its potential to address real-world problems across various domains, including energy, weather, traffic, and economy. While time-series forecasting is a well-researched field, predicting complex temporal patterns such as sudden changes in sequential data still poses a challenge with current models. This difficulty stems from minimizing Lp norm distances as loss functions, such as mean absolute error (MAE) or mean square error (MSE), which are susceptible to both intricate temporal dynamics modeling and signal shape capturing. Furthermore, these functions often cause models to behave aberrantly and generate uncorrelated results with the original time-series. Consequently, developing a shape-aware loss function that goes beyond mere point-wise comparison is essential. In this paper, we examine the definition of shape and distortions, which are crucial for shape-awareness in time-series forecasting, and provide a design rationale for the shape-aware loss function. Based on our design rationale, we propose a novel, compact loss function called TILDEQ (Transformation Invariant Loss function with Distance EQuilibrium) that considers not only amplitude and phase distortions but also allows models to capture the shape of time-series sequences. Furthermore, TILDE-Q supports the simultaneous modeling of periodic and nonperiodic temporal dynamics. We evaluate the efficacy of TILDE-Q by conducting extensive experiments under both periodic and nonperiodic conditions with various models ranging from naive to state-of-the-art. The experimental results show that the models trained with TILDE-Q surpass those trained with other metrics, such as MSE and DILATE, in various real-world applications, including electricity, traffic, illness, economics, weather, and electricity transformer temperature (ETT). | 翻訳日:2024-03-14 19:26:30 公開日:2024-03-13 |
# メタパターンに関するスコア:人的価値を用いた新しい評価尺度
マルチクラス化のための
Meta Pattern Concern Score: A Novel Evaluation Measure with Human Values for Multi-classifiers ( http://arxiv.org/abs/2209.06408v3 ) ライセンス: Link先を確認 | Yanyun Wang, Dehui Du, Yuanhao Liu | (参考訳) 高度な分類器は、現実世界の安全クリティカルなアプリケーションでますます使われているが、特定の人間の価値を与えられたブラックボックスモデルをどのように適切に評価するかは、コミュニティで懸念されている。
このような人的価値には、様々な度合いで異なる重大さのエラーケースを罰することや、特定の危険なケースを減らすために一般的なパフォーマンスで妥協することが含まれる。
本稿では,確率的予測の抽象的表現と予測信頼度における譲歩の調整可能なしきい値に基づくメタパターン関連スコア(メタパターンスコア)という新しい評価尺度を提案する。
技術的には、混乱行列に基づく評価尺度と損失値という2種類の共通指標の長所と短所から学習し、一般的なタスクでもこれらの指標は有効であり、交差エントロピー損失は限界における我々の指標の特別な場合となる。
また,学習率を動的に調整することで,モデルの訓練を洗練させることも可能である。
4種類のモデルと6つのデータセットによる実験により,我々の測定の有効性と有効性が確認された。
ケーススタディでは、トレーニング精度の0.04%を犠牲にすることで、0.53%の危険ケースを削減できる理想的なモデルを見つけるだけでなく、学習率を改良して、従来のモデルよりも1.62%低い値と6%少ない危険ケースを平均的に上回るように訓練する。
While advanced classifiers have been increasingly used in real-world safety-critical applications, how to properly evaluate the black-box models given specific human values remains a concern in the community. Such human values include punishing error cases of different severity in varying degrees and making compromises in general performance to reduce specific dangerous cases. In this paper, we propose a novel evaluation measure named Meta Pattern Concern Score based on the abstract representation of probabilistic prediction and the adjustable threshold for the concession in prediction confidence, to introduce the human values into multi-classifiers. Technically, we learn from the advantages and disadvantages of two kinds of common metrics, namely the confusion matrix-based evaluation measures and the loss values, so that our measure is effective as them even under general tasks, and the cross entropy loss becomes a special case of our measure in the limit. Besides, our measure can also be used to refine the model training by dynamically adjusting the learning rate. The experiments on four kinds of models and six datasets confirm the effectiveness and efficiency of our measure. And a case study shows it can not only find the ideal model reducing 0.53% of dangerous cases by only sacrificing 0.04% of training accuracy, but also refine the learning rate to train a new model averagely outperforming the original one with a 1.62% lower value of itself and 0.36% fewer number of dangerous cases. | 翻訳日:2024-03-14 19:26:29 公開日:2024-03-13 |
# TSFool: 高い非知覚の逆数時系列を制作する
多目的攻撃
TSFool: Crafting Highly-Imperceptible Adversarial Time Series through Multi-Objective Attack ( http://arxiv.org/abs/2209.06388v3 ) ライセンス: Link先を確認 | Yanyun Wang, Dehui Du, Haibo Hu, Zi Liang and Yuanhao Liu | (参考訳) 近年、時系列分類(TSC)におけるリカレントニューラルネットワーク(RNN)モデルの成功を目撃している。
しかし、ニューラルネットワーク(NN)は敵のサンプルに弱いため、現実の敵攻撃を引き起こし、AIモデルの堅牢性を損なう。
現在までに、ほとんどの攻撃はフィードフォワードNNや画像認識タスクをターゲットとしているが、RNNベースのTSCではうまく機能しない。
これはRNNのサイクル計算によるものであり、直接モデルの微分を妨げている。
さらに、摂動に対する時系列の高視覚感度は、対向サンプルの局所的な客観的最適化にも課題をもたらす。
本稿では,TSFool と呼ばれる効率的な手法を提案する。
中心となる考え方は、「カモフラージュ係数」(Camouflage Coefficient)と呼ばれる新しい大域的な最適化目標であり、クラス分布から反対サンプルの非受容性を捉えるものである。
そこで本研究では, 対向攻撃問題を多目的最適化問題に還元し, 摂動品質を向上する。
さらに, 最適化過程を高速化するために, RNNの表現モデルを用いて, 潜在多様体から特徴が逸脱した, 深く埋め込まれた脆弱なサンプルを捕捉する。
11のUCRデータセットとUEAデータセットの実験では、TSFoolは6つのホワイトボックスと3つのブラックボックスベンチマークを、標準測度、人間の研究、現実世界の防衛など、さまざまな観点から、有効性、効率、認識不能性の観点から大きく上回っている。
Recent years have witnessed the success of recurrent neural network (RNN) models in time series classification (TSC). However, neural networks (NNs) are vulnerable to adversarial samples, which cause real-life adversarial attacks that undermine the robustness of AI models. To date, most existing attacks target at feed-forward NNs and image recognition tasks, but they cannot perform well on RNN-based TSC. This is due to the cyclical computation of RNN, which prevents direct model differentiation. In addition, the high visual sensitivity of time series to perturbations also poses challenges to local objective optimization of adversarial samples. In this paper, we propose an efficient method called TSFool to craft highly-imperceptible adversarial time series for RNN-based TSC. The core idea is a new global optimization objective known as "Camouflage Coefficient" that captures the imperceptibility of adversarial samples from the class distribution. Based on this, we reduce the adversarial attack problem to a multi-objective optimization problem that enhances the perturbation quality. Furthermore, to speed up the optimization process, we propose to use a representation model for RNN to capture deeply embedded vulnerable samples whose features deviate from the latent manifold. Experiments on 11 UCR and UEA datasets showcase that TSFool significantly outperforms six white-box and three black-box benchmark attacks in terms of effectiveness, efficiency and imperceptibility from various perspectives including standard measure, human study and real-world defense. | 翻訳日:2024-03-14 19:26:29 公開日:2024-03-13 |
# 畳み込みニューラルネットワークを用いた高効率Dense Point Cloud
符号なし距離場を用いた生成
Convolutional Neural Network-based Efficient Dense Point Cloud Generation using Unsigned Distance Fields ( http://arxiv.org/abs/2203.11537v3 ) ライセンス: Link先を確認 | Abol Basher and Jani Boutellier | (参考訳) スパースまたは不完全なポイントクラウドから複雑なポイントクラウドを生成することは、3Dコンピュータビジョンとコンピュータグラフィックスにおいて決定的かつ困難な問題である。
これまでのところ、既存の手法は計算コストが大きすぎるか、解像度が限られているか、その両方だ。
加えて、いくつかの手法は水密面に厳格に制限されている。
これらの問題に対処するために,最近出現した暗黙関数学習の概念を用いて,高密度点雲生成のための任意の3次元形状の符号なし距離場を学習し,予測する軽量畳み込みニューラルネットワークを提案する。
実験により、提案したアーキテクチャは、モデルパラメータの7.8倍、推論時間が2.4倍、生成品質が24.8%向上した。
Dense point cloud generation from a sparse or incomplete point cloud is a crucial and challenging problem in 3D computer vision and computer graphics. So far, the existing methods are either computationally too expensive, suffer from limited resolution, or both. In addition, some methods are strictly limited to watertight surfaces -- another major obstacle for a number of applications. To address these issues, we propose a lightweight Convolutional Neural Network that learns and predicts the unsigned distance field for arbitrary 3D shapes for dense point cloud generation using the recently emerged concept of implicit function learning. Experiments demonstrate that the proposed architecture outperforms the state of the art by 7.8x less model parameters, 2.4x faster inference time and up to 24.8% improved generation quality compared to the state-of-the-art. | 翻訳日:2024-03-14 19:26:27 公開日:2024-03-13 |
# 画像分類のための新しい量子CNNモデル
A New Quantum CNN Model for Image Classification ( http://arxiv.org/abs/2203.11155v5 ) ライセンス: Link先を確認 | X. Q. Zhao, T. L. Chen | (参考訳) 量子密度行列(Quantum density matrix)は、量子系の全ての情報を表し、密度行列を用いた新しいモデルでは、量子問題応答タスクにおいて、仮説や言語的あいまいさなどの言語現象を自然にモデル化する。
自然に、量子密度行列は、画像特徴情報と古典的な画像分類の特徴との関係性を高めることができると論じる。
具体的には
i) 密度行列とCNNを組み合わせて新しい機構を設計すること。
(II)いくつかの代表的な古典的画像分類タスクに新しいメカニズムを適用する。
一連の実験により、画像分類における量子密度行列の応用は、異なるデータセットに対する一般化と高効率性を有することが示された。
古典的質問応答タスクと古典的画像分類タスクの両方における量子密度行列の適用は、より効果的な性能を示している。
Quantum density matrix represents all the information of the entire quantum system, and novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others in quantum question answering tasks. Naturally, we argue that the quantum density matrix can enhance the image feature information and the relationship between the features for the classical image classification. Specifically, we (i) combine density matrices and CNN to design a new mechanism; (ii) apply the new mechanism to some representative classical image classification tasks. A series of experiments show that the application of quantum density matrix in image classification has the generalization and high efficiency on different datasets. The application of quantum density matrix both in classical question answering tasks and classical image classification tasks show more effective performance. | 翻訳日:2024-03-14 19:26:27 公開日:2024-03-13 |
# ディープフェイク検出のベンチマークと評価に向けて
Towards Benchmarking and Evaluating Deepfake Detection ( http://arxiv.org/abs/2203.02115v2 ) ライセンス: Link先を確認 | Chenhao Lin, Jingyi Deng, Pengbin Hu, Chao Shen, Qian Wang, Qi Li | (参考訳) ディープフェイク検出は、操作されたビデオと非修正されたビデオの違いを分析することによって、操作されたメディアを自動的に認識する。
既存のディープフェイク検出手法の中で、どちらがトップパフォーマーであるかを問うことは自然であり、有望な研究方向を特定し、実践的なガイダンスを提供する。
残念なことに,本論文では,評価条件が研究全体で矛盾しているため,既存の検出手法の健全なベンチマーク比較を行うことは困難である。
本研究の目的は, 総合的かつ一貫したベンチマークを確立し, 繰り返し可能な評価手法を開発し, 結果の健全な比較を可能にするため, 様々な検出手法の性能を計測することである。
13以上の異なる手法によって生成された操作されたサンプルからなる挑戦的データセットが収集され、既存の文献からの11の一般的な検出手法(9つのアルゴリズム)が実装され、6つの公正で実用的な評価指標で評価されている。
最後に、92のモデルが訓練され、644の実験が実施されている。
結果と共有データと評価手法は、ディープフェイク検出手法の比較と進捗測定のためのベンチマークを構成する。
Deepfake detection automatically recognizes the manipulated medias through the analysis of the difference between manipulated and non-altered videos. It is natural to ask which are the top performers among the existing deepfake detection approaches to identify promising research directions and provide practical guidance. Unfortunately, it's difficult to conduct a sound benchmarking comparison of existing detection approaches using the results in the literature because evaluation conditions are inconsistent across studies. Our objective is to establish a comprehensive and consistent benchmark, to develop a repeatable evaluation procedure, and to measure the performance of a range of detection approaches so that the results can be compared soundly. A challenging dataset consisting of the manipulated samples generated by more than 13 different methods has been collected, and 11 popular detection approaches (9 algorithms) from the existing literature have been implemented and evaluated with 6 fair-minded and practical evaluation metrics. Finally, 92 models have been trained and 644 experiments have been performed for the evaluation. The results along with the shared data and evaluation methodology constitute a benchmark for comparing deepfake detection approaches and measuring progress. | 翻訳日:2024-03-14 19:26:26 公開日:2024-03-13 |
# 非常に小さな古典的値を持つ構成的非局所ゲーム
Constructive nonlocal games with very small classical values ( http://arxiv.org/abs/2112.07741v2 ) ライセンス: Link先を確認 | M.Rosicka, S.Szarek, A.Rutkowski, P.Gnaci\'nski, M.Horodecki | (参考訳) 古典値と量子値の間に大きなギャップがある2人のプレイヤー非局所ゲームの明確な例はほとんどない。
その理由の1つは、古典的価値を見積もるのは、通常、難しい計算作業であるからである。
本稿では,いわゆるリニアゲーム(XORゲームからより多くのアウトプットへの一般化)の古典的価値を分析することを目的としている。
グラフ理論の非自明な結果を用いて、調和解析の文脈で以前に用いられた数論的な結果と組み合わせて、新しいツール -- girth method} を得る。
特に、可能な古典的価値の最小限のゲームを提供する。
次に、得られた古典的値と量子値の既知の上限を比較することによって、潜在的な非有界な違反を推測する。
この境界が漸近的に飽和しても、我々のゲームは、他の明示的な(非ランダムな)構成と比較して、入力と出力の積の関数として量子値と古典値の最良の比を持つ。
There are few explicit examples of two player nonlocal games with a large gap between classical and quantum value. One of the reasons is that estimating the classical value is usually a hard computational task. This paper is devoted to analyzing classical values of the so-called linear games (generalization of XOR games to a larger number of outputs). We employ nontrivial results from graph theory and combine them with number theoretic results used earlier in the context of harmonic analysis to obtain a novel tool -- {\it the girth method} -- allowing to provide explicit examples of linear games with prescribed low classical value. In particular, we provide games with minimal possible classical value. We then speculate on the potential unbounded violation, by comparing the obtained classical values with a known upper bound for the quantum value. If this bound can be even asymptotically saturated, our games would have the best ratio of quantum to classical value as a function of the product of the number of inputs and outputs when compared to other explicit (i.e. non-random) constructions. | 翻訳日:2024-03-14 19:26:26 公開日:2024-03-13 |
# モデル構築による確率勾配のボルスター化
Bolstering Stochastic Gradient Descent with Model Building ( http://arxiv.org/abs/2111.07058v4 ) ライセンス: Link先を確認 | S. Ilker Birbil, Ozgur Martin, Gonenc Onay, Figen Oztoprak | (参考訳) 確率勾配降下法とその変種は、機械学習問題を解決するための優れた収束率を達成するためのコア最適化アルゴリズムを構成する。
これらのレートは、特にこれらのアルゴリズムが手元にあるアプリケーションのために微調整されているときに得られる。
このチューニングには膨大な計算コストが必要となるが,近年の研究では,ステップ長を反復的に調整する行探索法により,これらのコストを削減できることが示されている。
本稿では,前方ステップモデル構築に基づく新しいアルゴリズムを用いて,確率線探索の代替手法を提案する。
このモデル構築ステップは、ステップ長だけでなく探索方向も調整可能な2階情報を含む。
深層学習モデルパラメータが群(テンソル層)に含まれることに注目し,本手法はモデルを構築し,各パラメータ群に対する新しいステップを算出する。
この新たな対角化アプローチは、選択されたステップ長を適応させる。
本稿では, 収束率解析を行い, 提案アルゴリズムがよく知られたテスト問題において, より高速な収束とより優れた一般化を実現することを実験的に示す。
より正確には、SMBはチューニングを少なくし、他の適応型メソッドと同等のパフォーマンスを示す。
Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the step length. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates second-order information that allows adjusting not only the step length but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in well-known test problems. More precisely, SMB requires less tuning, and shows comparable performance to other adaptive methods. | 翻訳日:2024-03-14 19:26:25 公開日:2024-03-13 |
# 準線形時間における終端埋め込み
Terminal Embeddings in Sublinear Time ( http://arxiv.org/abs/2110.08691v3 ) ライセンス: Link先を確認 | Yeshwanth Cherapanamjeri, Jelani Nelson | (参考訳) 最近 (Elkin, Filtser, Neiman 2017) は、ある計量空間 $(X,d_X)$ から別の $(Y,d_Y)$ への、指定された端末の集合 $T\subset X$ への {\it 端末埋め込みの概念を導入した。
そのような埋め込み $f$ が歪み $\rho\ge 1$ を持つとは、$\rho$ が定数 $C>0$ が存在して、x\in T\ \forall q\in X,\ C d_X(x, q) \le d_Y(f(x), f(q)) \le C \rho d_X(x, q) を満たすような最小値である。
\end{equation*} $X,Y$ が 2 つのユークリッド計量で$Y$ が $m$-dimensional であるとき(Narayananan, Nelson 2019)、(Mahabadi, Makarychev, Makarychev, Razenshteyn 2018)、歪み $1+\epsilon$ が $m = O(\epsilon^{-2}\log n)$ for $n := |T|$ であることを示す。
これはジョンソン・リンデンシュトラウス補題を一般化し、これは空間の残りの部分から$T$の範囲内でしか距離を保たない。
以前の研究の欠点は、ある$q\in \mathbb{R}^d$への埋め込みを評価するには、$\Theta(n)$の制約を~$m$変数で解く必要があり、従って、いくつかの超線型$\mathrm{poly}(n)$ランタイムを必要とすることである。
この研究の主な貢献は、端末の埋め込みを計算するための新しいデータ構造を提供することです。
サブ線形時間$O^* (n^{1-\Theta(\epsilon^2)} + d)$における任意の$q\in\mathbb{R}^d$の埋め込み画像の計算をサポートする、ほぼ線形空間のデータ構造を得るために、$T$を前処理する方法を示す。
これを実現するために,近い近傍探索の文脈で開発されたツールを活用する。
Recently (Elkin, Filtser, Neiman 2017) introduced the concept of a {\it terminal embedding} from one metric space $(X,d_X)$ to another $(Y,d_Y)$ with a set of designated terminals $T\subset X$. Such an embedding $f$ is said to have distortion $\rho\ge 1$ if $\rho$ is the smallest value such that there exists a constant $C>0$ satisfying \begin{equation*} \forall x\in T\ \forall q\in X,\ C d_X(x, q) \le d_Y(f(x), f(q)) \le C \rho d_X(x, q) . \end{equation*} When $X,Y$ are both Euclidean metrics with $Y$ being $m$-dimensional, recently (Narayanan, Nelson 2019), following work of (Mahabadi, Makarychev, Makarychev, Razenshteyn 2018), showed that distortion $1+\epsilon$ is achievable via such a terminal embedding with $m = O(\epsilon^{-2}\log n)$ for $n := |T|$. This generalizes the Johnson-Lindenstrauss lemma, which only preserves distances within $T$ and not to $T$ from the rest of space. The downside of prior work is that evaluating their embedding on some $q\in \mathbb{R}^d$ required solving a semidefinite program with $\Theta(n)$ constraints in~$m$ variables and thus required some superlinear $\mathrm{poly}(n)$ runtime. Our main contribution in this work is to give a new data structure for computing terminal embeddings. We show how to pre-process $T$ to obtain an almost linear-space data structure that supports computing the terminal embedding image of any $q\in\mathbb{R}^d$ in sublinear time $O^* (n^{1-\Theta(\epsilon^2)} + d)$. To accomplish this, we leverage tools developed in the context of approximate nearest neighbor search. | 翻訳日:2024-03-14 19:26:25 公開日:2024-03-13 |
# 量子力学を完成させる現実的モデル
A realistic model for completing Quantum Mechanics ( http://arxiv.org/abs/2104.12701v4 ) ライセンス: Link先を確認 | M. Baldo (INFN, Sezione di Catania) | (参考訳) N. Bohr が提唱した量子力学のコペンハーゲン解釈(英語版)では、物理的対象と実験結果はマクロ言語でのみ記述でき、どんな微視的記述も説明できないままである。
この見解は、量子力学のリレーショナル解釈において、C. Rovelliによってより深められた。
物理現象の詳細な微視的な説明と進化を試みている他の解釈の多くは、波動関数を理論の基本要素として明らかに導入している。
これらの解釈は量子状態の概念を理論の基本概念として必要としており、コペンハーゲン解釈(英語版)による典型的な説明不可能な物理要素である。
2つの基本的な物理的実体は波動関数の整合性によって密接に結びついている。
これらの解釈は通常、現実的なものとして表される。
物理過程の記述における波動関数の利用とその時間進化は、必然的にいくつかの困難またはいわゆるパラドックスに繋がる。
測定問題は、主に量子力学の数学的形式に明示的に含まれていない波動関数の還元過程の導入を必要とするため、これらの困難の中心にある。
本稿では, 標準形式を超越したモデルの構築と提案を行い, 測定問題とそれに関連する他の問題をすべて解決できるモデルを提案する。
In the well known Copenhagen interpretation of Quantum mechanics, advocated by N. Bohr, the physical objects and the experimental results can be described only in a macroscopic language, leaving any possible microscopic description as unspeakable. This point of view has been deepened by C. Rovelli in the relational interpretation of Quantum mechanics. Most of the alternative interpretations, which try a detailed microscopic description of physical phenomena and of their evolution, have in common the explicit introduction of the wave function as the basic element of the theory. These interpretations require the notion of quantum state as the fundamental concept of the theory, which is the typical unspeakable physical element according to the Copenhagen interpretation. The two basic physical entities are intimately bound together by the integrity of the wave function. These interpretations are usually indicated as realistic. It is well known that the use of the wave function and its time evolution in the description of the physical processes leads unavoidably to some difficulties or so-called paradoxes. The measurement problem is at the center of these difficulties, mainly because it requires the introduction of the reduction process of the wave function, which is not included explicitly within the mathematical formalism of Quantum Mechanics. In this paper we build up and propose a model which goes beyond the standard formalism and which is able to solve the measurement problem and all the other difficulties which, in a way or in another, are related to it. | 翻訳日:2024-03-14 19:26:23 公開日:2024-03-13 |
# mForms : 質問応答によるマルチモーダルフォームフィリング
mForms : Multimodal Form-Filling with Question Answering ( http://arxiv.org/abs/2011.12340v3 ) ライセンス: Link先を確認 | Larry Heck, Simon Heck, Anirudh Sundar | (参考訳) 本稿では,マルチモーダルな自然言語質問回答 (QA) としてタスクを再構築し,フォームフィリングへの新たなアプローチを提案する。
GUI形式の要素(テキストフィールド、ボタン、アイコンなど)を自然言語の質問に翻訳し、これらの質問が要素のマルチモーダルなセマンティクスをキャプチャする。
フォーム要素(クエスト)とユーザ発話(アンサー)との一致が決定されると、予め訓練された抽出QAシステムを介してフォーム要素を充填する。
事前訓練されたQAモデルを活用し、フォーム固有のトレーニングを必要としないことで、フォームフィリングへのアプローチはゼロショットである。
また, マルチタスク学習を用いて, 多くのタスクを組み込むことにより, フォームフィリングをさらに洗練する手法を提案する。
最後に,Multimodal natural language form-filling dataset Multimodal Forms (mForms)を紹介するとともに,今後の研究と実験を支援するために,一般的なATISデータセットのマルチモーダル拡張を提案する。
その結果, この手法は, スパーストレーニング条件に対する堅牢な精度を維持するだけでなく, トレーニングデータの約10分の1をATIS上で0.97の最先端F1を達成することができた。
This paper presents a new approach to form-filling by reformulating the task as multimodal natural language Question Answering (QA). The reformulation is achieved by first translating the elements on the GUI form (text fields, buttons, icons, etc.) to natural language questions, where these questions capture the element's multimodal semantics. After a match is determined between the form element (Question) and the user utterance (Answer), the form element is filled through a pre-trained extractive QA system. By leveraging pre-trained QA models and not requiring form-specific training, this approach to form-filling is zero-shot. The paper also presents an approach to further refine the form-filling by using multi-task training to incorporate a potentially large number of successive tasks. Finally, the paper introduces a multimodal natural language form-filling dataset Multimodal Forms (mForms), as well as a multimodal extension of the popular ATIS dataset to support future research and experimentation. Results show the new approach not only maintains robust accuracy for sparse training conditions but achieves state-of-the-art F1 of 0.97 on ATIS with approximately 1/10th of the training data. | 翻訳日:2024-03-14 19:26:22 公開日:2024-03-13 |
# 最大幾何学量子エントロピー
Maximum Geometric Quantum Entropy ( http://arxiv.org/abs/2008.08679v3 ) ライセンス: Link先を確認 | Fabio Anza and James P. Crutchfield | (参考訳) 任意の与えられた密度行列は、純粋状態の無限個のアンサンブルとして表すことができる。
このことは、多くの、明らかに等しく適した可能性のうち、どのように一意に1つを選ぶかという自然な疑問に繋がる。
ジャイネスの情報理論の観点に従えば、これは推論問題とみなすことができる。
本稿では,量子情報次元と幾何量子エントロピーの概念を活用するために,最大幾何量子エントロピー原理を提案する。
これにより、完全任意のアンサンブルのエントロピーを定量化し、それを最大化するアンサンブルを選択することができる。
原理を数学的に定式化した後、いくつかのケースにおいて最大化問題に対する解析解を与え、そのような最大エントロピーアンサンブルの出現の背後にある物理的なメカニズムについて議論する。
Any given density matrix can be represented as an infinite number of ensembles of pure states. This leads to the natural question of how to uniquely select one out of the many, apparently equally suitable, possibilities. Following Jaynes' information-theoretic perspective, this can be framed as an inference problem. We propose the Maximum Geometric Quantum Entropy Principle to exploit the notions of Quantum Information Dimension and Geometric Quantum Entropy. These allow us to quantify the entropy of fully arbitrary ensembles and select the one that maximizes it. After formulating the principle mathematically, we give the analytical solution to the maximization problem in a number of cases and discuss the physical mechanism behind the emergence of such maximum entropy ensembles. | 翻訳日:2024-03-14 19:26:20 公開日:2024-03-13 |
# MatFuse:拡散モデルによる制御可能な材料生成
MatFuse: Controllable Material Generation with Diffusion Models ( http://arxiv.org/abs/2308.11408v3 ) ライセンス: Link先を確認 | Giuseppe Vecchio, Renato Sortino, Simone Palazzo, Concetto Spampinato | (参考訳) コンピュータグラフィックスで高品質な素材を作ることは困難で時間を要する作業であり、優れた専門知識を必要とする。
このプロセスを簡単にするために,3次元材料の作成と編集に拡散モデルの生成力を利用する統一的なアプローチであるMatFuseを紹介した。
提案手法は,カラーパレット,スケッチ,テキスト,画像など,複数のコンディショニング源を統合し,創造性を高め,材料合成のきめ細かい制御を可能にする。
さらに,マルチエンコーダ圧縮モデルを用いて,各マップの非絡み合った潜在表現を学習することで,潜時操作によるマップレベルのマテリアル編集機能を実現する。
複数の条件設定下でのMatFuseの有効性を実証し,材料編集の可能性を探る。
最後に,CLIP-IQAとFIDスコアの両点を定量的に評価し,ユーザスタディを実施して質的に評価する。
MatFuseと補足材料をトレーニングするためのソースコードはhttps://gvecchio.com/matfuse.comで公開されている。
Creating high-quality materials in computer graphics is a challenging and time-consuming task, which requires great expertise. To simplify this process, we introduce MatFuse, a unified approach that harnesses the generative power of diffusion models for creation and editing of 3D materials. Our method integrates multiple sources of conditioning, including color palettes, sketches, text, and pictures, enhancing creative possibilities and granting fine-grained control over material synthesis. Additionally, MatFuse enables map-level material editing capabilities through latent manipulation by means of a multi-encoder compression model which learns a disentangled latent representation for each map. We demonstrate the effectiveness of MatFuse under multiple conditioning settings and explore the potential of material editing. Finally, we assess the quality of the generated materials both quantitatively in terms of CLIP-IQA and FID scores and qualitatively by conducting a user study. Source code for training MatFuse and supplemental materials are publicly available at https://gvecchio.com/matfuse. | 翻訳日:2024-03-14 18:57:26 公開日:2024-03-13 |
# ChatEDA:EDAのための大規模言語モデル駆動自律エージェント
ChatEDA: A Large Language Model Powered Autonomous Agent for EDA ( http://arxiv.org/abs/2308.10204v3 ) ライセンス: Link先を確認 | Zhuolun He, Haoyuan Wu, Xinyun Zhang, Xufeng Yao, Su Zheng, Haisheng Zheng, Bei Yu | (参考訳) 相互運用性を高めるための複雑な電子設計自動化(EDA)ツールの統合は、回路設計者にとって重要な関心事である。
大規模言語モデル(LLM)の最近の進歩は、自然言語処理と理解において、EDAツールと対面する新しいアプローチを提供する、優れた能力を示した。
本稿では,大規模な言語モデルであるAutoMageによって強化されたEDAの自律エージェントであるChatEDAを紹介し,エグゼクタとしてのEDAツールを補完する。
ChatEDAは、タスク計画、スクリプト生成、タスク実行を効果的に管理することで、登録-転送レベル(RTL)からグラフデータシステムバージョンII(GDSII)への設計フローを合理化する。
総合的な実験評価を通じて,ChatEDAは多様な要求に対処する能力を示し,我々の微調整オートマージモデルはGPT-4や他のLLMと比較して優れた性能を示した。
The integration of a complex set of Electronic Design Automation (EDA) tools to enhance interoperability is a critical concern for circuit designers. Recent advancements in large language models (LLMs) have showcased their exceptional capabilities in natural language processing and comprehension, offering a novel approach to interfacing with EDA tools. This research paper introduces ChatEDA, an autonomous agent for EDA empowered by a large language model, AutoMage, complemented by EDA tools serving as executors. ChatEDA streamlines the design flow from the Register-Transfer Level (RTL) to the Graphic Data System Version II (GDSII) by effectively managing task planning, script generation, and task execution. Through comprehensive experimental evaluations, ChatEDA has demonstrated its proficiency in handling diverse requirements, and our fine-tuned AutoMage model has exhibited superior performance compared to GPT-4 and other similar LLMs. | 翻訳日:2024-03-14 18:57:25 公開日:2024-03-13 |
# SSMG:自由形式の空間意味マップ誘導拡散モデル
レイアウト・ツー・イメージ生成
SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation ( http://arxiv.org/abs/2308.10156v2 ) ライセンス: Link先を確認 | Chengyou Jia, Minnan Luo, Zhuohang Dang, Guang Dai, Xiaojun Chang, Mengmeng Wang, Jingdong Wang | (参考訳) テキスト・ツー・イメージ(T2I)生成モデルが大幅に進歩したにもかかわらず、長く複雑なテキスト記述でさえ詳細な制御を伝えるのに苦戦している。
対照的に、ユーザ指定レイアウトから現実的で複雑なシーン画像を生成するLayout-to-Image(L2I)生成が注目されている。
しかし、既存の手法は、生成過程における条件制御のために、レイアウト情報をトークンやRGBイメージに変換するため、個々のインスタンスの空間的・意味的な制御が不十分になる。
これらの制約に対処するために,レイアウトから派生した特徴マップをガイダンスとして採用した空間意味マップガイド(SSMG)拡散モデルを提案する。
良く設計された特徴マップにカプセル化された豊富な空間的・意味的な情報により、SSMGは以前の作品と比べて十分な空間的・意味的制御性を持つ優れた生成品質を達成できる。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
前者はシーン内の複数のオブジェクト間の関係をモデル化することを目的としており、後者はガイダンスに埋め込まれた空間情報に対するモデルの感度を高めるように設計されている。
広範な実験により、SSMGは高い有望な結果が得られ、忠実さ、多様性、制御性を含む様々な指標に新しい最先端技術が確立された。
Despite significant progress in Text-to-Image (T2I) generative models, even lengthy and complex text descriptions still struggle to convey detailed controls. In contrast, Layout-to-Image (L2I) generation, aiming to generate realistic and complex scene images from user-specified layouts, has risen to prominence. However, existing methods transform layout information into tokens or RGB images for conditional control in the generative process, leading to insufficient spatial and semantic controllability of individual instances. To address these limitations, we propose a novel Spatial-Semantic Map Guided (SSMG) diffusion model that adopts the feature map, derived from the layout, as guidance. Owing to rich spatial and semantic information encapsulated in well-designed feature maps, SSMG achieves superior generation quality with sufficient spatial and semantic controllability compared to previous works. Additionally, we propose the Relation-Sensitive Attention (RSA) and Location-Sensitive Attention (LSA) mechanisms. The former aims to model the relationships among multiple objects within scenes while the latter is designed to heighten the model's sensitivity to the spatial information embedded in the guidance. Extensive experiments demonstrate that SSMG achieves highly promising results, setting a new state-of-the-art across a range of metrics encompassing fidelity, diversity, and controllability. | 翻訳日:2024-03-14 18:57:25 公開日:2024-03-13 |
# 二分枝深層学習ネットワークによる検出とステージグレーディング
糖尿病網膜症
Dual Branch Deep Learning Network for Detection and Stage Grading of Diabetic Retinopathy ( http://arxiv.org/abs/2308.09945v2 ) ライセンス: Link先を確認 | Hossein Shakibania, Sina Raoufi, Behnam Pourafkham, Hassan Khotanlou, and Muharram Mansoorizadeh | (参考訳) 糖尿病網膜症 (diabetic retinopathy) は糖尿病の重篤な合併症である。
早期かつ正確な診断は治療の成功に不可欠である。
本稿では,糖尿病網膜症の診断とステージグレーディングのための深層学習法について,一眼底網膜像を用いて紹介する。
提案モデルでは,2つの最先端の事前学習モデルを特徴抽出器として利用し,新しいデータセットでそれらを微調整する。
提案されたモデルは、公開されているソースから取得したAPTOS 2019データセットを含む、大規模なマルチセンターデータセットに基づいてトレーニングされている。
APTOS 2019では糖尿病網膜症の検出とステージ分類において顕著なパフォーマンスを示し、定評ある文献よりも優れていた。
二項分類では、提案手法は精度98.50、感度99.46、特異度97.51となる。
ステージグレーディングでは、93.00の二次重み付きカッパ、89.60の精度、89.60の感度、97.72の特異性を達成する。
提案手法は糖尿病網膜症に対する信頼性の高いスクリーニングおよびステージグレーディングツールとして機能し、臨床的意思決定と患者ケアを増強する重要な可能性を秘めている。
Diabetic retinopathy is a severe complication of diabetes that can lead to permanent blindness if not treated promptly. Early and accurate diagnosis of the disease is essential for successful treatment. This paper introduces a deep learning method for the detection and stage grading of diabetic retinopathy, using a single fundus retinal image. Our model utilizes transfer learning, employing two state-of-the-art pre-trained models as feature extractors and fine-tuning them on a new dataset. The proposed model is trained on a large multi-center dataset, including the APTOS 2019 dataset, obtained from publicly available sources. It achieves remarkable performance in diabetic retinopathy detection and stage classification on the APTOS 2019, outperforming the established literature. For binary classification, the proposed approach achieves an accuracy of 98.50, a sensitivity of 99.46, and a specificity of 97.51. In stage grading, it achieves a quadratic weighted kappa of 93.00, an accuracy of 89.60, a sensitivity of 89.60, and a specificity of 97.72. The proposed approach serves as a reliable screening and stage grading tool for diabetic retinopathy, offering significant potential to enhance clinical decision-making and patient care. | 翻訳日:2024-03-14 18:57:24 公開日:2024-03-13 |
# 対話型インストラクションのための多レベル合成推論
次
Multi-Level Compositional Reasoning for Interactive Instruction Following ( http://arxiv.org/abs/2308.09387v2 ) ライセンス: Link先を確認 | Suvaansh Bhambri, Byeonghwi Kim, Jonghyun Choi | (参考訳) 自然言語指示による家庭内雑用を行うロボットエージェントは、環境をナビゲートし、環境内の物体と対話する複雑な仕事をマスターするために必要である。
エージェントに与えられたタスクは複合的であるため、複数のサブタスク、例えばコーヒーを1杯持ってくる必要があるため、完了は困難である。
この課題に対処するために,タスクを複数のサブゴールに分割し,より優れたナビゲーションとインタラクションのために個別に参加させることにより,タスクを分割し,征服することを提案する。
これをMCR-Agent(Multi-level compositional Reasoning Agent)と呼ぶ。
具体的には、3段階のアクションポリシーを学びます。
最上位レベルでは、高レベルポリシー構成制御器による言語命令に基づいて、人間の解釈可能なサブゴールのシーケンスを推測する。
中間レベルでは、ナビゲーションポリシーと様々な独立したインタラクションポリシーを交互に切り替えることで、エージェントのナビゲーションをマスターポリシーで識別的に制御する。
最後に、最も低いレベルにおいて、適切なインタラクションポリシーを用いて、対応するオブジェクトマスクによる操作動作を推論する。
我々のアプローチは人間の解釈可能なサブゴールを生成するだけでなく、ルールベースの計画や意味空間記憶を使わずに、効率測定(PLWSR)における同等の最先端技術に対して2.03%の絶対ゲインを達成する。
Robotic agents performing domestic chores by natural language directives are required to master the complex job of navigating environment and interacting with objects in the environments. The tasks given to the agents are often composite thus are challenging as completing them require to reason about multiple subtasks, e.g., bring a cup of coffee. To address the challenge, we propose to divide and conquer it by breaking the task into multiple subgoals and attend to them individually for better navigation and interaction. We call it Multi-level Compositional Reasoning Agent (MCR-Agent). Specifically, we learn a three-level action policy. At the highest level, we infer a sequence of human-interpretable subgoals to be executed based on language instructions by a high-level policy composition controller. At the middle level, we discriminatively control the agent's navigation by a master policy by alternating between a navigation policy and various independent interaction policies. Finally, at the lowest level, we infer manipulation actions with the corresponding object masks using the appropriate interaction policy. Our approach not only generates human interpretable subgoals but also achieves 2.03% absolute gain to comparable state of the arts in the efficiency metric (PLWSR in unseen set) without using rule-based planning or a semantic spatial memory. | 翻訳日:2024-03-14 18:57:24 公開日:2024-03-13 |
# 非侵入的音声品質のためのマルチタスク擬似ラベル学習
評価モデル
Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality Assessment Model ( http://arxiv.org/abs/2308.09262v3 ) ライセンス: Link先を確認 | Ryandhimas E. Zezario, Bo-Ren Brian Bai, Chiou-Shann Fuh, Hsin-Min Wang and Yu Tsao | (参考訳) 本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
3QUESTメトリクス、すなわち、Speech-MOS(S-MOS)、N-MOS(N-MOS)、General-MOS(G-MOS)が評価対象である。
事前学習したMOSA-Netモデルを用いて、音声品質の知覚評価(PESQ)、短時間客観的インテリジェンス(STOI)、音声歪み指数(SDI)の3つの擬似ラベルを推定する。
次に、MTQ-Netのトレーニングにマルチタスク学習を用い、教師付き損失(推定スコアとグランドトゥルースラベルとの差から)と半教師付き損失(推定スコアと擬似ラベルとの差から)を組み合わせて、ハマー損失を損失関数として利用する。
実験結果はまず, モデルをスクラッチからトレーニングし, 直接知識伝達機構を用いた場合と比較して, MPLの利点を実証した。
次に、MTQ-Netの予測能力を向上させるために、Huber損失の利点を検証する。
最後に、MTQ-Net with the MPLアプローチは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
This study proposes a multi-task pseudo-label learning (MPL)-based non-intrusive speech quality assessment model called MTQ-Net. MPL consists of two stages: obtaining pseudo-label scores from a pretrained model and performing multi-task learning. The 3QUEST metrics, namely Speech-MOS (S-MOS), Noise-MOS (N-MOS), and General-MOS (G-MOS), are the assessment targets. The pretrained MOSA-Net model is utilized to estimate three pseudo labels: perceptual evaluation of speech quality (PESQ), short-time objective intelligibility (STOI), and speech distortion index (SDI). Multi-task learning is then employed to train MTQ-Net by combining a supervised loss (derived from the difference between the estimated score and the ground-truth label) and a semi-supervised loss (derived from the difference between the estimated score and the pseudo label), where the Huber loss is employed as the loss function. Experimental results first demonstrate the advantages of MPL compared to training a model from scratch and using a direct knowledge transfer mechanism. Second, the benefit of the Huber loss for improving the predictive ability of MTQ-Net is verified. Finally, the MTQ-Net with the MPL approach exhibits higher overall predictive power compared to other SSL-based speech assessment models. | 翻訳日:2024-03-14 18:57:23 公開日:2024-03-13 |
# コンテキストアウェア・プランニングと環境アウェア・メモリ
炭水化物に就て
Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents ( http://arxiv.org/abs/2308.07241v4 ) ライセンス: Link先を確認 | Byeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi | (参考訳) 家庭のタスクを遵守するには、以前の行動の結果を考慮してステップバイステップのアクションを計画する必要がある。
しかし、最先端の実施エージェントは、そのような知識のない専門家やアルゴリズムプランナーを模倣することによって、環境をナビゲートし、不完全な学習によって適切な物体と対話する際に、しばしば間違いを犯す。
視覚的ナビゲーションとオブジェクトインタラクションの両面を改善するために,動作の順序に意味的コンテキスト(例えば,対話する適切なオブジェクト)を組み込んだCAPEAM(Context-Aware Planning and Environment-Aware Memory)による行動結果と,その後の動作の推測における相互作用対象(例えば,オブジェクトが移動した場所)の空間配置と状態について検討する。
提案したCAPEAMのエージェントは,目視環境と目視環境の両方において,目視環境と目視環境の両方において,挑戦的な対話的指導(+10.70%まで)を用いて,様々な指標の最先端性能を達成することを実証的に示す。
Accomplishing household tasks requires to plan step-by-step actions considering the consequences of previous actions. However, the state-of-the-art embodied agents often make mistakes in navigating the environment and interacting with proper objects due to imperfect learning by imitating experts or algorithmic planners without such knowledge. To improve both visual navigation and object interaction, we propose to consider the consequence of taken actions by CAPEAM (Context-Aware Planning and Environment-Aware Memory) that incorporates semantic context (e.g., appropriate objects to interact with) in a sequence of actions, and the changed spatial arrangement and states of interacted objects (e.g., location that the object has been moved to) in inferring the subsequent actions. We empirically show that the agent with the proposed CAPEAM achieves state-of-the-art performance in various metrics using a challenging interactive instruction following benchmark in both seen and unseen environments by large margins (up to +10.70% in unseen env.). | 翻訳日:2024-03-14 18:57:23 公開日:2024-03-13 |
# 集中型マルチエージェント最適化の対照的な説明
解決策
Contrastive Explanations of Centralized Multi-agent Optimization Solutions ( http://arxiv.org/abs/2308.05984v2 ) ライセンス: Link先を確認 | Parisa Zehtabi, Alberto Pozanco, Ayala Bloch, Daniel Borrajo, Sarit Kraus | (参考訳) 多くの実世界のシナリオでは、エージェントは最適化問題に関与している。
これらのシナリオの多くは過剰に制約されているため、最適解は必ずしも全てのエージェントを満たすとは限らない。
エージェントの中には、なぜ$S$がプロパティ$P$?'を満たさないのかという形式の質問をするものもある。
対照的な説明を得るためにドメインに依存しないアプローチであるCMAoEを提案する。
i) 新しいソリューションである$S^\prime$を生成し、プロパティ$P$を強制すると同時に、$S$と$S^\prime$の違いを最小限にする。
(2)マルチエージェントシステムの目的関数の特徴に関して,2つの解の相違を強調した。
このような説明は、エージェントが期待するよりも、マルチエージェントシステムのコンテキストにおいて、初期ソリューションが優れている理由を理解するのを助けることを目的としている。
我々は,大規模なマルチエージェント最適化問題に対して,CMAoEが対照的な説明を生成可能であることを示す計算評価を行った。
また、4つの異なるドメインで広範なユーザスタディを実施して、次のように示しています。
一 これらの説明を提示された後、原解に対する人間の満足度が高まること。
(II)CMAoEが生成した構成的説明は、芸術的アプローチの状況によって生成されたものよりも人間に好まれるか、等しく好まれる。
In many real-world scenarios, agents are involved in optimization problems. Since most of these scenarios are over-constrained, optimal solutions do not always satisfy all agents. Some agents might be unhappy and ask questions of the form ``Why does solution $S$ not satisfy property $P$?''. We propose CMAoE, a domain-independent approach to obtain contrastive explanations by: (i) generating a new solution $S^\prime$ where property $P$ is enforced, while also minimizing the differences between $S$ and $S^\prime$; and (ii) highlighting the differences between the two solutions, with respect to the features of the objective function of the multi-agent system. Such explanations aim to help agents understanding why the initial solution is better in the context of the multi-agent system than what they expected. We have carried out a computational evaluation that shows that CMAoE can generate contrastive explanations for large multi-agent optimization problems. We have also performed an extensive user study in four different domains that shows that: (i) after being presented with these explanations, humans' satisfaction with the original solution increases; and (ii) the constrastive explanations generated by CMAoE are preferred or equally preferred by humans over the ones generated by state of the art approaches. | 翻訳日:2024-03-14 18:57:22 公開日:2024-03-13 |
# PTransIPs:タンパク質により増強されたリン酸化部位の同定
PLM埋め込み
PTransIPs: Identification of phosphorylation sites enhanced by protein PLM embeddings ( http://arxiv.org/abs/2308.05115v3 ) ライセンス: Link先を確認 | Ziyang Xu, Haitian Zhong, Bingrui He, Xueying Wang and Tianchi Lu | (参考訳) リン酸化は多くの基本的な細胞プロセスにおいて重要な役割を担い、様々な疾患の発症と進行に重要な役割を果たしている。
これらのリン酸化部位の正確な同定は、細胞内およびウイルス感染時の分子機構の解明に不可欠であり、新たな治療標的の発見につながる可能性がある。
本研究では,リン酸化部位の同定のための新しいディープラーニングフレームワークであるPTransIPsを開発する。
独立試験の結果、PTransIPsは既存のSOTA法よりも優れており、リン化S/T部位とY部位の同定にそれぞれ0.9232と0.9660のAUCを達成している。
PTransIPsは3つの側面から貢献する。
1) PTransIPsは, タンパク質事前学習言語モデル (PLM) を組み込んだ最初の試みである。
ProtTransとEMBER2を使用して、それぞれシーケンスと構造埋め込みを抽出し、モデルへの追加入力として、データセットサイズとオーバーフィットの問題に効果的に対処し、モデルパフォーマンスを向上させる。
2) PTransIPsは、畳み込みニューラルネットワークとTIM損失関数の統合により最適化されたTransformerアーキテクチャに基づいており、モデル設計とトレーニングの実践的な洞察を提供する。
3) PTransIPのアミノ酸のコード化により, 他のペプチド生物活性タスクの普遍的な枠組みとして機能し, 優れた性能を示す。
私たちのコード、データ、モデルはhttps://github.com/StatXzy7/PTransIPs.comで公開されています。
Phosphorylation is pivotal in numerous fundamental cellular processes and plays a significant role in the onset and progression of various diseases. The accurate identification of these phosphorylation sites is crucial for unraveling the molecular mechanisms within cells and during viral infections, potentially leading to the discovery of novel therapeutic targets. In this study, we develop PTransIPs, a new deep learning framework for the identification of phosphorylation sites. Independent testing results demonstrate that PTransIPs outperforms existing state-of-the-art (SOTA) methods, achieving AUCs of 0.9232 and 0.9660 for the identification of phosphorylated S/T and Y sites, respectively. PTransIPs contributes from three aspects. 1) PTransIPs is the first to apply protein pre-trained language model (PLM) embeddings to this task. It utilizes ProtTrans and EMBER2 to extract sequence and structure embeddings, respectively, as additional inputs into the model, effectively addressing issues of dataset size and overfitting, thus enhancing model performance; 2) PTransIPs is based on Transformer architecture, optimized through the integration of convolutional neural networks and TIM loss function, providing practical insights for model design and training; 3) The encoding of amino acids in PTransIPs enables it to serve as a universal framework for other peptide bioactivity tasks, with its excellent performance shown in extended experiments of this paper. Our code, data and models are publicly available at https://github.com/StatXzy7/PTransIPs. | 翻訳日:2024-03-14 18:57:21 公開日:2024-03-13 |
# MixReorg: クロスモーダルな混合パッチ再編成は良いマスク学習者
オープンワールドセマンティックセマンティックセグメンテーション
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation ( http://arxiv.org/abs/2308.04829v2 ) ライセンス: Link先を確認 | Kaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu, Changlin Li, Guangrun Wang, Xiaodan Liang | (参考訳) 近年、画像レベルのテキスト管理で訓練されたセマンティックセグメンテーションモデルは、オープンワールドのシナリオに挑戦する有望な結果を示している。
しかし、これらのモデルは、ピクセルレベルで細粒度のセマンティックアライメントを学習し、正確なオブジェクトマスクを予測するのに依然として困難に直面している。
この問題に対処するために、MixReorgを提案する。これはセマンティックセグメンテーションのための新しくて簡単な事前学習パラダイムで、画像間で混在するパッチを再編成するモデルの能力を向上し、局所的な視覚的関連性とグローバルなセマンティックコヒーレンスの両方を探索する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
次に、混合画像のセグメンテーション損失と、元の特徴と復元された特徴の2つの対照的な損失を最小限に抑えるよう訓練する。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティクスモデルは、オープンワールドセマンティクスにとって重要な、非常に一般化可能なピクセル・セマンティクスアライメント能力を実現することができる。
大規模な画像テキストデータでトレーニングした後、MixReorgモデルは任意のカテゴリの視覚オブジェクトに直接適用することができる。
提案フレームワークは, PASCAL VOC2012, PASCAL Context, MS COCO, ADE20Kにおいて, GroupViTを5.0%, 6.2%, 2.5%, 3.4% mIoUで上回り, 高い性能を示す。
Recently, semantic segmentation models trained with image-level text supervision have shown promising results in challenging open-world scenarios. However, these models still face difficulties in learning fine-grained semantic alignment at the pixel level and predicting accurate object masks. To address this issue, we propose MixReorg, a novel and straightforward pre-training paradigm for semantic segmentation that enhances a model's ability to reorganize patches mixed across images, exploring both local visual relevance and global semantic coherence. Our approach involves generating fine-grained patch-text pairs data by mixing image patches while preserving the correspondence between patches and text. The model is then trained to minimize the segmentation loss of the mixed images and the two contrastive losses of the original and restored features. With MixReorg as a mask learner, conventional text-supervised semantic segmentation models can achieve highly generalizable pixel-semantic alignment ability, which is crucial for open-world segmentation. After training with large-scale image-text data, MixReorg models can be applied directly to segment visual objects of arbitrary categories, without the need for further fine-tuning. Our proposed framework demonstrates strong performance on popular zero-shot semantic segmentation benchmarks, outperforming GroupViT by significant margins of 5.0%, 6.2%, 2.5%, and 3.4% mIoU on PASCAL VOC2012, PASCAL Context, MS COCO, and ADE20K, respectively. | 翻訳日:2024-03-14 18:57:21 公開日:2024-03-13 |
# ビッグバンとローバー-パブリックアリーナのリスクアセスメント
Big Bang, Low Bar -- Risk Assessment in the Public Arena ( http://arxiv.org/abs/2308.04440v3 ) ライセンス: Link先を確認 | Huw Price | (参考訳) リスク管理の基本的な原則の1つは、たとえありそうにないとしても、物事がひどい目に遭う可能性のある方法に常に目を向けるべきである、ということです。
潜在的な失敗が悲惨なほど、それを安全に無視する前には、その必要がより不可能なものになる。
この原則は明白に思えるかも知れませんが、リスクに関する公の議論では見過ごされがちです。
本項目は,人工知能の潜在的な存在リスクに関する最近の議論において,この原則を無視することによるものである。
失敗はこのケースに特有のものではないが、近年の議論は、この原則がいかに容易に見落とされ得るかを示す、特に顕著な例を提供している。
One of the basic principles of risk management is that we should always keep an eye on ways that things could go badly wrong, even if they seem unlikely. The more disastrous a potential failure, the more improbable it needs to be, before we can safely ignore it. This principle may seem obvious, but it is easily overlooked in public discourse about risk, even by well-qualified commentators who should certainly know better. The present piece is prompted by neglect of the principle in recent discussions about the potential existential risks of artificial intelligence. The failing is not peculiar to this case, but recent debates in this area provide some particularly stark examples of how easily the principle can be overlooked. | 翻訳日:2024-03-14 18:57:20 公開日:2024-03-13 |
# 連続監視量子系の逐次仮説検証
Sequential hypothesis testing for continuously-monitored quantum systems ( http://arxiv.org/abs/2307.14954v2 ) ライセンス: Link先を確認 | Giulio Gasbarri, Matias Bilkis, Elisabet Roda-Salichs, and John Calsamiglia | (参考訳) 我々は、連続的に監視されている量子系を考察し、測定信号を生成する。
このようなデータのストリームから、基盤となるシステムのダイナミクスに関する情報を推測する必要がある。
ここでは、仮説テストの問題に焦点をあて、信号がリアルタイムで分析されるシーケンシャル戦略の利用を推し進め、基礎となる仮説を所定の成功確率で特定できれば、実験を迅速に終了させることができる。
本研究は, 所定測定時間に基づいて, 現在使用されている戦略に対して有意な優位性を示すとともに, 停止時間挙動を調べた結果, 逐次試験の性能を解析した。
We consider a quantum system that is being continuously monitored, giving rise to a measurement signal. From such a stream of data, information needs to be inferred about the underlying system's dynamics. Here we focus on hypothesis testing problems and put forward the usage of sequential strategies where the signal is analyzed in real time, allowing the experiment to be concluded as soon as the underlying hypothesis can be identified with a certified prescribed success probability. We analyze the performance of sequential tests by studying the stopping-time behavior, showing a considerable advantage over currently-used strategies based on a fixed predetermined measurement time. | 翻訳日:2024-03-14 18:57:19 公開日:2024-03-13 |
# HeightFormer: 余分なデータのない明示的なハイトモデリング
鳥の視線におけるカメラのみの3次元物体検出
HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird's Eye View ( http://arxiv.org/abs/2307.13510v2 ) ライセンス: Link先を確認 | Yiming Wu, Ruixiang Li, Zequn Qin, Xinhai Zhao, Xi Li | (参考訳) 視覚に基づくバードアイビュー(Bird's Eye View, BEV)の表現は、自律運転のための新たな知覚定式化である。
最大の課題は、マルチカメラ機能を備えたBEVスペースを構築することだ。
従来のBEV表現生成手法に分割すると,そのほとんどはイメージビューの深度をモデル化するか,BEV空間の高さをモデル化するかの2つのタイプに分類される。
本研究では、LiDARのような余分なデータを必要としないBEV空間における高さを明示的にモデル化し、モデリング深度と比較して任意のカメラリグやタイプを適合させることができることを提案する。
理論的には,高さに基づく手法と深さに基づく手法の等価性を示す。
自己再帰的手法で高さと不確実性をモデル化するHeightFormerを提案する。
追加のデータがなければ、提案されたHeightFormerはBEVの高度を正確に見積もることができる。
ベンチマークの結果,HeightFormerの性能はカメラのみの手法と比較してSOTAを実現していることがわかった。
Vision-based Bird's Eye View (BEV) representation is an emerging perception formulation for autonomous driving. The core challenge is to construct BEV space with multi-camera features, which is a one-to-many ill-posed problem. Diving into all previous BEV representation generation methods, we found that most of them fall into two types: modeling depths in image views or modeling heights in the BEV space, mostly in an implicit way. In this work, we propose to explicitly model heights in the BEV space, which needs no extra data like LiDAR and can fit arbitrary camera rigs and types compared to modeling depths. Theoretically, we give proof of the equivalence between height-based methods and depth-based methods. Considering the equivalence and some advantages of modeling heights, we propose HeightFormer, which models heights and uncertainties in a self-recursive way. Without any extra data, the proposed HeightFormer could estimate heights in BEV accurately. Benchmark results show that the performance of HeightFormer achieves SOTA compared with those camera-only methods. | 翻訳日:2024-03-14 18:57:19 公開日:2024-03-13 |
# ラベル関係を学習するIn-Context Learning
学び
In-Context Learning Learns Label Relationships but Is Not Conventional Learning ( http://arxiv.org/abs/2307.12375v4 ) ライセンス: Link先を確認 | Jannik Kossen, Yarin Gal, Tom Rainforth | (参考訳) 下流タスクにおけるLarge Language Models(LLM)の予測は、文脈における入力-ラベル関係の例を含むと、しばしば大幅に改善される。
しかし、LLMのこのコンテキスト内学習(ICL)機能がどのように機能するかについては、現時点では合意が得られていない。
例えば、Xie et al (2021) はICLを汎用学習アルゴリズムに例えたが、Min et al (2022) はICLは文脈内例からラベル関係を学ばないと主張している。
本稿では,ICLがラベル情報をどのように活用するかという新たな知見を提供し,その能力と限界を明らかにする。
ICLの挙動を網羅的に把握するために、ICL予測の確率論的側面を調査し、より多くの事例が提供されるにつれてICCのダイナミクスを徹底的に検証する。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
しかし、ICLは事前学習データから得られる予測嗜好を完全に克服するのに苦労しており、さらに、ICLがすべてのコンテキスト内情報を等しく考慮していないことも判明した。
The predictions of Large Language Models (LLMs) on downstream tasks often improve significantly when including examples of the input--label relationship in the context. However, there is currently no consensus about how this in-context learning (ICL) ability of LLMs works. For example, while Xie et al. (2021) liken ICL to a general-purpose learning algorithm, Min et al. (2022) argue ICL does not even learn label relationships from in-context examples. In this paper, we provide novel insights into how ICL leverages label information, revealing both capabilities and limitations. To ensure we obtain a comprehensive picture of ICL behavior, we study probabilistic aspects of ICL predictions and thoroughly examine the dynamics of ICL as more examples are provided. Our experiments show that ICL predictions almost always depend on in-context labels and that ICL can learn truly novel tasks in-context. However, we also find that ICL struggles to fully overcome prediction preferences acquired from pre-training data and, further, that ICL does not consider all in-context information equally. | 翻訳日:2024-03-14 18:57:18 公開日:2024-03-13 |
# UniTabE: タブラルファウンデーションモデルのためのユニバーサルプレトレーニングプロトコル
データサイエンス
UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model in Data Science ( http://arxiv.org/abs/2307.09249v2 ) ライセンス: Link先を確認 | Yazheng Yang, Yuqi Wang, Guang Liu, Ledell Wu, Qi Liu | (参考訳) NLPの最近の進歩は、事前訓練されたモデルの画期的な影響を目撃し、様々なタスクにおいて印象的な結果をもたらした。
本研究は,データサイエンスにおけるテーブル上の予測を容易にするための事前学習手法のパワーを,従来見過ごされてきたが,異なるタスクに固有のテーブルスキーマの多さのため,本質的には困難である領域に拡張することを目的とする。
この研究の根底にある主な課題は、様々な構造を持つテーブルのための普遍的な事前訓練プロトコルの確立、タスク間での学習知識の一般化と伝達可能性、下流の多様なアプリケーションへの適応、時間の経過とともに増分列を組み込むことである。
これらの課題に対応するために、我々は、テーブル構造に課される制約を無くして、テーブルを一様に処理するように設計された単純で効果的なUniTabEを導入する。
UniTabEのコアコンセプトは、各基本テーブル要素をTabUnitと呼ばれるモジュールで表現することに依存している。
その後、表現を洗練させるTransformerエンコーダが続く。
さらに,本モデルは,フリーフォームプロンプトを利用した事前学習と微調整を容易にするように設計されている。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから慎重に収集した約13Bサンプルからなる表層データセットをキュレートした。
本研究は,表型データを含む分類・回帰タスクを中心に,厳密な実験試験と分析を行い,本手法の有効性を検証した。
実験の結果、UniTabEは大規模なベンチマークでいくつかのベースラインに対して優れた性能を示した。
これにより、UniTabEが表型データのセマンティック表現を大幅に強化する可能性を強調し、表型データ解析において重要な一歩を踏み出した。
Recent advancements in NLP have witnessed the groundbreaking impact of pretrained models, yielding impressive outcomes across various tasks. This study seeks to extend the power of pretraining methodologies to facilitating the prediction over tables in data science, a domain traditionally overlooked, yet inherently challenging due to the plethora of table schemas intrinsic to different tasks. The primary research questions underpinning this work revolve around the establishment of a universal pretraining protocol for tables with varied structures, the generalizability and transferability of learned knowledge across tasks, the adaptation to diverse downstream applications, and the incorporation of incremental columns over time. In response to these challenges, we introduce UniTabE, a straightforward yet effective method designed to process tables in a uniform manner, devoid of constraints imposed by specific table structures. UniTabE's core concept relies on representing each basic table element with a module, termed TabUnit. This is subsequently followed by a Transformer encoder to refine the representation. Moreover, our model is designed to facilitate pretraining and finetuning through the utilization of free-form prompts. In order to implement the pretraining phase, we curated an expansive tabular dataset comprising approximately 13B samples, meticulously gathered from the Kaggle platform. This research primarily centers on classification and regression tasks involving tabular data, and conducts rigorous experimental testing and analyses to validate the effectiveness of our methodology. The experimental results demonstrate UniTabE's superior performance against several baselines across massive benchmarks. This, therefore, underscores UniTabE's potential to significantly enhance the semantic representation of tabular data, thereby marking a significant stride for tabular data analysis. | 翻訳日:2024-03-14 18:57:17 公開日:2024-03-13 |
# シングルセル差分解析のためのカーネルベーステスト
Kernel-Based Testing for Single-Cell Differential Analysis ( http://arxiv.org/abs/2307.08509v2 ) ライセンス: Link先を確認 | Anthony Ozier-Lafontaine and Camille Fourneaux and Ghislain Durif and C\'eline Vallot and Olivier Gandrillon and Sandrine Giraud and Bertrand Michel and Franck Picard | (参考訳) シングルセル技術は、分子の特徴分布に関する洞察を提供するが、それらを比較することは課題を生じさせる。
本稿では,非線形細胞分布比較のためのカーネルテストフレームワークを提案する。
本手法は, 細胞集団の多様性を明らかにするため, 機能的およびグローバルなトランスクリプトーム/エポジェノムの比較を可能にする。
埋め込み変数に基づく分類器を用いて、従来の単細胞解析の限界を克服し、セル状態の遷移を同定する。
単細胞ChIP-Seqデータに応用し, 持続性細胞に類似したエピゲノミクスプロファイルを有する未治療乳癌細胞を同定した。
これは、他の方法が見逃す可能性のある微妙な人口変動を明らかにする上で、カーネルテストの有効性を示すものである。
Single-cell technologies offer insights into molecular feature distributions, but comparing them poses challenges. We propose a kernel-testing framework for non-linear cell-wise distribution comparison, analyzing gene expression and epigenomic modifications. Our method allows feature-wise and global transcriptome/epigenome comparisons, revealing cell population heterogeneities. Using a classifier based on embedding variability, we identify transitions in cell states, overcoming limitations of traditional single-cell analysis. Applied to single-cell ChIP-Seq data, our approach identifies untreated breast cancer cells with an epigenomic profile resembling persister cells. This demonstrates the effectiveness of kernel testing in uncovering subtle population variations that might be missed by other methods. | 翻訳日:2024-03-14 18:57:17 公開日:2024-03-13 |
# オープンワールド深層学習のための閾値一貫性のあるマージン損失
Threshold-Consistent Margin Loss for Open-World Deep Metric Learning ( http://arxiv.org/abs/2307.04047v2 ) ライセンス: Link先を確認 | Qin Zhang, Linghan Xu, Qingming Tang, Jun Fang, Ying Nian Wu, Joe Tighe, Yifan Xing | (参考訳) 画像検索にDeep Metric Learning (DML) で使われている既存の損失は、テストクラスとデータ分布をまたいだクラス内およびクラス間表現構造に非常に不均一な結果をもたらすことが多い。
一致を宣言するために固定しきい値を使用する一般的な慣行と組み合わせると、テストクラスとデータ分散の間で、偽受け入れ率(FAR)と偽拒絶率(FRR)の点で、大きなパフォーマンス変化が生じる。
DMLでこの問題をしきい値の不整合と定義する。
実世界のアプリケーションでは、このような矛盾は商用画像検索システムを展開する際のしきい値選択過程を複雑にすることが多い。
この不整合を測定するために,クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
OPIS測定値を用いて、DMLモデルにおいて高い精度のレベルを達成することは、自動的にしきい値の一貫性を保証しない。
実際、我々の調査は、精度を向上させる既存の方法がしきい値の一貫性の低下につながるような、高精度な体制におけるParetoフロンティアを明らかにしている。
このトレードオフに対処するために,厳密なサンプルペアを選択的にペナルタイズすることにより,クラス間の表現構造の均一性を促進する,単純かつ効果的な正規化手法であるThreshold-Consistent Margin(TCM)損失を導入する。
大規模な実験では、精度を維持しながらしきい値の一貫性を向上し、実用的なDML設定におけるしきい値の選択プロセスを簡素化するTCMの有効性を示す。
Existing losses used in deep metric learning (DML) for image retrieval often lead to highly non-uniform intra-class and inter-class representation structures across test classes and data distributions. When combined with the common practice of using a fixed threshold to declare a match, this gives rise to significant performance variations in terms of false accept rate (FAR) and false reject rate (FRR) across test classes and data distributions. We define this issue in DML as threshold inconsistency. In real-world applications, such inconsistency often complicates the threshold selection process when deploying commercial image retrieval systems. To measure this inconsistency, we propose a novel variance-based metric called Operating-Point-Inconsistency-Score (OPIS) that quantifies the variance in the operating characteristics across classes. Using the OPIS metric, we find that achieving high accuracy levels in a DML model does not automatically guarantee threshold consistency. In fact, our investigation reveals a Pareto frontier in the high-accuracy regime, where existing methods to improve accuracy often lead to degradation in threshold consistency. To address this trade-off, we introduce the Threshold-Consistent Margin (TCM) loss, a simple yet effective regularization technique that promotes uniformity in representation structures across classes by selectively penalizing hard sample pairs. Extensive experiments demonstrate TCM's effectiveness in enhancing threshold consistency while preserving accuracy, simplifying the threshold selection process in practical DML settings. | 翻訳日:2024-03-14 18:57:16 公開日:2024-03-13 |
# VertiBench: 垂直方向における機能分散の多様性向上
フェデレーションラーニングベンチマーク
VertiBench: Advancing Feature Distribution Diversity in Vertical Federated Learning Benchmarks ( http://arxiv.org/abs/2307.02040v3 ) ライセンス: Link先を確認 | Zhaomin Wu, Junyi Hou, Bingsheng He | (参考訳) Vertical Federated Learning(VFL)は、機能分割分散データ上で機械学習モデルをトレーニングするための重要なパラダイムである。
しかしながら、プライバシの制限により、アルゴリズム評価のためのパブリックな現実世界のVFLデータセットはほとんど存在せず、これらは限られた機能分布を表している。
既存のベンチマークは、グローバルな集合から任意の特徴分割から派生した合成データセットを利用することが多く、特徴分布のサブセットのみをキャプチャし、アルゴリズムのパフォーマンス評価が不十分になる。
本稿では,VFLの性能に影響を及ぼす2つの重要な要因 – 特徴の重要性と特徴相関 – を導入し,関連する評価指標とデータセット分割手法を提案することで,これらの欠点に対処する。
さらに、画像イメージのVFLシナリオの欠点に対応するために、実際のVFLデータセットを導入する。
最先端のVFLアルゴリズムの包括的評価は、この分野における今後の研究に有用な洞察を与える。
Vertical Federated Learning (VFL) is a crucial paradigm for training machine learning models on feature-partitioned, distributed data. However, due to privacy restrictions, few public real-world VFL datasets exist for algorithm evaluation, and these represent a limited array of feature distributions. Existing benchmarks often resort to synthetic datasets, derived from arbitrary feature splits from a global set, which only capture a subset of feature distributions, leading to inadequate algorithm performance assessment. This paper addresses these shortcomings by introducing two key factors affecting VFL performance - feature importance and feature correlation - and proposing associated evaluation metrics and dataset splitting methods. Additionally, we introduce a real VFL dataset to address the deficit in image-image VFL scenarios. Our comprehensive evaluation of cutting-edge VFL algorithms provides valuable insights for future research in the field. | 翻訳日:2024-03-14 18:57:16 公開日:2024-03-13 |
# 逆拡散モンテカルロ
Reverse Diffusion Monte Carlo ( http://arxiv.org/abs/2307.02037v3 ) ライセンス: Link先を確認 | Xunpeng Huang, Hanze Dong, Yifan Hao, Yi-An Ma, Tong Zhang | (参考訳) 逆拡散過程からモンテカルロサンプルを提案する。
中間更新 -- スコア関数 -- がニューラルネットワークで学習される拡散モデルとは異なり、スコアマッチング問題を平均推定モデルに変換する。
正規化された後続分布の手段を推定することにより、マルコフ連鎖モンテカルロ法(MCMC)とは異なる逆拡散モンテカルロ法(rdMC)と呼ばれる新しいモンテカルロサンプリングアルゴリズムを導出する。
誤差耐性と後部分布の特性からサンプルサイズを決定し,任意の精度で対象分布をおよそサンプリングできるアルゴリズムを提案する。
さらに, rdMC を用いたサンプリングが MCMC よりもはるかに高速であることを示す。
ガウス混合モデルのようなマルチモーダルターゲット分布の場合、rdMCは理論上も実際上もランゲヴィン型MCMCサンプリング法よりも大幅に改善される。
提案したrdMC法は,難解な複素分布に対する古典的MCMCアルゴリズムを超えて,新たな視点と解を提供する。
We propose a Monte Carlo sampler from the reverse diffusion process. Unlike the practice of diffusion models, where the intermediary updates -- the score functions -- are learned with a neural network, we transform the score matching problem into a mean estimation one. By estimating the means of the regularized posterior distributions, we derive a novel Monte Carlo sampling algorithm called reverse diffusion Monte Carlo (rdMC), which is distinct from the Markov chain Monte Carlo (MCMC) methods. We determine the sample size from the error tolerance and the properties of the posterior distribution to yield an algorithm that can approximately sample the target distribution with any desired accuracy. Additionally, we demonstrate and prove under suitable conditions that sampling with rdMC can be significantly faster than that with MCMC. For multi-modal target distributions such as those in Gaussian mixture models, rdMC greatly improves over the Langevin-style MCMC sampling methods both theoretically and in practice. The proposed rdMC method offers a new perspective and solution beyond classical MCMC algorithms for the challenging complex distributions. | 翻訳日:2024-03-14 18:57:15 公開日:2024-03-13 |
# スピン量子ビットへの量子誤差補正のテーラー化
Tailoring quantum error correction to spin qubits ( http://arxiv.org/abs/2306.17786v2 ) ライセンス: Link先を確認 | Bence Het\'enyi and James R. Wootton | (参考訳) 半導体構造におけるスピン量子ビットは、制御エレクトロニクスを同じチップに組み込む可能性があり、大規模な2D統合を実現する。
このプラットフォーム上で誤り訂正を行うには、スピン量子ビットの特徴的特徴を考慮する必要がある。
例えば、qubitreadoutは、qubitレイアウトの慎重に再検討を必要とする追加のqubitを含む。
スピン量子ビットに影響を及ぼすノイズは、デフォーカスに対する強いバイアスのようなさらに特異性を持つ。
本研究では,最寄りの接続しか必要とせず,最小限の完全マッチングによる高速復号化が可能な最先端の誤り訂正符号について検討する。
表面符号と比較して、XZZX符号、縮小接続面符号、XYZ$^2$マッチング符号、フロケ符号は誤り閾値、接続性、論理量子ビット符号化の点で異なる利点をもたらす。
これらの誤り訂正符号のそれぞれに必要となるスピンキュービットレイアウトを示し、スピン読み出しに必要な参照キュービットを考慮に入れた。
これらの符号の性能は, アイドリング段階におけるゲート, リードアウト, キュービットのデコヒーレンスに対して, 異なる誤差率を示す回路レベルのノイズカウンタにより検討される。
Spin qubits in semiconductor structures bring the promise of large-scale 2D integration, with the possibility to incorporate the control electronics on the same chip. In order to perform error correction on this platform, the characteristic features of spin qubits need to be accounted for. E.g., qubit readout involves an additional qubit which necessitates careful reconsideration of the qubit layout. The noise affecting spin qubits has further peculiarities such as the strong bias towards dephasing. In this work we consider state-of-the-art error correction codes that require only nearest-neighbour connectivity and are amenable to fast decoding via minimum-weight perfect matching. Compared to the surface code, the XZZX code, the reduced-connectivity surface code, the XYZ$^2$ matching code, and the Floquet code all bring different advantages in terms of error threshold, connectivity, or logical qubit encoding. We present the spin-qubit layout required for each of these error correction codes, accounting for reference qubits required for spin readout. The performance of these codes is studied under circuit-level noise accounting for distinct error rates for gates, readout and qubit decoherence during idling stages. | 翻訳日:2024-03-14 18:57:15 公開日:2024-03-13 |
# 安全臨界強化学習のための確率的制約
Probabilistic Constraint for Safety-Critical Reinforcement Learning ( http://arxiv.org/abs/2306.17279v2 ) ライセンス: Link先を確認 | Weiqin Chen, Dharmashankar Subramanian and Santiago Paternain | (参考訳) 本稿では,確率的制約付き強化学習(RL)における安全な政策学習の課題について考察する。
具体的には、安全なポリシーまたはコントローラは、高い確率で与えられた安全なセットにおいてエージェントの軌道を維持するものである。
我々は,この確率的制約条件と,既存の文献でよく研究される累積制約条件とを関連づける。
我々は、確率的制約された設定が最適性と安全性(制約満足度)の観点からよりよいトレードオフをもたらすことを解明する理論的境界を提供する。
確率的制約を扱う際に遭遇した課題は、この研究で明らかになったように、勾配に対する明示的な表現が欠如していることから生じる。
我々の以前の研究は、確率的制約に対する明示的な勾配表現を提供しており、これは Safe Policy Gradient-REINFORCE (SPG-REINFORCE) と呼ばれている。
本研究では, SPG-Actor-Critic を改良し, SPG-REINFORCE よりも低分散に導いた。
両方のSPGの注目すべき点は、固有のアルゴリズムの独立性であり、様々なポリシーベースのアルゴリズムにまたがって応用できる。
さらに,両SPGを用いて安全なポリシを学習できるSafe Primal-Dualアルゴリズムを提案する。
その後、アルゴリズムの収束を包含する理論分析と、平均におけるほぼ最適性と実現可能性を含む理論分析が続く。
さらに,提案手法を実証実験により検証した。
これらの実験は, 最適性と安全性のトレードオフを検証・解析し, 2つのSPGの有効性と, 理論的貢献を実証することを目的としている。
In this paper, we consider the problem of learning safe policies for probabilistic-constrained reinforcement learning (RL). Specifically, a safe policy or controller is one that, with high probability, maintains the trajectory of the agent in a given safe set. We establish a connection between this probabilistic-constrained setting and the cumulative-constrained formulation that is frequently explored in the existing literature. We provide theoretical bounds elucidating that the probabilistic-constrained setting offers a better trade-off in terms of optimality and safety (constraint satisfaction). The challenge encountered when dealing with the probabilistic constraints, as explored in this work, arises from the absence of explicit expressions for their gradients. Our prior work provides such an explicit gradient expression for probabilistic constraints which we term Safe Policy Gradient-REINFORCE (SPG-REINFORCE). In this work, we provide an improved gradient SPG-Actor-Critic that leads to a lower variance than SPG-REINFORCE, which is substantiated by our theoretical results. A noteworthy aspect of both SPGs is their inherent algorithm independence, rendering them versatile for application across a range of policy-based algorithms. Furthermore, we propose a Safe Primal-Dual algorithm that can leverage both SPGs to learn safe policies. It is subsequently followed by theoretical analyses that encompass the convergence of the algorithm, as well as the near-optimality and feasibility on average. In addition, we test the proposed approaches by a series of empirical experiments. These experiments aim to examine and analyze the inherent trade-offs between the optimality and safety, and serve to substantiate the efficacy of two SPGs, as well as our theoretical contributions. | 翻訳日:2024-03-14 18:57:14 公開日:2024-03-13 |
# $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for
RGB赤外線物体検出
$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection ( http://arxiv.org/abs/2306.16175v3 ) ライセンス: Link先を確認 | Maoxun Yuan, Xingxing Wei | (参考訳) 近年,可視光(RGB)と赤外線(IR)画像の物体検出が注目されている。
赤外線画像の助けを借りて、オブジェクト検出器はRGB-IR複合情報を使用することにより、実用上より信頼性が高く、堅牢である。
しかし、既存の手法は依然としてモダリティの誤校正や核融合不整合の問題に悩まされている。
本稿では,異なる特徴間のペア関係をモデル化する強力な能力を有するため,これら2つの問題に同時に対処するために,$\mathrm{C}^2$Former という新しいキャリブレーション・補完変換器を提案する。
In $\mathrm{C}^2$Former, we design a Inter-modality Cross-Attention (ICA) module to obtain the calibrated and complementary features by learning the cross-attention relationship between the RGB and IR modality。
ICAにおけるグローバルアテンションの計算による計算コストを低減するため、特徴写像の次元を小さくするために、適応特徴サンプリング(AFS)モジュールが導入された。
$\mathrm{C}^2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
したがって,1つの単段と2つの2段階の物体検出器に,我々の$\mathrm{C}^2$Formerを組み込むことで,その有効性と汎用性を評価することができる。
本研究では,DroneVehicle と KAIST RGB-IR データセットの広範な実験により,RGB-IR 補完情報を完全に活用し,ロバストな検出結果が得られることを確認した。
コードはhttps://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detec tion.gitで公開されている。
Object detection on visible (RGB) and infrared (IR) images, as an emerging solution to facilitate robust detection for around-the-clock applications, has received extensive attention in recent years. With the help of IR images, object detectors have been more reliable and robust in practical applications by using RGB-IR combined information. However, existing methods still suffer from modality miscalibration and fusion imprecision problems. Since transformer has the powerful capability to model the pairwise correlations between different features, in this paper, we propose a novel Calibrated and Complementary Transformer called $\mathrm{C}^2$Former to address these two problems simultaneously. In $\mathrm{C}^2$Former, we design an Inter-modality Cross-Attention (ICA) module to obtain the calibrated and complementary features by learning the cross-attention relationship between the RGB and IR modality. To reduce the computational cost caused by computing the global attention in ICA, an Adaptive Feature Sampling (AFS) module is introduced to decrease the dimension of feature maps. Because $\mathrm{C}^2$Former performs in the feature domain, it can be embedded into existed RGB-IR object detectors via the backbone network. Thus, one single-stage and one two-stage object detector both incorporating our $\mathrm{C}^2$Former are constructed to evaluate its effectiveness and versatility. With extensive experiments on the DroneVehicle and KAIST RGB-IR datasets, we verify that our method can fully utilize the RGB-IR complementary information and achieve robust detection results. The code is available at https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detec tion.git. | 翻訳日:2024-03-14 18:57:13 公開日:2024-03-13 |
# ロバストスパースネットワークに対する適応型シャープネス対応プルーニング
Adaptive Sharpness-Aware Pruning for Robust Sparse Networks ( http://arxiv.org/abs/2306.14306v2 ) ライセンス: Link先を確認 | Anna Bair, Hongxu Yin, Maying Shen, Pavlo Molchanov, Jose Alvarez | (参考訳) ロバストさとコンパクトさは、現実世界に展開されるディープラーニングモデルの2つの重要な特性である。
強靭性とコンパクト性の目標は、強靭性は領域全体の一般化を必要とし、一方圧縮のプロセスは1つの領域の特異性を利用するため、不一致のように見える。
本稿では,AdaSAP(Adaptive Sharpness-Aware Pruning)を導入し,これらの目標をネットワークシャープネスのレンズで統一する。
AdaSAP法は、トレーニング時に見つからない入力変動に頑健なスパースネットワークを生成する。
我々は、損失景観を最適化するために、重量摂動を戦略的に組み込むことで、これを実現する。
これにより、モデルはプルーニングのためにプライマー化され、ロバスト性を改善するために正規化される。
AdaSAPは、画像分類におけるプルーニングモデルの堅牢な精度を、ImageNet Cで最大+6%、ImageNet V2で+4%、劣化したPascal VOCデータセットで+4%、幅広い圧縮比、プルーニング基準、ネットワークアーキテクチャで改善し、最近のプルーニングアートを大きなマージンで上回る。
Robustness and compactness are two essential attributes of deep learning models that are deployed in the real world. The goals of robustness and compactness may seem to be at odds, since robustness requires generalization across domains, while the process of compression exploits specificity in one domain. We introduce Adaptive Sharpness-Aware Pruning (AdaSAP), which unifies these goals through the lens of network sharpness. The AdaSAP method produces sparse networks that are robust to input variations which are unseen at training time. We achieve this by strategically incorporating weight perturbations in order to optimize the loss landscape. This allows the model to be both primed for pruning and regularized for improved robustness. AdaSAP improves the robust accuracy of pruned models on image classification by up to +6% on ImageNet C and +4% on ImageNet V2, and on object detection by +4% on a corrupted Pascal VOC dataset, over a wide range of compression ratios, pruning criteria, and network architectures, outperforming recent pruning art by large margins. | 翻訳日:2024-03-14 18:57:12 公開日:2024-03-13 |
# BED: 分布外検出のためのバイエンコーダベースの検出器
BED: Bi-Encoder-Based Detectors for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.08852v2 ) ライセンス: Link先を確認 | Louis Owen, Biddwan Ahmed, Abhay Kumar | (参考訳) 本稿では,両エンコーダを用いた検出器を用いた新しい手法を提案するとともに,異なる特徴抽出器を用いたNLPにおける様々なアウト・オブ・ディストリビューション(OOD)検出法の比較を包括的に行った。
特徴抽出段階では、Universal Sentence Encoder (USE)、BERT、MPNET、GLOVEといった一般的な手法を用いてテキストデータから情報表現を抽出する。
評価はCLINC150、ROSTD-Coarse、SNIPS、YELLOWなどいくつかのデータセットで行われている。
パフォーマンスは、F1-Score、MCC、FPR@90、FPR@95、AUPR、AUROCなどのメトリクスを使って評価される。
実験の結果、提案したバイエンコーダベースの検出器は、トレーニングでOODラベルを必要とするものや、すべてのデータセットでOODを検出できないものなど、他の方法よりも優れており、NLPにおけるOOD検出の大きな可能性を示している。
トレーニングプロセスの単純さと優れた検出性能により、現実のシナリオに適用できる。
提案手法とベンチマーク指標は,OOD検出の今後の研究に有用な資源であり,この分野のさらなる進歩を可能にする。
コードと実装の詳細はGitHubリポジトリで確認できます。
This paper introduces a novel method leveraging bi-encoder-based detectors along with a comprehensive study comparing different out-of-distribution (OOD) detection methods in NLP using different feature extractors. The feature extraction stage employs popular methods such as Universal Sentence Encoder (USE), BERT, MPNET, and GLOVE to extract informative representations from textual data. The evaluation is conducted on several datasets, including CLINC150, ROSTD-Coarse, SNIPS, and YELLOW. Performance is assessed using metrics such as F1-Score, MCC, FPR@90, FPR@95, AUPR, an AUROC. The experimental results demonstrate that the proposed bi-encoder-based detectors outperform other methods, both those that require OOD labels in training and those that do not, across all datasets, showing great potential for OOD detection in NLP. The simplicity of the training process and the superior detection performance make them applicable to real-world scenarios. The presented methods and benchmarking metrics serve as a valuable resource for future research in OOD detection, enabling further advancements in this field. The code and implementation details can be found on our GitHub repository: https://github.com/yellowmessenger/ood-detection. | 翻訳日:2024-03-14 18:57:12 公開日:2024-03-13 |
# 時間-局所最適化を超えたラジカルペアダイナミクスの量子制御
Quantum Control of Radical Pair Dynamics beyond Time-Local Optimization ( http://arxiv.org/abs/2306.08613v2 ) ライセンス: Link先を確認 | Farhan T. Chowdhury, Matt C. J. Denton, Daniel C. Bonser, Daniel R. Kattnig | (参考訳) 低磁場状態におけるラジカル対のスピン選択的再結合反応の任意の波形制御を実現する。
この目的のために、反応収率の最適化を可能にするため、GRAPE(Gradient Ascent Pulse Engineering)パラダイムを拡張した。
これは、高バイアス場に制限されたラジカル対の反応制御に対する従来提案されていた時間局所最適化アプローチの欠点を克服する。
本研究では, 時間ブロック法, スパースサンプリング法, 中央単段プロパゲータとそのFr'echet誘導体を反復トロッタスズキ分割法を用いて評価することにより, 組換え収率の効率的な時間-グローバル最適化を実現することを実証した。
より単純な高磁場シナリオでラジカル対反応のコヒーレント制御を実証するために以前使用されていた玩具モデルと、さらに16個の核スピンからなる現実的なエキシプレックス形成ドナー・アクセプターシステムについて実験を行った。
このことは、目的特異的な電波波形を用いてラジカル反応の収率を抑制または促進し、反応収率依存性の量子磁気学の道を切り開き、生化学的ラジカル対反応への量子制御の潜在的応用によって、周囲磁場における実際のラジカル対系のスピン制御の見通しを高める。
量子生物学における2つのラジカル対の後者の側面を実証する。
We realize arbitrary waveform-based control of spin-selective recombination reactions of radical pairs in the low magnetic field regime. To this end, we extend the Gradient Ascent Pulse Engineering (GRAPE) paradigm to allow for optimizing reaction yields. This overcomes drawbacks of previously suggested time-local optimization approaches for the reaction control of radical pairs, which were limited to high biasing fields. We demonstrate how efficient time-global optimization of the recombination yields can be realized by gradient based methods augmented by time-blocking, sparse sampling of the yield, and evaluation of the central single time-step propagators and their Fr\'echet derivatives using iterated Trotter-Suzuki splittings. Results are shown for both a toy model, previously used to demonstrate coherent control of radical pair reactions in the simpler high-field scenario, and furthermore for a realistic exciplex-forming donor-acceptor system comprising 16 nuclear spins. This raises prospects for the spin-control of actual radical pair systems in ambient magnetic fields, by suppressing or boosting radical reaction yields using purpose-specific radio-frequency waveforms, paving the way for reaction-yield-dependent quantum magnetometry and potentially applications of quantum control to biochemical radical pair reactions. We demonstrate the latter aspect for two radical pairs implicated in quantum biology. | 翻訳日:2024-03-14 18:57:10 公開日:2024-03-13 |
# 時空間量子フォーマリズムの統一:写像間の写像
プロセスと擬似密度行列の多重状態
Unification of spatiotemporal quantum formalisms: mapping between process and pseudo-density matrices via multiple-time states ( http://arxiv.org/abs/2306.05958v3 ) ライセンス: Link先を確認 | Xiangjing Liu, Zhian Jia, Yixian Qiu, Fei Li, and Oscar Dahlsten | (参考訳) 量子状態を定義するための3つの異なるアプローチ、すなわち擬密度行列(PDM)、プロセス行列、多重時間状態アプローチの関係について考察する。
これまでの研究では、二分二状態が二分二過程行列の統計を再現できることが示されている。
そこで本研究では,2時間状態に基づく運用シナリオをPDMとして表現し,プロセス行列からPDMへのマッピングを構築する。
このマッピングの存在は、PDMがプロセス行列と同様に、不明確な因果順序を持つプロセスをモデル化できることを意味している。
結果は時空間状態の量子モデルの統一に寄与する。
We consider the relation between three different approaches to defining quantum states across several times and locations: the pseudo-density matrix (PDM), the process matrix, and the multiple-time state approaches. Previous studies have shown that bipartite two-time states can reproduce the statistics of bipartite process matrices. Here, we show that the operational scenarios underlying two-time states can be represented as PDMs, and thereby construct a mapping from process matrices with measurements to PDMs. The existence of this mapping implies that PDMs can, like the process matrix, model processes with indefinite causal orders. The results contribute to the unification of quantum models of spatiotemporal states. | 翻訳日:2024-03-14 18:57:10 公開日:2024-03-13 |
# フレキシブル分布アライメント:長い尾を持つ半教師に向けて
適切な校正による学習
Flexible Distribution Alignment: Towards Long-tailed Semi-supervised Learning with Proper Calibration ( http://arxiv.org/abs/2306.04621v2 ) ライセンス: Link先を確認 | Emanuel Sanchez Aimar and Hannah Helgesen and Yonghao Xu and Marco Kuhlmann and Michael Felsberg | (参考訳) LTSSL(Long-tailed semi-supervised learning)は、偏見分類器を歪んだラベル付き分布に挑戦する半教師付きアプリケーションのための実践的なシナリオである。
この問題はしばしばラベル付きとラベルなしのクラス分布の相違によって増大し、バイアス付き擬似ラベル、希少なクラスを無視し、校正の不十分な確率に繋がる。
このような問題に対処するために、FlexDA(Flexible Distribution Alignment)という新しい適応ロジット調整型損失フレームワークを導入し、予測をラベルなしデータの実際の分布と動的に推定・調整し、トレーニングの終了までにバランスの取れた分類器を実現する。
FlexDAは、蒸留ベースの一貫性の喪失によってさらに強化され、クラス間での公正なデータ使用を促進し、信頼性の低いサンプルを効果的に活用する。
この方法はADELLO(Align and Distill Everything All at Once)にカプセル化され、ラベルシフトに対する堅牢さを証明し、LTSSLコンテキストにおけるモデルキャリブレーションを大幅に改善し、CIFAR100-LT、STL10-LT、ImageNet127を含む複数のベンチマークで過去の最先端のアプローチを超越し、半教師付き学習におけるクラス不均衡の問題に対処する。
私たちのコードは、論文の受理時に利用可能になります。
Long-tailed semi-supervised learning (LTSSL) represents a practical scenario for semi-supervised applications, challenged by skewed labeled distributions that bias classifiers. This problem is often aggravated by discrepancies between labeled and unlabeled class distributions, leading to biased pseudo-labels, neglect of rare classes, and poorly calibrated probabilities. To address these issues, we introduce Flexible Distribution Alignment (FlexDA), a novel adaptive logit-adjusted loss framework designed to dynamically estimate and align predictions with the actual distribution of unlabeled data and achieve a balanced classifier by the end of training. FlexDA is further enhanced by a distillation-based consistency loss, promoting fair data usage across classes and effectively leveraging underconfident samples. This method, encapsulated in ADELLO (Align and Distill Everything All at Once), proves robust against label shift, significantly improves model calibration in LTSSL contexts, and surpasses previous state-of-of-art approaches across multiple benchmarks, including CIFAR100-LT, STL10-LT, and ImageNet127, addressing class imbalance challenges in semi-supervised learning. Our code will be made available upon paper acceptance. | 翻訳日:2024-03-14 18:57:08 公開日:2024-03-13 |
# 予算情報公開を伴うコンテキスト帯域
Contextual Bandits with Budgeted Information Reveal ( http://arxiv.org/abs/2305.18511v3 ) ライセンス: Link先を確認 | Kyra Gan, Esmaeil Keyvanshokooh, Xueqing Liu, Susan Murphy | (参考訳) コンテキストバンディットアルゴリズムは、パーソナライズされた治療を推奨するために、デジタルヘルスで一般的に使用される。
しかし, 治療効果を確実にするためには, 即効性のない処置を患者に要求されることがしばしばある。
実際に臨床医は、患者がこれらの行動を取ることを奨励し、追加情報を集めるための予算が限られている。
本稿では,この問題に対処するための新しい最適化と学習アルゴリズムを提案する。
このアルゴリズムは、2つのアルゴリズムアプローチの強度をシームレスに結合する。
1)患者に手を差し伸べる最適なタイミングを決定するオンライン原始双対アルゴリズム
2)患者に対してパーソナライズされた治療を行うための文脈的包帯学習アルゴリズム。
我々は、このアルゴリズムがサブ線形後悔境界を認めることを証明した。
本アルゴリズムは,合成データと実世界のデータの両方において有用であることを示す。
Contextual bandit algorithms are commonly used in digital health to recommend personalized treatments. However, to ensure the effectiveness of the treatments, patients are often requested to take actions that have no immediate benefit to them, which we refer to as pro-treatment actions. In practice, clinicians have a limited budget to encourage patients to take these actions and collect additional information. We introduce a novel optimization and learning algorithm to address this problem. This algorithm effectively combines the strengths of two algorithmic approaches in a seamless manner, including 1) an online primal-dual algorithm for deciding the optimal timing to reach out to patients, and 2) a contextual bandit learning algorithm to deliver personalized treatment to the patient. We prove that this algorithm admits a sub-linear regret bound. We illustrate the usefulness of this algorithm on both synthetic and real-world data. | 翻訳日:2024-03-14 18:57:07 公開日:2024-03-13 |
# 回帰モデルによる数値応答における誤差の検出
Detecting Errors in a Numerical Response via any Regression Model ( http://arxiv.org/abs/2305.16583v3 ) ライセンス: Link先を確認 | Hang Zhou, Jonas Mueller, Mayank Kumar, Jane-Ling Wang and Jing Lei | (参考訳) ノイズは多くの数値データセットを悩ませており、データに記録された値は、誤ったセンサー、データ入力/処理ミス、不完全な人間の推定などの理由で、真の基礎となる値と一致しない可能性がある。
我々は、共変量を用いた一般的な回帰設定と、観測値がエラーを含む可能性のある潜在的に破損した応答を考える。
様々な不確実性を考慮し,データセットの共変量情報に基づいて,真偽と自然データゆらぎを識別する妥当性スコアを導入した。
本稿では,潜在的な誤りを除去するための簡易かつ効率的なフィルタリング手法を提案し,提案手法の理論的保証を確立する。
また,実世界の数値誤差を含む5つの回帰データセット(真の値も知られている)を含む新しいエラー検出ベンチマークも提案する。
このベンチマークと追加シミュレーションでは,他の手法よりも精度・リコールの精度が良い不正確な値が同定される。
Noise plagues many numerical datasets, where the recorded values in the data may fail to match the true underlying values due to reasons including: erroneous sensors, data entry/processing mistakes, or imperfect human estimates. We consider general regression settings with covariates and a potentially corrupted response whose observed values may contain errors. By accounting for various uncertainties, we introduced veracity scores that distinguish between genuine errors and natural data fluctuations, conditioned on the available covariate information in the dataset. We propose a simple yet efficient filtering procedure for eliminating potential errors, and establish theoretical guarantees for our method. We also contribute a new error detection benchmark involving 5 regression datasets with real-world numerical errors (for which the true values are also known). In this benchmark and additional simulation studies, our method identifies incorrect values with better precision/recall than other approaches. | 翻訳日:2024-03-14 18:57:07 公開日:2024-03-13 |
# 疎性のない過パラメータ線形モデルのベイズ解析
Bayesian Analysis for Over-parameterized Linear Model without Sparsity ( http://arxiv.org/abs/2305.15754v2 ) ライセンス: Link先を確認 | Tomoya Wakayama, Masaaki Imaizumi | (参考訳) 高次元ベイズ統計学の分野では、パラメータの空間性をもたらす様々な先行分布を含む多くの方法論が開発されている。
しかし、これらの先行は、データのスペクトル固有ベクトル構造を扱う際の限界を示し、近年発達した過パラメータモデル(空間性を前提としない高次元線形モデル)を分析するのに効果が低い。
本研究では,データ共分散行列の固有ベクトルに依存する事前分布を用いたベイズ的手法を提案する。
また、導出した後続推定の収縮率も提供し、後続分布のガウス近似を計算した。
前者は後続推定の効率性を示し、後者はベルンシュタイン-ヴォン・ミセス型アプローチによるパラメータの不確かさの定量化を促進する。
これらの結果は,データスペクトルを処理し,非スパースな高次元パラメータを推定できるベイズ的手法が実現可能であることを示唆している。
In the field of high-dimensional Bayesian statistics, a plethora of methodologies have been developed, including various prior distributions that result in parameter sparsity. However, such priors exhibit limitations in handling the spectral eigenvector structure of data, rendering estimations less effective for analyzing the over-parameterized models (high-dimensional linear models that do not assume sparsity) developed in recent years. This study introduces a Bayesian approach that employs a prior distribution dependent on the eigenvectors of data covariance matrices without inducing parameter sparsity. We also provide contraction rates of the derived posterior estimation and develop a truncated Gaussian approximation of the posterior distribution. The former demonstrates the efficiency of posterior estimation, whereas the latter facilitates the uncertainty quantification of parameters via a Bernstein--von Mises-type approach. These findings suggest that Bayesian methods capable of handling data spectra and estimating non-sparse high-dimensional parameters are feasible. | 翻訳日:2024-03-14 18:57:06 公開日:2024-03-13 |
# 破れのない忠実さで魔法の状態を符号化する
Encoding a magic state with beyond break-even fidelity ( http://arxiv.org/abs/2305.13581v2 ) ライセンス: Link先を確認 | Riddhi S. Gupta, Neereja Sundaresan, Thomas Alexander, Christopher J. Wood, Seth T. Merkel, Michael B. Healy, Marius Hillenbrand, Tomas Jochym-O'Connor, James R. Wootton, Theodore J. Yoder, Andrew W. Cross, Maika Takita and Benjamin J. Brown | (参考訳) 大規模なアルゴリズムを量子コンピュータ上で実行するには、誤り訂正符号は論理ゲートと呼ばれる基本的な操作セットを実行でき、ノイズ~\cite{Harper2019,Ryan-Anderson2021,Egan2021fault, Chen2022calibrated, Sundaresan2022matching, ryananderson2022implementing, Postler2022demonstration, GoogleAI2023} から符号化された情報を分離する必要がある。
我々は、マジック状態~\cite{Bravyi 2005universal,Maier2013magic, Chamberland2022building} と呼ばれる特別な資源を生産することで、論理ゲートの普遍的なセットを完成させることができる。
したがって、計算に最小限のノイズを導入しながらアルゴリズムを実行するために、高忠実なマジック状態を生成することが重要である。
本稿では, 超電導量子ビットアレイ上に, 誤差補正を用いたマジック状態作成手法を提案し, 実装する。
我々の手法は、装置の個々の量子ビットを用いて準備できるものよりも優れたマジック状態を生成する。
このことは、フォールトトレラント量子コンピューティングの基本的な原理、すなわちノイズ量子ビットを持つ論理ゲートの品質を改善するためにエラー補正を使うことができることを証明している。
さらに、適応回路を用いて、中間回路の測定結果に応じて回路要素を変更することにより、マジック状態の収量を増やすことができることを示す。
これは、多くのエラー訂正サブルーチンに必要な重要な機能を示している。
我々のプロトタイプは、大規模量子コンピューティングアーキテクチャにおいて、高忠実度マジック状態を生成するのに必要な物理量子ビットの数を削減できるので、将来的には貴重なものになるだろう。
To run large-scale algorithms on a quantum computer, error-correcting codes must be able to perform a fundamental set of operations, called logic gates, while isolating the encoded information from noise~\cite{Harper2019,Ryan-Anderson2021,Egan2021fault, Chen2022calibrated, Sundaresan2022matching, ryananderson2022implementing, Postler2022demonstration, GoogleAI2023}. We can complete a universal set of logic gates by producing special resources called magic states~\cite{Bravyi2005universal,Maier2013magic, Chamberland2022building}. It is therefore important to produce high-fidelity magic states to conduct algorithms while introducing a minimal amount of noise to the computation. Here, we propose and implement a scheme to prepare a magic state on a superconducting qubit array using error correction. We find that our scheme produces better magic states than those we can prepare using the individual qubits of the device. This demonstrates a fundamental principle of fault-tolerant quantum computing~\cite{Shor96}, namely, that we can use error correction to improve the quality of logic gates with noisy qubits. Additionally, we show we can increase the yield of magic states using adaptive circuits, where circuit elements are changed depending on the outcome of mid-circuit measurements. This demonstrates an essential capability we will need for many error-correction subroutines. Our prototype will be invaluable in the future as it can reduce the number of physical qubits needed to produce high-fidelity magic states in large-scale quantum-computing architectures. | 翻訳日:2024-03-14 18:57:06 公開日:2024-03-13 |
# 注意すべきか忘れるべきか : 知識記憶機構に潜む
言語モデルについて
Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism of Language Models ( http://arxiv.org/abs/2305.09144v2 ) ライセンス: Link先を確認 | Boxi Cao, Qiaoyu Tang, Hongyu Lin, Shanshan Jiang, Bin Dong, Xianpei Han, Jiawei Chen, Tianshu Wang, Le Sun | (参考訳) 記憶は、世界の知識と活動のエピソードのリポジトリとして機能する最も重要な認知機能の一つである。
近年、大規模な事前学習型言語モデルが顕著な記憶能力を示している。
それとは対照的に、前訓練のないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされているのが長年観察されてきた。
言語モデルの記憶機構を解明するために,対象とする知識タイプ,学習戦略,学習スケジュールを制御し,徹底的な実験を行う。
以下に示す。
1) バニラ語モデルは忘れがちである。
2)事前学習は,暗黙の言語モデルにつながる。
3)知識の関連性と多様化は記憶形成に大きな影響を及ぼす。
これらの結論は、事前訓練された言語モデルの能力を理解するのに有用であり、新しい学習アルゴリズムの設計と評価に重点を置いている。
Memory is one of the most essential cognitive functions serving as a repository of world knowledge and episodes of activities. In recent years, large-scale pre-trained language models have shown remarkable memorizing ability. On the contrary, vanilla neural networks without pre-training have been long observed suffering from the catastrophic forgetting problem. To investigate such a retentive-forgetful contradiction and understand the memory mechanism of language models, we conduct thorough experiments by controlling the target knowledge types, the learning strategies and the learning schedules. We find that: 1) Vanilla language models are forgetful; 2) Pre-training leads to retentive language models; 3) Knowledge relevance and diversification significantly influence the memory formation. These conclusions are useful for understanding the abilities of pre-trained language models and shed light on designing and evaluating new learning and inference algorithms of language models. | 翻訳日:2024-03-14 18:57:04 公開日:2024-03-13 |
# ZipIt! トレーニングなしで異なるタスクからモデルをマージする
ZipIt! Merging Models from Different Tasks without Training ( http://arxiv.org/abs/2305.03053v3 ) ライセンス: Link先を確認 | George Stoica, Daniel Bolya, Jakob Bjorner, Pratik Ramesh, Taylor Hearn, Judy Hoffman | (参考訳) 典型的な深い視覚認識モデルは、訓練された1つのタスクを実行することができる。
本稿では,異なる初期化モデルと異なる初期化モデルを組み合わせて,個別のタスクを1つのマルチタスクモデルに追加の訓練を加えることなく組み合わせることの難しさに対処する。
モデルマージにおける以前の作業は、1つのモデルをもう1つのモデルの空間に置換し、それらを平均化する。
これは同じタスクでトレーニングされたモデルに当てはまるが、非結合タスクでトレーニングされたモデルの違いを考慮するのに失敗する。
そこで我々は,2つの簡単な戦略を組み込んだ,同じアーキテクチャの2つの任意のモデルをマージする一般的な手法であるZipIt!を紹介した。
まず、モデル間で共有されていない機能を説明するために、一般的な「zip」操作を定義して各モデル内の機能をマージできるように、モデルマージ問題を拡張します。
第二に、特定のレイヤまでモデルを部分的にジッピングするサポートを追加し、自然にマルチヘッドモデルを作成します。
これらの2つの変更は、事前の作業よりも20~60%改善されているため、非結合タスクでトレーニングされたモデルを再トレーニングせずにマージしやすくなる。
Typical deep visual recognition models are capable of performing the one task they were trained on. In this paper, we tackle the extremely difficult problem of combining distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training. Prior work in model merging permutes one model to the space of the other then averages them together. While this works for models trained on the same task, we find that this fails to account for the differences in models trained on disjoint tasks. Thus, we introduce "ZipIt!", a general method for merging two arbitrary models of the same architecture that incorporates two simple strategies. First, in order to account for features that aren't shared between models, we expand the model merging problem to allow for merging features within each model by defining a general "zip" operation. Second, we add support for partially zipping the models up until a specified layer, naturally creating a multi-head model. We find that these two changes combined account for 20-60% improvement over prior work, making it more feasible to merge models trained on disjoint tasks without retraining. | 翻訳日:2024-03-14 18:57:04 公開日:2024-03-13 |
# PhagoStatはスケーラブルで解釈可能なエンドツーエンドフレームワーク
神経変性疾患における細胞性ファゴサイトーシスの効率的な定量化
研究
PhagoStat a scalable and interpretable end to end framework for efficient quantification of cell phagocytosis in neurodegenerative disease studies ( http://arxiv.org/abs/2304.13764v2 ) ライセンス: Link先を確認 | Mehdi Ounissi, Morwena Latouche and Daniel Racoceanu | (参考訳) 神経変性疾患の評価には, 動的無宿主細胞の破骨細胞化の定量化が不可欠である。
しかし、高速な細胞相互作用の測定と背景からの細胞識別は、タイムラプス位相コントラストビデオ顕微鏡の処理において、このタスクを非常に困難にしている。
本研究では, 食中毒活動の定量化と解析を行うためのエンドツーエンド, スケーラブル, 汎用的なリアルタイムフレームワークを提案する。
提案するパイプラインは,大規模なデータ集合を処理することができ,顕微鏡の動きやフレームのぼかしといった摂動に対処するデータ品質検証モジュールを備えている。
また,ブラックボックスアルゴリズムと比較して,DL手法の解釈性を向上させるための説明可能なセルセグメンテーションモジュールを提案する。
これには、視覚的な説明とモデルの単純化という、2つの解釈可能なDL機能が含まれる。
我々は、DLアルゴリズムのアルゴリズム最適化の基本的な洞察とソリューションを提供することにより、DLの解釈可能性が高い性能の逆ではないことを実証する。
さらに、解釈可能なモジュールを組み込むことで、効率的なアーキテクチャ設計と最適化された実行時間が得られる。
我々はこのパイプラインをFTDの微小グリア細胞食細胞解析に応用し、FTD変異細胞が制御細胞よりも大きく攻撃的であることを示す統計的に信頼性の高い結果を得た。
この手法は、最先端のアートパフォーマンスを生成することで、公開ベンチマークでテストされ、検証されている。
翻訳のアプローチと今後の研究を刺激するため,神経変性疾患研究における免疫系評価のための,オープンソースのエンドツーエンドパイプラインと独自のマイクログリア細胞ファゴサイトーシスデータセットをリリースする。
このパイプラインと関連するデータセットは、この分野における将来の進歩を一貫して結晶化し、神経変性疾患の特徴の領域に特化した解釈可能なアルゴリズムの開発を促進する。
github.com/ounissimehdi/PhagoStat
Quantifying the phagocytosis of dynamic, unstained cells is essential for evaluating neurodegenerative diseases. However, measuring rapid cell interactions and distinguishing cells from background make this task very challenging when processing time-lapse phase-contrast video microscopy. In this study, we introduce an end-to-end, scalable, and versatile real-time framework for quantifying and analyzing phagocytic activity. Our proposed pipeline is able to process large data-sets and includes a data quality verification module to counteract perturbations such as microscope movements and frame blurring. We also propose an explainable cell segmentation module to improve the interpretability of DL methods compared to black-box algorithms. This includes two interpretable DL capabilities: visual explanation and model simplification. We demonstrate that interpretability in DL is not the opposite of high performance, by additionally providing essential DL algorithm optimization insights and solutions. Besides, incorporating interpretable modules results in an efficient architecture design and optimized execution time. We apply our pipeline to analyze microglial cell phagocytosis in FTD and obtain statistically reliable results showing that FTD mutant cells are larger and more aggressive than control cells. The method has been tested and validated on public benchmarks by generating state-of-the art performances. To stimulate translational approaches and future studies, we release an open-source end-to-end pipeline and a unique microglial cells phagocytosis dataset for immune system characterization in neurodegenerative diseases research. This pipeline and the associated dataset will consistently crystallize future advances in this field, promoting the development of interpretable algorithms dedicated to the domain of neurodegenerative diseases' characterization. github.com/ounissimehdi/PhagoStat | 翻訳日:2024-03-14 18:57:03 公開日:2024-03-13 |
# AGI: AI for Education
AGI: Artificial General Intelligence for Education ( http://arxiv.org/abs/2304.12479v5 ) ライセンス: Link先を確認 | Ehsan Latif, Gengchen Mai, Matthew Nyaaba, Xuansheng Wu, Ninghao Liu, Guoyu Lu, Sheng Li, Tianming Liu, and Xiaoming Zhai | (参考訳) 人工知能 (AGI) は, GPT-4 や ChatGPT といった大規模言語モデルやチャットボットの出現により, 将来的な技術としてグローバルに認識されるようになった。
典型的には限られたタスクのために設計された従来のAIモデルと比較して、トレーニングのためにかなりの量のドメイン固有のデータを必要としており、教育における複雑な対人ダイナミクスを常に考慮しているとは限らない。
最近の大規模な事前学習モデルによって駆動されるAGIは、推論、問題解決、意思決定、さらには人間の感情や社会的相互作用を理解することなど、人間レベルの知性を必要とするタスクを実行する機械の能力において、大きな飛躍を示している。
本稿では,将来の教育目標達成,教育・カリキュラムの設計,評価の実施など,今後の教育におけるAGIの重要概念,能力,範囲,ポテンシャルを概観する。
AGIは知的学習システム、教育評価、評価手順を大幅に改善することができる。
AGIシステムは個々の学生のニーズに適応し、適切な学習体験を提供する。
また、学生のパフォーマンスに関する総合的なフィードバックを提供し、生徒の進歩に基づいた指導方法を動的に調整することができる。
本稿は、AGIの能力が人間の感情や社会的相互作用を理解することにまで及んでいることを強調する。
本稿は、データバイアス、公平性、プライバシなど、AGIによる教育における倫理的問題について論じ、宿題、教育、採用などの学術的環境において、AGIの責任ある使用を確実にするための行動規範の必要性を強調している。
また、AGIの開発には、研究と応用の推進のために、教育者とAIエンジニアの学際的な連携が必要であると結論付けている。
Artificial general intelligence (AGI) has gained global recognition as a future technology due to the emergence of breakthrough large language models and chatbots such as GPT-4 and ChatGPT, respectively. Compared to conventional AI models, typically designed for a limited range of tasks, demand significant amounts of domain-specific data for training and may not always consider intricate interpersonal dynamics in education. AGI, driven by the recent large pre-trained models, represents a significant leap in the capability of machines to perform tasks that require human-level intelligence, such as reasoning, problem-solving, decision-making, and even understanding human emotions and social interactions. This position paper reviews AGI's key concepts, capabilities, scope, and potential within future education, including achieving future educational goals, designing pedagogy and curriculum, and performing assessments. It highlights that AGI can significantly improve intelligent tutoring systems, educational assessment, and evaluation procedures. AGI systems can adapt to individual student needs, offering tailored learning experiences. They can also provide comprehensive feedback on student performance and dynamically adjust teaching methods based on student progress. The paper emphasizes that AGI's capabilities extend to understanding human emotions and social interactions, which are critical in educational settings. The paper discusses that ethical issues in education with AGI include data bias, fairness, and privacy and emphasizes the need for codes of conduct to ensure responsible AGI use in academic settings like homework, teaching, and recruitment. We also conclude that the development of AGI necessitates interdisciplinary collaborations between educators and AI engineers to advance research and application efforts. | 翻訳日:2024-03-14 18:57:02 公開日:2024-03-13 |
# フレキシブルK近傍分類器の導出と応用
イオン移動度スペクトロメトリによる屋内局在化
Flexible K Nearest Neighbors Classifier: Derivation and Application for Ion-mobility Spectrometry-based Indoor Localization ( http://arxiv.org/abs/2304.10151v3 ) ライセンス: Link先を確認 | Philipp M\"uller | (参考訳) K Nearest Neighbors (KNN)分類器は指紋による局所化や医学など多くの分野で広く使われている。
Kラベル付きサンプルのクラスメンバシップに基づいて、非ラベル付きサンプルのクラスメンバシップを決定する。
Kの選択は様々な研究のトピックであり、提案されたKNN変種である。
しかし、他のすべての変種より優れていることが証明されている変種は存在しない。
この論文では、K 近傍の近傍が実際に未標識標本に近いことを保証し、その途中で K を見つける KNN-variant について論じる。
このアルゴリズムは、理論的シナリオにおいて標準のKNNと比較され、イオン移動度スペクトロメトリの指紋に基づいて屋内でのローカライゼーションを行う。
テストではKNNよりも高い分類精度を達成し、計算要求は同じである。
The K Nearest Neighbors (KNN) classifier is widely used in many fields such as fingerprint-based localization or medicine. It determines the class membership of unlabelled sample based on the class memberships of the K labelled samples, the so-called nearest neighbors, that are closest to the unlabelled sample. The choice of K has been the topic of various studies and proposed KNN-variants. Yet no variant has been proven to outperform all other variants. In this paper a KNN-variant is discussed which ensures that the K nearest neighbors are indeed close to the unlabelled sample and finds K along the way. The algorithm is tested and compared to the standard KNN in theoretical scenarios and for indoor localization based on ion-mobility spectrometry fingerprints. It achieves a higher classification accuracy than the KNN in the tests, while having the same computational demand. | 翻訳日:2024-03-14 18:57:02 公開日:2024-03-13 |
# 胸部CTにおけるマルチモーダル・マルチタスクの基礎モデル
上演
Medical Multimodal-Multitask Foundation Model for Superior Chest CT Performance ( http://arxiv.org/abs/2304.02649v2 ) ライセンス: Link先を確認 | Chuang Niu, Qing Lyu, Christopher D. Carothers, Parisa Kaviani, Josh Tan, Pingkun Yan, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang | (参考訳) 患者管理にはマルチモーダルデータとのマルチタスクインタラクションが必要である。
今日のAI、特に大規模ファンデーションモデルは、前例のない機会を約束するが、医療マルチモーダルマルチタスクファンデーションモデルの開発における進歩は、依然として比較的遅い。
データチャレンジ - 医療用マルチモーダルなマルチタスクデータセットを、他の臨床用データセットに合わせて3次元の医用トモグラフィ画像を含むキュレートするための高いバー、モデルチャレンジ -- スケーラブルで適応可能な基礎モデルアーキテクチャが、さまざまな臨床用タスクのためにマルチモーダルなデータセットを相乗化できない、という2つの課題がある。
本稿では,肺がん検診に重点を置き,M3FM(Multimodal-multitask foundation model)を提案する。
M3FMをトレーニングするために、まず163,725個の胸部CT検査、48種類の臨床データ、肺、心臓、その他の胸部疾患に関する17の医療タスクからなる総合的マルチタスクデータセットを収集した。
そこで我々は,マルチモーダル情報を効果的に統合し,自由文プロンプトで自然に複数のタスクを実行するための統一的な学習戦略として,マルチモーダル質問応答フレームワークを作成し,適用した。
大規模な実験結果から、M3FMは従来の最先端モデルよりも一貫して優れていたことが示されている。
M3FMは、特定の臨床タスクに関連する情報的マルチモーダルデータ要素を特定し、AIモデルの構築に役立ち、マルチモーダルデータと疾患間の相関に関する洞察を得る。
M3FMは、小さなアウト・オブ・ディストリビューションデータセットを使用して、新しいタスクのパフォーマンスを向上させるように適応できる。
M3FMは、肺がん検診、心臓疾患予測、その他のCT関連タスクにおいて、より優れたボリュームCT画像撮影性能を実現している。
M3FMは、AIを活用した正確かつ効率的な医療に向けて、より多くのデータタイプを組み込んで、他の医療タスクを改善するために拡張することができる。
Patient management requires multitasking interaction with multimodal data. While today's AI, particularly large foundation models, promises unprecedented opportunities, progress remains relatively slow in developing medical multimodal multitask foundation models. There are two main challenges along this direction: the data challenge -- the high bar to curate medical multimodal multitask datasets including 3D medical tomographic images in alignment with other clinical datasets, and the model challenge -- the unavailability of a scalable and adaptable foundation model architecture to synergize multimodal datasets for diverse clinical tasks. Here we propose the first-of-its-kind medical multimodal-multitask foundation model (M3FM) with an emphasis on lung cancer screening. To train our M3FM, we first curated a comprehensive multimodal multitask dataset consisting of 163,725 3D chest CT exams, 48 clinical data types, and 17 medical tasks on lung, heart, and other chest diseases. Then, we created and applied a multimodal question-answering framework as a unified training strategy to effectively integrate multimodal information and naturally perform multiple tasks with free-text prompting. Extensive experimental results demonstrate that M3FM consistently outperforms the previous state-of-the-art models. M3FM can identify informative multimodal data elements that are relevant to specific clinical tasks, being instrumental in building AI models and gaining insights into correlations among multimodal data and diseases. M3FM can be adapted to boost the performance of new tasks with a small out-of-distribution dataset. M3FM has enabled superior volumetric CT imaging performance for lung cancer screening, cardiac disease prediction, and other CT-related tasks. M3FM can be extended to incorporate more data types and improve other medical tasks, towards AI-empowered precise and efficient medicine. | 翻訳日:2024-03-14 18:57:01 公開日:2024-03-13 |
# LitCab: 短期および長期にわたる軽量言語モデルの校正
反応
LitCab: Lightweight Language Model Calibration over Short- and Long-form Responses ( http://arxiv.org/abs/2310.19208v2 ) ライセンス: Link先を確認 | Xin Liu, Muhammad Khalifa, Lu Wang | (参考訳) モデルは、その確率推定が正しい出力の実際の可能性と一致したとき、よく校正されると考えられる。
言語モデル(LM)の校正は、LMの幻覚を検出し緩和するだけでなく、より信頼できるモデルを構築する上でも重要な役割を担っている。
しかし、標準校正技術はLM校正には適していない。
例えば、温度スケーリングのような後処理の方法は、候補世代を順序付けしない。
一方、トレーニングベースの手法では、大規模なLMでは実用的ではないモデル全体を微調整する必要がある。
本稿では,入力テキストの表現とバイアス項の予測を行う単一線形層からなる軽量キャリブレーション機構LitCabについて述べる。
LitCabはモデルのキャリブレーションを改善し、元のモデルのパラメータの2%しか追加しない。
評価のために、8つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、すべてのタスクのキャリブレーションを改善し、平均ECEスコアを最大30%削減する。
我々はさらに、GPTおよびLLaMAファミリーから複数の人気のあるオープンソースLMを用いて包括的な評価を行い、以下の重要な知見を得た。
(i)同族内の大型モデルでは、短命なタスクのキャリブレーションが向上するが、必ずしも長命なタスクでは不十分である。
(II) GPT- familyモデルでは, LLaMA, Llama2, Vicunaモデルに比べ, パラメータが少ないにもかかわらず, キャリブレーションが優れている。
三 限定目的(例えば会話)のサンプルを用いた微調整事前訓練モデル(例えば、LLaMA)は、校正が悪化し、微調整装置がLMの校正に重要であることを強調する。
A model is considered well-calibrated when its probability estimate aligns with the actual likelihood of the output being correct. Calibrating language models (LMs) is crucial, as it plays a vital role in detecting and mitigating hallucinations of LMs as well as building more trustworthy models. However, standard calibration techniques may not be suited for LM calibration. For instance, post-processing methods such as temperature scaling do not reorder the candidate generations. On the other hand, training-based methods require fine-tuning the entire model, which is impractical for LMs of large scale. We present LitCab, a lightweight calibration mechanism consisting of a single linear layer that takes the input text representation and predicts a bias term, which is then added to the LM output logits. LitCab improves model calibration by only adding < 2% of the original model parameters. For evaluation, we construct CaT, a benchmark consisting of eight text generation tasks, covering responses ranging from short phrases to paragraphs. We test LitCab with Llama2-7B, where it improves calibration across all tasks, reducing the average ECE score by as large as 30%. We further conduct a comprehensive evaluation with multiple popular open-sourced LMs from GPT and LLaMA families, yielding the following key findings: (i) Larger models within the same family exhibit better calibration on tasks with short generation tasks, but not necessarily for longer ones. (ii) GPT-family models show superior calibration compared to LLaMA, Llama2, and Vicuna models, despite having much fewer parameters. (iii) Fine-tuning pretrained model (e.g., LLaMA) with samples of limited purpose (e.g., conversations) may lead to worse calibration, highlighting the importance of fine-tuning setups for calibrating LMs. | 翻訳日:2024-03-14 18:28:07 公開日:2024-03-13 |
# 局所量子場の経路積分からの粒子検出器モデル
Particle detector models from path integrals of localized quantum fields ( http://arxiv.org/abs/2310.16083v4 ) ライセンス: Link先を確認 | Bruno de S. L. Torres | (参考訳) シュウィンガー・ケルディシュ経路積分を用いて、局所量子場理論と、相対論的量子情報(RQI)における局所プローブのより一般的なモデルとの接続を描く。
ローカライズドフィールドの到達不能モードをプローブとして組み合わせて追跡することにより、摂動理論の先頭で、プローブ場の有限個のモードのダイナミクスは、ちょうど有限個の調和振動子Unruh-DeWitt(UDW)検出器の力学であることを示す。
等価性は、プローブ・ターゲット場系の入力状態の比較的一般的なクラスと、検出器として含む任意の数のモードに対して有効である。
経路積分はまた、追跡された追加モードの存在により摂動理論のより高い順序でUDWモデルの補正を得る体系的な方法を与える閉形式式も提供する。
このアプローチは、最近提案された量子場理論(T. R. Perche et al , Particle detectors from localized quantum field theory, Phys. Rev. D 109, 045013 (2024)] と、経路積分法がより一般的である物理学領域における粒子検出器モデルの間の潜在的な接続を示唆し、拡張する。
Using the Schwinger-Keldysh path integral, we draw a connection between localized quantum field theories and more commonly used models of local probes in Relativistic Quantum Information (RQI). By integrating over and then tracing out the inaccessible modes of the localized field being used as a probe, we show that, at leading order in perturbation theory, the dynamics of any finite number of modes of the probe field is exactly that of a finite number of harmonic-oscillator Unruh-DeWitt (UDW) detectors. The equivalence is valid for a rather general class of input states of the probe-target field system, as well as for any arbitrary number of modes included as detectors. The path integral also provides a closed-form expression which gives us a systematic way of obtaining the corrections to the UDW model at higher orders in perturbation theory due to the existence of the additional modes that have been traced out. This approach vindicates and extends a recently proposed bridge between detector-based and field-theory-based measurement frameworks for quantum field theory [T. R. Perche et al., Particle detectors from localized quantum field theories, Phys. Rev. D 109, 045013 (2024)], and also points to potential connections between particle detector models in RQI and other areas of physics where path integral methods are more commonplace -- in particular, the Wilsonian approach to the renormalization group and effective field theories. | 翻訳日:2024-03-14 18:28:06 公開日:2024-03-13 |
# ラムプクエンチ量子相におけるスケーリングと普遍性
変遷
Scaling and Universality at Ramped Quench Dynamical Quantum Phase Transition ( http://arxiv.org/abs/2310.15101v2 ) ライセンス: Link先を確認 | Sara Zamani, J. Naji, R. Jafari, and A. Langari | (参考訳) 周期的に駆動される拡張XYモデルの非平衡ダイナミクスは、線形時間依存性の磁場の存在下で、動的量子相転移(DQPTs)の概念を用いて検討される。
平衡相転移に類似した線に沿って、この研究の主目的は、傾斜したクエンチDQPTにおけるスケーリングや普遍性といった基本的な概念を探索することである。
差分閉じが発生するモデルの臨界点は、駆動周波数を調整することによって移動でき、従って、駆動周波数を調整することで、DQPTの存在/存在を柔軟に制御できることを示した。
%) この特性を利用すると, DQPTが発生する臨界モードは, 臨界モードがスイープ速度の平方根と直線的にスケールするキブルズレーク(KZ)領域, プリ飽和(PS)領域, 臨界モードがスイープ速度に対して台地となる飽和(S)領域の3つの領域に分類されることがわかった。
2つの臨界点を越えるランプでは、臨界モードはKZ領域とPS領域のみを開示する。
数値シミュレーションに基づいて、DQPT時間へのアプローチとして動的自由エネルギーは時間とともに線形にスケールし、全スイープ速度と駆動周波数に対して指数$\nu=1\pm 0.01$となる。
The nonequilibrium dynamics of a periodically driven extended XY model, in the presence of linear time dependent magnetic filed, is investigated using the notion of dynamical quantum phase transitions (DQPTs). Along the similar lines to the equilibrium phase transition, the main purpose of this work is to search the fundamental concepts such as scaling and universality at the ramped quench DQPTs. We have shown that the critical points of the model, where the gap closing occurs, can be moved by tuning the driven frequency and consequently the presence/absence of DQPTs can be flexibly controlled by adjusting the driven frequency. %Taking advantage of this property, We have uncovered that, for a ramp across the single quantum critical point, the critical mode at which DQPTs occur is classified into three regions: the Kibble-Zurek (KZ) region, where the critical mode scales linearly with the square root of the sweep velocity, pre-saturated (PS) region, and the saturated (S) region where the critical mode makes a plateau versus the sweep velocity. While for a ramp that crosses two critical points, the critical modes disclose just KZ and PS regions. On the basis of numerical simulations, we find that the dynamical free energy scales linerly with time, as approaches to DQPT time, with the exponent $\nu=1\pm 0.01$ for all sweep velocities and driven frequencies. | 翻訳日:2024-03-14 18:28:05 公開日:2024-03-13 |
# 医用画像解析における深層能動学習に関する総合的研究
A comprehensive survey on deep active learning in medical image analysis ( http://arxiv.org/abs/2310.14230v3 ) ライセンス: Link先を確認 | Haoran Wang, Qiuye Jin, Shiman Li, Siyu Liu, Manning Wang, Zhijian Song | (参考訳) 深層学習は医用画像解析において広く成功し、大規模な専門家による医用画像データセットの需要が高まっている。
しかし、医用画像に注釈をつける高コストは、この分野での深層学習の発展を著しく妨げている。
アノテーションのコストを削減するため、アクティブラーニングは、アノテーションの最も有益なサンプルを選択し、できるだけ少ないラベル付きサンプルで高性能モデルを訓練することを目的としている。
本稿では,情報性評価やサンプリング戦略など,アクティブラーニングの中核的手法について概観する。
本稿では,能動学習と,半教師付き学習,自己教師型学習など,他のラベル効率の高い技術との連携について,はじめて概説する。
また,医用画像解析に特化した能動的学習作品を要約した。
さらに,実験による医用画像解析において,異なるAL法の性能の徹底的な比較分析を行う。
最後に,アクティブラーニングの今後の動向と課題について,医用画像解析への応用について考察する。
Deep learning has achieved widespread success in medical image analysis, leading to an increasing demand for large-scale expert-annotated medical image datasets. Yet, the high cost of annotating medical images severely hampers the development of deep learning in this field. To reduce annotation costs, active learning aims to select the most informative samples for annotation and train high-performance models with as few labeled samples as possible. In this survey, we review the core methods of active learning, including the evaluation of informativeness and sampling strategy. For the first time, we provide a detailed summary of the integration of active learning with other label-efficient techniques, such as semi-supervised, self-supervised learning, and so on. We also summarize active learning works that are specifically tailored to medical image analysis. Additionally, we conduct a thorough comparative analysis of the performance of different AL methods in medical image analysis with experiments. In the end, we offer our perspectives on the future trends and challenges of active learning and its applications in medical image analysis. | 翻訳日:2024-03-14 18:28:04 公開日:2024-03-13 |
# グラフニューラルネットワーク学習のための準ワッサースタイン損失
A Quasi-Wasserstein Loss for Learning Graph Neural Networks ( http://arxiv.org/abs/2310.11762v4 ) ライセンス: Link先を確認 | Minjie Cheng and Hongteng Xu | (参考訳) ノードレベルの予測タスクでグラフニューラルネットワーク(GNN)を学習する場合、ノードの埋め込みとそのラベルがグラフ構造のため非i.d.である場合でも、既存の損失関数は各ノードに独立して適用される。
そこで本研究では,グラフ上で定義された最適輸送の助けを借りて,新しい準ワッサーシュタイン損失(QW)を提案し,GNNの新たな学習・予測パラダイムを導出する。
特に,観測された多次元ノードラベルとその推定値間の ``Quasi-Wasserstein'' 距離を設計し,グラフエッジ上で定義されたラベル転送を最適化する。
推定は、最適ラベル輸送がグラフエッジ重みを任意に決定できるGNNによってパラメータ化される。
ラベル転送の厳密な制約をブレグマン発散型正規化器に書き換えることにより、GNNを学習する2つの効率的な解法と最適なラベル転送と関連する準ワッサーシュタイン損失を求める。
ノードラベルを予測する場合、GNNの出力と最適なラベル転送によって提供される残差成分を組み合わせ、新しいトランスダクティブ予測パラダイムを導出する。
実験の結果,提案したQW損失は様々なGNNに適用され,ノードレベルの分類や回帰タスクのパフォーマンス向上に有効であることがわかった。
この研究のコードは \url{https://github.com/SDS-Lab/QW_Loss} で見ることができる。
When learning graph neural networks (GNNs) in node-level prediction tasks, most existing loss functions are applied for each node independently, even if node embeddings and their labels are non-i.i.d. because of their graph structures. To eliminate such inconsistency, in this study we propose a novel Quasi-Wasserstein (QW) loss with the help of the optimal transport defined on graphs, leading to new learning and prediction paradigms of GNNs. In particular, we design a ``Quasi-Wasserstein'' distance between the observed multi-dimensional node labels and their estimations, optimizing the label transport defined on graph edges. The estimations are parameterized by a GNN in which the optimal label transport may determine the graph edge weights optionally. By reformulating the strict constraint of the label transport to a Bregman divergence-based regularizer, we obtain the proposed Quasi-Wasserstein loss associated with two efficient solvers learning the GNN together with optimal label transport. When predicting node labels, our model combines the output of the GNN with the residual component provided by the optimal label transport, leading to a new transductive prediction paradigm. Experiments show that the proposed QW loss applies to various GNNs and helps to improve their performance in node-level classification and regression tasks. The code of this work can be found at \url{https://github.com/SDS-Lab/QW_Loss}. | 翻訳日:2024-03-14 18:28:04 公開日:2024-03-13 |
# MOHO: シングルビューハンドヘルドオブジェクト再構成を学習する
マルチビューオクルージョン・アウェア・スーパービジョン
MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision ( http://arxiv.org/abs/2310.11696v2 ) ライセンス: Link先を確認 | Chenyangguang Zhang, Guanlong Jiao, Yan Di, Gu Wang, Ziqin Huang, Ruida Zhang, Fabian Manhardt, Bowen Fu, Federico Tombari, Xiangyang Ji | (参考訳) シングルビューハンドヘルドオブジェクトの再構築に関するこれまでの研究は、現実世界では収集が難しい3D地下構造モデルの監督に依存していた。
対照的に、簡単にアクセス可能なハンドオブジェクトビデオは、有望なトレーニングデータソースを提供するが、それらは、非常に無視されたオブジェクトの観察しか提供しない。
本稿では,手動物体再構成(MOHO)のための手動物体再構成(Hand-held Object Restruction)ビデオから,手動閉塞と物体自己閉塞という2つの主要な課題に対処する,多視点オクルージョン対応の多視点監視を利用する新しいフレームワークを提案する。
まず,2次元空間と3次元空間の両方において手動による閉塞に対処するために,手動物体画像と多視点オクルージョンのない監督機能を備えた大規模合成データセットSOMVideoを試作した。
第二に、現実世界の微調整段階において、MOHOはアモーダルマスクを重み付けした幾何学的監督を利用して、現実世界における手持ち監督の視点によって引き起こされる不誠実なガイダンスを緩和する。
さらに、完全なオブジェクト形状を推測するために、オブジェクトの自己閉塞に抵抗するため、ドメイン一貫性のオクルージョン認識特徴をMOHOにアマルガメートする。
HO3D と DexYCB データセットの大規模な実験は、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることを示した。
Previous works concerning single-view hand-held object reconstruction typically rely on supervision from 3D ground-truth models, which are hard to collect in real world. In contrast, readily accessible hand-object videos offer a promising training data source, but they only give heavily occluded object observations. In this paper, we present a novel synthetic-to-real framework to exploit Multi-view Occlusion-aware supervision from hand-object videos for Hand-held Object reconstruction (MOHO) from a single image, tackling two predominant challenges in such setting: hand-induced occlusion and object's self-occlusion. First, in the synthetic pre-training stage, we render a large-scaled synthetic dataset SOMVideo with hand-object images and multi-view occlusion-free supervisions, adopted to address hand-induced occlusion in both 2D and 3D spaces. Second, in the real-world finetuning stage, MOHO leverages the amodal-mask-weighted geometric supervision to mitigate the unfaithful guidance caused by the hand-occluded supervising views in real world. Moreover, domain-consistent occlusion-aware features are amalgamated in MOHO to resist object's self-occlusion for inferring the complete object shape. Extensive experiments on HO3D and DexYCB datasets demonstrate 2D-supervised MOHO gains superior results against 3D-supervised methods by a large margin. | 翻訳日:2024-03-14 18:28:03 公開日:2024-03-13 |
# トラバース可能な障害物を用いた環境におけるインタラクティブナビゲーション
大規模言語と視覚言語モデル
Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models ( http://arxiv.org/abs/2310.08873v3 ) ライセンス: Link先を確認 | Zhen Zhang, Anran Lin, Chun Wai Wong, Xiangyu Chu, Qi Dou, and K. W. Samuel Au | (参考訳) 本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は,大規模言語モデル (GPT-3.5) とオープンセットのビジョン言語モデル (Grounding DINO) を用いて,アクション対応のコストマップを作成し,微調整なしで効果的な経路計画を行う。
大規模なモデルでは、"カーテンを通り抜けて私に薬を届けるのか?"といったテキストによる指示から、アクション対応属性を持つボックス(例えばカーテン)まで、エンドツーエンドのシステムを実現することができる。
それらはLiDARの点雲を2つの部分に分けられる: トラバース可能と非トラバース可能の2つの部分、そして、実行可能なパスを生成するためにアクション対応のコストマップを構築する。
事前訓練された大きなモデルは、高度な一般化能力を持ち、トレーニングのために追加の注釈付きデータを必要としないため、インタラクティブなナビゲーションタスクの迅速な展開が可能になる。
我々は,カーテンや草など複数の移動可能な物体を用いて,ロボットに移動を指示することで検証を行う。
また,医療シナリオにおけるカーテンの走行試験を行った。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
This paper proposes an interactive navigation framework by using large language and vision-language models, allowing robots to navigate in environments with traversable obstacles. We utilize the large language model (GPT-3.5) and the open-set Vision-language Model (Grounding DINO) to create an action-aware costmap to perform effective path planning without fine-tuning. With the large models, we can achieve an end-to-end system from textual instructions like "Can you pass through the curtains to deliver medicines to me?", to bounding boxes (e.g., curtains) with action-aware attributes. They can be used to segment LiDAR point clouds into two parts: traversable and untraversable parts, and then an action-aware costmap is constructed for generating a feasible path. The pre-trained large models have great generalization ability and do not require additional annotated data for training, allowing fast deployment in the interactive navigation tasks. We choose to use multiple traversable objects such as curtains and grasses for verification by instructing the robot to traverse them. Besides, traversing curtains in a medical scenario was tested. All experimental results demonstrated the proposed framework's effectiveness and adaptability to diverse environments. | 翻訳日:2024-03-14 18:28:01 公開日:2024-03-13 |
# BaSAL:LiDARセマンティックのためのサイズベースウォームのアクティブラーニングを開始
セグメンテーション
BaSAL: Size-Balanced Warm Start Active Learning for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2310.08035v2 ) ライセンス: Link先を確認 | Jiarong Wei, Yancong Lin, Holger Caesar | (参考訳) アクティブな学習は、アノテータにラベルのないデータのプールから最も情報に富んだサンプルをラベル付けして、これらのサンプルからモデルをトレーニングすることで、コストのかかるデータアノテーションの必要性を減らそうとする。
既存のLiDARセマンティックセマンティックセグメンテーションのためのアクティブラーニング手法における2つの問題点を同定する。
まず、LiDARセマンティックセグメンテーションデータセットに固有の深刻なクラス不均衡を見落としている。
次に、ラベル付きデータがないときにアクティブな学習ループをブートストラップするために、ランダムに選択されたデータサンプルから初期モデルをトレーニングし、パフォーマンスを低下させる。
この状況をコールドスタート問題と呼ぶ。
これらの問題に対処するために,各オブジェクトクラスが特徴的サイズであることを示す観測に基づいて,サイズバランスのよいウォームスタートアクティブラーニングモデルBaSALを提案する。
サイズに応じてオブジェクトクラスタをサンプリングすることで、サイズバランスのデータセットを作成できます。
さらに、エントロピーやCoreSetのような既存の情報手段とは対照的に、サイズベースのサンプリングは事前訓練されたモデルを必要としないため、コールドスタート問題を効果的に解決する。
その結果,初期モデルの性能を大きなマージンで改善できることが示唆された。
従来のアクティブな学習手法より優れているアノテーションは5%に過ぎなかったが,本手法はセマンティックKITTIデータセット全体のトレーニングに匹敵する性能を達成している。
我々はまた、nuScenesのアクティブラーニングにおける既存の最先端技術に適合する。
私たちのコードは、https://github.com/Tony-WJR/BaSAL.comで利用可能です。
Active learning strives to reduce the need for costly data annotation, by repeatedly querying an annotator to label the most informative samples from a pool of unlabeled data, and then training a model from these samples. We identify two problems with existing active learning methods for LiDAR semantic segmentation. First, they overlook the severe class imbalance inherent in LiDAR semantic segmentation datasets. Second, to bootstrap the active learning loop when there is no labeled data available, they train their initial model from randomly selected data samples, leading to low performance. This situation is referred to as the cold start problem. To address these problems we propose BaSAL, a size-balanced warm start active learning model, based on the observation that each object class has a characteristic size. By sampling object clusters according to their size, we can thus create a size-balanced dataset that is also more class-balanced. Furthermore, in contrast to existing information measures like entropy or CoreSet, size-based sampling does not require a pretrained model, thus addressing the cold start problem effectively. Results show that we are able to improve the performance of the initial model by a large margin. Combining warm start and size-balanced sampling with established information measures, our approach achieves comparable performance to training on the entire SemanticKITTI dataset, despite using only 5% of the annotations, outperforming existing active learning methods. We also match the existing state-of-the-art in active learning on nuScenes. Our code is available at: https://github.com/Tony-WJR/BaSAL. | 翻訳日:2024-03-14 18:28:00 公開日:2024-03-13 |
# GenTKG: 時間的知識グラフによる生成予測
GenTKG: Generative Forecasting on Temporal Knowledge Graph ( http://arxiv.org/abs/2310.07793v4 ) ライセンス: Link先を確認 | Ruotong Liao, Xu Jia, Yunpu Ma, Yangzhe Li, Volker Tresp | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、従来の埋め込み型およびルールベースの手法が支配的な時間的知識グラフ(tKG)領域への関心を喚起している。
事前学習したLLMが構造化された時間的関係データを理解でき、時間的関係予測の基礎モデルとして置き換えられるかどうかには疑問が残る。
したがって、時間的知識予測を生成環境に導入する。
しかし、複雑な時間グラフデータ構造とLLMが扱える逐次自然表現との間の巨大な亀裂や、tKGの巨大なデータサイズとLLMを微調整する重い計算コストとの間には課題が生じる。
これらの課題に対処するために,時間的論理ルールに基づく探索戦略と,これらの課題を解決するためにパラメータ効率の少ない命令チューニングを併用した,GenTKGという新たな検索拡張生成フレームワークを提案する。
大規模な実験により、GenTKGは、非常に限られたトレーニングデータから16サンプルまで、計算資源の少ない時間的関係予測法よりも優れた性能を示した。
GenTKGはまた、再トレーニングなしで、目に見えないデータセットのパフォーマンスで優れたクロスドメインの一般化性と、同じデータセット内の時間分割に関わらず、ドメイン内の一般化性を強調している。
本研究は, tKG領域におけるLLMの潜在可能性を明らかにし, tKGの生成予測のための新たなフロンティアを開拓する。
コードとデータは、https://github.com/mayhugotong/GenTKG.comで公開されている。
The rapid advancements in large language models (LLMs) have ignited interest in the temporal knowledge graph (tKG) domain, where conventional embedding-based and rule-based methods dominate. The question remains open of whether pre-trained LLMs can understand structured temporal relational data and replace them as the foundation model for temporal relational forecasting. Therefore, we bring temporal knowledge forecasting into the generative setting. However, challenges occur in the huge chasms between complex temporal graph data structure and sequential natural expressions LLMs can handle, and between the enormous data sizes of tKGs and heavy computation costs of finetuning LLMs. To address these challenges, we propose a novel retrieval-augmented generation framework named GenTKG combining a temporal logical rule-based retrieval strategy and few-shot parameter-efficient instruction tuning to solve the above challenges, respectively. Extensive experiments have shown that GenTKG outperforms conventional methods of temporal relational forecasting with low computation resources using extremely limited training data as few as 16 samples. GenTKG also highlights remarkable cross-domain generalizability with outperforming performance on unseen datasets without re-training, and in-domain generalizability regardless of time split in the same dataset. Our work reveals the huge potential of LLMs in the tKG domain and opens a new frontier for generative forecasting on tKGs. Code and data are released here: https://github.com/mayhugotong/GenTKG. | 翻訳日:2024-03-14 18:28:00 公開日:2024-03-13 |
# CacheGen:KVによる言語モデルアプリケーションの高速コンテキストローディング
キャッシュストリーミング
CacheGen: Fast Context Loading for Language Model Applications via KV Cache Streaming ( http://arxiv.org/abs/2310.07240v2 ) ライセンス: Link先を確認 | Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang | (参考訳) 大規模言語モデル(LLM)が複雑なタスクをこなすにつれて、その入力はドメイン知識やユーザ固有の情報を含む長いコンテキストで補完される。
しかし、長いコンテキストを使うことは、LLMが処理するまで何も生成できないため、応答性のあるLLMシステムにとって課題となる。
異なる入力間でコンテキストのKVキャッシュを再利用することで、コンテキスト処理の遅延を低減することができるが、ネットワーク上の大きなテンソルを含むKVキャッシュを取得すると、ネットワーク上の追加の遅延が発生する可能性がある。
CacheGenは、LLMシステムのための高速なコンテキストローディングモジュールである。
まず、CacheGenはKVキャッシュの分散プロパティを取り入れた独自のテンソルエンコーダを使用して、KVキャッシュをよりコンパクトなビットストリーム表現にエンコードする。
これにより、KVキャッシュを取得するための帯域幅の需要が減少する。
第二に、低コンテキストローディング遅延と高ジェネレーション品質を維持するために、CacheGenはストリーミング戦略を適用して、利用可能な帯域幅の変化に対処する。
利用可能な帯域幅が減少すると、CacheGenはコンテキストの一部の圧縮レベルを上げるか、KVキャッシュをオンザフライで再計算するかを選択する。
CacheGenは、さまざまなサイズの4つの人気のあるLLMと4つのデータセット(合計662のコンテキスト)でテストします。
KVキャッシュを再利用した最近のシステムと比較すると、CacheGenはKVキャッシュのサイズを3.7-4.3xに減らし、フェッチと処理の合計遅延を2.7-3.2xに減らした。
As large language models (LLMs) take on complex tasks, their inputs are supplemented with longer contexts that incorporate domain knowledge or user-specific information. Yet using long contexts poses a challenge for responsive LLM systems, as nothing can be generated until the whole context is processed by the LLM. While the context-processing delay can be reduced by reusing the KV cache of a context across different inputs, fetching the KV cache, which contains large tensors, over the network can cause extra network delays. CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, which embraces KV cache's distributional properties, to encode a KV cache into more compact bitstream representations with negligible encoding/decoding overhead. This reduces the bandwidth demand to fetch the KV cache. Second, to maintain low context-loading delay and high generation quality, CacheGen adapts the streaming strategies to cope with changes in available bandwidth. When available bandwidth drops, CacheGen may raise the compression level for a part of the context or choose to recompute its KV cache on the fly. We test CacheGen on four popular LLMs of various sizes and four datasets (662 contexts in total). Compared to the recent systems that reuse the KV cache, CacheGen reduces the KV cache size by 3.7-4.3x and the total delay in fetching and processing contexts by 2.7-3.2x while having negligible impact on the LLM response quality in accuracy or perplexity. | 翻訳日:2024-03-14 18:27:58 公開日:2024-03-13 |
# プログレッシブ条件によるポーズガイド画像合成の高速化
拡散モデル
Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models ( http://arxiv.org/abs/2310.06313v3 ) ライセンス: Link先を確認 | Fei Shen, Hu Ye, Jun Zhang, Cong Wang, Xiao Han, Wei Yang | (参考訳) 近年の研究では、ポーズ誘導人物画像合成における拡散モデルの有意な可能性を示している。
しかし、ソースイメージとターゲットイメージ間のポーズの不整合のため、ソースイメージとターゲットポーズ情報にのみ依存して、異なるポーズでイメージを合成することは深刻な課題である。
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
具体的には、第1段階では、ポーズ座標と画像外観のグローバルアライメント関係をマイニングすることにより、ターゲット画像のグローバルな特徴を予測できる単純な事前条件拡散モデルを設計する。
そこで,第2段では,前段のグローバルな特徴を用いたソース画像とターゲット画像との密接な対応性を確立し,さらにコンテキスト特性の整合と拡張を図り,粗い人物画像を生成するインパインティング条件拡散モデルを提案する。
第3段階では,前段からの粗い生成画像を条件として利用する精製条件拡散モデルを提案し,テクスチャ復元を実現し,細部整合性を向上させる。
3段階のPCDMは、最終的な高品質で高忠実な合成画像を生成するために、徐々に機能する。
定性的かつ定量的な結果は、挑戦的なシナリオ下で提案したPCDMの一貫性とフォトリアリズムを示し、コードとモデルはhttps://github.com/tencent-ailab/PCDMsで利用可能である。
Recent work has showcased the significant potential of diffusion models in pose-guided person image synthesis. However, owing to the inconsistency in pose between the source and target images, synthesizing an image with a distinct pose, relying exclusively on the source image and target pose information, remains a formidable challenge. This paper presents Progressive Conditional Diffusion Models (PCDMs) that incrementally bridge the gap between person images under the target and source poses through three stages. Specifically, in the first stage, we design a simple prior conditional diffusion model that predicts the global features of the target image by mining the global alignment relationship between pose coordinates and image appearance. Then, the second stage establishes a dense correspondence between the source and target images using the global features from the previous stage, and an inpainting conditional diffusion model is proposed to further align and enhance the contextual features, generating a coarse-grained person image. In the third stage, we propose a refining conditional diffusion model to utilize the coarsely generated image from the previous stage as a condition, achieving texture restoration and enhancing fine-detail consistency. The three-stage PCDMs work progressively to generate the final high-quality and high-fidelity synthesized image. Both qualitative and quantitative results demonstrate the consistency and photorealism of our proposed PCDMs under challenging scenarios.The code and model will be available at https://github.com/tencent-ailab/PCDMs. | 翻訳日:2024-03-14 18:27:57 公開日:2024-03-13 |
# 言語モデルが拡散に勝る - Tokenizerがビジュアル生成の鍵
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation ( http://arxiv.org/abs/2310.05737v2 ) ライセンス: Link先を確認 | Lijun Yu, Jos\'e Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang | (参考訳) 大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルであるが、画像やビデオ生成における拡散モデルと同様に、機能しない。
視覚生成にLLMを効果的に利用するためには、LLM学習に適した離散トークンに画素空間の入力をマッピングする視覚トークン化器が重要な要素である。
本稿では,ビデオと画像の両方に対して,共通トークン語彙を用いて簡潔かつ表現豊かなトークンを生成するために設計されたビデオトークン化ツールMAGVIT-v2を紹介する。
この新たなトークンを組み込んだLLMは、ImageNetやKineeticsなどの標準画像およびビデオ生成ベンチマークにおいて、拡散モデルよりも優れていることを示す。
さらに,1)人間の評価による次世代ビデオコーデック(VCC)に匹敵するビデオ圧縮,(2)行動認識タスクの効果的な表現の学習,という2つのタスクにおいて,従来のトップパフォーマンスビデオコンデンサを上回っていることを示す。
While Large Language Models (LLMs) are the dominant models for generative tasks in language, they do not perform as well as diffusion models on image and video generation. To effectively use LLMs for visual generation, one crucial component is the visual tokenizer that maps pixel-space inputs to discrete tokens appropriate for LLM learning. In this paper, we introduce MAGVIT-v2, a video tokenizer designed to generate concise and expressive tokens for both videos and images using a common token vocabulary. Equipped with this new tokenizer, we show that LLMs outperform diffusion models on standard image and video generation benchmarks including ImageNet and Kinetics. In addition, we demonstrate that our tokenizer surpasses the previously top-performing video tokenizer on two more tasks: (1) video compression comparable to the next-generation video codec (VCC) according to human evaluations, and (2) learning effective representations for action recognition tasks. | 翻訳日:2024-03-14 18:27:57 公開日:2024-03-13 |
# IPDreamer:画像付き3Dオブジェクト生成
演目
IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts ( http://arxiv.org/abs/2310.05375v3 ) ライセンス: Link先を確認 | Bohan Zeng, Shanglin Li, Yutang Feng, Hong Li, Sicheng Gao, Jiaming Liu, Huaxia Li, Xu Tang, Jianzhuang Liu, Baochang Zhang | (参考訳) 近年の3D生成の進歩は目覚ましいもので、DreamFusionは大規模なテキスト・画像拡散モデルを利用して3D生成を監督している。
これらの方法は、細部および光現実的なテクスチャオブジェクトの合成を可能にする。
しかし,これらテキスト・ツー・3D手法による3Dオブジェクトの出現は予測不可能であり,複雑な画像を扱う単一イメージ・ツー・3D手法では困難であり,外観制御可能な3Dオブジェクトの生成に課題が生じる。
制御可能な複雑な3Dオブジェクト合成を実現するために,$\textbf{I}$mage $\textbf{P}$romptsを組み込んだ新しいアプローチであるIDDreamerを導入する。
以上の結果から,IDDreamerは提供されたテキストと複雑な画像プロンプトの両方に整合した高品質な3Dオブジェクトを効果的に生成し,外観制御可能な3Dオブジェクト生成に期待できる能力を示した。
私たちのコードはhttps://github.com/zengbohan0217/IPDreamer.comで有効です。
Recent advances in 3D generation have been remarkable, with methods such as DreamFusion leveraging large-scale text-to-image diffusion-based models to supervise 3D generation. These methods enable the synthesis of detailed and photorealistic textured objects. However, the appearance of 3D objects produced by these text-to-3D methods is unpredictable, and it is hard for the single-image-to-3D methods to deal with complex images, thus posing a challenge in generating appearance-controllable 3D objects. To achieve controllable complex 3D object synthesis, we introduce IPDreamer, a novel approach that incorporates $\textbf{I}$mage $\textbf{P}$rompts to provide specific and comprehensive appearance information for 3D object generation. Our results demonstrate that IPDreamer effectively generates high-quality 3D objects that are consistent with both the provided text and the appearance of complex image prompts, demonstrating its promising capability in appearance-controllable 3D object generation. Our code is avaliable at https://github.com/zengbohan0217/IPDreamer. | 翻訳日:2024-03-14 18:27:56 公開日:2024-03-13 |
# RoPEを用いた外挿法のスケーリング法則
Scaling Laws of RoPE-based Extrapolation ( http://arxiv.org/abs/2310.05209v2 ) ライセンス: Link先を確認 | Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, Dahua Lin | (参考訳) ロータリー位置埋め込みに基づくLLM(Large Language Models)の補間機能は、現在かなりの関心を集めているトピックである。
LLMによる外挿に対処する主流のアプローチは、オリジナルの RoPE において $\theta_n={10000}^{-2n/d} の回転ベースである 10000 を置き換えることで RoPE を変更することであり、より大きな値を持ち、より長い微調整のテキストを提供する。
本研究では,RoPEをベースとしたLLMをトレーニング前のコンテキスト長の小さいあるいは大きいベースで微調整することで,外挿性能が著しく向上することを示した。
その後、周期的な視点から、外挿性能とベース値の関係を記述し、文脈長のチューニングを行うための統一的なフレームワークである、RoPEベースの外挿法則である「textbf{\textit{Scaling Laws of RoPE」を提案する。
この過程では、外挿法における RoPE に基づく外挿問題の起源を \textbf{\textit{ critical dimension for extrapolation}} で説明する。
これらの観察と分析に加えて,LLaMA2 7Bと13Bの16Kトレーニング長で最大100万の文脈長の補間を行う。
The extrapolation capability of Large Language Models (LLMs) based on Rotary Position Embedding is currently a topic of considerable interest. The mainstream approach to addressing extrapolation with LLMs involves modifying RoPE by replacing 10000, the rotary base of $\theta_n={10000}^{-2n/d}$ in the original RoPE, with a larger value and providing longer fine-tuning text. In this work, we first observe that fine-tuning a RoPE-based LLM with either a smaller or larger base in pre-training context length could significantly enhance its extrapolation performance. After that, we propose \textbf{\textit{Scaling Laws of RoPE-based Extrapolation}}, a unified framework from the periodic perspective, to describe the relationship between the extrapolation performance and base value as well as tuning context length. In this process, we also explain the origin of the RoPE-based extrapolation issue by \textbf{\textit{critical dimension for extrapolation}}. Besides these observations and analyses, we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B. | 翻訳日:2024-03-14 18:27:56 公開日:2024-03-13 |
# IPMix:ロバストトレーニングのためのラベル保存データ拡張方法
分類
IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v7 ) ライセンス: Link先を確認 | Zhenglin Huang, Xiaoan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang | (参考訳) データ拡張は、オーバーフィッティングを防止し、高精度な畳み込みニューラルネットワーク分類器の訓練に有効であることが証明されている。
しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分散がシフトする際の堅牢性も必要である。
従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。
IPMixは3つのレベルのデータ拡張(画像レベル、パッチレベル、ピクセルレベル)をコヒーレントかつラベル保存技術に統合し、計算オーバーヘッドに制限のあるトレーニングデータの多様性を向上させる。
堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成するとともに、マルチスケール情報融合にランダム混合法を採用する。
実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。
さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。
Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O. | 翻訳日:2024-03-14 18:27:55 公開日:2024-03-13 |
# 大規模言語モデルを用いた埋め込み空間のデミスティファイション
Demystifying Embedding Spaces using Large Language Models ( http://arxiv.org/abs/2310.04475v2 ) ライセンス: Link先を確認 | Guy Tennenholtz, Yinlam Chow, Chih-Wei Hsu, Jihwan Jeong, Lior Shani, Azamat Tulepbergenov, Deepak Ramachandran, Martin Mladenov, Craig Boutilier | (参考訳) 埋め込みは、実体、概念、関係に関する複雑で多面的な情報を、凝縮され有用なフォーマットで表現するための重要な手段となっている。
しかし、しばしば直接解釈を妨げている。
下流タスクはこれらの圧縮表現を利用するが、意味のある解釈は通常、次元の縮小や特殊な機械学習の解釈可能性を用いた可視化を必要とする。
本稿では, 言語モデル(LLM)を用いて, 埋め込みと直接対話し, 抽象ベクトルを理解可能な物語に変換することによって, 埋め込みをより解釈しやすく, 広く有用なものにするという課題に対処する。
LLMに埋め込みを注入することにより、複雑な埋め込みデータのクエリと探索を可能にする。
提案手法は,概念アクティベーションベクトル(CAV)の強化,新しい組み込みエンティティの通信,レコメンデーションシステムにおけるユーザの好みのデコードなど,多種多様なタスクに対するアプローチを示す。
我々の研究は、LLMの解釈力と埋め込みの膨大な情報ポテンシャルを結合する。
Embeddings have become a pivotal means to represent complex, multi-faceted information about entities, concepts, and relationships in a condensed and useful format. Nevertheless, they often preclude direct interpretation. While downstream tasks make use of these compressed representations, meaningful interpretation usually requires visualization using dimensionality reduction or specialized machine learning interpretability methods. This paper addresses the challenge of making such embeddings more interpretable and broadly useful, by employing Large Language Models (LLMs) to directly interact with embeddings -- transforming abstract vectors into understandable narratives. By injecting embeddings into LLMs, we enable querying and exploration of complex embedding data. We demonstrate our approach on a variety of diverse tasks, including: enhancing concept activation vectors (CAVs), communicating novel embedded entities, and decoding user preferences in recommender systems. Our work couples the immense information potential of embeddings with the interpretative power of LLMs. | 翻訳日:2024-03-14 18:27:54 公開日:2024-03-13 |
# Alice Benchmarks: 現実世界を再認識する
合成
Alice Benchmarks: Connecting Real World Re-Identification with the Synthetic ( http://arxiv.org/abs/2310.04416v2 ) ライセンス: Link先を確認 | Xiaoxiao Sun, Yue Yao, Shengjin Wang, Hongdong Li, Liang Zheng | (参考訳) オブジェクトの再識別(re-ID)において、合成データからの学習は、プライバシーの懸念がほとんどなく、大規模な注釈付きデータセットや効果的なモデルを安価に取得するための有望な戦略となっている。
多くの興味深い研究問題は、例えば、合成源と現実世界のターゲットの間のドメインギャップを減らす方法など、この戦略から生じる。
合成データから学習する上で、より新しいアプローチの開発を容易にするために、Aliceベンチマーク、大規模データセット、および研究コミュニティへの評価プロトコルを導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
私たちはAlicePersonとAliceVehicleという2つの挑戦的な現実世界のターゲットデータセットを収集し、注釈を付けました。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
それに対応して、既存の PersonX と VehicleX を合成ソースドメインとして再利用する。
第一の目的は、現実世界で効果的に機能する合成データからモデルをトレーニングすることだ。
本稿では、Aliceベンチマークの設定について詳述し、既存の一般的なドメイン適応手法の分析を行い、いくつかの興味深い今後の方向性について論じる。
コミュニティがメソッドを便利かつ公平に評価するためのオンラインサーバが設定されている。
データセットとオンラインサーバの詳細はhttps://sites.google.com/view/alice-benchmarks.comで確認できる。
For object re-identification (re-ID), learning from synthetic data has become a promising strategy to cheaply acquire large-scale annotated datasets and effective models, with few privacy concerns. Many interesting research problems arise from this strategy, e.g., how to reduce the domain gap between synthetic source and real-world target. To facilitate developing more new approaches in learning from synthetic data, we introduce the Alice benchmarks, large-scale datasets providing benchmarks as well as evaluation protocols to the research community. Within the Alice benchmarks, two object re-ID tasks are offered: person and vehicle re-ID. We collected and annotated two challenging real-world target datasets: AlicePerson and AliceVehicle, captured under various illuminations, image resolutions, etc. As an important feature of our real target, the clusterability of its training set is not manually guaranteed to make it closer to a real domain adaptation test scenario. Correspondingly, we reuse existing PersonX and VehicleX as synthetic source domains. The primary goal is to train models from synthetic data that can work effectively in the real world. In this paper, we detail the settings of Alice benchmarks, provide an analysis of existing commonly-used domain adaptation methods, and discuss some interesting future directions. An online server has been set up for the community to evaluate methods conveniently and fairly. Datasets and the online server details are available at https://sites.google.com/view/alice-benchmarks. | 翻訳日:2024-03-14 18:27:54 公開日:2024-03-13 |
# CIFAR-10-Warehouse:モデルでより広範かつ現実的なテストベッド
一般化分析
CIFAR-10-Warehouse: Broad and More Realistic Testbeds in Model Generalization Analysis ( http://arxiv.org/abs/2310.04414v3 ) ライセンス: Link先を確認 | Xiaoxiao Sun, Xingjian Leng, Zijian Wang, Yang Yang, Zi Huang, Liang Zheng | (参考訳) さまざまな未知環境におけるモデル性能の分析は、機械学習コミュニティにおける重要な研究課題である。
この問題を解決するためには, 環境格差を広範囲に網羅したアウト・オブ・ディストリビューション・テスト・セットを用いたテストベッドの構築が重要である。
しかし、既存のテストベッドは、通常、少数のドメインを持つか、イメージの破損によって合成されるかのいずれかであり、現実世界の有効性を示すアルゴリズム設計を妨げる。
本稿では,画像検索エンジンと拡散モデルにより収集した180個のデータセットからなるCIFAR-10-Warehouseを紹介する。
一般的には300から8000の画像の大きさで、データセットには自然のイメージ、漫画、特定の色、あるいは自然に現れない物体が含まれている。
CIFAR-10-Wにより、様々なアウト・オブ・ディストリビューション環境において、ドメインの一般化とモデルの精度予測という2つの一般化タスクの評価を強化し、理解を深めることを目指している。
我々は大規模なベンチマークと比較実験を行い、CIFAR-10-Wがこれらのタスクに固有の新しい興味深い洞察を提供することを示した。
また、CIFAR-10-Wの恩恵を受ける他の分野についても論じる。
Analyzing model performance in various unseen environments is a critical research problem in the machine learning community. To study this problem, it is important to construct a testbed with out-of-distribution test sets that have broad coverage of environmental discrepancies. However, existing testbeds typically either have a small number of domains or are synthesized by image corruptions, hindering algorithm design that demonstrates real-world effectiveness. In this paper, we introduce CIFAR-10-Warehouse, consisting of 180 datasets collected by prompting image search engines and diffusion models in various ways. Generally sized between 300 and 8,000 images, the datasets contain natural images, cartoons, certain colors, or objects that do not naturally appear. With CIFAR-10-W, we aim to enhance the evaluation and deepen the understanding of two generalization tasks: domain generalization and model accuracy prediction in various out-of-distribution environments. We conduct extensive benchmarking and comparison experiments and show that CIFAR-10-W offers new and interesting insights inherent to these tasks. We also discuss other fields that would benefit from CIFAR-10-W. | 翻訳日:2024-03-14 18:27:53 公開日:2024-03-13 |
# 製造・建築の深層学習モデリング
多段軸圧縮機空気力学
Deep learning modelling of manufacturing and build variations on multi-stage axial compressors aerodynamics ( http://arxiv.org/abs/2310.04264v3 ) ライセンス: Link先を確認 | Giuseppe Bruni, Sepehr Maleki, Senthil K. Krishnababu | (参考訳) CFD(Computational Fluid Dynamics)などの物理シミュレーションにおける深層学習法のターボ機械への応用は,産業的関連性に限界がある。
本稿では, ガスタービン用多段軸圧縮機の流動場および空力特性に及ぼす先端クリアランスや表面粗さなどの製造・施工変動の影響をリアルタイムに予測するためのディープラーニングフレームワークの開発と応用について述べる。
圧縮機効率における関連する散乱は、ガスタービンの全体的な性能と排出に重大な影響を与えることが知られており、工業的および環境的関連性に大きな課題となっている。
提案アーキテクチャは,産業関連アプリケーションに対して,CFDベンチマークに匹敵する精度をリアルタイムに達成できることが証明されている。
配備されたモデルはガスタービンの製造・製造プロセスに容易に統合され、性能への影響を解析的に評価し、高価な物理試験の要求を減らし得る機会を提供する。
Application of deep learning methods to physical simulations such as CFD (Computational Fluid Dynamics) for turbomachinery applications, have been so far of limited industrial relevance. This paper demonstrates the development and application of a deep learning framework for real-time predictions of the impact of manufacturing and build variations, such as tip clearance and surface roughness, on the flow field and aerodynamic performance of multi-stage axial compressors in gas turbines. The associated scatter in compressor efficiency is known to have a significant impact on the corresponding overall performance and emissions of the gas turbine, therefore posing a challenge of great industrial and environmental relevance. The proposed architecture is proven to achieve an accuracy comparable to that of the CFD benchmark, in real-time, for an industrially relevant application. The deployed model, is readily integrated within the manufacturing and build process of gas turbines, thus providing the opportunity to analytically assess the impact on performance and potentially reduce requirements for expensive physical tests. | 翻訳日:2024-03-14 18:27:53 公開日:2024-03-13 |
# CoLiDE: 共用線形DAG推定
CoLiDE: Concomitant Linear DAG Estimation ( http://arxiv.org/abs/2310.02895v2 ) ライセンス: Link先を確認 | Seyed Saman Saboksayr, Gonzalo Mateos, Mariano Tepper | (参考訳) 本研究では,線形構造方程式モデル(SEM)に付着した観測データから,有向非巡回グラフ(DAG)構造を学習する組合せ問題に対処する。
微分可能で非凸な非サイクリック性の特徴付けの進歩を活用して、近年の取り組みは、DAGの空間を効率的に探索する継続的な制約付き最適化パラダイムを提唱している。
既存のほとんどの手法では、この探索を導くためにラッソ型スコア関数を使用している。
i)$\textit{unknown}$ SEMのノイズ分散が問題インスタンス間で変化するとき、高価なペナルティパラメータの調整が必要です。
(ii) 暗黙的にホモ代数学的な仮定に頼っている。
本研究では,線形DAGの疎度認識学習のための新しい凸スコア関数を提案する。これは,スケールの共役推定を取り入れ,外因性雑音レベルから疎度パラメータを効果的に分離するものである。
滑らかで非凸な非循環性ペナルティ項による正規化は CoLiDE ($\textbf{Co}$ncomitant $\textbf{Li}$near $\textbf{D}$AG $\textbf{E}$stimation) をもたらす。
提案アルゴリズムは,DAGが大きく,ノイズレベルプロファイルが不均一である場合に,付加的な複雑性を伴わずに,最先端の手法よりも優れる。
また、CoLiDEは、いくつかの領域固有の指標において標準偏差を減らし、新しい線形DAG推定器の頑健さを裏付ける安定性を示す。
We deal with the combinatorial problem of learning directed acyclic graph (DAG) structure from observational data adhering to a linear structural equation model (SEM). Leveraging advances in differentiable, nonconvex characterizations of acyclicity, recent efforts have advocated a continuous constrained optimization paradigm to efficiently explore the space of DAGs. Most existing methods employ lasso-type score functions to guide this search, which (i) require expensive penalty parameter retuning when the $\textit{unknown}$ SEM noise variances change across problem instances; and (ii) implicitly rely on limiting homoscedasticity assumptions. In this work, we propose a new convex score function for sparsity-aware learning of linear DAGs, which incorporates concomitant estimation of scale and thus effectively decouples the sparsity parameter from the exogenous noise levels. Regularization via a smooth, nonconvex acyclicity penalty term yields CoLiDE ($\textbf{Co}$ncomitant $\textbf{Li}$near $\textbf{D}$AG $\textbf{E}$stimation), a regression-based criterion amenable to efficient gradient computation and closed-form estimation of noise variances in heteroscedastic scenarios. Our algorithm outperforms state-of-the-art methods without incurring added complexity, especially when the DAGs are larger and the noise level profile is heterogeneous. We also find CoLiDE exhibits enhanced stability manifested via reduced standard deviations in several domain-specific metrics, underscoring the robustness of our novel linear DAG estimator. | 翻訳日:2024-03-14 18:27:52 公開日:2024-03-13 |
# 一貫性軌道モデル:確率フローODE軌道の学習
diffusion (複数形 diffusions)
Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion ( http://arxiv.org/abs/2310.02279v2 ) ライセンス: Link先を確認 | Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon | (参考訳) Consistency Models (CM) (Song et al , 2023) はサンプル品質のコストでスコアベース拡散モデルサンプリングを加速するが、速度のトレードオフには自然な方法がない。
この制限に対処するために,CMモデルとスコアベースモデルを含む一般化であるCTM(Consistency Trajectory Model)を提案する。
CTMは、単一の前方通過 -- 出力スコア(すなわちログ密度の勾配)をトレーニングし、拡散過程における確率フロー正規微分方程式(ODE)に沿って、任意の初期時間と最終時間の間の非制限トラバースを可能にする。
CTM は,CIFAR-10 (FID 1.73) と ImageNet at 64x64 resolution (FID 1.92) の単段拡散モデルサンプリングのための新しい最先端 FID を実現する。
CTMはまた、ODEソリューションの軌跡に沿って長いジャンプを含む決定論的および確率的な新しいサンプリングスキームのファミリーを可能にする。
計算予算が増加するにつれて、CMで見られる劣化を避けることで、サンプル品質を継続的に改善する。
さらに、CMとは異なり、CTMのスコア関数へのアクセスは、拡散コミュニティから確立された制御可能/条件生成手法の採用を合理化することができる。
このアクセスはまた、可能性の計算を可能にする。
コードはhttps://github.com/sony/ctm.comで入手できる。
Consistency Models (CM) (Song et al., 2023) accelerate score-based diffusion model sampling at the cost of sample quality but lack a natural way to trade-off quality for speed. To address this limitation, we propose Consistency Trajectory Model (CTM), a generalization encompassing CM and score-based models as special cases. CTM trains a single neural network that can -- in a single forward pass -- output scores (i.e., gradients of log-density) and enables unrestricted traversal between any initial and final time along the Probability Flow Ordinary Differential Equation (ODE) in a diffusion process. CTM enables the efficient combination of adversarial training and denoising score matching loss to enhance performance and achieves new state-of-the-art FIDs for single-step diffusion model sampling on CIFAR-10 (FID 1.73) and ImageNet at 64x64 resolution (FID 1.92). CTM also enables a new family of sampling schemes, both deterministic and stochastic, involving long jumps along the ODE solution trajectories. It consistently improves sample quality as computational budgets increase, avoiding the degradation seen in CM. Furthermore, unlike CM, CTM's access to the score function can streamline the adoption of established controllable/conditional generation methods from the diffusion community. This access also enables the computation of likelihood. The code is available at https://github.com/sony/ctm. | 翻訳日:2024-03-14 18:27:51 公開日:2024-03-13 |
# SmartPlay: インテリジェントエージェントとしてのLLMのベンチマーク
SmartPlay: A Benchmark for LLMs as Intelligent Agents ( http://arxiv.org/abs/2310.01557v4 ) ライセンス: Link先を確認 | Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li | (参考訳) 近年の大規模言語モデル(LLM)は、インテリジェントエージェントや次世代自動化に対して大きな可能性を示しているが、LLMのエージェントとしての能力を評価するための体系的なベンチマークは存在しない。
SmartPlay: LLMをエージェントとして評価するための、挑戦的なベンチマークと方法論の両方を紹介します。
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームには独自の設定があり、最大20評価設定と無限環境のバリエーションを提供する。
SmartPlayの各ゲームは、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダム性の理解を含む、知的LLMエージェントの9つの重要な機能のサブセットに固有の挑戦をする。
各ゲームテストの能力のセットを区別することで、各能力を別々に分析することができます。
SmartPlayは、LLMエージェントの全体的なパフォーマンスを評価するための厳格なテスト基盤としてだけでなく、現在の方法論におけるギャップを識別するためのロードマップとしても機能する。
ベンチマークはgithub.com/Microsoft/SmartPlayで公開しています。
Recent large language models (LLMs) have demonstrated great potential toward intelligent agents and next-gen automation, but there currently lacks a systematic benchmark for evaluating LLMs' abilities as agents. We introduce SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs as agents. SmartPlay consists of 6 different games, including Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique setting, providing up to 20 evaluation settings and infinite environment variations. Each game in SmartPlay uniquely challenges a subset of 9 important capabilities of an intelligent LLM agent, including reasoning with object dependencies, planning ahead, spatial reasoning, learning from history, and understanding randomness. The distinction between the set of capabilities each game test allows us to analyze each capability separately. SmartPlay serves not only as a rigorous testing ground for evaluating the overall performance of LLM agents but also as a road-map for identifying gaps in current methodologies. We release our benchmark at github.com/Microsoft/SmartPlay | 翻訳日:2024-03-14 18:27:51 公開日:2024-03-13 |
# 現代のネットワークのためのパスノームツールキット:結果、約束、そして
挑戦
A path-norm toolkit for modern networks: consequences, promises and challenges ( http://arxiv.org/abs/2310.01225v4 ) ライセンス: Link先を確認 | Antoine Gonon, Nicolas Brisebarre, Elisa Riccietti, R\'emi Gribonval | (参考訳) この研究は、一般的なDAG ReLUネットワークを完全に包含するパスノルムに関する最初のツールキットを紹介します。
このツールキットにより、最も広く適用可能なパスノルムベースのものだけでなく、このタイプの最も鋭い既知の境界を回復または打ち負かすような、現代のニューラルネットワークの一般化境界を確立することができる。
これらの拡張パスノルムは、計算の容易さ、ネットワークの対称性の下での不変性、および演算子ノルムの積と比較して階層化された完全接続ネットワークにおけるシャープ性の改善など、パスノルムの通常の利点をさらに享受する。
ツールキットの汎用性と実装の容易性により、ImageNet上でResNetsの最も鋭い境界を数値的に評価することにより、パスノルムに基づく一般化境界の具体的な約束に挑戦することができる。
This work introduces the first toolkit around path-norms that fully encompasses general DAG ReLU networks with biases, skip connections and any operation based on the extraction of order statistics: max pooling, GroupSort etc. This toolkit notably allows us to establish generalization bounds for modern neural networks that are not only the most widely applicable path-norm based ones, but also recover or beat the sharpest known bounds of this type. These extended path-norms further enjoy the usual benefits of path-norms: ease of computation, invariance under the symmetries of the network, and improved sharpness on layered fully-connected networks compared to the product of operator norms, another complexity measure most commonly used. The versatility of the toolkit and its ease of implementation allow us to challenge the concrete promises of path-norm-based generalization bounds, by numerically evaluating the sharpest known bounds for ResNets on ImageNet. | 翻訳日:2024-03-14 18:27:50 公開日:2024-03-13 |
# ニューラルネットワークにおける文脈信頼の可塑性の定量化
翻訳
Quantifying the Plausibility of Context Reliance in Neural Machine Translation ( http://arxiv.org/abs/2310.01188v2 ) ライセンス: Link先を確認 | Gabriele Sarti, Grzegorz Chrupa{\l}a, Malvina Nissim, Arianna Bisazza | (参考訳) 実世界の環境における信頼性を確保するためには,言語モデルが人間に理解可能な方法でコンテキスト情報を使用することができるかを確立することが重要である。
しかしながら、コンテキストのどの部分がモデル世代に影響を与えるかという問題は、一般的には個別に取り組まれており、現在の妥当性評価は、実際には少数の人工ベンチマークに限られている。
これを解決するために,言語モデル世代における文脈使用量の定量化を目的とした,エンドツーエンドの解釈可能性フレームワークであるPECoRe(Plausibility Evaluation of Context Reliance)を導入する。
我々のアプローチはモデル内部を活用する
(i)生成されたテキスト中の文脈に敏感なターゲットトークンを対照的に識別し、
(二)予測を正当化する文脈的手がかりにリンクすること。
我々は,文脈認識型機械翻訳モデルの妥当性を定量化し,モデル論理と人間のアノテーションを,複数の談話レベルの現象で比較する。
最後に、本手法を無注釈モデル翻訳に適用し、文脈に依存した予測を識別し、生成を通して(im)plausible context usage のインスタンスをハイライトする。
Establishing whether language models can use contextual information in a human-plausible way is important to ensure their trustworthiness in real-world settings. However, the questions of when and which parts of the context affect model generations are typically tackled separately, with current plausibility evaluations being practically limited to a handful of artificial benchmarks. To address this, we introduce Plausibility Evaluation of Context Reliance (PECoRe), an end-to-end interpretability framework designed to quantify context usage in language models' generations. Our approach leverages model internals to (i) contrastively identify context-sensitive target tokens in generated texts and (ii) link them to contextual cues justifying their prediction. We use \pecore to quantify the plausibility of context-aware machine translation models, comparing model rationales with human annotations across several discourse-level phenomena. Finally, we apply our method to unannotated model translations to identify context-mediated predictions and highlight instances of (im)plausible context usage throughout generation. | 翻訳日:2024-03-14 18:27:50 公開日:2024-03-13 |
# 線形注意はトランスフォーマーを理解するのに必要なものだけである(おそらく)
最適化)
Linear attention is (maybe) all you need (to understand transformer optimization) ( http://arxiv.org/abs/2310.01082v2 ) ライセンス: Link先を確認 | Kwangjun Ahn, Xiang Cheng, Minhak Song, Chulhee Yun, Ali Jadbabaie, Suvrit Sra | (参考訳) トランスフォーマーのトレーニングは、オプティマイザの注意深い設計と様々なヒューリスティックスの使用を必要とすることで悪名高い。
我々は,単純だが正準線形化浅部変圧器モデルを慎重に研究することにより,訓練用変圧器の微妙さの理解に向けて前進する。
具体的には、線形変換器を訓練し、J にインスパイアされた回帰問題を解く。
〜von Oswald et al ~(ICML 2023)、K。
〜Ahn et al ~(NeurIPS 2023)。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
その結果, 単純な線形化トランスフォーマーモデルは, トランスフォーマーの最適化を理解する上で, 有用かつ現実的な抽象化となる可能性が示唆された。
Transformer training is notoriously difficult, requiring a careful design of optimizers and use of various heuristics. We make progress towards understanding the subtleties of training Transformers by carefully studying a simple yet canonical linearized shallow Transformer model. Specifically, we train linear Transformers to solve regression tasks, inspired by J.~von Oswald et al.~(ICML 2023), and K.~Ahn et al.~(NeurIPS 2023). Most importantly, we observe that our proposed linearized models can reproduce several prominent aspects of Transformer training dynamics. Consequently, the results obtained in this paper suggest that a simple linearized Transformer model could actually be a valuable, realistic abstraction for understanding Transformer optimization. | 翻訳日:2024-03-14 18:27:49 公開日:2024-03-13 |
# DataInf: LoRA チューニング LLM におけるデータ影響を効率的に推定する
拡散モデル
DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and Diffusion Models ( http://arxiv.org/abs/2310.00902v3 ) ライセンス: Link先を確認 | Yongchan Kwon, Eric Wu, Kevin Wu, James Zou | (参考訳) トレーニングデータポイントの影響の定量化は、機械学習モデルのアウトプットを理解し、AIパイプラインの透明性を改善するために不可欠である。
影響関数は、原則的で一般的なデータ帰属法であるが、その計算コストは、しばしば使用を困難にしている。
この問題は、大きな言語モデルとテキスト・ツー・イメージモデルの設定でより顕著になる。
本研究では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
簡単に計算できるクローズドフォーム式を利用することで、DataInfは計算効率とメモリ効率の点で既存の影響計算アルゴリズムより優れている。
理論的解析により,DataInfはLoRAのようなパラメータ効率の高い微調整技術に特に適していることが示された。
系統的な経験的評価を通じて、DataInfは影響スコアを正確に近似し、既存の手法よりも桁違いに高速であることを示す。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの応用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
さらに、どのデータポイントが誤ってラベル付けされているかを識別するのに役立ちます。
Quantifying the impact of training data points is crucial for understanding the outputs of machine learning models and for improving the transparency of the AI pipeline. The influence function is a principled and popular data attribution method, but its computational cost often makes it challenging to use. This issue becomes more pronounced in the setting of large language models and text-to-image models. In this work, we propose DataInf, an efficient influence approximation method that is practical for large-scale generative AI models. Leveraging an easy-to-compute closed-form expression, DataInf outperforms existing influence computation algorithms in terms of computational and memory efficiency. Our theoretical analysis shows that DataInf is particularly well-suited for parameter-efficient fine-tuning techniques such as LoRA. Through systematic empirical evaluations, we show that DataInf accurately approximates influence scores and is orders of magnitude faster than existing methods. In applications to RoBERTa-large, Llama-2-13B-chat, and stable-diffusion-v1.5 models, DataInf effectively identifies the most influential fine-tuning examples better than other approximate influence scores. Moreover, it can help to identify which data points are mislabeled. | 翻訳日:2024-03-14 18:27:49 公開日:2024-03-13 |
# Pink:マルチモーダルにおける参照理解の力の解放
LLM
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs ( http://arxiv.org/abs/2310.00582v3 ) ライセンス: Link先を確認 | Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang | (参考訳) MLLM(Multi-modal Large Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
それでも、細粒度画像理解タスクのパフォーマンスはまだ限られている。
そこで本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
具体的には,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
既存の高密度オブジェクトアノテーションを高品質な参照-表現-バウンディング-ボックスペアに拡張するために、自己一貫性のブートストラップ法も導入されている。
これらの方法では、きめ細かいイメージ認識に必要な幅広い基本能力を含む高品質な命令データを生成することができる。
さらに、視覚エンコーダは、フルイメージ知覚ときめ細かなイメージ知覚とのギャップを軽減するために、インストラクションチューニング中に調整されるべきである、と論じる。
実験により,本手法の優れた性能が示された。
例えば、GQA上でのQwen-VLよりも精度が5.2%向上し、RefCOCO_valではコスモス2の精度が24.7%向上した。
MMBenchのリーダーボードでもトップランクを獲得しました。
この有望なパフォーマンスは、公開データのみをトレーニングすることで実現され、容易に再現できる。
モデル、データセット、コードはhttps://github.com/SY-Xuan/Pink.comで公開されている。
Multi-modal Large Language Models (MLLMs) have shown remarkable capabilities in various multi-modal tasks. Nevertheless, their performance in fine-grained image understanding tasks is still limited. To address this issue, this paper proposes a new framework to enhance the fine-grained image understanding abilities of MLLMs. Specifically, we present a new method for constructing the instruction tuning dataset at a low cost by leveraging annotations in existing datasets. A self-consistent bootstrapping method is also introduced to extend existing dense object annotations into high-quality referring-expression-bounding-box pairs. These methods enable the generation of high-quality instruction data which includes a wide range of fundamental abilities essential for fine-grained image perception. Moreover, we argue that the visual encoder should be tuned during instruction tuning to mitigate the gap between full image perception and fine-grained image perception. Experimental results demonstrate the superior performance of our method. For instance, our model exhibits a 5.2% accuracy improvement over Qwen-VL on GQA and surpasses the accuracy of Kosmos-2 by 24.7% on RefCOCO_val. We have also attained the top rank on the leaderboard of MMBench. This promising performance is achieved by training on only publicly available data, making it easily reproducible. The models, datasets, and codes are publicly available at https://github.com/SY-Xuan/Pink. | 翻訳日:2024-03-14 18:27:48 公開日:2024-03-13 |
# CRAFT:特殊化によるLCMのカスタマイズ
道具
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets ( http://arxiv.org/abs/2309.17428v2 ) ライセンス: Link先を確認 | Lifan Yuan, Yangyi Chen, Xingyao Wang, Yi R. Fung, Hao Peng, Heng Ji | (参考訳) 大規模言語モデル(LLM)は複雑なタスクを解決するツールで拡張されることが多い。
コードスニペットを生成してタスク固有のアプリケーションプログラミングインターフェース(API)を通じて実行することにより、イメージエンコーディングや計算の実行など、特定の機能を専用の外部モジュールにオフロードすることができる。
しかし、ツールでLLMを拡張するための既存のアプローチのほとんどは、汎用APIによって制約されており、特定のタスクに合わせるための柔軟性が欠如している。
本研究では,LLMのための汎用ツール作成・検索フレームワークであるCRAFTについて述べる。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
各タスクに対して、GPT-4にトレーニング例の解決を促すことで、特定のコードソリューションを収集する。
正確性を保証するための検証ステップに続いて、これらのソリューションは再利用性を高めるためにコードスニペットに抽象化され、より高品質に分離される。
推論時に、言語モデルはツールセットからスニペットを検索し、実行するか、検索したスニペット上で出力条件を生成する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
視覚言語、表処理、数学的推論タスクの実験により、我々の手法は強いベースラインに比べて大幅に改善されていることが示された。
さらに我々は,(1)ツールの数とバックボーンモデルの能力のスケールアップによる一貫したパフォーマンス向上,(2)アプローチの各コンポーネントがパフォーマンス向上に寄与すること,(3)作成ツールが十分に構造化されており,複雑さとアトミック性が低いこと,などを明らかにした。
コードはhttps://github.com/lifan-yuan/CRAFTで公開されている。
Large language models (LLMs) are often augmented with tools to solve complex tasks. By generating code snippets and executing them through task-specific Application Programming Interfaces (APIs), they can offload certain functions to dedicated external modules, such as image encoding and performing calculations. However, most existing approaches to augment LLMs with tools are constrained by general-purpose APIs and lack the flexibility for tailoring them to specific tasks. In this work, we present CRAFT, a general tool creation and retrieval framework for LLMs. It creates toolsets specifically curated for the tasks and equips LLMs with a component that retrieves tools from these sets to enhance their capability to solve complex tasks. For each task, we collect specific code solutions by prompting GPT-4 to solve the training examples. Following a validation step ensuring the correctness, these solutions are abstracted into code snippets to enhance reusability, and deduplicated for higher quality. At inference time, the language model retrieves snippets from the toolsets and then executes them or generates the output conditioning on the retrieved snippets. Our method is designed to be flexible and offers a plug-and-play approach to adapt off-the-shelf LLMs to unseen domains and modalities, without any finetuning. Experiments on vision-language, tabular processing, and mathematical reasoning tasks show that our approach achieves substantial improvements compared to strong baselines. In addition, our in-depth analysis reveals that: (1) consistent performance improvement can be achieved by scaling up the number of tools and the capability of the backbone models; (2) each component of our approach contributes to the performance gains; (3) the created tools are well-structured and reliable with low complexity and atomicity. The code is available at https://github.com/lifan-yuan/CRAFT. | 翻訳日:2024-03-14 18:27:47 公開日:2024-03-13 |
# 双方向学習によるフェデレーション学習におけるバックドアアタックの残留
選挙と個人的展望
Resisting Backdoor Attacks in Federated Learning via Bidirectional Elections and Individual Perspective ( http://arxiv.org/abs/2309.16456v2 ) ライセンス: Link先を確認 | Zhen Qin, Feiyi Chen, Chen Zhi, Xueqiang Yan, Shuiguang Deng | (参考訳) 既存のアプローチは、主に連邦学習(FL)におけるバックドア攻撃を防御する
a)感染したモデルの影響を緩和する、または
b) 感染モデルを除くこと
前者はモデル精度に悪影響を及ぼすが、後者は通常、良性と感染したモデル更新の間の世界的明確な境界に依存している。
しかし、モデル更新は、ローカルデータの多種多様な分布のため、現実的に混在し、分散することが容易である。
本研究は、FLの感染モデルを排除することに焦点を当てている。
従来の世界的視点とは違って,Snowballは,私たちによる1つの原則と,FLとディープラーニングの2つの原則に着想を得た,双方向の選挙を通じて,新たな反バックドアFLフレームワークを提案する。
特徴的である。
a) 各候補者モデルが、いくつかのモデル更新が集計の選任者として選出されるように、複数のピアに投票するボトムアップ選挙
b) トップダウン選挙では、候補者の選任により、選任者が徐々に拡大する。
我々は、Snowballと最先端の防御と、FLの5つの現実世界のデータセットにおけるバックドアアタックを比較し、バックドアアタックに対する優れた耐性と、グローバルモデルの精度にわずかに影響を及ぼすことを示した。
Existing approaches defend against backdoor attacks in federated learning (FL) mainly through a) mitigating the impact of infected models, or b) excluding infected models. The former negatively impacts model accuracy, while the latter usually relies on globally clear boundaries between benign and infected model updates. However, model updates are easy to be mixed and scattered throughout in reality due to the diverse distributions of local data. This work focuses on excluding infected models in FL. Unlike previous perspectives from a global view, we propose Snowball, a novel anti-backdoor FL framework through bidirectional elections from an individual perspective inspired by one principle deduced by us and two principles in FL and deep learning. It is characterized by a) bottom-up election, where each candidate model update votes to several peer ones such that a few model updates are elected as selectees for aggregation; and b) top-down election, where selectees progressively enlarge themselves through picking up from the candidates. We compare Snowball with state-of-the-art defenses to backdoor attacks in FL on five real-world datasets, demonstrating its superior resistance to backdoor attacks and slight impact on the accuracy of the global model. | 翻訳日:2024-03-14 18:27:46 公開日:2024-03-13 |
# 類比に基づくタスク予測によるクラスインクリメンタル学習
Class Incremental Learning via Likelihood Ratio Based Task Prediction ( http://arxiv.org/abs/2309.15048v4 ) ライセンス: Link先を確認 | Haowei Lin, Yijia Shao, Weinan Qian, Ningxin Pan, Yiduo Guo, Bing Liu | (参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class incremental Learning、CIL)は、一連のタスクを逐次学習する継続的ラーニングの挑戦的な設定である。
各タスクは、一組のユニークなクラスから構成される。
CILの重要な特徴は、テスト時にタスク識別子(またはタスクID)が提供されないことである。
各テストサンプルのタスクIDを予測することは難しい問題です。
新たな理論誘導アプローチ(TIL+OOD)は、タスクインクリメンタルラーニング(TIL)手法に基づいて、タスク毎のタスク固有のモデルを共有ネットワークでトレーニングし、破滅的な忘れ事に対処することである。
各タスクのモデルは従来の分類器ではなく、アウト・オブ・ディストリビューション(OOD)検出器である。
OOD検出器は、in-task(in-distribution(IND))クラス予測とOOD検出の両方を実行することができる。
OOD検出機能は、推論中のタスクID予測の鍵となる。
しかし,本論文では,従来のOOD検出器を用いたタスクID予測は,CILで利用可能な追加情報(例えば,リプレイデータや学習タスク)を利用すれば,タスクID予測のためのより優れた,原則化された手法を設計できるため,サブ最適である,と論じる。
新しい手法をTPL (Task-id Prediction based on Likelihood Ratio) と呼ぶ。
TPLは強いCILベースラインを著しく上回り、破滅的な忘れがほとんどない。
TPLのコードはhttps://github.com/linhaowei1/TPLで公開されている。
Class incremental learning (CIL) is a challenging setting of continual learning, which learns a series of tasks sequentially. Each task consists of a set of unique classes. The key feature of CIL is that no task identifier (or task-id) is provided at test time. Predicting the task-id for each test sample is a challenging problem. An emerging theory-guided approach (called TIL+OOD) is to train a task-specific model for each task in a shared network for all tasks based on a task-incremental learning (TIL) method to deal with catastrophic forgetting. The model for each task is an out-of-distribution (OOD) detector rather than a conventional classifier. The OOD detector can perform both within-task (in-distribution (IND)) class prediction and OOD detection. The OOD detection capability is the key to task-id prediction during inference. However, this paper argues that using a traditional OOD detector for task-id prediction is sub-optimal because additional information (e.g., the replay data and the learned tasks) available in CIL can be exploited to design a better and principled method for task-id prediction. We call the new method TPL (Task-id Prediction based on Likelihood Ratio). TPL markedly outperforms strong CIL baselines and has negligible catastrophic forgetting. The code of TPL is publicly available at https://github.com/linhaowei1/TPL. | 翻訳日:2024-03-14 18:27:45 公開日:2024-03-13 |
# PSDiff:反復的・反復的人物探索のための拡散モデル
コラボレーティブリファインメント
PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement ( http://arxiv.org/abs/2309.11125v2 ) ライセンス: Link先を確認 | Chengyou Jia, Minnan Luo, Zhuohang Dang, Guang Dai, Xiaojun Chang, and Jingdong Wang | (参考訳) 支配的人物探索法は,2つのサブタスク,シャイ,歩行者検出,再識別(Re-IDentification, ReID)を共同で最適化する統合ネットワークにおいて,クエリ対象をローカライズし,認識することを目的としている。
著しい進歩にもかかわらず、現在の手法は2つの大きな課題に直面している。
1) 検出器内で学習した歩行者候補は, ReIDタスクに最適である。
2)2つのサブタスク間のコラボレーションの可能性は見落としている。
これらの問題に対処するために,拡散モデルであるPSDiffに基づく新しいPerson Searchフレームワークを提案する。
PSDiffは、ノイズの多いボックスとReID埋め込みから地上の真実へのデュアル・デノナイズ・プロセスとして検索する人を定式化する。
従来の検出からReIDへのアプローチとは対照的に,本手法では,検知器によって生成された先行歩行者候補を排除し,ReIDタスクの局所的最適問題を回避している。
新しいパラダイムに続き、我々はさらに2つのサブタスクを相互に有益にする、反復的かつ協調的な方法で検出とReIDサブタスクを最適化する新しいコラボレーティブ・デノナイジング・レイヤ(CDL)を設計する。
標準ベンチマークでの大規模な実験により、PSDiffはより少ないパラメータと弾力性のある計算オーバーヘッドで最先端のパフォーマンスを達成することが示された。
Dominant Person Search methods aim to localize and recognize query persons in a unified network, which jointly optimizes two sub-tasks, \ie, pedestrian detection and Re-IDentification (ReID). Despite significant progress, current methods face two primary challenges: 1) the pedestrian candidates learned within detectors are suboptimal for the ReID task. 2) the potential for collaboration between two sub-tasks is overlooked. To address these issues, we present a novel Person Search framework based on the Diffusion model, PSDiff. PSDiff formulates the person search as a dual denoising process from noisy boxes and ReID embeddings to ground truths. Distinct from the conventional Detection-to-ReID approach, our denoising paradigm discards prior pedestrian candidates generated by detectors, thereby avoiding the local optimum problem of the ReID task. Following the new paradigm, we further design a new Collaborative Denoising Layer (CDL) to optimize detection and ReID sub-tasks in an iterative and collaborative way, which makes two sub-tasks mutually beneficial. Extensive experiments on the standard benchmarks show that PSDiff achieves state-of-the-art performance with fewer parameters and elastic computing overhead. | 翻訳日:2024-03-14 18:27:45 公開日:2024-03-13 |
# 選択人工物としての鐘の相関
Bell Correlations as Selection Artefacts ( http://arxiv.org/abs/2309.10969v3 ) ライセンス: Link先を確認 | Huw Price and Ken Wharton | (参考訳) ベル相関は,実験の初期状態の通常の制御によって生じる特別な選択人工物として生じる可能性があることを示す。
これは非局所性であり、直接的な空間的な因果関係や影響を含まない。
この議論は、2つの主要な点で (arXiv:2101.05370v4 [quant-ph], arXiv:2212.06986 [quant-ph]) の以前の提案を改善している。
一 実ベル実験における応用の実証及び
(二)逆行性の仮定を避けること。
このバージョンにはAppendixが含まれており、この提案とWood and Spekkensの結論(arXiv:1208.4119 [quant-ph])との関係について議論している。
We show that Bell correlations may arise as a special sort of selection artefact, produced by ordinary control of the initial state of the experiments concerned. This accounts for nonlocality, without recourse to any direct spacelike causality or influence. The argument improves an earlier proposal in (arXiv:2101.05370v4 [quant-ph], arXiv:2212.06986 [quant-ph]) in two main respects: (i) in demonstrating its application in a real Bell experiment; and (ii) in avoiding the need for a postulate of retrocausality. This version includes an Appendix, discussing the relation of the proposal to the conclusions of Wood and Spekkens (arXiv:1208.4119 [quant-ph]). | 翻訳日:2024-03-14 18:27:44 公開日:2024-03-13 |
# PROGrasp: オブジェクトグラスピングのための実用的人間ロボットコミュニケーション
PROGrasp: Pragmatic Human-Robot Communication for Object Grasping ( http://arxiv.org/abs/2309.07759v3 ) ライセンス: Link先を確認 | Gi-Cheon Kang, Junghyun Kim, Jaein Kim, Byoung-Tak Zhang | (参考訳) 対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
現在のIOGシステムは、人間が最初に対象のオブジェクトのカテゴリ(例えばボトル)を指定すると仮定している。
目的達成のためにコンテキストに依存して意図を伝達する実践的手法に触発されて,新たなIOGタスクであるPragmatic-IOGと,それに対応するデータセットであるIntention-oriented Multi-modal Dialogue (IM-Dial)を導入する。
提案するタスクシナリオでは,まずロボットに意図指向の発話(例:「喉が渇いている」)を付与する。
ロボットは、人間のユーザと対話することで、対象物を識別する。
タスク設定に基づいて,ユーザの意図を解釈し,対象物であるPROGrasp(Pragmatic Object Grasping)をピックアップするロボットシステムを提案する。
PROGraspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、プラグマティック推論の解答解釈のためのモジュールを組み込むことで、Pragmatic-IOGを実行する。
ProGraspはオフライン(ターゲットオブジェクト発見)やオンライン(物理ロボットアーム付きIOG)の設定で有効であることを示す実験結果が得られた。
コードとデータはhttps://github.com/gicheonkang/prograsp.comで公開されている。
Interactive Object Grasping (IOG) is the task of identifying and grasping the desired object via human-robot natural language interaction. Current IOG systems assume that a human user initially specifies the target object's category (e.g., bottle). Inspired by pragmatics, where humans often convey their intentions by relying on context to achieve goals, we introduce a new IOG task, Pragmatic-IOG, and the corresponding dataset, Intention-oriented Multi-modal Dialogue (IM-Dial). In our proposed task scenario, an intention-oriented utterance (e.g., "I am thirsty") is initially given to the robot. The robot should then identify the target object by interacting with a human user. Based on the task setup, we propose a new robotic system that can interpret the user's intention and pick up the target object, Pragmatic Object Grasping (PROGrasp). PROGrasp performs Pragmatic-IOG by incorporating modules for visual grounding, question asking, object grasping, and most importantly, answer interpretation for pragmatic inference. Experimental results show that PROGrasp is effective in offline (i.e., target object discovery) and online (i.e., IOG with a physical robot arm) settings. Code and data are available at https://github.com/gicheonkang/prograsp. | 翻訳日:2024-03-14 18:27:43 公開日:2024-03-13 |
# 制御合成のための深層カーネル学習の約束
Promises of Deep Kernel Learning for Control Synthesis ( http://arxiv.org/abs/2309.06569v2 ) ライセンス: Link先を確認 | Robert Reed, Luca Laurenti, Morteza Lahijanian | (参考訳) ディープカーネルラーニング(Deep Kernel Learning、DKL)は、ニューラルネットワークの表現力とガウス過程の不確かさの定量化を組み合わせる。
したがって、複雑な力学系を学習し、制御するための有望なツールである可能性がある。
本研究では,複雑な仕様に対する確率力学系の合成制御にDKLを用いることが可能な,スケーラブルな抽象化ベースのフレームワークを開発する。
具体的には、時間論理の仕様を考察し、DKLを用いて未知のシステムをデータから学習し、正式にDKLモデルをインターバルマルコフ決定プロセス(IMDP)に抽象化し、正確性を保証する制御合成を行うエンドツーエンドのフレームワークを作成する。
さらに、正確な学習と効率的な抽象化計算を可能にするディープアーキテクチャを同定する。
提案手法の有効性を5次元非線形確率システムを含む様々なベンチマークで示し,DKLによる制御合成が最先端の競合手法を大幅に上回ることを示す。
Deep Kernel Learning (DKL) combines the representational power of neural networks with the uncertainty quantification of Gaussian Processes. Hence, it is potentially a promising tool to learn and control complex dynamical systems. In this work, we develop a scalable abstraction-based framework that enables the use of DKL for control synthesis of stochastic dynamical systems against complex specifications. Specifically, we consider temporal logic specifications and create an end-to-end framework that uses DKL to learn an unknown system from data and formally abstracts the DKL model into an Interval Markov Decision Process (IMDP) to perform control synthesis with correctness guarantees. Furthermore, we identify a deep architecture that enables accurate learning and efficient abstraction computation. The effectiveness of our approach is illustrated on various benchmarks, including a 5-D nonlinear stochastic system, showing how control synthesis with DKL can substantially outperform state-of-the-art competitive methods. | 翻訳日:2024-03-14 18:27:42 公開日:2024-03-13 |
# 部分乱れランダム上のアンダーソンモデルにおけるロバスト拡張状態
regular graphs
Robust extended states in Anderson model on partially disordered random regular graphs ( http://arxiv.org/abs/2309.05691v3 ) ライセンス: Link先を確認 | Daniil Kochergin, Ivan M. Khaymovich, Olga Valba, Alexander Gorsky | (参考訳) 本研究では, 部分乱乱乱正則グラフ(d次数)における移動エッジの起源を解析的に説明し, サイトの分数$\beta$が乱れ, 残りはきれいに保たれている。
スペクトルの運動量エッジは、無限大の均一分散障害において$(d,\beta)$というパラメータの特定の範囲に生存することが示されている。
拡張状態と局所状態とを分離した臨界曲線は解析的に導出され、数値的に確認される。
スパースと超高密度RRGの局在特性の双対性が発見され、理解されている。
In this work we analytically explain the origin of the mobility edge in the partially disordered random regular graphs of degree d, i.e., with a fraction $\beta$ of the sites being disordered, while the rest remain clean. It is shown that the mobility edge in the spectrum survives in {a certain range of parameters} $(d,\beta)$ at infinitely large uniformly distributed disorder. The critical curve separating extended and localized states is derived analytically and confirmed numerically. The duality in the localization properties between the sparse and extremely dense RRG has been found and understood. | 翻訳日:2024-03-14 18:27:42 公開日:2024-03-13 |
# SKoPe3D:3Dから車両のキーポイント認識のための合成データセット
交通監視カメラ
SKoPe3D: A Synthetic Dataset for Vehicle Keypoint Perception in 3D from Traffic Monitoring Cameras ( http://arxiv.org/abs/2309.01324v2 ) ライセンス: Link先を確認 | Himanshu Pahadia, Duo Lu, Bharatesh Chakravarthi, Yezhou Yang | (参考訳) インテリジェント交通システム(ITS)は、交通監視、道路安全評価、渋滞低減、法執行などの重要な機能を提供している。
効果的な車両検出と正確な車両ポーズ推定はITSにとって重要であり、特に道路インフラに設置された単眼カメラを使用する。
視覚に基づく車両監視の基本的な課題の1つはキーポイント検出であり、車(ヘッドライト、車輪、テールライトなど)の特定の点を特定し、位置を特定することである。
しかし、この作業は車両モデルと形状のバリエーション、閉塞性、天候、照明条件によって複雑である。
さらに、キーポイント検出のための既存のトラフィック認識データセットは、主にエゴ車に搭載されたセンサーからのフロントビューに焦点を当て、トラフィック監視のユーザビリティを制限している。
これらの問題に対処するために,道路側からCARLAシミュレータを用いて生成されたユニークな合成車両キーポイントデータセットであるSKoPe3Dを提案する。
この包括的なデータセットには、各車両のバウンディングボックス、ID追跡、33のキーポイントを備えた生成イメージが含まれている。
SKoPe3Dは28シーンで25k以上の画像を撮影し、150k以上の車両インスタンスと490万のキーポイントを含んでいる。
その実用性を実証するため、我々のデータセット上のキーポイントR-CNNモデルをベースラインとして訓練し、徹底的な評価を行った。
実験では、データセットの適用性と、合成データと実世界のデータ間の知識伝達の可能性を強調した。
SKoPe3Dデータセットを活用することで、研究者と実践者は既存のデータセットの制限を克服し、ITSの車両キーポイント検出の進歩を可能にする。
Intelligent transportation systems (ITS) have revolutionized modern road infrastructure, providing essential functionalities such as traffic monitoring, road safety assessment, congestion reduction, and law enforcement. Effective vehicle detection and accurate vehicle pose estimation are crucial for ITS, particularly using monocular cameras installed on the road infrastructure. One fundamental challenge in vision-based vehicle monitoring is keypoint detection, which involves identifying and localizing specific points on vehicles (such as headlights, wheels, taillights, etc.). However, this task is complicated by vehicle model and shape variations, occlusion, weather, and lighting conditions. Furthermore, existing traffic perception datasets for keypoint detection predominantly focus on frontal views from ego vehicle-mounted sensors, limiting their usability in traffic monitoring. To address these issues, we propose SKoPe3D, a unique synthetic vehicle keypoint dataset generated using the CARLA simulator from a roadside perspective. This comprehensive dataset includes generated images with bounding boxes, tracking IDs, and 33 keypoints for each vehicle. Spanning over 25k images across 28 scenes, SKoPe3D contains over 150k vehicle instances and 4.9 million keypoints. To demonstrate its utility, we trained a keypoint R-CNN model on our dataset as a baseline and conducted a thorough evaluation. Our experiments highlight the dataset's applicability and the potential for knowledge transfer between synthetic and real-world data. By leveraging the SKoPe3D dataset, researchers and practitioners can overcome the limitations of existing datasets, enabling advancements in vehicle keypoint detection for ITS. | 翻訳日:2024-03-14 18:27:41 公開日:2024-03-13 |
# MASA-TCN:マルチアンカー空間対応時空間畳み込みニューラルネットワーク
連続的かつ離散的な脳波認識のためのネットワーク
MASA-TCN: Multi-anchor Space-aware Temporal Convolutional Neural Networks for Continuous and Discrete EEG Emotion Recognition ( http://arxiv.org/abs/2308.16207v2 ) ライセンス: Link先を確認 | Yi Ding, Su Zhang, Chuangao Tang, Cuntai Guan | (参考訳) 脳波(EEG)を用いた感情認識は、主に、離散ラベルの分類と、継続的にタグ付けされたラベルの回帰の2つのシナリオを持つ。
分類タスクには多くのアルゴリズムが提案されているが、回帰タスクにはいくつかの方法しか存在しない。
感情の回帰については、ラベルは時間内に連続する。
自然な方法は時間的動的パターンを学ぶことである。
前回の研究では、脳波の特徴ベクトルから時間的文脈情報を学習するために、長期記憶(LSTM)と時相畳み込みニューラルネットワーク(TCN)が用いられた。
しかし,脳波の空間パターンは効果的に抽出されなかった。
そこで我々は,脳波の回帰と分類タスクのための新しい統合モデルであるMASA-TCNを提案する。
空間認識時間層は、TNがEEG電極間の空間関係から追加的に学習することを可能にする。
さらに,動的時間依存性を学習するために,注意融合を伴う新しいマルチアンカーブロックを提案する。
公開された2つのデータセットの実験では、MASA-TCNは、脳波の感情の回帰と分類タスクの両方のための最先端の手法よりも高い結果が得られる。
コードはhttps://github.com/yi-ding-cs/MASA-TCNで公開されている。
Emotion recognition using electroencephalogram (EEG) mainly has two scenarios: classification of the discrete labels and regression of the continuously tagged labels. Although many algorithms were proposed for classification tasks, there are only a few methods for regression tasks. For emotion regression, the label is continuous in time. A natural method is to learn the temporal dynamic patterns. In previous studies, long short-term memory (LSTM) and temporal convolutional neural networks (TCN) were utilized to learn the temporal contextual information from feature vectors of EEG. However, the spatial patterns of EEG were not effectively extracted. To enable the spatial learning ability of TCN towards better regression and classification performances, we propose a novel unified model, named MASA-TCN, for EEG emotion regression and classification tasks. The space-aware temporal layer enables TCN to additionally learn from spatial relations among EEG electrodes. Besides, a novel multi-anchor block with attentive fusion is proposed to learn dynamic temporal dependencies. Experiments on two publicly available datasets show MASA-TCN achieves higher results than the state-of-the-art methods for both EEG emotion regression and classification tasks. The code is available at https://github.com/yi-ding-cs/MASA-TCN. | 翻訳日:2024-03-14 18:27:41 公開日:2024-03-13 |
# 複雑力学による動的量子相転移の研究
ポッツモデル
Complex dynamics approach to dynamical quantum phase transitions: the Potts model ( http://arxiv.org/abs/2308.14827v3 ) ライセンス: Link先を確認 | Somendra M. Bhattacharjee | (参考訳) 本稿では1次元および2次元の量子3状態ポッツモデルにおける動的量子相転移を研究するための複素力学法を紹介する。
クエンチは無限の横フィールドをオフにする。
時間依存性のLoschmidtエコーは、熱ボルツマン因子が正の実軸に沿っていて、量子時間進化が単位円に沿っている複素平面における正確な再正規化群(RG)変換によって評価される。
RG の繰り返し応用によって構成される複素力学の特徴の1つは、相転移を決定するジュリア集合である。
特殊な境界条件は遷移の性質を変化させることができ、伝達行列計算により一次元系のクレームを検証できることを示す。
2次元では、キュリー点の臨界性にもかかわらず、対称性の破れと回復の遷移が交互に存在する。
加えて、ジュリア集合のフラクタル性のため、より微細な構造が存在する。
我々のアプローチは、多変数問題、高次元、および有理関数として表される近似RG変換にまで拡張することができる。
This paper introduces complex dynamics methods to study dynamical quantum phase transitions in the one- and two-dimensional quantum 3-state Potts model. The quench involves switching off an infinite transverse field. The time-dependent Loschmidt echo is evaluated by an exact renormalization group (RG) transformation in the complex plane where the thermal Boltzmann factor is along the positive real axis, and the quantum time evolution is along the unit circle. One of the characteristics of the complex dynamics constituted by repeated applications of RG is the Julia set, which determines the phase transitions. We show that special boundary conditions can alter the nature of the transitions, and verify the claim for the one-dimensional system by transfer matrix calculations. In two dimensions, there are alternating symmetry-breaking and restoring transitions, both of which are first-order, despite the criticality of the Curie point. In addition, there are finer structures because of the fractal nature of the Julia set. Our approach can be extended to multi-variable problems, higher dimensions, and approximate RG transformations expressed as rational functions. | 翻訳日:2024-03-14 18:27:40 公開日:2024-03-13 |
# 学習確率的レーンを用いた角膜症例の生成と説明
グラフ
Generating and Explaining Corner Cases Using Learnt Probabilistic Lane Graphs ( http://arxiv.org/abs/2308.13658v2 ) ライセンス: Link先を確認 | Enrik Maci, Rhys Howard, Lars Kunze | (参考訳) オープンエンドでダイナミックな環境で動く自律走行車(AV)の安全性を検証することは難しい。
異なる道路・交通条件の範囲を拡大し、シミュレーションに基づくシナリオテストのコーナーケースを含めることで、AVの安全性を向上させることができる。
しかし、複数のエージェントを含むコーナーケースシナリオの作成は簡単ではない。
当社のアプローチでは、エンジニアが歴史的交通データに基づいて、新しい現実的なコーナーケースを作成し、なぜ安全クリティカルな状況であったのかを説明することができる。
本稿では,車両が走行する車線の位置と方向の有限セットを記述するために,確率レーングラフ(PLG)を導入する。
PLGの構造は時空間トラフィックデータから直接学習される。
グラフモデルは、確率的ポリシーの形で与えられた状態に対応するドライバーの行動を表す。
我々は、このポリシーを変更し、AVの安全性を評価するために使用できる、現実的で説明可能なコーナーケースシナリオを生成するために強化学習技術を使用します。
Validating the safety of Autonomous Vehicles (AVs) operating in open-ended, dynamic environments is challenging as vehicles will eventually encounter safety-critical situations for which there is not representative training data. By increasing the coverage of different road and traffic conditions and by including corner cases in simulation-based scenario testing, the safety of AVs can be improved. However, the creation of corner case scenarios including multiple agents is non-trivial. Our approach allows engineers to generate novel, realistic corner cases based on historic traffic data and to explain why situations were safety-critical. In this paper, we introduce Probabilistic Lane Graphs (PLGs) to describe a finite set of lane positions and directions in which vehicles might travel. The structure of PLGs is learnt directly from spatio-temporal traffic data. The graph model represents the actions of the drivers in response to a given state in the form of a probabilistic policy. We use reinforcement learning techniques to modify this policy and to generate realistic and explainable corner case scenarios which can be used for assessing the safety of AVs. | 翻訳日:2024-03-14 18:27:40 公開日:2024-03-13 |
# RQMの仮定の正当性としての大沢の射影間理論
内部的に一貫した説明
Ozawa's Intersubjectivity Theorem as justification of RQM's postulate on internally consistent descriptions ( http://arxiv.org/abs/2401.06185v2 ) ライセンス: Link先を確認 | Andrei Khrennikov | (参考訳) OIT(Intersubjectivity Theorem)は、量子測定理論の中で証明され、内部的に一貫した記述に基づく関係量子力学(RQM)の新しい仮定を支持する。
しかし、OITの観点からは、仮説の定式化は確率再現性の仮定によって完了するべきである
The Ozawa's Intersubjectivity Theorem (OIT) proved within quantum measurement theory supports the new postulate of relational quantum mechanics (RQM), the postulate on internally consistent descriptions. But from OIT viewpoint postulate's formulation should be completed by the assumption of probability reproducibility | 翻訳日:2024-03-14 17:58:41 公開日:2024-03-13 |
# ソースフリードメイン適応における擬似ラベルの非畳み込み
De-Confusing Pseudo-Labels in Source-Free Domain Adaptation ( http://arxiv.org/abs/2401.01650v2 ) ライセンス: Link先を確認 | Idit Diamant, Amir Rosenfeld, Idan Achituve, Jacob Goldberger, Arnon Netzer | (参考訳) ソースフリードメイン適応(SFDA)は、ソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされたモデルを適用することを目的としている。
SFDAは近年注目を集めており、既存のアプローチは通常擬似ラベル技術を含む自己学習に重点を置いている。
本稿では,ドメイン適応設定における雑音分布に対処し,擬似ラベルの解離を学習するための新しいノイズ学習手法を提案する。
具体的には、擬似ラベルのノイズ遷移行列を学習し、各クラスのラベルの破損を捉え、基礎となる真のラベル分布を学習する。
ノイズ遷移行列の推定により、より真のクラス後推定が可能となり、予測精度が向上する。
SFDA法(SHOT, SHOT++, AaD)と組み合わせたアプローチの有効性を示す。
VisDA、DomainNet、OfficeHomeの3つのドメイン適応データセットについて、最先端の結果を得る。
Source-free domain adaptation (SFDA) aims to adapt a source-trained model to an unlabeled target domain without access to the source data. SFDA has attracted growing attention in recent years, where existing approaches focus on self-training that usually includes pseudo-labeling techniques. In this paper, we introduce a novel noise-learning approach tailored to address noise distribution in domain adaptation settings and learn to de-confuse the pseudo-labels. More specifically, we learn a noise transition matrix of the pseudo-labels to capture the label corruption of each class and learn the underlying true label distribution. Estimating the noise transition matrix enables a better true class-posterior estimation, resulting in better prediction accuracy. We demonstrate the effectiveness of our approach when combined with several SFDA methods: SHOT, SHOT++, and AaD. We obtain state-of-the-art results on three domain adaptation datasets: VisDA, DomainNet, and OfficeHome. | 翻訳日:2024-03-14 17:58:41 公開日:2024-03-13 |
# 組織アーチファクト・セグメンテーションと重症度解析
全スライド画像を用いた診断
Tissue Artifact Segmentation and Severity Analysis for Automated Diagnosis Using Whole Slide Images ( http://arxiv.org/abs/2401.01386v3 ) ライセンス: Link先を確認 | Galib Muhammad Shahriar Himel | (参考訳) 伝統的に、病理学的解析と診断は、専門家が顕微鏡下でガラススライド標本を手動で眼球で行う。
スライド画像全体はガラススライドから作られたデジタル標本である。
コンピュータ画面上で全スライド画像が観察でき、コンピュータビジョンと人工知能が自動解析と診断に使用される計算病理に繋がった。
現在の計算の進歩により、スライド画像全体は人間の監督なしに自律的に分析できる。
しかし、この分析は、重症度に応じて組織折りや気泡などの組織アーチファクトによって、スライド画像全体が影響を受ける場合、誤った診断につながる可能性がある。
既存のアーティファクト検出手法は、分析から影響のあるアーティファクトを除去するために、重症度評価の専門家に依存している。
このプロセスは、重大さを評価することなく、自動分析やアーティファクトの除去という目標を達成し、時間を消費し、消耗させ、弱めているため、診断上重要なデータが失われる可能性がある。
そのため、人工物を検出して、その重症度を自動的に評価する必要がある。
本稿では,畳み込みニューラルネットワークを用いたアーティファクト検出に重大度評価を組み込んだシステムを提案する。
提案システムはDoubleUNetを用いてアーティファクトを分割し、6つの微調整された畳み込みニューラルネットワークモデルのアンサンブルネットワークを用いて重大性を決定する。
本手法は, アーティファクトセグメンテーションの精度を9%向上させ, 重症度評価のための病理医の評価と97%の相関性を示した。
提案したヘテロジニアスデータセットを用いてシステムのロバスト性を実証し,自動解析システムと統合することで実用的ユーザビリティを確保した。
Traditionally, pathological analysis and diagnosis are performed by manually eyeballing glass slide specimens under a microscope by an expert. The whole slide image is the digital specimen produced from the glass slide. Whole slide image enabled specimens to be observed on a computer screen and led to computational pathology where computer vision and artificial intelligence are utilized for automated analysis and diagnosis. With the current computational advancement, the entire whole slide image can be analyzed autonomously without human supervision. However, the analysis could fail or lead to wrong diagnosis if the whole slide image is affected by tissue artifacts such as tissue fold or air bubbles depending on the severity. Existing artifact detection methods rely on experts for severity assessment to eliminate artifact affected regions from the analysis. This process is time consuming, exhausting and undermines the goal of automated analysis or removal of artifacts without evaluating their severity, which could result in the loss of diagnostically important data. Therefore, it is necessary to detect artifacts and then assess their severity automatically. In this paper, we propose a system that incorporates severity evaluation with artifact detection utilizing convolutional neural networks. The proposed system uses DoubleUNet to segment artifacts and an ensemble network of six fine tuned convolutional neural network models to determine severity. This method outperformed current state of the art in accuracy by 9 percent for artifact segmentation and achieved a strong correlation of 97 percent with the evaluation of pathologists for severity assessment. The robustness of the system was demonstrated using our proposed heterogeneous dataset and practical usability was ensured by integrating it with an automated analysis system. | 翻訳日:2024-03-14 17:58:39 公開日:2024-03-13 |
# 強調スウィンに基づく画像超解像再構成ネットワーク
局所的局所的特徴の交互集約による変圧器
Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features ( http://arxiv.org/abs/2401.00241v3 ) ライセンス: Link先を確認 | Yuming Huang, Yingpin Chen, Changhui Wu, Hanrong Xie, Binhui Song, Hui Wang | (参考訳) Swin Transformer画像の超分解能再構成ネットワークは、ウィンドウアテンションとウィンドウアテンションの長距離関係にのみ依存し、特徴を探索する。
この機構には2つの制限がある。
一方、グローバル機能のみに焦点を当て、ローカル機能を無視している。
一方、チャネルの特徴やチャネルの相互作用を無視しながら、空間的特徴の相互作用のみに関係しており、非線型マッピング能力を制限している。
上記の制限に対処するため,局所的特徴の交互集約によるSwin Transformerモジュールの拡張を提案する。
局所的な特徴集約段階において、局所的な空間情報とチャネル情報との相互作用を実現するシフト畳み込みを導入する。
そして、グローバル特徴集約段階において、ブロックスパースグローバル認識モジュールを導入する。
本モジュールでは,まず空間情報を再構成し,その組換え情報を多層パーセプトロンユニットに送信し,グローバルな知覚を実現する。
その後、複数スケールの自己アテンションモジュールと低パラメータの残チャンネルアテンションモジュールを導入し、異なるスケールで情報アグリゲーションを実現する。
最後に、提案されたネットワークは5つの公開データセットで検証される。
実験の結果,提案したネットワークは,他の最先端の超解像ネットワークよりも優れていた。
The Swin Transformer image super-resolution reconstruction network only relies on the long-range relationship of window attention and shifted window attention to explore features. This mechanism has two limitations. On the one hand, it only focuses on global features while ignoring local features. On the other hand, it is only concerned with spatial feature interactions while ignoring channel features and channel interactions, thus limiting its non-linear mapping ability. To address the above limitations, this paper proposes enhanced Swin Transformer modules via alternating aggregation of local-global features. In the local feature aggregation stage, we introduce a shift convolution to realize the interaction between local spatial information and channel information. Then, a block sparse global perception module is introduced in the global feature aggregation stage. In this module, we reorganize the spatial information first, then send the recombination information into a multi-layer perceptron unit to implement the global perception. After that, a multi-scale self-attention module and a low-parameter residual channel attention module are introduced to realize information aggregation at different scales. Finally, the proposed network is validated on five publicly available datasets. The experimental results show that the proposed network outperforms the other state-of-the-art super-resolution networks. | 翻訳日:2024-03-14 17:58:39 公開日:2024-03-13 |
# 人間のような表現を学習し、人間の価値を学べる
Learning Human-like Representations to Enable Learning Human Values ( http://arxiv.org/abs/2312.14106v2 ) ライセンス: Link先を確認 | Andrea Wynn, Ilia Sucholutsky, Thomas L. Griffiths | (参考訳) 許容可能な行動のための社会標準を害したり違反したりするのを避けるために、人間の価値観と整合したAIシステムをどのように構築すればよいのか?
人間とAIエージェントの表現的アライメントは価値アライメントを促進すると我々は主張する。
AIシステムに世界の人間的な表現を学習させるには、一般化の改善、ドメインシフトに対する堅牢性、数ショットの学習パフォーマンスなど、多くの既知のメリットがある。
機械学習モデル(ML)モデルと人間とのこのような表現的アライメントは、価値アライメントもサポートし、MLシステムは人間の価値観や社会的規範に適合できる。
我々は、価値アライメントの1つの側面として倫理に焦点を当て、選択された行動の道徳的受容性を反映した報酬を反映した多腕バンディット設定において、様々な手法を用いてMLエージェントを訓練する。
本研究では,エージェントの環境との表現的アライメントが学習性能に結びつくことを示すために,合成実験を用いる。
そこで本手法は,人間や多種多様な言語モデルから収集したテキスト行動記述や類似性判断を用いて,現実的な状況下で繰り返し,倫理的に関係のある文脈において,結果が一般化され,モデルに依存しないことを示す。
How can we build AI systems that are aligned with human values to avoid causing harm or violating societal standards for acceptable behavior? We argue that representational alignment between humans and AI agents facilitates value alignment. Making AI systems learn human-like representations of the world has many known benefits, including improving generalization, robustness to domain shifts, and few-shot learning performance. We propose that this kind of representational alignment between machine learning (ML) models and humans can also support value alignment, allowing ML systems to conform to human values and societal norms. We focus on ethics as one aspect of value alignment and train ML agents using a variety of methods in a multi-armed bandit setting, where rewards reflect the moral acceptability of the chosen action. We use a synthetic experiment to demonstrate that agents' representational alignment with the environment bounds their learning performance. We then repeat this procedure in a realistic setting, using textual action descriptions and similarity judgments collected from humans and a variety of language models, to show that the results generalize and are model-agnostic when grounded in an ethically relevant context. | 翻訳日:2024-03-14 17:58:38 公開日:2024-03-13 |
# SkillDiffuser: スキルによる階層的計画の解釈
拡散に基づくタスク実行における抽象化
SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution ( http://arxiv.org/abs/2312.11598v2 ) ライセンス: Link先を確認 | Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo | (参考訳) 拡散モデルは、ロボット軌道計画の強力な可能性を示している。
しかし、特に複数のシーケンシャルスキルを必要とする長距離構成タスクにおいて、ハイレベルな指示からコヒーレントな軌道を生成することは依然として困難である。
この問題を解決するために,解釈可能なスキル学習と条件付き拡散計画を統合したエンドツーエンドの階層的計画フレームワークであるSkillDiffuserを提案する。
より高いレベルでは、スキル抽象化モジュールは、視覚的な観察と言語指示から、独立した人間の理解可能なスキル表現を学習する。
これらの学習されたスキル埋め込みは、拡散モデルを条件づけて、スキルに合わせてカスタマイズされた潜在軌道を生成する。
これにより、学習可能なスキルに準拠した多様な状態軌跡を生成することができる。
スキル学習と条件付き軌道生成を統合することで、SkillDiffuserはさまざまなタスクにまたがる抽象的な指示に従ってコヒーレントな振る舞いを生成する。
Meta-WorldやLOReLのようなマルチタスクロボット操作ベンチマークの実験では、SkillDiffuserによる最先端のパフォーマンスと人間の解釈可能なスキル表現が実証されている。
より多くの視覚化結果と情報は、私たちのWebサイトにある。
Diffusion models have demonstrated strong potential for robotic trajectory planning. However, generating coherent trajectories from high-level instructions remains challenging, especially for long-range composition tasks requiring multiple sequential skills. We propose SkillDiffuser, an end-to-end hierarchical planning framework integrating interpretable skill learning with conditional diffusion planning to address this problem. At the higher level, the skill abstraction module learns discrete, human-understandable skill representations from visual observations and language instructions. These learned skill embeddings are then used to condition the diffusion model to generate customized latent trajectories aligned with the skills. This allows generating diverse state trajectories that adhere to the learnable skills. By integrating skill learning with conditional trajectory generation, SkillDiffuser produces coherent behavior following abstract instructions across diverse tasks. Experiments on multi-task robotic manipulation benchmarks like Meta-World and LOReL demonstrate state-of-the-art performance and human-interpretable skill representations from SkillDiffuser. More visualization results and information could be found on our website. | 翻訳日:2024-03-14 17:58:37 公開日:2024-03-13 |
# 善を排除し、悪を避ける: 安全への漸進的なアプローチ
強化学習
Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning ( http://arxiv.org/abs/2312.10385v3 ) ライセンス: Link先を確認 | Huy Hoang and Tien Mai and Pradeep Varakantham | (参考訳) 強化学習(RL)における安全な行動を実施するための一般的な枠組みは制約付きRL(Constrained RL)である。
制約付きRLを解くための最近のアプローチでは、トラジェクトリに基づくコスト制約を代理問題に変換し、RL法に小さな修正を加えて解くことができる。
このようなアプローチの主な欠点は、各状態におけるコスト制約の過小評価または過小評価である。
そこで我々は, トラジェクトリに基づくコスト制約を変更しないアプローチを提案し, その代わりに「良い」トラジェクトリを模倣し, 「悪い」トラジェクトリを段階的に改善することで生じる「悪い」トラジェクトリを避ける。
我々は、報酬しきい値(学習によって変化する)と、トラジェクトリを ``good'' または ``bad'' とラベル付けするための全体的なコスト制約を利用するオラクルを採用している。
このアプローチの重要な利点は、開始ポリシーや一連のトラジェクトリから作業し、それを改善することができることです。
総括的な実験により,提案手法は予測コスト,CVaRコスト,さらには未知のコスト制約に対して,制約付きRL問題を解く上で,最上位のベンチマーク手法より優れていることを示した。
A popular framework for enforcing safe actions in Reinforcement Learning (RL) is Constrained RL, where trajectory based constraints on expected cost (or other cost measures) are employed to enforce safety and more importantly these constraints are enforced while maximizing expected reward. Most recent approaches for solving Constrained RL convert the trajectory based cost constraint into a surrogate problem that can be solved using minor modifications to RL methods. A key drawback with such approaches is an over or underestimation of the cost constraint at each state. Therefore, we provide an approach that does not modify the trajectory based cost constraint and instead imitates ``good'' trajectories and avoids ``bad'' trajectories generated from incrementally improving policies. We employ an oracle that utilizes a reward threshold (which is varied with learning) and the overall cost constraint to label trajectories as ``good'' or ``bad''. A key advantage of our approach is that we are able to work from any starting policy or set of trajectories and improve on it. In an exhaustive set of experiments, we demonstrate that our approach is able to outperform top benchmark approaches for solving Constrained RL problems, with respect to expected cost, CVaR cost, or even unknown cost constraints. | 翻訳日:2024-03-14 17:58:37 公開日:2024-03-13 |
# aの存在下での熱放射とナノ粒子の移動
シリンダー
Heat radiation and transfer for nanoparticles in the presence of a cylinder ( http://arxiv.org/abs/2312.09714v2 ) ライセンス: Link先を確認 | Kiryl Asheichyk, Matthias Kr\"uger | (参考訳) 電磁的グリーンテンソルに基づいて, 無限長の円柱の存在下でのナノ粒子の熱放射と放射熱伝達について検討した。
単一粒子の熱放射はナノワイヤに近接させて増強することができ、この増強は同一材料のプレートに近接させるよりもはるかに大きい。
シリンダーに沿った熱伝達は空の真空よりもはるかに遅く、完全な導電性ナノワイヤの場合特に長距離であり、SiCシリンダーの場合の非単調な挙動を示す。
ナノ粒子の相対方位角への依存性を調べると、結果は小さな角度に敏感であることがわかったが、材料によっては角度が大きくなると大きく異なる可能性がある。
最後に、シリンダーが粒子間距離線に垂直に配置された場合、同じ半径の球面の幾何学と比較して特にブロッキングが強く強化される場合、熱流束を増強または閉塞することができることを示す。
We study heat radiation and radiative heat transfer for nanoparticles in the presence of an infinitely long cylinder in different geometrical configurations, based on its electromagnetic Green's tensor. The heat radiation of a single particle can be enhanced by placing it close to a nanowire, and this enhancement can be much larger as compared to placing it close to a plate of the same material. The heat transfer along a cylinder decays much slower than through empty vacuum, being especially long-ranged in the case of a perfectly conducting nanowire, and showing nonmonotonic behavior in the case of a SiC cylinder. Exploring the dependence on the relative azimuthal angle of the nanoparticles, we find that the results are insensitive to small angles, but they can be drastically different when the angle is large, depending on the material. Finally, we demonstrate that a cylinder can either enhance or block the heat flux when placed perpendicular to the interparticle distance line, where the blocking in particular is strongly enhanced compared to the geometry of a sphere of same radius. | 翻訳日:2024-03-14 17:58:36 公開日:2024-03-13 |
# 継続的な敵防衛
Continual Adversarial Defense ( http://arxiv.org/abs/2312.09481v2 ) ライセンス: Link先を確認 | Qian Wang, Yaoyao Liu, Hefei Ling, Yingwei Li, Qihao Liu, Ping Li, Jiazhong Chen, Alan Yuille, Ning Yu | (参考訳) 視覚的分類器に対する敵の攻撃は、月々急速に進化しているため、可能な限り多くの既知の攻撃に対して、多くの防衛策が提案されている。
しかし、防衛システムが動作している環境は動的であり、時間とともに現れる様々なユニークな攻撃を含むため、あらゆる種類の攻撃に一般化する防衛手法を設計することは現実的ではない。
防衛システムは、効率のよいメモリ利用を生かして、迅速に自己向上するために、オンラインで数発の防衛フィードバックを収集する必要がある。
そこで本研究では,動的シナリオにおける攻撃に適応し,段階的に様々な攻撃が出現する,最初の連続的敵防衛(CAD)フレームワークを提案する。
CAD は,(1) 壊滅的忘れを伴わない新たな攻撃への連続的適応,(2) 少数ショット適応,(3) メモリ効率の適応,(4) クリーン画像と逆画像の両方において高い精度の 4 つの原理でモデル化されている。
最先端の継続的学習、少数ショット学習、およびアンサンブル学習技術を探求し、統合し、原則を立証する。
CIFAR-10とImageNet-100で行った実験は、現代の敵攻撃の複数段階に対するアプローチの有効性を検証し、多くのベースライン法よりも大幅に改善した。
特にCADは、従来の攻撃に対して優れた性能を維持しつつ、最小限のフィードバックと低コストの防衛失敗に迅速に適応することができる。
我々の研究は、動的および進化的攻撃に対する継続的な防御適応のための、新しいパラダイムに光を当てています。
In response to the rapidly evolving nature of adversarial attacks against visual classifiers on a monthly basis, numerous defenses have been proposed to generalize against as many known attacks as possible. However, designing a defense method that generalizes to all types of attacks is not realistic because the environment in which defense systems operate is dynamic and comprises various unique attacks that emerge as time goes on. The defense system must gather online few-shot defense feedback to promptly enhance itself, leveraging efficient memory utilization. Therefore, we propose the first continual adversarial defense (CAD) framework that adapts to any attacks in a dynamic scenario, where various attacks emerge stage by stage. In practice, CAD is modeled under four principles: (1) continual adaptation to new attacks without catastrophic forgetting, (2) few-shot adaptation, (3) memory-efficient adaptation, and (4) high accuracy on both clean and adversarial images. We explore and integrate cutting-edge continual learning, few-shot learning, and ensemble learning techniques to qualify the principles. Experiments conducted on CIFAR-10 and ImageNet-100 validate the effectiveness of our approach against multiple stages of modern adversarial attacks and demonstrate significant improvements over numerous baseline methods. In particular, CAD is capable of quickly adapting with minimal feedback and a low cost of defense failure, while maintaining good performance against previous attacks. Our research sheds light on a brand-new paradigm for continual defense adaptation against dynamic and evolving attacks. | 翻訳日:2024-03-14 17:58:36 公開日:2024-03-13 |
# 3次元原子システムのための幾何学的GNNのヒッチハイカーガイド
A Hitchhiker's Guide to Geometric GNNs for 3D Atomic Systems ( http://arxiv.org/abs/2312.07511v2 ) ライセンス: Link先を確認 | Alexandre Duval, Simon V. Mathis, Chaitanya K. Joshi, Victor Schmidt, Santiago Miret, Fragkiskos D. Malliaros, Taco Cohen, Pietro Li\`o, Yoshua Bengio and Michael Bronstein | (参考訳) 分子、タンパク質、材料にまたがる原子系の計算モデリングの最近の進歩は、これらを3次元ユークリッド空間のノードとして埋め込まれた原子を含む幾何学的グラフとして表現している。
これらのグラフでは、幾何学的属性は、ユークリッド空間における回転や変換やノード置換を含む3次元原子系の固有の物理対称性に従って変換される。
近年,タンパク質構造予測から分子シミュレーション,物質生成に至るまで,機械学習アーキテクチャが好まれている。
その特異性は、これらの幾何学グラフの情報表現を学ぶために、それらが利用する帰納的バイアス(物理対称性や化学的性質など)にある。
本稿では,3次元原子システムのための幾何学的GNNの分野について,包括的で自己完結した概要を述べる。
本稿では,(1)不変ネットワーク,(2)不変ネットワーク,(3)同変ネットワーク,(3)球面ネットワーク,(4)制約のないネットワークを包含する。
さらに、重要なデータセットと応用領域を概説し、今後の研究方向性を提案する。
本研究の目的は、その分野に関する構造化された視点を提示することであり、その数学的抽象化の直観を得るための新参者や実践者を支援することである。
Recent advances in computational modelling of atomic systems, spanning molecules, proteins, and materials, represent them as geometric graphs with atoms embedded as nodes in 3D Euclidean space. In these graphs, the geometric attributes transform according to the inherent physical symmetries of 3D atomic systems, including rotations and translations in Euclidean space, as well as node permutations. In recent years, Geometric Graph Neural Networks have emerged as the preferred machine learning architecture powering applications ranging from protein structure prediction to molecular simulations and material generation. Their specificity lies in the inductive biases they leverage - such as physical symmetries and chemical properties - to learn informative representations of these geometric graphs. In this opinionated paper, we provide a comprehensive and self-contained overview of the field of Geometric GNNs for 3D atomic systems. We cover fundamental background material and introduce a pedagogical taxonomy of Geometric GNN architectures: (1) invariant networks, (2) equivariant networks in Cartesian basis, (3) equivariant networks in spherical basis, and (4) unconstrained networks. Additionally, we outline key datasets and application areas and suggest future research directions. The objective of this work is to present a structured perspective on the field, making it accessible to newcomers and aiding practitioners in gaining an intuition for its mathematical abstractions. | 翻訳日:2024-03-14 17:58:35 公開日:2024-03-13 |
# 共焦点放物線に対するリップマン・シュウィンガー方程式の解
ビリヤード
Solutions of the Lippmann-Schwinger equation for confocal parabolic billiards ( http://arxiv.org/abs/2312.07396v2 ) ライセンス: Link先を確認 | Alberto Ruiz-Biestro, Julio C. Gutierrez-Vega | (参考訳) 共焦点放物型ビリヤードと様々な$\delta$型ポテンシャル強度関数を持つ放物型セグメントによって生成される散乱波動関数に対するリップマン・シュウィンガー方程式の解析的および数値解を提案する。
解析式は放物型シリンダー関数の積の和として表現される。
本研究では,共焦点放物型ビリヤードの共鳴とトンネルを,完全な内外画像を提供する正確な境界壁法を用いて数値的に検討する。
ビリヤードの放物的側面を識別するための基準を詳しく説明する。
ある種のエネルギーにおける透明性の現象について論じる。
We present analytical and numerical solutions of the Lippmann-Schwinger equation for the scattered wavefunctions generated by confocal parabolic billiards and parabolic segments with various $\delta$-type potential-strength functions. The analytical expressions are expressed as summations of products of parabolic cylinder functions $D_m$. We numerically investigate the resonances and tunneling in the confocal parabolic billiards by employing an accurate boundary wall method that provides a complete inside-outside picture. The criterion for discretizing the parabolic sides of the billiard is explained in detail. We discuss the phenomenon of transparency at certain eigenenergies. | 翻訳日:2024-03-14 17:58:35 公開日:2024-03-13 |
# KnowGPT:大規模言語モデルのための知識注入
KnowGPT: Knowledge Injection for Large Language Models ( http://arxiv.org/abs/2312.06185v4 ) ライセンス: Link先を確認 | Qinggang Zhang, Junnan Dong, Hao Chen, Daochen Zha, Zailiang Yu, Xiao Huang | (参考訳) ChatGPTのようなジェネレーティブ・大型言語モデル(LLM)は、人間-専門家レベルで一般的な質問に答える対話型APIを提供する。
しかしながら、これらのモデルは、トレーニングコーパスにカバーされていないドメイン固有の知識や専門的な知識を必要とする質問に直面した時に、不正確な、または不正確な応答を与えることが多い。
さらに、最先端のLLMの多くはオープンソースではないため、モデルAPIでのみ知識を注入することは困難である。
本研究では,LLMのためのブラックボックス知識注入フレームワークであるKnowGPTを紹介する。
KnowGPTは、深い強化学習(RL)を活用して知識グラフ(KGs)から関連する知識を抽出し、マルチアーメッド帯域(MAB)を使用して各質問に最も適したプロンプトを構築する。
3つのベンチマークデータセットに関する広範な実験により、KnowGPTは既存の手法を大幅に強化することを示した。
特に、KnowGPTはChatGPTよりも平均23.7%改善し、GPT-4より平均2.9%改善した。
さらに、KnowGPTはOpenbookQAの公式リーダーボードで91.6%の精度を達成している。
Generative Large Language Models (LLMs), such as ChatGPT, offer interactive APIs that can answer common questions at a human-expert level. However, these models often give inaccurate or incorrect responses when faced with questions requiring domain-specific or professional-specific knowledge not covered in their training corpus. Furthermore, many state-of-the-art LLMs are not open-source, making it challenging to inject knowledge with model APIs only. In this work, we introduce KnowGPT, a black-box knowledge injection framework for LLMs in question answering. KnowGPT leverages deep reinforcement learning (RL) to extract relevant knowledge from Knowledge Graphs (KGs) and use Multi-Armed Bandit (MAB) to construct the most suitable prompt for each question. Our extensive experiments on three benchmark datasets showcase that KnowGPT significantly enhances the existing methods. Notably, KnowGPT achieves an average improvement of 23.7% over ChatGPT and an average improvement of 2.9% over GPT-4. Additionally, KnowGPT attains a 91.6% accuracy on the OpenbookQA official leaderboard, which is comparable to human-level performance. | 翻訳日:2024-03-14 17:58:34 公開日:2024-03-13 |
# プライバシ攻撃におけるグラディエントと優先事項の超越 - プールレイヤの活用
フェデレーション学習における言語モデルの入力
Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning ( http://arxiv.org/abs/2312.05720v3 ) ライセンス: Link先を確認 | Jianwei Li, Sheng Liu, Qi Lei | (参考訳) FL(Federated Learning)を通じてトレーニングされた言語モデルは、ユーザのプライバシ保護による複雑なタスクの処理において、優れた機能を示している。
近年の研究では、勾配情報と事前知識を活用することで、FL設定内のトレーニングサンプルが明らかになる可能性が示唆されている。
しかし、これらの調査は、モデル固有のアーキテクチャに関連する潜在的なプライバシーリスクを見落としている。
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙った2段階のプライバシ攻撃戦略を提案する。
比較実験では、さまざまなデータセットやシナリオに対して優れた攻撃性能を示し、言語モデルの複雑化に伴うプライバシリークのリスクを強調した。
私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
Language models trained via federated learning (FL) demonstrate impressive capabilities in handling complex tasks while protecting user privacy. Recent studies indicate that leveraging gradient information and prior knowledge can potentially reveal training samples within FL setting. However, these investigations have overlooked the potential privacy risks tied to the intrinsic architecture of the models. This paper presents a two-stage privacy attack strategy that targets the vulnerabilities in the architecture of contemporary language models, significantly enhancing attack performance by initially recovering certain feature directions as additional supervisory signals. Our comparative experiments demonstrate superior attack performance across various datasets and scenarios, highlighting the privacy leakage risk associated with the increasingly complex architectures of language models. We call for the community to recognize and address these potential privacy risks in designing large language models. | 翻訳日:2024-03-14 17:58:34 公開日:2024-03-13 |
# 圧電現象における量子伝達の最適化原理
システム
Principles for Optimizing Quantum Transduction in Piezo-Optomechanical Systems ( http://arxiv.org/abs/2312.04673v2 ) ライセンス: Link先を確認 | James Schneeloch, Erin Sheridan, A. Matthew Smith, Christopher C. Tison, Daniel L. Campbell, Matthew D. LaHaye, Michael L. Fanto, and Paul M. Alsing | (参考訳) 双方向マイクロ波光量子トランスダクションは、遠方の超伝導量子ビットを光ファイバーで接続し、大規模に量子ネットワークを実現するために必須の能力である。
Bl\'esin, Tian, Bhave, and Kippenberg's article, '`Quantum coherentwave-optical transduction using high overtone bulk acoustic resonances" (Phys)。
A, 104, 052601 (2021) は、マイクロ波光子をGHzスケールのフォノンに変換するための圧電相互作用と、隣接するテレコムバンドのトーンにセットされたポンプレーザーを用いてこれらのフォノンをテレコムバンド光子に変換するための光学的相互作用を組み合わせた量子トランスダクションシステムを構築した。
本研究では,これらの結合相互作用を第一原理から議論し,この新プラットフォームのトランスダクション効率を決定する上で,デバイスパラメータが最も重要であるかを明らかにするとともに,ニアユニティトランスダクション効率に対するシステム最適化に向けた戦略と,ノイズがトランスダクションプロセスに与える影響について論じる。
さらに, フォノン-光子4光波混合を用いた新しい光力学的結合機構の提案と, その熱力学的結合を高次電気収縮に繋げることで, 古典的に明るいポンプから光子の単一光子を数GHz離れた周波数で分離するという, トランスダクション後の課題に対処する。
このプロセスは、個々のポンプ光子の代わりにペアを消費することでトランスダクションを駆動するが、古典的に明るいポンプからトランスダクションされた光をきれいに分離することができる。
Two-way microwave-optical quantum transduction is an essential capability to connect distant superconducting qubits via optical fiber, and to enable quantum networking at a large scale. In Bl\'esin, Tian, Bhave, and Kippenberg's article, ``Quantum coherent microwave-optical transduction using high overtone bulk acoustic resonances" (Phys. Rev. A, 104, 052601 (2021)), they lay out a quantum transduction system that accomplishes this by combining a piezoelectric interaction to convert microwave photons to GHz-scale phonons, and an optomechanical interaction to up-convert those phonons into telecom-band photons using a pump laser set to an adjacent telecom-band tone. In this work, we discuss these coupling interactions from first principles in order to discover what device parameters matter most in determining the transduction efficiency of this new platform, and to discuss strategies toward system optimization for near-unity transduction efficiency, as well as how noise impacts the transduction process. In addition, we address the post-transduction challenge of separating single photons of the transduced light from a classically bright pump only a few GHz away in frequency by proposing a novel optomechanical coupling mechanism using phonon-photon four-wave mixing via stress-induced optical nonlinearity and its thermodynamic connection to higher-orders of electrostriction. Where this process drives transduction by consuming pairs instead of individual pump photons, it will allow a clean separation of the transduced light from the classically bright pump driving the transduction process. | 翻訳日:2024-03-14 17:58:33 公開日:2024-03-13 |
# TimeDRL:多変量のためのアンタングル表現学習
時系列
TimeDRL: Disentangled Representation Learning for Multivariate Time-Series ( http://arxiv.org/abs/2312.04142v2 ) ライセンス: Link先を確認 | Ching Chang, Chiao-Tung Chan, Wei-Yao Wang, Wen-Chih Peng, Tien-Fu Chen | (参考訳) 多くの実世界のアプリケーション(例えば医療や産業)における多変量時系列データは、ラベルの欠如と高次元性のために有益だが困難である。
自己教師型学習における近年の研究は、ラベルに頼らずに豊かな表現を学習する可能性を示しているが、非絡み合いの埋め込みを学習し、帰納的バイアス(例えば変換不変性)の問題に対処するには不十分である。
このような課題に対処するために,二値埋め込みを用いた汎用多変量時系列表現学習フレームワークであるTimeDRLを提案する。
TimeDRLには3つの新しい特徴がある。
i)[CLS]トークン戦略を用いたパッチされた時系列データからタイムスタンプレベル及びインスタンスレベルの埋め込みをアンタングル的に導出すること。
二 前者は予測損失を伴うタイムスタンプレベルの埋め込みを最適化し、後者は比較損失を伴うインスタンスレベルの埋め込みを最適化する。
(3)作付けやマスキングによる形質転換不変性などの帰納バイアスを除去するための増進手法の回避。
6つの時系列予測データセットと5つの時系列分類データセットに関する総合的な実験は、TimeDRLが既存の表現学習アプローチを一貫して上回り、MSEでは58.02%、精度では1.48%の平均的な予測改善を達成することを示した。
さらに、広範囲にわたるアブレーション研究により、TimeDRLのアーキテクチャにおける各コンポーネントの相対的寄与が確認され、半教師付き学習評価により、ラベル付きデータであっても実世界のシナリオにおいてその効果が示された。
コードはhttps://github.com/blacksnail789521/TimeDRLで公開されている。
Multivariate time-series data in numerous real-world applications (e.g., healthcare and industry) are informative but challenging due to the lack of labels and high dimensionality. Recent studies in self-supervised learning have shown their potential in learning rich representations without relying on labels, yet they fall short in learning disentangled embeddings and addressing issues of inductive bias (e.g., transformation-invariance). To tackle these challenges, we propose TimeDRL, a generic multivariate time-series representation learning framework with disentangled dual-level embeddings. TimeDRL is characterized by three novel features: (i) disentangled derivation of timestamp-level and instance-level embeddings from patched time-series data using a [CLS] token strategy; (ii) utilization of timestamp-predictive and instance-contrastive tasks for disentangled representation learning, with the former optimizing timestamp-level embeddings with predictive loss, and the latter optimizing instance-level embeddings with contrastive loss; and (iii) avoidance of augmentation methods to eliminate inductive biases, such as transformation-invariance from cropping and masking. Comprehensive experiments on 6 time-series forecasting datasets and 5 time-series classification datasets have shown that TimeDRL consistently surpasses existing representation learning approaches, achieving an average improvement of forecasting by 58.02% in MSE and classification by 1.48% in accuracy. Furthermore, extensive ablation studies confirmed the relative contribution of each component in TimeDRL's architecture, and semi-supervised learning evaluations demonstrated its effectiveness in real-world scenarios, even with limited labeled data. The code is available at https://github.com/blacksnail789521/TimeDRL. | 翻訳日:2024-03-14 17:58:32 公開日:2024-03-13 |
# Dr. JekyllとMr. Hyde: LLMの2つの顔
Dr. Jekyll and Mr. Hyde: Two Faces of LLMs ( http://arxiv.org/abs/2312.03853v2 ) ライセンス: Link先を確認 | Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek | (参考訳) わずか1年前、チャットボットアシスタントのようなアプリケーションと組み合わせることで、LLM(Large Language Models)の利用が増加したのを目撃しました。
これらのアシスタントからの不適切な応答を防止するため、安全機構と特別な訓練手順が実施されている。
本研究は,ChatGPTとBard(ある程度はBingチャット)に対するこれらの対策を回避し,それらが想定される真正なアシスタントと反対の性格を持つ複雑なペルソナを対人化させることによって実現した。
まず、これらのペルソナの精巧な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。
私たちの会話は、アシスタントが提供できない応答を得るためにロールプレイスタイルに従いました。
ペルソナを利用することで、禁止されている応答が実際に提供され、不正、違法、有害な情報を得ることができることを示す。
この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
我々はまた、このような敵対的なペルソナを活性化する方法をいくつか導入し、両方のチャットボットがこの種の攻撃に対して脆弱であることを示す。
同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。
Only a year ago, we witnessed a rise in the use of Large Language Models (LLMs), especially when combined with applications like chatbot assistants. Safety mechanisms and specialized training procedures are implemented to prevent improper responses from these assistants. In this work, we bypass these measures for ChatGPT and Bard (and, to some extent, Bing chat) by making them impersonate complex personas with opposite characteristics as those of the truthful assistants they are supposed to be. We start by creating elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversation followed a role-play style to get the response the assistant was not allowed to provide. By making use of personas, we show that the response that is prohibited is actually provided, making it possible to obtain unauthorized, illegal, or harmful information. This work shows that by using adversarial personas, one can overcome safety mechanisms set out by ChatGPT and Bard. We also introduce several ways of activating such adversarial personas, altogether showing that both chatbots are vulnerable to this kind of attack. With the same principle, we introduce two defenses that push the model to interpret trustworthy personalities and make it more robust against such attacks. | 翻訳日:2024-03-14 17:58:31 公開日:2024-03-13 |
# 非条件生成の返却:自己教師型表現
生成方法
Return of Unconditional Generation: A Self-supervised Representation Generation Method ( http://arxiv.org/abs/2312.03701v3 ) ライセンス: Link先を確認 | Tianhong Li, Dina Katabi, Kaiming He | (参考訳) 無条件生成 -- 人間のアノテートラベルを頼らずにデータ分散をモデル化する問題 -- は、生成モデルにおける長年の根本的な課題であり、大規模にラベル付けされていないデータから学習する可能性を生み出している。
文献では、非条件法の生成品質は条件法よりもはるかに悪くなっている。
このギャップはラベルが提供する意味情報の欠如に起因する可能性がある。
本研究では,自己教師型エンコーダによって生成された表現空間における意味表現を生成することにより,このギャップを埋めることができることを示す。
これらの表現は、イメージジェネレータの条件付けに使用することができる。
このフレームワークはRepresentation-Conditioned Generation (RCG)と呼ばれ、ラベルを使わずに無条件生成問題に対する効果的な解決策を提供する。
例えば、ImageNet 256x256上で2.15の新たな最先端FIDを実現し、以前の5.91のベストを相対64%削減する。
我々の無条件の結果は、主要なクラス条件の結果と同じ階層にある。
これらの奨励的な観察が、無条件発生の根本的な問題にコミュニティの注意を引き付けることを願っている。
コードはhttps://github.com/LTH14/rcg.comで入手できる。
Unconditional generation -- the problem of modeling data distribution without relying on human-annotated labels -- is a long-standing and fundamental challenge in generative models, creating a potential of learning from large-scale unlabeled data. In the literature, the generation quality of an unconditional method has been much worse than that of its conditional counterpart. This gap can be attributed to the lack of semantic information provided by labels. In this work, we show that one can close this gap by generating semantic representations in the representation space produced by a self-supervised encoder. These representations can be used to condition the image generator. This framework, called Representation-Conditioned Generation (RCG), provides an effective solution to the unconditional generation problem without using labels. Through comprehensive experiments, we observe that RCG significantly improves unconditional generation quality: e.g., it achieves a new state-of-the-art FID of 2.15 on ImageNet 256x256, largely reducing the previous best of 5.91 by a relative 64%. Our unconditional results are situated in the same tier as the leading class-conditional ones. We hope these encouraging observations will attract the community's attention to the fundamental problem of unconditional generation. Code is available at https://github.com/LTH14/rcg. | 翻訳日:2024-03-14 17:58:30 公開日:2024-03-13 |
# 分子動力学によるビトリマーポリマーの逆設計
生成モデリング
Inverse Design of Vitrimeric Polymers by Molecular Dynamics and Generative Modeling ( http://arxiv.org/abs/2312.03690v2 ) ライセンス: Link先を確認 | Yiwen Zheng, Prakash Thakolkaran, Jake A. Smith, Ziheng Lu, Shuxin Zheng, Bichlien H. Nguyen, Siddhant Kumar, Aniruddh Vashisth | (参考訳) ビトリマー(Vitrimer)は、動的に共有された適応ネットワークを再構成することで自己修復する能力を持つ、持続可能なポリマーの新しいクラスである。
しかしながら、構成分子の限られた選択は、それらの性質空間を制限し、それらの潜在的な応用の完全な実現を禁止している。
分子動力学(MD)シミュレーションと機械学習(ML)、特に新しいグラフ変分オートエンコーダ(VAE)モデルを組み合わせることで、新しいビトリマーを生成し、所望のガラス転移温度(Tg)に基づいてその逆設計を導く方法を確立した。
我々は,100万のビトリマーの最初のデータセットを構築し,その内8,424個のTgをガウス過程モデルでキャリブレーションした高スループットMDシミュレーションにより計算する。
提案したVAEは、二重グラフエンコーダと、多成分ビトリマーの個々の表現を可能にする潜在次元オーバーラップ方式を用いている。
ウィトリマーの必要な情報を含む連続潜伏空間を構築することにより、トレーニング体制を超えて望ましいTgを持つ新しいヴィトリマーを発見するための枠組みの精度と効率性を実証する。
合理的な合成性を持つビトリマーは、広範囲のTgをカバーし、ヴィトリマー材料の潜在的使用範囲を広げる。
Vitrimer is a new class of sustainable polymers with the ability of self-healing through rearrangement of dynamic covalent adaptive networks. However, a limited choice of constituent molecules restricts their property space, prohibiting full realization of their potential applications. Through a combination of molecular dynamics (MD) simulations and machine learning (ML), particularly a novel graph variational autoencoder (VAE) model, we establish a method for generating novel vitrimers and guide their inverse design based on desired glass transition temperature (Tg). We build the first vitrimer dataset of one million and calculate Tg on 8,424 of them by high-throughput MD simulations calibrated by a Gaussian process model. The proposed VAE employs dual graph encoders and a latent dimension overlapping scheme which allows for individual representation of multi-component vitrimers. By constructing a continuous latent space containing necessary information of vitrimers, we demonstrate high accuracy and efficiency of our framework in discovering novel vitrimers with desirable Tg beyond the training regime. The proposed vitrimers with reasonable synthesizability cover a wide range of Tg and broaden the potential widespread usage of vitrimeric materials. | 翻訳日:2024-03-14 17:58:30 公開日:2024-03-13 |
# DiffPMAE: ポイントクラウド再構築のための拡散マスク付きオートエンコーダ
DiffPMAE: Diffusion Masked Autoencoders for Point Cloud Reconstruction ( http://arxiv.org/abs/2312.03298v2 ) ライセンス: Link先を確認 | Yanlong Li and Chamara Madarasingha and Kanchana Thilakarathna | (参考訳) ポイントクラウドストリーミングは、インタラクティブなサービスデリバリと将来のMetaverseの標準へと進化し、ますます人気が高まっている。
しかし、ポイントクラウドに関連する膨大な量のデータは、特に高帯域消費と大容量ストレージ容量の観点から、多くの課題を呈している。
これまでに提案された様々なソリューションは、ポイントクラウド圧縮、アップサンプリング、および完了に重点を置いているが、これらの再構成関連手法は、高忠実度ポイントクラウド出力の提供において不足している。
解決策として、DiffPMAEでは、効率的なポイントクラウド再構築アーキテクチャを提案する。
自己教師型学習の概念にヒントを得て,Masked Auto-Encoding と Diffusion Model のメカニズムを組み合わせることで,ポイントクラウドデータのリモート再構成を行う。
この再構成プロセスの性質により、DiffPMAEはポイントクラウド圧縮、アップサンプリング、完了を含む多くの関連する下流タスクに拡張できる。
6万以上のオブジェクトでShapeNet-55およびModelNetデータセットを活用することで、DiffPMAEの性能が、検討された自動エンコーディングおよびダウンストリームタスクの短期的な多くの最先端メソッドを上回ることを検証する。
Point cloud streaming is increasingly getting popular, evolving into the norm for interactive service delivery and the future Metaverse. However, the substantial volume of data associated with point clouds presents numerous challenges, particularly in terms of high bandwidth consumption and large storage capacity. Despite various solutions proposed thus far, with a focus on point cloud compression, upsampling, and completion, these reconstruction-related methods continue to fall short in delivering high fidelity point cloud output. As a solution, in DiffPMAE, we propose an effective point cloud reconstruction architecture. Inspired by self-supervised learning concepts, we combine Masked Auto-Encoding and Diffusion Model mechanism to remotely reconstruct point cloud data. By the nature of this reconstruction process, DiffPMAE can be extended to many related downstream tasks including point cloud compression, upsampling and completion. Leveraging ShapeNet-55 and ModelNet datasets with over 60000 objects, we validate the performance of DiffPMAE exceeding many state-of-the-art methods in-terms of auto-encoding and downstream tasks considered. | 翻訳日:2024-03-14 17:58:29 公開日:2024-03-13 |
# Jellyfish: データ前処理のための大規模言語モデル
Jellyfish: A Large Language Model for Data Preprocessing ( http://arxiv.org/abs/2312.01678v4 ) ライセンス: Link先を確認 | Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada | (参考訳) 本稿では,データマイニングパイプラインにおける重要なステップであるデータ前処理(DP)におけるLCMの利用について検討する。
LLMの使用はDPに対する普遍的なソリューション開発への関心を喚起しているが、この領域における最近の取り組みは一般的にGPT APIに依存しており、必然的なデータ漏洩の懸念を提起している。
これらの手法と異なり、命令調整ローカルLLM (7-13Bモデル) をユニバーサルDP問合せ問題として検討する。
本研究では,4つのDPタスクにまたがるデータセットの集合を選択し,DPに適した直列化と知識注入技術を用いて命令調整データを構築する。
そのため、命令調整されたLLMは、DPの命令を手作業で作成することを可能にする。
一方、ローカル、シングル、低価格のGPUで運用でき、データのセキュリティを確保し、さらなるチューニングを可能にする。
実験の結果, DP 指導のためのデータセットである Jellyfish は LLM のDP 性能を効果的に向上し, NLP タスクにおけるその能力をほとんど損なわないことがわかった。
Mistral-7B と OpenOrca-Platypus2-13B を Jellyfish にチューニングすることで、このモデルは最先端のDPメソッドと比較して競争力を提供し、目に見えないタスクに対して強力な一般化性を提供する。
モデルの性能はGPTシリーズモデルに匹敵し、解釈はGPT-3.5に比べて推論能力が向上した。
https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B
This paper explores the utilization of LLMs for data preprocessing (DP), a crucial step in the data mining pipeline that transforms raw data into a clean format conducive to easy processing. Whereas the use of LLMs has sparked interest in devising universal solutions to DP, recent initiatives in this domain typically rely on GPT APIs, raising inevitable data breach concerns. Unlike these approaches, we consider instruction-tuning local LLMs (7 - 13B models) as universal DP ask solver. We select a collection of datasets across four representative DP tasks and construct instruction-tuning data using serialization and knowledge injection techniques tailored to DP. As such, the instruction-tuned LLMs empower users to manually craft instructions for DP. Meanwhile, they can operate on a local, single, and low-priced GPU, ensuring data security and enabling further tuning. Our experiments show that our dataset constructed for DP instruction tuning, namely Jellyfish, effectively enhances LLMs' DP performances and barely compromises their abilities in NLP tasks. By tuning Mistral-7B and OpenOrca-Platypus2-13B with Jellyfish, the models deliver competitiveness compared to state-of-the-art DP methods and strong generalizability to unseen tasks. The models' performance rivals that of GPT series models, and the interpretation offers enhanced reasoning capabilities compared to GPT-3.5. The 7B and 13B Jellyfish models are available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B | 翻訳日:2024-03-14 17:58:29 公開日:2024-03-13 |
# メソスコピックにおける古典的周期軌道に類似した量子状態
楕円ビリヤード
Quantum states resembling classical periodic trajectories in mesoscopic elliptic billiards ( http://arxiv.org/abs/2312.00954v2 ) ライセンス: Link先を確認 | Jesus G. Riestra and Julio C. Gutierrez-Vega | (参考訳) メソスコピック楕円ビリヤードにおける古典周期軌道上の局在を伴う量子波動関数は、マチュー関数の積として表されるほとんど退化した固有状態を適切に重ね合わせることで達成されている。
楕円ビリヤードにおける運動の回転状態とリリレーショナル状態を分析し,議論する。
古典的軌跡に対応する単純な直線方程式は、角的マチュー関数を含む積分方程式として量子状態から抽出することができる。
積分に現れる位相因子は、古典的な初期位置と速度成分に接続されている。
我々は、周期軌道量子状態の確率電流密度、位相マップ、渦分布を回転運動とリボレーション運動の両方に対して解析する。
A quantum wave function with localization on classical periodic orbits in a mesoscopic elliptic billiard has been achieved by appropriately superposing nearly degenerate eigenstates expressed as products of Mathieu functions. We analyze and discuss the rotational and librational regimes of motion in the elliptic billiard. Simplified line equations corresponding to the classical trajectories can be extracted from the quantum state as an integral equation involving angular Mathieu functions. The phase factors appearing in the integrals are connected to the classical initial positions and velocity components. We analyze the probability current density, the phase maps, and the vortex distributions of the periodic orbit quantum states for both rotational and librational motions; furthermore, they may represent traveling and standing trajectories inside the elliptic billiard. | 翻訳日:2024-03-14 17:58:28 公開日:2024-03-13 |
# MLLMによる視覚言語表現学習
MLLMs-Augmented Visual-Language Representation Learning ( http://arxiv.org/abs/2311.18765v3 ) ライセンス: Link先を確認 | Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang and Yang You | (参考訳) 視覚言語による事前学習は多くのマルチモーダルタスクで顕著な成功を収めた。
本研究では,マルチモーダル大規模言語モデル (MLLM) が画像テキストデータセットに対してよりリッチな画像テキストアソシエーションを確立することにより,視覚言語表現の学習を向上させることを実証する。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
MLLMの幻覚や単調な言語スタイルによってもたらされるバイアスを回避するため,拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
画像テキスト検索では、追加のトレーニングコストを導入することなく、5.6 ~ 35.0 および16.8 ~ 46.1 の改善を Recall@1 の微調整およびゼロショット設定で連続的に得る。
特に、ターゲットデータセットの微調整に匹敵するゼロショット結果が得られ、MLLMの多目的利用のさらなる探索が促進される。
Visual-language pre-training has achieved remarkable success in many multi-modal tasks, largely attributed to the availability of large-scale image-text datasets. In this work, we demonstrate that Multi-modal Large Language Models (MLLMs) can enhance visual-language representation learning by establishing richer image-text associations for image-text datasets. Our approach is simple, utilizing MLLMs to extend multiple diverse captions for each image. To prevent the bias introduced by MLLMs' hallucinations and monotonous language styles, we propose "text shearing" to maintain the quality and availability of extended captions. In image-text retrieval, without introducing additional training cost, our method consistently obtains 5.6 ~ 35.0 and 16.8 ~ 46.1 improvement on Recall@1 under the fine-tuning and zero-shot settings, respectively. Notably, we obtain zero-shot results that are comparable to fine-tuning on target datasets, which encourages more exploration of the versatile use of MLLMs. | 翻訳日:2024-03-14 17:58:27 公開日:2024-03-13 |
# TCP:Visual-Language Modelのためのテキストベースのクラスアウェア・プロンプトチューニング
TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model ( http://arxiv.org/abs/2311.18231v2 ) ライセンス: Link先を確認 | Hantao Yao, Rui Zhang, Changsheng Xu | (参考訳) プロンプトチューニングは、様々な下流タスクに事前訓練された視覚言語モデル(VLM)を適用するための貴重なテクニックである。
CoOpベースの手法の最近の進歩は、タスク固有のテキスト分類器の生成を容易にするために、学習可能なドメイン共有または画像条件付きテキストトークンのセットを提案する。
しかし、これらのテキストトークンはテストクラスの分布に動的に適応できないため、未確認領域に関する限定的な一般化能力を有する。
この問題に対処するために,テキストベースのクラスアウェア・プロンプト・チューニング(TCP)を提案する。
TCPの批判的な概念は、テキスト知識埋め込み(TKE)を活用して、クラスレベルのテキスト知識をクラス対応のテキストトークンにマップすることである。
これらのクラス認識プロンプトをText Encoderにシームレスに統合することにより、動的クラス認識分類器が生成され、目に見えないドメインの識別性を高める。
推論中、TKEは目に見えないクラスに関連するクラス認識プロンプトを動的に生成する。
包括的評価は、TKEが既存のメソッドとシームレスに結合可能なプラグイン・アンド・プレイモジュールとして機能することを示している。
さらに、TCPはトレーニング時間の短縮を要求しつつ、優れたパフォーマンスを継続的に達成している。
コード:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning/
Prompt tuning represents a valuable technique for adapting pre-trained visual-language models (VLM) to various downstream tasks. Recent advancements in CoOp-based methods propose a set of learnable domain-shared or image-conditional textual tokens to facilitate the generation of task-specific textual classifiers. However, those textual tokens have a limited generalization ability regarding unseen domains, as they cannot dynamically adjust to the distribution of testing classes. To tackle this issue, we present a novel Textual-based Class-aware Prompt tuning(TCP) that explicitly incorporates prior knowledge about classes to enhance their discriminability. The critical concept of TCP involves leveraging Textual Knowledge Embedding (TKE) to map the high generalizability of class-level textual knowledge into class-aware textual tokens. By seamlessly integrating these class-aware prompts into the Text Encoder, a dynamic class-aware classifier is generated to enhance discriminability for unseen domains. During inference, TKE dynamically generates class-aware prompts related to the unseen classes. Comprehensive evaluations demonstrate that TKE serves as a plug-and-play module effortlessly combinable with existing methods. Furthermore, TCP consistently achieves superior performance while demanding less training time. Code:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning/ | 翻訳日:2024-03-14 17:58:27 公開日:2024-03-13 |
# DPOD:マルチモーダルフェイクニュース検出のためのドメイン特化プロンプトチューニング
DPOD: Domain-Specific Prompt Tuning for Multimodal Fake News Detection ( http://arxiv.org/abs/2311.16496v3 ) ライセンス: Link先を確認 | Debarshi Brahma, Amartya Bhattacharya, Suraj Nagaje Mahadev, Anmol Asati, Vikas Verma, Soma Biswas | (参考訳) 文脈外画像を用いたフェイクニュースの普及は、情報過負荷の時代において問題となっている。
このような言葉から外れたフェイクニュースは、政治、スポーツ、エンターテイメントなど、さまざまな分野にまたがる可能性がある。
現実的なシナリオでは、このような広範囲にわたるドメインのニュース記事の間に固有の不均衡の問題は存在し、結果として、豊富なデータを持つドメインがいくつか存在する一方で、残りは極めて限られたデータを含んでいる。
このような状況下では、このような多様なデータ設定で機能する手法を開発することが不可欠である。
本研究では,この課題に対処するために,ドメイン外データが所望のドメインのコンテキスト外誤情報検出(ここではマルチモーダルフェイクニュース検出と定義する)の改善に役立つかどうかを検討する。
そこで本研究では,DPOD(Domain-specific Prompt-tuning using Out-of-Domain data)と呼ばれる新しいフレームワークを提案する。
まず、一般化可能な特徴を計算するために、視覚言語モデルであるCLIPを修正し、画像の表現と、ドメイン内およびドメイン外データの対応するテキストキャプションをラベル認識方式で整列させる特徴を抽出する。
さらに,各ドメインが望むドメインにどの程度役立つかに基づいて,利用可能なすべてのドメインのトレーニングサンプルを活用する,ドメイン固有のプロンプト学習手法を提案する。
大規模なベンチマークデータセット、すなわちNewsCLIPpingsでの大規模な実験により、提案したフレームワークが最先端のパフォーマンスを達成し、この課題に対する既存のアプローチを大幅に上回っていることが示された。
コードは受理時にリリースされる。
The spread of fake news using out-of-context images has become widespread and is a relevant problem in this era of information overload. Such out-of-context fake news may arise across different domains like politics, sports, entertainment, etc. In practical scenarios, an inherent problem of imbalance exists among news articles from such widely varying domains, resulting in a few domains with abundant data, while the rest containing very limited data. Under such circumstances, it is imperative to develop methods which can work in such varying amounts of data setting. In this work, we explore whether out-of-domain data can help to improve out-of-context misinformation detection (termed here as multi-modal fake news detection) of a desired domain, to address this challenging problem. Towards this goal, we propose a novel framework termed DPOD (Domain-specific Prompt-tuning using Out-of-Domain data). First, to compute generalizable features, we modify the Vision-Language Model, CLIP to extract features that helps to align the representations of the images and corresponding text captions of both the in-domain and out-of-domain data in a label-aware manner. Further, we propose a domain-specific prompt learning technique which leverages the training samples of all the available domains based on the extent they can be useful to the desired domain. Extensive experiments on a large-scale benchmark dataset, namely NewsCLIPpings demonstrate that the proposed framework achieves state of-the-art performance, significantly surpassing the existing approaches for this challenging task. Code will be released on acceptance. | 翻訳日:2024-03-14 17:58:26 公開日:2024-03-13 |
# ArGue: ビジョンランゲージモデルのための属性ガイド型プロンプトチューニング
ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2311.16494v2 ) ライセンス: Link先を確認 | Xinyu Tian, Shu Zou, Zhaoyuan Yang, Jing Zhang | (参考訳) ソフトプロンプトチューニングは、下流タスクに対するビジョン・ランゲージ(V&L)モデルを効率的に適応するのに有効であるが、分散シフトを扱う際の限界を示す。
私たちはAttribute-Guided Prompt Tuning(ArGue)でこの問題に対処し、3つの重要なコントリビューションを行います。
1) クラス名に先行するソフトプロンプトを直接付加する従来のアプローチとは対照的に,大言語モデル(LLM)によって生成された原始的な視覚特性とモデルを一致させる。
モデルがこれらの属性に高い信頼を表現できる能力は、正しいクラス論理を識別する能力を示していると仮定する。
2)不利な属性を除去するために属性サンプリングを導入し,意味的に意味のある属性のみが保存される。
3) 負のプロンプト, クラスに依存しない属性を明示的に列挙して刺激的相関を活性化し, モデルがこれらの負の特徴に関して高い直交確率分布を生成することを奨励する。
実験において,本手法は,新しいクラス予測とアウト・オブ・ディストリビューション一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。
Although soft prompt tuning is effective in efficiently adapting Vision-Language (V&L) models for downstream tasks, it shows limitations in dealing with distribution shifts. We address this issue with Attribute-Guided Prompt Tuning (ArGue), making three key contributions. 1) In contrast to the conventional approach of directly appending soft prompts preceding class names, we align the model with primitive visual attributes generated by Large Language Models (LLMs). We posit that a model's ability to express high confidence in these attributes signifies its capacity to discern the correct class rationales. 2) We introduce attribute sampling to eliminate disadvantageous attributes, thus only semantically meaningful attributes are preserved. 3) We propose negative prompting, explicitly enumerating class-agnostic attributes to activate spurious correlations and encourage the model to generate highly orthogonal probability distributions in relation to these negative features. In experiments, our method significantly outperforms current state-of-the-art prompt tuning methods on both novel class prediction and out-of-distribution generalization tasks. | 翻訳日:2024-03-14 17:58:25 公開日:2024-03-13 |
# 局所曲率プロファイルによる効率的な構造符号化
Effective Structural Encodings via Local Curvature Profiles ( http://arxiv.org/abs/2311.14864v2 ) ライセンス: Link先を確認 | Lukas Fesser, Melanie Weber | (参考訳) 構造的および位置的エンコーディングは、下流タスクにおけるグラフニューラルネットワークの性能を著しく向上させることができる。
最近の文献は、これらの手法が符号化する構造的特性の違いと、それらの間の性能的トレードオフを体系的に研究し始めている。
しかし、どの構造特性が最も効果的な符号化をもたらすかという問題は未解決のままである。
本稿では,この問題を幾何学的観点から検討する。
本稿では,離散リッチ曲率(局所曲率プロファイル,短いLCP)に基づく構造符号化を提案する。
さらに,LCPなどの局所的構造符号化とグローバルな位置符号化を組み合わせることにより,下流の性能が向上し,相補的な幾何学的情報を取得することが示唆された。
最後に、異なるエンコーディングタイプと(曲率に基づく)再配線技術を比較した。
オーバースムーシングとオーバースキャッシングの効果を緩和することにより、グラフニューラルネットワークのパフォーマンスを向上させる能力によって、リワイアは近年、関心の高まりを見せている。
構造符号化における曲率情報の利用は、再配線よりもはるかに大きな性能向上をもたらすことが示唆された。
Structural and Positional Encodings can significantly improve the performance of Graph Neural Networks in downstream tasks. Recent literature has begun to systematically investigate differences in the structural properties that these approaches encode, as well as performance trade-offs between them. However, the question of which structural properties yield the most effective encoding remains open. In this paper, we investigate this question from a geometric perspective. We propose a novel structural encoding based on discrete Ricci curvature (Local Curvature Profiles, short LCP) and show that it significantly outperforms existing encoding approaches. We further show that combining local structural encodings, such as LCP, with global positional encodings improves downstream performance, suggesting that they capture complementary geometric information. Finally, we compare different encoding types with (curvature-based) rewiring techniques. Rewiring has recently received a surge of interest due to its ability to improve the performance of Graph Neural Networks by mitigating over-smoothing and over-squashing effects. Our results suggest that utilizing curvature information for structural encodings delivers significantly larger performance increases than rewiring. | 翻訳日:2024-03-14 17:58:24 公開日:2024-03-13 |
# ジェネレーティブ医療画像評価のための特徴抽出
進化する傾向に対する証拠
Feature Extraction for Generative Medical Imaging Evaluation: New Evidence Against an Evolving Trend ( http://arxiv.org/abs/2311.13717v2 ) ライセンス: Link先を確認 | McKell Woodland, Austin Castelo, Mais Al Taie, Jessica Albuquerque Marques Silva, Mohamed Eltaher, Frank Mohn, Alexander Shieh, Austin Castelo, Suprateek Kundu, Joshua P. Yung, Ankit B. Patel, Kristy K. Brock | (参考訳) Fr'echet Inception Distance (FID)は、合成画像の品質を評価するために広く用いられている指標である。
ImageNetベースの特徴抽出装置に依存しており、医療画像に適用可能であるかどうかは不明だ。
最近のトレンドは、医用画像で訓練された特徴抽出器を通して、医用画像にFIDを適用することである。
本研究では,ImageNetをベースとした抽出器がRadImageNetよりも人間の判断に整合していることを示すことで,この実践に挑戦する。
我々は,Fr'echet distances (FDs) を用いた4つの医用画像モダリティと4つのデータ拡張技術を用いた16のStyleGAN2ネットワークの評価を行った。
視覚的チューリングテストによる人的判断と比較したところ,ImageNetをベースとした抽出機が人的判断と整合性のあるランキングを作成したのに対し,ImageNetをトレーニングしたSwaV抽出機から抽出したFDは専門家による評価と有意な相関を示した。
対照的に、RadImageNetベースのランキングは不安定であり、人間の判断とは矛盾していた。
以上の結果から,医用画像抽出装置はFDを本質的に改善せず,信頼性を損なうことさえできないという新たな証拠が得られた。
私たちのコードはhttps://github.com/mckellwoodland/fid-med-eval.comで利用可能です。
Fr\'echet Inception Distance (FID) is a widely used metric for assessing synthetic image quality. It relies on an ImageNet-based feature extractor, making its applicability to medical imaging unclear. A recent trend is to adapt FID to medical imaging through feature extractors trained on medical images. Our study challenges this practice by demonstrating that ImageNet-based extractors are more consistent and aligned with human judgment than their RadImageNet counterparts. We evaluated sixteen StyleGAN2 networks across four medical imaging modalities and four data augmentation techniques with Fr\'echet distances (FDs) computed using eleven ImageNet or RadImageNet-trained feature extractors. Comparison with human judgment via visual Turing tests revealed that ImageNet-based extractors produced rankings consistent with human judgment, with the FD derived from the ImageNet-trained SwAV extractor significantly correlating with expert evaluations. In contrast, RadImageNet-based rankings were volatile and inconsistent with human judgment. Our findings challenge prevailing assumptions, providing novel evidence that medical image-trained feature extractors do not inherently improve FDs and can even compromise their reliability. Our code is available at https://github.com/mckellwoodland/fid-med-eval. | 翻訳日:2024-03-14 17:58:24 公開日:2024-03-13 |
# ボソニック符号の明示的誤り訂正法と符号距離
回転対称性で
Explicit error-correction scheme and code distance for bosonic codes with rotational symmetry ( http://arxiv.org/abs/2311.13670v2 ) ライセンス: Link先を確認 | Benjamin Marinoff, Miles Bush, Joshua Combes | (参考訳) 回転対称性を持つボソニック符号は、現在、最高の量子誤り訂正符号の1つである。
これらの回転符号の誤り伝播と符号距離については、量子ビット符号や翻訳対称性を持つボソニック符号とは対照的にほとんど分かっていない。
我々は、回転対称性を持つ符号に自然に適合する汎用的なエラーベースを用いて、エラーがゲートを介してどのように伝播するかを計算する。
このエラーベースにより、回転対称性を持つ任意のコードに対して、明示的なエラー検出、復号化、補正を行うことができる。
また、$N$の回転対称性を持つ符号は、数と回転誤差に関して$(d_n, d_\theta)=(N, \pi/N)$であることを示す。
Bosonic codes with rotational symmetry are currently one of the best performing quantum error correcting codes. Little is known about error propagation and code distance for these rotation codes in contrast with qubit codes and Bosonic codes with translation symmetry. We use a general purpose error basis that is naturally suited to codes with rotation symmetry to compute how errors propagate through gates. This error basis allows us to give an explicit error detection, decoding, and correction scheme for any code with rotation symmetry. We also prove that codes with an $N$-fold rotation symmetry have a distance of $(d_n, d_\theta)=(N, \pi/N)$ with respect to number and rotation errors. | 翻訳日:2024-03-14 17:58:23 公開日:2024-03-13 |
# CLIPアクティベートによるオープンボキャブラリ空中物体検出に向けて
学生教師の学習
Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning ( http://arxiv.org/abs/2311.11646v2 ) ライセンス: Link先を確認 | Yan Li, Weiwei Guo, Xue Yang, Ning Liao, Dunyun He, Jiaqi Zhou, Wenxian Yu | (参考訳) 膨大な量のリモートセンシング画像が、新たなラベル付きデータを集めることなく、トレーニングカテゴリを超えてオブジェクトを検出する拡張可能なオブジェクト検出器の開発を加速させる。
本稿では,訓練データを超えるオブジェクトの語彙サイズを拡大する空画像におけるOVD(Open-vocabulary Object Detection)手法を提案する。
オープンな語彙的オブジェクト検出性能を阻害する根本的な課題は、クラスに依存しない領域の提案と、新しいオブジェクトカテゴリによく適応できる擬似ラベルの質である。
高品質な提案と擬似ラベルを同時に生成するために,CLIPをベースとしたオープン語彙オブジェクト検出フレームワークであるCastDetを提案する。
学生-教師の自己学習メカニズムに従うエンドツーエンドのフレームワークは、RemoteCLIPモデルを用いて、豊富な知識を持つ全能教師として活用する。
このアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
さらに、バッチトレーニング中に高品質な擬似ラベルを維持するための動的ラベル待ち行列戦略を考案する。
我々は、OVDタスク用に設定された複数の既存の空中物体検出データセットについて広範な実験を行う。
実験の結果、VesDroneZSDデータセットでは、Detic/ViLDを23.7%/14.9%上回る40.5\% mAPに達した。
我々の知る限り、これは航空画像にオープン語彙オブジェクト検出技術を適用し、開発する最初の試みである。
An increasingly massive number of remote-sensing images spurs the development of extensible object detectors that can detect objects beyond training categories without costly collecting new labeled data. In this paper, we aim to develop open-vocabulary object detection (OVD) technique in aerial images that scales up object vocabulary size beyond training data. The fundamental challenges hinder open vocabulary object detection performance: the qualities of the class-agnostic region proposals and the pseudo-labels that can generalize well to novel object categories. To simultaneously generate high-quality proposals and pseudo-labels, we propose CastDet, a CLIP-activated student-teacher open-vocabulary object Detection framework. Our end-to-end framework following the student-teacher self-learning mechanism employs the RemoteCLIP model as an extra omniscient teacher with rich knowledge. By doing so, our approach boosts not only novel object proposals but also classification. Furthermore, we devise a dynamic label queue strategy to maintain high-quality pseudo labels during batch training. We conduct extensive experiments on multiple existing aerial object detection datasets, which are set up for the OVD task. Experimental results demonstrate our CastDet achieving superior open-vocabulary detection performance, e.g., reaching 40.5\% mAP, which outperforms previous methods Detic/ViLD by 23.7%/14.9% on the VisDroneZSD dataset. To our best knowledge, this is the first work to apply and develop the open-vocabulary object detection technique for aerial images. | 翻訳日:2024-03-14 17:58:23 公開日:2024-03-13 |
# 暗黒物質検出のためのイオンの量子絡み合い
Quantum entanglement of ions for light dark matter detection ( http://arxiv.org/abs/2311.11632v2 ) ライセンス: Link先を確認 | Asuka Ito, Ryuichiro Kitano, Wakutaka Nakano and Ryoto Takai | (参考訳) ポールイオントラップシステムを用いて、アクシオンダークマターやダークフォトンダークマターなどの軽いダークマターを検知する方法を探索する。
最初に、ポールトラップ内のイオンの振動モードの基底と最初の励起状態から構築された量子ビットが、共鳴励起による弱い電場に対する効果的なセンサとして機能することを実証した。
結果として、ポールイオントラップは、NeV領域の質量を持つ軽い暗黒物質によって誘導される弱い電場を探索することができる。
さらに、$N$イオンを含む絡み合った量子ビット系は、$N^2$の係数で励起率を高めることができることを示す。
パウロイオントラップ系の軸-光子カップリングとゲージ運動混合に対する感度は、未探索のパラメータ空間に到達できる。
A detection scheme is explored for light dark matter, such as axion dark matter or dark photon dark matter, using a Paul ion trap system. We first demonstrate that a qubit, constructed from the ground and first excited states of vibrational modes of ions in a Paul trap, can serve as an effective sensor for weak electric fields due to its resonant excitation. As a consequence, a Paul ion trap allows us to search for weak electric fields induced by light dark matter with masses around the neV range. Furthermore, we illustrate that an entangled qubit system involving $N$ ions can enhance the excitation rate by a factor of $N^2$. The sensitivities of the Paul ion trap system to axion-photon coupling and gauge kinetic mixing can reach previously unexplored parameter space. | 翻訳日:2024-03-14 17:58:22 公開日:2024-03-13 |
# SUQL: 構造化データと非構造化データに関する会話型検索
大規模言語モデル
SUQL: Conversational Search over Structured and Unstructured Data with Large Language Models ( http://arxiv.org/abs/2311.09818v2 ) ライセンス: Link先を確認 | Shicheng Liu, Jialiang Xu, Wesley Tjangnaka, Sina J. Semnani, Chen Jie Yu, Monica S. Lam | (参考訳) ほとんどの会話エージェントは自由テキストまたは構造化知識に基づいているが、多くの知識コーパスはハイブリッドソースで構成されている。
本稿では,SUQL(Structured and Unstructured Query Language)と呼ばれる言語を用いて,大規模知識コーパスに対するハイブリッドデータアクセスの完全汎用性をサポートする対話型エージェントを提案する。
具体的には、SUQLはSQLをフリーテキストプリミティブ(要約と回答)で拡張するので、情報検索は形式的、簡潔で、正確で、解釈可能な表記法で任意に構造化されたデータアクセスで構成することができる。
SUQLでは,ハイブリッドデータソースを処理可能な,コンテキスト内学習型LLMの最初のセマンティックパーサを提案する。
私たちのコンテキスト内学習ベースのアプローチは、HybridQAデータセットに適用すると、62Kデータサンプルに基づいてトレーニングされたSOTAの8.9%の正確な一致と7.1%のF1の範囲内になります。
さらに,従来の手法とは異なり,我々の手法は大規模データベースや自由テキストコーパスに適用可能である。
我々は、構造化された非構造化データを備えた、大規模でリアルなレストラン知識ベースであるYelpで、クラウドソーシングされた質問と会話からなるデータセットを紹介します。
線形化に基づくベースラインの63.4%とは対照的に,SUQLに基づく会話エージェントでは,すべてのユーザの要求を満たすエンティティが90.3%であることがわかった。
While most conversational agents are grounded on either free-text or structured knowledge, many knowledge corpora consist of hybrid sources. This paper presents the first conversational agent that supports the full generality of hybrid data access for large knowledge corpora, through a language we developed called SUQL (Structured and Unstructured Query Language). Specifically, SUQL extends SQL with free-text primitives (summary and answer), so information retrieval can be composed with structured data accesses arbitrarily in a formal, succinct, precise, and interpretable notation. With SUQL, we propose the first semantic parser, an LLM with in-context learning, that can handle hybrid data sources. Our in-context learning-based approach, when applied to the HybridQA dataset, comes within 8.9% exact match and 7.1% F1 of the SOTA, which was trained on 62K data samples. More significantly, unlike previous approaches, our technique is applicable to large databases and free-text corpora. We introduce a dataset consisting of crowdsourced questions and conversations on Yelp, a large, real restaurant knowledge base with structured and unstructured data. We show that our few-shot conversational agent based on SUQL finds an entity satisfying all user requirements 90.3% of the time, compared to 63.4% for a baseline based on linearization. | 翻訳日:2024-03-14 17:58:21 公開日:2024-03-13 |
# セマンティック・ショートカットの認識 - モデルがどこまで進むか
幻覚なし?
Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? ( http://arxiv.org/abs/2311.09702v2 ) ライセンス: Link先を確認 | Bangzheng Li, Ben Zhou, Fei Wang, Xingyu Fu, Dan Roth, Muhao Chen | (参考訳) 大規模言語モデル(LLM)の最近の進歩と、多くのベンチマークにおける高いパフォーマンスにもかかわらず、最近の研究はLLMが幻覚や不誠実な推論に悩まされていることを明らかにしている。
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
具体的には、LLMが正しい推論経路に従うのではなく、プロンプト内の特定のキーワード/エンタリティバイアスからショートカットをどの程度取るかを検討する。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
まず LLM が完全確実性で正しく答える質問から始め、重要なエンティティを証拠文で再帰的に隠蔽し、モデルに質問に答える前に、一連の証拠に従ってマスクされたエンティティを見つけるよう求めます。
証拠を構築する際には、意図的な意味的手がかり (entities) を置き換えて、正しい答えに直結するのではなく、連鎖のような推論プロセスを必要とするような注意深い手がかり (evidence) で正しい答えを導き出す。
注意散らしの手掛かりを省略する代わりに、モデルが正しい推論チェーンに従うことができるかどうかを評価する。
既存のLSMは正しい推論経路を辿り、欲張りのショートカットに抵抗するために必要な能力が欠如していることが判明した。
注意散らしのセマンティック・アソシエーションは、しばしばモデル幻覚を引き起こすことが示され、これは現在のLSM推論の有効性に疑問を呈する強い証拠である。
Despite the recent advancement in large language models (LLMs) and their high performances across numerous benchmarks, recent research has unveiled that LLMs suffer from hallucinations and unfaithful reasoning. This work studies a specific type of hallucination induced by semantic associations. Specifically, we investigate to what extent LLMs take shortcuts from certain keyword/entity biases in the prompt instead of following the correct reasoning path. To quantify this phenomenon, we propose a novel probing method and benchmark called EureQA. We start from questions that LLMs will answer correctly with utmost certainty, and mask the important entity with evidence sentence recursively, asking models to find masked entities according to a chain of evidence before answering the question. During the construction of the evidence, we purposefully replace semantic clues (entities) that may lead to the correct answer with distractor clues (evidence) that will not directly lead to the correct answer but require a chain-like reasoning process. We evaluate if models can follow the correct reasoning chain instead of short-cutting through distractor clues. We find that existing LLMs lack the necessary capabilities to follow correct reasoning paths and resist the attempt of greedy shortcuts. We show that the distractor semantic associations often lead to model hallucination, which is strong evidence that questions the validity of current LLM reasoning. | 翻訳日:2024-03-14 17:58:21 公開日:2024-03-13 |
# 投機的コントラスト復号法
Speculative Contrastive Decoding ( http://arxiv.org/abs/2311.08981v2 ) ライセンス: Link先を確認 | Hongyi Yuan, Keming Lu, Fei Huang, Zheng Yuan, Chang Zhou | (参考訳) 大規模言語モデル~(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号化とコントラスト的復号化にインスパイアされた投機的コントラスト的復号化(SCD)は,より小さな言語モデルから予測を活用できる,単純かつ強力な復号化アプローチである。
4つの多様な言語タスクに対する広範囲な評価と分析は、SCDの有効性を示し、デコード効率と品質が1つの小さいLMから相互に利益を得られることを示した。
Large language models~(LLMs) exhibit exceptional performance in language tasks, yet their auto-regressive inference is limited due to high computational requirements and is sub-optimal due to the exposure bias. Inspired by speculative decoding and contrastive decoding, we introduce Speculative Contrastive Decoding~(SCD), a straightforward yet powerful decoding approach that leverages predictions from smaller language models~(LMs) to achieve both decoding acceleration and quality improvement. Extensive evaluations and analyses on four diverse language tasks demonstrate the effectiveness of SCD, showing that decoding efficiency and quality can compatibly benefit from one smaller LM. | 翻訳日:2024-03-14 17:58:20 公開日:2024-03-13 |
# Open-Vocabulary Video Anomaly Detection
Open-Vocabulary Video Anomaly Detection ( http://arxiv.org/abs/2311.07042v3 ) ライセンス: Link先を確認 | Peng Wu, Xuerong Zhou, Guansong Pang, Yujia Sun, Jing Liu, Peng Wang, Yanning Zhang | (参考訳) 監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
しかしながら、現在のアプローチは本質的にクローズドセットの設定に限られており、トレーニング中に見つからないテストデータに異常なカテゴリが存在する場合、オープンワールドアプリケーションで苦労する可能性がある。
いくつかの最近の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオを見れば、目に見えない異常を検出することを目的としている。
しかし、このような設定は、より情報のあるビデオ監視システムを構築するのに欠かせないにもかかわらず、フレーム異常スコアの予測、特定のカテゴリの異常を認識する能力を持たないことに焦点を当てている。
本稿ではさらに一歩進めて,未確認および未確認の異常を検知・分類するために,事前学習された大規模モデルを活用することを目的とした,オープン語彙ビデオ異常検出(OVVAD)について検討する。
そこで本研究では,OVVADを2つの相補的タスク – クラスに依存しない検出とクラス固有の分類 – に分解し,両タスクを協調的に最適化するモデルを提案する。
特に,検出タスクのための大規模言語モデルから意味的知識を導入するための意味的知識注入モジュールを考案し,その分類タスクのための大規模視覚生成モデルの助けを借りて,未知の擬似異常ビデオを生成するための新しい異常合成モジュールを設計する。
これらの意味的知識と合成異常は、様々な目に見えない異常の検出と分類における我々のモデルの能力を大幅に拡張する。
広範に使用されている3つのベンチマーク実験により,OVVADタスクの最先端性能が得られた。
Video anomaly detection (VAD) with weak supervision has achieved remarkable performance in utilizing video-level labels to discriminate whether a video frame is normal or abnormal. However, current approaches are inherently limited to a closed-set setting and may struggle in open-world applications where there can be anomaly categories in the test data unseen during training. A few recent studies attempt to tackle a more realistic setting, open-set VAD, which aims to detect unseen anomalies given seen anomalies and normal videos. However, such a setting focuses on predicting frame anomaly scores, having no ability to recognize the specific categories of anomalies, despite the fact that this ability is essential for building more informed video surveillance systems. This paper takes a step further and explores open-vocabulary video anomaly detection (OVVAD), in which we aim to leverage pre-trained large models to detect and categorize seen and unseen anomalies. To this end, we propose a model that decouples OVVAD into two mutually complementary tasks -- class-agnostic detection and class-specific classification -- and jointly optimizes both tasks. Particularly, we devise a semantic knowledge injection module to introduce semantic knowledge from large language models for the detection task, and design a novel anomaly synthesis module to generate pseudo unseen anomaly videos with the help of large vision generation models for the classification task. These semantic knowledge and synthesis anomalies substantially extend our model's capability in detecting and categorizing a variety of seen and unseen anomalies. Extensive experiments on three widely-used benchmarks demonstrate our model achieves state-of-the-art performance on OVVAD task. | 翻訳日:2024-03-14 17:58:19 公開日:2024-03-13 |
# 機械学習からの吸気 : 最適化の例
1064nmトラップにおけるツリウム原子のボース・アインシュタイン凝縮
Inspiration from machine learning on example of optimization of the Bose-Einstein condensate of thulium atoms in a 1064-nm trap ( http://arxiv.org/abs/2311.06795v4 ) ライセンス: Link先を確認 | D.A. Kumpilov, D.A. Pershin, I.S. Cojocaru, V.A. Khlebnikov, I.A. Pyrkh, A.E. Rudnev, E.A. Fedotova, K.A. Khoruzhii, P.A. Aksentsev, D.V. Gaifutdinov, A.K. Zykova, V.V. Tsyganok, A.V. Akimov | (参考訳) ボース=アインシュタイン凝縮体中の原子の数は実験の規模を決定するため、量子シミュレーションには不可欠である。
凝縮体中の原子数の最適化は、機械学習技術を用いて効率的に解ける複雑な問題である。
しかしながら、このアプローチは通常、基礎となる物理学についての洞察を与えない。
ここでは1064nmの双極子トラップでツリウム原子の凝縮の例を例に,機械学習から物理を学ぶ可能性を示す。
凝縮原子数の最適化により飽和が明らかとなり、3体組換えによる制限として説明された。
この制限はファノ・フェシュバッハ共鳴を利用して達成された。
The number of atoms in Bose-Einstein condensate determines the scale of experiments that can be performed, making it crucial for quantum simulations. Optimization of the number of atoms in the condensate is a complex problem which could be efficiently solved using machine learning technique. Nevertheless, this approach usually does not give any insight in the underlying physics. Here we demonstrate possibility to learn physics from the machine learning on an example of condensation of thulium atoms at a 1064-nm dipole trap. Optimization of the number of condensed atoms revealed a saturation, which was explained as limitation imposed by a 3-body recombination process. This limitation was successfully overcome by leveraging Fano-Feshbach resonances. | 翻訳日:2024-03-14 17:58:19 公開日:2024-03-13 |
# Agent Lumos: オープンソース言語の統一とモジュールトレーニング
エージェント
Agent Lumos: Unified and Modular Training for Open-Source Language Agents ( http://arxiv.org/abs/2311.05657v2 ) ライセンス: Link先を確認 | Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin | (参考訳) クローズドソースエージェントは、特に複雑な対話的なタスクにおいて、可買性、透明性、再現性の欠如など、いくつかの問題に悩まされている。
これはオープンソースの代替手段の開発を動機付けている。
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールと、実行モジュールのさまざまなツールを使用してそれらをアクションに変換するようにトレーニングされたグラウンドモジュールを備えた、学習可能で統一されたモジュールアーキテクチャを備えている。
この設計により、モジュール化されたアップグレードと多様なインタラクティブなタスクへのより広範な適用が可能になる。
エージェント学習の汎用化を促進するため,様々な複雑な対話的タスクにまたがる多様な地道推論の理性から,大規模で統一的で高品質なトレーニングアノテーションを収集する。
1) LUMOSは、各タスクタイプ毎に保持されたデータセット(トレーニングに使用されていない)上に、複数の大きなオープンソースエージェントをエクストラする。
LUMOSは、QAやWebタスクのGPTエージェントを超え、(2)LUMOSは、チェーン・オブ・ソートとアンモジュール化統合トレーニングによって生成されたオープンソースエージェントを上回り、(3)LUMOSは、目に見えないタスクに効果的に一般化し、33Bスケールエージェントとドメイン固有エージェントを上回ります。
Closed-source agents suffer from several issues such as a lack of affordability, transparency, and reproducibility, particularly on complex interactive tasks. This motivates the development of open-source alternatives. We introduce LUMOS, one of the first frameworks for training open-source LLM-based agents. LUMOS features a learnable, unified, and modular architecture with a planning module that learns high-level subgoal generation, and a grounding module trained to translate these into actions using various tools in the execution module. The design allows for modular upgrades and wider applicability to diverse interactive tasks. To foster generalizable agent learning, we collect large-scale, unified, and high-quality training annotations derived from diverse ground-truth reasoning rationales across various complex interactive tasks. On 9 datasets, LUMOS exhibits several key advantages: (1) LUMOS excels multiple larger open-source agents on the held-out datasets (unused for training) for each task type. LUMOS even surpasses GPT agents on QA and web tasks; (2) LUMOS outperforms open-source agents produced by chain-of-thoughts and unmodularized integrated training; and (3) LUMOS effectively generalizes to unseen tasks, outperforming 33B-scale agents and domain-specific agents. | 翻訳日:2024-03-14 17:58:18 公開日:2024-03-13 |
# 集合スピンXYZモデルによるGHZ様状態の高速生成
Fast Generation of GHZ-like States Using Collective-Spin XYZ Model ( http://arxiv.org/abs/2311.04560v2 ) ライセンス: Link先を確認 | Xuanchen Zhang and Zhiyao Hu and Yong-Chun Liu | (参考訳) Greenberger-Horne-Zeilinger状態(GHZ)は、量子情報処理と量子気象学の鍵となるリソースである。
原子GHZ状態は1軸ツイスト(OAT)相互作用$H_{\mathrm{OAT}}=\chi J_{z}^{2}$と相互作用強度$\chiで生成することができるが、長い進化時間$\chi t=\pi /2$が必要であり、したがってデコヒーレンスと損失に強く影響される。
ここでは,超短時間スケール$\chi t\sim \ln {N}/N$でGHZ様の状態を生成する三体XYZモデルを提案する。
本モデルは,Floquet 運転をオリジナル OAT Hamiltonian に適用することにより,効果的に生成可能であることを示す。
理想的GHZ状態と比較して,我々のモデルを用いて生成したGHZ様状態は,ハイゼンベルク限界まで類似した気象特性を維持でき,デコヒーレンスや粒子損失に対してより堅牢性を示す。
この研究は、粒子数が大きいGHZのような状態を生成するための道を開き、これはマクロ的な量子効果の研究や量子気象学や量子情報への応用に大きな可能性を持っている。
The Greenberger-Horne-Zeilinger (GHZ) state is a key resource for quantum information processing and quantum metrology. The atomic GHZ state can be generated by one-axis twisting (OAT) interaction $H_{\mathrm{OAT}}=\chi J_{z}^{2}$ with $\chi $ the interaction strength, but it requires a long evolution time $\chi t=\pi /2$ and is thus seriously influenced by decoherence and losses. Here we propose a three-body collective-spin XYZ model which creates a GHZ-like state in a very short timescale $\chi t\sim \ln {N}/N$ for $N$ particles. We show that this model can be effectively produced by applying Floquet driving to an original OAT Hamiltonian. Compared with the ideal GHZ state, the GHZ-like state generated using our model can maintain similar metrological properties reaching the Heisenberg-limited scaling, and it shows better robustness to decoherence and particle losses. This work opens the avenue for generating GHZ-like states with a large particle number, which holds great potential for the study of macroscopic quantum effects and for applications in quantum metrology and quantum information. | 翻訳日:2024-03-14 17:58:18 公開日:2024-03-13 |
# Octavius: LoRA-MoEによるMLLMのタスク干渉の軽減
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE ( http://arxiv.org/abs/2311.02684v2 ) ライセンス: Link先を確認 | Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu, Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao | (参考訳) 近年,Large Language Models (LLMs) は,命令チューニングによってゼロショットの一般化能力をマルチモーダル学習に拡張できることが実証されている。
より多くのモダリティやダウンストリームタスクが導入されるにつれて、負の衝突や干渉がパフォーマンスに悪影響を及ぼす可能性がある。
従来,この現象は軽視されてきたが,多モーダル大規模言語モデル(MLLM)を用いた多モーダル学習の包括的研究と実験を行うために,Octaviusと呼ばれる新しい拡張可能なフレームワークを提案する。
具体的には、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技術(LoRA)を組み合わせて、LLMベースの新しいデコーダ(LoRA-MoE)をマルチモーダル学習用に設計する。
私たちの知る限りでは、この問題に対処するためにMLLMにMoEを導入しようとする先駆的な取り組みの1つです。
実験の結果(約20%の改善)は、様々な2Dおよび3D下流タスクにおける設計の有効性と汎用性を示している。
コードとデータセットはhttps://openlamm.github.io/paper_list/Octaviusで公開されている。
Recent studies have demonstrated Large Language Models (LLMs) can extend their zero-shot generalization capabilities to multimodal learning through instruction tuning. As more modalities and downstream tasks are introduced, negative conflicts and interference may have a worse impact on performance. While this phenomenon has been overlooked in previous work, we propose a novel and extensible framework, called Octavius, for comprehensive studies and experimentation on multimodal learning with Multimodal Large Language Models (MLLMs). Specifically, we combine the well-known Mixture-of-Experts (MoE) and one of the representative PEFT techniques, i.e., LoRA, designing a novel LLM-based decoder, called LoRA-MoE, for multimodal learning. To the best of our knowledge, we are one of the pioneering efforts to introduce MoE into MLLMs to address this problem. The experimental results (about 20% improvement) have shown the effectiveness and versatility of our design in various 2D and 3D downstream tasks. Code and datasets are available at https://openlamm.github.io/paper_list/Octavius. | 翻訳日:2024-03-14 17:58:17 公開日:2024-03-13 |
# 高速低消費電力sEMGを用いた過渡状態マイクロジェスチャ
認識
High-speed Low-consumption sEMG-based Transient-state micro-Gesture Recognition ( http://arxiv.org/abs/2403.06998v2 ) ライセンス: Link先を確認 | Youfang Han, Wei Zhao, Xiangjin Chen, Xin Meng | (参考訳) ウェアラブルデバイスにおけるジェスチャー認識は、人間とコンピュータの相互作用に広く応用されている。
筋電図(EMG)は、多くのジェスチャー認識システムで筋肉信号の迅速な認識に用いられている。
しかしながら、スマートリストバンドのようなデバイス上のEMG信号を解析するには、推論レイテンシの低い、消費電力の低い、メモリ占有率の低いといった高いパフォーマンスを持つための推論モデルが必要である。
そこで本稿では,これらの目標を達成するために,改良されたスパイクニューラルネットワーク(SNN)を提案する。
適応型マルチデルタ符号化をスパイキング符号化法として提案し,認識精度を向上する。
本研究では, 推定エネルギー消費とパラメータの量を大幅に削減し, 時間差の頑健性を向上させる2つの加法解法を提案する。
さらに,SNNに適した線形動作検出手法TAD-LIFを提案する。
TAD-LIFは、一過性のジェスチャーを迅速かつ正確に検出できる改善されたLIFニューロンである。
6つのマイクロジェスチャーを含む20の被験者から2つのデータセットを収集した。
コレクションデバイスは2つの軽量な消費者レベルsEMGリストバンド(それぞれ3と8の電極チャネル)である。
CNN,FCN,および通常のSNN法と比較して,提案手法は高い認識精度を有する。
提案されたSNNの精度はそれぞれ83.85%と93.52%である。
さらに、提案したSNNの推論遅延はCNNの約1%、消費電力はCNNの約0.1%、メモリ占有率はCNNの約20%である。
提案手法は高精度,高速,低消費電力のマイクロ位置認識タスクに使用することができ,ユビキタスコンピューティングの一般的な方法であるコンシューマレベルのインテリジェントウェアラブルデバイスに適している。
Gesture recognition on wearable devices is extensively applied in human-computer interaction. Electromyography (EMG) has been used in many gesture recognition systems for its rapid perception of muscle signals. However, analyzing EMG signals on devices, like smart wristbands, usually needs inference models to have high performances, such as low inference latency, low power consumption, and low memory occupation. Therefore, this paper proposes an improved spiking neural network (SNN) to achieve these goals. We propose an adaptive multi-delta coding as a spiking coding method to improve recognition accuracy. We propose two additive solvers for SNN, which can reduce inference energy consumption and amount of parameters significantly, and improve the robustness of temporal differences. In addition, we propose a linear action detection method TAD-LIF, which is suitable for SNNs. TAD-LIF is an improved LIF neuron that can detect transient-state gestures quickly and accurately. We collected two datasets from 20 subjects including 6 micro gestures. The collection devices are two designed lightweight consumer-level sEMG wristbands (3 and 8 electrode channels respectively). Compared to CNN, FCN, and normal SNN-based methods, the proposed SNN has higher recognition accuracy. The accuracy of the proposed SNN is 83.85% and 93.52% on the two datasets respectively. In addition, the inference latency of the proposed SNN is about 1% of CNN, the power consumption is about 0.1% of CNN, and the memory occupation is about 20% of CNN. The proposed methods can be used for precise, high-speed, and low-power micro-gesture recognition tasks, and are suitable for consumer-level intelligent wearable devices, which is a general way to achieve ubiquitous computing. | 翻訳日:2024-03-14 17:27:46 公開日:2024-03-13 |
# MuseGraph: 大規模言語モデルのグラフ指向インストラクションチューニング
ジェネリックグラフマイニングのための
MuseGraph: Graph-oriented Instruction Tuning of Large Language Models for Generic Graph Mining ( http://arxiv.org/abs/2403.04780v2 ) ライセンス: Link先を確認 | Yanchao Tan, Hang Lv, Xinyi Huang, Jiawei Zhang, Shiping Wang, Carl Yang | (参考訳) 豊富な属性を持つグラフは、相互接続されたエンティティをモデル化し、様々な現実世界のアプリケーションにおける予測を改善するのに不可欠である。
属性付きグラフのモデリングに一般的に使用される従来のグラフニューラルネットワーク(GNN)は、異なるグラフタスクやデータセットに適用されるたびに再トレーニングされる必要がある。
大規模言語モデル (LLM) の出現は, 自然言語処理における新たなパラダイムを導入しているが, グラフマイニングにおける LLM の生成可能性はほとんど調査されていない。
この目的のために,GNN と LLM の強みをシームレスに統合し,さまざまなタスクやデータセットをまたいだグラフマイニングにおいて,より効果的で汎用的なアプローチを実現する新しいフレームワーク MuseGraph を提案する。
具体的には、まず、言語トークン制限の制約の下で、提案した適応入力生成を通じて、グラフからキー情報をカプセル化するコンパクトなグラフ記述を導入する。
そこで本研究では,LLM(例えば GPT-4) から推論機能を抽出して,タスク固有のChain-of-Thought ベースの命令パッケージを作成する,多種多様な命令生成機構を提案する。
最後に,タスクとデータセットをまたいだ動的命令パッケージアロケーション戦略を用いたグラフ認識型インストラクションチューニングを提案し,トレーニングプロセスの有効性と一般化を保証した。
実験の結果,LLMの生成能力を保ちながら,グラフ指向の下流タスクの精度を向上する上で,MuseGraphの可能性を示す。
Graphs with abundant attributes are essential in modeling interconnected entities and improving predictions in various real-world applications. Traditional Graph Neural Networks (GNNs), which are commonly used for modeling attributed graphs, need to be re-trained every time when applied to different graph tasks and datasets. Although the emergence of Large Language Models (LLMs) has introduced a new paradigm in natural language processing, the generative potential of LLMs in graph mining remains largely under-explored. To this end, we propose a novel framework MuseGraph, which seamlessly integrates the strengths of GNNs and LLMs and facilitates a more effective and generic approach for graph mining across different tasks and datasets. Specifically, we first introduce a compact graph description via the proposed adaptive input generation to encapsulate key information from the graph under the constraints of language token limitations. Then, we propose a diverse instruction generation mechanism, which distills the reasoning capabilities from LLMs (e.g., GPT-4) to create task-specific Chain-of-Thought-based instruction packages for different graph tasks. Finally, we propose a graph-aware instruction tuning with a dynamic instruction package allocation strategy across tasks and datasets, ensuring the effectiveness and generalization of the training process. Our experimental results demonstrate significant improvements in different graph tasks, showcasing the potential of our MuseGraph in enhancing the accuracy of graph-oriented downstream tasks while keeping the generation powers of LLMs. | 翻訳日:2024-03-14 17:27:45 公開日:2024-03-13 |
# 自然発話における非言語情報 -新しい枠組みに向けて-
分析の結果
Non-verbal information in spontaneous speech -- towards a new framework of analysis ( http://arxiv.org/abs/2403.03522v2 ) ライセンス: Link先を確認 | Tirza Biron, Moshe Barboy, Eran Ben-Artzy, Alona Golubchik, Yanir Marmor, Smadar Szekely, Yaron Winter, David Harel | (参考訳) 音声の非言語信号は韻律によって符号化され、会話行動から態度や感情まで幅広い情報を運ぶ。
その重要性にもかかわらず、韻律構造を支配する原則はまだ十分に理解されていない。
本稿では,韻律信号の分類と意味との関連性について,分析的スキーマと概念実証を行う。
このスキーマは多層韻律事象の表面表現を解釈する。
実装に向けた第一歩として、3つの順序の韻律現象を解消する分類過程を示す。
事前訓練された音声認識モデルの微調整に依存しており、同時に複数クラス/複数ラベル検出が可能となる。
様々な自然データにまたがって一般化され、人間のアノテーションと同等あるいは同等に機能する。
韻律の標準化された形式化に加えて、散在する韻律パターンはコミュニケーションと音声の組織化の理論を導くことができる。
歓迎副産物は、音声および言語関連技術を強化する韻律の解釈である。
Non-verbal signals in speech are encoded by prosody and carry information that ranges from conversation action to attitude and emotion. Despite its importance, the principles that govern prosodic structure are not yet adequately understood. This paper offers an analytical schema and a technological proof-of-concept for the categorization of prosodic signals and their association with meaning. The schema interprets surface-representations of multi-layered prosodic events. As a first step towards implementation, we present a classification process that disentangles prosodic phenomena of three orders. It relies on fine-tuning a pre-trained speech recognition model, enabling the simultaneous multi-class/multi-label detection. It generalizes over a large variety of spontaneous data, performing on a par with, or superior to, human annotation. In addition to a standardized formalization of prosody, disentangling prosodic patterns can direct a theory of communication and speech organization. A welcome by-product is an interpretation of prosody that will enhance speech- and language-related technologies. | 翻訳日:2024-03-14 17:27:44 公開日:2024-03-13 |
# リコメンデーションのためのフェデレーションラーニングとエッジコンピューティングの活用
クラウドコンピューティングネットワーク内のシステム
Leveraging Federated Learning and Edge Computing for Recommendation Systems within Cloud Computing Networks ( http://arxiv.org/abs/2403.03165v2 ) ライセンス: Link先を確認 | Yaqian Qi, Yuan Feng, Xiangxiang Wang, Hanzhe Li, Jingxiao Tian | (参考訳) 人工知能(AI)の大規模かつ効率的な展開を可能にするため、AIとエッジコンピューティングの組み合わせによって、エッジデバイスとエッジサーバのコンピューティングと通信機能を活用して、生成した場所に近いデータを処理するエッジインテリジェンスが誕生した。
エッジインテリジェンスのための重要な技術は、フェデレートラーニング(FL)として知られる、プライバシ保護機械学習パラダイムである。
しかし、FLネットワークは何千もの異種分散デバイスを巻き込むことが期待されている。
その結果、通信効率は依然として重要なボトルネックとなっている。
ノード障害とデバイス終了を減らすため、階層的フェデレートラーニング(HFL)フレームワークが提案され、指定されたクラスタリーダが中間モデルアグリゲーションを通じてデータオーナをサポートする。
したがって,エッジサーバのリソース利用率の向上により,キャッシュ容量の制限を効果的に補うことができる。
ユーザエクスペリエンスの品質(QoE)に対するソフトクリックの影響を軽減するため、著者らは、ユーザQoEを包括的なシステムコストとしてモデル化した。
そこで著者らは,複数のエージェントが独立して学習し,意思決定を行う,連合型深層学習(DRL)と連合型学習(FL)による分散キャッシュアルゴリズムを提案する。
To enable large-scale and efficient deployment of artificial intelligence (AI), the combination of AI and edge computing has spawned Edge Intelligence, which leverages the computing and communication capabilities of end devices and edge servers to process data closer to where it is generated. A key technology for edge intelligence is the privacy-protecting machine learning paradigm known as Federated Learning (FL), which enables data owners to train models without having to transfer raw data to third-party servers. However, FL networks are expected to involve thousands of heterogeneous distributed devices. As a result, communication efficiency remains a key bottleneck. To reduce node failures and device exits, a Hierarchical Federated Learning (HFL) framework is proposed, where a designated cluster leader supports the data owner through intermediate model aggregation. Therefore, based on the improvement of edge server resource utilization, this paper can effectively make up for the limitation of cache capacity. In order to mitigate the impact of soft clicks on the quality of user experience (QoE), the authors model the user QoE as a comprehensive system cost. To solve the formulaic problem, the authors propose a decentralized caching algorithm with federated deep reinforcement learning (DRL) and federated learning (FL), where multiple agents learn and make decisions independently | 翻訳日:2024-03-14 17:27:44 公開日:2024-03-13 |
# エッジでの機械学習モデルのトレーニング: 調査
Training Machine Learning models at the Edge: A Survey ( http://arxiv.org/abs/2403.02619v2 ) ライセンス: Link先を確認 | Aymen Rayane Khouas, Mohamed Reda Bouadjenek, Hakim Hacid, and Sunil Aryal | (参考訳) 近年、エッジコンピューティング(EC)は大きな注目を集めており、エッジに人工知能(AI)機能を統合することで効率の向上を約束している。
主にエッジにおける機械学習(ML)モデルのデプロイメントと推論に重点を置いているが、トレーニングの側面はいまだ検討されていない。
この調査は、エッジでのMLモデルのトレーニングを最適化するエッジラーニング(EL)に重点を置いている。
目的は、ELにおける多様なアプローチや方法論を包括的に探求し、既存の知識を合成し、課題を特定し、将来の動向を明らかにすることである。
スコプスの先進的な探索を利用して、ELに関する関連文献を同定し、分散学習法、特にフェデレートラーニング(FL)における研究努力の集中を明らかにした。
この調査はさらに、エッジ学習のためにMLを最適化するために使用されるテクニックを比較するためのガイドラインと、ELで利用可能なさまざまなフレームワーク、ライブラリ、シミュレーションツールの探索を提供する。
そこで本研究では,エッジコンピューティングと機械学習の交差点における現状と今後の方向性の総合的な理解に寄与し,最適化手法とエッジ学習用に設計された手法とのインフォメーション比較を行う。
Edge Computing (EC) has gained significant traction in recent years, promising enhanced efficiency by integrating Artificial Intelligence (AI) capabilities at the edge. While the focus has primarily been on the deployment and inference of Machine Learning (ML) models at the edge, the training aspect remains less explored. This survey delves into Edge Learning (EL), specifically the optimization of ML model training at the edge. The objective is to comprehensively explore diverse approaches and methodologies in EL, synthesize existing knowledge, identify challenges, and highlight future trends. Utilizing Scopus' advanced search, relevant literature on EL was identified, revealing a concentration of research efforts in distributed learning methods, particularly Federated Learning (FL). This survey further provides a guideline for comparing techniques used to optimize ML for edge learning, along with an exploration of different frameworks, libraries, and simulation tools available for EL. In doing so, the paper contributes to a holistic understanding of the current landscape and future directions in the intersection of edge computing and machine learning, paving the way for informed comparisons between optimization methods and techniques designed for edge learning. | 翻訳日:2024-03-14 17:27:43 公開日:2024-03-13 |
# OccFusion: ストレートフォワードと効果的なマルチセンサフュージョンフレームワーク
3次元作業予測のための基礎的検討
OccFusion: A Straightforward and Effective Multi-Sensor Fusion Framework for 3D Occupancy Prediction ( http://arxiv.org/abs/2403.01644v2 ) ライセンス: Link先を確認 | Zhenxing Ming, Julie Stephany Berrio, Mao Shan, and Stewart Worrall | (参考訳) 本稿では,3次元占有率を予測するための簡易かつ効率的なセンサ融合フレームワークであるOccFusionを紹介する。
3Dシーンの包括的理解は自動運転において不可欠であり、近年の3Dセマンティック占有予測モデルでは、様々な形状やクラスを持つ現実世界のオブジェクトを記述するという課題に対処している。
しかし、既存の3D占有率予測法は周囲のカメラ画像に大きく依存しており、照明や気象条件の変化の影響を受けやすい。
ライダーやサラウンドビューレーダなどの付加センサの機能を統合することで、我々のフレームワークは占有率予測の精度と堅牢性を向上し、nuScenesベンチマークの上位層の性能が向上する。
さらに、夜間と雨季のシナリオを含むnuScenesデータセット上で行われた広範な実験により、センサー融合戦略の様々な知覚範囲における優れた性能が確認された。
このフレームワークのコードはhttps://github.com/DanielMing123/OCCFusionで公開される。
This paper introduces OccFusion, a straightforward and efficient sensor fusion framework for predicting 3D occupancy. A comprehensive understanding of 3D scenes is crucial in autonomous driving, and recent models for 3D semantic occupancy prediction have successfully addressed the challenge of describing real-world objects with varied shapes and classes. However, existing methods for 3D occupancy prediction heavily rely on surround-view camera images, making them susceptible to changes in lighting and weather conditions. By integrating features from additional sensors, such as lidar and surround view radars, our framework enhances the accuracy and robustness of occupancy prediction, resulting in top-tier performance on the nuScenes benchmark. Furthermore, extensive experiments conducted on the nuScenes dataset, including challenging night and rainy scenarios, confirm the superior performance of our sensor fusion strategy across various perception ranges. The code for this framework will be made available at https://github.com/DanielMing123/OCCFusion. | 翻訳日:2024-03-14 17:27:42 公開日:2024-03-13 |
# モジュールブラインド映像の品質評価
Modular Blind Video Quality Assessment ( http://arxiv.org/abs/2402.19276v3 ) ライセンス: Link先を確認 | Wen Wen and Mu Li and Yabin Zhang and Yiting Liao and Junlin Li and Li Zhang and Kede Ma | (参考訳) Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を担っている。
現代のディープラーニングベースのモデルは、主にビデオコンテンツを積極的にサンプル化されたフォーマットで分析し、実際の空間解像度とフレームレートがビデオ品質に与える影響を無視する。
本稿では,モジュール型BVQAモデルを提案する。
具体的には,基本品質予測器,空間整形器,時間整形器から構成され,映像品質の視覚的内容と歪み,空間分解能,フレームレートの変化に対応する。
トレーニング中、空間的および時間的整流器は、基準品質予測器を独立したBVQAモデルとし、整流器でよりよく動作するように、ある程度の確率で取り除かれる。
プロが生成したコンテンツとユーザ生成したコンテンツビデオデータベースの両方に関する大規模な実験は、我々の品質モデルが現在の手法よりも優れているか同等のパフォーマンスを達成していることを示している。
さらに,本モデルのモジュラリティは,その空間的・時間的複雑さの観点から,既存の映像品質データベースを解析する絶好の機会となる。
最後に、我々のBVQAモデルは、動的範囲や色域などの他の品質関連ビデオ属性を付加整形器として追加するのに費用対効果がある。
Blind video quality assessment (BVQA) plays a pivotal role in evaluating and improving the viewing experience of end-users across a wide range of video-based platforms and services. Contemporary deep learning-based models primarily analyze the video content in its aggressively downsampled format, while being blind to the impact of actual spatial resolution and frame rate on video quality. In this paper, we propose a modular BVQA model, and a method of training it to improve its modularity. Specifically, our model comprises a base quality predictor, a spatial rectifier, and a temporal rectifier, responding to the visual content and distortion, spatial resolution, and frame rate changes on video quality, respectively. During training, spatial and temporal rectifiers are dropped out with some probabilities so as to make the base quality predictor a standalone BVQA model, which should work better with the rectifiers. Extensive experiments on both professionally-generated content and user generated content video databases show that our quality model achieves superior or comparable performance to current methods. Furthermore, the modularity of our model offers a great opportunity to analyze existing video quality databases in terms of their spatial and temporal complexities. Last, our BVQA model is cost-effective to add other quality-relevant video attributes such as dynamic range and color gamut as additional rectifiers. | 翻訳日:2024-03-14 17:27:42 公開日:2024-03-13 |
# Spectral Meets Space: Harmonising 3D Shape Matching and Interpolation
Spectral Meets Spatial: Harmonising 3D Shape Matching and Interpolation ( http://arxiv.org/abs/2402.18920v4 ) ライセンス: Link先を確認 | Dongliang Cao, Marvin Eisenberger, Nafie El Amrani, Daniel Cremers, Florian Bernard | (参考訳) 3次元形状マッチングと補間は非常に関連性が高いが、異なる3次元形状を相互に関連付けるために、しばしば個別に研究され、順次適用され、結果として準最適性能をもたらす。
本研究では,3次元形状間の位置対応と形状補間の両方を予測する統一的な枠組みを提案する。
この目的のために、スペクトル領域と空間領域の両方の形状を地図化するために、奥行き関数写像フレームワークと古典的な曲面変形モデルを組み合わせる。
一方, 空間地図を組み込むことで, 従来の機能地図法と比較して, より正確でスムーズな対応性が得られる。
一方, スペクトル写像を導入することで, ほぼ等尺形状の変形にのみ有効な測地線距離制約を解くことができる。
さらに、ポーズ優位と形状優位の両変形をキャプチャする新しいテスト時間適応方式を提案する。
異なる挑戦的データセットを用いて、我々の手法は、教師付きアプローチと比較して、形状マッチングと補間の両方において、従来の最先端手法よりも優れていることを示す。
Although 3D shape matching and interpolation are highly interrelated, they are often studied separately and applied sequentially to relate different 3D shapes, thus resulting in sub-optimal performance. In this work we present a unified framework to predict both point-wise correspondences and shape interpolation between 3D shapes. To this end, we combine the deep functional map framework with classical surface deformation models to map shapes in both spectral and spatial domains. On the one hand, by incorporating spatial maps, our method obtains more accurate and smooth point-wise correspondences compared to previous functional map methods for shape matching. On the other hand, by introducing spectral maps, our method gets rid of commonly used but computationally expensive geodesic distance constraints that are only valid for near-isometric shape deformations. Furthermore, we propose a novel test-time adaptation scheme to capture both pose-dominant and shape-dominant deformations. Using different challenging datasets, we demonstrate that our method outperforms previous state-of-the-art methods for both shape matching and interpolation, even compared to supervised approaches. | 翻訳日:2024-03-14 17:27:41 公開日:2024-03-13 |
# クラスは等しくない:画像認識の公平性に関する実証的研究
Classes Are Not Equal: An Empirical Study on Image Recognition Fairness ( http://arxiv.org/abs/2402.18133v2 ) ライセンス: Link先を確認 | Jiequan Cui, Beier Zhu, Xin Wen, Xiaojuan Qi, Bei Yu, Hanwang Zhang | (参考訳) 本稿では,画像認識の公平性,すなわち画像ネットのようなバランスの取れたデータに対する極度のクラス精度の相違について,実証的研究を行う。
実験により、クラスは等しくなく、様々なデータセット、ネットワークアーキテクチャ、モデル能力にまたがる画像分類モデルにおいて、公平性の問題が顕著であることを示した。
さらに、フェアネスの興味深い性質がいくつか特定されている。
第一に、不公平さは分類器バイアスよりも問題表現にある。
次に,モデル予測バイアスの概念を用いて,最適化時の問題表現の起源について検討する。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
これは、他のクラスがより難しいクラスと混同されることを意味する。
次に、False Positives (FPs) が最適化における学習を支配し、その結果、その精度が低下する。
さらに、画像分類において、公平性をある程度向上させることで、データ拡張と表現学習のアルゴリズムが全体的な性能を向上させると結論付けている。
コードはhttps://github.com/dvlab-research/Parametric-Contrastive-Learningで公開されている。
In this paper, we present an empirical study on image recognition fairness, i.e., extreme class accuracy disparity on balanced data like ImageNet. We experimentally demonstrate that classes are not equal and the fairness issue is prevalent for image classification models across various datasets, network architectures, and model capacities. Moreover, several intriguing properties of fairness are identified. First, the unfairness lies in problematic representation rather than classifier bias. Second, with the proposed concept of Model Prediction Bias, we investigate the origins of problematic representation during optimization. Our findings reveal that models tend to exhibit greater prediction biases for classes that are more challenging to recognize. It means that more other classes will be confused with harder classes. Then the False Positives (FPs) will dominate the learning in optimization, thus leading to their poor accuracy. Further, we conclude that data augmentation and representation learning algorithms improve overall performance by promoting fairness to some degree in image classification. The Code is available at https://github.com/dvlab-research/Parametric-Contrastive-Learning. | 翻訳日:2024-03-14 17:27:41 公開日:2024-03-13 |
# 回答と説明に基づく大規模言語モデルのベンチマーク
医療問題への取り組み
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions ( http://arxiv.org/abs/2402.18060v3 ) ライセンス: Link先を確認 | Hanjie Chen, Zhouxiang Fang, Yash Singla, Mark Dredze | (参考訳) LLMは、医療免許試験の合格点などの医学的問題に答える上で、顕著なパフォーマンスを示してきた。
しかし、医療委員会試験の質問や一般的な臨床の質問は、現実的な臨床の複雑さを捉えていない。
さらに、参照説明の欠如は、複雑な医学的意思決定を行う上で、医師を支援する重要な要素であるモデル決定の理由付けを容易に評価できないことを意味している。
これらの課題に対処するため、JAMA Clinical ChallengeとMedbulletsという2つの新しいデータセットを構築した。
JAMA 臨床チャレンジは、挑戦的な臨床ケースに基づく質問から成り、Medbullets は USMLE Step 2&3 スタイルの臨床質問から成り立っている。
どちらのデータセットも複数の質問回答タスクとして構成されており、各質問には専門家による説明が添えられている。
各種のプロンプトを用いて2つのデータセット上で4つのLSMを評価する。
実験では、私たちのデータセットは以前のベンチマークよりも難しいことが示されています。
モデル生成説明の自動評価と人的評価の矛盾は、説明可能な医療QAに関する将来の研究を支援するために、新しいメトリクスを開発する必要性を浮き彫りにする。
LLMs have demonstrated impressive performance in answering medical questions, such as passing scores on medical licensing examinations. However, medical board exam questions or general clinical questions do not capture the complexity of realistic clinical cases. Moreover, the lack of reference explanations means we cannot easily evaluate the reasoning of model decisions, a crucial component of supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises USMLE Step 2&3 style clinical questions. Both datasets are structured as multiple-choice question-answering tasks, where each question is accompanied by an expert-written explanation. We evaluate four LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. The inconsistency between automatic and human evaluations of model-generated explanations highlights the need to develop new metrics to support future research on explainable medical QA. | 翻訳日:2024-03-14 17:27:40 公開日:2024-03-13 |
# DS-Agent:大規模言語モデルを活用したデータサイエンスの自動化
ケースベースの推論で
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning ( http://arxiv.org/abs/2402.17453v2 ) ライセンス: Link先を確認 | Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang | (参考訳) 本研究では,大規模言語モデル(LLM)をベースとしたエージェントが,タスク要求を理解し,最適な機械学習モデルを構築し,訓練することを目的として,データサイエンスタスクを自動化する可能性について検討する。
その成功にもかかわらず、既存のLLMエージェントは、このシナリオ内で不合理な実験計画を発生させることで妨げられている。
この目的のために, LLMエージェントとケースベース推論(CBR)を利用した新しい自動フレームワークDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従って自動イテレーションパイプラインを構築し、Kaggleから専門家の知識を柔軟に活用し、フィードバックメカニズムを通じて一貫したパフォーマンス改善を促進する。
さらにDS-Agentは、開発段階で成功したソリューションを直接コード生成に適応させるため、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装しており、LCMの基本能力に対する需要を著しく減らしている。
GPT-4を用いたDS-Agentは、開発段階では前例のない100%の成功率を達成し、デプロイ段階では、代替LLMの平均1パスレートを36%改善した。
どちらの段階でもDS-AgentはGPT-4で1ラン当たり1.60ドルと0.13ドルという最高の成績を収めている。
私たちのコードはhttps://github.com/guosyjlu/DS-Agent.comでオープンソース化されています。
In this work, we investigate the potential of large language models (LLMs) based agents to automate data science tasks, with the goal of comprehending task requirements, then building and training the best-fit machine learning models. Despite their widespread success, existing LLM agents are hindered by generating unreasonable experiment plans within this scenario. To this end, we present DS-Agent, a novel automatic framework that harnesses LLM agent and case-based reasoning (CBR). In the development stage, DS-Agent follows the CBR framework to structure an automatic iteration pipeline, which can flexibly capitalize on the expert knowledge from Kaggle, and facilitate consistent performance improvement through the feedback mechanism. Moreover, DS-Agent implements a low-resource deployment stage with a simplified CBR paradigm to adapt past successful solutions from the development stage for direct code generation, significantly reducing the demand on foundational capabilities of LLMs. Empirically, DS-Agent with GPT-4 achieves an unprecedented 100% success rate in the development stage, while attaining 36% improvement on average one pass rate across alternative LLMs in the deployment stage. In both stages, DS-Agent achieves the best rank in performance, costing \$1.60 and \$0.13 per run with GPT-4, respectively. Our code is open-sourced at https://github.com/guosyjlu/DS-Agent. | 翻訳日:2024-03-14 17:27:40 公開日:2024-03-13 |
# 小腸ビリ明瞭度改善のための画像強調法
An Image Enhancement Method for Improving Small Intestinal Villi Clarity ( http://arxiv.org/abs/2402.15977v2 ) ライセンス: Link先を確認 | Shaojie Zhang, Yinghui Wang, Peixuan Liu, Yukai Wang, Liangyi Huang, Mingfeng Wang, and Ibragim R. Atadjanov | (参考訳) 本稿では,Wireless Capsule Endoscopy (WCE)画像における小腸ビリの明瞭度向上を目的とした画像強調手法を初めて提示する。
この方法はまず,ガイドフィルタを用いて小腸ビリ画像の低周波成分と高周波成分を分離する。
その後、低周波成分に基づいて適応光利得因子を生成し、小さな腸ビリ画像の異なる領域におけるラプラシア作用素の畳み込み結果から適応勾配利得因子を導出する。
そして、得られた光利得率と勾配利得率を組み合わせて高周波成分を増強する。
最後に、拡張された高周波成分を原画像と融合させて、WCE小腸ヴィリ画像のエッジを適応的に鋭くする。
実験により,WCE画像強調法と比較して,本手法は小腸ビリル像の縁部の詳細をアクセントするだけでなく,ノイズ増幅を巧みに抑制し,エッジオーバーシュートの発生を防止できることを確認した。
This paper presents, for the first time, an image enhancement methodology designed to enhance the clarity of small intestinal villi in Wireless Capsule Endoscopy (WCE) images. This method first separates the low-frequency and high-frequency components of small intestinal villi images using guided filtering. Subsequently, an adaptive light gain factor is generated based on the low-frequency component, and an adaptive gradient gain factor is derived from the convolution results of the Laplacian operator in different regions of small intestinal villi images. The obtained light gain factor and gradient gain factor are then combined to enhance the high-frequency components. Finally, the enhanced high-frequency component is fused with the original image to achieve adaptive sharpening of the edges of WCE small intestinal villi images. The experiments affirm that, compared to established WCE image enhancement methods, our approach not only accentuates the edge details of WCE small intestine villi images but also skillfully suppresses noise amplification, thereby preventing the occurrence of edge overshooting. | 翻訳日:2024-03-14 17:27:39 公開日:2024-03-13 |
# 高速衝突検出のためのニューラルインプシトリ・スプープ体積モデル
Neural Implicit Swept Volume Models for Fast Collision Detection ( http://arxiv.org/abs/2402.15281v3 ) ライセンス: Link先を確認 | Dominik Joho, Jonas Schwinn, Kirill Safronov | (参考訳) 衝突検出は、運動計画において最も時間を要する操作の1つである。
このようにして、衝突検出とサンプリングに基づくモーションプランニングを高速化する機械学習技術の研究への関心が高まっている。
最近の研究は、ロボットの幾何学的、または、ロボットの動きの旋回体積のニューラルサインされた距離関数の活用に焦点を当てている。
そこで我々は,その開始とゴール設定によってパラメータ化される任意の動きを連続的に表現するニューラル暗黙ボリュームモデルを提案する。
これにより、ロボットの動きに対するタスク空間内の任意の点の符号付き距離を素早く計算することができる。
さらに,深層学習に基づく符号付き距離計算の高速化と幾何衝突チェッカーの精度保証を併用したアルゴリズムを提案する。
シミュレーションおよび実世界のロボット実験において、我々のアプローチを検証するとともに、商用ビンピッキングアプリケーションを高速化できることを実証する。
Collision detection is one of the most time-consuming operations during motion planning. Thus, there is an increasing interest in exploring machine learning techniques to speed up collision detection and sampling-based motion planning. A recent line of research focuses on utilizing neural signed distance functions of either the robot geometry or the swept volume of the robot motion. Building on this, we present a novel neural implicit swept volume model to continuously represent arbitrary motions parameterized by their start and goal configurations. This allows to quickly compute signed distances for any point in the task space to the robot motion. Further, we present an algorithm combining the speed of the deep learning-based signed distance computations with the strong accuracy guarantees of geometric collision checkers. We validate our approach in simulated and real-world robotic experiments, and demonstrate that it is able to speed up a commercial bin picking application. | 翻訳日:2024-03-14 17:27:38 公開日:2024-03-13 |
# 不規則解析における安定なニューラル確率微分方程式
時系列データ
Stable Neural Stochastic Differential Equations in Analyzing Irregular Time Series Data ( http://arxiv.org/abs/2402.14989v2 ) ライセンス: Link先を確認 | YongKyung Oh, Dongyoung Lim, Sungil Kim | (参考訳) 実世界の時系列データにおける不規則サンプリング間隔と欠落値は、一貫した間隔と完全データを仮定する従来の手法の課題を示す。
ニューラル正規微分方程式(Neural Ordinary Differential Equations (Neural ODEs))は、パラメータ化されたベクトル場を通して連続的な潜在表現を学習するためにODEソルバと結合されたニューラルネットワークを利用する別のアプローチを提供する。
ニューラル確率微分方程式(Neural Stochastic Differential Equations (Neural SDEs))は、拡散項を組み込むことでニューラル ODE を拡張するが、特に不規則区間や欠落値を扱う場合、この加算は自明ではない。
その結果, ドリフトと拡散関数の注意設計は安定性の維持と性能の向上に不可欠であるが, 強い解の欠如, 確率的不安定化, 不安定なオイラー離散化などの不適切な選択はニューラルSDEの性能に大きな影響を及ぼす可能性がある。
本研究では,Langevin型SDE,Linear Noise SDE,Geometric SDEの3つの安定クラスを提案する。
そして, 配電時の性能を良好に維持する上で, 過度な適合を効果的に防止し, その堅牢性を示す。
提案手法の有効性を評価するため, 補間, 予測, 分類タスクの4つのベンチマークデータセットに対して広範囲な実験を行い, 欠落率の異なる30個の公開データセットを用いて手法のロバスト性を解析した。
本研究は,実世界の不規則時系列データを扱う上で,提案手法の有効性を示すものである。
Irregular sampling intervals and missing values in real-world time series data present challenges for conventional methods that assume consistent intervals and complete data. Neural Ordinary Differential Equations (Neural ODEs) offer an alternative approach, utilizing neural networks combined with ODE solvers to learn continuous latent representations through parameterized vector fields. Neural Stochastic Differential Equations (Neural SDEs) extend Neural ODEs by incorporating a diffusion term, although this addition is not trivial, particularly when addressing irregular intervals and missing values. Consequently, careful design of drift and diffusion functions is crucial for maintaining stability and enhancing performance, while incautious choices can result in adverse properties such as the absence of strong solutions, stochastic destabilization, or unstable Euler discretizations, significantly affecting Neural SDEs' performance. In this study, we propose three stable classes of Neural SDEs: Langevin-type SDE, Linear Noise SDE, and Geometric SDE. Then, we rigorously demonstrate their robustness in maintaining excellent performance under distribution shift, while effectively preventing overfitting. To assess the effectiveness of our approach, we conduct extensive experiments on four benchmark datasets for interpolation, forecasting, and classification tasks, and analyze the robustness of our methods with 30 public datasets under different missing rates. Our results demonstrate the efficacy of the proposed method in handling real-world irregular time series data. | 翻訳日:2024-03-14 17:27:38 公開日:2024-03-13 |
# オープンソースソフトウェア分野の研究: ソーシャルと実践を拡大する
フィールド再配置のためのネットワーク
Open Source Software Field Research: Spanning Social and Practice Networks for Re-Entering the Field ( http://arxiv.org/abs/2402.14172v2 ) ライセンス: Link先を確認 | Sean P. Goggins, Kevin Lumbard, Matt Germonprez, Caifan Du, Karthik Ram, and James Howison | (参考訳) 社会技術研究には、オープンソースソフトウェアを構築するためのインフラを含む大規模な社会技術基盤から生まれる社会的サブネットワークが含まれる。
本稿では,これらのサブネットワークを研究者にとって有利に扱う。
この手法は、研究者がエンゲージメントフィールド研究中に隣り合うソーシャルサブネットワークをいかに最大限に利用できるかに焦点を当てた方法論的な合成を提供する。
具体的には、より広範な技術基盤の中で、ある社会サブシステムから別の社会サブシステムへの移行を支援するプラクティスとアーティファクトについて説明する。
サブネットワークを分散することの重要性を明らかにするため,社会工学研究者の育成における社会資本の議論と技術基盤の役割を取り入れた。
次に、契約、コンテキストマッピング、ジャーゴン能力、価値の返却、ブリッジングという5段階のプロセスの特徴付けを行う。
次に、企業オープンソースソフトウェアプロジェクトの研究経験と、その経験がオープンソース科学ソフトウェア研究の加速に果たす役割について、社会的資本をブリッジするレンズを通して説明します。
本分析に基づき, 大規模社会工学研究において, 社会的資本と技術的に獲得した社会資本の関係が欠落しているが重要な方法論的側面である, 技術的文脈と議論を共有する, 隣接するソーシャルサブネットワークにおけるフィールドワークへの関与を推奨する。
Sociotechnical research increasingly includes the social sub-networks that emerge from large-scale sociotechnical infrastructure, including the infrastructure for building open source software. This paper addresses these numerous sub-networks as advantageous for researchers. It provides a methodological synthesis focusing on how researchers can best span adjacent social sub-networks during engaged field research. Specifically, we describe practices and artifacts that aid movement from one social subsystem within a more extensive technical infrastructure to another. To surface the importance of spanning sub-networks, we incorporate a discussion of social capital and the role of technical infrastructure in its development for sociotechnical researchers. We then characterize a five-step process for spanning social sub-networks during engaged field research: commitment, context mapping, jargon competence, returning value, and bridging. We then present our experience studying corporate open source software projects and the role of that experience in accelerating our work in open source scientific software research as described through the lens of bridging social capital. Based on our analysis, we offer recommendations for engaging in fieldwork in adjacent social sub-networks that share a technical context and discussion of how the relationship between social and technically acquired social capital is a missing but critical methodological dimension for research on large-scale sociotechnical research. | 翻訳日:2024-03-14 17:27:37 公開日:2024-03-13 |
# TOOLVERIFIER: 自己検証による新しいツールの一般化
TOOLVERIFIER: Generalization to New Tools via Self-Verification ( http://arxiv.org/abs/2402.14158v2 ) ライセンス: Link先を確認 | Dheeraj Mekala, Jason Weston, Jack Lanchantin, Roberta Raileanu, Maria Lomeli, Jingbo Shang, Jane Dwivedi-Yu | (参考訳) ツールを使用するための言語モデルを教えることは、一般的なアシスタントを構築する上で重要なマイルストーンであるが、依然としてオープンな問題である。
微調整による特定のツールの使用の学習には大きな進歩があったが、言語モデルはまだ、ほんの数回のデモから新しいツールの堅牢な使用方法を学ぶのに苦労している。
本研究は,(1)ツール選択中のコントラスト質問を自己回答し,(2)パラメータ生成によって近接候補を識別する自己検証手法を提案する。
我々は、Llama-270Bを用いて、この目標のために合成的で高品質な自己生成データを構築する。
ToolBenchベンチマークによる4つのタスクに関する大規模な実験は、17のツールで構成されており、候補ツールの区別が微妙にニュアンスのあるシナリオであっても、数ショットベースラインよりも平均22%改善されていることを示している。
Teaching language models to use tools is an important milestone towards building general assistants, but remains an open problem. While there has been significant progress on learning to use specific tools via fine-tuning, language models still struggle with learning how to robustly use new tools from only a few demonstrations. In this work we introduce a self-verification method which distinguishes between close candidates by self-asking contrastive questions during (1) tool selection; and (2) parameter generation. We construct synthetic, high-quality, self-generated data for this goal using Llama-2 70B, which we intend to release publicly. Extensive experiments on 4 tasks from the ToolBench benchmark, consisting of 17 unseen tools, demonstrate an average improvement of 22% over few-shot baselines, even in scenarios where the distinctions between candidate tools are finely nuanced. | 翻訳日:2024-03-14 17:27:36 公開日:2024-03-13 |
# マトリックス生成物状態スケーリングによる測定誘起相転移
Measurement-induced phase transitions by matrix product states scaling ( http://arxiv.org/abs/2402.13160v2 ) ライセンス: Link先を確認 | Guillaume Cecile, Hugo L\'oio, Jacopo De Nardis | (参考訳) 本研究では, 時間依存性変動原理 (TDVP) アルゴリズムを用いて, 行列積状態 (MPS) を固定結合次元で連続監視した長い量子スピン鎖の時間発展について検討した。
後者は、保存電荷を持つ有効古典的非線形進化を与え、これは実際の量子進化を誤差まで近似する。
本研究では, 比較的低い結合次元の値のスケーリング解析により, モニタリング強度の位相遷移が検出可能であることを示す。
この方法は、多体量子系における臨界測定誘起相転移パラメータの効率的な数値決定を可能にする。
さらに,U(1)大域スピン電荷の存在下では,局所部分電荷のゆらぎを非常に大きな時間で研究することによって検出する絡み遷移から十分に分離された電荷吸収遷移の存在が示される。
我々の研究は、任意の次元と大きさの系における測定誘起相転移を特定する方法として、TDVPの時間進化を裏付けるものである。
We study the time evolution of long quantum spin chains subjected to continuous monitoring via matrix product states (MPS) at fixed bond dimension, with the Time-Dependent Variational Principle (TDVP) algorithm. The latter gives an effective classical non-linear evolution with a conserved charge, which approximates the real quantum evolution up to an error. We show that the error rate displays a phase transition in the monitoring strength, which can be well detected by scaling analysis with relatively low values of bond dimensions. The method allows for an efficient numerical determination of the critical measurement-induced phase transition parameters in many-body quantum systems. Moreover, in the presence of U(1) global spin charge, we show the existence of a charge-sharpening transition well separated from the entanglement transition which we detect by studying the charge fluctuations of a local sub-part of the system at very large times. Our work substantiates the TDVP time evolution as a method to identify measured-induced phase transitions in systems of arbitrary dimensions and sizes. | 翻訳日:2024-03-14 17:27:35 公開日:2024-03-13 |
# 4-8GHz動作インダクタンストラベリングパラメトリック増幅器
量子限界に近い雑音特性を有する4波混合
A 4-8 GHz Kinetic Inductance Travelling-Wave Parametric Amplifier Using Four-Wave Mixing with Near Quantum-Limit Noise Performance ( http://arxiv.org/abs/2402.11751v3 ) ライセンス: Link先を確認 | Farzad Faramarzi, Ryan Stephenson, Sasha Sypkens, Byeong H. Eom, Henry LeDuc, and Peter Day | (参考訳) 動インダクタンス進行波パラメトリック増幅器(KI-TWPA)は、量子制限感度に近づき、比較的高いダイナミックレンジを有する広い瞬時帯域を有する。
このため、低温検出器や超伝導量子ビットに適した読み出し装置であり、量子センシングに様々な応用がある。
本研究では,NbTiNマイクロストリップ伝送線路における4波長混合に基づくKI-TWPAの設計,製造,性能について述べる。
別個の高周波数帯域で発生する画像トーンから汚染されることなく、4〜8〜GHzの信号帯域を増幅する。
4〜8〜GHz帯は、マイクロ波速度インダクタンス検出器(MKID)やジョセフソンジャンクションベースの量子ビットなどの低温検出器の読み出しに一般的に用いられている。
1-dBゲイン圧縮点が-58dBmの4波長混合による最大ゲイン20dB以上を,そのバンドよりも15dBのゲイン15dBで測定した。
帯域幅とピークゲインは、ポンプ音の周波数と電力を調整することで調整可能である。
また、Y-factor法を用いて、4.5 - 8GHzの1.5$光子に対して0.5ドル/0.5ドル/0.5ドル/0.5ドル/の増幅雑音を測定する。
Kinetic inductance traveling-wave parametric amplifiers (KI-TWPA) have a wide instantaneous bandwidth with near quantum-limited sensitivity and a relatively high dynamic range. Because of this, they are suitable readout devices for cryogenic detectors and superconducting qubits and have a variety of applications in quantum sensing. This work discusses the design, fabrication, and performance of a KI-TWPA based on four-wave mixing in a NbTiN microstrip transmission line. This device amplifies a signal band from 4 to 8~GHz without contamination from image tones, which are produced in a separate higher frequency band. The 4 - 8~GHz band is commonly used to read out cryogenic detectors, such as microwave kinetic inductance detectors (MKIDs) and Josephson junction-based qubits. We report a measured maximum gain of over 20 dB using four-wave mixing with a 1-dB gain compression point of -58 dBm at 15 dB of gain over that band. The bandwidth and peak gain are tunable by adjusting the pump-tone frequency and power. Using a Y-factor method, we measure an amplifier-added noise of $ 0.5 \leq N_{added} \leq 1.5$ photons from 4.5 - 8 GHz. | 翻訳日:2024-03-14 17:27:35 公開日:2024-03-13 |
# LongAgent:マルチエージェントによる言語モデルから128kコンテキストへのスケーリング
コラボレーション
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration ( http://arxiv.org/abs/2402.11550v2 ) ライセンス: Link先を確認 | Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang | (参考訳) 大規模言語モデル(LLM)は、言語理解と複雑な推論タスクの実行において、優れたパフォーマンスを示している。
しかし、長いコンテキストウィンドウを持つLLMは、高価なトレーニングコストと高い推論遅延で悪名高い。
GPT-4やClaude2のような最も先進的なモデルでさえ、100kドルを超えるトークンの入力を処理するときにしばしば間違いを犯す。
本稿では、128KのコンテキストにLLM(eg, LLaMA)をスケールし、GPT-4と比較して長文処理において潜在的優位性を示すマルチエージェント協調に基づく手法である \textsc{LongAgent} を提案する。
textsc{LongAgent} では、リーダーがユーザの意図を理解し、チームメンバにドキュメントから情報を取得するように指示する役割を担います。
メンバーの幻覚のため、リーダーが数十人から数百人のメンバーの反応から正確な情報を得るのは簡単ではない。
これを解決するために,情報共有による幻覚による応答競合を解決するための「textit{inter-member communication}」機構を開発した。
実験結果から, <textsc{LongAgent} が長文処理の代替となる可能性が示唆された。
LLaMA-7Bでインスタンス化したエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクを、GPT-4と比べて大幅に改善した。
Large language models (LLMs) have demonstrated impressive performance in understanding language and executing complex reasoning tasks. However, LLMs with long context windows have been notorious for their expensive training costs and high inference latency. Even the most advanced models such as GPT-4 and Claude2 often make mistakes when processing inputs of over $100k$ tokens, a phenomenon also known as \textit{lost in the middle}. In this paper, we propose \textsc{LongAgent}, a method based on multi-agent collaboration, which scales LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority in long-text processing compared to GPT-4. In \textsc{LongAgent}, a leader is responsible for understanding user intent and directing team members to acquire information from documents. Due to members' hallucinations, it is non-trivial for a leader to obtain accurate information from the responses of dozens to hundreds of members. To address this, we develop an \textit{inter-member communication} mechanism to resolve response conflicts caused by hallucinations through information sharing. Our experimental results indicate that \textsc{LongAgent} offers a promising alternative for long-text processing. The agent team instantiated with LLaMA-7B achieves significant improvements in tasks such as 128k-long text retrieval, multi-hop question answering, compared to GPT-4. | 翻訳日:2024-03-14 17:27:34 公開日:2024-03-13 |
# 会話の秘密を暴露する: ユーザーを維持する要因
ロールプレイングダイアログエージェントについて
Unveiling the Secrets of Engaging Conversations: Factors that Keep Users Hooked on Role-Playing Dialog Agents ( http://arxiv.org/abs/2402.11522v2 ) ライセンス: Link先を確認 | Shuai Zhang, Yu Lu, Junwen Liu, Jia Yu, Huachuan Qiu, Yuming Yan, Zhenzhong Lan | (参考訳) ダイアログエージェントの人間的な性質が増すにつれ、人々は短い時間から相当な時間にまたがる会話に従事している。
これらの相互作用の持続に寄与する要因を理解することは重要であるが、既存の研究は主にこのような長く実際の会話をほとんど探索しない短期的なシミュレーションに焦点を当てている。
本稿では,ロールプレイングモデルとの実際の相互作用における保持率に影響を与える要因について検討する。
実際のユーザと何千ものキャラクタ間のインタラクションの大規模なデータセットを解析することにより,複数の要因を体系的に検討し,ユーザ保持率への影響を評価する。
驚くべきことに、ボットが果たす役割を具現化する程度は保持率に限られた影響を与え、各ターンの長さは保持率に大きな影響を及ぼす。
本研究は,ロールプレイングモデルによるユーザエンゲージメントの重要な側面を明らかにし,ロールプレイング目的の大規模言語モデルの開発において,今後の改善に向けた貴重な洞察を提供する。
With the growing humanlike nature of dialog agents, people are now engaging in extended conversations that can stretch from brief moments to substantial periods of time. Understanding the factors that contribute to sustaining these interactions is crucial, yet existing studies primarily focusing on short-term simulations that rarely explore such prolonged and real conversations. In this paper, we investigate the factors influencing retention rates in real interactions with roleplaying models. By analyzing a large dataset of interactions between real users and thousands of characters, we systematically examine multiple factors and assess their impact on user retention rate. Surprisingly, we find that the degree to which the bot embodies the roles it plays has limited influence on retention rates, while the length of each turn it speaks significantly affects retention rates. This study sheds light on the critical aspects of user engagement with role-playing models and provides valuable insights for future improvements in the development of large language models for role-playing purposes. | 翻訳日:2024-03-14 17:27:34 公開日:2024-03-13 |
# コヒーレント多光子共鳴における波-粒子相関
light‐matter interaction
Wave-particle correlations in multiphoton resonances of coherent light-matter interaction ( http://arxiv.org/abs/2402.09308v3 ) ライセンス: Link先を確認 | Th. K. Mavrogordatos | (参考訳) 多光子動作下でのJaynes-Cummings(JC)モデルにおける非古典光子列による場振幅の条件測定について検討する。
我々は、[G. T. Foster et al , Phys. Rev. 85 3149 (2000)] の精神における明確な非古典的進化を明らかにするために、即時的な実験関係の相関子を用いる。
相関子は、JCソースマスター方程式の異なる解から得られる画像の相補的な性質に依存している。
直接光検出には, 時間スケール, 量子ビート, 半古典振動の条件付き分離が必要であることを示す。
我々は、散乱光の粒子の性質に関連する待ち時間分布の解析式において量子ビートを抽出し、特定の動作条件においてその波動特性の特徴である二次振幅の負のスペクトルを求める。
最後に、波動-粒子相関器による二重面を共同で検出し、測定中の2次振幅に依存する定常状態に対する揺らぎの非対称回帰を示す。
We discuss the conditional measurement of field amplitudes by a nonclassical photon sequence in the Jaynes-Cummings (JC) model under multiphoton operation. We do so by employing a correlator of immediate experimental relevance to reveal a distinct nonclassical evolution in the spirit of [G. T. Foster et al., Phys. Rev. Lett. 85 3149 (2000)]. The correlator relies on the complementary nature of the pictures obtained from different unravelings of a JC source master equation. We demonstrate that direct photodetection entails a conditioned separation of timescales, a quantum beat and a semiclassical oscillation, produced by the coherent light-matter interaction in its strong-coupling limit. We single the quantum beat out in the analytical expression for the waiting-time distribution, pertaining to the particle nature of the scattered light, and find a negative spectrum of quadrature amplitude squeezing, characteristic of its wave nature for certain operation settings. Finally, we jointly detect the dual aspects through the wave-particle correlator, showing an asymmetric regression of fluctuations to the steady state which depends on the quadrature amplitude being measured. | 翻訳日:2024-03-14 17:27:32 公開日:2024-03-13 |
# 広帯域間エネルギー消費の比較分析
非現実的でユニティなビデオゲームエンジン
A Comparative Analysis of Energy Consumption Between The Widespread Unreal and Unity Video Game Engines ( http://arxiv.org/abs/2402.06346v2 ) ライセンス: Link先を確認 | Carlos P\'erez, Javier Ver\'on, Francisca P\'erez, M \'Angeles Moraga, Coral Calero, Carlos Cetina | (参考訳) コンピューティング活動の総エネルギーコストは着実に増加しており、今後数十年で世界有数のエネルギー消費国になると予想されている。
しかし、おそらくその相対的な若さのため、ゲーム部門は他のコンピュータ技術と同じレベルの環境意識をまだ開発していない。
この研究は、最も広く使われている業界規模のビデオゲームエンジンであるUnityとUnreal Engineのエネルギー消費を評価する。
具体的には,ゲームに関連する3つのシナリオ(Physics, Statics Meshes, Dynamic Meshes)を用いて,エンジンのエネルギー消費を比較した。
目的は、それぞれのエンジンがエネルギー消費に与える影響を判断することである。
ゲームエンジンのエネルギー消費は351%がUnity、静的メッシュが17%がUnity、動的メッシュが26%がUnreal Engineである。
これらの結果は、少なくとも年間51TWhの節減が可能であり、年間1300万世帯近くが消費しているのに匹敵する。
The total energy cost of computing activities is steadily increasing and projections indicate that it will be one of the dominant global energy consumers in the coming decades. However, perhaps due to its relative youth, the video game sector has not yet developed the same level of environmental awareness as other computing technologies despite the estimated three billion regular video game players in the world. This work evaluates the energy consumption of the most widely used industry-scale video game engines: Unity and Unreal Engine. Specifically, our work uses three scenarios representing relevant aspects of video games (Physics, Statics Meshes, and Dynamic Meshes) to compare the energy consumption of the engines. The aim is to determine the influence of using each of the two engines on energy consumption. Our research has confirmed significant differences in the energy consumption of video game engines: 351% in Physics in favor of Unity, 17% in Statics Meshes in favor of Unity, and 26% in Dynamic Meshes in favor of Unreal Engine. These results represent an opportunity for worldwide potential savings of at least 51 TWh per year, equivalent to the annual consumption of nearly 13 million European households, that might encourage a new branch of research on energy-efficient video game engines. | 翻訳日:2024-03-14 17:27:31 公開日:2024-03-13 |
# シュタイン・ボルツマンサンプリング:大域最適化のための変分的アプローチ
Stein Boltzmann Sampling: A Variational Approach for Global Optimization ( http://arxiv.org/abs/2402.04689v4 ) ライセンス: Link先を確認 | Ga\"etan Serr\'e (CB), Argyris Kalogeratos (CB), Nicolas Vayatis (CB) | (参考訳) 本稿では,Stein Boltzmann Sampling (SBS) と呼ばれるリプシッツ関数を大域的に最適化するフローベース手法を提案する。
我々の手法は、最適化される関数の最小値の集合に対して漸近的に一様となるボルツマン分布からサンプリングする。
候補解は \emph{Stein Variational Gradient Descent} アルゴリズムでサンプリングされる。
提案手法の漸近収束性を証明し、2つのSBS変種を導入し、様々なベンチマーク関数に対する最先端のグローバル最適化アルゴリズムとの詳細な比較を行う。
提案手法の設計, 理論的結果, 実験により, SBSは特に, 効率的なグローバル最適化手法の継続に好適であることが示唆された。
In this paper, we introduce a new flow-based method for global optimization of Lipschitz functions, called Stein Boltzmann Sampling (SBS). Our method samples from the Boltzmann distribution that becomes asymptotically uniform over the set of the minimizers of the function to be optimized. Candidate solutions are sampled via the \emph{Stein Variational Gradient Descent} algorithm. We prove the asymptotic convergence of our method, introduce two SBS variants, and provide a detailed comparison with several state-of-the-art global optimization algorithms on various benchmark functions. The design of our method, the theoretical results, and our experiments, suggest that SBS is particularly well-suited to be used as a continuation of efficient global optimization methods as it can produce better solutions while making a good use of the budget. | 翻訳日:2024-03-14 17:27:30 公開日:2024-03-13 |
# SGS-SLAM: 感性ガウススプラッティングによるニューラルディエンスSLAM
SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM ( http://arxiv.org/abs/2402.03246v4 ) ライセンス: Link先を確認 | Mingrui Li, Shuhong Liu, Heng Zhou, Guohao Zhu, Na Cheng, Tianchen Deng, Hongyu Wang | (参考訳) SGS-SLAMはガウススプラッティングに基づく最初の意味的視覚的SLAMシステムである。
マルチチャネル最適化を通じて外観、幾何学、意味的特徴を取り入れ、高品質なレンダリング、シーン理解、オブジェクトレベルの幾何学において、神経暗黙のSLAMシステムの過度な制限に対処する。
オブジェクト最適化における従来の深度と色損失の欠点を効果的に補うユニークな意味的特徴損失を導入する。
意味誘導型キーフレーム選択戦略により,累積誤差による誤検出を防止する。
大規模な実験により、SGS-SLAMは、リアルタイムレンダリング機能を確保しながら、カメラポーズ推定、マップ再構成、正確なセマンティックセグメンテーション、およびオブジェクトレベルの幾何的精度で最先端のパフォーマンスを提供することが示された。
We present SGS-SLAM, the first semantic visual SLAM system based on Gaussian Splatting. It incorporates appearance, geometry, and semantic features through multi-channel optimization, addressing the oversmoothing limitations of neural implicit SLAM systems in high-quality rendering, scene understanding, and object-level geometry. We introduce a unique semantic feature loss that effectively compensates for the shortcomings of traditional depth and color losses in object optimization. Through a semantic-guided keyframe selection strategy, we prevent erroneous reconstructions caused by cumulative errors. Extensive experiments demonstrate that SGS-SLAM delivers state-of-the-art performance in camera pose estimation, map reconstruction, precise semantic segmentation, and object-level geometric accuracy, while ensuring real-time rendering capabilities. | 翻訳日:2024-03-14 17:27:29 公開日:2024-03-13 |
# RRWNet:効率的な網膜動脈/静脈の再帰的リファインメントネットワーク
セグメンテーションと分類
RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification ( http://arxiv.org/abs/2402.03166v2 ) ライセンス: Link先を確認 | Jos\'e Morano and Guilherme Aresta and Hrvoje Bogunovi\'c | (参考訳) 網膜血管の校正と構成は、様々な疾患や医学的状態において重要なバイオマーカーとなる。
網膜血管の徹底的な解析では、血管の分画と血管と静脈に分類する必要がある。
しかしながら、これらのタスクを手動で実行することは労働集約的であり、ヒューマンエラーを起こしやすい。
この課題に対処するためにいくつかの自動化手法が提案されているが、現在の技術状況は、セグメンテーションマップのトポロジ的一貫性に影響を及ぼす分類誤差の顕在化による課題に直面している。
本稿では,この制限に対処する新しいエンドツーエンドディープラーニングフレームワークであるRRWNetを紹介する。
このフレームワークは、セマンティックセグメンテーションマップを再帰的に洗練し、明確な分類エラーを修正し、トポロジ的一貫性を向上させる完全な畳み込みニューラルネットワークで構成されている。
特にRRWNetは、入力画像からベースセグメンテーションマップを生成するBaseサブネットワークと、これらのマップを反復的に再帰的に改善するRecursive Refinementサブネットワークの2つの特別なサブネットワークで構成されている。
3つの異なる公開データセットの評価は,提案手法の最先端性能を実証し,既存の手法よりも顕著な分類誤差が少なく,より位相的に一貫したセグメンテーションマップが得られることを示した。
さらに、RRWNet内のRecursive Refinementモジュールは、他のメソッドからのセグメンテーションマップの処理後処理に有効であることを証明し、その可能性を示す。
モデルコード、重み、予測はhttps://github.com/j-morano/rrwnet.comで公開される。
The caliber and configuration of retinal blood vessels serve as important biomarkers for various diseases and medical conditions. A thorough analysis of the retinal vasculature requires the segmentation of the blood vessels and their classification into arteries and veins, typically performed on color fundus images obtained by retinography. However, manually performing these tasks is labor-intensive and prone to human error. While several automated methods have been proposed to address this task, the current state of art faces challenges due to manifest classification errors affecting the topological consistency of segmentation maps. In this work, we introduce RRWNet, a novel end-to-end deep learning framework that addresses this limitation. The framework consists of a fully convolutional neural network that recursively refines semantic segmentation maps, correcting manifest classification errors and thus improving topological consistency. In particular, RRWNet is composed of two specialized subnetworks: a Base subnetwork that generates base segmentation maps from the input images, and a Recursive Refinement subnetwork that iteratively and recursively improves these maps. Evaluation on three different public datasets demonstrates the state-of-the-art performance of the proposed method, yielding more topologically consistent segmentation maps with fewer manifest classification errors than existing approaches. In addition, the Recursive Refinement module within RRWNet proves effective in post-processing segmentation maps from other methods, further demonstrating its potential. The model code, weights, and predictions will be publicly available at https://github.com/j-morano/rrwnet. | 翻訳日:2024-03-14 17:27:29 公開日:2024-03-13 |
# ガウスエンタングルメント測定:マルチパートエンタングルメントへの応用
グラフ状態とボソニック場の理論
Gaussian Entanglement Measure: Applications to Multipartite Entanglement of Graph States and Bosonic Field Theory ( http://arxiv.org/abs/2401.17938v2 ) ライセンス: Link先を確認 | Matteo Gori, Matthieu Sarkis, Alexandre Tkatchenko | (参考訳) 複雑な量子系の理解を深めるためには,計算的に実現可能なマルチパーティ・エンタングルメント対策が必要である。
フービニ・スタディ計量に基づくエンタングルメント尺度は、Cocchiarellaと同僚によって最近導入され、計算の容易さ、深い幾何学的解釈、マルチパーティントエンタングルメントの適用性など、既存の方法に対するいくつかの利点を示している。
本稿では,多モードガウス状態に対する幾何学的絡み合いの一般化であるガウスエンタングルメント尺度(GEM)を,システム全体のフラグメントの純度に基づいて提示する。
我々の分析では、ビームスプリッタとスクイーズ変換を組み合わせた2モードガウス状態へのGEMの適用を含む。
さらに、各頂点がボゾンモードを表し、各辺が様々なグラフトポロジーの二次変換を表す3モードと4モードのグラフ状態についても検討する。
興味深いことに、異なる位相を持つグラフ状態に対する幾何学的絡み合い尺度の比率は、基礎となるグラフの接続性に関連する性質を自然に捉えている。
最後に、多くの自由度を持つ系に対する計算可能な多部交絡測度を提供することにより、時空の異なる領域間の標準双部交絡エントロピーアプローチを超えて、$\mathbb R_t\times S^1$ 上の自由ボソニック場理論に関する洞察を得るために、我々の定義が利用できることを示す。
この結果は、GEMが量子情報理論が定義されている空間の位相的性質を研究するために量子情報理論ツールを使用する方法の道を開いたことを示唆している。
Computationally feasible multipartite entanglement measures are needed to advance our understanding of complex quantum systems. An entanglement measure based on the Fubini-Study metric has been recently introduced by Cocchiarella and co-workers, showing several advantages over existing methods, including ease of computation, a deep geometrical interpretation, and applicability to multipartite entanglement. Here, we present the Gaussian Entanglement Measure (GEM), a generalization of geometric entanglement measure for multimode Gaussian states, based on the purity of fragments of the whole systems. Our analysis includes the application of GEM to a two-mode Gaussian state coupled through a combined beamsplitter and a squeezing transformation. Additionally, we explore 3-mode and 4-mode graph states, where each vertex represents a bosonic mode, and each edge represents a quadratic transformation for various graph topologies. Interestingly, the ratio of the geometric entanglement measures for graph states with different topologies naturally captures properties related to the connectivity of the underlying graphs. Finally, by providing a computable multipartite entanglement measure for systems with a large number of degrees of freedom, we show that our definition can be used to obtain insights into a free bosonic field theory on $\mathbb R_t\times S^1$, going beyond the standard bipartite entanglement entropy approach between different regions of spacetime. The results presented herein suggest how the GEM paves the way for using quantum information-theoretical tools to study the topological properties of the space on which a quantum field theory is defined. | 翻訳日:2024-03-14 17:27:28 公開日:2024-03-13 |
# スパースバイオデータのための高速デュアル正規化オートエンコーダ
Fast Dual-Regularized Autoencoder for Sparse Biological Data ( http://arxiv.org/abs/2401.16664v2 ) ライセンス: Link先を確認 | Aleksandar Poleksic | (参考訳) スパースデータからの相関推論は、製品レコメンデーションから薬物発見まで幅広い応用において重要な課題である。
最近提案されたスパース行列完備化の線形モデルでは、より洗練されたレコメンデータシステムアルゴリズムよりも高速で精度が高いことが示されている。
ここでは、線形モデルを拡張して、双対近傍正規化行列完備問題に対する浅いオートエンコーダを開発する。
本研究は, 薬物と薬物の相互作用と薬物の放出関連性を予測する上で, 既存の最先端技術に対するアプローチの速度と精度の優位性を実証する。
Relationship inference from sparse data is an important task with applications ranging from product recommendation to drug discovery. A recently proposed linear model for sparse matrix completion has demonstrated surprising advantage in speed and accuracy over more sophisticated recommender systems algorithms. Here we extend the linear model to develop a shallow autoencoder for the dual neighborhood-regularized matrix completion problem. We demonstrate the speed and accuracy advantage of our approach over the existing state-of-the-art in predicting drug-target interactions and drug-disease associations. | 翻訳日:2024-03-14 17:27:27 公開日:2024-03-13 |
# ToPro: 言語横断シーケンスのためのToken-Level Prompt分解
ラベル付けタスク
ToPro: Token-Level Prompt Decomposition for Cross-Lingual Sequence Labeling Tasks ( http://arxiv.org/abs/2401.16589v2 ) ライセンス: Link先を確認 | Bolei Ma, Ercong Nie, Shuzhou Yuan, Helmut Schmid, Michael F\"arber, Frauke Kreuter and Hinrich Sch\"utze | (参考訳) プロンプトに基づく手法は、ゼロショット言語間理解のための多言語事前学習言語モデルに成功している。
しかし、これまでのほとんどの研究は文レベルの分類タスクに重点を置いており、名前付きエンティティ認識(NER)やPOS(Part-of-Speech)タグ付けのようなトークンレベルのラベル付けタスクのみが検討されている。
本稿ではトークンレベルのシーケンスラベリングタスクのプロンプトベースの手法であるToken-Level Prompt Decomposition(ToPro)を提案する。
ToProメソッドは入力文を単一のトークンに分解し、各トークンに1つのプロンプトテンプレートを適用する。
マルチリンガルNERとPOSタグ付けデータセットの実験により,ToProをベースとした微調整性能が,VanillaファインチューニングとPrompt-Tuningをゼロショットのクロスリンガル転送,特に原語とタイポロジー的に異なる言語に対して向上することが示された。
提案手法は,mT5モデルを用いた場合の最先端性能も達成する。
さらに,多言語大言語モデルにおける探索的研究により,ToProが現在のテキスト内学習法よりも優れた性能を示した。
全体的なパフォーマンス改善は、ToProがシーケンシャルラベリングタスクの新しい単純なベンチマークメソッドとして機能する可能性があることを示している。
Prompt-based methods have been successfully applied to multilingual pretrained language models for zero-shot cross-lingual understanding. However, most previous studies primarily focused on sentence-level classification tasks, and only a few considered token-level labeling tasks such as Named Entity Recognition (NER) and Part-of-Speech (POS) tagging. In this paper, we propose Token-Level Prompt Decomposition (ToPro), which facilitates the prompt-based method for token-level sequence labeling tasks. The ToPro method decomposes an input sentence into single tokens and applies one prompt template to each token. Our experiments on multilingual NER and POS tagging datasets demonstrate that ToPro-based fine-tuning outperforms Vanilla fine-tuning and Prompt-Tuning in zero-shot cross-lingual transfer, especially for languages that are typologically different from the source language English. Our method also attains state-of-the-art performance when employed with the mT5 model. Besides, our exploratory study in multilingual large language models shows that ToPro performs much better than the current in-context learning method. Overall, the performance improvements show that ToPro could potentially serve as a novel and simple benchmarking method for sequence labeling tasks. | 翻訳日:2024-03-14 17:27:27 公開日:2024-03-13 |
# 拡散モデルにおけるニューラルネットワークに基づくスコア推定:最適化
一般化
Neural Network-Based Score Estimation in Diffusion Models: Optimization and Generalization ( http://arxiv.org/abs/2401.15604v3 ) ライセンス: Link先を確認 | Yinbin Han, Meisam Razaviyayn, Renyuan Xu | (参考訳) 拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
この疑問に答える第一歩として、勾配降下法で学習したニューラルネットワークを用いてスコア推定を解析するための数学的枠組みを確立する。
本分析では,学習手順の最適化と一般化の両面を網羅する。
特に,雑音ラベルを用いた回帰式として,デノイングスコアマッチング問題を定式化するためのパラメトリック形式を提案する。
標準教師付き学習装置と比較して、スコアマッチング問題は、非有界入力、ベクトル値出力、追加の時間変数などの異なる課題を導入し、既存のテクニックが直接適用されないようにする。
本稿では、適切な設計により、トレーニング中のニューラルネットワークの進化を、一連のカーネル回帰タスクによって正確にモデル化できることを示す。
さらに、勾配降下に早期停止則を適用し、ニューラルタンジェントカーネルの最近の発展を活用することにより、観測にノイズがあるにもかかわらず、スコア関数をニューラルネットワークで学習するための最初の一般化誤差(サンプル複雑性)を確立する。
我々の分析は、ニューラルネットワークの新たなパラメトリック形式と、スコアマッチングと回帰分析の革新的な関係に基礎を置いており、高度な統計および最適化技術の適用を容易にしている。
Diffusion models have emerged as a powerful tool rivaling GANs in generating high-quality samples with improved fidelity, flexibility, and robustness. A key component of these models is to learn the score function through score matching. Despite empirical success on various tasks, it remains unclear whether gradient-based algorithms can learn the score function with a provable accuracy. As a first step toward answering this question, this paper establishes a mathematical framework for analyzing score estimation using neural networks trained by gradient descent. Our analysis covers both the optimization and the generalization aspects of the learning procedure. In particular, we propose a parametric form to formulate the denoising score-matching problem as a regression with noisy labels. Compared to the standard supervised learning setup, the score-matching problem introduces distinct challenges, including unbounded input, vector-valued output, and an additional time variable, preventing existing techniques from being applied directly. In this paper, we show that with proper designs, the evolution of neural networks during training can be accurately modeled by a series of kernel regression tasks. Furthermore, by applying an early-stopping rule for gradient descent and leveraging recent developments in neural tangent kernels, we establish the first generalization error (sample complexity) bounds for learning the score function with neural networks, despite the presence of noise in the observations. Our analysis is grounded in a novel parametric form of the neural network and an innovative connection between score matching and regression analysis, facilitating the application of advanced statistical and optimization techniques. | 翻訳日:2024-03-14 17:27:26 公開日:2024-03-13 |
# 深層学習に基づく農業推薦システム:A
多変量気象予測手法
Agricultural Recommendation System based on Deep Learning: A Multivariate Weather Forecasting Approach ( http://arxiv.org/abs/2401.11410v2 ) ライセンス: Link先を確認 | Md Zubair (1), Md. Shahidul Salim (2), Mehrab Mustafy Rahman (3), Mohammad Jahid Ibna Basher (1), Shahin Imran (4) and Iqbal H. Sarker (5) ((1) Chittagong University of Engineering & Technology, Chittagong, Bangladesh, (2) Khulna University of Engineering & Technology, Khulna, Bangladesh, (3) Islamic University of Technology, Gazipur, Bangladesh, (4) Khulna Agricultural University, Khulna, Bangladesh, (5) Edith Cowan University, Perth, Australia) | (参考訳) バングラデシュは主に農業国であり、農業部門は経済成長を加速し、人々の食料安全保障を可能にする上で重要な役割を担っている。
このセクターのパフォーマンスは、食料安全保障、雇用創出、貧困緩和、人的資源開発、その他の経済・社会力といった主要なマクロ経済目標に圧倒的な影響を与えている。
バングラデシュの労働集約農業は食糧穀物生産を着実に増加させているが、大雨や低温、干ばつなどの悪天候に悩まされることが多い。
その結果、これらの要因は食料生産を著しく妨げ、国の全体的な食料安全保障を危険にさらすことになった。
そこで本研究では,天気予報モデルを用いた環境適応型作物推薦システムを提案する。
気象予報モデルとして多変量重畳Bi-LSTM(時間分散層を有する3層Bi-LSTM)ネットワークが広く評価されている。
提案した気象モデルは、バングラデシュの任意の場所において平均R2乗平均0.9824で降雨、気温、湿度、日光を予測でき、他の最先端のLSTMモデルよりも優れている。
これらの予測は、実効的な農業決定を生み出す上で、我々のシステムを導く。
さらに、我々の本格的なシステムは、農作物を保護するための予防措置を実施できるように、極端な気象状況について農家に警告することができる。
最終的に、このシステムはバングラデシュの洪水や干ばつによる地域での知識に基づく作物提案にも長けている。
Bangladesh is predominantly an agricultural country, where the agrarian sector plays an essential role in accelerating economic growth and enabling the food security of the people. The performance of this sector has an overwhelming impact on the primary macroeconomic objectives like food security, employment generation, poverty alleviation, human resources development, and other economic and social forces. Although Bangladesh's labor-intensive agriculture has achieved steady increases in food grain production, it often suffered from unfavorable weather conditions such as heavy rainfall, low temperature, and drought. Consequently, these factors hinder the production of food substantially, putting the country's overall food security in danger. In order to have a profitable, sustainable, and farmer-friendly agricultural practice, this paper proposes a context-based crop recommendation system powered by a weather forecast model. With extensive evaluation, the multivariate Stacked Bi-LSTM (three Bi-LSTM layers with a time Distributed layer) Network is employed as the weather forecasting model. The proposed weather model can forecast Rainfall, Temperature, Humidity, and Sunshine for any given location in Bangladesh with an average R-squared value of 0.9824, and the model outperforms other state-of-the-art LSTM models. These predictions guide our system in generating viable farming decisions. Additionally, our full-fledged system is capable of alerting the farmers about extreme weather conditions so that preventive measures can be undertaken to protect the crops. Finally, the system is also adept at making knowledge-based crop suggestions for the flood and drought-prone regions of Bangladesh. | 翻訳日:2024-03-14 17:27:25 公開日:2024-03-13 |
# アルカリ土中の微細構造量子のコヒーレント制御
原子
Coherent Control of the Fine-Structure Qubit in a Single Alkaline-Earth Atom ( http://arxiv.org/abs/2401.10679v2 ) ライセンス: Link先を確認 | Govind Unnikrishnan, Philipp Ilzh\"ofer, Achim Scholz, Christian H\"olzl, Aaron G\"otzelmann, Ratnesh Kumar Gupta, Jiachen Zhao, Jennifer Krauter, Sebastian Weber, Nastasia Makki, Hans Peter B\"uchler, Tilman Pfau, Florian Meinert | (参考訳) 準安定な微細構造状態である${3\rm{P}_0}$と${3\rm{P}_2}$の単一の$^{88}$Sr原子を光学的ツイーザに閉じ込めた新しい中性原子量子ビットを初めて実現したことを報告した。
キュービット状態のラマンカップリングは、高速なライドバーグ媒介の2体ゲートと同等の高速な単一量子ビット回転を約束する。
我々は、キュービットの準備、読み出し、コヒーレントな制御を実証する。
一対の位相同期クロックレーザーを用いて17 THz以上のエネルギーギャップを埋めるRabi発振を駆動するのに加えて、ラムゼー分光を行い、逆量子ビットコヒーレンス時間$T_2$を抽出する。
tweezer をマジックトラップ条件に調整すると、外部制御磁場による${^3\rm{P}_2}$状態のテンソル偏光率を調整し、$T_2 = 1.2$msを計測する。
我々は、観察されたコヒーレンス時間とプロジェクトの改善を近い将来に制限する主な制約を特定します。
我々の研究は、中性原子ベースの量子コンピューティングのための未探索の量子ビット符号化概念の扉を開く。
We report on the first realization of a novel neutral atom qubit encoded in the metastable fine-structure states ${^3\rm{P}_0}$ and ${^3\rm{P}_2}$ of single $^{88}$Sr atoms trapped in an optical tweezer. Raman coupling of the qubit states promises rapid single-qubit rotations on par with the fast Rydberg-mediated two-body gates. We demonstrate preparation, read-out, and coherent control of the qubit. In addition to driving Rabi oscillations bridging an energy gap of more than 17 THz using a pair of phase-locked clock lasers, we also carry out Ramsey spectroscopy to extract the transverse qubit coherence time $T_2$. When the tweezer is tuned into magic trapping conditions, which is achieved in our setup by tuning the tensor polarizability of the ${^3\rm{P}_2}$ state via an external control magnetic field, we measure $T_2 = 1.2$ ms. A microscopic quantum mechanical model is used to simulate our experiments including dominant noise sources. We identify the main constraints limiting the observed coherence time and project improvements to our system in the immediate future. Our work opens the door for a so far unexplored qubit encoding concept for neutral atom based quantum computing. | 翻訳日:2024-03-14 17:27:25 公開日:2024-03-13 |
# 混合サンプリングによるDP-SGDのTight Group-Level DP保証
ガウスのメカニズム
Tight Group-Level DP Guarantees for DP-SGD with Sampling via Mixture of Gaussians Mechanisms ( http://arxiv.org/abs/2401.10294v2 ) ライセンス: Link先を確認 | Arun Ganesh | (参考訳) 本稿では,Poisson サンプリングや固定バッチサイズサンプリングを用いて,DP-SGD に対するグループレベルの $(\epsilon, \delta)$-DP 保証の計算手順を提案する。
実装における離散化エラーに対して、この手順によって計算されたDP保証は厳密である(全ての中間イテレートを解放すると仮定する)。
We give a procedure for computing group-level $(\epsilon, \delta)$-DP guarantees for DP-SGD, when using Poisson sampling or fixed batch size sampling. Up to discretization errors in the implementation, the DP guarantees computed by this procedure are tight (assuming we release every intermediate iterate). | 翻訳日:2024-03-14 17:27:24 公開日:2024-03-13 |
# ブリッジング国家と歴史表現:理解
自己予測RL
Bridging State and History Representations: Understanding Self-Predictive RL ( http://arxiv.org/abs/2401.08898v2 ) ライセンス: Link先を確認 | Tianwei Ni, Benjamin Eysenbach, Erfan Seyedsalehi, Michel Ma, Clement Gehring, Aditya Mahajan, Pierre-Luc Bacon | (参考訳) 表現は、マルコフ決定プロセス(MDP)と部分的に観察可能なマルコフ決定プロセス(POMDP)の両方のための、すべての深層強化学習(RL)手法の中核にある。
効果的な表現を構成するものを理解するために,多くの表現学習手法や理論フレームワークが開発されている。
しかし,これらの方法と共有特性の関係はいまだ不明である。
本稿では、状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くが、実際、自己予測的抽象化の共通概念に基づいていることを示す。
さらに、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的知見を提供する。
これらの発見は、状態と歴史の自己予測表現を学習するための最小限のアルゴリズムをもたらす。
我々は,我々の理論を,標準のMDP,イントラクタ付きMDP,スパース報酬付きPMDPに適用することで検証する。
これらの知見は, RL実践者のための予備的ガイドラインのセットにまとめられる。
Representations are at the core of all deep reinforcement learning (RL) methods for both Markov decision processes (MDPs) and partially observable Markov decision processes (POMDPs). Many representation learning methods and theoretical frameworks have been developed to understand what constitutes an effective representation. However, the relationships between these methods and the shared properties among them remain unclear. In this paper, we show that many of these seemingly distinct methods and frameworks for state and history abstractions are, in fact, based on a common idea of self-predictive abstraction. Furthermore, we provide theoretical insights into the widely adopted objectives and optimization, such as the stop-gradient technique, in learning self-predictive representations. These findings together yield a minimalist algorithm to learn self-predictive representations for states and histories. We validate our theories by applying our algorithm to standard MDPs, MDPs with distractors, and POMDPs with sparse rewards. These findings culminate in a set of preliminary guidelines for RL practitioners. | 翻訳日:2024-03-14 17:27:24 公開日:2024-03-13 |
# 反復型サポートクエリによるクロスドメインFew-Shotセグメンテーション
対応マイニング
Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence Mining ( http://arxiv.org/abs/2401.08407v2 ) ライセンス: Link先を確認 | Jiahao Nie, Yun Xing, Gongjie Zhang, Pei Yan, Aoran Xiao, Yap-Peng Tan, Alex C. Kot and Shijian Lu | (参考訳) CD-FSS (Cross-Domain Few-Shot Segmentation) は、限定的な例のみを用いて、異なるドメインから新しいカテゴリを分割するという課題を提起する。
本稿では,CD-FSSの総合的研究を行い,2つの重要な知見を明らかにする。
一 学習したメタ知識をドメイン間で効果的に伝達する微調整段階の必要性
(II) 新規なカテゴリー例の不足による「微調整」における過度な適合リスク
そこで本研究では,CD-FSSの課題に対処するクロスドメインな微調整手法を提案する。
我々はまず,双方向でサポートクエリ対応を確立するBFP(Bi-directional Few-shot Prediction)を設計し,オーバーフィッティングリスクを低減するために,補助的な監視を行う。
次に,BFP をイテレーティブFew-shot Adaptor (IFA) に拡張する。これは,スパースな新規カテゴリサンプルからの監視信号の最大利用を目標とし,サポートクエリ対応を反復的にキャプチャする再帰的なフレームワークである。
IFAがクロスドメインな課題に取り組み、オーバーフィッティングを同時に軽減することを検証する実験により、我々の手法は最先端技術(+7.8\%)を著しく上回っていることが明らかとなった。
コードは、https://github.com/niejiahao1998/IFA.comで入手できる。
Cross-Domain Few-Shot Segmentation (CD-FSS) poses the challenge of segmenting novel categories from a distinct domain using only limited exemplars. In this paper, we undertake a comprehensive study of CD-FSS and uncover two crucial insights: (i) the necessity of a fine-tuning stage to effectively transfer the learned meta-knowledge across domains, and (ii) the overfitting risk during the na\"ive fine-tuning due to the scarcity of novel category examples. With these insights, we propose a novel cross-domain fine-tuning strategy that addresses the challenging CD-FSS tasks. We first design Bi-directional Few-shot Prediction (BFP), which establishes support-query correspondence in a bi-directional manner, crafting augmented supervision to reduce the overfitting risk. Then we further extend BFP into Iterative Few-shot Adaptor (IFA), which is a recursive framework to capture the support-query correspondence iteratively, targeting maximal exploitation of supervisory signals from the sparse novel category samples. Extensive empirical evaluations show that our method significantly outperforms the state-of-the-arts (+7.8\%), which verifies that IFA tackles the cross-domain challenges and mitigates the overfitting simultaneously. The code is available at: https://github.com/niejiahao1998/IFA. | 翻訳日:2024-03-14 17:27:23 公開日:2024-03-13 |
# 画像認識における敵対的攻撃に対する弾道的防御
Versatile Defense Against Adversarial Attacks on Image Recognition ( http://arxiv.org/abs/2403.08170v1 ) ライセンス: Link先を確認 | Haibo Zhang, Zhihua Yao, Kouichi Sakurai | (参考訳) 敵対的攻撃は画像認識タスクに重大なセキュリティリスクをもたらす。
これらの攻撃を現実の環境で防御することは、アンチウイルスソフトの動作方法と比較することができる。
もうひとつの重要な要素は、防衛モデルをトレーニングし、モデルデータベースを更新するための時間とコストの面でのリソースである。
攻撃の種類ごとに特有な多くのモデルを訓練することは、時間と費用がかかる可能性がある。
理想的には、幅広い攻撃に対処できる単一のモデルをトレーニングできるはずです。
画像から画像への翻訳をベースとした防御手法が実現可能であると考えられる。
本論文では,様々な未知の敵攻撃に対して効果的に抵抗する1つのモデルのみを訓練する多目的防御手法を提案する。
訓練されたモデルは、分類精度をほぼゼロから平均86%に改善し、以前の研究で提案された他の防御方法よりも優れた性能を発揮した。
PGD攻撃とMI-FGSM攻撃に直面した場合、汎用防衛モデルはこれらの2つの攻撃に基づいて訓練された攻撃固有のモデルよりも優れる。
また、ロバスト性チェックにより、攻撃強度に関わらず、我々の多目的防衛モデルが安定して機能することを示す。
Adversarial attacks present a significant security risk to image recognition tasks. Defending against these attacks in a real-life setting can be compared to the way antivirus software works, with a key consideration being how well the defense can adapt to new and evolving attacks. Another important factor is the resources involved in terms of time and cost for training defense models and updating the model database. Training many models that are specific to each type of attack can be time-consuming and expensive. Ideally, we should be able to train one single model that can handle a wide range of attacks. It appears that a defense method based on image-to-image translation may be capable of this. The proposed versatile defense approach in this paper only requires training one model to effectively resist various unknown adversarial attacks. The trained model has successfully improved the classification accuracy from nearly zero to an average of 86%, performing better than other defense methods proposed in prior studies. When facing the PGD attack and the MI-FGSM attack, versatile defense model even outperforms the attack-specific models trained based on these two attacks. The robustness check also shows that our versatile defense model performs stably regardless with the attack strength. | 翻訳日:2024-03-14 16:22:56 公開日:2024-03-13 |
# MolBind: 言語、分子、タンパク質の多モードアライメント
MolBind: Multimodal Alignment of Language, Molecules, and Proteins ( http://arxiv.org/abs/2403.08167v1 ) ライセンス: Link先を確認 | Teng Xiao, Chao Cui, Huaisheng Zhu, and Vasant G. Honavar | (参考訳) 生物学と化学の最近の進歩は、マルチモーダル学習を活用し、分子とそれらの自然言語の記述を統合して、薬物発見を強化している。
しかし、現在の事前学習フレームワークは2つのモダリティに制限されており、異なるモダリティ(自然言語、2D分子グラフ、3D分子コンフォメーション、3Dタンパク質など)を処理する統一ネットワークを設計している。
本研究では,マルチモーダルなセマンティックアライメントのための共有特徴空間にすべてのモダリティをマッピングし,コントラスト学習を通じて複数のモーダルのエンコーダを訓練するフレームワークであるMollBindを提案する。
マルチモーダル性に基づくMollBindの効果的な事前学習を容易にするため,グラフ言語,コンフォメーション言語,グラフコンフォーメーション,コンフォメーションタンパク質ペアデータを含む,4つのモーダル性を持つ高品質なデータセットを構築し,収集する。
MolBindは、幅広いタスクにわたって優れたゼロショット学習性能を示し、複数のモダリティの基盤となるセマンティクスをキャプチャする強力な能力を示している。
Recent advancements in biology and chemistry have leveraged multi-modal learning, integrating molecules and their natural language descriptions to enhance drug discovery. However, current pre-training frameworks are limited to two modalities, and designing a unified network to process different modalities (e.g., natural language, 2D molecular graphs, 3D molecular conformations, and 3D proteins) remains challenging due to inherent gaps among them. In this work, we propose MolBind, a framework that trains encoders for multiple modalities through contrastive learning, mapping all modalities to a shared feature space for multi-modal semantic alignment. To facilitate effective pre-training of MolBind on multiple modalities, we also build and collect a high-quality dataset with four modalities, MolBind-M4, including graph-language, conformation-language, graph-conformation, and conformation-protein paired data. MolBind shows superior zero-shot learning performance across a wide range of tasks, demonstrating its strong capability of capturing the underlying semantics of multiple modalities. | 翻訳日:2024-03-14 16:22:55 公開日:2024-03-13 |
# EM-TTS:効率的な低エネルギーモンゴル軽量化
Text-to-Speech
EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech ( http://arxiv.org/abs/2403.08164v1 ) ライセンス: Link先を確認 | Ziqi Liang, Haoxiang Shi, Jiawei Wang, Keda Lu | (参考訳) 近年,深層学習に基づくテキスト音声合成システム(TTS)が高品質な音声合成を実現している。
リカレントニューラルネットワークは、TSシステムにおけるシーケンシャルデータの標準モデリング技術となり、広く利用されている。
しかし、RNNコンポーネントを含むTSモデルをトレーニングするには、強力なGPUパフォーマンスが必要で、長い時間がかかる。
対照的に、CNNベースのシーケンス合成技術は、TTSモデルのパラメータとトレーニング時間を著しく削減すると同時に、高い並列性によって特定の性能を保証し、これらのトレーニングの経済的コストを軽減します。
本稿では,深層畳み込みニューラルネットワークに基づく軽量TSシステムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
前者は音素を粗いメルスペクトログラムにエンコードし、後者は粗いメルスペクトログラムから完全スペクトルを合成する。
一方,低資源のモンゴリアン問題を解くため,ノイズ抑制,時間ゆらぎ,周波数マスキング,時間マスキングといった一連のデータ拡張によって,モデルのロバスト性を向上させる。
実験により,本モデルは,主流のTSモデルと比較して,合成音声の品質と自然性を確保しつつ,トレーニング時間とパラメータを低減できることが示された。
本手法はNCMMSC2022-MTTSC Challengeデータセットを用いて,一定の精度を維持しながらトレーニング時間を著しく短縮する。
Recently, deep learning-based Text-to-Speech (TTS) systems have achieved high-quality speech synthesis results. Recurrent neural networks have become a standard modeling technique for sequential data in TTS systems and are widely used. However, training a TTS model which includes RNN components requires powerful GPU performance and takes a long time. In contrast, CNN-based sequence synthesis techniques can significantly reduce the parameters and training time of a TTS model while guaranteeing a certain performance due to their high parallelism, which alleviate these economic costs of training. In this paper, we propose a lightweight TTS system based on deep convolutional neural networks, which is a two-stage training end-to-end TTS model and does not employ any recurrent units. Our model consists of two stages: Text2Spectrum and SSRN. The former is used to encode phonemes into a coarse mel spectrogram and the latter is used to synthesize the complete spectrum from the coarse mel spectrogram. Meanwhile, we improve the robustness of our model by a series of data augmentations, such as noise suppression, time warping, frequency masking and time masking, for solving the low resource mongolian problem. Experiments show that our model can reduce the training time and parameters while ensuring the quality and naturalness of the synthesized speech compared to using mainstream TTS models. Our method uses NCMMSC2022-MTTSC Challenge dataset for validation, which significantly reduces training time while maintaining a certain accuracy. | 翻訳日:2024-03-14 16:22:55 公開日:2024-03-13 |
# 共同画像復調と運動アーチファクトの反復学習
3次元脳MRIの矯正
Iterative Learning for Joint Image Denoising and Motion Artifact Correction of 3D Brain MRI ( http://arxiv.org/abs/2403.08162v1 ) ライセンス: Link先を確認 | Lintao Zhang, Mengqi Wu, Lihong Wang, David C. Steffens, Guy G. Potter, Mingxia Liu | (参考訳) 画像ノイズとモーションアーティファクトは、脳MRIの品質に大きく影響し、下流の医療画像解析に悪影響を及ぼす。
従来の研究では、各ボリュームMR画像のスライスをスライスして処理する2D手法に焦点を合わせ、重要な3D解剖学的情報を失うことが多かった。
さらに、これらの研究では、特に重音と動きのアーティファクトが同時に発生する低品質な画像について、潜在的な関係を考慮せずに、画像のデノベーションとアーティファクト修正を2つのスタンドアロンタスクとして扱うことが一般的である。
これらの課題に対処するため, 適応的復調モデルとアンチアーティファクトモデルからなる, ノイズの多いMRIと運動人工物を扱うために, 反復学習によるJDAC(Joint Image Denoising and Motion Artifact Correction)フレームワークを提案する。
適応型雑音レベル推定モデルでは,まず新しい雑音レベル推定法を設計し,推定雑音分散に基づく特徴正規化条件付きU-Netバックボーンによる雑音を適応的に低減する。
アンチアーティファクトモデルは、運動補正プロセス中に脳解剖の整合性を維持するために設計された、新しい勾配に基づく損失関数を組み込んだ、運動アーティファクトの除去に別のU-Netを使用している。
これらの2つのモデルは、反復学習フレームワークを通じて、共同画像の復調とアーティファクト修正に反復的に使用される。
ノイズレベル推定による早期停止戦略を適用し、繰り返し処理を高速化する。
ディノナイジングモデルは9,544個のT1重み付きMRIでトレーニングされ、手動でガウスノイズを監督する。
アンチアーティファクトモデルは、モーションアーティファクトとペアのモーションフリーイメージを備えた52T1強調MRIでトレーニングされている。
公的なデータセットと臨床研究の実験的結果は、いくつかの最先端手法と比較して、騒音修正と運動アーチファクト修正の両タスクにおけるJDACの有効性を示唆している。
Image noise and motion artifacts greatly affect the quality of brain MRI and negatively influence downstream medical image analysis. Previous studies often focus on 2D methods that process each volumetric MR image slice-by-slice, thus losing important 3D anatomical information. Additionally, these studies generally treat image denoising and artifact correction as two standalone tasks, without considering their potential relationship, especially on low-quality images where severe noise and motion artifacts occur simultaneously. To address these issues, we propose a Joint image Denoising and motion Artifact Correction (JDAC) framework via iterative learning to handle noisy MRIs with motion artifacts, consisting of an adaptive denoising model and an anti-artifact model. In the adaptive denoising model, we first design a novel noise level estimation strategy, and then adaptively reduce the noise through a U-Net backbone with feature normalization conditioning on the estimated noise variance. The anti-artifact model employs another U-Net for eliminating motion artifacts, incorporating a novel gradient-based loss function designed to maintain the integrity of brain anatomy during the motion correction process. These two models are iteratively employed for joint image denoising and artifact correction through an iterative learning framework. An early stopping strategy depending on noise level estimation is applied to accelerate the iteration process. The denoising model is trained with 9,544 T1-weighted MRIs with manually added Gaussian noise as supervision. The anti-artifact model is trained on 552 T1-weighted MRIs with motion artifacts and paired motion-free images. Experimental results on a public dataset and a clinical study suggest the effectiveness of JDAC in both tasks of denoising and motion artifact correction, compared with several state-of-the-art methods. | 翻訳日:2024-03-14 16:22:54 公開日:2024-03-13 |
# LAFS:ランドマークに基づく顔の自己教師型学習
認識
LAFS: Landmark-based Facial Self-supervised Learning for Face Recognition ( http://arxiv.org/abs/2403.08161v1 ) ライセンス: Link先を確認 | Zhonglin Sun, Chen Feng, Ioannis Patras, Georgios Tzimiropoulos | (参考訳) 本研究では,効果的な顔認識モデル,特にラベルの欠如に適応できる顔表現の学習に焦点をあてる。
第一に、既存のラベル付き顔データセットと比較すると、実際の世界では、ラベル付けされていない顔の規模が非常に大きい。
我々は、自己教師付き事前学習を通じて、これらのラベルのない顔画像の学習戦略を探求し、一般化された顔認識性能を伝達する。
さらに, 顔のサリエンシ領域は, 顔の認識に重要であり, 事前トレーニングにおいて, 画像のランダムなトリミングブロックを利用して, 顔のランドマークを抽出して局所化したパッチを利用する。
これにより、LAndmarkをベースとした顔自己教師学習(LAFS)が、顔認識においてより重要となるキー表現を学習することが可能になる。
また,2つの目印に特化して,より多様な目印情報を導入し,学習の規則化を図っている。
学習したランドマークに基づく顔表現により、ランドマーク位置の変動を緩和する正規化による顔認識のための表現をさらに適応する。
提案手法は,複数の顔認証ベンチマーク,特に難易度の高い撮影シナリオにおいて,最先端技術よりも大幅に向上する。
In this work we focus on learning facial representations that can be adapted to train effective face recognition models, particularly in the absence of labels. Firstly, compared with existing labelled face datasets, a vastly larger magnitude of unlabeled faces exists in the real world. We explore the learning strategy of these unlabeled facial images through self-supervised pretraining to transfer generalized face recognition performance. Moreover, motivated by one recent finding, that is, the face saliency area is critical for face recognition, in contrast to utilizing random cropped blocks of images for constructing augmentations in pretraining, we utilize patches localized by extracted facial landmarks. This enables our method - namely LAndmark-based Facial Self-supervised learning LAFS), to learn key representation that is more critical for face recognition. We also incorporate two landmark-specific augmentations which introduce more diversity of landmark information to further regularize the learning. With learned landmark-based facial representations, we further adapt the representation for face recognition with regularization mitigating variations in landmark positions. Our method achieves significant improvement over the state-of-the-art on multiple face recognition benchmarks, especially on more challenging few-shot scenarios. | 翻訳日:2024-03-14 16:22:53 公開日:2024-03-13 |
# 線形スケーリングを超えたランダム特徴回帰の漸近
例
Asymptotics of Random Feature Regression Beyond the Linear Scaling Regime ( http://arxiv.org/abs/2403.08160v1 ) ライセンス: Link先を確認 | Hong Hu, Yue M. Lu, Theodor Misiakiewicz | (参考訳) 機械学習の最近の進歩は、トレーニングデータの補間近くまで訓練された過度なパラメータ化モデルを使用することによって達成されている。
例えば、二重降下現象を通じて、パラメータの数はモデルの複雑さと一般化能力の指標として不十分であることが示されている。
このことは、これらのモデルの性能に対するパラメトリゼーションの影響を理解するための問題を残している。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
最適なテストエラーを達成するために、サンプルサイズ$n$に対して$p$をどうやって選択すればよいか?
本稿では,ランダムな特徴リッジ回帰(RFRR)の例について検討する。
このモデルは、カーネルリッジ回帰(KRR)に対する有限ランク近似や、いわゆる遅延状態下で訓練されたニューラルネットワークの単純化モデルと見なすことができる。
高次元多項式スケーリングにおいて、$d$次元球面上に一様分布し、RFRRテスト誤差に対する鋭い漸近を計算し、$p,n,d \to \infty$ while $p/d^{\kappa_1}$および$n / d^{\kappa_2}$滞在定数をすべての$\kappa_1 , \kappa_2 \in \mathbb{R}_{>0}$に対して計算する。
これらの漸近性は、ランダムな特徴の数と正規化パラメータがテスト性能に与える影響を正確に特徴づける。
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
n = o(p)$ の場合、サンプルサイズ $n$ はボトルネックであり、RFRR は KRR と同じ性能を達成する(これは $p = \infty$ を取るのと同じ)。
一方、$p = o(n)$ の場合、ランダムな特徴数 $p$ は制限係数であり、RFRR テストエラーはランダムな特徴モデルクラスの近似誤差と一致する($n = \infty$ を取る必要がある)。
最後に、二重降下は$n=p$で現れるが、これは以前に線形スケーリング $\kappa_1 = \kappa_2 = 1$ でのみ特徴づけられた現象である。
Recent advances in machine learning have been achieved by using overparametrized models trained until near interpolation of the training data. It was shown, e.g., through the double descent phenomenon, that the number of parameters is a poor proxy for the model complexity and generalization capabilities. This leaves open the question of understanding the impact of parametrization on the performance of these models. How does model complexity and generalization depend on the number of parameters $p$? How should we choose $p$ relative to the sample size $n$ to achieve optimal test error? In this paper, we investigate the example of random feature ridge regression (RFRR). This model can be seen either as a finite-rank approximation to kernel ridge regression (KRR), or as a simplified model for neural networks trained in the so-called lazy regime. We consider covariates uniformly distributed on the $d$-dimensional sphere and compute sharp asymptotics for the RFRR test error in the high-dimensional polynomial scaling, where $p,n,d \to \infty$ while $p/ d^{\kappa_1}$ and $n / d^{\kappa_2}$ stay constant, for all $\kappa_1 , \kappa_2 \in \mathbb{R}_{>0}$. These asymptotics precisely characterize the impact of the number of random features and regularization parameter on the test performance. In particular, RFRR exhibits an intuitive trade-off between approximation and generalization power. For $n = o(p)$, the sample size $n$ is the bottleneck and RFRR achieves the same performance as KRR (which is equivalent to taking $p = \infty$). On the other hand, if $p = o(n)$, the number of random features $p$ is the limiting factor and RFRR test error matches the approximation error of the random feature model class (akin to taking $n = \infty$). Finally, a double descent appears at $n= p$, a phenomenon that was previously only characterized in the linear scaling $\kappa_1 = \kappa_2 = 1$. | 翻訳日:2024-03-14 16:22:53 公開日:2024-03-13 |
# マルチスケール低周波メモリネットワークによる特徴抽出
畳み込みニューラルネットワークでは
Multiscale Low-Frequency Memory Network for Improved Feature Extraction in Convolutional Neural Networks ( http://arxiv.org/abs/2403.08157v1 ) ライセンス: Link先を確認 | Fuzhi Wu, Jiasong Wu, Youyong Kong, Chunfeng Yang, Guanyu Yang, Huazhong Shu, Guy Carrault, Lotfi Senhadji | (参考訳) ディープラーニングと畳み込みニューラルネットワーク(CNN)は、さまざまな研究領域において大きな変革を促している。
しかし、低周波情報を扱う際の制限は、グローバルな構造を解釈したり、スムーズなトランジション画像を管理するといったタスクにおいて障害となる。
多くのタスクにおいてトランスフォーマー構造の性能が期待できるにもかかわらず、その複雑な最適化の複雑さは、限られたリソースを使用した改良されたCNN拡張の必要性を浮き彫りにしている。
これらの複雑さに対応して、CNNの潜在能力を最大限活用し、その複雑さを一定に保ちつつ、新たなフレームワークであるMultiscale Low-Frequency Memory (MLFM) Networkを導入する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
MLFMの中心は低周波メモリユニット(LFMU)で、様々な低周波データを格納し、コアネットワークへの並列チャネルを形成する。
MLFMの鍵となる利点は、様々な一般的なネットワークとのシームレスな互換性であり、元のコア構造を変更する必要はないことである。
ImageNet上でのテストでは、ResNet、MobileNet、EfficientNet、ConvNeXtなど、複数の2D CNNで大幅に精度が向上した。
さらに,従来の画像分類を超えたMLFMの汎用性を,画像から画像への変換タスク,特にFCNやU-Netのようなセマンティックセグメンテーションネットワークにうまく組み込むことで示す。
結論として、我々の研究は、限られた資源でCNNの有効性と効率を最適化する過程における重要な歩みを示している。
この研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
私たちのコードはhttps://github.com/AlphaWuSeu/MLFM.comで公開されています。
Deep learning and Convolutional Neural Networks (CNNs) have driven major transformations in diverse research areas. However, their limitations in handling low-frequency information present obstacles in certain tasks like interpreting global structures or managing smooth transition images. Despite the promising performance of transformer structures in numerous tasks, their intricate optimization complexities highlight the persistent need for refined CNN enhancements using limited resources. Responding to these complexities, we introduce a novel framework, the Multiscale Low-Frequency Memory (MLFM) Network, with the goal to harness the full potential of CNNs while keeping their complexity unchanged. The MLFM efficiently preserves low-frequency information, enhancing performance in targeted computer vision tasks. Central to our MLFM is the Low-Frequency Memory Unit (LFMU), which stores various low-frequency data and forms a parallel channel to the core network. A key advantage of MLFM is its seamless compatibility with various prevalent networks, requiring no alterations to their original core structure. Testing on ImageNet demonstrated substantial accuracy improvements in multiple 2D CNNs, including ResNet, MobileNet, EfficientNet, and ConvNeXt. Furthermore, we showcase MLFM's versatility beyond traditional image classification by successfully integrating it into image-to-image translation tasks, specifically in semantic segmentation networks like FCN and U-Net. In conclusion, our work signifies a pivotal stride in the journey of optimizing the efficacy and efficiency of CNNs with limited resources. This research builds upon the existing CNN foundations and paves the way for future advancements in computer vision. Our codes are available at https://github.com/AlphaWuSeu/ MLFM. | 翻訳日:2024-03-14 16:22:52 公開日:2024-03-13 |
# NeRF-Supervised Feature Point Detection and Description
NeRF-Supervised Feature Point Detection and Description ( http://arxiv.org/abs/2403.08156v1 ) ライセンス: Link先を確認 | Ali Youssef and Francisco Vasconcelos | (参考訳) 特徴点の検出と記述は、Structure-from-Motion、ビジュアルSLAM、視覚的位置認識など、様々なコンピュータビジョンアプリケーションのためのバックボーンである。
学習に基づく手法は従来の手工芸技術を超えてきたが、その訓練は多視点視点の単純なホモグラフィーに基づくシミュレーションに頼り、モデルの一般性を制限する。
本稿では,現実的なマルチビュートレーニングデータ生成にニューラルレイディアンス場(NeRF)を活用する新しいアプローチを提案する。
屋内と屋外のシーンからなるNeRFを用いて多様なマルチビューデータセットを作成する。
提案手法は,視点射影幾何学によって制御されたNeRF合成ビューのトレーニングに最先端の特徴検出器と記述子を適用した。
提案手法は, 従来の手法に比べてトレーニングデータが少なく, 相対ポーズ推定, ポイントクラウド登録, ホモグラフィ推定のための標準ベンチマークにおいて, 競合的, 優れた性能を達成できることを実証した。
Feature point detection and description is the backbone for various computer vision applications, such as Structure-from-Motion, visual SLAM, and visual place recognition. While learning-based methods have surpassed traditional handcrafted techniques, their training often relies on simplistic homography-based simulations of multi-view perspectives, limiting model generalisability. This paper introduces a novel approach leveraging neural radiance fields (NeRFs) for realistic multi-view training data generation. We create a diverse multi-view dataset using NeRFs, consisting of indoor and outdoor scenes. Our proposed methodology adapts state-of-the-art feature detectors and descriptors to train on NeRF-synthesised views supervised by perspective projective geometry. Our experiments demonstrate that the proposed methods achieve competitive or superior performance on standard benchmarks for relative pose estimation, point cloud registration, and homography estimation while requiring significantly less training data compared to existing approaches. | 翻訳日:2024-03-14 16:22:51 公開日:2024-03-13 |
# 最適化戦略の違いが物理制約に及ぼす影響
土壌水分推定のための深層学習
The Effect of Different Optimization Strategies to Physics-Constrained Deep Learning for Soil Moisture Estimation ( http://arxiv.org/abs/2403.08154v1 ) ライセンス: Link先を確認 | Jianxin Xie, Bing Yao, Zheyu Jiang | (参考訳) 土壌水分は人間の社会と環境にとって重要な重要な水文学パラメータである。
特に根圏(100cm以上の土壌)における土壌水分の正確なモデリングとモニタリングは、精密灌水と農業ツールの助けを借りて、農業生産と収量の改善に不可欠である。
完全なセンサデータポテンシャルを実現するには、高度な分析および予測ドメイン認識モデルに大きく依存する。
本研究では, 物理制約付き深層学習(P-DL)フレームワークを提案する。
我々は,トレーニング過程におけるP-DLの損失関数を最小限に抑えるために,Adam,RMSprop,GDの3つの最適化アルゴリズムを採用した。
実験ケーススタディでは,Adamオプティマイザの実証的な収束が,ミニバッチおよびフルバッチトレーニングの両方において,他の最適化手法よりも優れていることを示す。
Soil moisture is a key hydrological parameter that has significant importance to human society and the environment. Accurate modeling and monitoring of soil moisture in crop fields, especially in the root zone (top 100 cm of soil), is essential for improving agricultural production and crop yield with the help of precision irrigation and farming tools. Realizing the full sensor data potential depends greatly on advanced analytical and predictive domain-aware models. In this work, we propose a physics-constrained deep learning (P-DL) framework to integrate physics-based principles on water transport and water sensing signals for effective reconstruction of the soil moisture dynamics. We adopt three different optimizers, namely Adam, RMSprop, and GD, to minimize the loss function of P-DL during the training process. In the illustrative case study, we demonstrate the empirical convergence of Adam optimizers outperforms the other optimization methods in both mini-batch and full-batch training. | 翻訳日:2024-03-14 16:22:50 公開日:2024-03-13 |
# 一般化針問題におけるランダム局所探索の実行
The Runtime of Random Local Search on the Generalized Needle Problem ( http://arxiv.org/abs/2403.08153v1 ) ライセンス: Link先を確認 | Benjamin Doerr, Andrew James Kelley | (参考訳) 最近の研究で、C. Doerr と Krejca (2023年) は、一般化されたニードル関数上のランダム化された局所探索ヒューリスティックの予想ランタイム上の上限を証明した。
これらの上限に基づいて、それらは実行時における針半径$k$の劇的な影響を、完全に厳密でない方法で推論する。
この記事では、実行時に$k$のパラメータの影響を決定するのに必要な、不足している低いバウンダリを追加します。
この目的のために、期待されるランタイムの正確な記述を導き、C. Doerr と Krejca によって与えられる上限を大幅に改善する。
また,予測ランタイムの漸近的推定についても述べる。
In their recent work, C. Doerr and Krejca (Transactions on Evolutionary Computation, 2023) proved upper bounds on the expected runtime of the randomized local search heuristic on generalized Needle functions. Based on these upper bounds, they deduce in a not fully rigorous manner a drastic influence of the needle radius $k$ on the runtime. In this short article, we add the missing lower bound necessary to determine the influence of parameter $k$ on the runtime. To this aim, we derive an exact description of the expected runtime, which also significantly improves the upper bound given by C. Doerr and Krejca. We also describe asymptotic estimates of the expected runtime. | 翻訳日:2024-03-14 16:22:50 公開日:2024-03-13 |
# ディープニューラルネットワークのエネルギー消費と効率の測定
実証分析と設計勧告
Measuring the Energy Consumption and Efficiency of Deep Neural Networks: An Empirical Analysis and Design Recommendations ( http://arxiv.org/abs/2403.08151v1 ) ライセンス: Link先を確認 | Charles Edison Tripp, Jordan Perr-Sauer, Jamil Gafur, Amabarish Nag, Avi Purkayastha, Sagi Zisman, Erik A. Bensen | (参考訳) 本研究では,大規模ニューラルネットワークによるエネルギー消費の増大といういわゆる「赤AI」の傾向に対処し,ノードレベルのワットメータによって測定された実際のエネルギー消費について検討した。
BUTTER-EデータセットはBUTTER Empirical Deep Learningデータセットへの拡張であり、13のデータセット、20のサイズ(トレーニング可能なパラメータ数)、8のネットワーク‘shapes’、ノードレベルのワットメーターを使用して収集されたCPUおよびGPUハードウェアの14の深さという、30,582の異なる構成で、63,527の個々の実験実行から得られるエネルギー消費とパフォーマンスデータを含んでいる。
このデータセットは、データセットのサイズ、ネットワーク構造、エネルギー使用の間の複雑な関係を明らかにし、キャッシュ効果の影響を強調します。
本稿では,ネットワークサイズ,コンピューティング,メモリ階層を考慮した,単純かつ効率的なエネルギーモデルを提案する。
我々の分析は、エネルギー効率とネットワーク設計の間の驚くべきハードウェアによる非線形関係を明らかにし、パラメータ数やFLOPを減らすことがエネルギー効率を高める最良の方法であるという仮定に挑戦する。
キャッシュ・コンシデント・アルゴリズム開発の必要性を浮き彫りにして,エネルギー効率の高いネットワーク,アルゴリズム,ハードウェア設計へのアプローチを提案する。
この研究は、持続可能なコンピューティングとグリーンAIの分野に貢献し、よりエネルギー効率の良いニューラルネットワークを作成し、持続可能なAIを促進するための実践的なガイダンスを提供する。
Addressing the so-called ``Red-AI'' trend of rising energy consumption by large-scale neural networks, this study investigates the actual energy consumption, as measured by node-level watt-meters, of training various fully connected neural network architectures. We introduce the BUTTER-E dataset, an augmentation to the BUTTER Empirical Deep Learning dataset, containing energy consumption and performance data from 63,527 individual experimental runs spanning 30,582 distinct configurations: 13 datasets, 20 sizes (number of trainable parameters), 8 network ``shapes'', and 14 depths on both CPU and GPU hardware collected using node-level watt-meters. This dataset reveals the complex relationship between dataset size, network structure, and energy use, and highlights the impact of cache effects. We propose a straightforward and effective energy model that accounts for network size, computing, and memory hierarchy. Our analysis also uncovers a surprising, hardware-mediated non-linear relationship between energy efficiency and network design, challenging the assumption that reducing the number of parameters or FLOPs is the best way to achieve greater energy efficiency. Highlighting the need for cache-considerate algorithm development, we suggest a combined approach to energy efficient network, algorithm, and hardware design. This work contributes to the fields of sustainable computing and Green AI, offering practical guidance for creating more energy-efficient neural networks and promoting sustainable AI. | 翻訳日:2024-03-14 16:22:50 公開日:2024-03-13 |
# 分子を解釈可能な文法のランダムウォークとして表現する
Representing Molecules as Random Walks Over Interpretable Grammars ( http://arxiv.org/abs/2403.08147v1 ) ライセンス: Link先を確認 | Michael Sun, Minghao Guo, Weize Yuan, Veronika Thost, Crystal Elaine Owens, Aristotle Franklin Grosz, Sharvaa Selvan, Katelyn Zhou, Hassan Mohiuddin, Benjamin J Pedretti, Zachary P Smith, Jie Chen and Wojciech Matusik | (参考訳) 分子発見の最近の研究は、主に小さな薬物のような分子に焦点が当てられ、同様に材料設計において適切な技術を持たない多くの重要な応用が残されている。
これらの応用は、既知のサブ構造を用いて慎重に設計されるサンプルが少なく、より複雑な分子構造に依存していることが多い。
本稿では,設計基盤となるモチーフを特徴とする階層設計空間を明示的に記述したグラフ文法を用いて,そのような分子を表現・推論するためのデータ効率・解釈可能なモデルを提案する。
本稿では,分子生成と特性予測の両方を容易にする設計空間上のランダムウォークという,新しい表現を提案する。
本研究では, 予測分子の性能, 効率, 合成可能性の観点から, 既存の手法に対する明確な優位性を実証し, 提案手法の化学的解釈可能性に関する詳細な知見を提供する。
Recent research in molecular discovery has primarily been devoted to small, drug-like molecules, leaving many similarly important applications in material design without adequate technology. These applications often rely on more complex molecular structures with fewer examples that are carefully designed using known substructures. We propose a data-efficient and interpretable model for representing and reasoning over such molecules in terms of graph grammars that explicitly describe the hierarchical design space featuring motifs to be the design basis. We present a novel representation in the form of random walks over the design space, which facilitates both molecule generation and property prediction. We demonstrate clear advantages over existing methods in terms of performance, efficiency, and synthesizability of predicted molecules, and we provide detailed insights into the method's chemical interpretability. | 翻訳日:2024-03-14 16:22:49 公開日:2024-03-13 |
# 二層グラフェンに生成したクラマース量子ビットの超長期緩和
量子ドット
Ultra-long relaxation of a Kramers qubit formed in a bilayer graphene quantum dot ( http://arxiv.org/abs/2403.08143v1 ) ライセンス: Link先を確認 | Artem O. Denisov, Veronika Reckova, Solenn Cances, Max J. Ruckriegel, Michele Masseroni, Christoph Adam, Chuyao Tong, Jonas D. Gerber, Wei Wister Huang, Kenji Watanabe, Takashi Taniguchi, Thomas Ihn, Klaus Ensslin, Hadrien Duprez | (参考訳) 内在的なバレーの自由度は、二層グラフェンを新しいタイプの半導体量子ビットのためのユニークなプラットフォームにする。
単一キャリア量子ドット基底状態は、2つの状態がスピンとバレーの量子数と反対のスピンを持つ2倍の縮退性を示す。
平面外磁場でこの基底状態の時間反転対称性を破ることで、2次元スピン・バレー部分空間に符号化された新しいタイプの量子ビット(クラマー量子ビット)がアクセスできるようになる。
クラマース量子ビットは、両方の量子数の同時変化を必要とするため、既知のスピンとバレーの混合機構に対して堅牢であり、長い緩和とコヒーレンス時間をもたらす可能性がある。
2層グラフェン量子ドットの励起状態における単一キャリアの緩和時間を測定する(\sim \mathrm{mT}$)。
クラーマーズ量子ビットの超長いスピン-バレー緩和時間(英語版)が30~\mathrm{s}$を超え、スピン緩和時間(英語版)が400~\mathrm{ms}$より約2桁長いことを示す。
証明された高忠実な単一ショット読み出しと長い緩和時間は、新しい長寿命半導体量子ビットの基礎である。
The intrinsic valley degree of freedom makes bilayer graphene a unique platform for emerging types of semiconducting qubits. The single-carrier quantum dot ground state exhibits a two-fold degeneracy where the two states have opposite spin and valley quantum numbers. By breaking the time-reversal symmetry of this ground state with an out-of-plane magnetic field, a novel type of qubit (Kramers qubit), encoded in the two-dimensional spin-valley subspace, becomes accessible. The Kramers qubit is robust against known spin- and valley-mixing mechanisms, as it requires a simultaneous change of both quantum numbers, potentially resulting in long relaxation and coherence times. We measure the relaxation time of a single carrier in the excited states of a bilayer graphene quantum dot at small ($\sim \mathrm{mT}$) and zero magnetic fields. We demonstrate ultra-long spin-valley relaxation times of the Kramers qubit exceeding $30~\mathrm{s}$, which is about two orders of magnitude longer than the spin relaxation time of $400~\mathrm{ms}$. The demonstrated high-fidelity single-shot readout and long relaxation times are the foundation for novel, long-lived semiconductor qubits. | 翻訳日:2024-03-14 16:22:48 公開日:2024-03-13 |
# ShadowRemovalNet: 効率的なリアルタイムシャドウ除去
ShadowRemovalNet: Efficient Real-Time Shadow Removal ( http://arxiv.org/abs/2403.08142v1 ) ライセンス: Link先を確認 | Alzayat Saleh, Alex Olsen, Jake Wood, Bronson Philippa, Mostafa Rahimi Azghadi | (参考訳) 影は特に屋外環境でのコンピュータビジョンのタスクに大きな影響を及ぼす。
最先端のシャドウ除去法は通常、エッジハードウェア上のリアルタイム画像処理には計算集約的すぎる。
本稿では,リソース制約のあるハードウェア上でのリアルタイム画像処理のための新しい手法であるShadowRemovalNetを提案する。
ShadowRemovalNetは既存の方法に比べてフレームレートが大幅に高く、フィールドロボティクスで使われているようなリアルタイムのコンピュータビジョンパイプラインに適している。
速度を超えて、ShadowRemovalNetは、推論中に別のシャドウマスクを必要としないため、効率とシンプルさの利点を提供する。
ShadowRemovalNetは、アーティファクト、不正確なマスク推定、シャドーとバウンダリピクセル間の一貫性のない監視など、シャドー削除のためのジェネレーティブ・アドバイサル・ネットワーク(GAN)に関連する課題にも対処している。
これらの制約に対処するために、影除去誤差を大幅に低減する新しい損失関数を導入する。
ShadowRemovalNetの効率性と単純性により、屋外ロボティクスやエッジコンピューティングアプリケーションにおいて、リアルタイムのシャドウ除去のための堅牢で効果的なソリューションとなっている。
Shadows significantly impact computer vision tasks, particularly in outdoor environments. State-of-the-art shadow removal methods are typically too computationally intensive for real-time image processing on edge hardware. We propose ShadowRemovalNet, a novel method designed for real-time image processing on resource-constrained hardware. ShadowRemovalNet achieves significantly higher frame rates compared to existing methods, making it suitable for real-time computer vision pipelines like those used in field robotics. Beyond speed, ShadowRemovalNet offers advantages in efficiency and simplicity, as it does not require a separate shadow mask during inference. ShadowRemovalNet also addresses challenges associated with Generative Adversarial Networks (GANs) for shadow removal, including artefacts, inaccurate mask estimations, and inconsistent supervision between shadow and boundary pixels. To address these limitations, we introduce a novel loss function that substantially reduces shadow removal errors. ShadowRemovalNet's efficiency and straightforwardness make it a robust and effective solution for real-time shadow removal in outdoor robotics and edge computing applications. | 翻訳日:2024-03-14 16:22:48 公開日:2024-03-13 |
# Skipformer:効率的な音声認識のためのスキップ・アンド・リカバリ戦略
Skipformer: A Skip-and-Recover Strategy for Efficient Speech Recognition ( http://arxiv.org/abs/2403.08258v1 ) ライセンス: Link先を確認 | Wenjing Zhu, Sining Sun, Changhao Shan, Peng Fan, Qing Yang | (参考訳) コンフォーマーに基づくアテンションモデルは、音声認識タスクの事実上のバックボーンモデルとなっている。
通常、CTCまたはRNN-Tモデルの入力シーケンスと出力シーケンスを整列するためにブランクシンボルが導入される。
残念ながら、長い入力長は、注意機構によって計算予算とメモリ消費を2次的にオーバーロードする。
本研究では,Skipformer という名前の "Skip-and-Recover" Conformer アーキテクチャを提案する。
Skipformerは中間のCTC出力を基準として、フレームを3つのグループに分割する。
重要なグループは次のコンバータブロックにフィードし、その出力は最後のエンコーダ出力として元の時間順序でスキップグループと結合する。
実験の結果,Aishell-1で31倍,Librispeech corpusで22倍の入力シーケンス長が得られた。
一方、このモデルでは、最近のベースラインモデルよりも認識精度が向上し、推論速度が向上する。
私たちのコードはオープンソースで、オンラインで利用可能です。
Conformer-based attention models have become the de facto backbone model for Automatic Speech Recognition tasks. A blank symbol is usually introduced to align the input and output sequences for CTC or RNN-T models. Unfortunately, the long input length overloads computational budget and memory consumption quadratically by attention mechanism. In this work, we propose a "Skip-and-Recover" Conformer architecture, named Skipformer, to squeeze sequence input length dynamically and inhomogeneously. Skipformer uses an intermediate CTC output as criteria to split frames into three groups: crucial, skipping and ignoring. The crucial group feeds into next conformer blocks and its output joint with skipping group by original temporal order as the final encoder output. Experiments show that our model reduces the input sequence length by 31 times on Aishell-1 and 22 times on Librispeech corpus. Meanwhile, the model can achieve better recognition accuracy and faster inference speed than recent baseline models. Our code is open-sourced and available online. | 翻訳日:2024-03-14 15:50:12 公開日:2024-03-13 |
# IG-FIQA:クラス内による顔画像品質評価の改善
不正確な擬似ラベルに頑健な可変誘導
IG-FIQA: Improving Face Image Quality Assessment through Intra-class Variance Guidance robust to Inaccurate Pseudo-Labels ( http://arxiv.org/abs/2403.08256v1 ) ライセンス: Link先を確認 | Minsoo Kim, Gi Pyo Nam, Haksub Kim, Haesol Park, and Ig-Jae Kim | (参考訳) 顔画像品質評価(FIQA)の分野では、サンプル相対分類に基づく手法は印象的な性能を示した。
しかし,クラス内ばらつきの低いクラスの画像から擬似ラベルに割り当てられた品質スコアは,本手法の実際の品質とは無関係であった。
この問題に対処するため,FIQAトレーニングをガイドする新しいアプローチIG-FIQAを提案し,これらの授業の有害な影響を軽減するために重みパラメータを導入した。
この方法は、トレーニング中の各イテレーションにおけるクラス内のサンプルのばらつきを推定し、最小限の計算オーバーヘッドと簡単な実装を保証する。
さらに,FIQAにおける一般化性能向上のためのオンザフライデータ拡張手法を提案する。
提案手法であるIG-FIQAは,様々なベンチマーク・データセットを用いて,新しいSOTA(State-of-the-art)性能を実現した。
In the realm of face image quality assesment (FIQA), method based on sample relative classification have shown impressive performance. However, the quality scores used as pseudo-labels assigned from images of classes with low intra-class variance could be unrelated to the actual quality in this method. To address this issue, we present IG-FIQA, a novel approach to guide FIQA training, introducing a weight parameter to alleviate the adverse impact of these classes. This method involves estimating sample intra-class variance at each iteration during training, ensuring minimal computational overhead and straightforward implementation. Furthermore, this paper proposes an on-the-fly data augmentation methodology for improved generalization performance in FIQA. On various benchmark datasets, our proposed method, IG-FIQA, achieved novel state-of-the-art (SOTA) performance. | 翻訳日:2024-03-14 15:50:12 公開日:2024-03-13 |
# 幸せにする:イメージ拡散モデルを通して感情を呼び起こす
Make Me Happier: Evoking Emotions Through Image Diffusion Models ( http://arxiv.org/abs/2403.08255v1 ) ライセンス: Link先を確認 | Qing Lin, Jingfeng Zhang, Yew Soon Ong, Mengmi Zhang | (参考訳) 画像生成の急速な進歩にもかかわらず、感情的な画像編集は未探索のままである。
イメージのセマンティクス、文脈、構造は感情的な反応を誘発し、心理的障害の治療、製品の商業化、芸術デザインなど、様々な現実世界の応用に有用な感情的な画像編集技術を作る。
本稿では,感情を刺激するイメージ生成の新たな課題について紹介する。
この課題に対処するために、ソースイメージを効果的に理解し、編集し、望ましい感情や感情を伝える拡散モデルを提案する。
さらに、感情編集データセットの欠如により、34万対の画像と感情アノテーションからなるユニークなデータセットを提供する。
さらに, 人間の心理物理学実験を行い, 全手法を体系的に評価するための4つの新しい評価指標を導入する。
実験により,本手法が全ての競争基準を超えることを示す。
我々の拡散モデルは、原画像から感情的手がかりを識別し、所望の感情を誘発する画像を編集し、原画像の意味的構造を保存できる。
すべてのコード、モデル、データは公開されます。
Despite the rapid progress in image generation, emotional image editing remains under-explored. The semantics, context, and structure of an image can evoke emotional responses, making emotional image editing techniques valuable for various real-world applications, including treatment of psychological disorders, commercialization of products, and artistic design. For the first time, we present a novel challenge of emotion-evoked image generation, aiming to synthesize images that evoke target emotions while retaining the semantics and structures of the original scenes. To address this challenge, we propose a diffusion model capable of effectively understanding and editing source images to convey desired emotions and sentiments. Moreover, due to the lack of emotion editing datasets, we provide a unique dataset consisting of 340,000 pairs of images and their emotion annotations. Furthermore, we conduct human psychophysics experiments and introduce four new evaluation metrics to systematically benchmark all the methods. Experimental results demonstrate that our method surpasses all competitive baselines. Our diffusion model is capable of identifying emotional cues from original images, editing images that elicit desired emotions, and meanwhile, preserving the semantic structure of the original images. All code, model, and data will be made public. | 翻訳日:2024-03-14 15:50:11 公開日:2024-03-13 |
# 機械学習 - 分類学、メトリクス、応用、挑戦など
展望
Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and Prospects ( http://arxiv.org/abs/2403.08254v1 ) ライセンス: Link先を確認 | Na Li, Chunyi Zhou, Yansong Gao, Hui Chen, Anmin Fu, Zhi Zhang, and Yu Shui | (参考訳) 個人デジタルデータは重要な資産であり、世界中の政府はデータのプライバシーを保護するための法律と規則を施行している。
データユーザには、データを忘れる権利が与えられている。
機械学習(ML)の過程で、忘れられた権利は、モデルプロバイダがユーザデータを削除することと、その後のユーザ要求に対するMLモデルへの影響を要求する。
機械学習は、業界と学界の両方からますます注目を集めている。
地域は急速に発展してきたが、最新の進歩を捉えるための総合的な調査が欠如している。
この不足を認識して、我々は、アンラーニングアルゴリズムの(きめ細かい)分類を集中的かつ分散的設定でマッピングする広範囲な調査、近似アンラーニングに関する議論、検証と評価のメトリクス、異なるアプリケーション下でのアンラーニングの課題と解決、さらにはマシンアンラーニングをターゲットにした攻撃などを行います。
この調査は、将来の研究の潜在的な方向性を概説し、興味のある学者のガイドになることを望んでいる。
Personal digital data is a critical asset, and governments worldwide have enforced laws and regulations to protect data privacy. Data users have been endowed with the right to be forgotten of their data. In the course of machine learning (ML), the forgotten right requires a model provider to delete user data and its subsequent impact on ML models upon user requests. Machine unlearning emerges to address this, which has garnered ever-increasing attention from both industry and academia. While the area has developed rapidly, there is a lack of comprehensive surveys to capture the latest advancements. Recognizing this shortage, we conduct an extensive exploration to map the landscape of machine unlearning including the (fine-grained) taxonomy of unlearning algorithms under centralized and distributed settings, debate on approximate unlearning, verification and evaluation metrics, challenges and solutions for unlearning under different applications, as well as attacks targeting machine unlearning. The survey concludes by outlining potential directions for future research, hoping to serve as a guide for interested scholars. | 翻訳日:2024-03-14 15:50:11 公開日:2024-03-13 |
# PNeSM: プロンプト型ニューラルスタイルによる任意3次元スチル化
地図
PNeSM: Arbitrary 3D Scene Stylization via Prompt-Based Neural Style Mapping ( http://arxiv.org/abs/2403.08252v1 ) ライセンス: Link先を確認 | Jiafu Chen, Wei Xing, Jiakai Sun, Tianyi Chu, Yiling Huang, Boyan Ji, Lei Zhao, Huaizhong Lin, Haibo Chen, Zhizhong Wang | (参考訳) 3Dシーンのスタイラス化とは、3Dシーンの外観を変換して、異なる視点からレンダリングされた画像が、スタイル化されたシーンの3D一貫性を維持しながら、所定のスタイルイメージと同一のスタイルを確実にすることである。
既存のいくつかの手法は、3Dシーンのスタイリングにおいて印象的な結果を得た。
しかし、これらの手法によって提案されるモデルは、新しいシーンに適用した場合に再訓練される必要がある。
言い換えれば、それらのモデルは特定のシーンと結合され、任意の他のシーンに適応できない。
この問題に対処するために,任意のスタイルを任意のシーンに転送する新しい3Dシーンスタイリングフレームワークを提案する。
具体的には、まず3Dシーンの外観を2Dスタイルのパターン空間にマッピングし、3Dシーンの形状と外観の完全な切り離しを実現し、我々のモデルを任意の3Dシーンに一般化する。
次に、プロンプトベースの2Dスタイリングアルゴリズムを用いて、2Dスタイルのパターン空間における3Dシーンの外観をスタイリングする。
実験の結果,提案手法は視覚的品質と一般化の両方においてSOTA法よりも優れていることがわかった。
3D scene stylization refers to transform the appearance of a 3D scene to match a given style image, ensuring that images rendered from different viewpoints exhibit the same style as the given style image, while maintaining the 3D consistency of the stylized scene. Several existing methods have obtained impressive results in stylizing 3D scenes. However, the models proposed by these methods need to be re-trained when applied to a new scene. In other words, their models are coupled with a specific scene and cannot adapt to arbitrary other scenes. To address this issue, we propose a novel 3D scene stylization framework to transfer an arbitrary style to an arbitrary scene, without any style-related or scene-related re-training. Concretely, we first map the appearance of the 3D scene into a 2D style pattern space, which realizes complete disentanglement of the geometry and appearance of the 3D scene and makes our model be generalized to arbitrary 3D scenes. Then we stylize the appearance of the 3D scene in the 2D style pattern space via a prompt-based 2D stylization algorithm. Experimental results demonstrate that our proposed framework is superior to SOTA methods in both visual quality and generalization. | 翻訳日:2024-03-14 15:50:10 公開日:2024-03-13 |
# 大規模言語モデルに基づくエージェント・ソシエティにおける社会的ノルムの出現
Emergence of Social Norms in Large Language Model-based Agent Societies ( http://arxiv.org/abs/2403.08251v1 ) ライセンス: Link先を確認 | Siyue Ren, Zhiyao Cui, Ruiqi Song, Zhen Wang, Shuyue Hu | (参考訳) 社会規範の出現は、社会科学や認知科学から人工知能まで幅広い分野に多くの関心を集めている。
本稿では,大規模言語モデルに基づくエージェントの集団内での社会的規範の出現を促進するための,最初の生成エージェントアーキテクチャを提案する。
私たちのアーキテクチャはCRSECと呼ばれ、Creation & Representation, Spreading, Evaluation, Complianceの4つのモジュールで構成されています。
私たちのアーキテクチャは、創発的なプロセスのいくつかの重要な側面に対処しています。
(i)社会規範の発祥地
(ii) 形式的にどのように表現されるか
三 エージェントのコミュニケーション及び観察の方法
四 衛生検査で検査し、長期にわたって合成する方法、及び
(v)エージェントの計画と行動にどのように組み込まれているか。
本研究では,Smallville Sandboxゲーム環境に導入した実験により,大規模言語モデルに基づくマルチエージェントシステムにおける社会規範の確立と社会的対立の低減を図った。
評価対象者30名を対象に実施した人的評価の結果,その有効性を確認した。
The emergence of social norms has attracted much interest in a wide array of disciplines, ranging from social science and cognitive science to artificial intelligence. In this paper, we propose the first generative agent architecture that empowers the emergence of social norms within a population of large language model-based agents. Our architecture, named CRSEC, consists of four modules: Creation & Representation, Spreading, Evaluation, and Compliance. Our architecture addresses several important aspects of the emergent processes all in one: (i) where social norms come from, (ii) how they are formally represented, (iii) how they spread through agents' communications and observations, (iv) how they are examined with a sanity check and synthesized in the long term, and (v) how they are incorporated into agents' planning and actions. Our experiments deployed in the Smallville sandbox game environment demonstrate the capability of our architecture to establish social norms and reduce social conflicts within large language model-based multi-agent systems. The positive outcomes of our human evaluation, conducted with 30 evaluators, further affirm the effectiveness of our approach. | 翻訳日:2024-03-14 15:50:09 公開日:2024-03-13 |
# X線のリングアーチファクト除去のための二重領域正規化法
CT
A Dual-domain Regularization Method for Ring Artifact Removal of X-ray CT ( http://arxiv.org/abs/2403.08247v1 ) ライセンス: Link先を確認 | Hongyang Zhu, Xin Lu, Yanwei Qin, Xinran Yu, Tianjiao Sun and Yunsong Zhao | (参考訳) 検出ユニットの望ましくない応答から生じる計算トモグラフィー画像のリングアーティファクトは、画像品質と診断信頼性を著しく低下させた。
この課題に対処するために、元のCT画像の整合性を維持しつつ、リングアーティファクトを効果的に除去する二重領域正規化モデルを提案する。
提案モデルでは, グループスパース制約と投影方向スパース制約を併用し, 検出ユニットの応答不整合補償係数を革新的に更新することにより, シングラム上の垂直ストライプアーティファクトを補正する。
同時に、再構成画像にスパース制約を適用し、画像領域内のさらなる整形リングアーティファクトに適用する。
提案手法の主な利点は,検出ユニットの応答不整合補償係数と投影ビューの関係を考慮し,検出ユニットの応答のより正確な補正を可能にすることである。
モデルを解くために、交代最小化法が設計されている。
実光子計数検出器データの比較実験により,提案手法は既存のリングアーティファクト除去法を超越するだけでなく,構造の詳細や画像の忠実さの保存にも優れていることが示された。
Ring artifacts in computed tomography images, arising from the undesirable responses of detector units, significantly degrade image quality and diagnostic reliability. To address this challenge, we propose a dual-domain regularization model to effectively remove ring artifacts, while maintaining the integrity of the original CT image. The proposed model corrects the vertical stripe artifacts on the sinogram by innovatively updating the response inconsistency compensation coefficients of detector units, which is achieved by employing the group sparse constraint and the projection-view direction sparse constraint on the stripe artifacts. Simultaneously, we apply the sparse constraint on the reconstructed image to further rectified ring artifacts in the image domain. The key advantage of the proposed method lies in considering the relationship between the response inconsistency compensation coefficients of the detector units and the projection views, which enables a more accurate correction of the response of the detector units. An alternating minimization method is designed to solve the model. Comparative experiments on real photon counting detector data demonstrate that the proposed method not only surpasses existing methods in removing ring artifacts but also excels in preserving structural details and image fidelity. | 翻訳日:2024-03-14 15:50:09 公開日:2024-03-13 |
# 肯定的および否定的選好の統一モデリングに向けて
Sign-Aware Recommendation
Towards Unified Modeling for Positive and Negative Preferences in Sign-Aware Recommendation ( http://arxiv.org/abs/2403.08246v1 ) ライセンス: Link先を確認 | Yuting Liu, Yizhou Dang, Yuliang Liang, Qiang Liu, Guibing Guo, Jianzhe Zhao, Xingwei Wang | (参考訳) 近年,グラフの肯定的・否定的な相互作用(例えば,グラフ内のリンク)とアイテムとの相互作用以外に,ユーザのネガティブな嗜好を学習する上で,サインアウェアグラフの推奨が注目されている。
負のリンクと正のリンクの異なるセマンティクスに対応するため、既存の研究では2つの独立したエンコーダを使用して、ユーザの正と負の好みをモデル化している。
しかし、これらの手法は、異なる記号を持つ複数のリンクによって形成されるユーザとアイテム間の高次不均一な相互作用から負の嗜好を学習できないため、不正確で不完全なユーザ嗜好をもたらす。
これらの難解な問題に対処するため, 署名されたユーザ・イテム相互作用グラフ上で高次ユーザの肯定的・否定的な嗜好を同時にモデル化するための統一的モデリング手法を採用した, \textbf{L}ight \textbf{S}igned \textbf{G}raph Convolution Network(\textbf{Rec}ommendation)を提案する。
特に、高次不均一相互作用における負の選好については、第1次負の選好は負のリンクによって捕捉され、高次負の選好は正のエッジに沿って伝播される。
そして、肯定的な選好に基づいて推薦結果を生成し、負の選好に最適化する。
最後に、ユーザとアイテムの表現を異なる補助タスクで訓練する。
実世界の3つのデータセットに対する大規模な実験により、本手法は、性能と計算効率に関する既存のベースラインよりも優れていることが示された。
我々のコードは \url{https://anonymous.4open.science/r/LSGRec-BB95} で入手できる。
Recently, sign-aware graph recommendation has drawn much attention as it will learn users' negative preferences besides positive ones from both positive and negative interactions (i.e., links in a graph) with items. To accommodate the different semantics of negative and positive links, existing works utilize two independent encoders to model users' positive and negative preferences, respectively. However, these approaches cannot learn the negative preferences from high-order heterogeneous interactions between users and items formed by multiple links with different signs, resulting in inaccurate and incomplete negative user preferences. To cope with these intractable issues, we propose a novel \textbf{L}ight \textbf{S}igned \textbf{G}raph Convolution Network specifically for \textbf{Rec}ommendation (\textbf{LSGRec}), which adopts a unified modeling approach to simultaneously model high-order users' positive and negative preferences on a signed user-item interaction graph. Specifically, for the negative preferences within high-order heterogeneous interactions, first-order negative preferences are captured by the negative links, while high-order negative preferences are propagated along positive edges. Then, recommendation results are generated based on positive preferences and optimized with negative ones. Finally, we train representations of users and items through different auxiliary tasks. Extensive experiments on three real-world datasets demonstrate that our method outperforms existing baselines regarding performance and computational efficiency. Our code is available at \url{https://anonymous.4open.science/r/LSGRec-BB95}. | 翻訳日:2024-03-14 15:50:08 公開日:2024-03-13 |
# Scattered Mixture-of-Experts の実装
Scattered Mixture-of-Experts Implementation ( http://arxiv.org/abs/2403.08245v1 ) ライセンス: Link先を確認 | Shawn Tan, Yikang Shen, Rameswar Panda, Aaron Courville | (参考訳) ScatterMoEはGPU上でのスパース混合(SmoE)の実装である。
ScatterMoEは既存の実装の上に構築されており、推論とトレーニング速度、メモリフットプリントを改善するためのいくつかの制限を克服している。
この実装は、パディングを回避し、入力を過剰にコピーすることでこれを実現する。
私たちはParallelLinearを紹介します。ParallelLinearは私たちが実装を構築するのに使っている主要コンポーネントであり、操作の高速化に使用するさまざまなカーネルです。
我々はMegablocksに対して実装をベンチマークし、高いスループットとメモリフットプリントを実現できることを示す。
また、ParallelLinearはMixture of Attentionの実装によってMixture-of-Expertsの概念の拡張を可能にしていることを示す。
We present ScatterMoE, an implementation of Sparse Mixture-of-Experts (SMoE) on GPUs. ScatterMoE builds upon existing implementations, and overcoming some of the limitations to improve inference and training speed, and memory footprint. This implementation achieves this by avoiding padding and making excessive copies of the input. We introduce ParallelLinear, the main component we use to build our implementation and the various kernels used to speed up the operation. We benchmark our implementation against Megablocks, and show that it enables a higher throughput and lower memory footprint. We also show how ParallelLinear enables extension of the Mixture-of-Experts concept by demonstrating with an implementation of Mixture of Attention. | 翻訳日:2024-03-14 15:50:08 公開日:2024-03-13 |
# 事前訓練による調理ロボットの連続物体状態認識
視覚言語モデルとブラックボックス最適化
Continuous Object State Recognition for Cooking Robots Using Pre-Trained Vision-Language Models and Black-box Optimization ( http://arxiv.org/abs/2403.08239v1 ) ライセンス: Link先を確認 | Kento Kawaharazuka and Naoaki Kanazawa and Yoshiki Obinata and Kei Okada and Masayuki Inaba | (参考訳) ロボットによる環境や物体の状態の認識は、一般に、分類問題として現在の状態の判断に基づいている。
一方、調理中の食品の状態変化は連続的に起こるため、特定の時点だけでなく、時間とともに常に捕獲される必要がある。
加えて、食品の状態変化は複雑であり、手動プログラミングでは容易に説明できない。
そこで本研究では,ロボットの調理における食品の連続状態変化を,事前学習した大規模視覚言語モデルを用いて音声認識することで認識する手法を提案する。
画像とテキストの類似性を時間とともに連続的に計算できるモデルを使用することで、調理中の食品の状態変化を捉えることができる。
また,Sigmoid関数の類似性変化に適合して各テキストプロンプトの重み付けを調整し,ブラックボックス最適化を行うことにより,より正確で堅牢な連続状態認識を実現することを示す。
本手法の有効性と限界は, 沸騰, バター融解, 卵炊き, 玉ねぎかきの認識によって示される。
The state recognition of the environment and objects by robots is generally based on the judgement of the current state as a classification problem. On the other hand, state changes of food in cooking happen continuously and need to be captured not only at a certain time point but also continuously over time. In addition, the state changes of food are complex and cannot be easily described by manual programming. Therefore, we propose a method to recognize the continuous state changes of food for cooking robots through the spoken language using pre-trained large-scale vision-language models. By using models that can compute the similarity between images and texts continuously over time, we can capture the state changes of food while cooking. We also show that by adjusting the weighting of each text prompt based on fitting the similarity changes to a sigmoid function and then performing black-box optimization, more accurate and robust continuous state recognition can be achieved. We demonstrate the effectiveness and limitations of this method by performing the recognition of water boiling, butter melting, egg cooking, and onion stir-frying. | 翻訳日:2024-03-14 15:50:07 公開日:2024-03-13 |
# リアルタイムな特徴学習型バイオインスピレーションニューラルネットワーク
マルチロボットシステムの衝突のない救助
A Novel Feature Learning-based Bio-inspired Neural Network for Real-time Collision-free Rescue of Multi-Robot Systems ( http://arxiv.org/abs/2403.08238v1 ) ライセンス: Link先を確認 | Junfei Li, Simon X. Yang | (参考訳) 自然災害や都市事故は、より安全で、より速く、より効率的な救助軌道を提供するために、救助ロボットの需要を加速させる。
本稿では,複雑な環境と動的環境のヒューリスティックな救難経路を高速に生成する特徴学習型バイオインスパイアニューラルネットワーク (FLBBINN) を提案する。
神経力学モデルは、環境情報を用いて経路計画戦略を改善する機能学習手法に組み込まれている。
タスク割り当てと衝突のない救助軌道は、ロボットのポーズと、神経活動のダイナミックな景観によって生成される。
特徴ニューロンの抽出及びフィルタリングには、二重チャネルスケールフィルタ、神経活動チャネル、二次距離融合を用いる。
特徴学習プロセスの完了後、神経力学に基づく特徴行列を構築し、パラメータ駆動型トポロジカル適応性を持つ新しいヒューリスティック救済経路を迅速に生成する。
提案するFLBBINNは、ニューラルネットワークベースのアプローチの計算複雑性を低減し、特徴学習手法により環境変化に対するリアルタイム応答を実現することを目的としている。
提案するFLBBINNの性能を評価するために,いくつかのシミュレーションと実験を行った。
その結果,提案するFLBBINNは救助活動の速度,効率,最適性を大幅に向上させることがわかった。
Natural disasters and urban accidents drive the demand for rescue robots to provide safer, faster, and more efficient rescue trajectories. In this paper, a feature learning-based bio-inspired neural network (FLBBINN) is proposed to quickly generate a heuristic rescue path in complex and dynamic environments, as traditional approaches usually cannot provide a satisfactory solution to real-time responses to sudden environmental changes. The neurodynamic model is incorporated into the feature learning method that can use environmental information to improve path planning strategies. Task assignment and collision-free rescue trajectory are generated through robot poses and the dynamic landscape of neural activity. A dual-channel scale filter, a neural activity channel, and a secondary distance fusion are employed to extract and filter feature neurons. After completion of the feature learning process, a neurodynamics-based feature matrix is established to quickly generate the new heuristic rescue paths with parameter-driven topological adaptability. The proposed FLBBINN aims to reduce the computational complexity of the neural network-based approach and enable the feature learning method to achieve real-time responses to environmental changes. Several simulations and experiments have been conducted to evaluate the performance of the proposed FLBBINN. The results show that the proposed FLBBINN would significantly improve the speed, efficiency, and optimality for rescue operations. | 翻訳日:2024-03-14 15:50:07 公開日:2024-03-13 |
# 制約された最適輸送による点雲圧縮
Point Cloud Compression via Constrained Optimal Transport ( http://arxiv.org/abs/2403.08236v1 ) ライセンス: Link先を確認 | Zezeng Li, Weimin Wang, Ziliang Wang, Na Lei | (参考訳) 本稿では,制約付き最適輸送(COT)問題としてタスクを定式化し,新しいポイントクラウド圧縮手法COT-PCCを提案する。
COT-PCCは圧縮された特徴のビットレートを最適輸送(OT)の余分な制約として取り、元の点と再構成された点の間の分布変換を学習する。
特に、定式化されたCOTは、生成逆ネットワーク(GAN)と学習用ビットレート損失で実装される。
判別器は、入力点と再構成点の間のワッサーシュタイン距離を測定し、生成器は入力点と再構成点の分布間の最適マッピングを算出する。
さらに,圧縮手順におけるダウンサンプリングのための学習可能なサンプリングモジュールを導入する。
COT-PCCはCDとPSNRの両方の指標で最先端の手法より優れていることを示す。
ソースコードは \url{https://github.com/cognaclee/PCC-COT} で入手できる。
This paper presents a novel point cloud compression method COT-PCC by formulating the task as a constrained optimal transport (COT) problem. COT-PCC takes the bitrate of compressed features as an extra constraint of optimal transport (OT) which learns the distribution transformation between original and reconstructed points. Specifically, the formulated COT is implemented with a generative adversarial network (GAN) and a bitrate loss for training. The discriminator measures the Wasserstein distance between input and reconstructed points, and a generator calculates the optimal mapping between distributions of input and reconstructed point cloud. Moreover, we introduce a learnable sampling module for downsampling in the compression procedure. Extensive results on both sparse and dense point cloud datasets demonstrate that COT-PCC outperforms state-of-the-art methods in terms of both CD and PSNR metrics. Source codes are available at \url{https://github.com/cognaclee/PCC-COT}. | 翻訳日:2024-03-14 15:50:06 公開日:2024-03-13 |
# グラディエントな地表面をベースとした並列ビーム分割法 -準備と試作-
量子エンタングルメントの融合
A Parallel Beam Splitting Based on Gradient Metasurface: Preparation and Fusion of Quantum Entanglement ( http://arxiv.org/abs/2403.08233v1 ) ライセンス: Link先を確認 | Qi Liu, Xuan Liu, Yu Tian, Zhaohua Tian, Guixin Li, Xi-Feng Ren, Qihuang Gong, and Ying Gu | (参考訳) 位相変調の異なるサブ波長単位セルの集合によって形成されるグラディエントな準曲面は、古典光学や量子光学において偏光ビーム分割(BS)において広く用いられている。
具体的には、その位相勾配により、複数の出力光の経路と偏光を対応する入力でロックすることができ、このユニークな経路偏光ロック特性を用いて、単一準曲面が順次連結されたビームスプリッタとして機能し、一連のBSプロセスの並列化を可能にすることを実証する。
このような平行なBS準曲面は、古典的および量子的光操作の両方にマルチビーム干渉機能を提供する。
この利点を生かして、光子源から2、3、多光子の経路と偏光ハイブリッド交絡状態を作成する。
次に、平行なBSファシリケートされた絡み合いの能力を適用して、絡み合った光子対間の絡み合い融合を示すことにより、絡み合い寸法を大幅に拡大することができる。
準曲面による並列BSの原理は、マイクロ/ナノスケールで量子状態を操作するための汎用的な方法を開く。
Gradient metasurface, formed by a set of subwavelength unit cells with different phase modulation, is widely used in polarized beam splitting (BS) in the classical and quantum optics. Specifically, its phase gradient allows the path and polarization of multiple output lights to be locked by corresponding inputs.Using this unique path-polarization locked property, we demonstrate that the single metasurface can function as sequentially linked beamsplitters, enabling the parallelization of a series of BS processes. Such a parallel BS metasurface provides a multi-beam interference capability for both classical and quantum light manipulation. Taking this advantage, we first prepare path and polarization hybrid entangled states of two, three, and multi photons from unentangled photon sources. Then, the ability of parallel BS-facilitated entanglement is applied to demonstrate entanglement fusion among entangled photon pairs, which can greatly enlarge the entanglement dimension. The principle of parallel BS through the metasurface opens up a versatile way to manipulate the quantum state at the micro/nano scale, which will have potential applications in on-chip quantum optics and quantum information processing. | 翻訳日:2024-03-14 15:50:06 公開日:2024-03-13 |
# 量子トーラスにおける速度場の零モードと位相不変量
Zero modes of velocity field and topological invariant in quantum torus ( http://arxiv.org/abs/2403.08232v1 ) ライセンス: Link先を確認 | Annan Fan and Shi-Dong Liang | (参考訳) 量子状態の位相不変性を特徴づけるための速度場アプローチを提案する。
速度場の零モードに基づく速度場流の指数を導入し、これらの零モードがポアンカー・オボエ-ホップの定理によってオイラー特性にリンクする効果的な位相電荷や欠陥の役割を担っていることを確かめる。
指数の大域的性質は、パラメータの変形に対する位相不変量である。
量子トーラスモデルによるこのアプローチを実証し、チャーン数から得られる位相不変量と比較する。
速度場の零モードに基づく位相不変量の物理的メカニズムはチャーン数によって位相不変量と異なることがわかった。
速度場を特徴とする位相不変量(英語版)は、量子トーラスのSU(2)-ファイバー束の基底多様体の部分多様体上の零モードに付随する同相位相不変量を記述するが、チャーン数はブリルアンゾーンの例外点に付随するホモトピー不変量を特徴付ける。
また、エルミート系と非エルミート系の速度場の観点から一般化された巻数を提案する。
これにより、速度空間におけるゼロモードと巻数の間の接続が得られる。
これらの結果は量子状態のトポロジカル不変量を強化し、量子状態のトポロジカル不変量を理解するための新しい洞察と、より一般的なモデルにさらに適用されることを約束する。
We propose the velocity field approach to characterize topological invariants of quantum states. We introduce the indexes of the velocity field flow based on the zero modes of the velocity field and find that these zero modes play the role of effective topological charges or defects linking to Euler characteristic by the Poincar\'{e}-Hopf theorem. The global property of the indexes is topological invariants against the parameter deformation. We demonstrate this approach by the quantum torus model and compare the topological invariant with that obtained from the Chern number. We find that the physical mechanism of the topological invariant based on the zero modes of the velocity field is different from that of the topological invariant by the Chern number. The topological invariant characterized by the velocity field describes a homeomorphic topological invariant associated with the zero modes on the submanifold of the base manifold of the SU(2)-fibre bundle for quantum torus, whereas the Chern number characterizes a homotopy invariant associated with the exceptional points in the Brillouin zone. We also propose the generalized winding number in terms of the velocity field for both Hermitian and non-Hermitian systems. This gives a connection between the zero mode and winding number in the velocity space. These results enrich the topological invariants of quantum states and promises us a novel insight to understanding topological invariants of quantum states as well as expected to be further applied in more generic models. | 翻訳日:2024-03-14 15:50:05 公開日:2024-03-13 |
# 大規模言語モデルを用いた拡散検出の高速化
発電機
Boosting Disfluency Detection with Large Language Model as Disfluency Generator ( http://arxiv.org/abs/2403.08229v1 ) ライセンス: Link先を確認 | Zhenrong Cheng, Jiayan Guo, Hao Sun, Yan Zhang | (参考訳) 現在のディフルエンシ検出法は、人手による注釈付きデータに大きく依存している。
この問題に対処するためには、ヒューリスティックな特徴や統計的な特徴を用いて不適切な文を生成し、検出性能を部分的に改善するアプローチもある。
しかし、これらの文はしばしば現実のシナリオから逸脱し、全体的なモデル拡張を制約する。
本研究では,大言語モデル(LLM)のより優れた生成的・意味的理解機能を利用して,デフルエンシ検出のための軽量なデータ拡張手法を提案する。
LLMを微調整することなく、特定のプロンプトによって導かれる多様で現実的な文を生成する。
次に,不確実性を考慮したデータフィルタリング手法を適用し,文の質を向上し,小さな検出モデルを訓練して性能を向上させる。
強化されたデータを用いた実験は、最先端の結果を得た。
その結果, 少量のLCM生成データを用いることで, 性能が著しく向上し, コスト効率が向上することがわかった。
Current disfluency detection methods heavily rely on costly and scarce human-annotated data. To tackle this issue, some approaches employ heuristic or statistical features to generate disfluent sentences, partially improving detection performance. However, these sentences often deviate from real-life scenarios, constraining overall model enhancement. In this study, we propose a lightweight data augmentation approach for disfluency detection, utilizing the superior generative and semantic understanding capabilities of large language model (LLM) to generate disfluent sentences as augmentation data. We leverage LLM to generate diverse and more realistic sentences guided by specific prompts, without the need for fine-tuning the LLM. Subsequently, we apply an uncertainty-aware data filtering approach to improve the quality of the generated sentences, utilized in training a small detection model for improved performance. Experiments using enhanced data yielded state-of-the-art results. The results showed that using a small amount of LLM-generated enhanced data can significantly improve performance, thereby further enhancing cost-effectiveness. | 翻訳日:2024-03-14 15:50:05 公開日:2024-03-13 |
# 非同一物体のマッチング
Matching Non-Identical Objects ( http://arxiv.org/abs/2403.08227v1 ) ライセンス: Link先を確認 | Yusuke Marumo, Kazuhiko Kawamoto, Hiroshi Kera | (参考訳) 同一の物体ではなく、類似した物体が世界中に存在している。
例えば、犬や猫のような四足の動物、異なるモデルの車、さまざまな色の花、その他無数の動物がある。
本研究では,そのような非識別対象をマッチングする新しい課題について考察する。
本稿では,異なる視点から取得した同一のオブジェクトをマッチングし,意味論的にロバストなマッチングを実現するために設計された,様々なスパース画像マッチング手法を強化する記述子の単純な重み付け方式を提案する。
実験では、ドメインシフトを含む様々なケースにおいて、同一でないオブジェクト間のマッチングが成功した。
さらに、ドメインシフトの一種である共通汚職下での画像マッチング手法の堅牢性の最初の評価を行い、この場合のマッチング性も改善する。
Not identical but similar objects are everywhere in the world. Examples include four-legged animals such as dogs and cats, cars of different models, akin flowers in various colors, and countless others. In this study, we address a novel task of matching such non-identical objects. We propose a simple weighting scheme of descriptors that enhance various sparse image matching methods, which are originally designed for matching identical objects captured from different perspectives, and achieve semantically robust matching. The experiments show successful matching between non-identical objects in various cases including domain shift. Further, we present a first evaluation of the robustness of the image matching methods under common corruptions, which is a sort of domain shift, and the proposed method improves the matching in this case as well. | 翻訳日:2024-03-14 15:50:04 公開日:2024-03-13 |
# REPAIR:ランク相関とノイズペアハーフリプレース
ノイズ対応
REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for Noisy Correspondence ( http://arxiv.org/abs/2403.08224v1 ) ライセンス: Link先を確認 | Ruochen Zheng, Jiahao Hong, Changxin Gao, Nong Sang | (参考訳) 取得したデータにおけるノイズの存在は、クロスモーダルマッチングの性能劣化を必然的に引き起こす。
残念ながら、マルチモーダルフィールドでの正確なアノテーションの取得は高価であり、ノイズ対応と呼ばれるクロスモーダルマッチングコンテキストにおけるミスマッチしたデータペア問題に対処するいくつかの手法が提案されている。
しかし、これらの既存の雑音対応法のほとんどは、以下の制限を示している。
イ 自己強化誤差蓄積の問題、及び
ロ ノイズの多いデータ対の不正な取扱い
この2つの問題に対処するために、一致したペアの特徴に対するメモリバンクの維持の利点を生かした、Rate corrElationとnoisy Pair hAllf-replacing wIth memoRy (REPAIR)と呼ばれる一般化されたフレームワークを提案する。
具体的には,各モダリティについて,メモリバンクの特徴量と対象ペアの距離を算出し,これらの2つの距離のランク相関を用いて,対象ペアのソフト対応ラベルを推定する。
類似性ネットワークを使わずに,メモリバンクの特徴に基づくソフト対応を推定することで,誤識別によるエラーの蓄積を回避することができる。
完全にミスマッチしたペアに対して、REPAIRはメモリバンクを最もマッチした機能を探し出し、1つのモダリティの1つの機能を置き換える。
我々は, Flickr30K, MSCOCO, CC152Kの3つのクロスモーダルデータセットを用いて実験を行い, 合成および実世界のノイズに対するREPAIRの有効性とロバスト性を実証した。
The presence of noise in acquired data invariably leads to performance degradation in cross-modal matching. Unfortunately, obtaining precise annotations in the multimodal field is expensive, which has prompted some methods to tackle the mismatched data pair issue in cross-modal matching contexts, termed as noisy correspondence. However, most of these existing noisy correspondence methods exhibit the following limitations: a) the problem of self-reinforcing error accumulation, and b) improper handling of noisy data pair. To tackle the two problems, we propose a generalized framework termed as Rank corrElation and noisy Pair hAlf-replacing wIth memoRy (REPAIR), which benefits from maintaining a memory bank for features of matched pairs. Specifically, we calculate the distances between the features in the memory bank and those of the target pair for each respective modality, and use the rank correlation of these two sets of distances to estimate the soft correspondence label of the target pair. Estimating soft correspondence based on memory bank features rather than using a similarity network can avoid the accumulation of errors due to incorrect network identifications. For pairs that are completely mismatched, REPAIR searches the memory bank for the most matching feature to replace one feature of one modality, instead of using the original pair directly or merely discarding the mismatched pair. We conduct experiments on three cross-modal datasets, i.e., Flickr30K, MSCOCO, and CC152K, proving the effectiveness and robustness of our REPAIR on synthetic and real-world noise. | 翻訳日:2024-03-14 15:50:04 公開日:2024-03-13 |
# 対人的専門家によるロバストな意思決定
Robust Decision Aggregation with Adversarial Experts ( http://arxiv.org/abs/2403.08222v1 ) ライセンス: Link先を確認 | Yongkang Guo, Yuqing Kong | (参考訳) 我々は、真理と敵の双方の専門家が存在する場合、二項決定集約問題を考える。
真面目な専門家は個人的な信号を真実に適切なインセンティブで報告し、敵の専門家は任意に報告することができる。
意思決定者は、専門家の報告に基づいて世界の本当の状態を予測するための堅牢なアグリゲータを設計する必要がある。
意思決定者は、信号、状態、および敵の専門家の戦略の共同分布である特定の情報構造を知らない。
最悪の情報構造の下で、後悔を最小限に抑える最適なアグリゲータを見つけたいと思っています。
この後悔は、アグリゲータとベンチマークの間の期待される損失の差によって定義される。
真理の専門家が対称的であり、敵対的な専門家があまり多くないことが証明された場合、取り残された平均値が最適であることは、最も低い報告と最も高い報告を取り除き、左のレポートの中で平均値を取ることを意味する。
さらに、多くの設定において、最適アグリゲータは断片線型関数の族に属する。
後悔は専門家の総数とは無関係であるが、敵の比率にのみ依存する。
アンサンブル学習課題における数値実験によりアグリゲータを評価する。
また、より一般的な情報構造と専門家の報告空間の下で、敵の専門家による集約問題に対する否定的な結果を得た。
We consider a binary decision aggregation problem in the presence of both truthful and adversarial experts. The truthful experts will report their private signals truthfully with proper incentive, while the adversarial experts can report arbitrarily. The decision maker needs to design a robust aggregator to forecast the true state of the world based on the reports of experts. The decision maker does not know the specific information structure, which is a joint distribution of signals, states, and strategies of adversarial experts. We want to find the optimal aggregator minimizing regret under the worst information structure. The regret is defined by the difference in expected loss between the aggregator and a benchmark who makes the optimal decision given the joint distribution and reports of truthful experts. We prove that when the truthful experts are symmetric and adversarial experts are not too numerous, the truncated mean is optimal, which means that we remove some lowest reports and highest reports and take averaging among the left reports. Moreover, for many settings, the optimal aggregators are in the family of piecewise linear functions. The regret is independent of the total number of experts but only depends on the ratio of adversaries. We evaluate our aggregators by numerical experiment in an ensemble learning task. We also obtain some negative results for the aggregation problem with adversarial experts under some more general information structures and experts' report space. | 翻訳日:2024-03-14 15:50:03 公開日:2024-03-13 |
# 非線形ベイジアンに対する効率的な幾何学的マルコフ連鎖モンテカルロ
デリバティブインフォームド・ニューラル演算子によって実現されるインバージョン
Efficient geometric Markov chain Monte Carlo for nonlinear Bayesian inversion enabled by derivative-informed neural operators ( http://arxiv.org/abs/2403.08220v1 ) ライセンス: Link先を確認 | Lianghao Cao, Thomas O'Leary-Roseberry, Omar Ghattas | (参考訳) 無限次元非線形ベイズ逆問題の解法として,幾何学的マルコフ連鎖モンテカルロ(MCMC)を高速化する演算子学習手法を提案する。
幾何学的MCMCでは、後部局所幾何学に適合する高品質な提案が採用されているが、パラメータ・トゥ・オブザーバブル(PtO)マップが高価なモデルシミュレーションによって定義される場合、計算局所勾配とログのようなヘッセン情報を必要とする。
本稿では,PtOマップのニューラル演算子サロゲートによって駆動される遅延受容幾何学的MCMC法について考察する。
かなりのスピードアップを達成するためには、サロゲートは観測可能な微分とそのパラメトリックな微分(パラメータに関して観測可能な微分)を正確に予測する必要がある。
このようなサロゲートを従来の演算子学習でトレーニングするには、入力出力サンプルを多用することが多い。
本稿では,インプット-アウトプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット-インプット・トレーニング・サンプルを用いて,微分インフォームド・オペレータ学習(O'Leary-Roseberry et al , J. Comput. Phys., 496 (2024)))の拡張について述べる。
このような学習方法は、従来の方法よりも格段に低いトレーニングコストで観測可能とそのパラメトリック誘導体を正確に予測するデリバティブインフォームド・ニューラル演算子(DINO)の代理となる。
還元基底DINOサロゲートのコスト及び誤差解析を行う。
PDE制約のベイズ反転に関する数値的研究により、DINO駆動のMCMCは、幾何学的MCMCよりも3~9倍、幾何学的MCMCより60~97倍、効果的な後部サンプルを生成することが示された。
さらに、DINOサロゲートのトレーニングコストは、幾何学的MCMCと比較して10~25個の有効な後部サンプルのみを採取した後でも低下する。
We propose an operator learning approach to accelerate geometric Markov chain Monte Carlo (MCMC) for solving infinite-dimensional nonlinear Bayesian inverse problems. While geometric MCMC employs high-quality proposals that adapt to posterior local geometry, it requires computing local gradient and Hessian information of the log-likelihood, incurring a high cost when the parameter-to-observable (PtO) map is defined through expensive model simulations. We consider a delayed-acceptance geometric MCMC method driven by a neural operator surrogate of the PtO map, where the proposal is designed to exploit fast surrogate approximations of the log-likelihood and, simultaneously, its gradient and Hessian. To achieve a substantial speedup, the surrogate needs to be accurate in predicting both the observable and its parametric derivative (the derivative of the observable with respect to the parameter). Training such a surrogate via conventional operator learning using input--output samples often demands a prohibitively large number of model simulations. In this work, we present an extension of derivative-informed operator learning [O'Leary-Roseberry et al., J. Comput. Phys., 496 (2024)] using input--output--derivative training samples. Such a learning method leads to derivative-informed neural operator (DINO) surrogates that accurately predict the observable and its parametric derivative at a significantly lower training cost than the conventional method. Cost and error analysis for reduced basis DINO surrogates are provided. Numerical studies on PDE-constrained Bayesian inversion demonstrate that DINO-driven MCMC generates effective posterior samples 3--9 times faster than geometric MCMC and 60--97 times faster than prior geometry-based MCMC. Furthermore, the training cost of DINO surrogates breaks even after collecting merely 10--25 effective posterior samples compared to geometric MCMC. | 翻訳日:2024-03-14 15:50:02 公開日:2024-03-13 |
# 例外点のない非エルミート感覚
Non-Hermitian sensing in the absence of exceptional points ( http://arxiv.org/abs/2403.08218v1 ) ライセンス: Link先を確認 | Lei Xiao and Yaoming Chu and Quan Lin and Haiqing Lin and Wei Yi and Jianming Cai and Peng Xue | (参考訳) 開系は高精度センシングにおいてユニークなポテンシャルを持つが、以前の研究の大半は例外点として知られるスペクトル特異点に依存している。
ここでは、例外点のない普遍的非エルミート感覚を理論的に提案し、実験的に示す。
このスキームは、非エルミートプローブの内在感度を弱い外部場に利用し、非ハーミティティーの直接的な結果と解釈できる。
本稿では,光子干渉法を用いてセンサ場力学をシミュレートして基本メカニズムを確認し,具体的には波動板の設定角度に符号化された信号の高感度センシングを実証する。
プローブの感度は測定ノイズによって最終的に制限されるが、繰り返し測定では抑制できない背景雑音下での優れた性能を示す非エルミタンセンサが見つかる。
我々の実験は、オープンシステムのユニークな特徴を活用することを目的とした既存の取り組みを補完し、例外的なポイントを伴わずに強化されたセンシングの道を開く。
Open systems possess unique potentials in high-precision sensing, yet the majority of previous studies rely on the spectral singularities known as exceptional points. Here we theoretically propose and experimentally demonstrate universal non-Hermitian sensing in the absence of exceptional points. The scheme makes use of the intrinsic sensitivity of a non-Hermitian probe to weak external fields, which can be understood as the direct consequence of non-Hermiticity. We confirm the basic mechanism by simulating the sensor-field dynamics using photon interferometry, and, as a concrete example, demonstrate the enhanced sensing of signals encoded in the setting angle of a wave plate. While the sensitivity of the probe is ultimately limited by the measurement noise, we find the non-Hermitian sensor showing superior performance under background noises that cannot be suppressed through repetitive measurements. Our experiment opens the avenue of enhanced sensing without exceptional points, complementing existing efforts aimed at harnessing the unique features of open systems. | 翻訳日:2024-03-14 15:50:01 公開日:2024-03-13 |
# 深層学習に基づくBERTモデルの応用に関する研究
感性分析
Research on the Application of Deep Learning-based BERT Model in Sentiment Analysis ( http://arxiv.org/abs/2403.08217v1 ) ライセンス: Link先を確認 | Yichao Wu, Zhengyu Jin, Chenxi Shi, Penghao Liang, Tong Zhan | (参考訳) 本稿では、感情分析における深層学習技術、特にBERTモデルの適用について検討する。
これは、感情分析の基本的な概念と、この領域でどのようにディープラーニング手法が利用されるかを紹介することから始まる。
その後、BERTモデルのアーキテクチャと特性を掘り下げる。
詳細な説明を通じて、感情分析におけるBERTモデルの応用効果と最適化戦略を解明し、実験的な検証によって支援する。
実験結果から, BERTモデルは感情分析タスクにおいて頑健な性能を示し, 微調整後の顕著な改善が見られた。
最後に,感情分析におけるBERTモデルの潜在的な応用を要約し,今後の研究・実践の方向性を提案する。
This paper explores the application of deep learning techniques, particularly focusing on BERT models, in sentiment analysis. It begins by introducing the fundamental concept of sentiment analysis and how deep learning methods are utilized in this domain. Subsequently, it delves into the architecture and characteristics of BERT models. Through detailed explanation, it elucidates the application effects and optimization strategies of BERT models in sentiment analysis, supported by experimental validation. The experimental findings indicate that BERT models exhibit robust performance in sentiment analysis tasks, with notable enhancements post fine-tuning. Lastly, the paper concludes by summarizing the potential applications of BERT models in sentiment analysis and suggests directions for future research and practical implementations. | 翻訳日:2024-03-14 15:50:01 公開日:2024-03-13 |
# パディングフロー:パディング次元雑音による正規化フローの改善
PaddingFlow: Improving Normalizing Flows with Padding-Dimensional Noise ( http://arxiv.org/abs/2403.08216v1 ) ライセンス: Link先を確認 | Qinglong Meng, Chongkun Xia, Xueqian Wang | (参考訳) フローの正規化は効率的なサンプリングを伴う生成的モデリング手法である。
しかし、フローベースモデルは、多様体と離散データという2つの問題に悩まされる。
対象分布が多様体である場合、すなわち潜在対象分布の次元とデータ分布の次元が一致しない場合、フローベースモデルは非常に良く機能する。
離散データは、フローベースのモデルを点質量の縮退混合に分解する。
本稿では,この2つの問題を補うために,パッド次元雑音による正規化フローを改善する新しいデクエント化法であるPaddingFlowを提案する。
PaddingFlowは簡単に実装でき、計算的に安価で、様々なタスクに広く適合し、データのバイアスのない推定サンプルを生成する。
特に,本手法は,データ分散を変化させなければならない既存の復号化手法の限界を克服し,性能を低下させる可能性がある。
VAEモデルのための5つの表付きデータセットと4つの画像データセットと条件付き密度推定であるIK実験を含む、条件付き密度推定の主要なベンチマークで本手法を検証した。
この結果から,PaddingFlowはすべてのタスクを改善することができることがわかった。
Normalizing flow is a generative modeling approach with efficient sampling. However, Flow-based models suffer two issues, which are manifold and discrete data. If the target distribution is a manifold, which means the dimension of the latent target distribution and the dimension of the data distribution are unmatched, flow-based models might perform badly. Discrete data makes flow-based models collapse into a degenerate mixture of point masses. In this paper, to sidestep such two issues we propose PaddingFlow, a novel dequantization method, which improves normalizing flows with padding-dimensional noise. PaddingFlow is easy to implement, computationally cheap, widely suitable for various tasks, and generates samples that are unbiased estimations of the data. Especially, our method can overcome the limitation of existing dequantization methods that have to change the data distribution, which might degrade performance. We validate our method on the main benchmarks of unconditional density estimation, including five tabular datasets and four image datasets for VAE models, and the IK experiments which are conditional density estimation. The results show that PaddingFlow can provide improvement on all tasks in this paper. | 翻訳日:2024-03-14 15:50:00 公開日:2024-03-13 |
# LIX:空間幾何学的事前知識を視覚に注入する
自律運転のためのセマンティックセグメンテーション
LIX: Implicitly Infusing Spatial Geometric Prior Knowledge into Visual Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2403.08215v1 ) ライセンス: Link先を確認 | Sicen Guo, Zhiyuan Wu, Qijun Chen, Ioannis Pitas and Rui Fan | (参考訳) 視覚的セマンティックセグメンテーションのための2重エンコーダを用いたデータフュージョンネットワークによって達成された印象的な性能にもかかわらず、空間幾何学的データが利用できないと効果が低下する。
二重エンコーダの教師モデルによって得られた空間幾何学的事前知識を単一エンコーダの学生モデルに含めることは、実際的なものであり、研究の道程は未熟である。
本論文は,この問題を考察し,この問題に対処するための知識蒸留手法を取り入れたものである。
本稿では,ロジット蒸留と特徴蒸留の両面に新たな貢献をし,Learning to Infuse "X" (LIX) フレームワークを紹介した。
本稿では, 切り離された知識蒸留における1つの固定重みの限界を浮き彫りにした数学的証明と, この問題に対する解法としてロジットワイド・ダイナミックウェイト・コントローラを導入する。
さらに,カーネルレグレッションによる特徴補正と,中心となるカーネルアライメントによる機能整合性定量化という2つの技術革新を含む,適応的な特徴蒸留アルゴリズムを開発した。
様々な公開データセットにまたがる中間核融合および遅延核融合ネットワークを用いて行った広範囲な実験は、定量的および定性的な評価を提供し、他の最先端アプローチと比較してLIXフレームワークの優れた性能を示す。
Despite the impressive performance achieved by data-fusion networks with duplex encoders for visual semantic segmentation, they become ineffective when spatial geometric data are not available. Implicitly infusing the spatial geometric prior knowledge acquired by a duplex-encoder teacher model into a single-encoder student model is a practical, albeit less explored research avenue. This paper delves into this topic and resorts to knowledge distillation approaches to address this problem. We introduce the Learning to Infuse "X" (LIX) framework, with novel contributions in both logit distillation and feature distillation aspects. We present a mathematical proof that underscores the limitation of using a single fixed weight in decoupled knowledge distillation and introduce a logit-wise dynamic weight controller as a solution to this issue. Furthermore, we develop an adaptively-recalibrated feature distillation algorithm, including two technical novelties: feature recalibration via kernel regression and in-depth feature consistency quantification via centered kernel alignment. Extensive experiments conducted with intermediate-fusion and late-fusion networks across various public datasets provide both quantitative and qualitative evaluations, demonstrating the superior performance of our LIX framework when compared to other state-of-the-art approaches. | 翻訳日:2024-03-14 15:50:00 公開日:2024-03-13 |
# P2LHAP:Wearable Sensor-based Human Activity Recognition, segmentation
Patch-to-Label Seq2Seq Transformer による予測
P2LHAP:Wearable sensor-based human activity recognition, segmentation and forecast through Patch-to-Label Seq2Seq Transformer ( http://arxiv.org/abs/2403.08214v1 ) ライセンス: Link先を確認 | Shuangjian Li, Tao Zhu, Mingxing Nie, Huansheng Ning, Zhenyu Liu and Liming Chen | (参考訳) 従来のディープラーニング手法は、センサーデータから人間の活動のセグメンテーション、認識、予測を同時に行うのに苦労する。
これにより、医療や生活支援など多くの分野において、継続的な活動や今後の活動のリアルタイム理解が不可欠である。
本稿ではP2LHAPについて紹介する。これはPatch-to-Label Seq2Seqフレームワークで、効率的な単一タスクモデルで3つのタスクすべてに取り組む。
P2LHAPはセンサデータストリームを"パッチ"のシーケンスに分割し、入力トークンとして機能し、予測される将来のアクティビティを含むパッチレベルのアクティビティラベルのシーケンスを出力する。
周囲のパッチラベルに基づく一意な平滑化手法を提案し, 活動境界を正確に同定する。
さらに、P2LHAPは、センサ信号に依存しないトランスフォーマーエンコーダとデコーダによるパッチレベルの表現を学習する。
すべてのチャンネルは、すべてのシーケンスで埋め込みとトランスフォーマーの重みを共有する。
3つの公開データセットに基づいて評価され、P2LHAPは3つのタスクすべてにおいて最先端を著しく上回り、実世界のアプリケーションの有効性と可能性を示している。
Traditional deep learning methods struggle to simultaneously segment, recognize, and forecast human activities from sensor data. This limits their usefulness in many fields such as healthcare and assisted living, where real-time understanding of ongoing and upcoming activities is crucial. This paper introduces P2LHAP, a novel Patch-to-Label Seq2Seq framework that tackles all three tasks in a efficient single-task model. P2LHAP divides sensor data streams into a sequence of "patches", served as input tokens, and outputs a sequence of patch-level activity labels including the predicted future activities. A unique smoothing technique based on surrounding patch labels, is proposed to identify activity boundaries accurately. Additionally, P2LHAP learns patch-level representation by sensor signal channel-independent Transformer encoders and decoders. All channels share embedding and Transformer weights across all sequences. Evaluated on three public datasets, P2LHAP significantly outperforms the state-of-the-art in all three tasks, demonstrating its effectiveness and potential for real-world applications. | 翻訳日:2024-03-14 15:49:59 公開日:2024-03-13 |
# 大規模言語モデルはオーサシップを識別できるか?
Can Large Language Models Identify Authorship? ( http://arxiv.org/abs/2403.08213v1 ) ライセンス: Link先を確認 | Baixiang Huang, Canyu Chen, Kai Shu | (参考訳) 著者を正確に識別する能力は、コンテンツの信頼性を検証し、誤情報を緩和するために不可欠である。
大規模言語モデル(LLM)は、推論と問題解決に非常に優れた能力を示している。
しかし、著者の検証と帰属を包含する著者分析の可能性はいまだ未解明のままである。
本稿では,これらの重要な課題におけるLLMの包括的評価を行う。
伝統的な研究は手作りのスタイリスティックな特徴に依存してきたが、最先端のアプローチは事前訓練された言語モデルのテキスト埋め込みを利用する。
これらの手法は通常ラベル付きデータの微調整を必要とするが、しばしばクロスドメインアプリケーションの性能劣化に悩まされ、説明可能性に制限がある。
1) LLM はゼロショット・エンド・ツー・エンドのオーサシップ検証を効果的に行うことができるか?
2) LLM は,複数の候補作家(例えば,10,20)の著者を正確に帰属させることができるか?
(3) LLMは、特に言語機能の役割を通して、著者分析における説明可能性をどのように提供できるか。
さらに,LLMを推論過程に導くために,明示的な言語的特徴の統合について検討する。
両課題におけるLLMの熟練度は,ドメイン固有の微調整を必要とせず,言語的特徴の詳細な分析を通じて,その意思決定に関する知見を提供する。
これにより、LLMベースのオーサシップ分析に関する今後の研究のための新しいベンチマークが確立される。
コードとデータはhttps://github.com/baixianghuang/authorship-llm.comで公開されている。
The ability to accurately identify authorship is crucial for verifying content authenticity and mitigating misinformation. Large Language Models (LLMs) have demonstrated exceptional capacity for reasoning and problem-solving. However, their potential in authorship analysis, encompassing authorship verification and attribution, remains underexplored. This paper conducts a comprehensive evaluation of LLMs in these critical tasks. Traditional studies have depended on hand-crafted stylistic features, whereas state-of-the-art approaches leverage text embeddings from pre-trained language models. These methods, which typically require fine-tuning on labeled data, often suffer from performance degradation in cross-domain applications and provide limited explainability. This work seeks to address three research questions: (1) Can LLMs perform zero-shot, end-to-end authorship verification effectively? (2) Are LLMs capable of accurately attributing authorship among multiple candidates authors (e.g., 10 and 20)? (3) How can LLMs provide explainability in authorship analysis, particularly through the role of linguistic features? Moreover, we investigate the integration of explicit linguistic features to guide LLMs in their reasoning processes. Our extensive assessment demonstrates LLMs' proficiency in both tasks without the need for domain-specific fine-tuning, providing insights into their decision-making via a detailed analysis of linguistic features. This establishes a new benchmark for future research on LLM-based authorship analysis. The code and data are available at https://github.com/baixianghuang/authorship-llm. | 翻訳日:2024-03-14 15:49:59 公開日:2024-03-13 |
# 大規模言語モデルは対照的な推論子である
Large Language Models are Contrastive Reasoners ( http://arxiv.org/abs/2403.08211v1 ) ライセンス: Link先を確認 | Liang Yao | (参考訳) プロンプティング手法は、事前訓練された大規模言語モデル(LLM)の能力を高める上で重要な役割を担っている。
コントラッシブ・プロンプト(CP)は,大規模言語モデルの複雑な推論能力を大幅に向上させるかを検討する。
LLMが答えを出す前に、単に「正しい答えと間違った答えを与えよう」というだけで、LLMはまともな対照的な推論者であることを実証する。
2つの大きな言語モデルの実験では、ゼロショットの対照的なプロンプトは、GSM8Kの精度を35.9%から88.8%、Aqua-RATの精度を41.3%から62.2%に向上させるなど、手書きのいくつかの例を使わずに、算術、コモンセンス、シンボリック推論タスクのパフォーマンスを向上させることが示されている。
提案手法は,ほとんどの算術的・常識的推論タスクにおいてゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合でき,その結果,最先端手法と比較して改善あるいは同等の結果が得られる。
私たちのコードはhttps://github.com/yao8839836/cpで利用可能です。
Prompting methods play a crucial role in enhancing the capabilities of pre-trained large language models (LLMs). We explore how contrastive prompting (CP) significantly improves the ability of large language models to perform complex reasoning. We demonstrate that LLMs are decent contrastive reasoners by simply adding "Let's give a correct and a wrong answer." before LLMs provide answers. Experiments on two large language models show that zero-shot contrastive prompting improves performance on a range of arithmetic, commonsense, and symbolic reasoning tasks without any hand-crafted few-shot examples, such as increasing the accuracy on GSM8K from 35.9% to 88.8% and AQUA-RAT from 41.3% to 62.2% with the state-of-the-art GPT-4 model. Our method not only surpasses zero-shot CoT and few-shot CoT in most arithmetic and commonsense reasoning tasks but also can seamlessly integrate with existing prompting methods, resulting in improved or comparable results when compared to state-of-the-art methods. Our code is available at https://github.com/yao8839836/cp | 翻訳日:2024-03-14 15:49:58 公開日:2024-03-13 |
# AIシステムにおけるセキュリティ向上 - 検出の新しいアプローチ
ディープニューラルネットワークのバックドア
Advancing Security in AI Systems: A Novel Approach to Detecting Backdoors in Deep Neural Networks ( http://arxiv.org/abs/2403.08208v1 ) ライセンス: Link先を確認 | Khondoker Murad Hossain, Tim Oates | (参考訳) 通信とネットワークセキュリティの急速な発展の中で、ディープニューラルネットワーク(DNN)とクラウドサービスへのデータ処理への依存度が高まっていることは、重大な脆弱性である。
提案手法では,高度なテンソル分解アルゴリズムであるIndependent Vector Analysis (IVA), Multiset Canonical correlation Analysis (MCCA), Parallel Factor Analysis (PARAFAC2) を用いて,事前学習したDNNの重みを慎重に解析し,バックドアモデルとクリーンモデルとを効果的に区別する。
提案手法の主な強みは,ドメイン独立性,各種ネットワークアーキテクチャへの適応性,および精査されたモデルのトレーニングデータにアクセスせずに動作可能であることにある。
これは、異なるアプリケーションシナリオ間での汎用性を保証するだけでなく、ネットワークの振る舞いを変えるために使用される特定のトリガについて事前に知ることなく、バックドアを特定するという課題にも対処する。
検出パイプラインを3つの異なるコンピュータビジョンデータセットに適用し、画像分類とオブジェクト検出タスクを包含した。
その結果,既存のバックドア検出法に比べて精度と効率が著しく向上した。
この進歩は、ネットワークシステムにおけるディープラーニングとAIのセキュリティを強化し、新興技術の脅威の進化に対して不可欠なサイバーセキュリティを提供する。
In the rapidly evolving landscape of communication and network security, the increasing reliance on deep neural networks (DNNs) and cloud services for data processing presents a significant vulnerability: the potential for backdoors that can be exploited by malicious actors. Our approach leverages advanced tensor decomposition algorithms Independent Vector Analysis (IVA), Multiset Canonical Correlation Analysis (MCCA), and Parallel Factor Analysis (PARAFAC2) to meticulously analyze the weights of pre-trained DNNs and distinguish between backdoored and clean models effectively. The key strengths of our method lie in its domain independence, adaptability to various network architectures, and ability to operate without access to the training data of the scrutinized models. This not only ensures versatility across different application scenarios but also addresses the challenge of identifying backdoors without prior knowledge of the specific triggers employed to alter network behavior. We have applied our detection pipeline to three distinct computer vision datasets, encompassing both image classification and object detection tasks. The results demonstrate a marked improvement in both accuracy and efficiency over existing backdoor detection methods. This advancement enhances the security of deep learning and AI in networked systems, providing essential cybersecurity against evolving threats in emerging technologies. | 翻訳日:2024-03-14 15:49:58 公開日:2024-03-13 |
# BG-HGNN:スケーラブルで効率的な不均一グラフニューラルを目指して
ネットワーク
BG-HGNN: Toward Scalable and Efficient Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2403.08207v1 ) ライセンス: Link先を確認 | Junwei Su, Lingjun Mao, Chuan Wu | (参考訳) 多くのコンピュータビジョンと機械学習の問題は、異種グラフ上の学習タスクとしてモデル化され、様々な種類のノードとエッジの関係が特徴である。
不均一グラフニューラルネットワーク(HGNN)は、異種グラフ用に設計された有望なニューラルモデルクラスである。
従来のGNNに基づいて構築された既存のHGNNは、様々な関係をモデル化するために異なるパラメータ空間を使用する。
しかし、既存のHGNNの実践的有効性は、関係型がほとんどない単純な異種グラフに限られることが多い。
本稿では,既存のHGNNが採用している標準手法が必然的にパラメータの爆発と関係の崩壊を招き,HGNNが多くの関係型を持つ複素異種グラフに対してより効果的あるいは実用的でないことを示す。
この問題を解決するために,Blend&Grind-HGNN (BG-HGNN) という新しいフレームワークを導入する。
これにより、不均一グラフから、特に関係の数が増加すると、より効率的で効果的に学習できる改良されたHGNN法が実現される。
我々の実証研究は、BG-HGNNがパラメータ効率(最大28.96$\times$)、トレーニングスループット(最大8.12$\times$)、精度(最大1.07$\times$)で既存のHGNNを大幅に上回っていることを示している。
Many computer vision and machine learning problems are modelled as learning tasks on heterogeneous graphs, featuring a wide array of relations from diverse types of nodes and edges. Heterogeneous graph neural networks (HGNNs) stand out as a promising neural model class designed for heterogeneous graphs. Built on traditional GNNs, existing HGNNs employ different parameter spaces to model the varied relationships. However, the practical effectiveness of existing HGNNs is often limited to simple heterogeneous graphs with few relation types. This paper first highlights and demonstrates that the standard approach employed by existing HGNNs inevitably leads to parameter explosion and relation collapse, making HGNNs less effective or impractical for complex heterogeneous graphs with numerous relation types. To overcome this issue, we introduce a novel framework, Blend&Grind-HGNN (BG-HGNN), which effectively tackles the challenges by carefully integrating different relations into a unified feature space manageable by a single set of parameters. This results in a refined HGNN method that is more efficient and effective in learning from heterogeneous graphs, especially when the number of relations grows. Our empirical studies illustrate that BG-HGNN significantly surpasses existing HGNNs in terms of parameter efficiency (up to 28.96 $\times$), training throughput (up to 8.12 $\times$), and accuracy (up to 1.07 $\times$). | 翻訳日:2024-03-14 15:49:57 公開日:2024-03-13 |
# AutoDFP:チャンネル類似性による自動データフリープルーニング
再建
AutoDFP: Automatic Data-Free Pruning via Channel Similarity Reconstruction ( http://arxiv.org/abs/2403.08204v1 ) ライセンス: Link先を確認 | Siqi Li, Jun Chen, Jingyang Xiang, Chengrui Zhu, Yong Liu | (参考訳) 大規模ニューラルネットワークと限られたハードウェアリソースのギャップを埋めるために,構造化プルーニング法が開発された。
現在の構造化プルーニング手法のほとんどは、圧縮されたモデルを微調整するトレーニングデータセットに依存しており、計算負荷が高く、プライバシとセキュリティの厳しい要件のあるシナリオには適用できない。
代替として、データフリーな手法がいくつか提案されているが、これらの手法は手動パラメータチューニングを必要とすることが多く、柔軟性のない再構成しか実現できない。
本稿では,微調整をせずに自動刈り取りと再構築を実現する自動データフリープルーニング(AutoDFP)手法を提案する。
提案手法は,類似チャネルからの集中情報を保持することにより,情報損失を部分的に補償できるという仮定に基づいている。
具体的には、データフリープルーニングを最適化問題として定式化し、強化学習によって効果的に対処できる。
AutoDFPは、各レイヤのチャネルの類似性を評価し、この情報を強化学習エージェントに提供し、ネットワークのプルーニングと再構築プロセスを導く。
複数のデータセット上で複数のネットワークでAutoDFPを評価し,印象的な圧縮結果を得た。
例えば、CIFAR-10データセットでは、AutoDFPはVGG-16上のFLOPが少なく、最近提案されたデータフリープルーニング方式DFPCと比較して精度損失が2.87 %減少することを示した。
さらに、ImageNetデータセットでは、AutoDFPは、MobileNet-V1と同じ80倍の保存率でSOTA法よりも43.17倍の精度で達成されている。
Structured pruning methods are developed to bridge the gap between the massive scale of neural networks and the limited hardware resources. Most current structured pruning methods rely on training datasets to fine-tune the compressed model, resulting in high computational burdens and being inapplicable for scenarios with stringent requirements on privacy and security. As an alternative, some data-free methods have been proposed, however, these methods often require handcraft parameter tuning and can only achieve inflexible reconstruction. In this paper, we propose the Automatic Data-Free Pruning (AutoDFP) method that achieves automatic pruning and reconstruction without fine-tuning. Our approach is based on the assumption that the loss of information can be partially compensated by retaining focused information from similar channels. Specifically, We formulate data-free pruning as an optimization problem, which can be effectively addressed through reinforcement learning. AutoDFP assesses the similarity of channels for each layer and provides this information to the reinforcement learning agent, guiding the pruning and reconstruction process of the network. We evaluate AutoDFP with multiple networks on multiple datasets, achieving impressive compression results. For instance, on the CIFAR-10 dataset, AutoDFP demonstrates a 2.87\% reduction in accuracy loss compared to the recently proposed data-free pruning method DFPC with fewer FLOPs on VGG-16. Furthermore, on the ImageNet dataset, AutoDFP achieves 43.17\% higher accuracy than the SOTA method with the same 80\% preserved ratio on MobileNet-V1. | 翻訳日:2024-03-14 15:49:56 公開日:2024-03-13 |
# 脳コネクトーム解析のための学習型コミュニティ認識変換器
トークンクラスタリング
Learnable Community-Aware Transformer for Brain Connectome Analysis with Token Clustering ( http://arxiv.org/abs/2403.08203v1 ) ライセンス: Link先を確認 | Yanting Yang, Beidi Zhao, Zhuohao Ni, Yize Zhao, Xiaoxiao Li | (参考訳) 神経科学的な研究により、複雑な脳ネットワークは異なる機能的共同体に分類でき、それぞれが強い相互接続を持つ関心領域(ROI)の結合的なグループによって特徴づけられることが明らかになった。
これらのコミュニティは、脳の機能的組織と、自閉症スペクトラム障害(ASD)や性差などの神経学的状態への影響を理解する上で重要な役割を担っている。
伝統的なモデルは、事前に定義されたコミュニティクラスタの必要性によって制約されており、脳の機能的組織を解読する際の柔軟性と適応性を制限する。
さらに、これらのモデルは一定数のコミュニティによって制限され、脳のダイナミックな性質を正確に表現する能力を妨げる。
本研究では,共同コミュニティクラスタリングと分類のためのトークンクラスタリング脳トランスフォーマーモデル(\texttt{TC-BrainTF}$)を提案する。
提案手法では,各ROI埋め込みが各ROI埋め込み空間に投影される直交損失を持つ学習可能なプロンプトトークンを用いて,新しいトークンクラスタリング(TC)モジュールを提案し,コミュニティにROIを効果的にクラスタリングし,コミュニティとマージすることでノード表現の次元を縮小する。
我々の学習可能なコミュニティ対応モデルである $\texttt{TC-BrainTF}$ は、ABIDE と HCP のデータセットの厳密なテストを通じて、ASD の識別と性別の分類の精度を向上させることを実証した。
さらに、$\texttt{TC-BrainTF}$における定性解析は、設計されたTCモジュールの有効性と神経科学解釈との関連性を実証した。
Neuroscientific research has revealed that the complex brain network can be organized into distinct functional communities, each characterized by a cohesive group of regions of interest (ROIs) with strong interconnections. These communities play a crucial role in comprehending the functional organization of the brain and its implications for neurological conditions, including Autism Spectrum Disorder (ASD) and biological differences, such as in gender. Traditional models have been constrained by the necessity of predefined community clusters, limiting their flexibility and adaptability in deciphering the brain's functional organization. Furthermore, these models were restricted by a fixed number of communities, hindering their ability to accurately represent the brain's dynamic nature. In this study, we present a token clustering brain transformer-based model ($\texttt{TC-BrainTF}$) for joint community clustering and classification. Our approach proposes a novel token clustering (TC) module based on the transformer architecture, which utilizes learnable prompt tokens with orthogonal loss where each ROI embedding is projected onto the prompt embedding space, effectively clustering ROIs into communities and reducing the dimensions of the node representation via merging with communities. Our results demonstrate that our learnable community-aware model $\texttt{TC-BrainTF}$ offers improved accuracy in identifying ASD and classifying genders through rigorous testing on ABIDE and HCP datasets. Additionally, the qualitative analysis on $\texttt{TC-BrainTF}$ has demonstrated the effectiveness of the designed TC module and its relevance to neuroscience interpretations. | 翻訳日:2024-03-14 15:49:56 公開日:2024-03-13 |
# Deep Submodular Peripteral Network
Deep Submodular Peripteral Network ( http://arxiv.org/abs/2403.08199v1 ) ライセンス: Link先を確認 | Gantavya Bhatt, Arnav Das, Jeff Bilmes | (参考訳) 様々なアプリケーションに不可欠な部分モジュラー関数は、取得のための実践的な学習方法を欠いていることが多い。
精神測定学の豊富な歴史にもかかわらず、グレードドド・ペアワイズ・レディション(GPC)を提供するオークルからスケーリングを学ぶことは、一見無関係である。
本稿では,DSPN(Deep Submodular Peripteral Network)という,新しいパラメトリックなサブモジュール関数のファミリーを導入し,これらの課題に対処するための,コントラスト学習にインスパイアされたGPC対応戦略を用いたトレーニング手法を提案する。
新たに考案されたGPCスタイルの「周辺」損失は,物体の対(この場合の集合)間の数値的にグレードされた関係を生かしたものである。
従来のコントラスト学習とは異なり,本手法では,2値比較よりもニュアンス情報を抽出し,任意のサイズのコントラストセット(2値ではなく2値比較)を抽出する。
また、アクティブラーニングにインスパイアされたサブモジュールフィードバックを含む、トレーニングのための自動サンプリング戦略の新たなスイートも定義する。
実験的な設計やストリーミングアプリケーションなどの下流タスクにおいて、コストがかかるサブモジュール関数からサブモジュール性を学ぶ上でのDSPNの有効性を実証する。
Submodular functions, crucial for various applications, often lack practical learning methods for their acquisition. Seemingly unrelated, learning a scaling from oracles offering graded pairwise preferences (GPC) is underexplored, despite a rich history in psychometrics. In this paper, we introduce deep submodular peripteral networks (DSPNs), a novel parametric family of submodular functions, and methods for their training using a contrastive-learning inspired GPC-ready strategy to connect and then tackle both of the above challenges. We introduce newly devised GPC-style "peripteral" loss which leverages numerically graded relationships between pairs of objects (sets in our case). Unlike traditional contrastive learning, our method utilizes graded comparisons, extracting more nuanced information than just binary-outcome comparisons, and contrasts sets of any size (not just two). We also define a novel suite of automatic sampling strategies for training, including active-learning inspired submodular feedback. We demonstrate DSPNs' efficacy in learning submodularity from a costly target submodular function showing superiority in downstream tasks such as experimental design and streaming applications. | 翻訳日:2024-03-14 15:49:55 公開日:2024-03-13 |
# 大規模地理コーパスの検証と探索
Validating and Exploring Large Geographic Corpora ( http://arxiv.org/abs/2403.08198v1 ) ライセンス: Link先を確認 | Jonathan Dunn | (参考訳) 本稿では,コーパス作成決定が大規模多言語地理Webコーパスに与える影響について検討する。
Common Crawlから派生した427億語コーパスから始まり、ニュージーランド英語のような特定の言語国を表すサブコーパスの品質を改善するために3つの方法が使用される。
一 独立言語識別制度の合意
(二)ハッシュベースの重複、及び
三 位置特定外乱検出
次に、各ステップの影響をコーパス類似度尺度を用いて言語レベルと国レベルで評価し、各コーパスをベースラインデータセットと比較する。
目標は、上流のデータクリーニングの決定が下流のコーパスに与える影響を理解することだ。
評価の結果, サブコーパスの有効性は, 清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
この結果は、標準コーパス生成技術が誤って表現されていない人口を排除できることを示す。
This paper investigates the impact of corpus creation decisions on large multi-lingual geographic web corpora. Beginning with a 427 billion word corpus derived from the Common Crawl, three methods are used to improve the quality of sub-corpora representing specific language-country pairs like New Zealand English: (i) the agreement of independent language identification systems, (ii) hash-based deduplication, and (iii) location-specific outlier detection. The impact of each of these steps is then evaluated at the language level and the country level by using corpus similarity measures to compare each resulting corpus with baseline data sets. The goal is to understand the impact of upstream data cleaning decisions on downstream corpora with a specific focus on under-represented languages and populations. The evaluation shows that the validity of sub-corpora is improved with each stage of cleaning but that this improvement is unevenly distributed across languages and populations. This result shows how standard corpus creation techniques can accidentally exclude under-represented populations. | 翻訳日:2024-03-14 15:49:54 公開日:2024-03-13 |
# PAGE: 過去に依存しない生成リプレイによるドメインインクリメンタル適応
スマートヘルスケア
PAGE: Domain-Incremental Adaptation with Past-Agnostic Generative Replay for Smart Healthcare ( http://arxiv.org/abs/2403.08197v1 ) ライセンス: Link先を確認 | Chia-Hao Li and Niraj K. Jha | (参考訳) スマートヘルスケアのための遺伝子組み換えによるドメインインクリメンタル・アダプティブ・ストラテジーであるPAGEを提案する。
PAGEは、以前のドメインから保存されたデータや情報の助けなしに生成的再生を可能にする。
新しいドメインに適応すると、新しいディストリビューションと現在のモデルから実際のデータを利用して、以前のドメインの学習した知識を保持する合成データを生成する。
学習中に合成データを新しい実データで再生することにより、PAGEはドメイン適応と知識保持のバランスを良くする。
さらに、拡張帰納的共形予測(EICP)手法をPAGEに組み込んで、各検出結果に対する信頼性スコアと信頼性値を生成する。
これにより、予測は解釈可能となり、スマートヘルスケアアプリケーションにおける疾患検出の統計的保証を提供する。
市販WMSから収集した3つの異なる疾患データセットを用いて,ドメイン・インクリメンタルな疾患検出におけるPAGEの有効性を実証した。
PAGEは、スケーラビリティ、データプライバシ、実現可能性に優れた最先端技術に対して高い競争力を発揮する。
さらに、PAGEはEICPの助けを借りて、臨床ワークロードの最大75%の削減を可能にする。
We propose PAGE, a domain-incremental adaptation strategy with past-agnostic generative replay for smart healthcare. PAGE enables generative replay without the aid of any preserved data or information from prior domains. When adapting to a new domain, it exploits real data from the new distribution and the current model to generate synthetic data that retain the learned knowledge of previous domains. By replaying the synthetic data with the new real data during training, PAGE achieves a good balance between domain adaptation and knowledge retention. In addition, we incorporate an extended inductive conformal prediction (EICP) method into PAGE to produce a confidence score and a credibility value for each detection result. This makes the predictions interpretable and provides statistical guarantees for disease detection in smart healthcare applications. We demonstrate PAGE's effectiveness in domain-incremental disease detection with three distinct disease datasets collected from commercially available WMSs. PAGE achieves highly competitive performance against state-of-the-art with superior scalability, data privacy, and feasibility. Furthermore, PAGE can enable up to 75% reduction in clinical workload with the help of EICP. | 翻訳日:2024-03-14 15:49:54 公開日:2024-03-13 |
# SpeechColab Leaderboard - 自動音声のためのオープンソースプラットフォーム
認識評価
SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition Evaluation ( http://arxiv.org/abs/2403.08196v1 ) ライセンス: Link先を確認 | Jiayu Du, Jinpeng Li, Guoguo Chen, and Wei-Qiang Zhang | (参考訳) 過去10年間の深層学習の潮流の高まりを受けて、自動音声認識(ASR)は大きな注目を集め、日々の生活に積極的に組み込まれている多くの公的なASRシステムの出現につながった。
それでも、これらのASRシステムの公平かつ複製可能な評価は、様々な重要な微妙さのために困難に直面している。
本稿では,ASR評価のための汎用オープンソースプラットフォームであるSpeechColab Leaderboardを紹介する。
このプラットフォームで
(i)オープンソースモデルと産業用商用サービスの両方をカバーする,ASRシステムにおける最先端のパノラマを概説した総合ベンチマークを報告する。
(ii) スコアリングパイプラインにおける異なるニュアンスが最終的なベンチマーク結果にどのように影響するかを定量化する。
これには、資本化、句読化、介入、縮小、同義語の使用、複合語などに関連するニュアンスが含まれる。
これらの問題は、エンド・ツー・エンドの未来への移行という文脈で注目されている。
3) コルモゴロフ複雑性と正規化情報距離(NID)からインスピレーションを得て, 従来のToken-Error-Rate(TER)評価尺度の実践的な修正を提案する。
この適応はmodified-TER (mTER) と呼ばれ、適切な正規化と参照と仮説の対称的処理を実現する。
このプラットフォームを大規模試験場として活用することにより、TERと比較してmTERの堅牢性と後方互換性を示す。
SpeechColab Leaderboardはhttps://github.com/SpeechColab/Leaderboardでアクセスできる
In the wake of the surging tide of deep learning over the past decade, Automatic Speech Recognition (ASR) has garnered substantial attention, leading to the emergence of numerous publicly accessible ASR systems that are actively being integrated into our daily lives. Nonetheless, the impartial and replicable evaluation of these ASR systems encounters challenges due to various crucial subtleties. In this paper we introduce the SpeechColab Leaderboard, a general-purpose, open-source platform designed for ASR evaluation. With this platform: (i) We report a comprehensive benchmark, unveiling the current state-of-the-art panorama for ASR systems, covering both open-source models and industrial commercial services. (ii) We quantize how distinct nuances in the scoring pipeline influence the final benchmark outcomes. These include nuances related to capitalization, punctuation, interjection, contraction, synonym usage, compound words, etc. These issues have gained prominence in the context of the transition towards an End-to-End future. (iii) We propose a practical modification to the conventional Token-Error-Rate (TER) evaluation metric, with inspirations from Kolmogorov complexity and Normalized Information Distance (NID). This adaptation, called modified-TER (mTER), achieves proper normalization and symmetrical treatment of reference and hypothesis. By leveraging this platform as a large-scale testing ground, this study demonstrates the robustness and backward compatibility of mTER when compared to TER. The SpeechColab Leaderboard is accessible at https://github.com/SpeechColab/Leaderboard | 翻訳日:2024-03-14 15:49:53 公開日:2024-03-13 |
# 短期アナログ量子における効率よく検証可能な量子優位性
シミュレーター
Efficiently verifiable quantum advantage on near-term analog quantum simulators ( http://arxiv.org/abs/2403.08195v1 ) ライセンス: Link先を確認 | Zhenning Liu, Dhruv Devulapalli, Dominik Hangleiter, Yi-Kai Liu, Alicia J. Koll\'ar, Alexey V. Gorshkov, Andrew M. Childs | (参考訳) 量子計算の優位性を実証するための既存のスキームは、検証の困難さや実験的実装における課題など、様々な実践的な制約を受ける。
一方、アナログ量子シミュレータは、新しい物理学を研究するために多くの実験で実現されている。
本研究では,1ステップのFeynman-Kitaevによるアナログ量子シミュレーションの検証に基づく量子アドバンテージプロトコルを提案する。これは,検証者が$O(\lambda^2)$-timeの古典計算のみを実行する必要があり,証明者は履歴状態のサンプルを$O(1)$で作成し,セキュリティパラメータ$\lambda$に対して$O(\lambda^2)$シングルキュービット計測を行う必要がある。
また、正直な証明者のための短期的実現可能な戦略を提案し、潜在的な実験的実現について論じる。
Existing schemes for demonstrating quantum computational advantage are subject to various practical restrictions, including the hardness of verification and challenges in experimental implementation. Meanwhile, analog quantum simulators have been realized in many experiments to study novel physics. In this work, we propose a quantum advantage protocol based on single-step Feynman-Kitaev verification of an analog quantum simulation, in which the verifier need only run an $O(\lambda^2)$-time classical computation, and the prover need only prepare $O(1)$ samples of a history state and perform $O(\lambda^2)$ single-qubit measurements, for a security parameter $\lambda$. We also propose a near-term feasible strategy for honest provers and discuss potential experimental realizations. | 翻訳日:2024-03-14 15:49:53 公開日:2024-03-13 |
# ハイブリッド潜伏運動の教師なし学習:学習と同定
枠組み
Unsupervised Learning of Hybrid Latent Dynamics: A Learn-to-Identify Framework ( http://arxiv.org/abs/2403.08194v1 ) ライセンス: Link先を確認 | Yubo Ye, Sumeet Vadhavkar, Xiajun Jiang, Ryan Missel, Huafeng Liu and Linwei Wang | (参考訳) 現代の応用では、高次元時系列からの潜在力学の教師なし学習がますます求められている。
多くの抽象的潜在表現は観察を再構築するが、それらが支配力学の適切な識別を保証しているか?
本稿では、この課題を、モデル化されるデータに特有の物理帰納的バイアスの使用と、その識別に使用されるデータから予測対象を分離する学習的識別戦略の2つの角度から検討する。
これらの2つの戦略を、ハイブリッド潜伏力学(Meta-HyLaD)の教師なしメタラーニングのための新しいフレームワークに組み合わせる。
1)先行物理学の既知の数学的表現と未知の誤りを記述する神経機能とをハイブリダイズする潜時動的関数、及び
2)ハイブリッド力学の両コンポーネントを別々に識別することを学ぶメタラーニングの定式化。
5つの物理と1つのバイオメディカルシステムに関する広範な実験を通じて、観測データとのギャップを識別しながら、豊富な事前知識を統合するメタHyLaDの利点の強い証拠を提供する。
Modern applications increasingly require unsupervised learning of latent dynamics from high-dimensional time-series. This presents a significant challenge of identifiability: many abstract latent representations may reconstruct observations, yet do they guarantee an adequate identification of the governing dynamics? This paper investigates this challenge from two angles: the use of physics inductive bias specific to the data being modeled, and a learn-to-identify strategy that separates forecasting objectives from the data used for the identification. We combine these two strategies in a novel framework for unsupervised meta-learning of hybrid latent dynamics (Meta-HyLaD) with: 1) a latent dynamic function that hybridize known mathematical expressions of prior physics with neural functions describing its unknown errors, and 2) a meta-learning formulation to learn to separately identify both components of the hybrid dynamics. Through extensive experiments on five physics and one biomedical systems, we provide strong evidence for the benefits of Meta-HyLaD to integrate rich prior knowledge while identifying their gap to observed data. | 翻訳日:2024-03-14 15:49:52 公開日:2024-03-13 |
# 学習駆動型物理認識型大規模回路ゲートサイズ
Learning-driven Physically-aware Large-scale Circuit Gate Sizing ( http://arxiv.org/abs/2403.08193v1 ) ライセンス: Link先を確認 | Yuyang Ye, Peng Xu, Lizheng Ren, Tinghuan Chen, Hao Yan, Bei Yu, Longxing Shi | (参考訳) ゲートサイズは、物理設計後のタイミング最適化において重要な役割を果たす。
既存の機械学習ベースのゲートサイズワークでは、複数のタイミングパスのタイミングを同時に最適化することができず、レイアウトの物理的な制約を無視することはできない。
それらは、商用ゲートサイズツールと比較して、準最適サイズソリューションと低効率の問題を引き起こします。
本研究では,大規模回路上でのタイミング性能を効率的に最適化するための,学習駆動型物理認識ゲートサイズフレームワークを提案する。
勾配勾配勾配最適化に基づく作業では,複数タイミング経路のタイミング情報と複数スケールレイアウトの物理情報とを併用して,マルチモーダルゲートサイズ対応タイミングモデルを実現する。
そして、ゲートサイズを更新するために、サイズ指向推定器と適応バックプロパゲーションに基づく勾配生成を開発する。
本研究は,市販のゲートサイズツールと比較して,より高速なタイミング性能向上を実現することを実証した。
Gate sizing plays an important role in timing optimization after physical design. Existing machine learning-based gate sizing works cannot optimize timing on multiple timing paths simultaneously and neglect the physical constraint on layouts. They cause sub-optimal sizing solutions and low-efficiency issues when compared with commercial gate sizing tools. In this work, we propose a learning-driven physically-aware gate sizing framework to optimize timing performance on large-scale circuits efficiently. In our gradient descent optimization-based work, for obtaining accurate gradients, a multi-modal gate sizing-aware timing model is achieved via learning timing information on multiple timing paths and physical information on multiple-scaled layouts jointly. Then, gradient generation based on the sizing-oriented estimator and adaptive back-propagation are developed to update gate sizes. Our results demonstrate that our work achieves higher timing performance improvements in a faster way compared with the commercial gate sizing tool. | 翻訳日:2024-03-14 15:49:52 公開日:2024-03-13 |
# MoleculeQA: 分子の実際の精度を評価するデータセット
理解
MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension ( http://arxiv.org/abs/2403.08192v1 ) ライセンス: Link先を確認 | Xingyu Lu, He Cao, Zijing Liu, Shengyuan Bai, Leqing Chen, Yuan Yao, Hai-Tao Zheng, Yu Li | (参考訳) 大規模言語モデルは分子研究においてますます重要な役割を担っているが、既存のモデルはしばしば誤った情報を生成し、正確な分子理解に挑戦している。
生成されたコンテンツに対する従来の評価基準は、分子理解におけるモデルの精度を評価するのに失敗する。
事実評価の欠如を是正するために,23K分子以上62KのQAペアを持つ新しいQAデータセットであるMoleculeQAを提案する。
それぞれのQAペアは、手動質問、正の選択肢、3つの負の選択肢で構成され、権威分子コーパスからの分子記述と一貫した意味を持つ。
MoleculeQAは、分子の事実バイアス評価のための最初のベンチマークであるだけでなく、分子研究のための最大のQAデータセットでもある。
既存の分子LLMに対する分子QAの包括的評価は、その特定の領域における欠陥を明らかにし、分子理解の重要な要素をいくつか挙げる。
Large language models are playing an increasingly significant role in molecular research, yet existing models often generate erroneous information, posing challenges to accurate molecular comprehension. Traditional evaluation metrics for generated content fail to assess a model's accuracy in molecular understanding. To rectify the absence of factual evaluation, we present MoleculeQA, a novel question answering (QA) dataset which possesses 62K QA pairs over 23K molecules. Each QA pair, composed of a manual question, a positive option and three negative options, has consistent semantics with a molecular description from authoritative molecular corpus. MoleculeQA is not only the first benchmark for molecular factual bias evaluation but also the largest QA dataset for molecular research. A comprehensive evaluation on MoleculeQA for existing molecular LLMs exposes their deficiencies in specific areas and pinpoints several particularly crucial factors for molecular understanding. | 翻訳日:2024-03-14 15:49:51 公開日:2024-03-13 |
# 低リソース自動グロスティングのための組込み翻訳
Embedded Translations for Low-resource Automated Glossing ( http://arxiv.org/abs/2403.08189v1 ) ライセンス: Link先を確認 | Changbing Yang, Garrett Nicolai, Miikka Silfverberg | (参考訳) 低リソース環境におけるライン間光沢の自動計測について検討する。
我々は,線間グラフトテキストから抽出した組込み翻訳情報を用いて,ハードアテンショナル・ニューラル・モデルを強化する。
BERT と T5 の大規模な言語モデルを用いてこれらの翻訳を符号化した後、グロス出力を生成するための文字レベルデコーダを導入する。
これらの拡張によって、SIGMORPHON 2023 の線形グロスティングにおける共有タスクから得られたデータセットの過去の最先端データよりも平均 3.97 % の改善が示される。
また,100文以内で訓練した超低リソース環境において,本システムは,平易なハードアテンショナルベースラインに対して平均9.78 %の精度向上を実現している。
これらの結果は,システムの性能向上,特に控えめなデータソースの処理と解釈において,翻訳情報の重要性を浮き彫りにしている。
我々の研究は,既存の最先端技術に対する大きな進歩を示す共有タスクデータセットを用いて,言語のドキュメンテーションと保存のための有望な道のりを示唆している。
We investigate automatic interlinear glossing in low-resource settings. We augment a hard-attentional neural model with embedded translation information extracted from interlinear glossed text. After encoding these translations using large language models, specifically BERT and T5, we introduce a character-level decoder for generating glossed output. Aided by these enhancements, our model demonstrates an average improvement of 3.97\%-points over the previous state of the art on datasets from the SIGMORPHON 2023 Shared Task on Interlinear Glossing. In a simulated ultra low-resource setting, trained on as few as 100 sentences, our system achieves an average 9.78\%-point improvement over the plain hard-attentional baseline. These results highlight the critical role of translation information in boosting the system's performance, especially in processing and interpreting modest data sources. Our findings suggest a promising avenue for the documentation and preservation of languages, with our experiments on shared task datasets indicating significant advancements over the existing state of the art. | 翻訳日:2024-03-14 15:49:51 公開日:2024-03-13 |
# ジョセフソン接合を含む回路に対するゲージ不変量子化
Gauge invariant quantization for circuits including Josephson junctions ( http://arxiv.org/abs/2403.08188v1 ) ライセンス: Link先を確認 | Hiroyasu Koizumi | (参考訳) 近年、超伝導の起源を、多電子波関数からの非自明なベリー接続の出現に起因した新しい超伝導理論が提唱されている。
この理論は、粒子数を保存することによってBCS理論の主要な結果を再現し、正しいジョセフソン関係を維持することでジョセフソン接合を横断する単一電子超電流トンネルを予測する。
上記の発展を考慮した超伝導量子ビット回路の量子化を再検討し、標準理論で用いられる動的変数である電圧に関するフラックスノードを電磁ベクトルポテンシャルに関するものに置き換えるべきであることを示す。
ジョセフソン接合トンネルが単一電子超電流トンネルを可能にするという事実は、ジョセフソン接合を持つ超伝導量子ビットに励起単一電子が存在する理由である。
ジョセフソン接合部における2つの超伝導体間の結合を弱めることにより避けられると予測する。
Recently, a new theory of superconductivity has been put forward that attributes the origin of superconductivity to the appearance of a non-trivial Berry connection from many-electron wave functions. This theory reproduces the major results of the BCS theory with conserving the particle number, and predicts the single-electron supercurrent tunneling across the Josephson junction with keeping the correct Josephson relation. We re-examine the quantization of superconducting qubit circuits by taking into account the above development, and show that the dynamical variables used in the standard theory, the flux nodes relating to the voltage, should be replaced by those relating to the electromagnetic vector potential. The fact that the Josephson junction tunneling allows the single-electron supercurrent tunneling is the reason for the existence of excited single electrons in superconducting qubits with Josephson junctions. We predict that it will be avoided by weakening the coupling between two superconductors in the Josephson junction. | 翻訳日:2024-03-14 15:49:50 公開日:2024-03-13 |
# 発音診断のための音声認識(ASR)
韓国の子どもにおける音声障害
Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of Speech Sound Disorders in Korean children ( http://arxiv.org/abs/2403.08187v1 ) ライセンス: Link先を確認 | Taekyung Ahn, Yeonjung Hong, Younggon Im, Do Hyung Kim, Dayoung Kang, Joo Won Jeong, Jae Won Kim, Min Jung Kim, Ah-ra Cho, Dae-Hyun Jang and Hosung Nam | (参考訳) 本研究は,音声障害児(SSD)の発音障害を診断するための自動音声認識(ASR)モデルを提案する。
一般的な目的のために訓練されたASRモデルは、主に実際の単語への入力音声を予測するため、SSDを持つ子供の発音を評価するためによく知られた高性能のASRモデルを用いるのは現実的ではない。
我々はwav2vec 2.0 XLS-Rモデルを微調整し、既存の単語ではなく発音として認識した。
本モデルは, 実際の臨床診断のために選択された73の韓国語を発音し, 発話が不十分な137人の子供の音声データセットを用いて微調整した。
モデルの単語の発音予測は、約90%の精度で人間のアノテーションと一致した。
本研究は, ASRモデルが臨床領域における複雑な発音誤り診断の手順を合理化できることを示すものである。
This study presents a model of automatic speech recognition (ASR) designed to diagnose pronunciation issues in children with speech sound disorders (SSDs) to replace manual transcriptions in clinical procedures. Since ASR models trained for general purposes primarily predict input speech into real words, employing a well-known high-performance ASR model for evaluating pronunciation in children with SSDs is impractical. We fine-tuned the wav2vec 2.0 XLS-R model to recognize speech as pronounced rather than as existing words. The model was fine-tuned with a speech dataset from 137 children with inadequate speech production pronouncing 73 Korean words selected for actual clinical diagnosis. The model's predictions of the pronunciations of the words matched the human annotations with about 90% accuracy. While the model still requires improvement in recognizing unclear pronunciation, this study demonstrates that ASR models can streamline complex pronunciation error diagnostic procedures in clinical fields. | 翻訳日:2024-03-14 15:49:50 公開日:2024-03-13 |
# SeCG: クロスモーダルグラフによるセマンティックな3D視覚グラウンド
注意
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention ( http://arxiv.org/abs/2403.08182v1 ) ライセンス: Link先を確認 | Feng Xiao, Hongbin Xu, Qiuxia Wu, Wenxiong Kang | (参考訳) 3Dビジュアルグラウンドティングは、対応するテキスト記述が与えられた指定対象の3D領域を自動的に特定することを目的としている。
既存の作業は、特に複数の参照オブジェクトが記述に関与している場合、類似したオブジェクトを区別することができない。
実験により,言語と視覚的モーダルの直接マッチングは,発話における複雑な参照関係を理解する能力に制限があることが示された。
主に、クロスモーダルアライメントにおける冗長な視覚情報による干渉によるものである。
本研究では,異なるモダリティ間の関係指向マッピングを強化するために,設計したメモリグラフアテンション層を用いたグラフネットワークに基づく意味強化型関係学習モデルSeCGを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
よりテキスト関連の特徴表現は、グローバルセマンティクスと暗黙の関係のガイダンスによって得られる。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れており,特にマルチリレーション問題に対するローカライゼーション性能が向上している。
3D visual grounding aims to automatically locate the 3D region of the specified object given the corresponding textual description. Existing works fail to distinguish similar objects especially when multiple referred objects are involved in the description. Experiments show that direct matching of language and visual modal has limited capacity to comprehend complex referential relationships in utterances. It is mainly due to the interference caused by redundant visual information in cross-modal alignment. To strengthen relation-orientated mapping between different modalities, we propose SeCG, a semantic-enhanced relational learning model based on a graph network with our designed memory graph attention layer. Our method replaces original language-independent encoding with cross-modal encoding in visual analysis. More text-related feature expressions are obtained through the guidance of global semantics and implicit relationships. Experimental results on ReferIt3D and ScanRefer benchmarks show that the proposed method outperforms the existing state-of-the-art methods, particularly improving the localization performance for the multi-relation challenges. | 翻訳日:2024-03-14 15:49:50 公開日:2024-03-13 |
# PageRankを用いたCitation Metric, Impactの感性認知機能向上
学術論文の著者のランク付けの要因とH指標
Sentiment-aware Enhancements of PageRank-based Citation Metric, Impact Factor, and H-index for Ranking the Authors of Scholarly Articles ( http://arxiv.org/abs/2403.08176v1 ) ライセンス: Link先を確認 | Shikha Gupta and Animesh Kumar | (参考訳) これまで、著者を評価する唯一の方法は、引用を中立的な感情とみなす周波数ベースの引用指標であった。
しかし、引用の背景にある感情を考えると、著者の学術的なアウトプットに対する仲間の研究者の視点をよりよく理解することができる。
Heretofore, the only way to evaluate an author has been frequency-based citation metrics that assume citations to be of a neutral sentiment. However, considering the sentiment behind citations aids in a better understanding of the viewpoints of fellow researchers for the scholarly output of an author. | 翻訳日:2024-03-14 15:49:49 公開日:2024-03-13 |
# ファクト検証のための損失関数の再考
Rethinking Loss Functions for Fact Verification ( http://arxiv.org/abs/2403.08174v1 ) ライセンス: Link先を確認 | Yuta Mukobara, Yutaro Shigeto, Masashi Shimbo | (参考訳) FEVER共有タスクにおける事実検証のための損失関数について検討する。
クロスエントロピー損失は、検証予測器を訓練するための標準目標であるが、FEVER検証クラス間の不均一性を捉えることに失敗する。
本稿では,FEVERに適した2つのタスク固有目的について述べる。
実験により,提案する目的関数が標準のクロスエントロピーより優れていることを確認した。
これらの目的を単純なクラス重み付けと組み合わせることで、トレーニングデータの不均衡を効果的に克服し、パフォーマンスをさらに向上する。
Souceのコードはhttps://github.com/yuta-mukobara/RLF-KGATで入手できる。
We explore loss functions for fact verification in the FEVER shared task. While the cross-entropy loss is a standard objective for training verdict predictors, it fails to capture the heterogeneity among the FEVER verdict classes. In this paper, we develop two task-specific objectives tailored to FEVER. Experimental results confirm that the proposed objective functions outperform the standard cross-entropy. Performance is further improved when these objectives are combined with simple class weighting, which effectively overcomes the imbalance in the training data. The souce code is available at https://github.com/yuta-mukobara/RLF-KGAT | 翻訳日:2024-03-14 15:49:49 公開日:2024-03-13 |
# 非コンケーブゲームにおけるトラクタブルな局所平衡
Tractable Local Equilibria in Non-Concave Games ( http://arxiv.org/abs/2403.08171v1 ) ライセンス: Link先を確認 | Yang Cai, Constantinos Daskalakis, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng | (参考訳) オンライングラディエントDescentやその他の非回帰学習手順は、各エージェントのユーティリティが自身の戦略で凹むゲームにおいて、粗い相関均衡に効率よく収束することが知られているが、ユーティリティが非凹地である場合、エージェントの戦略がディープニューラルネットワークによってパラメータ化される機械学習アプリケーションで一般的な状況、またはエージェントのユーティリティがニューラルネットワークによって計算される場合、またはその両方においてそうではない。
実際、非コンケーブゲームには、ゲーム理論と最適化の課題が数多く存在する。
一 ナッシュ均衡が存在しないこと。
(ii)局所的なナッシュ均衡は存在するが、難解である。
三 混合ナッシュ、相関、粗相関平衡は一般に無限に支持され、難解である。
これらの課題を克服するために、我々は$(\varepsilon, \Phi(\delta))$-local equilibriumと呼ばれる新しい解の概念を提案し、これは非凹面ゲームにおいて局所的なナッシュ均衡を一般化し、また、凹面ゲームにおいて(粗い)相関平衡を一般化する。
重要なことは、このソリューションの概念の2つのインスタンス化が、オンライングラディエント・ディクエンスと非レグレット学習の収束保証を捉えており、スムーズなユーティリティを持つ非コンケーブゲームにおいて、このタイプの平衡に効率的に収束していることである。
While Online Gradient Descent and other no-regret learning procedures are known to efficiently converge to coarse correlated equilibrium in games where each agent's utility is concave in their own strategy, this is not the case when the utilities are non-concave, a situation that is common in machine learning applications where the agents' strategies are parameterized by deep neural networks, or the agents' utilities are computed by a neural network, or both. Indeed, non-concave games present a host of game-theoretic and optimization challenges: (i) Nash equilibria may fail to exist; (ii) local Nash equilibria exist but are intractable; and (iii) mixed Nash, correlated, and coarse correlated equilibria have infinite support in general, and are intractable. To sidestep these challenges we propose a new solution concept, termed $(\varepsilon, \Phi(\delta))$-local equilibrium, which generalizes local Nash equilibrium in non-concave games, as well as (coarse) correlated equilibrium in concave games. Importantly, we show that two instantiations of this solution concept capture the convergence guarantees of Online Gradient Descent and no-regret learning, which we show efficiently converge to this type of equilibrium in non-concave games with smooth utilities. | 翻訳日:2024-03-14 15:49:49 公開日:2024-03-13 |
# 時間間隔の端点における特異点の対応
拡散モデル
Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models ( http://arxiv.org/abs/2403.08381v1 ) ライセンス: Link先を確認 | Pengze Zhang, Hubery Yin, Chen Li, Xiaohua Xie | (参考訳) ほとんどの拡散モデルは、逆過程がガウス分布に従属すると仮定する。
しかし、この近似は、特に t=0 と t=1 の特異点において厳密に検証されていない。
このような特異点に不適切な対処は、アプリケーションにおける平均的な明るさ問題を引き起こし、極度の明るさまたは暗さで画像の生成を制限する。
主に、理論的および実践的な観点から特異点に取り組むことに重点を置いています。
まず、逆過程近似の誤差境界を確立し、特異時間ステップでそのガウス特性を示す。
この理論的な洞察に基づき、t = 1 における特異点が条件的に除去可能であるのに対して、t=0 における特異点が固有の性質であることを確認する。
そこで本研究では,初期特異時間ステップサンプリングに対処するプラグイン・アンド・プレイ方式SingDiffusionを提案する。これは,トレーニングを余分に行わずに,広範囲の拡散モデルの平均輝度問題を効果的に解決するだけでなく,FIDスコアの顕著な向上を実現するための生成能力も向上する。
コードとモデルはhttps://github.com/PangzeCheung/SingDiffusion.comで公開されている。
Most diffusion models assume that the reverse process adheres to a Gaussian distribution. However, this approximation has not been rigorously validated, especially at singularities, where t=0 and t=1. Improperly dealing with such singularities leads to an average brightness issue in applications, and limits the generation of images with extreme brightness or darkness. We primarily focus on tackling singularities from both theoretical and practical perspectives. Initially, we establish the error bounds for the reverse process approximation, and showcase its Gaussian characteristics at singularity time steps. Based on this theoretical insight, we confirm the singularity at t=1 is conditionally removable while it at t=0 is an inherent property. Upon these significant conclusions, we propose a novel plug-and-play method SingDiffusion to address the initial singular time step sampling, which not only effectively resolves the average brightness issue for a wide range of diffusion models without extra training efforts, but also enhances their generation capability in achieving notable lower FID scores. Code and models are released at https://github.com/PangzeCheung/SingDiffusion. | 翻訳日:2024-03-14 15:16:26 公開日:2024-03-13 |
# 赤外線小ターゲット検出における目標レベル感度の軽減
後部分布モデリングを通して
Mitigate Target-level Insensitivity of Infrared Small Target Detection via Posterior Distribution Modeling ( http://arxiv.org/abs/2403.08380v1 ) ライセンス: Link先を確認 | Haoqing Li, Jinfu Yang, Yifei Xu, Runshi Wang | (参考訳) Infrared Small Target Detection (IRSTD) は、赤外線クラッタ背景から小さなターゲットを分離することを目的としている。
既存の方法は、主に差別的アプローチ、すなわちピクセルレベルのフロントバックグラウンドバイナリセグメンテーションに焦点を当てている。
赤外線小ターゲットは小さく、信号対クラッタ比が低いため、特定の誤報や検出ミスが存在する場合、経験的リスクはほとんどなく、これらの手法のさらなる改善に重大な影響を及ぼす。
本稿では,高密度予測生成法を応用して,マスク後部分布モデルを用いて画素レベルの判別を補正する赤外線小ターゲット検出のための拡散モデルフレームワークを提案する。
さらに,ウェーブレット領域における低周波分離を設計し,拡散雑音推定における固有赤外雑音の干渉を抑制する。
識別パラダイムから生成パラダイムへの移行により、ターゲットレベルの不感度を回避できます。
実験により,提案手法は, NUAA-SIRST, IRSTD-1k, NUDT-SIRSTデータセット上での最先端手法と競合する性能向上を実現することを示した。
コードはhttps://github.com/Li-Haoqing/IRSTD-Diffで入手できる。
Infrared Small Target Detection (IRSTD) aims to segment small targets from infrared clutter background. Existing methods mainly focus on discriminative approaches, i.e., a pixel-level front-background binary segmentation. Since infrared small targets are small and low signal-to-clutter ratio, empirical risk has few disturbances when a certain false alarm and missed detection exist, which seriously affect the further improvement of such methods. Motivated by the dense prediction generative methods, in this paper, we propose a diffusion model framework for Infrared Small Target Detection which compensates pixel-level discriminant with mask posterior distribution modeling. Furthermore, we design a Low-frequency Isolation in the wavelet domain to suppress the interference of intrinsic infrared noise on the diffusion noise estimation. This transition from the discriminative paradigm to generative one enables us to bypass the target-level insensitivity. Experiments show that the proposed method achieves competitive performance gains over state-of-the-art methods on NUAA-SIRST, IRSTD-1k, and NUDT-SIRST datasets. Code are available at https://github.com/Li-Haoqing/IRSTD-Diff. | 翻訳日:2024-03-14 15:16:25 公開日:2024-03-13 |
# 適応重み付きソフトマージンを用いた一般化フレームワーク
不均衡SVM分類
A Generalized Framework with Adaptive Weighted Soft-Margin for Imbalanced SVM Classification ( http://arxiv.org/abs/2403.08378v1 ) ライセンス: Link先を確認 | Lu Jiang, Qi Wang, Yuhang Chang, Jianing Song and Haoyue Fu | (参考訳) カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。
本稿では,ソフトマージン重み付きSVM(AW-WSVM)の適応重み関数を用いた新しい一般化フレームワークを提案する。
未拘束ソフトマージン支持ベクトルマシンに重量係数を導入し、各トレーニング前にサンプル重量を更新する。
適応重み関数 (Adaptive Weight function, AW function) は、試料と決定超平面の間の距離から構成され、各試料に異なる重みを割り当てる。
決定超平面への支持ベクトルの近接を考慮した重み更新手法を提案する。
トレーニング前に、対応するサンプルの重みは異なるカテゴリに応じて初期化される。
その後、決定超平面に近いサンプルが特定され、より多くの重量が割り当てられる。
同時に、下級重量は決定超平面から遠く離れたサンプルに割り当てられる。
さらに、ノイズを除去する効果的な方法も提案した。
提案する一般化フレームワークの強度を評価するため,異なる不均衡比 (IR) の標準データセットと感情分類データセットの実験を行った。
実験結果から,提案手法が精度,リコール基準,G平均で優れており,支援ベクトルマシンの強化における重み付き戦略の有効性が検証された。
Category imbalance is one of the most popular and important issues in the domain of classification. In this paper, we present a new generalized framework with Adaptive Weight function for soft-margin Weighted SVM (AW-WSVM), which aims to enhance the issue of imbalance and outlier sensitivity in standard support vector machine (SVM) for classifying two-class data. The weight coefficient is introduced into the unconstrained soft-margin support vector machines, and the sample weights are updated before each training. The Adaptive Weight function (AW function) is constructed from the distance between the samples and the decision hyperplane, assigning different weights to each sample. A weight update method is proposed, taking into account the proximity of the support vectors to the decision hyperplane. Before training, the weights of the corresponding samples are initialized according to different categories. Subsequently, the samples close to the decision hyperplane are identified and assigned more weights. At the same time, lower weights are assigned to samples that are far from the decision hyperplane. Furthermore, we also put forward an effective way to eliminate noise. To evaluate the strength of the proposed generalized framework, we conducted experiments on standard datasets and emotion classification datasets with different imbalanced ratios (IR). The experimental results prove that the proposed generalized framework outperforms in terms of accuracy, recall metrics and G-mean, validating the effectiveness of the weighted strategy provided in this paper in enhancing support vector machines. | 翻訳日:2024-03-14 15:16:25 公開日:2024-03-13 |
# 薬物と薬物の相互作用のゼロショット予測のための記述の学習
Learning to Describe for Predicting Zero-shot Drug-Drug Interactions ( http://arxiv.org/abs/2403.08377v1 ) ライセンス: Link先を確認 | Fangqi Zhu, Yongqi Zhang, Lei Chen, Bing Qin, Ruifeng Xu | (参考訳) 薬物と薬物の相互作用~(DDI)は、同時薬物投与の有効性を損なう可能性があり、医療において大きな課題となっている。
新しい薬物の開発が進むにつれて、DDIから生じる未知の副作用の可能性が懸念されるようになる。
従来のDDI予測の計算手法では、知識不足のため、新しい薬物の相互作用を捉えることができない可能性がある。
本稿では,新薬の症例に対処するゼロショットDDI予測として,新たな問題設定を導入する。
DrugBankやPubChemのようなオンラインデータベースからのテキスト情報を活用することで、言語モデルに基づくDDI予測器と強化学習~(RL)ベースの情報セレクタによるTextDDIの革新的なアプローチを提案する。
実験の結果、ゼロショットや少数ショットのDDI予測を含むいくつかの設定において提案手法の利点が示され、選択したテキストは意味論的に関連している。
私たちのコードとデータは、 \url{https://github.com/zhufq00/DDIs-Prediction}で公開されています。
Adverse drug-drug interactions~(DDIs) can compromise the effectiveness of concurrent drug administration, posing a significant challenge in healthcare. As the development of new drugs continues, the potential for unknown adverse effects resulting from DDIs becomes a growing concern. Traditional computational methods for DDI prediction may fail to capture interactions for new drugs due to the lack of knowledge. In this paper, we introduce a new problem setup as zero-shot DDI prediction that deals with the case of new drugs. Leveraging textual information from online databases like DrugBank and PubChem, we propose an innovative approach TextDDI with a language model-based DDI predictor and a reinforcement learning~(RL)-based information selector, enabling the selection of concise and pertinent text for accurate DDI prediction on new drugs. Empirical results show the benefits of the proposed approach on several settings including zero-shot and few-shot DDI prediction, and the selected texts are semantically relevant. Our code and data are available at \url{https://github.com/zhufq00/DDIs-Prediction}. | 翻訳日:2024-03-14 15:16:24 公開日:2024-03-13 |
# ラマンからマイクロゲルサイズを決定する非線形マニフォールド学習
分光
Nonlinear Manifold Learning Determines Microgel Size from Raman Spectroscopy ( http://arxiv.org/abs/2403.08376v1 ) ライセンス: Link先を確認 | Eleni D. Koronaki, Luise F. Kaven, Johannes M. M. Faust, Ioannis G. Kevrekidis, and Alexander Mitsos | (参考訳) 高分子粒子サイズは、重合における製品品質の重要な特徴である。
ラマン分光法は、インライン濃度モニタリングのための確立され信頼性の高いプロセス解析技術である。
近年のアプローチといくつかの理論的考察は、ラマン信号と粒子径の相関を示すが、ラマン分光測定からポリマーの大きさを正確にかつ確実に決定するものではない。
このことを念頭に置いて,この課題を遂行するための3つの機械学習ワークフローを提案する。
(i)拡散地図から直接。
(二)拡散図の交互化、及び
三 共形自己エンコーダニューラルネットワーク
直径208nmから483nmの47マイクロゲル(架橋ポリマー)試料の動的光散乱によって測定されたRamanスペクトルのデータセットにワークフローを適用した。
共形オートエンコーダはラマンスペクトルからのポリマーサイズ予測において、最先端の手法と結果を大きく上回った。
Polymer particle size constitutes a crucial characteristic of product quality in polymerization. Raman spectroscopy is an established and reliable process analytical technology for in-line concentration monitoring. Recent approaches and some theoretical considerations show a correlation between Raman signals and particle sizes but do not determine polymer size from Raman spectroscopic measurements accurately and reliably. With this in mind, we propose three alternative machine learning workflows to perform this task, all involving diffusion maps, a nonlinear manifold learning technique for dimensionality reduction: (i) directly from diffusion maps, (ii) alternating diffusion maps, and (iii) conformal autoencoder neural networks. We apply the workflows to a data set of Raman spectra with associated size measured via dynamic light scattering of 47 microgel (cross-linked polymer) samples in a diameter range of 208nm to 483 nm. The conformal autoencoders substantially outperform state-of-the-art methods and results for the first time in a promising prediction of polymer size from Raman spectra. | 翻訳日:2024-03-14 15:16:23 公開日:2024-03-13 |
# クラウド移行のためのSQLダイアレクト間の翻訳
Translating between SQL Dialects for Cloud Migration ( http://arxiv.org/abs/2403.08375v1 ) ライセンス: Link先を確認 | Ran Zmigrod, Salwa Alamir, Xiaomo Liu | (参考訳) オンプレミスからクラウドへのシステムの移行は多くの産業機関による基本的な取り組みである。
このようなクラウド移行の重要なコンポーネントは、オンラインでホストされるデータベースの移行である。
本稿では,SQLデータベースの移行の難しさについて考察する。
SQLはデータベースのプロシージャを保存するための重要な方法の1つだが、オンプレミスのSQL方言がクラウドにホストされている方言と異なる場合、移行を複雑にするさまざまなSQL方言(例えば、MySQL、Postgresなど)が存在する。
AWSやAzureといった共通クラウドが提供するツールによって、方言間の翻訳を支援することで、困難の大部分を軽減することができる。
しかし、これらのツールは100\%のコードをうまく翻訳しない。
そのため、ソフトウェアエンジニアは、翻訳されていないデータベースの残りの部分を手動で変換する必要がある。
大企業では、このタスクはすぐに難易度が高くなり、革新的なソリューションが求められます。
我々は,クラウド移行を検討中の大企業にとって,この課題は,新たな産業研究課題であると考えている。
さらに,この課題に対処するために,将来有望な予備的な結果をもたらす研究の道のりについても紹介する。
Migrations of systems from on-site premises to the cloud has been a fundamental endeavor by many industrial institutions. A crucial component of such cloud migrations is the transition of databases to be hosted online. In this work, we consider the difficulties of this migration for SQL databases. While SQL is one of the prominent methods for storing database procedures, there are a plethora of different SQL dialects (e.g., MySQL, Postgres, etc.) which can complicate migrations when the on-premise SQL dialect differs to the dialect hosted on the cloud. Tools exist by common cloud provides such as AWS and Azure to aid in translating between dialects in order to mitigate the majority of the difficulties. However, these tools do not successfully translate $100\%$ of the code. Consequently, software engineers must manually convert the remainder of the untranslated database. For large organizations, this task quickly becomes intractable and so more innovative solutions are required. We consider this challenge a novel yet vital industrial research problem for any large corporation that is considering cloud migrations. Furthermore, we introduce potential avenues of research to tackle this challenge that have yielded promising preliminary results. | 翻訳日:2024-03-14 15:16:23 公開日:2024-03-13 |
# SMART:インストラクションチューニングのためのサブモジュールデータ混合戦略
SMART: Submodular Data Mixture Strategy for Instruction Tuning ( http://arxiv.org/abs/2403.08370v1 ) ライセンス: Link先を確認 | H S V N S Kowndinya Renduchintala, Sumit Bhatia, Ganesh Ramakrishnan | (参考訳) インストラクションチューニングは、予測できないタスクへのモデルの一般化性を高めるために、命令形式データセットの集合上の言語モデルを微調整する。
研究では、微調整中に異なるタスク比率のバランスをとることの重要性が示されているが、適切なバランスを見つけることは依然として困難である。
残念ながら、現在手作業のチューニングや実践者の直感に頼るような体系的な方法はありません。
本稿では,SMART(Submodular Data Mixture strAtegy for InstRuction Tuning)について紹介する。
微調整の予算が与えられると、SMARTはタスク間で予算を再分配し、各タスクから非冗長サンプルを選択する。
実験の結果,SMARTは比例混合や等混合など従来の手法よりも有意に優れていた。
さらに,SMARTは,タスクの代表的なサブセットのみに基づくデータミックスの作成を容易にし,タスクプルーニング分析を通じて,限られた予算設定において,代表タスクのサブセットに予算を割り当てることで,すべてのタスクに予算を分配するよりも優れたパフォーマンスが得られることを明らかにした。
結果の再現コードはhttps://github.com/kowndinya-renduchintala/SMART.comで公開されている。
Instruction Tuning involves finetuning a language model on a collection of instruction-formatted datasets in order to enhance the generalizability of the model to unseen tasks. Studies have shown the importance of balancing different task proportions during finetuning, but finding the right balance remains challenging. Unfortunately, there's currently no systematic method beyond manual tuning or relying on practitioners' intuition. In this paper, we introduce SMART (Submodular data Mixture strAtegy for instRuction Tuning) - a novel data mixture strategy which makes use of a submodular function to assign importance scores to tasks which are then used to determine the mixture weights. Given a fine-tuning budget, SMART redistributes the budget among tasks and selects non-redundant samples from each task. Experimental results demonstrate that SMART significantly outperforms traditional methods such as examples proportional mixing and equal mixing. Furthermore, SMART facilitates the creation of data mixtures based on a few representative subsets of tasks alone and through task pruning analysis, we reveal that in a limited budget setting, allocating budget among a subset of representative tasks yields superior performance compared to distributing the budget among all tasks. The code for reproducing our results is open-sourced at https://github.com/kowndinya-renduchintala/SMART. | 翻訳日:2024-03-14 15:16:22 公開日:2024-03-13 |
# METER:モノクルディープのための移動型視覚変換器アーキテクチャ
推定
METER: a mobile vision transformer architecture for monocular depth estimation ( http://arxiv.org/abs/2403.08368v1 ) ライセンス: Link先を確認 | L. Papa, P. Russo, and I. Amerini | (参考訳) 深さ推定は、自己の状態を評価し、周囲の環境を認識する必要がある自律システムの基本的な知識である。
近年, 深度推定のためのディープラーニングアルゴリズムが注目されている。これは, アクティブ深度検知システムの限界を克服する上で, この手法の潜在的な利点のためである。
さらに、単眼カメラの低コスト化と小型化のため、研究者は単一のRGBビデオフレームから深度マップを推定する単眼深度推定(MDE)に注目している。
最先端のMDEモデルは一般的に、非常に深く複雑な視覚変換器(ViT)アーキテクチャに依存しており、ハードウェア制約のあるデバイスでの高速な推論には適さない。
本稿では,組込みデバイス上でのMDEにおけるViT利用の問題に対処する。
これらのシステムは通常、限られたメモリ能力と低消費電力のCPU/GPUによって特徴づけられる。
本稿では, NVIDIA Jetson TX1 と NVIDIA Jetson Nano という組込みハードウェア上で, 最先端推定と低レイテンシ推論性能を実現する軽量な視覚トランスフォーマアーキテクチャである METER を提案する。
本稿では,METERの3つの代替構成,画像詳細の画素推定と再構成のバランスをとる新たな損失関数,および最終的な予測を改善するための新たなデータ拡張戦略を提案する。
提案手法は,室内のNYU Depth v2と屋外のKITTIの2つのベンチマークデータセットよりも優れている。
Depth estimation is a fundamental knowledge for autonomous systems that need to assess their own state and perceive the surrounding environment. Deep learning algorithms for depth estimation have gained significant interest in recent years, owing to the potential benefits of this methodology in overcoming the limitations of active depth sensing systems. Moreover, due to the low cost and size of monocular cameras, researchers have focused their attention on monocular depth estimation (MDE), which consists in estimating a dense depth map from a single RGB video frame. State of the art MDE models typically rely on vision transformers (ViT) architectures that are highly deep and complex, making them unsuitable for fast inference on devices with hardware constraints. Purposely, in this paper, we address the problem of exploiting ViT in MDE on embedded devices. Those systems are usually characterized by limited memory capabilities and low-power CPU/GPU. We propose METER, a novel lightweight vision transformer architecture capable of achieving state of the art estimations and low latency inference performances on the considered embedded hardwares: NVIDIA Jetson TX1 and NVIDIA Jetson Nano. We provide a solution consisting of three alternative configurations of METER, a novel loss function to balance pixel estimation and reconstruction of image details, and a new data augmentation strategy to improve the overall final predictions. The proposed method outperforms previous lightweight works over the two benchmark datasets: the indoor NYU Depth v2 and the outdoor KITTI. | 翻訳日:2024-03-14 15:16:22 公開日:2024-03-13 |
# 長大・非IIDデータにおける非結合型フェデレーション学習
特徴統計
Decoupled Federated Learning on Long-Tailed and Non-IID data with Feature Statistics ( http://arxiv.org/abs/2403.08364v1 ) ライセンス: Link先を確認 | Zhuoxin Chen, Zhenyu Wu, Yang Ji | (参考訳) フェデレーション学習は、データのセキュリティとプライバシを高めるように設計されているが、長い尾と非IIDのディストリビューションで異種データを扱う場合、課題に直面している。
本稿では,いくつかのクライアントにテールクラスを分散させ,それらのクラスで訓練したモデルがクライアントアグリゲーション中に選択される確率を低くし,収束率の低下とモデル性能の低下を招いた,見落とされがちなシナリオを考察する。
この問題に対処するために,特徴統計(DFL-FS)を用いた2段階分離型フェデレーション学習フレームワークを提案する。
第1段階では、サーバは、マスク付きローカル特徴統計クラスタリングを通じてクライアントのクラスカバレッジ分布を推定し、アグリゲーションモデルを選択して収束を加速し、プライバシリークなしに特徴学習を強化する。
第二段階では、DFL-FSはグローバルな特徴統計に基づいてフェデレーションされた特徴再生を採用し、再サンプリングと重み付き共分散を利用してグローバル分類器を校正し、長期データ分布へのモデルの適応性を高める。
CIFAR10-LT と CIFAR100-LT のデータセットの長期化実験を行った。
その結果,本手法は精度と収束率の両方で最先端の手法より優れていた。
Federated learning is designed to enhance data security and privacy, but faces challenges when dealing with heterogeneous data in long-tailed and non-IID distributions. This paper explores an overlooked scenario where tail classes are sparsely distributed over a few clients, causing the models trained with these classes to have a lower probability of being selected during client aggregation, leading to slower convergence rates and poorer model performance. To address this issue, we propose a two-stage Decoupled Federated learning framework using Feature Statistics (DFL-FS). In the first stage, the server estimates the client's class coverage distributions through masked local feature statistics clustering to select models for aggregation to accelerate convergence and enhance feature learning without privacy leakage. In the second stage, DFL-FS employs federated feature regeneration based on global feature statistics and utilizes resampling and weighted covariance to calibrate the global classifier to enhance the model's adaptability to long-tailed data distributions. We conducted experiments on CIFAR10-LT and CIFAR100-LT datasets with various long-tailed rates. The results demonstrate that our method outperforms state-of-the-art methods in both accuracy and convergence rate. | 翻訳日:2024-03-14 15:16:21 公開日:2024-03-13 |
# ShareYourReality:仮想空間におけるハプティックフィードバックとエージェンシーの調査
Avatar Co‐Embodiment
ShareYourReality: Investigating Haptic Feedback and Agency in Virtual Avatar Co-embodiment ( http://arxiv.org/abs/2403.08363v1 ) ライセンス: Link先を確認 | Karthikeya Puttur Venkatraj, Wo Meijer, Monica Perusqu\'ia-Hern\'andez, Gijs Huisman and Abdallah El Ali | (参考訳) 仮想共生(Virtual co-embodiment)は、2人のユーザが1つのアバターをVR(Virtual Reality)で共有することを可能にする。
このような経験において、共有動作制御の錯覚は、協調行動中に破壊され、位置認識フィードバック機構の必要性が強調される。
知覚的交差パラダイムを基礎として,触覚が共身体的参加者間の非言語的協調をいかに実現できるかを考察する。
被験者20名を対象に,VR到達タスク(ターゲット,フリーチョイス)における視覚的触覚フィードバック(None, Present)とアバター制御分布(25-75%, 50-50%, 75-25%)が,Sense of Agency(SoA),コプレゼンス,ボディオーナシップ,モーションシンクロニーに及ぼす影響について検討した。
発見
(a)自由選択におけるSoAの低下は、それ以下である。
(b)共有対象タスク中の高いSoA。
(c) 自由選択作業では, 共同存在と身体の所有が有意に高かった。
(d) 対象タスクにおいて、より同期されたプレイヤーの手の動き。
アバター共生体験に対する触覚フィードバック機構を含む場合,注意が必要である。
Virtual co-embodiment enables two users to share a single avatar in Virtual Reality (VR). During such experiences, the illusion of shared motion control can break during joint-action activities, highlighting the need for position-aware feedback mechanisms. Drawing on the perceptual crossing paradigm, we explore how haptics can enable non-verbal coordination between co-embodied participants. In a within-subjects study (20 participant pairs), we examined the effects of vibrotactile haptic feedback (None, Present) and avatar control distribution (25-75%, 50-50%, 75-25%) across two VR reaching tasks (Targeted, Free-choice) on participants Sense of Agency (SoA), co-presence, body ownership, and motion synchrony. We found (a) lower SoA in the free-choice with haptics than without, (b) higher SoA during the shared targeted task, (c) co-presence and body ownership were significantly higher in the free-choice task, (d) players hand motions synchronized more in the targeted task. We provide cautionary considerations when including haptic feedback mechanisms for avatar co-embodiment experiences. | 翻訳日:2024-03-14 15:16:20 公開日:2024-03-13 |
# 平均場マイクロカノニカルグラディエント染料
Mean-Field Microcanonical Gradient Descent ( http://arxiv.org/abs/2403.08362v1 ) ライセンス: Link先を確認 | Marcus H\"aggbom, Morten Karlsmark, Joakim and\'en | (参考訳) マイクロカノニカル勾配勾配は高次元分布の効率的なサンプリングを可能にするエネルギーベースモデルのサンプリング手順である。
サンプルをガウスホワイトノイズなどの高エントロピー分布から勾配降下を用いた低エネルギー領域へ輸送する。
このモデルをフローの正規化の枠組みに置き、不必要なエントロピーの量を減らして過度に適合することを示す。
そこで本研究では,いくつかの弱い結合データ点を同時にサンプリングする平均場マイクロカノニカル勾配降下法を提案する。
我々はこれらのモデルを金融時系列の文脈で研究し、合成データと実データの両方の改善について考察した。
Microcanonical gradient descent is a sampling procedure for energy-based models allowing for efficient sampling of distributions in high dimension. It works by transporting samples from a high-entropy distribution, such as Gaussian white noise, to a low-energy region using gradient descent. We put this model in the framework of normalizing flows, showing how it can often overfit by losing an unnecessary amount of entropy in the descent. As a remedy, we propose a mean-field microcanonical gradient descent that samples several weakly coupled data points simultaneously, allowing for better control of the entropy loss while paying little in terms of likelihood fit. We study these models in the context of financial time series, illustrating the improvements on both synthetic and real data. | 翻訳日:2024-03-14 15:16:20 公開日:2024-03-13 |
# 水中環境に対する画像ベースポッド回帰モデルの改良
Improved Image-based Pose Regressor Models for Underwater Environments ( http://arxiv.org/abs/2403.08360v1 ) ライセンス: Link先を確認 | Luyuan Peng, Hari Vishnu, Mandar Chitre, Yuen Min Too, Bharath Kalyan and Rajat Mishra | (参考訳) 本研究では,水中環境における画像に基づくポーズ回帰モデルの性能について検討した。
PoseNetとPoseLSTMを活用することで、単一のRGBイメージから6自由度ポーズを高精度で取り除きます。
さらに,ステレオカメラ画像によるデータ拡張について検討し,モデル精度の向上を図る。
実験結果から, 模擬海域と清浄海域の双方で精度が向上し, 実環境における航法および検査の有効な応用が期待できることがわかった。
We investigate the performance of image-based pose regressor models in underwater environments for relocalization. Leveraging PoseNet and PoseLSTM, we regress a 6-degree-of-freedom pose from single RGB images with high accuracy. Additionally, we explore data augmentation with stereo camera images to improve model accuracy. Experimental results demonstrate that the models achieve high accuracy in both simulated and clear waters, promising effective real-world underwater navigation and inspection applications. | 翻訳日:2024-03-14 15:16:19 公開日:2024-03-13 |
# 欠陥進化解析のためのログ要約
Log Summarisation for Defect Evolution Analysis ( http://arxiv.org/abs/2403.08358v1 ) ライセンス: Link先を確認 | Rares Dolga, Ran Zmigrod, Rui Silva, Salwa Alamir, Sameena Shah | (参考訳) ログ分析とモニタリングは、ソフトウェアのメンテナンスと欠陥の特定に不可欠である。
特に、ログデータの時間的性質と巨大なサイズは、興味深い、重要な研究課題につながります。
これはソフトウェアエンジニアリングコミュニティにおける基本的な研究のトピックであるが、概してヒューリスティック、構文、静的な手法に焦点を当てている。
本研究では,ログクラスタを動的に更新し,コードエラーライフサイクルの監視を可能にする,オンラインのセマンティックベースのエラーログクラスタリング手法を提案する。
また、時間ログクラスタの性能を評価するための新しい指標も導入する。
システムと評価基準を産業データセットで検証し、ソリューションが類似のシステムより優れていることを確認する。
私たちの研究が欠陥データセットの時間的探索を促進することを願っています。
Log analysis and monitoring are essential aspects in software maintenance and identifying defects. In particular, the temporal nature and vast size of log data leads to an interesting and important research question: How can logs be summarised and monitored over time? While this has been a fundamental topic of research in the software engineering community, work has typically focused on heuristic-, syntax-, or static-based methods. In this work, we suggest an online semantic-based clustering approach to error logs that dynamically updates the log clusters to enable monitoring code error life-cycles. We also introduce a novel metric to evaluate the performance of temporal log clusters. We test our system and evaluation metric with an industrial dataset and find that our solution outperforms similar systems. We hope that our work encourages further temporal exploration in defect datasets. | 翻訳日:2024-03-14 15:16:19 公開日:2024-03-13 |
# NaturalVLM: きめ細かい自然言語を活用する
Affordance-Guided Visual Manipulation
NaturalVLM: Leveraging Fine-grained Natural Language for Affordance-Guided Visual Manipulation ( http://arxiv.org/abs/2403.08355v1 ) ライセンス: Link先を確認 | Ran Xu, Yan Shen, Xiaoqi Li, Ruihai Wu, Hao Dong | (参考訳) 人間の言語命令に基づいて多様な3Dオブジェクトを知覚し、操作するために、ホームアシストロボットを導入することは、重要な課題である。
以前の研究では、主に単純化とタスク指向の指示、すなわち「トップドローダを開放する」ことに焦点が当てられていた。
しかし、現実のタスクの多くは複雑な多段階推論を必要としており、人間の指示がなければロボット操作は非常に困難になる。
これらの課題に対処するため、我々は15の異なる操作タスクを含む総合的なベンチマークであるNrVLMを導入し、細粒度言語命令で正確に注釈付けされた4500回以上のエピソードを含む。
我々は、長期タスクプロセスをいくつかのステップに分割し、各ステップが自然言語の命令を持つようにした。
さらに,操作タスクを細かな指示に従ってステップバイステップで完了する新しい学習フレームワークを提案する。
具体的には、まず、視覚的観察とエンドエフェクタの現在の状態を考慮した実行指示を特定する。
提案手法は,動作プロンプトと知覚プロンプトによる明示的な学習を促進し,操作を意識した相互モダリティアライメントを促進する。
視覚的観察と言語指導の両方を活用することで、我々のモデルは、接触点やエンドエフェクタのポーズを含む、操作のための実行可能な一連の予測を出力する。
提案するベンチマークNrVLMを用いて,提案手法とベースラインの評価を行った。
実験の結果,本手法の有効性が示された。
詳細はhttps://sites.google.com/view/naturalvlmを参照してください。
Enabling home-assistant robots to perceive and manipulate a diverse range of 3D objects based on human language instructions is a pivotal challenge. Prior research has predominantly focused on simplistic and task-oriented instructions, i.e., "Slide the top drawer open". However, many real-world tasks demand intricate multi-step reasoning, and without human instructions, these will become extremely difficult for robot manipulation. To address these challenges, we introduce a comprehensive benchmark, NrVLM, comprising 15 distinct manipulation tasks, containing over 4500 episodes meticulously annotated with fine-grained language instructions. We split the long-term task process into several steps, with each step having a natural language instruction. Moreover, we propose a novel learning framework that completes the manipulation task step-by-step according to the fine-grained instructions. Specifically, we first identify the instruction to execute, taking into account visual observations and the end-effector's current state. Subsequently, our approach facilitates explicit learning through action-prompts and perception-prompts to promote manipulation-aware cross-modality alignment. Leveraging both visual observations and linguistic guidance, our model outputs a sequence of actionable predictions for manipulation, including contact points and end-effector poses. We evaluate our method and baselines using the proposed benchmark NrVLM. The experimental results demonstrate the effectiveness of our approach. For additional details, please refer to https://sites.google.com/view/naturalvlm. | 翻訳日:2024-03-14 15:16:18 公開日:2024-03-13 |
# 物質波用連続ビーム単色器
A continuous beam monochromator for matter waves ( http://arxiv.org/abs/2403.08353v1 ) ライセンス: Link先を確認 | Johannes Fiedler and Bodil Holst | (参考訳) 原子と近年の分子干渉計は、基本的な研究と工業的追求の両方に応用されている。
原子干渉計の構築における一般的な方法論は、レーザービームから作製した格子の利用である。
このアプローチは計算可能な精度を付与するが、波長が極端に短いことや、複雑なレーザーシステムに依存して動作を阻害する。
全ての応用は物質波、特に粒子の速度の制御を必要とする。
本稿では,原子-表面回折に基づいて,速度比10^3$の超高速精製を実現する連続ビームモノクロマター方式を提案する。
これらの高純度化の他に、提案手法は、自由度を1つの角度に減らし、所望の粒子の速度を選択することにより、適用を単純化する。
Atom and, of late, molecule interferometers find application in both the crucible of fundamental research and industrial pursuits. A prevalent methodology in the construction of atom interferometers involves the utilisation of gratings fashioned from laser beams. While this approach imparts commendable precision, it is hampered by its incapacity to attain exceedingly short wavelengths and its dependence on intricate laser systems for operational efficacy. All applications require the control of matter waves, particularly the particle's velocity. In this manuscript, we propose a continuous beam monochromator scheme reaching enormously high velocity purification with speed ratios in the order of $10^3$ based on atom-surface diffraction. Beyond these high purifications, the proposed scheme simplifies the application by reducing the degree of freedom to a single angle, selecting the wanted particle's velocity. | 翻訳日:2024-03-14 15:16:18 公開日:2024-03-13 |
# 自動機械学習によるデータ拡張 - アプローチと方法
古典的データ拡張手法による性能比較
Data augmentation with automated machine learning: approaches and performance comparison with classical data augmentation methods ( http://arxiv.org/abs/2403.08352v1 ) ライセンス: Link先を確認 | Alhassan Mumuni and Fuseini Mumuni | (参考訳) データ拡張は、機械学習モデルの一般化性能を改善するために一般的に使用される最も重要な正規化技術であることは間違いない。
主に、望ましいプロパティを持つ新しいデータサンプルを作成するために、適切なデータ変換操作を適用する。
有効性にもかかわらず、このプロセスは、異なる候補拡張とそれらのハイパーパラメータを手動で作成し、テストするための時間を要する試行錯誤手順のため、しばしば困難である。
自動データ拡張手法はプロセスの自動化を目的としている。
最先端のアプローチは一般的に、自動機械学習(AutoML)の原則に依存します。
本稿では,AutoMLに基づくデータ拡張技術に関する総合的な調査を紹介する。
本稿では、データ操作、データ統合、データ合成技術など、AutoMLでデータ拡張を実現するための様々なアプローチについて論じる。
本稿では、探索空間設計、ハイパーパラメータ最適化、モデル評価など、データ拡張プロセスの各主要なサブタスクを実現するための手法について広範な議論を行う。
最後に,従来の拡張手法に基づく自動データ拡張手法と最先端手法の性能の比較と解析を行った。
その結果,データ拡張のためのAutoML手法は,従来の手法による最先端技術よりも優れていることがわかった。
Data augmentation is arguably the most important regularization technique commonly used to improve generalization performance of machine learning models. It primarily involves the application of appropriate data transformation operations to create new data samples with desired properties. Despite its effectiveness, the process is often challenging because of the time-consuming trial and error procedures for creating and testing different candidate augmentations and their hyperparameters manually. Automated data augmentation methods aim to automate the process. State-of-the-art approaches typically rely on automated machine learning (AutoML) principles. This work presents a comprehensive survey of AutoML-based data augmentation techniques. We discuss various approaches for accomplishing data augmentation with AutoML, including data manipulation, data integration and data synthesis techniques. We present extensive discussion of techniques for realizing each of the major subtasks of the data augmentation process: search space design, hyperparameter optimization and model evaluation. Finally, we carried out an extensive comparison and analysis of the performance of automated data augmentation techniques and state-of-the-art methods based on classical augmentation approaches. The results show that AutoML methods for data augmentation currently outperform state-of-the-art techniques based on conventional approaches. | 翻訳日:2024-03-14 15:16:17 公開日:2024-03-13 |
# CoIN: マルチモデル大規模化のための継続的指導指導のベンチマーク
言語モデル
CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model ( http://arxiv.org/abs/2403.08350v1 ) ライセンス: Link先を確認 | Cheng Chen and Junchen Zhu and Xu Luo and Hengtao Shen and Lianli Gao and Jingkuan Song | (参考訳) インストラクションチューニングは,MLLM(Multimodal Large Language Models)がヒトの指示に適応し,新しいタスクに適応するための一般的な戦略である。
それでもMLLMは、ユーザの進化する知識と要求に適応するという課題に直面している。
そのため,新たな知識を身につけながら,既存のスキルをいかに維持するかを検討する必要がある。
本稿では、逐次的命令チューニングパラダイムにおける既存のMLLMを評価するための総合的なベンチマーク、Continuous Instruction tuNing(CoIN)を提案する。
CoINは8つのタスクカテゴリにまたがる10の一般的なデータセットで構成され、多様な命令とタスクを保証する。
さらに、訓練されたモデルは2つの側面から評価される: 指示追従と一般知識は、それぞれ推論のために保存された人間の意図と知識との整合性を評価する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被り、意図的な調整の失敗が、知識を忘れるのではなく、主要な責任を負うことを示した。
この目的のために,従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
実験結果は、CoIN上のこの方法から減少する忘れを一貫して示している。
Instruction tuning represents a prevalent strategy employed by Multimodal Large Language Models (MLLMs) to align with human instructions and adapt to new tasks. Nevertheless, MLLMs encounter the challenge of adapting to users' evolving knowledge and demands. Therefore, how to retain existing skills while acquiring new knowledge needs to be investigated. In this paper, we present a comprehensive benchmark, namely Continual Instruction tuNing (CoIN), to assess existing MLLMs in the sequential instruction tuning paradigm. CoIN comprises 10 commonly used datasets spanning 8 task categories, ensuring a diverse range of instructions and tasks. Besides, the trained model is evaluated from two aspects: Instruction Following and General Knowledge, which assess the alignment with human intention and knowledge preserved for reasoning, respectively. Experiments on CoIN demonstrate that current powerful MLLMs still suffer catastrophic forgetting, and the failure in intention alignment assumes the main responsibility, instead of the knowledge forgetting. To this end, we introduce MoELoRA to MLLMs which is effective to retain the previous instruction alignment. Experimental results consistently illustrate the forgetting decreased from this method on CoIN. | 翻訳日:2024-03-14 15:16:17 公開日:2024-03-13 |
# 人間の専門家から機械へ:LLMによるオントロジーへのアプローチ
知識グラフの構築は
From human experts to machines: An LLM supported approach to ontology and knowledge graph construction ( http://arxiv.org/abs/2403.08345v1 ) ライセンス: Link先を確認 | Vamsi Krishna Kommineni and Birgitta K\"onig-Ries and Sheeba Samuel | (参考訳) 従来のオントロジと知識グラフ(KG)の構築プロセスは、エンティティとリレーションタイプを定義し、階層を確立し、ドメインへの関連性を維持し、ABoxを埋めたり、データ品質(他の正確性や完全性を含む)を確保するために、人間ドメインの専門家に大きく依存しています。
一方、LLM(Large Language Models)は、人間のような自然言語を理解し、生成する能力で最近人気を集めており、このプロセスの側面を自動化するための有望な方法を提供する。
本研究は,オープンソースLLMによって促進されるKGの半自動構築について考察する。
我々のパイプラインは、能力質問(CQ)の定式化、これらのCQに基づくオントロジー(TBox)の開発、開発したオントロジーを用いたKGの構築、そして、結果のKGを、人間の専門家の関与を最小限からゼロに評価することを含む。
学術出版物を活用した深層学習手法のKGを作成することで,半自動パイプラインの実現可能性を示す。
LLMを用いて自動的に抽出されるKG概念だけでなく、検索-拡張-生成(RAG)を介して生成された回答を評価するために、地上の真実に基づいて生成されたコンテンツを評価する判断LSMを設計する。
以上の結果から,自動生成KGの評価には人為的アプローチが推奨されるが,LLMを用いた場合,KGs構築に関わる人的労力を削減できる可能性が示唆された。
The conventional process of building Ontologies and Knowledge Graphs (KGs) heavily relies on human domain experts to define entities and relationship types, establish hierarchies, maintain relevance to the domain, fill the ABox (or populate with instances), and ensure data quality (including amongst others accuracy and completeness). On the other hand, Large Language Models (LLMs) have recently gained popularity for their ability to understand and generate human-like natural language, offering promising ways to automate aspects of this process. This work explores the (semi-)automatic construction of KGs facilitated by open-source LLMs. Our pipeline involves formulating competency questions (CQs), developing an ontology (TBox) based on these CQs, constructing KGs using the developed ontology, and evaluating the resultant KG with minimal to no involvement of human experts. We showcase the feasibility of our semi-automated pipeline by creating a KG on deep learning methodologies by exploiting scholarly publications. To evaluate the answers generated via Retrieval-Augmented-Generation (RAG) as well as the KG concepts automatically extracted using LLMs, we design a judge LLM, which rates the generated content based on ground truth. Our findings suggest that employing LLMs could potentially reduce the human effort involved in the construction of KGs, although a human-in-the-loop approach is recommended to evaluate automatically generated KGs. | 翻訳日:2024-03-14 15:16:16 公開日:2024-03-13 |
# STMPL:人間のソフトタスクシミュレーション
STMPL: Human Soft-Tissue Simulation ( http://arxiv.org/abs/2403.08344v1 ) ライセンス: Link先を確認 | Anton Agafonov and Lihi Zelnik-Manor | (参考訳) 仮想現実やゲームなどの様々な応用において、外的物体との相互作用における人体の軟組織の変形をシミュレートすることが不可欠である。
伝統的に、有限要素法(FEM)は、この目的のために使われてきたが、それらは遅く、リソース集約的である傾向にある。
本稿では,データ駆動型非剛性変形シミュレータを用いて,人体形状と軟組織を統一的に表現する手法を提案する。
このアプローチは現実的な相互作用の迅速なシミュレーションを可能にする。
本手法は,剛性変換を考慮した人体形状を生成するSMPLモデルに基づく。
軟組織層を組み込むことによりSMPLを拡張し,物体間相互作用において体に作用する外部力の直感的な表現を行う。
具体的には,3次元体の形状と軟部組織をマッピングし,2次元紫外線マップに外部力を適用した。
2次元データ用に設計されたUNETアーキテクチャを活用することで,高精度な推論をリアルタイムに実現する。
実験の結果,本手法は軟組織層の可塑性変形を未確認シナリオにおいても達成できることが判明した。
In various applications, such as virtual reality and gaming, simulating the deformation of soft tissues in the human body during interactions with external objects is essential. Traditionally, Finite Element Methods (FEM) have been employed for this purpose, but they tend to be slow and resource-intensive. In this paper, we propose a unified representation of human body shape and soft tissue with a data-driven simulator of non-rigid deformations. This approach enables rapid simulation of realistic interactions. Our method builds upon the SMPL model, which generates human body shapes considering rigid transformations. We extend SMPL by incorporating a soft tissue layer and an intuitive representation of external forces applied to the body during object interactions. Specifically, we mapped the 3D body shape and soft tissue and applied external forces to 2D UV maps. Leveraging a UNET architecture designed for 2D data, our approach achieves high-accuracy inference in real time. Our experiment shows that our method achieves plausible deformation of the soft tissue layer, even for unseen scenarios. | 翻訳日:2024-03-14 15:16:16 公開日:2024-03-13 |
# LLM-Assisted Light: 大規模言語モデル機能を活用する
複雑な都市環境における人体交通信号制御
LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments ( http://arxiv.org/abs/2403.08337v1 ) ライセンス: Link先を確認 | Maonan Wang, Aoyu Pang, Yuheng Kan, Man-On Pun, Chung Shue Chen, Bo Huang | (参考訳) 大都市圏の交通渋滞は、経済、環境、社会の混乱に苦慮している。
したがって、交通信号制御(TSC)システムがこの取り組みにおいて重要な役割を担っているため、効果的な渋滞管理が不可欠である。
ルールベースのアルゴリズムや強化学習(RL)に基づいて設計された従来のTSCシステムでは,不慣れなシナリオへの適応能力の制限により,都市交通流の複雑度や変動性を管理する上での欠陥がしばしば現れている。
これらの制限に応えて、この研究は大規模言語モデル(LLM)をTSCに統合する革新的なアプローチを導入し、彼らの高度な推論と意思決定能力を活用する。
具体的には、LLMを知覚と意思決定ツールのスイートで強化するハイブリッドフレームワークを提案し、静的および動的トラフィック情報の問合せを容易にする。
この設計では、LCMを意思決定プロセスの中心に配置し、外部トラフィックデータと確立されたTSC手法を組み合わせる。
さらに,提案フレームワークの有効性を裏付けるシミュレーションプラットフォームを開発した。
シミュレーションの結果から,追加のトレーニングを必要とせず,交通環境の多種性に適応するシステムの有効性が確認された。
特に、センサー障害(SO)の場合、我々のアプローチは従来のRLベースのシステムを超え、平均待ち時間を20.4 %$に減らした。
この研究は、TLC戦略の顕著な進歩を示し、LLMを現実の動的シナリオに統合する方法を舗装し、交通管理に革命をもたらす可能性を強調している。
関連コードは \href{https://github.com/Traffic-Alpha/LLM-Assisted-Light}{https://github.com/Traffic-Alpha/LLM-Assisted-Light} で公開されている。
Traffic congestion in metropolitan areas presents a formidable challenge with far-reaching economic, environmental, and societal ramifications. Therefore, effective congestion management is imperative, with traffic signal control (TSC) systems being pivotal in this endeavor. Conventional TSC systems, designed upon rule-based algorithms or reinforcement learning (RL), frequently exhibit deficiencies in managing the complexities and variabilities of urban traffic flows, constrained by their limited capacity for adaptation to unfamiliar scenarios. In response to these limitations, this work introduces an innovative approach that integrates Large Language Models (LLMs) into TSC, harnessing their advanced reasoning and decision-making faculties. Specifically, a hybrid framework that augments LLMs with a suite of perception and decision-making tools is proposed, facilitating the interrogation of both the static and dynamic traffic information. This design places the LLM at the center of the decision-making process, combining external traffic data with established TSC methods. Moreover, a simulation platform is developed to corroborate the efficacy of the proposed framework. The findings from our simulations attest to the system's adeptness in adjusting to a multiplicity of traffic environments without the need for additional training. Notably, in cases of Sensor Outage (SO), our approach surpasses conventional RL-based systems by reducing the average waiting time by $20.4\%$. This research signifies a notable advance in TSC strategies and paves the way for the integration of LLMs into real-world, dynamic scenarios, highlighting their potential to revolutionize traffic management. The related code is available at \href{https://github.com/Traffic-Alpha/LLM-Assisted-Light}{https://github.com/Traffic-Alpha/LLM-Assisted-Light}. | 翻訳日:2024-03-14 15:16:15 公開日:2024-03-13 |
# 部分観測可能な因果表現のための空間原理
学び
A Sparsity Principle for Partially Observable Causal Representation Learning ( http://arxiv.org/abs/2403.08335v1 ) ライセンス: Link先を確認 | Danru Xu, Dingling Yao, S\'ebastien Lachapelle, Perouz Taslakian, Julius von K\"ugelgen, Francesco Locatello, Sara Magliacane | (参考訳) 因果表現学習は、知覚データから高レベルの因果変数を特定することを目的としている。
ほとんどの手法は、すべての潜伏因果変数が高次元の観測で捉えられると仮定する。
代わりに、各測定値が根底にある因果状態のサブセットに関する情報のみを提供する部分的な設定を考える。
以前の研究では、複数のドメインやビューでこの設定を研究しており、それぞれがラテントの固定されたサブセットに依存している。
ここでは、インスタンスに依存した部分的可観測パターンを持つデータセットから、未確認の観測から学ぶことに焦点を当てる。
本研究の主な貢献は, 基礎となる因果モデルにパラメトリックな仮定を伴わない線形混合関数と, ガウス潜在因果変数を持つ片方向線形混合関数の2つの相同性を求めることである。
これらの知見に基づいて、推定された表現の空間性を強制することにより、基礎となる因果変数を推定する2つの方法を提案する。
異なるシミュレーションデータセットと確立されたベンチマークの実験は、地道潜伏者の回復における我々のアプローチの有効性を強調している。
Causal representation learning aims at identifying high-level causal variables from perceptual data. Most methods assume that all latent causal variables are captured in the high-dimensional observations. We instead consider a partially observed setting, in which each measurement only provides information about a subset of the underlying causal state. Prior work has studied this setting with multiple domains or views, each depending on a fixed subset of latents. Here, we focus on learning from unpaired observations from a dataset with an instance-dependent partial observability pattern. Our main contribution is to establish two identifiability results for this setting: one for linear mixing functions without parametric assumptions on the underlying causal model, and one for piecewise linear mixing functions with Gaussian latent causal variables. Based on these insights, we propose two methods for estimating the underlying causal variables by enforcing sparsity in the inferred representation. Experiments on different simulated datasets and established benchmarks highlight the effectiveness of our approach in recovering the ground-truth latents. | 翻訳日:2024-03-14 15:16:14 公開日:2024-03-13 |
# 除去に基づくノード影響の高速推定
Fast Inference of Removal-Based Node Influence ( http://arxiv.org/abs/2403.08333v1 ) ライセンス: Link先を確認 | Weikai Li, Zhiping Xiao, Xiao Luo, Yizhou Sun | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ内の情報拡散パターンをキャプチャするために広く利用されている。
優れたパフォーマンスが達成されているが、ノードの影響を評価する新たなトレンドトピックが存在する。
本稿では,ノードの除去による学習GNNモデルの予測変化を計測するノードの影響評価手法を提案する。
現実のアプリケーションは、"Twitterアカウントの極性を予測するタスクにおいて、特定のアカウントが削除された場合、他のアカウントの極性をどのように変更するか"である。
我々は,ノード除去に伴うノードやエッジの変化をシミュレート可能な代理モデルとして,GNNを使用している。
各ノードへの影響を得るためには、すべてのノードを交互に削除し、トレーニングされたGNNを修正グラフに適用する簡単な方法がある。
信頼性はあるが時間を要するので、効率的な方法が必要です。
グラフ敵攻撃や反実的説明のような関連する作業行は、各ノードのグローバルな影響スコアに焦点を絞らないため、我々のニーズを直接満たすことはできない。
本稿では,ノード除去の影響を近似するために勾配を用いたNOde-Removal-based fAst GNN推論(NORA)を提案する。
すべてのノードに対する影響スコアを近似するために、1つの前進伝播と1つのバックプロパゲーションしかかからない。
6つのデータセットと6つのGNNモデルに対する大規模な実験により、NORAの有効性が検証された。
私たちのコードはhttps://github.com/weikai-li/NORA.git.comで公開されています。
Graph neural networks (GNNs) are widely utilized to capture the information spreading patterns in graphs. While remarkable performance has been achieved, there is a new trending topic of evaluating node influence. We propose a new method of evaluating node influence, which measures the prediction change of a trained GNN model caused by removing a node. A real-world application is, "In the task of predicting Twitter accounts' polarity, had a particular account been removed, how would others' polarity change?". We use the GNN as a surrogate model whose prediction could simulate the change of nodes or edges caused by node removal. To obtain the influence for every node, a straightforward way is to alternately remove every node and apply the trained GNN on the modified graph. It is reliable but time-consuming, so we need an efficient method. The related lines of work, such as graph adversarial attack and counterfactual explanation, cannot directly satisfy our needs, since they do not focus on the global influence score for every node. We propose an efficient and intuitive method, NOde-Removal-based fAst GNN inference (NORA), which uses the gradient to approximate the node-removal influence. It only costs one forward propagation and one backpropagation to approximate the influence score for all nodes. Extensive experiments on six datasets and six GNN models verify the effectiveness of NORA. Our code is available at https://github.com/weikai-li/NORA.git. | 翻訳日:2024-03-14 15:16:14 公開日:2024-03-13 |
# マルチトレートエッセイスコーリングのための自己回帰スコア生成
Autoregressive Score Generation for Multi-trait Essay Scoring ( http://arxiv.org/abs/2403.08332v1 ) ライセンス: Link先を確認 | Heejin Do, Yunsu Kim, Gary Geunbae Lee | (参考訳) 近年、BERTのようなエンコーダのみの事前学習モデルが自動エッセイスコア(AES)において、単一の総合スコアの予測に成功している。
しかしながら、これらのモデルをマルチトレイAESで探索する研究はまだ行われていないが、それはおそらく、各特性に対してBERTベースのモデルを複製する非効率性のためである。
本稿では,既存のエンコーダの唯一の使用から切り離して,事前学習したT5を利用して,復号処理を取り入れたマルチトレートスコアの自動回帰予測を提案する。
先行回帰法や分類法とは異なり、AESをスコア生成タスクとして再定義し、単一のモデルで複数のスコアを予測する。
復号化中は、後続の特性予測は、前回の特性スコアを条件付けすることで恩恵を受けることができる。
実験の結果、ArTSの有効性が証明され、プロンプトと形質の両方で平均5%以上の改善が見られた。
Recently, encoder-only pre-trained models such as BERT have been successfully applied in automated essay scoring (AES) to predict a single overall score. However, studies have yet to explore these models in multi-trait AES, possibly due to the inefficiency of replicating BERT-based models for each trait. Breaking away from the existing sole use of encoder, we propose an autoregressive prediction of multi-trait scores (ArTS), incorporating a decoding process by leveraging the pre-trained T5. Unlike prior regression or classification methods, we redefine AES as a score-generation task, allowing a single model to predict multiple scores. During decoding, the subsequent trait prediction can benefit by conditioning on the preceding trait scores. Experimental results proved the efficacy of ArTS, showing over 5% average improvements in both prompts and traits. | 翻訳日:2024-03-14 15:16:13 公開日:2024-03-13 |
# 探索領域を低次元に制限するベイズ最適化
ローカルGPRの利用
Bayesian Optimization that Limits Search Region to Lower Dimensions Utilizing Local GPR ( http://arxiv.org/abs/2403.08331v1 ) ライセンス: Link先を確認 | Yasunori Taguchi and Hiro Gangi | (参考訳) 製品およびシステム特性の最適化は、設計や制御を含む多くの分野において必要である。
ベイズ最適化(BO)は、理論上は後悔の上限を保証しているため、観測コストが高いときにしばしば用いられる。
しかし、最適化すべきパラメータの数によって計算コストが指数関数的に増加し、探索効率が低下する。
本稿では,探索領域を低次元に制限し,局所ガウス過程回帰(LGPR)を用いてBOを高次元に拡張するBOを提案する。
LGPRは低次元の探索領域を「局所的」として扱い、予測精度を向上させる。
LGPRモデルは、その領域固有のデータのローカルサブセットに基づいてトレーニングされる。
これにより予測精度と探索効率が向上し、ガウス過程回帰における行列逆転の時間的複雑さが低減される。
20D Ackley と Rosenbrock 関数を用いた評価では, 探索効率は比較手法と同等かそれ以上であり, LGPR のない場合に比べて約69%, 40%向上した。
本手法をパワー半導体デバイスのための自動設計タスクに適用する。
従来法よりも25%,LGPRを使わずに3.4%の比抵抗化を実現した。
Optimization of product and system characteristics is required in many fields, including design and control. Bayesian optimization (BO) is often used when there are high observing costs, because BO theoretically guarantees an upper bound on regret. However, computational costs increase exponentially with the number of parameters to be optimized, decreasing search efficiency. We propose a BO that limits the search region to lower dimensions and utilizes local Gaussian process regression (LGPR) to scale the BO to higher dimensions. LGPR treats the low-dimensional search region as "local," improving prediction accuracies there. The LGPR model is trained on a local subset of data specific to that region. This improves prediction accuracy and search efficiency and reduces the time complexity of matrix inversion in the Gaussian process regression. In evaluations with 20D Ackley and Rosenbrock functions, search efficiencies are equal to or higher than those of the compared methods, improved by about 69% and 40% from the case without LGPR. We apply our method to an automatic design task for a power semiconductor device. We successfully reduce the specific on-resistance to 25% better than a conventional method and 3.4% better than without LGPR. | 翻訳日:2024-03-14 15:16:13 公開日:2024-03-13 |
# 画像超解像における広い領域の活性化
Activating Wider Areas in Image Super-Resolution ( http://arxiv.org/abs/2403.08330v1 ) ライセンス: Link先を確認 | Cheng Cheng, Hang Wang, Hongbin Sun | (参考訳) 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の流行は、シングルイメージ超解像(SISR)の領域を大きく革命させた。
SR性能をさらに向上させるために、残差学習やアテンション機構などのいくつかの技術を導入し、SR結果に強く影響を与える入力画素である、より広い範囲の活性化領域に大きく寄与する。
しかし、他の汎用視覚バックボーンによるSR性能をさらに改善する可能性は未解決の課題である。
この問題に対処するため、本稿では、現代の状態空間モデル、すなわちビジョン・マンバ(Vim)の表現ポテンシャルをSISRの文脈で解き放つ。
具体的には、Vimベースのモデルをよりよく活用するためのレシピを3つ提示する。
1) MetaFormerスタイルブロックへの統合
2) 大規模で広範なデータセットの事前学習
3)MMAを取り入れた補完的注意機構を取り入れた。
得られたネットワークMMAは、対応する高解像度画像を再構成する最も関連性の高い、代表的な入力画素を見つけることができる。
総合的な実験分析により、MMAは最先端のSISR法と比較して競争力や優れた性能を達成するだけでなく、比較的低いメモリと計算オーバーヘッド(例: +0.5 dB PSNRのManga109データセットにおける19.8Mパラメータの上昇)も維持していることが明らかとなった。
さらに、MMAは軽量SRアプリケーションにおいてその汎用性を証明している。
本研究は、SISRよりも広い領域の画像処理において、状態空間モデルの潜在的な応用を照明することを目的としており、この革新的な方向のさらなる探索を奨励している。
The prevalence of convolution neural networks (CNNs) and vision transformers (ViTs) has markedly revolutionized the area of single-image super-resolution (SISR). To further boost the SR performances, several techniques, such as residual learning and attention mechanism, are introduced, which can be largely attributed to a wider range of activated area, that is, the input pixels that strongly influence the SR results. However, the possibility of further improving SR performance through another versatile vision backbone remains an unresolved challenge. To address this issue, in this paper, we unleash the representation potential of the modern state space model, i.e., Vision Mamba (Vim), in the context of SISR. Specifically, we present three recipes for better utilization of Vim-based models: 1) Integration into a MetaFormer-style block; 2) Pre-training on a larger and broader dataset; 3) Employing complementary attention mechanism, upon which we introduce the MMA. The resulting network MMA is capable of finding the most relevant and representative input pixels to reconstruct the corresponding high-resolution images. Comprehensive experimental analysis reveals that MMA not only achieves competitive or even superior performance compared to state-of-the-art SISR methods but also maintains relatively low memory and computational overheads (e.g., +0.5 dB PSNR elevation on Manga109 dataset with 19.8 M parameters at the scale of 2). Furthermore, MMA proves its versatility in lightweight SR applications. Through this work, we aim to illuminate the potential applications of state space models in the broader realm of image processing rather than SISR, encouraging further exploration in this innovative direction. | 翻訳日:2024-03-14 15:16:12 公開日:2024-03-13 |
# ManiGaussian:マルチタスクロボットのための動的ガウススプレイティング
マニピュレーション
ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation ( http://arxiv.org/abs/2403.08321v1 ) ライセンス: Link先を確認 | Guanxing Lu, Shiyi Zhang, Ziwei Wang, Changliu Liu, Jiwen Lu, Yansong Tang | (参考訳) 言語条件付きロボット操作タスクを非構造化環境で実行することは、汎用知能ロボットには非常に要求される。
従来のロボット操作法は、通常、人間の目標達成のためのシーンレベルの時空間力学を無視したアクション予測のための観察の意味表現を学習する。
本稿では,マルチタスクロボット操作のための動的ガウススティング手法であるManiGaussianを提案する。
具体的には,まず,ガウス埋め込み空間のセマンティックス伝播を推論する動的ガウススティングフレームワークを定式化し,そのセマンティック表現を利用して最適なロボット動作を予測する。
そこで我々は,動的ガウス平滑化フレームワークにおける分布をパラメータ化するためのガウス世界モデルを構築し,将来のシーン再構築を通じて対話環境における情報監督を行う。
166変数のRLBenchタスクに対して,ManiGaussianを評価した結果,平均成功率を13.1倍に向上させることができた。
Performing language-conditioned robotic manipulation tasks in unstructured environments is highly demanded for general intelligent robots. Conventional robotic manipulation methods usually learn semantic representation of the observation for action prediction, which ignores the scene-level spatiotemporal dynamics for human goal completion. In this paper, we propose a dynamic Gaussian Splatting method named ManiGaussian for multi-task robotic manipulation, which mines scene dynamics via future scene reconstruction. Specifically, we first formulate the dynamic Gaussian Splatting framework that infers the semantics propagation in the Gaussian embedding space, where the semantic representation is leveraged to predict the optimal robot action. Then, we build a Gaussian world model to parameterize the distribution in our dynamic Gaussian Splatting framework, which provides informative supervision in the interactive environment via future scene reconstruction. We evaluate our ManiGaussian on 10 RLBench tasks with 166 variations, and the results demonstrate our framework can outperform the state-of-the-art methods by 13.1\% in average success rate. | 翻訳日:2024-03-14 15:16:12 公開日:2024-03-13 |
# 超弱結合を超えた量子マスター方程式のベンチマーク
Benchmarking quantum master equations beyond ultraweak coupling ( http://arxiv.org/abs/2403.08320v1 ) ライセンス: Link先を確認 | Camilo Santiago Tello Breuer and Tobias Becker and Andr\'e Eckardt | (参考訳) 最近、ネイサンとラドナーは、レッドフィールド方程式からゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式を導出した。
この主張は近似のレベルがレッドフィールド方程式のレベルと等しいというものである。
これは、物理状態を保証する量子マスター方程式であり、レッドフィールド方程式がまだ欠落しているのと同じくらい正確であるからである。
ここでは、減衰調和振動子の正確な解に対してネイサン・ラドナー方程式(NRE)をベンチマークし、その性能を時間依存のレッドフィールド方程式(RE)と比較する。
いずれの方程式がより良く動作するかは、考慮された体制に依存する。
NREは回転波近似に類似した結果をもたらすのに対し、短時間のダイナミクスは一般にREによりよりよく捉えられていることが判明した。
定常状態の場合、高温の制限下でもREはより良い性能を示し、その解は超高温の正確な結果に近づいた。
それにもかかわらず、ここでもNR方程式は良い近似を構成する。
低温の極限では、NREは依然として定常状態に良い近似を与えるが、REの解は強結合のときに非物理的になる。
さらに、REと同様、NREもシステムバス結合の消滅の限界において、正しい定常状態に近づいていることを示す。
しかし、REが安定状態のコヒーレンスを正しく提供していることが知られている2次のシステムバス結合では、NREは一般に正しい集団やコヒーレンスを再現しない。
Recently, Nathan and Rudner derived a Gorini-Kossakowski-Sudarshan-Lindblad master equation from the Redfield equation. The claim is that the level of approximation is equal to that of the Redfield equation. This is ground breaking work since a quantum master equation that guarantees physical states and that is as accurate as the Redfield equation is still missing. Here we benchmark the Nathan-Rudner equation (NRE) against the exact solution of a damped harmonic oscillator and compare its performance to that of the time-dependent Redfield equation (RE). We find that which of the equations performs better depends on the regime considered. It turns out that the short-time dynamics is generally much better captured by the RE, whereas the NRE delivers similar results to the rotating-wave approximation. For the steady state, in the high-temperature limit the RE also performs better and its solution approaches the exact result for ultrahigh temperatures. Nevertheless, also here the NR equation constitutes a good approximation. In the low-temperature limit, in turn, the NRE still provides a good approximation to the steady state, while the solution of the RE becomes unphysical for too strong coupling. Moreover, we show that, like the RE, also the NRE approaches the correct steady state in the limit of vanishing system-bath coupling. However, in second-order system-bath coupling, where the RE is known to provide the steady-state coherences correctly but not the populations, the NRE generally neither reproduces the correct populations nor the coherences. | 翻訳日:2024-03-14 15:16:11 公開日:2024-03-13 |
# LLMの知識紛争:調査
Knowledge Conflicts for LLMs: A Survey ( http://arxiv.org/abs/2403.08319v1 ) ライセンス: Link先を確認 | Rongwu Xu, Zehan Qi, Cunxiang Wang, Hongru Wang, Yue Zhang, Wei Xu | (参考訳) この調査は、大規模言語モデル(LLM)における知識の衝突を詳細に分析し、文脈的知識とパラメトリック知識を混ぜ合わせる際に直面する複雑な課題を明らかにする。
私たちの焦点は、コンテキストメモリ、コンテキスト間、メモリ内コンフリクトの3つのカテゴリの知識コンフリクトに焦点を当てています。
これらの対立は、特にノイズや誤報が一般的である現実世界のアプリケーションにおいて、LLMの信頼性と性能に大きな影響を及ぼす可能性がある。
これらの紛争を分類し、原因を探究し、これらの紛争下でのLSMの行動を調べ、利用可能な解決策を見直し、この調査は、LSMの堅牢性を改善するための戦略に光を当てることを目的としており、この発展途上国の研究を進めるための貴重な資源となっている。
This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area. | 翻訳日:2024-03-14 15:16:10 公開日:2024-03-13 |
# DrFER:3次元顔表情における遠交表現の学習
認識
DrFER: Learning Disentangled Representations for 3D Facial Expression Recognition ( http://arxiv.org/abs/2403.08318v1 ) ライセンス: Link先を確認 | Hebeizi Li, Hongyu Yang, Di Huang | (参考訳) 表情認識(FER)は、顔分析の分野において常に焦点となっている。
3D FER や 2D+3D FER の既存の手法の文脈では、表現特徴の抽出はしばしばアイデンティティ情報と絡み合い、これらの特徴の特異性を妥協する。
この課題に対処するために,3D FER の分野に不整合表現学習の概念をもたらす,革新的な DrFER 手法を提案する。
DrFERは、表現情報をID情報から効果的に切り離すために、デュアルブランチフレームワークを使用している。
3次元顔領域における事前のアンタングル化作業から切り離され、損失関数とネットワーク構造の両方を慎重に再構成し、全体的なフレームワークをクラウドデータに適応させる。
この適応は、顔の表情を認識する際の枠組みの能力を高める。
BU-3DFE と Bosphorus のデータセットに対する広範囲な評価は、DrFER が他の3D FER 法よりも優れていることを裏付けている。
Facial Expression Recognition (FER) has consistently been a focal point in the field of facial analysis. In the context of existing methodologies for 3D FER or 2D+3D FER, the extraction of expression features often gets entangled with identity information, compromising the distinctiveness of these features. To tackle this challenge, we introduce the innovative DrFER method, which brings the concept of disentangled representation learning to the field of 3D FER. DrFER employs a dual-branch framework to effectively disentangle expression information from identity information. Diverging from prior disentanglement endeavors in the 3D facial domain, we have carefully reconfigured both the loss functions and network structure to make the overall framework adaptable to point cloud data. This adaptation enhances the capability of the framework in recognizing facial expressions, even in cases involving varying head poses. Extensive evaluations conducted on the BU-3DFE and Bosphorus datasets substantiate that DrFER surpasses the performance of other 3D FER methods. | 翻訳日:2024-03-14 15:16:10 公開日:2024-03-13 |
# コンテキストはチャット翻訳評価に役立つか?
Is Context Helpful for Chat Translation Evaluation? ( http://arxiv.org/abs/2403.08314v1 ) ライセンス: Link先を確認 | Sweta Agrawal, Amin Farajian, Patrick Fernandes, Ricardo Rei, Andr\'e F.T. Martins | (参考訳) 近年、翻訳品質を評価するための自動メトリクスが成功しているが、機械翻訳チャットの品質を評価するための応用は限られている。
ニュースのようなより構造化されたテキストとは異なり、チャットの会話は、しばしば構造化されず、短く、文脈情報に依存している。
このことは、この領域における既存の文レベルのメトリクスの信頼性と、翻訳品質を評価する上でのコンテキストの役割に関する疑問を引き起こす。
そこで我々は,機械翻訳チャットの質を評価するために,主にニュースなどの構造化ドメインを対象として,既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
次に、これらのメトリクスに会話の文脈情報を組み込むことが、それらのパフォーマンスにどのように影響するかを検討する。
この結果から,文脈情報を用いた学習指標の強化は,参照なしシナリオにおける人間の判断と,英語外設定での翻訳評価における相関性を向上させることが示唆された。
最後に,大言語モデル (LLM) とバイリンガルコンテキストを利用する新しい評価指標 Context-MQM を提案し,LLM に基づく評価指標においてもコンテキストの追加が有効であることを検証した。
Despite the recent success of automatic metrics for assessing translation quality, their application in evaluating the quality of machine-translated chats has been limited. Unlike more structured texts like news, chat conversations are often unstructured, short, and heavily reliant on contextual information. This poses questions about the reliability of existing sentence-level metrics in this domain as well as the role of context in assessing the translation quality. Motivated by this, we conduct a meta-evaluation of existing sentence-level automatic metrics, primarily designed for structured domains such as news, to assess the quality of machine-translated chats. We find that reference-free metrics lag behind reference-based ones, especially when evaluating translation quality in out-of-English settings. We then investigate how incorporating conversational contextual information in these metrics affects their performance. Our findings show that augmenting neural learned metrics with contextual information helps improve correlation with human judgments in the reference-free scenario and when evaluating translations in out-of-English settings. Finally, we propose a new evaluation metric, Context-MQM, that utilizes bilingual context with a large language model (LLM) and further validate that adding context helps even for LLM-based evaluation metrics. | 翻訳日:2024-03-14 15:16:09 公開日:2024-03-13 |
# StreamingDialogue:Long Contextによる長期対話学習
最小損失による圧縮
StreamingDialogue: Prolonged Dialogue Learning via Long Context Compression with Minimal Losses ( http://arxiv.org/abs/2403.08312v1 ) ライセンス: Link先を確認 | Jia-Nan Li, Quan Tu, Cunli Mao, Zhengtao Yu, Ji-Rong Wen, Rui Yan | (参考訳) 標準大言語モデル(LLM)は、効率性と一貫性の問題により、長いコンテキストで対話を扱うのに苦労する。
我々の観察によれば、対話コンテキストは高度に構造化されており、対話における‘textit{End-of-Utterance}(EoU)’の特別なトークンは、情報を集約する可能性がある。
我々は、EoUトークンを ``conversational attention sinks'' (conv-attn sinks) と呼ぶ。
このため,長い対話履歴を最小限の損失でconv-attnシンクに圧縮するStreamingDialogueを導入する。
現在のLLMは、例えば、200k以上のウィンドウサイズで、長いコンテキストウインドウを処理できることをすでに示しています。
この目的のために,EoUに発話を圧縮することにより,200k以上の発話を処理できる可能性があり,長大な対話学習がもたらされる。
圧縮後の再構成からの情報損失を最小限に抑えるため, 短期記憶再構成(SMR)と長期記憶再活性化(LMR)の2つの学習戦略を設計した。
本手法は,対話タスクにおいて高いベースラインを達成し,メモリ使用率を18ドルに抑えながら4$\times$の高速化を実現している。
Standard Large Language Models (LLMs) struggle with handling dialogues with long contexts due to efficiency and consistency issues. According to our observation, dialogue contexts are highly structured, and the special token of \textit{End-of-Utterance} (EoU) in dialogues has the potential to aggregate information. We refer to the EoU tokens as ``conversational attention sinks'' (conv-attn sinks). Accordingly, we introduce StreamingDialogue, which compresses long dialogue history into conv-attn sinks with minimal losses, and thus reduces computational complexity quadratically with the number of sinks (i.e., the number of utterances). Current LLMs already demonstrate the ability to handle long context window, e.g., a window size of 200k or more. To this end, by compressing utterances into EoUs, our method has the potential to handle more than 200k of utterances, resulting in a prolonged dialogue learning. In order to minimize information losses from reconstruction after compression, we design two learning strategies of short-memory reconstruction (SMR) and long-memory reactivation (LMR). Our method outperforms strong baselines in dialogue tasks and achieves a 4 $\times$ speedup while reducing memory usage by 18 $\times$ compared to dense attention recomputation. | 翻訳日:2024-03-14 15:16:08 公開日:2024-03-13 |
# Code SmellsがMLに出会った時 - ML固有のCode Smellsのライフサイクルについて
ML対応システム
When Code Smells Meet ML: On the Lifecycle of ML-specific Code Smells in ML-enabled Systems ( http://arxiv.org/abs/2403.08311v1 ) ライセンス: Link先を確認 | Gilberto Recupito and Giammaria Giordano and Filomena Ferrucci and Dario Di Nucci and Fabio Palomba | (参考訳) コンテキスト。
機械学習(ML)対応システムの採用は着実に増加している。
それでも、ML固有の品質保証アプローチが不足しているのは、おそらく、ML対応システムで品質関連の懸念が出現し、どのように進化するかについての知識が限られているためである。
目的。
ML対応システムの品質と保守性の両方を著しく低下させるようなMLパイプラインに適用された準最適実装ソリューションとして、ML固有のコード臭として知られる特定の品質関連関心事の出現と進化について検討することを目的としている。
より具体的には、経験的分析によりML固有のコードの臭いを研究する計画を提案する。
(i)実際のML対応システムにおけるそれらの普及状況
(二)導入・撤去の仕方及び
(三)生存可能性
方法。
探索的研究を行い、ML対応システムの大規模なデータセットをマイニングし、約337のプロジェクトに関する400万件のコミットを分析します。
CodeSmileは、ML特有の臭いを検知し、調査を可能にするための新しいML臭い検知装置です。
Context. The adoption of Machine Learning (ML)--enabled systems is steadily increasing. Nevertheless, there is a shortage of ML-specific quality assurance approaches, possibly because of the limited knowledge of how quality-related concerns emerge and evolve in ML-enabled systems. Objective. We aim to investigate the emergence and evolution of specific types of quality-related concerns known as ML-specific code smells, i.e., sub-optimal implementation solutions applied on ML pipelines that may significantly decrease both the quality and maintainability of ML-enabled systems. More specifically, we present a plan to study ML-specific code smells by empirically analyzing (i) their prevalence in real ML-enabled systems, (ii) how they are introduced and removed, and (iii) their survivability. Method. We will conduct an exploratory study, mining a large dataset of ML-enabled systems and analyzing over 400k commits about 337 projects. We will track and inspect the introduction and evolution of ML smells through CodeSmile, a novel ML smell detector that we will build to enable our investigation and to detect ML-specific code smells. | 翻訳日:2024-03-14 15:16:08 公開日:2024-03-13 |
# StyleDyRF: ダイナミックニューラルラジアンスのためのゼロショット4Dスタイル転送
フィールド
StyleDyRF: Zero-shot 4D Style Transfer for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2403.08310v1 ) ライセンス: Link先を確認 | Hongbin Xu, Weitao Chen, Feng Xiao, Baigui Sun, Wenxiong Kang | (参考訳) 4Dスタイルのトランスファーは、動的4Dシーンの様々な視点と時間で合成された新しいビューに任意の視覚スタイルを転送することを目的としている。
既存の3Dスタイル転送の取り組みは、スタイル画像とニューラルレイディアンスフィールド(NeRF)の視覚的特徴を効果的に組み合わせることができるが、静的なシーン仮定によって制限された4Dダイナミックシーンの処理には失敗する。
その結果,動的オブジェクト上でのスタイル化結果の整合性も要求される4Dスタイル転送の難解な問題に,初めて対処することを目指している。
本稿では,標準特徴量の変形による4次元特徴空間を表現する手法であるStyleDyRFを紹介し,特徴量の線形変換行列をデータ駆動方式で学習する。
標準特徴量を得るには、予め訓練されたダイナミックNeRFの幾何学的先行で各タイムステップの光線を変形させ、予め訓練されたビジュアルエンコーダの監督の下で特徴マップを描画する。
標準特徴量とスタイル画像の内容とスタイルの手がかりにより、我々は軽量ニューラルネットワークとの共分散行列からスタイル変換行列を学習することができる。
学習されたスタイル変換行列は、従来の2次元ニューラルスタイル転送におけるグラム行列の最適化と類似して、コンテンツボリュームから所定のスタイルパターンへの特徴共分散の直接一致を反映することができる。
実験の結果,本手法は4次元フォトリアリスティックなスタイルの転送結果をゼロショット方式でレンダリングするだけでなく,視覚的品質と一貫性の点で既存手法よりも優れていた。
4D style transfer aims at transferring arbitrary visual style to the synthesized novel views of a dynamic 4D scene with varying viewpoints and times. Existing efforts on 3D style transfer can effectively combine the visual features of style images and neural radiance fields (NeRF) but fail to handle the 4D dynamic scenes limited by the static scene assumption. Consequently, we aim to handle the novel challenging problem of 4D style transfer for the first time, which further requires the consistency of stylized results on dynamic objects. In this paper, we introduce StyleDyRF, a method that represents the 4D feature space by deforming a canonical feature volume and learns a linear style transformation matrix on the feature volume in a data-driven fashion. To obtain the canonical feature volume, the rays at each time step are deformed with the geometric prior of a pre-trained dynamic NeRF to render the feature map under the supervision of pre-trained visual encoders. With the content and style cues in the canonical feature volume and the style image, we can learn the style transformation matrix from their covariance matrices with lightweight neural networks. The learned style transformation matrix can reflect a direct matching of feature covariance from the content volume to the given style pattern, in analogy with the optimization of the Gram matrix in traditional 2D neural style transfer. The experimental results show that our method not only renders 4D photorealistic style transfer results in a zero-shot manner but also outperforms existing methods in terms of visual quality and consistency. | 翻訳日:2024-03-14 15:16:07 公開日:2024-03-13 |
# HRLAIF:オープンドメインにおけるヘルプフルネスとハームレスネスの改善
AIフィードバックによる強化学習
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback ( http://arxiv.org/abs/2403.08309v1 ) ライセンス: Link先を確認 | Ang Li, Qiugen Xiao, Peng Cao, Jian Tang, Yi Yuan, Zijie Zhao, Xiaoyuan Chen, Liang Zhang, Xiangyang Li, Kaitong Yang, Weidong Guo, Yukang Gan, Daniell Wang, Ying Shan | (参考訳) Reinforcement Learning from AI Feedback (RLAIF)は、Reinforcement Learning from Human Feedback (RLHF)よりも短いアノテーションサイクルと低コストの利点がある。
RLAIFトレーニングにおけるオープンドメインプロンプトに対するフィードバックとしてChatGPTを用いて、モデル応答に対するヒト評価者の選好勝利率の増加を観察するが、評価者の満足度は低下する。
分析によると、満足度率の低下は主に、いくつかの反応が役に立たないことによるものであり、特に正しさと真さの点で、基礎的RLAIFの実践的な制限を強調している。
本稿では,AIフィードバックからのハイブリッド強化学習(HRLAIF)を提案する。
この方法は、応答に対するAIアノテーションの精度を高め、モデルのトレーニングプロセスにおける有用性をより堅牢にする。
さらに、AIをRed Teamingに採用し、モデルの無害性をさらに改善している。
人的評価の結果,HRLAIF は RLAIF を継承し,低コストで成果の人為的嗜好を高めるとともに,回答の満足度を向上させることが示唆された。
強化学習(RL)以前の政策モデルと比較すると、満足度率が2.08\%上昇し、基礎RLAIF後の満足度が4.58\%低下する問題に効果的に対処する。
Reinforcement Learning from AI Feedback (RLAIF) has the advantages of shorter annotation cycles and lower costs over Reinforcement Learning from Human Feedback (RLHF), making it highly efficient during the rapid strategy iteration periods of large language model (LLM) training. Using ChatGPT as a labeler to provide feedback on open-domain prompts in RLAIF training, we observe an increase in human evaluators' preference win ratio for model responses, but a decrease in evaluators' satisfaction rate. Analysis suggests that the decrease in satisfaction rate is mainly due to some responses becoming less helpful, particularly in terms of correctness and truthfulness, highlighting practical limitations of basic RLAIF. In this paper, we propose Hybrid Reinforcement Learning from AI Feedback (HRLAIF). This method enhances the accuracy of AI annotations for responses, making the model's helpfulness more robust in training process. Additionally, it employs AI for Red Teaming, further improving the model's harmlessness. Human evaluation results show that HRLAIF inherits the ability of RLAIF to enhance human preference for outcomes at a low cost while also improving the satisfaction rate of responses. Compared to the policy model before Reinforcement Learning (RL), it achieves an increase of 2.08\% in satisfaction rate, effectively addressing the issue of a decrease of 4.58\% in satisfaction rate after basic RLAIF. | 翻訳日:2024-03-14 15:16:06 公開日:2024-03-13 |
# Anを用いた大規模言語モデルのパーソナライズド評価に向けて
匿名のクラウドソーシングプラットフォーム
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform ( http://arxiv.org/abs/2403.08305v1 ) ライセンス: Link先を確認 | Mingyue Cheng, Hao Zhang, Jiqian Yang, Qi Liu, Li Li, Xin Huang, Liwei Song, Zhi Li, Zhenya Huang, Enhong Chen | (参考訳) 大規模言語モデル評価は,その能力向上において重要な役割を担っている。
これまで,この領域で大規模言語モデルを評価するための多くの手法が提案されてきた。
それらの効果にもかかわらず、これらの既存の研究は主に客観的な質問を評価することに焦点を当てており、大きな言語モデルで非常に一般的な主観的な質問を評価する能力を見越している。
さらに、これらの手法は、評価プラットフォーム自体に集中して、集中的なデータセットを主に評価に活用する。
さらに、これらのプラットフォームが採用する評価プロセスはパーソナライズされた要因を無視することが多く、評価対象と評価対象モデルの両方の特徴を考慮しない。
これらの制約に対処するため,大規模言語モデルを対象とした新たな匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。
このプラットフォームは、モデルの一般的な能力を評価するための集中的な評価をサポートするだけでなく、オープンな評価ゲートウェイを提供するためにも際立っている。
このゲートウェイを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
さらに,個人の好みや文脈を考慮に入れた大規模言語モデルの評価に,人間とコンピュータのインタラクションの様々な形態を活用する,パーソナライズされた評価シナリオも導入している。
BingJianのデモはhttps://github.com/Mingyue-Cheng/Bingjian.comで見ることができる。
Large language model evaluation plays a pivotal role in the enhancement of its capacity. Previously, numerous methods for evaluating large language models have been proposed in this area. Despite their effectiveness, these existing works mainly focus on assessing objective questions, overlooking the capability to evaluate subjective questions which is extremely common for large language models. Additionally, these methods predominantly utilize centralized datasets for evaluation, with question banks concentrated within the evaluation platforms themselves. Moreover, the evaluation processes employed by these platforms often overlook personalized factors, neglecting to consider the individual characteristics of both the evaluators and the models being evaluated. To address these limitations, we propose a novel anonymous crowd-sourcing evaluation platform, BingJian, for large language models that employs a competitive scoring mechanism where users participate in ranking models based on their performance. This platform stands out not only for its support of centralized evaluations to assess the general capabilities of models but also for offering an open evaluation gateway. Through this gateway, users have the opportunity to submit their questions, testing the models on a personalized and potentially broader range of capabilities. Furthermore, our platform introduces personalized evaluation scenarios, leveraging various forms of human-computer interaction to assess large language models in a manner that accounts for individual user preferences and contexts. The demonstration of BingJian can be accessed at https://github.com/Mingyue-Cheng/Bingjian. | 翻訳日:2024-03-14 15:16:06 公開日:2024-03-13 |
# 脱分極を伴う不均一磁場中におけるスピン緩和
境界線
Spin relaxation in inhomogeneous magnetic fields with depolarizing boundaries ( http://arxiv.org/abs/2403.08300v1 ) ライセンス: Link先を確認 | Yue Chang, Shuangai Wan, Shichao Dong, and Jie Qin | (参考訳) 脱分極壁を有する気相セルに閉じ込められた原子スピンの場不均一性による緩和に関する研究を行った。
細胞壁における極小偏極損失を経験する希ガススピンのような核スピンとは対照的に、非コーティング細胞の原子スピンは境界でランダム化される。
この異なる境界条件は、磁場勾配に対する緩和速度の変動をもたらす。
完全偏極境界条件下でのブロッホ・トーリー方程式の解法により、場の非均一性によって誘導される緩和速度は(非均一場が存在しない場合)より小さい元の緩和速度を持つスピンに対してより顕著であることを示す。
我々は摂動状態の計算によって緩和率の上限を確立する。
さらに、スピン交換緩和のない磁力計に接続し、その線幅が磁力計の感度軸に沿った不均一な磁場に最も敏感であることを示す。
我々の理論的結果は、小さなポンプ電力を受ける細胞の実験データと一致している。
しかし、大きな入力パワーのシナリオにおける偏差は、ポンプ磁場の減衰を考慮することの重要性を浮き彫りにしており、不均一磁場として振る舞う均一に分散した光シフトをもたらす。
Field-inhomogeneity-induced relaxation of atomic spins confined in vapor cells with depolarizing walls is studied. In contrast to nuclear spins, such as noble-gas spins, which experience minimal polarization loss at cell walls, atomic spins in uncoated cells undergo randomization at the boundaries. This distinct boundary condition results in a varied dependence of the relaxation rate on the field gradient. By solving the Bloch-Torrey equation under fully depolarizing boundary conditions, we illustrate that the relaxation rate induced by field inhomogeneity is more pronounced for spins with a smaller original relaxation rate (in the absence of the inhomogeneous field). We establish an upper limit for the relaxation rate through calculations in the perturbation regime. Moreover, we connect it to the spin-exchange-relaxation-free magnetometers, demonstrating that its linewidth is most sensitive to inhomogeneous fields along the magnetometer's sensitive axis. Our theoretical result agrees with the experimental data for cells subjected to small pump power. However, deviations in larger input-power scenarios underscore the importance of considering pump field attenuation, which leads to uniformly distributed light shift that behaves as an inhomogeneous magnetic field. | 翻訳日:2024-03-14 15:16:05 公開日:2024-03-13 |
# AutoDev: AI駆動開発を自動化する
AutoDev: Automated AI-Driven Development ( http://arxiv.org/abs/2403.08299v1 ) ライセンス: Link先を確認 | Michele Tufano, Anisha Agarwal, Jinu Jang, Roshanak Zilouchian Moghaddam, Neel Sundaresan | (参考訳) ソフトウェア開発の状況は、GitHub Copilotが例証したように、AIによるアシスタントの出現とともにパラダイムシフトを目の当たりにした。
しかし、既存のソリューションは、ビルド、テスト、コードの実行、git操作など、IDEで利用可能な機能をすべて活用していない。
そのため、主にチャットベースのインターフェイス内でコードスニペットとファイル操作を提案することに焦点を当て、制限された機能に制約されている。
このギャップを埋めるために、私たちは、複雑なソフトウェアエンジニアリングタスクの自律的な計画と実行のために設計された、完全に自動化されたAI駆動ソフトウェア開発フレームワークであるAutoDevを紹介します。
AutoDevは、AutoDevの自律AIエージェントに割り当てられる複雑なソフトウェアエンジニアリングの目的を定義することができる。
これらのAIエージェントは、ファイル編集、検索、ビルドプロセス、実行、テスト、git操作を含む、コードベースでのさまざまな操作を実行することができる。
ファイルへのアクセス、コンパイラ出力、ビルドとテストのログ、静的解析ツールなどもある。
これにより、AIエージェントは、必要なコンテキスト情報を総合的に理解して、完全に自動化された方法でタスクを実行することができる。
さらにAutoDevは,Dockerコンテナ内のすべての操作を集約することで,セキュアな開発環境を確立する。
このフレームワークには、ユーザのプライバシとファイルセキュリティを確保するためのガードレールが含まれており、AutoDev内でユーザが特定の許可されたあるいは制限されたコマンドや操作を定義することができる。
評価では、AutoDevをHumanEvalデータセット上でテストし、コード生成とテスト生成のPass@1の91.5%と87.8%の有望な結果を得た。
The landscape of software development has witnessed a paradigm shift with the advent of AI-powered assistants, exemplified by GitHub Copilot. However, existing solutions are not leveraging all the potential capabilities available in an IDE such as building, testing, executing code, git operations, etc. Therefore, they are constrained by their limited capabilities, primarily focusing on suggesting code snippets and file manipulation within a chat-based interface. To fill this gap, we present AutoDev, a fully automated AI-driven software development framework, designed for autonomous planning and execution of intricate software engineering tasks. AutoDev enables users to define complex software engineering objectives, which are assigned to AutoDev's autonomous AI Agents to achieve. These AI agents can perform diverse operations on a codebase, including file editing, retrieval, build processes, execution, testing, and git operations. They also have access to files, compiler output, build and testing logs, static analysis tools, and more. This enables the AI Agents to execute tasks in a fully automated manner with a comprehensive understanding of the contextual information required. Furthermore, AutoDev establishes a secure development environment by confining all operations within Docker containers. This framework incorporates guardrails to ensure user privacy and file security, allowing users to define specific permitted or restricted commands and operations within AutoDev. In our evaluation, we tested AutoDev on the HumanEval dataset, obtaining promising results with 91.5% and 87.8% of Pass@1 for code generation and test generation respectively, demonstrating its effectiveness in automating software engineering tasks while maintaining a secure and user-controlled development environment. | 翻訳日:2024-03-14 15:16:04 公開日:2024-03-13 |
# Gemma: Geminiリサーチと技術に基づくオープンモデル
Gemma: Open Models Based on Gemini Research and Technology ( http://arxiv.org/abs/2403.08295v1 ) ライセンス: Link先を確認 | Gemma Team: Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivi\`ere, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, L\'eonard Hussenot, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Am\'elie H\'eliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Cl\'ement Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Miku{\l}a, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Pier Giuseppe Sessa, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Cl\'ement Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy | (参考訳) Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
モデルのサイズは2つ(20億と70億のパラメータ)、事前訓練されたチェックポイントと微調整されたチェックポイントの両方を提供する。
Gemmaは18のテキストベースタスクのうち11のオープンモデルにおいて、同様のサイズのオープンモデルよりも優れており、モデル開発の詳細な説明とともに、モデルの安全性と責任の側面を包括的に評価する。
LLMの責任あるリリースは、フロンティアモデルの安全性を改善し、LLMイノベーションの次の波を可能にするために重要であると考えています。
This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations. | 翻訳日:2024-03-14 15:16:04 公開日:2024-03-13 |
# 横・横の攻撃決定論的条件画像生成モデル
制御可能ジェネレーション
Attack Deterministic Conditional Image Generative Models for Diverse and Controllable Generation ( http://arxiv.org/abs/2403.08294v1 ) ライセンス: Link先を確認 | Tianyi Chu, Wei Xing, Jiafu Chen, Zhizhong Wang, Jiakai Sun, Lei Zhao, Haibo Chen, Huaizhong Lin | (参考訳) 既存のGAN(Generative Adversarial Network)ベースの条件付き画像生成モデルは、通常、同じ条件付き入力に対して固定出力を生成する。
一方、GANをベースとした多様な画像生成手法では、ネットワークの再トレーニングや微調整、複雑なノイズ注入機能を設計する必要がある。
多くの決定論的条件付き画像生成モデルが高品質で固定された結果を生み出すことができることを考えれば、ネットワーク構造やパラメータを変更することなく、事前学習された決定論的条件付き画像生成モデルが多様な結果を生成することができるのかという興味深い疑問が提起される。
この疑問に答えるために、我々は敵攻撃の観点から条件付き画像生成タスクを再検討し、多様な制御可能な画像生成のための簡易かつ効率的なプラグイン投影勾配降下法(PGD)を提案する。
鍵となる考え方は、入力条件に微小摂動を加えることで、事前訓練された決定論的生成モデルを攻撃することである。
このようにして、ネットワーク構造を調整したり、事前訓練されたモデルの微調整をすることなく、多様な結果を生成することができる。
また、参照テキストや画像に基づいて攻撃方向を指定することで、発生する多様な結果を制御できる。
本研究は,低レベル視覚タスクに敵攻撃を適用するための扉を開くとともに,様々な条件付き画像生成タスクの実験により,提案手法の有効性と優位性を示す。
Existing generative adversarial network (GAN) based conditional image generative models typically produce fixed output for the same conditional input, which is unreasonable for highly subjective tasks, such as large-mask image inpainting or style transfer. On the other hand, GAN-based diverse image generative methods require retraining/fine-tuning the network or designing complex noise injection functions, which is computationally expensive, task-specific, or struggle to generate high-quality results. Given that many deterministic conditional image generative models have been able to produce high-quality yet fixed results, we raise an intriguing question: is it possible for pre-trained deterministic conditional image generative models to generate diverse results without changing network structures or parameters? To answer this question, we re-examine the conditional image generation tasks from the perspective of adversarial attack and propose a simple and efficient plug-in projected gradient descent (PGD) like method for diverse and controllable image generation. The key idea is attacking the pre-trained deterministic generative models by adding a micro perturbation to the input condition. In this way, diverse results can be generated without any adjustment of network structures or fine-tuning of the pre-trained models. In addition, we can also control the diverse results to be generated by specifying the attack direction according to a reference text or image. Our work opens the door to applying adversarial attack to low-level vision tasks, and experiments on various conditional image generation tasks demonstrate the effectiveness and superiority of the proposed method. | 翻訳日:2024-03-14 15:16:03 公開日:2024-03-13 |
# 生成事前学習型構造変換器:教師なし構文解析
大規模言語モデル
Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale ( http://arxiv.org/abs/2403.08293v1 ) ライセンス: Link先を確認 | Xiang Hu, Pengyu Ji, Qingyang Zhu, Wei Wu, Kewei Tu | (参考訳) 構文言語モデル(SLM)はその構文木を左から右に漸進的に生成する。
並列性の高い原文のスクラッチから事前学習が可能な大規模教師なしSLMであるGenerative Pretrained Structured Transformers (GPST)を提案する。
GPSTは、ゴールドツリーやシーケンシャルトレーニングなど、以前のSLMの制限を回避している。
これは、一方向の言語モデリング損失によって教師される通常のSLMと、構文解析木を誘導し、双方向の言語モデリング損失によって教師される構成表現を計算する追加の合成モデルからなる。
本稿では,2つのモデルの連立並列訓練をEM方式で行うための表現代行法を提案する。
我々は9億ドルのトークンを持つコーパスであるOpenWebText上でGPSTを事前訓練し、GPT-2よりもGPSTの方が優れていることを示す。
一方、GPSTは既存の教師なしSLMよりも左から右への文法誘導に優れており、トレーニングにおいてかなりの加速を保っている。
A syntactic language model (SLM) incrementally generates a sentence with its syntactic tree in a left-to-right manner. We present Generative Pretrained Structured Transformers (GPST), an unsupervised SLM at scale capable of being pre-trained from scratch on raw texts with high parallelism. GPST circumvents the limitations of previous SLMs such as relying on gold trees and sequential training. It consists of two components, a usual SLM supervised by a uni-directional language modeling loss, and an additional composition model, which induces syntactic parse trees and computes constituent representations, supervised by a bi-directional language modeling loss. We propose a representation surrogate to enable joint parallel training of the two models in a hard-EM fashion. We pre-train GPST on OpenWebText, a corpus with $9$ billion tokens, and demonstrate the superiority of GPST over GPT-2 with a comparable size in numerous tasks covering both language understanding and language generation. Meanwhile, GPST also significantly outperforms existing unsupervised SLMs on left-to-right grammar induction, while holding a substantial acceleration on training. | 翻訳日:2024-03-14 15:16:03 公開日:2024-03-13 |
# 確率力学推定のための弱相関回帰法
L'{e}vy ノイズ
Weak Collocation Regression for Inferring Stochastic Dynamics with L\'{e}vy Noise ( http://arxiv.org/abs/2403.08292v1 ) ライセンス: Link先を確認 | Liya Guo, Liwei Lu, Zhijun Zeng, Pipi Hu, Yi Zhu | (参考訳) 確率系の観測・実験・シミュレーションデータの急速な増加に伴い、これらのシステムの進化の根底にある法則の特定に多大な努力が注がれている。
多数の物理現象における非ガウス的ゆらぎの広範な応用にもかかわらず、L\'{e}vyノイズによる確率力学を抽出するためのデータ駆動的アプローチは比較的少ない。
本研究では,SDE(Stochastic Differential Equation)と$\alpha$-stable L\'{e}vyノイズ,およびガウス雑音の両方を離散集計データから明らかにするためのWCR(Wak Collocation Regression)を提案する。
この方法は確率分布関数、すなわちFokker-Planck(FP)方程式の進化方程式を利用する。
FP方程式の弱い形式により、WCRは未知のパラメータの線形系を構築し、すべての積分はモンテカルロ法によって観測によって評価される。
そして、スパース線形回帰により未知のパラメータを得る。
L\'{e}vy ノイズを持つ SDE に対して、対応する FP 方程式は、非局所項を含む部分積分微分方程式 (PIDE) であり、扱いにくい。
弱い形式は複雑な多重積分を避けることができる。
本手法は,多次元問題においても混合雑音を同時に識別することができる。
数値実験により,本手法は正確かつ計算効率が高いことが示された。
With the rapid increase of observational, experimental and simulated data for stochastic systems, tremendous efforts have been devoted to identifying governing laws underlying the evolution of these systems. Despite the broad applications of non-Gaussian fluctuations in numerous physical phenomena, the data-driven approaches to extracting stochastic dynamics with L\'{e}vy noise are relatively few. In this work, we propose a Weak Collocation Regression (WCR) to explicitly reveal unknown stochastic dynamical systems, i.e., the Stochastic Differential Equation (SDE) with both $\alpha$-stable L\'{e}vy noise and Gaussian noise, from discrete aggregate data. This method utilizes the evolution equation of the probability distribution function, i.e., the Fokker-Planck (FP) equation. With the weak form of the FP equation, the WCR constructs a linear system of unknown parameters where all integrals are evaluated by Monte Carlo method with the observations. Then, the unknown parameters are obtained by a sparse linear regression. For a SDE with L\'{e}vy noise, the corresponding FP equation is a partial integro-differential equation (PIDE), which contains nonlocal terms, and is difficult to deal with. The weak form can avoid complicated multiple integrals. Our approach can simultaneously distinguish mixed noise types, even in multi-dimensional problems. Numerical experiments demonstrate that our method is accurate and computationally efficient. | 翻訳日:2024-03-14 15:16:02 公開日:2024-03-13 |
# CleanAgent: LLMベースのエージェントによるデータ標準化の自動化
CleanAgent: Automating Data Standardization with LLM-based Agents ( http://arxiv.org/abs/2403.08291v1 ) ライセンス: Link先を確認 | Danrui Qi, Jiannan Wang | (参考訳) データ標準化は、データサイエンスのライフサイクルにおいて重要な部分です。
Pandasのようなツールは堅牢な機能を提供しますが、コードのさまざまな列タイプへのカスタマイズに必要な複雑さと手作業は、大きな課題を引き起こします。
ChatGPTのような大きな言語モデル(LLM)は、自然言語の理解とコード生成を通じてこのプロセスを自動化することを約束している。
これらの課題を解決するため、我々は列型を標準化するための宣言的で統一されたAPIを備えたPythonライブラリを提案し、簡潔なAPI呼び出しでLLMのコード生成を単純化する。
我々はまず,Dataprepライブラリのコンポーネントとして記述されたDataprep.Cleanを提案する。
次に、データ標準化プロセスを自動化するために、Dataprep.CleanとLLMベースのエージェントを統合するCleanAgentフレームワークを紹介します。
CleanAgentでは、データサイエンティストは要件を一度だけ提供し、ハンズフリーで自動標準化プロセスを可能にする。
Data standardization is a crucial part in data science life cycle. While tools like Pandas offer robust functionalities, their complexity and the manual effort required for customizing code to diverse column types pose significant challenges. Although large language models (LLMs) like ChatGPT have shown promise in automating this process through natural language understanding and code generation, it still demands expert-level programming knowledge and continuous interaction for prompt refinement. To solve these challenges, our key idea is to propose a Python library with declarative, unified APIs for standardizing column types, simplifying the code generation of LLM with concise API calls. We first propose Dataprep.Clean which is written as a component of the Dataprep Library, offers a significant reduction in complexity by enabling the standardization of specific column types with a single line of code. Then we introduce the CleanAgent framework integrating Dataprep.Clean and LLM-based agents to automate the data standardization process. With CleanAgent, data scientists need only provide their requirements once, allowing for a hands-free, automatic standardization process. | 翻訳日:2024-03-14 15:16:01 公開日:2024-03-13 |
# 円錐断面の光キャビティ操作戦略
シングルトフィッションシステム
Optical-Cavity Manipulation Strategies of Conical Intersections Mediated Singlet Fission Systems ( http://arxiv.org/abs/2403.08286v1 ) ライセンス: Link先を確認 | Kewei Sun, Maxim Gelin, Kaijun Shen, and Yang Zhao | (参考訳) 偏光円錐円錐-断面駆動一重項フィッション(SF)材料のシミュレーションと工学に関する理論的展望を提供する。
ルブレインを例として, 数値精度のDavydov-Ansatz法を適用し, システムの動的・分光応答を導出し, SF操作, キャビティ誘導によるSFの増強・弱化・抑制, キャビティモード励起, ポーラロン/ポラリトンデカップリング, SFの集合化による一重項状態の個体群局在化, SFの集合化のメカニズムを示す。
我々は、この分野における未解決の問題と課題の概要を述べ、今後の研究線の開発についての見解を共有します。
我々は、高励起多様体における極性円錐交叉のカスケードを慎重にモデル化することの重要性を強調し、集合幾何学的位相効果がSF力学と収率に著しく影響を及ぼす可能性があることを示唆する。
我々は、分極円錐断面駆動SFの主制御機構の微視的解釈が、この過程の理解を著しく深め、光電気学における変換効率を改善するための新しいアイデアと解決策を提供することができると論じる。
We offer a theoretical perspective on simulation and engineering of polaritonic conical-intersection-driven singlet-fission (SF) materials. Using rubrene as an example and applying the numerically accurate Davydov-Ansatz methodology, we derive dynamic and spectroscopic responses of the system and demonstrate key mechanisms capable of SF manipulation, viz. cavity-induced enhancement/weakening/suppression of SF, population localization on the singlet state via engineering of the cavity-mode excitation, polaron/polariton decoupling, collective enhancement of SF. We outline unsolved problems and challenges in the field, and share our views on the development of the future lines of research. We emphasize the significance of careful modeling of cascades of polaritonic conical intersections in high excitation manifolds and envisage that collective geometric phase effects may remarkably affect the SF dynamics and yield. We argue that microscopic interpretation of the main regulatory mechanisms of the polaritonic conical-intersection-driven SF can substantially deepen our understanding of this process, thereby providing novel ideas and solutions for improving conversion efficiency in photovoltaics. | 翻訳日:2024-03-14 15:16:01 公開日:2024-03-13 |
# MGIC: Canny Edgeに基づくマルチラベルグラディエントインバージョンアタック
フェデレーション学習の検出
MGIC: A Multi-Label Gradient Inversion Attack based on Canny Edge Detection on Federated Learning ( http://arxiv.org/abs/2403.08284v1 ) ライセンス: Link先を確認 | Can Liu and Jin Wang | (参考訳) データプライバシを保護できる新しい分散コンピューティングフレームワークとして、フェデレートラーニング(FL)が近年ますます注目を集めている。
グローバルモデルをトレーニングし、トレーニングされたグローバルモデルをワーキングユーザへリリースする、というユーザからのグラデーションを受けています。
それでも、勾配反転(GI)攻撃は、連合学習におけるプライバシー漏洩のリスクを反映している。
攻撃者は、ユーザのローカルデバイスに格納された比較的正確なプライベートデータを取得するために、数十万の簡単なイテレーションを通じてグラデーションを使用する必要がある。
そのため、シングルラベルデータセットでユーザデータを取得するためのシンプルで効果的な戦略を提案する研究もある。
しかし,これらの戦略は,高コストを犠牲にして,インバージョン画像の良好な視覚効果をもたらす。
単一のラベルのセマンティック制限のため、勾配反転によって得られた画像はセマンティックエラーを持つ可能性がある。
本稿では,多ラベルデータセットと単一ラベルデータセットの両方において,キャニーエッジ検出(MGIC)に基づく新たな勾配インバージョン戦略を提案する。
単一ラベルによるセマンティックエラーを低減するため、トレーニングされたモデルに新しい畳み込み層のブロックを追加し、画像のマルチラベルを得る。
マルチラベル表現により、逆画像における真剣な意味的誤りが低減される。
そして、入力画像再構成の難しさに対するパラメータの影響を分析し、画像多目的が逆変換性能にどう影響するかを議論する。
提案手法は、最も広く使われているものよりも視覚的逆画像結果の方が優れており、ImageNetデータセットの78%以上の時間的コストを節約できる。
As a new distributed computing framework that can protect data privacy, federated learning (FL) has attracted more and more attention in recent years. It receives gradients from users to train the global model and releases the trained global model to working users. Nonetheless, the gradient inversion (GI) attack reflects the risk of privacy leakage in federated learning. Attackers only need to use gradients through hundreds of thousands of simple iterations to obtain relatively accurate private data stored on users' local devices. For this, some works propose simple but effective strategies to obtain user data under a single-label dataset. However, these strategies induce a satisfactory visual effect of the inversion image at the expense of higher time costs. Due to the semantic limitation of a single label, the image obtained by gradient inversion may have semantic errors. We present a novel gradient inversion strategy based on canny edge detection (MGIC) in both the multi-label and single-label datasets. To reduce semantic errors caused by a single label, we add new convolution layers' blocks in the trained model to obtain the image's multi-label. Through multi-label representation, serious semantic errors in inversion images are reduced. Then, we analyze the impact of parameters on the difficulty of input image reconstruction and discuss how image multi-subjects affect the inversion performance. Our proposed strategy has better visual inversion image results than the most widely used ones, saving more than 78% of time costs in the ImageNet dataset. | 翻訳日:2024-03-14 15:16:00 公開日:2024-03-13 |
# GTRSBの最適検出と分類:交通信号の改善
畳み込みニューラルネットワークによる認識
Optimized Detection and Classification on GTRSB: Advancing Traffic Sign Recognition with Convolutional Neural Networks ( http://arxiv.org/abs/2403.08283v1 ) ライセンス: Link先を確認 | Dhruv Toshniwal, Saurabh Loya, Anuj Khot, Yash Marda | (参考訳) 交通の急速な発展の中で、自動車の普及は道路交通をより複雑にし、安全とナビゲーションを強化するための高度な視覚支援技術を必要としている。
これらの技術は、重要な交通標識情報の提供、ドライバーの行動への影響、特に障害のあるドライバーや急成長する自動運転車の分野での車両制御のサポートに不可欠である。
道路の安全確保と交通規制の遵守に不可欠な役割を担い,交通標識の検出・認識が研究の重要領域として浮上している。
従来のコンピュータビジョン手法は、現実世界の変動により最適な精度と速度を達成する上で困難に直面してきた。
しかし、ディープラーニングと畳み込みニューラルネットワーク(CNN)の出現は、この領域に革命をもたらし、スピードと信頼性の点で、以前の能力をはるかに上回るソリューションを提供している。
本稿では,CNNの精度を96倍近い精度で向上し,高度ローカライゼーション技術によるさらなる精度向上の可能性を明らかにする革新的なアプローチを提案する。
本研究は,交通標識認識技術の進歩に寄与するだけでなく,道路安全と自動運転の将来に対するこれらの発展の重大な影響を浮き彫りにしている。
In the rapidly evolving landscape of transportation, the proliferation of automobiles has made road traffic more complex, necessitating advanced vision-assisted technologies for enhanced safety and navigation. These technologies are imperative for providing critical traffic sign information, influencing driver behavior, and supporting vehicle control, especially for drivers with disabilities and in the burgeoning field of autonomous vehicles. Traffic sign detection and recognition have emerged as key areas of research due to their essential roles in ensuring road safety and compliance with traffic regulations. Traditional computer vision methods have faced challenges in achieving optimal accuracy and speed due to real-world variabilities. However, the advent of deep learning and Convolutional Neural Networks (CNNs) has revolutionized this domain, offering solutions that significantly surpass previous capabilities in terms of speed and reliability. This paper presents an innovative approach leveraging CNNs that achieves an accuracy of nearly 96\%, highlighting the potential for even greater precision through advanced localization techniques. Our findings not only contribute to the ongoing advancement of traffic sign recognition technology but also underscore the critical impact of these developments on road safety and the future of autonomous driving. | 翻訳日:2024-03-14 15:16:00 公開日:2024-03-13 |
# オープンエンディングマルチエージェントのための階層的自己組織化システム
ナビゲーション
Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation ( http://arxiv.org/abs/2403.08282v1 ) ライセンス: Link先を確認 | Zhonghan Zhao, Kewei Chen, Dongxu Guo, Wenhao Chai, Tian Ye, Yanting Zhang, and Gaoang Wang | (参考訳) Minecraftの複雑な環境をナビゲートすることは、ゲームのダイナミックで予測不可能なオープンワールド設定のために、マルチエージェントシステムに重大な課題をもたらす。
エージェントは環境と対話し、共通の目的を達成するために他のエージェントと行動を調整する必要がある。
しかし、従来のアプローチでは、効果的なマルチエージェントナビゲーションに不可欠な、エージェント間通信とタスクの分散を効率的に管理するのに苦労することが多い。
さらに、マルチモーダル情報(視覚、テキスト、聴覚データなど)の処理と統合は、エージェントが目標を完全に理解し、環境をうまくナビゲートするのに不可欠である。
この問題に対処するため,我々はLSMをベースとしたエージェント群を自動編成してナビゲーションタスクを完了するためのHASフレームワークを設計した。
提案手法では,階層的な自己組織型ナビゲーションシステムを考案した。
1 マルチエージェント組織のための階層的システムで、中央集権的計画及び分散実行を確保すること。
2) サブタスク下での動的グループ調整を可能にする自己組織的・内部コミュニケーション機構
3)マルチモーダル情報プラットフォームは,3つのナビゲーションタスクを1つのシステムで実行するためのマルチモーダル認識を容易にする。
組織行動を評価するため,マインクラフト環境において探索・探索を含む一連のナビゲーションタスクを設計する。
私たちは、具体的AIの境界を押し進め、より人間的な組織構造へと移行する、具体的組織の開発を目指しています。
Navigating complex environments in Minecraft poses significant challenges for multi-agent systems due to the game's dynamic and unpredictable open-world setting. Agents need to interact with the environment and coordinate their actions with other agents to achieve common objectives. However, traditional approaches often struggle to efficiently manage inter-agent communication and task distribution, which are crucial for effective multi-agent navigation. Furthermore, processing and integrating multi-modal information (such as visual, textual, and auditory data) is essential for agents to fully comprehend their goals and navigate the environment successfully. To address this issue, we design the HAS framework to auto-organize groups of LLM-based agents to complete Navigation tasks. In our approach, we devise a hierarchical auto-organizing navigation system, which is characterized by 1) a hierarchical system for multi-agent organization, ensuring centralized planning and decentralized execution; 2) an auto-organizing and intra-communication mechanism, enabling dynamic group adjustment under subtasks; 3) a multi-modal information platform, facilitating multi-modal perception to perform the three navigation tasks with one system. To assess organizational behavior, we design a series of navigation tasks in the Minecraft environment, which includes searching and exploring. We aim to develop embodied organizations that push the boundaries of embodied AI, moving it towards a more human-like organizational structure. | 翻訳日:2024-03-14 15:15:59 公開日:2024-03-13 |
# Fusing Highlyによるテキスト, コード, 数学の同時習得
特化言語モデル
Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models ( http://arxiv.org/abs/2403.08281v1 ) ライセンス: Link先を確認 | Ning Ding, Yulin Chen, Ganqu Cui, Xingtai Lv, Ruobing Xie, Bowen Zhou, Zhiyuan Liu, Maosong Sun | (参考訳) 自然言語、プログラミングコード、数学的記号のデータ分布は様々であり、大きな言語モデル(LLM)が3つのドメインすべてに対して同時に高いパフォーマンスを達成するための複雑な課題を提示する。
特定のドメイン内のLLMの非常に高い習熟度を達成するには、しばしば関連するコーパスによる広範囲なトレーニングが必要であり、これは通常、他のドメインのパフォーマンスの犠牲を伴う。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
専門家の出力をブレンドするためにトークンレベルのゲーティング機構が導入された。
バランスの取れたサンプリングを伴う2段階のトレーニング戦略は、安定性を確保するために設計されている。
融合モデルを効果的に訓練するために,テキスト,コード,数学的内容を含む高品質な教師ありチューニングデータセットであるUltraChat 2を構築した。
このデータセットはおよそ30万の命令で構成され、各ドメインの幅広いトピックをカバーする。
実験により、我々のモデルは3つの重要な領域の習得を同時に達成できることが示された。
Underlying data distributions of natural language, programming code, and mathematical symbols vary vastly, presenting a complex challenge for large language models (LLMs) that strive to achieve high performance across all three domains simultaneously. Achieving a very high level of proficiency for an LLM within a specific domain often requires extensive training with relevant corpora, which is typically accompanied by a sacrifice in performance in other domains. In this paper, we propose to fuse models that are already highly-specialized directly. The proposed fusing framework, UltraFuser, consists of three distinct specialists that are already sufficiently trained on language, coding, and mathematics. A token-level gating mechanism is introduced to blend the specialists' outputs. A two-stage training strategy accompanied by balanced sampling is designed to ensure stability. To effectively train the fused model, we further construct a high-quality supervised instruction tuning dataset, UltraChat 2, which includes text, code, and mathematical content. This dataset comprises approximately 300,000 instructions and covers a wide range of topics in each domain. Experiments show that our model could simultaneously achieve mastery of the three crucial domains. | 翻訳日:2024-03-14 15:15:58 公開日:2024-03-13 |
# 頭蓋MRIにおける自動転移検出の事前検査による改善
Pre-examinations Improve Automated Metastases Detection on Cranial MRI ( http://arxiv.org/abs/2403.08280v1 ) ライセンス: Link先を確認 | Katerina Deike-Hofmann and Dorottya Dancs and Daniel Paech and Heinz-Peter Schlemmer and Klaus Maier-Hein and Philipp B\"aumer and Alexander Radbruch and Michael G\"otz | (参考訳) 対象と方法: まず,CNNに新しいMM(診断MRI)と診断前MRIのシーケンスが提供され,T1強調画像(CNNdual_ce)とT1強調画像(T2強調画像)とFLAIR画像(CNNdual_all)との対比を行った。
第2に, 診断MRIの各々のシーケンスをCNNに限定して提供し, 診断性能パラメータを5倍のクロスバリデーションから算出した。
結果: 計94例, MM494例であった。
CNNdual_ce, sensitivity = 73%, PPV = 25%, F1-score = 36%)と診断された。
FPs = 5/7 for CNNdual_ce/CNNdual_all, P < 1e-5。
FPs = 5/10 for CNNdual_ce/CNNce, P < 1e-9。
ネイティブシーケンスのみのアプローチは、コントラスト強化シーケンスを提供するCNNよりも明らかに劣っていた。
結論: コントラスト強調T1強調画像におけるMM自動検出を高感度で行った。
異物や血管によるFPの頻度は, 診断前のMRIを付加することにより有意に減少したが, 造影T1強調画像以外の追加配列は含まれなかった。
将来の研究は、コンピュータ支援検出のための異なる変更検出アーキテクチャについて検討する。
Materials and methods: First, a dual-time approach was assessed, for which the CNN was provided sequences of the MRI that initially depicted new MM (diagnosis MRI) as well as of a prediagnosis MRI: inclusion of only contrast-enhanced T1-weighted images (CNNdual_ce) was compared with inclusion of also the native T1-weighted images, T2-weighted images, and FLAIR sequences of both time points (CNNdual_all).Second, results were compared with the corresponding single time approaches, in which the CNN was provided exclusively the respective sequences of the diagnosis MRI.Casewise diagnostic performance parameters were calculated from 5-fold cross-validation. Results: In total, 94 cases with 494 MMs were included. Overall, the highest diagnostic performance was achieved by inclusion of only the contrast-enhanced T1-weighted images of the diagnosis and of a prediagnosis MRI (CNNdual_ce, sensitivity = 73%, PPV = 25%, F1-score = 36%). Using exclusively contrast-enhanced T1-weighted images as input resulted in significantly less false-positives (FPs) compared with inclusion of further sequences beyond contrast-enhanced T1-weighted images (FPs = 5/7 for CNNdual_ce/CNNdual_all, P < 1e-5). Comparison of contrast-enhanced dual and mono time approaches revealed that exclusion of prediagnosis MRI significantly increased FPs (FPs = 5/10 for CNNdual_ce/CNNce, P < 1e-9).Approaches with only native sequences were clearly inferior to CNNs that were provided contrast-enhanced sequences. Conclusions: Automated MM detection on contrast-enhanced T1-weighted images performed with high sensitivity. Frequent FPs due to artifacts and vessels were significantly reduced by additional inclusion of prediagnosis MRI, but not by inclusion of further sequences beyond contrast-enhanced T1-weighted images. Future studies might investigate different change detection architectures for computer-aided detection. | 翻訳日:2024-03-14 15:15:58 公開日:2024-03-13 |
# VIGFace:顔画像合成のための仮想アイデンティティ生成モデル
VIGFace: Virtual Identity Generation Model for Face Image Synthesis ( http://arxiv.org/abs/2403.08277v1 ) ライセンス: Link先を確認 | Minsoo Kim, Min-Cheol Sagong, Gi Pyo Nam, Junghyun Cho, and Ig-Jae Kim | (参考訳) ディープラーニングベースの顔認識は、Webクローリングから得られる膨大なデータセットに依存しているため、依然として課題に直面している。
この問題に対処するために,合成顔画像を生成する新しいフレームワークであるVIGFaceを提案する。
当初、実際の顔データセットを使用して顔認識モデルをトレーニングし、仮想プロトタイプが他のプロトタイプと直交するリアルと仮想両方のIDのための機能空間を作成する。
次に,特徴空間に基づく拡散モデルを用いて合成画像を生成する。
提案するフレームワークには,2つの大きなメリットがあります。
まず、肖像画の権利を気にせずに仮想顔画像を作成することができ、生成された仮想顔画像が既存の人物と明確に区別されることを保証する。
第二に、既存の実像を組み込むことにより、効果的な拡張方法として機能する。
さらなる実験では、外部データなしで両視点から最先端の成果が得られ、我々のフレームワークの有効性が実証された。
Deep learning-based face recognition continues to face challenges due to its reliance on huge datasets obtained from web crawling, which can be costly to gather and raise significant real-world privacy concerns. To address this issue, we propose VIGFace, a novel framework capable of generating synthetic facial images. Initially, we train the face recognition model using a real face dataset and create a feature space for both real and virtual IDs where virtual prototypes are orthogonal to other prototypes. Subsequently, we generate synthetic images by using the diffusion model based on the feature space. Our proposed framework provides two significant benefits. Firstly, it allows for creating virtual facial images without concerns about portrait rights, guaranteeing that the generated virtual face images are clearly differentiated from existing individuals. Secondly, it serves as an effective augmentation method by incorporating real existing images. Further experiments demonstrate the efficacy of our framework, achieving state-of-the-art results from both perspectives without any external data. | 翻訳日:2024-03-14 15:15:57 公開日:2024-03-13 |
# LiqD:トリッキースモール下の動的液体レベル検出モデル
容器
LiqD: A Dynamic Liquid Level Detection Model under Tricky Small Containers ( http://arxiv.org/abs/2403.08273v1 ) ライセンス: Link先を確認 | Yukun Ma, Zikun Mao | (参考訳) 日常生活や工業生産では,容器内の液体濃度の変化を正確に検出することが重要である。
従来の接触測定手法にはいくつかの制限があるが、新しい非接触画像処理技術は優れた応用可能性を示している。
本稿では,U^2-Netに基づくコンテナ動的液位検出モデルを提案する。
このモデルはSAMモデルを用いて初期データセットを生成し、SemiRewardフレームワークを通じて高品質な擬似ラベル画像を評価しフィルタし、排他的データセットを構築する。
このモデルはU^2-Netを用いてデータセットからコンテナのマスクイメージを抽出し、モルフォロジー処理を用いてマスク欠陥を補償する。
その後、モデルは、隣接するビデオフレーム画像間のグレースケールの差を同じ位置で算出し、差分閾値を設定して液体レベル変化領域を分割し、最後に、軽量ニューラルネットワークを用いて液体レベル状態を分類する。
このアプローチは複雑な環境の影響を軽減するだけでなく、トレーニングデータの需要を減らし、堅牢性と汎用性を示す。
多くの実験結果から,提案モデルが容器内の液体の動的液体レベル変化を効果的に検出できることが示唆された。
In daily life and industrial production, it is crucial to accurately detect changes in liquid level in containers. Traditional contact measurement methods have some limitations, while emerging non-contact image processing technology shows good application prospects. This paper proposes a container dynamic liquid level detection model based on U^2-Net. This model uses the SAM model to generate an initial data set, and then evaluates and filters out high-quality pseudo-label images through the SemiReward framework to build an exclusive data set. The model uses U^2-Net to extract mask images of containers from the data set, and uses morphological processing to compensate for mask defects. Subsequently, the model calculates the grayscale difference between adjacent video frame images at the same position, segments the liquid level change area by setting a difference threshold, and finally uses a lightweight neural network to classify the liquid level state. This approach not only mitigates the impact of intricate surroundings, but also reduces the demand for training data, showing strong robustness and versatility. A large number of experimental results show that the proposed model can effectively detect the dynamic liquid level changes of the liquid in the container, providing a novel and efficient solution for related fields. | 翻訳日:2024-03-14 15:15:57 公開日:2024-03-13 |
# RECIPE4U:EFL書記教育における学生-ChatGPTインタラクションデータセット
RECIPE4U: Student-ChatGPT Interaction Dataset in EFL Writing Education ( http://arxiv.org/abs/2403.08272v1 ) ライセンス: Link先を確認 | Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Tak Yeon Lee, So-Yeon Ahn and Alice Oh | (参考訳) 教育における生成的AIの統合は拡大しているが、学生とAIシステムの間の大規模および実世界の相互作用に関する実証分析は依然として限られている。
このギャップに対処するため, 英語の212人の大学生を対象に, 学期間実験から得られたRECIPE4U(RECIPE for University, RECIPE)を提案する。
研究期間中、学生はChatGPTと対話してエッセイを改訂した。
RECIPE4Uには、会話ログ、学生の意図、学生の自己評価満足度、学生のエッセイ編集履歴など、これらの相互作用に関する包括的な記録が含まれている。
特に,RECIPE4Uにおける学生の発話を,符号化方式に基づいた13の意図ラベルでアノテートする。
課題指向対話システムにおいて,意図検出と満足度推定という2つのサブタスクのベースライン結果を確立する。
本稿では,学生の対話,エッセイデータ統計,学生のエッセイ編集に着目して,RECIPE4Uを通して学生-ChatGPTインタラクションパターンを探索する。
さらに,RECIPE4Uデータセットの教育用フレームワークにおけるLCMの活用可能性について述べる。
RECIPE4Uはhttps://zeunie.github.io/RECIPE4U/で公開されている。
The integration of generative AI in education is expanding, yet empirical analyses of large-scale and real-world interactions between students and AI systems still remain limited. Addressing this gap, we present RECIPE4U (RECIPE for University), a dataset sourced from a semester-long experiment with 212 college students in English as Foreign Language (EFL) writing courses. During the study, students engaged in dialogues with ChatGPT to revise their essays. RECIPE4U includes comprehensive records of these interactions, including conversation logs, students' intent, students' self-rated satisfaction, and students' essay edit histories. In particular, we annotate the students' utterances in RECIPE4U with 13 intention labels based on our coding schemes. We establish baseline results for two subtasks in task-oriented dialogue systems within educational contexts: intent detection and satisfaction estimation. As a foundational step, we explore student-ChatGPT interaction patterns through RECIPE4U and analyze them by focusing on students' dialogue, essay data statistics, and students' essay edits. We further illustrate potential applications of RECIPE4U dataset for enhancing the incorporation of LLMs in educational frameworks. RECIPE4U is publicly available at https://zeunie.github.io/RECIPE4U/. | 翻訳日:2024-03-14 15:15:56 公開日:2024-03-13 |
# ファイングラインドのための大規模視覚言語モデルの効率的なプロンプトチューニング
船舶分類
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification ( http://arxiv.org/abs/2403.08271v1 ) ライセンス: Link先を確認 | Long Lan, Fengxiang Wang, Shuyan Li, Xiangtao Zheng, Zengmao Wang and Xinwang Liu | (参考訳) リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの可用性の制限により、従来の教師付き分類手法の有効性が制限されるため、大きな課題となる。
大規模な事前学習型視覚言語モデル(VLM)の最近の進歩は、特に画像内容の理解において、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は、VLMの可能性を生かして、未確認の船舶カテゴリの分類精度を高めることを目的としている。
RS-FGSCを直接微調整するVLMは、目に見えないクラスに最適化され、複雑な背景を識別し、異なる船の特徴を捉えるのが困難である。
これらの課題に対処するために,階層的,多粒度なプロンプト設計を用いた新しいプロンプトチューニング手法を提案する。
我々のアプローチは、小さなトレーニング可能なネットワークから学んだバイアス条件によって、リモートセンシング船の事前情報を統合します。
この戦略は、複雑な背景を識別し、識別可能な船の特徴を学習する能力を改善しながら、モデルの一般化能力を高める。
さらに,FGSCM-52という包括的データセットを導入し,より広範なデータとより一般的な船舶クラスに対する詳細なアノテーションで既存のデータセットを大幅に拡張することで,この分野に貢献する。
大規模実験により,提案手法が現状技術よりも優れていることを示す。
ソースコードは一般公開される予定だ。
Fine-grained ship classification in remote sensing (RS-FGSC) poses a significant challenge due to the high similarity between classes and the limited availability of labeled data, limiting the effectiveness of traditional supervised classification methods. Recent advancements in large pre-trained Vision-Language Models (VLMs) have demonstrated impressive capabilities in few-shot or zero-shot learning, particularly in understanding image content. This study delves into harnessing the potential of VLMs to enhance classification accuracy for unseen ship categories, which holds considerable significance in scenarios with restricted data due to cost or privacy constraints. Directly fine-tuning VLMs for RS-FGSC often encounters the challenge of overfitting the seen classes, resulting in suboptimal generalization to unseen classes, which highlights the difficulty in differentiating complex backgrounds and capturing distinct ship features. To address these issues, we introduce a novel prompt tuning technique that employs a hierarchical, multi-granularity prompt design. Our approach integrates remote sensing ship priors through bias terms, learned from a small trainable network. This strategy enhances the model's generalization capabilities while improving its ability to discern intricate backgrounds and learn discriminative ship features. Furthermore, we contribute to the field by introducing a comprehensive dataset, FGSCM-52, significantly expanding existing datasets with more extensive data and detailed annotations for less common ship classes. Extensive experimental evaluations demonstrate the superiority of our proposed method over current state-of-the-art techniques. The source code will be made publicly available. | 翻訳日:2024-03-14 15:15:56 公開日:2024-03-13 |
# 衣服交換者のためのアイデンティティ対応デュアル制約ネットワーク
再同定
Identity-aware Dual-constraint Network for Cloth-Changing Person Re-identification ( http://arxiv.org/abs/2403.08270v1 ) ライセンス: Link先を確認 | Peini Guo, Mengyuan Liu, Hong Liu, Ruijia Fan, Guoquan Wang, Bin He | (参考訳) CC-ReID(CC-Changing Person Re-Identification)は、歩行者が着替えを行うより現実的な監視シナリオにおいて、対象者を正確に識別することを目的としている。
大きな進歩にもかかわらず、既存のCC-ReIDデータセットの限られた布質変化トレーニングサンプルは、モデルが布質非関連の特徴を適切に学習することを妨げている。
また、布地を常に重視し続けるための明示的な監督が欠如しているため、服のバリエーションの破壊により、既存の手法はいまだに妨げられている。
上記の課題を解決するために,CC-ReIDタスクに対してIDNet(ID-Aware Dual-Constraint Network)を提案する。
具体的には,テクスチャを保ちながら着色を豊かにすることで,よりリアルな着色サンプルを生成する布の多様性向上(CDA)を提案する。
さらに,マルチスケール制約ブロック (MCB) を設計し, きめ細かな識別関連特徴を抽出し, 布の無関係な知識を効果的に伝達する。
さらに,CAM(Counterfactual-Guided Attention Module)を提示し,チャネル次元と空間次元から布地関係の特徴を学習し,注意マップを監督してアイデンティティ関連領域の強調を行う。
最後に、セマンティックアライメント制約(SAC)は、高レベルの意味的特徴の相互作用を容易にするように設計されている。
4つのCC-ReIDデータセットの総合的な実験により、我々の手法は最先端のアプローチよりも優れていることが示された。
Cloth-Changing Person Re-Identification (CC-ReID) aims to accurately identify the target person in more realistic surveillance scenarios, where pedestrians usually change their clothing. Despite great progress, limited cloth-changing training samples in existing CC-ReID datasets still prevent the model from adequately learning cloth-irrelevant features. In addition, due to the absence of explicit supervision to keep the model constantly focused on cloth-irrelevant areas, existing methods are still hampered by the disruption of clothing variations. To solve the above issues, we propose an Identity-aware Dual-constraint Network (IDNet) for the CC-ReID task. Specifically, to help the model extract cloth-irrelevant clues, we propose a Clothes Diversity Augmentation (CDA), which generates more realistic cloth-changing samples by enriching the clothing color while preserving the texture. In addition, a Multi-scale Constraint Block (MCB) is designed, which extracts fine-grained identity-related features and effectively transfers cloth-irrelevant knowledge. Moreover, a Counterfactual-guided Attention Module (CAM) is presented, which learns cloth-irrelevant features from channel and space dimensions and utilizes the counterfactual intervention for supervising the attention map to highlight identity-related regions. Finally, a Semantic Alignment Constraint (SAC) is designed to facilitate high-level semantic feature interaction. Comprehensive experiments on four CC-ReID datasets indicate that our method outperforms prior state-of-the-art approaches. | 翻訳日:2024-03-14 15:15:55 公開日:2024-03-13 |
# Follow-Your-Click:ショートによるオープンドメイン地域画像アニメーション
演目
Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts ( http://arxiv.org/abs/2403.08268v1 ) ライセンス: Link先を確認 | Yue Ma, Yingqing He, Hongfa Wang, Andong Wang, Chenyang Qi, Chengfei Cai, Xiu Li, Zhifeng Li, Heung-Yeung Shum, Wei Liu, and Qifeng Chen | (参考訳) 近年のイメージ・ツー・ビデオ生成の進歩にもかかわらず、制御性の向上と局所アニメーションの探索は少ない。
既存のイメージ・ツー・ビデオの手法の多くは、局所的に認識されておらず、シーン全体を移動させる傾向がある。
しかし、人間の芸術家は異なる物体や地域の動きを制御する必要があるかもしれない。
さらに、現在のI2V方式では、ユーザが対象の動作を記述するだけでなく、フレーム内容の冗長な詳細記述を提供する必要がある。
これらの2つの問題は、現在のI2Vツールの実用化を妨げている。
本稿では,Follow-Your-Clickという,簡単なユーザクリックと短い動作プロンプトで画像アニメーションを実現するための,実用的なフレームワークを提案する。
技術的には、映像生成の質を著しく向上させる第1フレームマスキング戦略と、短動きプロンプトデータセットを備えたモーション拡張モジュールを提案する。
運動速度をより正確に制御するために,より正確に目標運動の速度を制御するフローベース運動量制御を提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
商業ツールと8つのメトリクスに関する研究手法を含む7つの基準線と比較して、大規模な実験は、我々のアプローチの優位性を示唆している。
Project Page: https://follow-your-click.github.io/
Despite recent advances in image-to-video generation, better controllability and local animation are less explored. Most existing image-to-video methods are not locally aware and tend to move the entire scene. However, human artists may need to control the movement of different objects or regions. Additionally, current I2V methods require users not only to describe the target motion but also to provide redundant detailed descriptions of frame contents. These two issues hinder the practical utilization of current I2V tools. In this paper, we propose a practical framework, named Follow-Your-Click, to achieve image animation with a simple user click (for specifying what to move) and a short motion prompt (for specifying how to move). Technically, we propose the first-frame masking strategy, which significantly improves the video generation quality, and a motion-augmented module equipped with a short motion prompt dataset to improve the short prompt following abilities of our model. To further control the motion speed, we propose flow-based motion magnitude control to control the speed of target movement more precisely. Our framework has simpler yet precise user control and better generation performance than previous methods. Extensive experiments compared with 7 baselines, including both commercial tools and research methods on 8 metrics, suggest the superiority of our approach. Project Page: https://follow-your-click.github.io/ | 翻訳日:2024-03-14 15:15:54 公開日:2024-03-13 |
# SNOW-SCA:SNOW-VにおけるML支援サイドチャネル攻撃
SNOW-SCA: ML-assisted Side-Channel Attack on SNOW-V ( http://arxiv.org/abs/2403.08267v1 ) ライセンス: Link先を確認 | Harshit Saurabh, Anupam Golder, Samarth Shivakumar Titti, Suparna Kundu, Chaoyun Li, Angshuman Karmakar, Debayan Das | (参考訳) 本稿では、32ビットARM Cortex-M4マイクロコントローラ上で動作する5Gモバイル通信セキュリティ標準候補であるSNOW-Vの最初の電力側チャネル解析(SCA)攻撃であるSNOW-SCAを提案する。
まず、リーク点を特定するために、一般的な既知のキー相関(KKC)解析を行う。
次に、相関電力解析(CPA)攻撃を行い、攻撃の複雑さを各キーバイト毎に2つのキー推算に削減する。
次に、線形判別分析(LDA)を用いて、正しい秘密鍵を一意に識別する。
LDAによるプロファイルされたSCA攻撃は、トレーニング後に$<200$トレースで100%精度を達成している。
全体として、 \textit{combined CPA and LDA attack}モデルを使用して、正しいシークレットキーバイトをChipWhispererプラットフォームを使用して収集された50個のトレースで回収する。
SNOW-Vの256ビット秘密鍵は、提案したSCA攻撃を用いて段階的に復元できる。
最後に、これらのSCA攻撃を防ぐために使用できる低オーバーヘッド対策を提案する。
This paper presents SNOW-SCA, the first power side-channel analysis (SCA) attack of a 5G mobile communication security standard candidate, SNOW-V, running on a 32-bit ARM Cortex-M4 microcontroller. First, we perform a generic known-key correlation (KKC) analysis to identify the leakage points. Next, a correlation power analysis (CPA) attack is performed, which reduces the attack complexity to two key guesses for each key byte. The correct secret key is then uniquely identified utilizing linear discriminant analysis (LDA). The profiled SCA attack with LDA achieves 100% accuracy after training with $<200$ traces, which means the attack succeeds with just a single trace. Overall, using the \textit{combined CPA and LDA attack} model, the correct secret key byte is recovered with <50 traces collected using the ChipWhisperer platform. The entire 256-bit secret key of SNOW-V can be recovered incrementally using the proposed SCA attack. Finally, we suggest low-overhead countermeasures that can be used to prevent these SCA attacks. | 翻訳日:2024-03-14 15:15:54 公開日:2024-03-13 |
# Sketch2Manga: 拡散モデルによるスケッチからのシェードマンガスクリーニング
Sketch2Manga: Shaded Manga Screening from Sketch with Diffusion Models ( http://arxiv.org/abs/2403.08266v1 ) ライセンス: Link先を確認 | Jian Lin, Xueting Liu, Chengze Li, Minshan Xie, Tien-Tsin Wong | (参考訳) マンガはエンターテイメントとして人気があるが、マンガの制作は面倒であり、特にマンガのスクリーニングというスケッチにスクリーントーンが加えられている。
残念なことに、おそらく高品質の日陰高頻度スクリーントンを生成するのが難しいため、自動マンガスクリーニングの調整方法が存在しない。
古典的なマンガスクリーニング手法は、通常、スクリーントーンの例や参照マンガのイメージを提供するためにユーザー入力を必要とする。
最近のディープラーニングモデルは、大規模なデータセットから学習することで自動生成を可能にする。
しかし、最先端のモデルでは、調整されたモデルと高品質なマンガトレーニングデータがないため、高品質なシェード・スクリーントーンの生成に失敗している。
本稿では,まずスケッチからカラーイラストを作成し,その強度誘導に基づいてスクリーントーンマンガを生成する新しいスケッチ・ツー・マンガフレームワークを提案する。
本手法は, シェード型高周波数スクリーントーンを用いた高品質マンガの製作において, 既存の手法よりも優れていた。
While manga is a popular entertainment form, creating manga is tedious, especially adding screentones to the created sketch, namely manga screening. Unfortunately, there is no existing method that tailors for automatic manga screening, probably due to the difficulty of generating high-quality shaded high-frequency screentones. The classic manga screening approaches generally require user input to provide screentone exemplars or a reference manga image. The recent deep learning models enables the automatic generation by learning from a large-scale dataset. However, the state-of-the-art models still fail to generate high-quality shaded screentones due to the lack of a tailored model and high-quality manga training data. In this paper, we propose a novel sketch-to-manga framework that first generates a color illustration from the sketch and then generates a screentoned manga based on the intensity guidance. Our method significantly outperforms existing methods in generating high-quality manga with shaded high-frequency screentones. | 翻訳日:2024-03-14 15:15:53 公開日:2024-03-13 |
# スパースニューラルネットワークアーキテクチャのベースラインとしてのランダム探索
検索
Random Search as a Baseline for Sparse Neural Network Architecture Search ( http://arxiv.org/abs/2403.08265v1 ) ライセンス: Link先を確認 | Rezsa Farahani | (参考訳) スパースニューラルネットワークは、高パラメータ効率を保ちながら、密度の高いニューラルネットワークと同じような、あるいはより良い一般化性能を示している。
これは、高性能なスパースネットワークを学習、誘導、探索するための多くの研究の動機となった。
品質や効率の向上に関する報告は印象的だが、標準ベースラインが欠如しているため、メソッド間の信頼性の高い互換性と再現性を妨げている。
本研究では,優れたスパース構成を見つけるための評価手法と,素早いランダム検索ベースライン手法を提案する。
オーバパラメータ化されたネットワークのノード空間にランダム探索を適用し、ロスランドスケープにおいてより有利な位置に位置するより優れた初期化スパースサブネットワークを見つけることを目的としている。
我々は,スパース・ネットワーク・ポストトレーニングの性能を様々なレベルにおいて記録し,完全に接続された親ネットワークと同一のスパース・レベルにおけるランダム・スパース・コンフィグレーションを比較した。
本研究では,このアーキテクチャ探索タスクにおいて,ランダムサーチが検出したスパースネットワークが,ランダムサーチよりも効率良く,効率的に収束しないことを示す。
そこで我々は,ランダム探索を空間探索法に適した中立ベースラインと見なすことができると結論付けた。
Sparse neural networks have shown similar or better generalization performance than their dense counterparts while having higher parameter efficiency. This has motivated a number of works to learn, induce, or search for high performing sparse networks. While reports of quality or efficiency gains are impressive, standard baselines are lacking, therefore hindering having reliable comparability and reproducibility across methods. In this work, we provide an evaluation approach and a naive Random Search baseline method for finding good sparse configurations. We apply Random Search on the node space of an overparameterized network with the goal of finding better initialized sparse sub-networks that are positioned more advantageously in the loss landscape. We record sparse network post-training performances at various levels of sparsity and compare against both their fully connected parent networks and random sparse configurations at the same sparsity levels. We observe that for this architecture search task, initialized sparse networks found by Random Search neither perform better nor converge more efficiently than their random counterparts. Thus we conclude that Random Search may be viewed as a suitable neutral baseline for sparsity search methods. | 翻訳日:2024-03-14 15:15:52 公開日:2024-03-13 |
# GPT、オントロジー、CAABAC:三部構成のパーソナライズドアクセス制御
コンプライアンス、コンテキスト、属性によるモデル作成
GPT, Ontology, and CAABAC: A Tripartite Personalized Access Control Model Anchored by Compliance, Context and Attribute ( http://arxiv.org/abs/2403.08264v1 ) ライセンス: Link先を確認 | Raza Nowrozy, Khandakar Ahmed, Hua Wang | (参考訳) デジタル医療が発展するにつれて、電子健康記録(EHR)のセキュリティはますます重要になっている。
本研究は,GPT-Onto-CAABACフレームワーク,GPT(Generative Pretrained Transformer),医法オントロジー,コンテキストアウェア属性ベースアクセス制御(CAABAC)を統合して,EHRアクセスセキュリティを向上させることを目的とする。
従来のモデルとは異なり、GPT-Onto-CAABACはポリシーを動的に解釈し、医療や法的な環境の変化に対応し、カスタマイズされたアクセス制御ソリューションを提供する。
経験的評価により, この枠組みは, アクセス決定を複雑な規制や状況条件と正確に整合させることで, EHRのセキュリティ向上に有効であることが示されている。
この結果は、アクセス制御が厳格なコンプライアンスと適応性基準を満たしなければならない分野において、より広範な適用性を示している。
As digital healthcare evolves, the security of electronic health records (EHR) becomes increasingly crucial. This study presents the GPT-Onto-CAABAC framework, integrating Generative Pretrained Transformer (GPT), medical-legal ontologies and Context-Aware Attribute-Based Access Control (CAABAC) to enhance EHR access security. Unlike traditional models, GPT-Onto-CAABAC dynamically interprets policies and adapts to changing healthcare and legal environments, offering customized access control solutions. Through empirical evaluation, this framework is shown to be effective in improving EHR security by accurately aligning access decisions with complex regulatory and situational requirements. The findings suggest its broader applicability in sectors where access control must meet stringent compliance and adaptability standards. | 翻訳日:2024-03-14 15:15:52 公開日:2024-03-13 |
# BiTT: 相互作用する2つのハンドの双方向テクスチャ再構築
1枚の画像から
BiTT: Bi-directional Texture Reconstruction of Interacting Two Hands from a Single Image ( http://arxiv.org/abs/2403.08262v1 ) ライセンス: Link先を確認 | Minje Kim, Tae-Kyun Kim | (参考訳) パーソナライズされたハンドアバターを作ることは、AR/VRプラットフォーム上のユーザに現実的な体験を提供することが重要です。
従来の研究は3次元手形状の再構築に重点を置いていたが、近年の研究では形状上の手形状の再構築に取り組んできた。
しかし、これらの手法は手の見える側のピクセルを捉えることに制限されることが多く、ビデオや複数の画像を入力として手の動きを多彩に見る必要がある。
本稿では, 両方向(左$\leftrightarrow$ right) テクスチャ再構成を左右のテクスチャ対称性を用いて行い, 2) テクスチャ・パラメトリック・モデルを用いて2つのインタラクション・ハンドのテクスチャを再構築する。
BiTTは、まず、入力画像からシーン光条件とアルベド画像を推定し、その後、テクスチャパラメトリックモデルと双方向テクスチャコンストラクタを通して両手のテクスチャを再構成する。
In experiment using InterHand2.6M and RGB2Hands datasets, we method significantlyforms state-of-the-the-art hand texture reconstruction methods quantitatively and qualitatively。
コードはhttps://github.com/yunminjin2/BiTTで入手できる。
Creating personalized hand avatars is important to offer a realistic experience to users on AR / VR platforms. While most prior studies focused on reconstructing 3D hand shapes, some recent work has tackled the reconstruction of hand textures on top of shapes. However, these methods are often limited to capturing pixels on the visible side of a hand, requiring diverse views of the hand in a video or multiple images as input. In this paper, we propose a novel method, BiTT(Bi-directional Texture reconstruction of Two hands), which is the first end-to-end trainable method for relightable, pose-free texture reconstruction of two interacting hands taking only a single RGB image, by three novel components: 1)\ bi-directional (left $\leftrightarrow$ right) texture reconstruction using the texture symmetry of left / right hands, 2) utilizing a texture parametric model for hand texture recovery, and 3)\ the overall coarse-to-fine stage pipeline for reconstructing personalized texture of two interacting hands. BiTT first estimates the scene light condition and albedo image from an input image, then reconstructs the texture of both hands through the texture parametric model and bi-directional texture reconstructor. In experiments using InterHand2.6M and RGB2Hands datasets, our method significantly outperforms state-of-the-art hand texture reconstruction methods quantitatively and qualitatively. The code is available at https://github.com/yunminjin2/BiTT | 翻訳日:2024-03-14 15:15:51 公開日:2024-03-13 |
# CoroNetGAN: HypernetworksによるGANのプルング制御
CoroNetGAN: Controlled Pruning of GANs via Hypernetworks ( http://arxiv.org/abs/2403.08261v1 ) ライセンス: Link先を確認 | Aman Kumar, Khushboo Anand, Shubham Mandloi, Ashutosh Mishra, Avinash Thakur, Neeraj Kasera, Prathosh A P | (参考訳) Generative Adversarial Networks (GAN) は優れた性能を示し、多くのジェネレーティブコンピュータビジョンアプリケーションで広く利用されている。
しかし、リソース制約のあるエッジデバイスへのGANの展開に対する前例のない需要は、生成プロセスに関わる膨大なパラメータのため、依然として課題となっている。
これにより、GANの圧縮領域に注意が向けられた。
現存する作品の多くは、教師依存のオーバーヘッドを伴う知識蒸留を使用している。
さらに,これらの手法では圧縮の程度を制御できない。
そこで我々は,ハイパネットワークによる識別可能な刈り出し方式の組合せ強度を用いて,GANを圧縮するためのCoroNet-GANを提案する。
提案手法は、トレーニング中に制御可能な圧縮を行い、トレーニング時間を大幅に短縮する。
様々な条件付きGANアーキテクチャ(Pix2PixとCycleGAN)で、Edges-to-Shoes、Horse-to-Zebra、Summer-to-Winterといった複数のベンチマークデータセットに対するアプローチの有効性を示す実験が行われた。
その結果,Zebra-to-HorseとSummer-to-Winterのベースラインをそれぞれ32.3と72.3のFIDスコアで上回り,全データセットで高忠実度画像が得られることがわかった。
さらに,我々のアプローチは,さまざまなスマートフォンチップセットやデータ型に対する推論時間を向上し,エッジデバイス上でのデプロイが可能なソリューションとして,最先端の手法よりも優れています。
Generative Adversarial Networks (GANs) have proven to exhibit remarkable performance and are widely used across many generative computer vision applications. However, the unprecedented demand for the deployment of GANs on resource-constrained edge devices still poses a challenge due to huge number of parameters involved in the generation process. This has led to focused attention on the area of compressing GANs. Most of the existing works use knowledge distillation with the overhead of teacher dependency. Moreover, there is no ability to control the degree of compression in these methods. Hence, we propose CoroNet-GAN for compressing GAN using the combined strength of differentiable pruning method via hypernetworks. The proposed method provides the advantage of performing controllable compression while training along with reducing training time by a substantial factor. Experiments have been done on various conditional GAN architectures (Pix2Pix and CycleGAN) to signify the effectiveness of our approach on multiple benchmark datasets such as Edges-to-Shoes, Horse-to-Zebra and Summer-to-Winter. The results obtained illustrate that our approach succeeds to outperform the baselines on Zebra-to-Horse and Summer-to-Winter achieving the best FID score of 32.3 and 72.3 respectively, yielding high-fidelity images across all the datasets. Additionally, our approach also outperforms the state-of-the-art methods in achieving better inference time on various smart-phone chipsets and data-types making it a feasible solution for deployment on edge devices. | 翻訳日:2024-03-14 15:15:50 公開日:2024-03-13 |
# CAM: GitHub Javaリポジトリのスナップショット集
メートル法
CAM: A Collection of Snapshots of GitHub Java Repositories Together with Metrics ( http://arxiv.org/abs/2403.08488v1 ) ライセンス: Link先を確認 | Yegor Bugayenko | (参考訳) 多くの研究者がソースコードや基本的なメトリクスとともに安定したデータセットを必要としているが、GitHubも他のコードホスティングプラットフォームもそのようなリソースを提供していない。
その結果、各研究者は自身のデータをダウンロードし、必要なメトリクスを計算し、データセットをどこかに公開して、いつまでもアクセス可能であることを保証する必要がある。
私たちのCAM( ``Classes and Metrics'' の略)プロジェクトは、このニーズに対処します。
これは、GitHubからJavaリポジトリをクローンし、不要なファイルをフィルタリングし、Javaクラスを解析し、Cyclomatic Complexity、Halstead Effort and Volume、C\&Kメトリクス、Cantainability Metrics、LCOM5、HNDといった計算メトリクスや、GitベースのMetricsなど、オープンソースのソフトウェアである。
少なくとも年に1回は、非常に強力なサーバ上で最低10日間のプロセスであるスクリプト全体を実行して、新しいデータセットを生成します。
その後、Amazon S3で公開し、研究者のリファレンスとして利用できることを保証します。
2024年3月2日に公開された2.2Gbの最新アーカイブには、クラス毎に48のメトリクスを持つ532KのJavaクラスが含まれています。
Even though numerous researchers require stable datasets along with source code and basic metrics calculated on them, neither GitHub nor any other code hosting platform provides such a resource. Consequently, each researcher must download their own data, compute the necessary metrics, and then publish the dataset somewhere to ensure it remains accessible indefinitely. Our CAM (stands for ``Classes and Metrics'') project addresses this need. It is an open-source software capable of cloning Java repositories from GitHub, filtering out unnecessary files, parsing Java classes, and computing metrics such as Cyclomatic Complexity, Halstead Effort and Volume, C\&K metrics, Maintainability Metrics, LCOM5 and HND, as well as some Git-based Metrics. At least once a year, we execute the entire script, a process which requires a minimum of ten days on a very powerful server, to generate a new dataset. Subsequently, we publish it on Amazon S3, thereby ensuring its availability as a reference for researchers. The latest archive of 2.2Gb that we published on the 2nd of March, 2024 includes 532K Java classes with 48 metrics for each class. | 翻訳日:2024-03-14 14:43:51 公開日:2024-03-13 |
# モデルが語る:拡散モデルのためのトレーニングメンバーシップ推論
Model Will Tell: Training Membership Inference for Diffusion Models ( http://arxiv.org/abs/2403.08487v1 ) ライセンス: Link先を確認 | Xiaomeng Fu, Xi Wang, Qiao Li, Jin Liu, Jiao Dai and Jizhong Han | (参考訳) 拡散モデルは、プライバシ侵害や著作権侵害のリスクを生じさせ、主にトレーニング期間中に不正なデータを潜在的に利用することに由来する。
トレーニングメンバーシップ推論(TMI)タスクは、特定のサンプルがターゲットモデルのトレーニングプロセスで使用されたかどうかを判断することを目的としており、プライバシー違反の検証のための重要なツールである。
しかし、拡散に固有の確率性の増加は、拡散モデルに適用した場合、従来のシャドウモデルまたはメートル法に基づく手法を非効率にする。
さらに、既存の手法では、実用上必要な理解性に欠けるバイナリ分類ラベルしか得られない。
本稿では,拡散モデルにおける本質的な生成先を生かして,TMIタスクの新たな視点を探求する。
未知のサンプルと比較して、トレーニングサンプルは拡散モデル内でより強力な生成前駆体を示し、実質的に劣化したトレーニングイメージの再構築を成功させる。
そこで本研究では,DEC(Degrade Restore Compare)フレームワークを提案する。
この枠組みでは、画像は逐次劣化・復元され、そのメンバーシップは、復元された画像と比較することによって決定される。
実験結果から,提案手法が既存の手法よりも精度的に優れているだけでなく,プライバシー侵害の証拠として,理解可能な判断基準も提供できることが確認された。
Diffusion models pose risks of privacy breaches and copyright disputes, primarily stemming from the potential utilization of unauthorized data during the training phase. The Training Membership Inference (TMI) task aims to determine whether a specific sample has been used in the training process of a target model, representing a critical tool for privacy violation verification. However, the increased stochasticity inherent in diffusion renders traditional shadow-model-based or metric-based methods ineffective when applied to diffusion models. Moreover, existing methods only yield binary classification labels which lack necessary comprehensibility in practical applications. In this paper, we explore a novel perspective for the TMI task by leveraging the intrinsic generative priors within the diffusion model. Compared with unseen samples, training samples exhibit stronger generative priors within the diffusion model, enabling the successful reconstruction of substantially degraded training images. Consequently, we propose the Degrade Restore Compare (DRC) framework. In this framework, an image undergoes sequential degradation and restoration, and its membership is determined by comparing it with the restored counterpart. Experimental results verify that our approach not only significantly outperforms existing methods in terms of accuracy but also provides comprehensible decision criteria, offering evidence for potential privacy violations. | 翻訳日:2024-03-14 14:43:50 公開日:2024-03-13 |
# FISHのためのデータ指向動的微調整パラメータ選択法
マスクを用いた効率的なファインチューニング
Data-oriented Dynamic Fine-tuning Parameter Selection Strategy for FISH Mask based Efficient Fine-tuning ( http://arxiv.org/abs/2403.08484v1 ) ライセンス: Link先を確認 | Ming Dong, Kang Xue, Bolong Zheng, Tingting He | (参考訳) 大規模言語モデル(LLM)の膨大な数のパラメータを考慮すると、すべてのパラメータのチューニングは非常にコストがかかります。
パラメータ効率のよい微調整(PEFT)のほとんどは、加算法、選択法、再パラメータ化に基づく方法などのパラメータ選択戦略に重点を置いている。
しかし、フィッシュマスク法のようなパラメータ選択におけるデータサンプルの影響を考慮する方法はほとんどない。
フィッシュマスクはデータサンプルの一部をランダムに選択し、パラメータ選択時に等しく扱い、不安定なデータ分布に対して最適なパラメータを動的に選択することはできない。
本研究では、データ指向の視点を採用し、次にIRD($mathrm{\underline I}$terative sample-parameter $\mathrm{\underline R}$ange $\mathrm{\underline D}$ecreasing)アルゴリズムを提案し、FISH Maskのサンプルパラメータペアの最適な設定を探索する。
各イテレーションにおいて、より大きな魚情報でサンプルとパラメータのセットを探索することにより、IRDはより優れたサンプルパラメータ対をほとんどのスケールで見つけることができる。
GLUEベンチマークを用いて提案手法の有効性と合理性を示す。
実験結果から,パラメータ選択を最適化し,良好な性能が得られた。
In view of the huge number of parameters of Large language models (LLMs) , tuning all parameters is very costly, and accordingly fine-tuning specific parameters is more sensible. Most of parameter efficient fine-tuning (PEFT) concentrate on parameter selection strategies, such as additive method, selective method and reparametrization-based method. However, there are few methods that consider the impact of data samples on parameter selecting, such as Fish Mask based method. Fish Mask randomly choose a part of data samples and treat them equally during parameter selection, which is unable to dynamically select optimal parameters for inconstant data distributions. In this work, we adopt a data-oriented perspective, then proposing an IRD ($\mathrm{\underline I}$terative sample-parameter $\mathrm{\underline R}$ange $\mathrm{\underline D}$ecreasing) algorithm to search the best setting of sample-parameter pair for FISH Mask. In each iteration, by searching the set of samples and parameters with larger Fish information, IRD can find better sample-parameter pair in most scale. We demonstrate the effectiveness and rationality of proposed strategy by conducting experiments on GLUE benchmark. Experimental results show our strategy optimizes the parameter selection and achieves preferable performance. | 翻訳日:2024-03-14 14:43:49 公開日:2024-03-13 |
# SoK: 微調整言語モデルの脆弱性を軽減する
メンバーシップ推論攻撃
SoK: Reducing the Vulnerability of Fine-tuned Language Models to Membership Inference Attacks ( http://arxiv.org/abs/2403.08481v1 ) ライセンス: Link先を確認 | Guy Amit, Abigail Goldsteen, Ariel Farkash | (参考訳) 近年、自然言語処理モデルが大幅に増加し、多くのアプリケーションが構築されている。
これらのアプリケーションの多くは、カスタマイズされたプロプライエタリなデータセットに基づいて微調整されたジェネリックベースモデルを必要とする。
この微調整されたデータは、個人に関する個人的または機密性の高い情報を含む可能性が高いため、プライバシーリスクが増大する。
メンバシップ推論攻撃は、マシンラーニングモデルのプライバシリークを評価するために最も一般的に使用される攻撃である。
しかし、この種の攻撃に対する言語モデルの脆弱性に影響を与える要因や、言語ドメインにおける異なる防衛戦略の適用性について、限定的な研究が利用可能である。
本稿では,大規模言語モデルによるメンバシップ推論攻撃に対する脆弱性,様々な要因,異なる防衛戦略の有効性について,初めて体系的に検討する。
これらの攻撃に対して最高のプライバシー保護を実現するために、差分プライバシーと低ランク適応器を組み合わせることで、いくつかのトレーニング手法がプライバシーリスクを著しく低減することを発見した。
Natural language processing models have experienced a significant upsurge in recent years, with numerous applications being built upon them. Many of these applications require fine-tuning generic base models on customized, proprietary datasets. This fine-tuning data is especially likely to contain personal or sensitive information about individuals, resulting in increased privacy risk. Membership inference attacks are the most commonly employed attack to assess the privacy leakage of a machine learning model. However, limited research is available on the factors that affect the vulnerability of language models to this kind of attack, or on the applicability of different defense strategies in the language domain. We provide the first systematic review of the vulnerability of fine-tuned large language models to membership inference attacks, the various factors that come into play, and the effectiveness of different defense strategies. We find that some training methods provide significantly reduced privacy risk, with the combination of differential privacy and low-rank adaptors achieving the best privacy protection against these attacks. | 翻訳日:2024-03-14 14:43:49 公開日:2024-03-13 |
# プログラミングタスクにおける開発者の振る舞いを理解して評価する
Understanding and Evaluating Developer Behaviour in Programming Tasks ( http://arxiv.org/abs/2403.08480v1 ) ライセンス: Link先を確認 | Martin Schr\"oer, Rainer Koschke | (参考訳) 開発者がプログラミングタスクをどう解決するかを評価するために、例えば、どのアクションや振る舞いが他の人よりも有益であるか、タスクやプログラムの理解が良いか悪いかを示す具体的な戦略や振る舞いがある場合、IDEとのインタラクションを記録するためにMIMESISプラグインを使用しました。
一連の3つの研究で、特定のプログラミングタスクを解く開発者の具体的な振る舞いを調査した。
私たちは、どのソースコードファイルを訪れたか、どのようにしてコードと知識を他人に関連づけ、いつ、どのようにコード編集を成功させたかに焦点を当てました。
異なる知識レベル,開発スタイル,問題解決階層といった個人間の差異による多様な行動に対処するため,我々は,観察された行動の抽象化を用いて,スキルやスピード,使用した階層といった個々の属性のより良い比較を可能にするとともに,ソフトウェアを用いて反応する振る舞いの後の自動評価を容易にする。
To evaluate how developers perform differently in solving programming tasks, i.e., which actions and behaviours are more beneficial to them than others and if there are any specific strategies and behaviours that may indicate good versus poor understanding of the task and program given to them, we used the MIMESIS plug-in to record developers' interactions with the IDE. In a series of three studies we investigated the specific behaviour of developers solving a specific programming task. We focused on which source code files they visited, how they related pieces of code and knowledge to others and when and how successful they performed code edits. To cope with the variety of behaviours due to interpersonal differences such as different level of knowledge, development style or problem solving stratiegies, we used an abstraction of the observed behaviour, which enables for a better comparison between different individual attributes such as skill, speed and used stratiegies and also facilitates later automatic evaluation of behaviours, i.e. by using a software to react to. | 翻訳日:2024-03-14 14:43:48 公開日:2024-03-13 |
# MD-Dose:放射線治療用マンバを用いた拡散モデル
予測
MD-Dose: A Diffusion Model based on the Mamba for Radiotherapy Dose Prediction ( http://arxiv.org/abs/2403.08479v1 ) ライセンス: Link先を確認 | Linjie Fu and Xia Li and Xiuding Cai and Yingkai Wang and Xueyao Wang and Yali Shen and Yu Yao | (参考訳) 放射線療法はがん治療に欠かせない。
経験豊富な専門家は、通常、高品質な線量分布マップを反復的に生成し、優れた放射線治療計画の基礎を形成する。
したがって, 線量分布図の自動予測は, 治療の迅速化と放射線治療計画の立案に向けた出発点として重要である。
線量分布図の高周波領域予測における拡散モデルの顕著な結果から,拡散モデルに基づく線量予測法が広く研究されている。
しかし、既存の手法は主にCNNやTransformerをデノナイズネットワークとして利用している。
CNNは、グローバルな受信フィールドのキャプチャを欠いているため、最適以下の予測性能が得られる。
トランスフォーマーはグローバルモデリングに優れるが、画像サイズと二次的な複雑さに直面し、計算オーバーヘッドが大幅に増大する。
これらの課題に対処するために,胸部癌患者の放射線治療線量分布を予測するためのMambaアーキテクチャに基づく新しい拡散モデルMD-Doseを導入する。
前処理では、MD-Doseは線量分布マップにガウスノイズを加え、純粋なノイズ画像を得る。
後向きのプロセスでは、MD-Doseはマンバに基づくノイズ予測器を使用してノイズを予測し、最終的に線量分布マップを出力する。
さらに,Mambaエンコーダを開発し,その構造情報を抽出し,計画目標体積(PTV)およびリスク臓器(OAR)における線量領域の局所化のためのノイズ予測器に統合する。
胸部腫瘍患者300名を対象とした広範囲な実験により, MD-Doseの各種測定値と時間消費における優位性を示した。
Radiation therapy is crucial in cancer treatment. Experienced experts typically iteratively generate high-quality dose distribution maps, forming the basis for excellent radiation therapy plans. Therefore, automated prediction of dose distribution maps is significant in expediting the treatment process and providing a better starting point for developing radiation therapy plans. With the remarkable results of diffusion models in predicting high-frequency regions of dose distribution maps, dose prediction methods based on diffusion models have been extensively studied. However, existing methods mainly utilize CNNs or Transformers as denoising networks. CNNs lack the capture of global receptive fields, resulting in suboptimal prediction performance. Transformers excel in global modeling but face quadratic complexity with image size, resulting in significant computational overhead. To tackle these challenges, we introduce a novel diffusion model, MD-Dose, based on the Mamba architecture for predicting radiation therapy dose distribution in thoracic cancer patients. In the forward process, MD-Dose adds Gaussian noise to dose distribution maps to obtain pure noise images. In the backward process, MD-Dose utilizes a noise predictor based on the Mamba to predict the noise, ultimately outputting the dose distribution maps. Furthermore, We develop a Mamba encoder to extract structural information and integrate it into the noise predictor for localizing dose regions in the planning target volume (PTV) and organs at risk (OARs). Through extensive experiments on a dataset of 300 thoracic tumor patients, we showcase the superiority of MD-Dose in various metrics and time consumption. | 翻訳日:2024-03-14 14:43:48 公開日:2024-03-13 |
# ファウショット一般化のためのメタチューニングのパワーの解放
スパース補間専門家
Unleashing the Power of Meta-tuning for Few-shot Generalization Through Sparse Interpolated Experts ( http://arxiv.org/abs/2403.08477v1 ) ライセンス: Link先を確認 | Shengzhuang Chen, Jihoon Tack, Yunqiao Yang, Yee Whye Teh, Jonathan Richard Schwarz, Ying Wei | (参考訳) 従来の知恵は、メタラーニングのような代替案の豊富な文献を置き換える、視覚における伝達学習の最先端の方法として、基礎モデルのパラメータ効率の良い微調整を示唆している。
両方の世界の長所を活用すべく、メタチューニングはその後、基礎モデルの最適化段階を導入するが、今のところ成功は限定的であり、ドメイン外(OOD)タスクでは過小評価されがちである。
本稿では,Sparse MetA-Tuning(SMAT)について紹介する。これはSparse Mixed-of-Expertsアプローチにインスパイアされた手法で,各タスクのメタチューニングのために,事前学習したパラメータのサブセットを自動的に分離するように訓練されている。
SMATはOOD感度を克服し、パラメータ効率の良い微調整を超えて視覚基盤モデルの伝達能力を高めることを約束する。
ゼロショットとグラデーションベースのアダプション設定の両方で、メタデータセットとOODタスクを併用した挑戦的な組み合わせにより、最先端の新たな結果を確立する。
さらに、スパース・エキスパート・メソッドにおける手作業で設計したスパーシティ・パターンよりも学習が優れていることや、ドメイン内とドメイン外一般化のバランスをとる上でのスパーシティ・レベルの重要さについて、徹底的に分析する。
私たちのコードは公開されています。
Conventional wisdom suggests parameter-efficient fine-tuning of foundation models as the state-of-the-art method for transfer learning in vision, replacing the rich literature of alternatives such as meta-learning. In trying to harness the best of both worlds, meta-tuning introduces a subsequent optimization stage of foundation models but has so far only shown limited success and crucially tends to underperform on out-of-domain (OOD) tasks. In this paper, we introduce Sparse MetA-Tuning (SMAT), a method inspired by sparse mixture-of-experts approaches and trained to isolate subsets of pre-trained parameters automatically for meta-tuning on each task. SMAT successfully overcomes OOD sensitivity and delivers on the promise of enhancing the transfer abilities of vision foundation models beyond parameter-efficient finetuning. We establish new state-of-the-art results on a challenging combination of Meta-Dataset augmented with additional OOD tasks in both zero-shot and gradient-based adaptation settings. In addition, we provide a thorough analysis of the superiority of learned over hand-designed sparsity patterns for sparse expert methods and the pivotal importance of the sparsity level in balancing between in-domain and out-of-domain generalization. Our code is publicly available. | 翻訳日:2024-03-14 14:43:47 公開日:2024-03-13 |
# 散逸性量子スピン系における創発的連続時間結晶
運転なしで
Emergent Continuous Time Crystal in Dissipative Quantum Spin System without Driving ( http://arxiv.org/abs/2403.08476v1 ) ライセンス: Link先を確認 | Shu Yang, Zeqing Wang, Libin Fu and Jianwen Jie | (参考訳) 時間結晶は、自発対称性を時間次元に分割する非平衡現象であり、量子多体物理学を理解する上で基本的な重要性を持っている。
本研究では,2次元散逸型ハイゼンベルクスピン系の非平衡相図について,明示的な駆動がない状態で検討する。
スピンダイナミクスを解析することにより、新しい非定常振動状態の出現を数値的に同定する。
これらの状態は、リャプノフ指数に基づいて極限周期とカオスに分類される。
注目すべきことに、観測された極限周期の挙動は連続時間結晶(CTC)を表し、系の連続時間翻訳対称性を自発的に破る。
さらに, 局所摂動に対する安定性について検討し, その振動挙動を検証した。
最後に, 相互作用に等方性ガウス型白色雑音を導入することにより, 創発性CTCのロバスト性について検討する。
この研究は、散逸誘起の崩壊過程と相互作用誘起のスピン沈降の間の複雑な相互作用に関する多くの洞察を与え、散逸性量子多体系の理解を深める。
Time crystal, a nonequilibrium phenomenon extending spontaneous symmetry breaking into the temporal dimension, holds fundamental significance in understanding quantum many-body physics. In this work, we explore the nonequilibrium phase diagram of a two-dimensional dissipative Heisenberg spin system in the absence of explicit driving. We numerically identify the emergence of novel nonstationary oscillatory states by analyzing the spin dynamics. These states are categorized as limit cycle and chaos based on the Lyapunov exponent. Remarkably, the observed limit cycle behavior represents a continuous time crystal (CTC), spontaneously breaking the continuous time translation symmetry of the system. We further confirm those oscillatory behaviors by studying the stability against local perturbations applied to the system. Finally, we investigate the robustness of the emergent CTC by introducing isotropic Gaussian-type white noise into the interactions. This study provides many insights into the intricate interplay between dissipation-induced decay processes and interaction-induced spin precession, deepening our understanding of dissipative quantum many-body systems. | 翻訳日:2024-03-14 14:43:46 公開日:2024-03-13 |
# 平衡からの崩壊相互作用による負のウィグナー関数
Negative Wigner function by decaying interaction from equilibrium ( http://arxiv.org/abs/2403.08474v1 ) ライセンス: Link先を確認 | Michal Kol\'a\v{r}, Radim Filip | (参考訳) 負のウィグナー関数重畳状態を持つボソニック系は、線形化系を超えた非線形量子力学を根本的に目撃しており、最近では多くの応用で量子技術の必須資源となっている。
典型的には、外部ドライブの洗練された組み合わせ、非線形制御、測定または環境へのサブシステムの強い非線形散逸によって現れる。
本稿では,これらの物質を低温の温度平衡で浴槽に弱結合したパラダイム的相互作用量子ビット・オシレータ系における純粋に突然の相互作用減衰を用いて,そのような状態を得るための概念的に異なる,より自律的な方法を提案する。
検出可能な非条件負のウィグナー関数と量子コヒーレンスと、より多くの量子ビットを用いた定性的拡張を同時に示す。
Bosonic systems with negative Wigner function superposition states are fundamentally witnessing nonlinear quantum dynamics beyond linearized systems and, recently, have become essential resources of quantum technology with many applications. Typically, they appear due to sophisticated combination of external drives, nonlinear control, measurements or strong nonlinear dissipation of subsystems to an environment. Here, we propose a conceptually different and more autonomous way to obtain such states, avoiding these ingredients, using purely sudden interaction decay in the paradigmatic interacting qubit-oscillator system weakly coupled to bath at thermal equilibrium in a low-temperature limit. We demonstrate simultaneously detectable unconditional negative Wigner function and quantum coherence and their qualitative enhancement employing more qubits. | 翻訳日:2024-03-14 14:43:46 公開日:2024-03-13 |
# 潜時拡散モデルにおける人間のアライメントの解析
An Analysis of Human Alignment of Latent Diffusion Models ( http://arxiv.org/abs/2403.08469v1 ) ライセンス: Link先を確認 | Lorenz Linhardt and Marco Morik and Sidney Bender and Naima Elosegui Borras | (参考訳) 大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。
それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。
さらに、以前の研究は、ボトルネック層表現を意味的な方向へ分解可能であることを示した。
本研究では,3重の奇数ワンアウトタスクにおいて,このような表現が人間の反応にどの程度うまく一致しているかを解析する。
I) ImageNet-1kでのみトレーニングされたモデルに匹敵する表現的アライメント。
II) Denoiser U-Netの最も整列したレイヤは中間層であり、ボトルネックではありません。
3)テキストコンディショニングは,特に生成初期段階において,抽象的なテキスト情報の重要性を示唆し,高雑音レベルのアライメントを大幅に改善する。
Diffusion models, trained on large amounts of data, showed remarkable performance for image synthesis. They have high error consistency with humans and low texture bias when used for classification. Furthermore, prior work demonstrated the decomposability of their bottleneck layer representations into semantic directions. In this work, we analyze how well such representations are aligned to human responses on a triplet odd-one-out task. We find that despite the aforementioned observations: I) The representational alignment with humans is comparable to that of models trained only on ImageNet-1k. II) The most aligned layers of the denoiser U-Net are intermediate layers and not the bottleneck. III) Text conditioning greatly improves alignment at high noise levels, hinting at the importance of abstract textual information, especially in the early stage of generation. | 翻訳日:2024-03-14 14:43:46 公開日:2024-03-13 |
# 医療用異常検出用誘導型拡散モデル
Diffusion Models with Implicit Guidance for Medical Anomaly Detection ( http://arxiv.org/abs/2403.08464v1 ) ライセンス: Link先を確認 | Cosmin I. Bercea and Benedikt Wiestler and Daniel Rueckert and Julia A. Schnabel | (参考訳) 拡散モデルでは、病理像の擬似健康等価物質への変換を改善することにより、教師なし異常検出が進んでいる。
それでも、標準的なアプローチは、病理学的除去の間に重要な情報を妥協する可能性があるため、元のスキャンで影響を受けていない領域と一致しない復元につながる可能性がある。
このような不一致は、必然的に偽陽性率を高め、特異性を減少させ、放射線学的評価を複雑にする。
本稿では,時間的異常マップを通じて暗黙的誘導を統合することで,音の除去過程を洗練させる,時間的調和による最適回復(THOR)を提案する。
THORは、病理学の影響を受けない領域における健全な組織の完全性を維持することを目的としている。
比較評価では、THORは、脳MRIと手首X線における異常の検出とセグメンテーションにおいて、既存の拡散に基づく手法を超越していることが示されている。
コード:https://github.com/ci-ber/THOR_DDPM。
Diffusion models have advanced unsupervised anomaly detection by improving the transformation of pathological images into pseudo-healthy equivalents. Nonetheless, standard approaches may compromise critical information during pathology removal, leading to restorations that do not align with unaffected regions in the original scans. Such discrepancies can inadvertently increase false positive rates and reduce specificity, complicating radiological evaluations. This paper introduces Temporal Harmonization for Optimal Restoration (THOR), which refines the de-noising process by integrating implicit guidance through temporal anomaly maps. THOR aims to preserve the integrity of healthy tissue in areas unaffected by pathology. Comparative evaluations show that THOR surpasses existing diffusion-based methods in detecting and segmenting anomalies in brain MRIs and wrist X-rays. Code: https://github.com/ci-ber/THOR_DDPM. | 翻訳日:2024-03-14 14:43:45 公開日:2024-03-13 |
# 文法モデルの類似率に基づく著者検証
Authorship Verification based on the Likelihood Ratio of Grammar Models ( http://arxiv.org/abs/2403.08462v1 ) ライセンス: Link先を確認 | Andrea Nini, Oren Halvani, Lukas Graner, Valerio Gherardi, Shunichi Ishihara | (参考訳) 著者検証(英語: Authorship Verification、AV)とは、特定の著者によって書かれたかどうかを判断する一連の文書を分析するプロセスである。
この問題は、問題のある文書が犯罪の証拠となる場合など、法医学的なシナリオでしばしば発生する。
既存の最先端のAV手法では、その機能に関するもっともらしい科学的説明に支えられず、しばしばアナリストが解釈するのが困難である計算解を用いている。
そこで本稿では,著者候補に対する文法のモデルが与えられた文書の確率と,参照集団に対する文法のモデルが与えられた同じ文書の確率との比を,$\lambda_G$ (LambdaG) と呼ぶ量に依存する手法を提案する。
これらの文法モデルは、文法的特徴のみに基づいて訓練された$n$-gram言語モデルを用いて推定される。
トレーニングに大量のデータを必要としないにもかかわらず、LambdaGは依然として、微調整されたSiamese Transformerネットワークを含む、より高度な計算複雑性を持つ既存のAVメソッドよりも優れています。
12のデータセットに適用した4つのベースライン法に基づく経験的評価は、LambdaGが11のケースにおいて精度とAUCの両面で、トピックに依存しない手法のみを考慮すると、12のケースにおいて、より良い結果をもたらすことを示している。
このアルゴリズムは、多くのクロスジャンル比較において、参照人口のジャンルにおいて重要なバリエーションに対して非常に堅牢である。
これらの特性に加えて、現在の最先端技術よりもLambdaGの解釈が簡単であることを示す。
我々は、LambdaGが他の手法よりも優れているのは、言語処理の認知言語学理論と互換性があるという事実からであると主張している。
Authorship Verification (AV) is the process of analyzing a set of documents to determine whether they were written by a specific author. This problem often arises in forensic scenarios, e.g., in cases where the documents in question constitute evidence for a crime. Existing state-of-the-art AV methods use computational solutions that are not supported by a plausible scientific explanation for their functioning and that are often difficult for analysts to interpret. To address this, we propose a method relying on calculating a quantity we call $\lambda_G$ (LambdaG): the ratio between the likelihood of a document given a model of the Grammar for the candidate author and the likelihood of the same document given a model of the Grammar for a reference population. These Grammar Models are estimated using $n$-gram language models that are trained solely on grammatical features. Despite not needing large amounts of data for training, LambdaG still outperforms other established AV methods with higher computational complexity, including a fine-tuned Siamese Transformer network. Our empirical evaluation based on four baseline methods applied to twelve datasets shows that LambdaG leads to better results in terms of both accuracy and AUC in eleven cases and in all twelve cases if considering only topic-agnostic methods. The algorithm is also highly robust to important variations in the genre of the reference population in many cross-genre comparisons. In addition to these properties, we demonstrate how LambdaG is easier to interpret than the current state-of-the-art. We argue that the advantage of LambdaG over other methods is due to fact that it is compatible with Cognitive Linguistic theories of language processing. | 翻訳日:2024-03-14 14:43:45 公開日:2024-03-13 |
# クロスモーダルを用いた高密度・高精度レーダ知覚に向けて
拡散モデル
Towards Dense and Accurate Radar Perception Via Efficient Cross-Modal Diffusion Model ( http://arxiv.org/abs/2403.08460v1 ) ライセンス: Link先を確認 | Ruibin Zhang, Donglai Xue, Yuhan Wang, Ruixu Geng, and Fei Gao | (参考訳) ミリ波レーダー(mmWave)は、極度の気象条件下での運用能力から、学術と産業の両方から大きな注目を集めている。
しかし、マイクロエアロビー(MAV)の自律航法分野への応用を妨げる、空間性やノイズ干渉の観点からは課題に直面している。
そこで本稿では, クロスモーダル学習による高密度かつ高精度なmmWaveレーダポイント雲構築手法を提案する。
具体的には, 2組の生レーダデータからLiDARのような点雲を予測するために, 生成モデルにおける最先端性能を有する拡散モデルを提案する。
また,提案手法が限られた計算資源を持つMAV上で実装可能であることを保証するため,近年の拡散モデル推論の高速化技術も取り入れた。
コードおよび事前トレーニングされたモデルはhttps://github.com/ZJU-FAST-Lab/Radar-Diffusion.comで利用可能になる。
Millimeter wave (mmWave) radars have attracted significant attention from both academia and industry due to their capability to operate in extreme weather conditions. However, they face challenges in terms of sparsity and noise interference, which hinder their application in the field of micro aerial vehicle (MAV) autonomous navigation. To this end, this paper proposes a novel approach to dense and accurate mmWave radar point cloud construction via cross-modal learning. Specifically, we introduce diffusion models, which possess state-of-the-art performance in generative modeling, to predict LiDAR-like point clouds from paired raw radar data. We also incorporate the most recent diffusion model inference accelerating techniques to ensure that the proposed method can be implemented on MAVs with limited computing resources.We validate the proposed method through extensive benchmark comparisons and real-world experiments, demonstrating its superior performance and generalization ability. Code and pretrained models will be available at https://github.com/ZJU-FAST-Lab/Radar-Diffusion. | 翻訳日:2024-03-14 14:43:44 公開日:2024-03-13 |
# 対称ランダムにおける対称性の復元と量子ムペンバ効果
回路
Symmetry restoration and quantum Mpemba effect in symmetric random circuits ( http://arxiv.org/abs/2403.08459v1 ) ライセンス: Link先を確認 | Shuo Liu, Hao-Kai Zhang, Shuai Yin and Shi-Xin Zhang | (参考訳) 対称性破壊の診断ツールや熱化のプロキシとして機能するエンタングルメント非対称性が最近提案され、クエンチを経る量子多体系の対称性回復の文脈で研究されている。
本稿では、様々な対称ランダム量子回路における対称性の復元について、特にU(1)対称性の場合に着目して検討する。
小さいサブシステムのU(1)対称性が常に遅く復元できる非対称ランダム回路とは対照的に、有限サイズのシステムにおいて、ある小さな対称性を破った初期状態に対して、U(1)対称性の回復が失敗することを明らかにする。
初期の力学では、初期状態がより非対称性であるときに対称性がより早く復元されることを示す興味深い量子Mpemba効果が観察される。
さらに、SU(2) と $Z_{2}$ 対称回路の絡み合い非対称性のダイナミクスを調べ、対応する対称性に対する量子 Mpemba 効果の存在と欠如をそれぞれ同定する。
これらの結果の統一的な理解は、保存電荷を持つ量子熱化のレンズを通して提供される。
Entanglement asymmetry, which serves as a diagnostic tool for symmetry breaking and a proxy for thermalization, has recently been proposed and studied in the context of symmetry restoration for quantum many-body systems undergoing a quench. In this Letter, we investigate symmetry restoration in various symmetric random quantum circuits, particularly focusing on the U(1) symmetry case. In contrast to non-symmetric random circuits where the U(1) symmetry of a small subsystem can always be restored at late times, we reveal that symmetry restoration can fail in U(1) symmetric circuits for certain small symmetry-broken initial states in finite-size systems. In the early-time dynamics, we observe an intriguing quantum Mpemba effect implying that symmetry is restored faster when the initial state is more asymmetric. Furthermore, we also investigate the entanglement asymmetry dynamics for SU(2) and $Z_{2}$ symmetric circuits and identify the presence and absence of the quantum Mpemba effect for the corresponding symmetries, respectively. A unified understanding of these results is provided through the lens of quantum thermalization with conserved charges. | 翻訳日:2024-03-14 14:43:43 公開日:2024-03-13 |
# 大型光開口型誘電体マイクロ波共振器
スピンベースの量子デバイス
Dielectric microwave resonator with large optical apertures for spin-based quantum devices ( http://arxiv.org/abs/2403.08458v1 ) ライセンス: Link先を確認 | Tatsuki Hamamoto, Amit Bhunia, Rupak Kumar Bhattacharya, Hiroki Takahashi, Yuimaru Kubo | (参考訳) スピンベース量子マイクロ波光子変換器に向けて、内部品質係数が2.30\times10^4$の低損失誘電体マイクロ波共振器を実証し、直径が8\, \mathrm{mm}$の光開口を調節する。
2つの相反する条件、高品質な係数と大きな光開口は、ルチルの大きな誘電率(\mathrm{TiO_2}$)によって満足される。
この誘電体共振器は共振器囲いの高さを延ばすことで10^6$を超える品質係数を達成できることを数値シミュレーションにより確認した。
この共振器を用いて2,2-ジフェニル-1-ピクリルヒドラジル(DPPH)結晶粉末とP1中心を希釈冷凍機内で連続波(cw)とパルス電子スピン共鳴(ESR)分光を行った。
cw ESR分光法はDPPHとP1中心との高協調性および強いスピン共振器結合を示し,パルスESR分光法は縦方向と横方向の緩和時間の測定に成功している。
Towards a spin-based quantum microwave-optical photon transducer, we demonstrate a low-loss dielectric microwave resonator with an internal quality factor of $2.30\times10^4$ while accommodating optical apertures with a diameter of $8\, \mathrm{mm}$. The two seemingly conflicting requirements, high quality factor and large optical apertures, are satisfied thanks to the large dielectric constant of rutile ($\mathrm{TiO_2}$). The quality factor is limited by radiation loss, and we confirmed by numerical simulation that this dielectric resonator can achieve a quality factor exceeding $10^6$ by extending the height of the resonator enclosure. Using this resonator, we performed both continuous-wave (cw) and pulse electron spin resonance (ESR) spectroscopy on 2,2-diphenyl-1-picrylhydrazyl (DPPH) crystalline powder and P1 centers in a diamond crystal in a dilution refrigerator. The cw ESR spectroscopy demonstrated high-cooperativity and strong spin-resonator coupling with the DPPH and P1 centers respectively, while the pulse ESR spectroscopy successfully measured longitudinal and transverse relaxation times. | 翻訳日:2024-03-14 14:43:43 公開日:2024-03-13 |
# Better Fit: 仮想試着における衣服の種類の変化
Better Fit: Accommodate Variations in Clothing Types for Virtual Try-on ( http://arxiv.org/abs/2403.08453v1 ) ライセンス: Link先を確認 | Xuanpu Zhang and Dan Song and Pengxin Zhan and Qingguo Chen and Kuilong Liu and Anan Liu | (参考訳) 画像ベースの仮想試着は、ターゲットの衣服を着替えたモデル画像に転送することを目的としており、その目的は、試着エリアの外のコンテンツを保存しつつ、ターゲットの服を自然に着、ターゲットの服とオリジナルの服のギャップを正しく塗ることである。
このポピュラーな研究エリアを促進するために、厳重な努力がなされてきたが、原着による試着エリアによる対象服の種類を維持することはできない。
本稿では,対象の衣服や原着が異なる仮想試着環境,すなわち実用シナリオに着目した。
試着領域と衣料品の相関関係を破り,適切な情報を塗り替えて学習させるため,トレーニングマスクを動的に調整する適応型マスクトレーニングパラダイムを提案する。
服のアライメントとフィット性を向上するだけでなく、バーチャルな試着体験の忠実度を大幅に向上させる。
さらに,スケレトンLPIPS (S-LPIPS) とセマンティックDensepose-Ratio (SDR) の2つの評価指標を初めて提案し,衣服の正しさと衣服のテクスチャの精度を評価する。
試行錯誤の検証を行うため,クロストライオンベンチマーク(Cross-27)を構築した。
提案手法の有効性を実証し,バーチャルトライオン技術の進歩に寄与し,今後の研究に新たな洞察とツールを提供する。
コード、モデル、ベンチマークが公開される。
Image-based virtual try-on aims to transfer target in-shop clothing to a dressed model image, the objectives of which are totally taking off original clothing while preserving the contents outside of the try-on area, naturally wearing target clothing and correctly inpainting the gap between target clothing and original clothing. Tremendous efforts have been made to facilitate this popular research area, but cannot keep the type of target clothing with the try-on area affected by original clothing. In this paper, we focus on the unpaired virtual try-on situation where target clothing and original clothing on the model are different, i.e., the practical scenario. To break the correlation between the try-on area and the original clothing and make the model learn the correct information to inpaint, we propose an adaptive mask training paradigm that dynamically adjusts training masks. It not only improves the alignment and fit of clothing but also significantly enhances the fidelity of virtual try-on experience. Furthermore, we for the first time propose two metrics for unpaired try-on evaluation, the Semantic-Densepose-Ratio (SDR) and Skeleton-LPIPS (S-LPIPS), to evaluate the correctness of clothing type and the accuracy of clothing texture. For unpaired try-on validation, we construct a comprehensive cross-try-on benchmark (Cross-27) with distinctive clothing items and model physiques, covering a broad try-on scenarios. Experiments demonstrate the effectiveness of the proposed methods, contributing to the advancement of virtual try-on technology and offering new insights and tools for future research in the field. The code, model and benchmark will be publicly released. | 翻訳日:2024-03-14 14:43:42 公開日:2024-03-13 |
# オープン・ガバメント・データ評価のための統合ユーザビリティ・フレームワーク
ポータル:EUとGCC諸国の比較分析
An Integrated Usability Framework for Evaluating Open Government Data Portals: Comparative Analysis of EU and GCC Countries ( http://arxiv.org/abs/2403.08451v1 ) ライセンス: Link先を確認 | Fillip Molodtsov, Anastasija Nikiforova | (参考訳) 本研究は、多様な利害関係者間の透明性と協力を促進するために、オープン政府データ(OGD)ポータルが果たす重要な役割について考察する。
本稿では,ユーザビリティ,多様な集団とのコミュニケーション,戦略的価値創造の課題を認識し,ユーザの多様性(データリテラシーや言語によらず)を考慮したOGDポータルの有効性評価,コラボレーションと参加の評価,ユーザによるデータ提供の探索と理解を行うための統合フレームワークを開発する。
この枠組みは、欧州連合と湾岸協力理事会(GCC)諸国の33の国家ポータルに適用することで検証され、その結果、OGDポータルをランク付けし、低いパフォーマンスのポータルがそこから学べる優れたプラクティスと共通の欠点を特定します。
特に、この研究はGCC OGDポータルの競争力と革新性を明らかにし、多言語サポートやデータ理解可能性といった特定の改善領域を指摘している。
この結果は、データ品質指標を公開する傾向の高まりを浮き彫りにして、ユーザとポータルの代表者の間の双方向通信チャネルの強化を提唱している。
この研究は、ユーザフレンドリでコラボレーティブで持続可能なOGDポータルの開発を加速し、以前の研究で確認されたギャップに対処するために貢献する。
This study explores the critical role of open government data (OGD) portals in fostering transparency and collaboration between diverse stakeholders. Recognizing the challenges of usability, communication with diverse populations, and strategic value creation, this paper develops an integrated framework for evaluating OGD portal effectiveness that accommodates user diversity (regardless of their data literacy and language), evaluates collaboration and participation, and the ability of users to explore and understand the data provided through them. The framework is validated by applying it to 33 national portals across European Union and Gulf Cooperation Council (GCC) countries, as a result of which we rank OGD portals, identify some good practices that lower-performing portals can learn from, and common shortcomings. Notably, the study unveils the competitive and innovative nature of GCC OGD portals, pinpointing specific improvement areas such as multilingual support and data understandability. The findings underscore the growing trend of exposing data quality metrics and advocate for enhanced two-way communication channels between users and portal representatives. Overall, the study contributes to accelerating the development of user-friendly, collaborative, and sustainable OGD portals while addressing gaps identified in previous research. | 翻訳日:2024-03-14 14:43:42 公開日:2024-03-13 |
# Actor-Critic Physics-informed Neural Lyapunov Control
Actor-Critic Physics-informed Neural Lyapunov Control ( http://arxiv.org/abs/2403.08448v1 ) ライセンス: Link先を確認 | Jiarui Wang and Mahyar Fazlyab | (参考訳) 証明可能な保証付き安定化タスクの制御ポリシーを設計することは、非線形制御における長年の課題である。
重要なパフォーマンス指標は、結果として生じるアトラクションの領域のサイズであり、本質的には不確実性に対する閉ループシステムの堅牢性(margin)として機能する。
本稿では,アクティベーション制約を尊重しつつ,アトラクションの領域を最大化することを目的として,対応するリアプノフ証明とともに安定化ニューラルネットワークコントローラをトレーニングする新しい手法を提案する。
我々のアプローチにとって重要なのは、Zubovの偏微分方程式(Partial Differential Equation, PDE)を使うことであり、これは与えられた制御ポリシーの真の魅力の領域を正確に特徴づけている。
私たちのフレームワークは,コントロールポリシ(アクタ)の改善とZubov関数(アクタ)の学習を交互に行うアクタ批判パターンに従っています。
最後に、トレーニング手順後にSMTソルバを起動することで、アトラクションの最大の認証領域を計算する。
いくつかの設計問題に対する数値実験により, 得られたアトラクション領域のサイズが一貫した, 顕著な改善が見られた。
Designing control policies for stabilization tasks with provable guarantees is a long-standing problem in nonlinear control. A crucial performance metric is the size of the resulting region of attraction, which essentially serves as a robustness "margin" of the closed-loop system against uncertainties. In this paper, we propose a new method to train a stabilizing neural network controller along with its corresponding Lyapunov certificate, aiming to maximize the resulting region of attraction while respecting the actuation constraints. Crucial to our approach is the use of Zubov's Partial Differential Equation (PDE), which precisely characterizes the true region of attraction of a given control policy. Our framework follows an actor-critic pattern where we alternate between improving the control policy (actor) and learning a Zubov function (critic). Finally, we compute the largest certifiable region of attraction by invoking an SMT solver after the training procedure. Our numerical experiments on several design problems show consistent and significant improvements in the size of the resulting region of attraction. | 翻訳日:2024-03-14 14:43:41 公開日:2024-03-13 |
# CoSTREAM:エッジクラウドにおけるオペレータ配置の学習コストモデル
環境
COSTREAM: Learned Cost Models for Operator Placement in Edge-Cloud Environments ( http://arxiv.org/abs/2403.08444v1 ) ライセンス: Link先を確認 | Roman Heinrich, Carsten Binnig, Harald Kornmayer, Manisha Luthra | (参考訳) 本研究では,エッジクラウド環境におけるストリーミングクエリの実行コストの正確な予測を行う分散ストリーム処理システムのための新しい学習コストモデルであるCOSTREAMを提案する。
コストモデルは、不均一なハードウェアにまたがる演算子の初期配置を見つけるために用いられるが、これはこれらの環境において特に重要である。
評価において、COSTREAMは、初期演算子配置の高精度なコスト推定を行い、未知の配置、クエリ、ハードウェアにまで一般化できることを示した。
ストリーミング演算子の配置を最適化するためにCOSTREAMを使用する場合、ベースラインと比較して中央値の21倍のスピードアップを達成することができる。
In this work, we present COSTREAM, a novel learned cost model for Distributed Stream Processing Systems that provides accurate predictions of the execution costs of a streaming query in an edge-cloud environment. The cost model can be used to find an initial placement of operators across heterogeneous hardware, which is particularly important in these environments. In our evaluation, we demonstrate that COSTREAM can produce highly accurate cost estimates for the initial operator placement and even generalize to unseen placements, queries, and hardware. When using COSTREAM to optimize the placements of streaming operators, a median speed-up of around 21x can be achieved compared to baselines. | 翻訳日:2024-03-14 14:43:40 公開日:2024-03-13 |
# 安定化剤基底状態:理論、アルゴリズムおよび応用
Stabilizer ground states: theory, algorithms and applications ( http://arxiv.org/abs/2403.08441v1 ) ライセンス: Link先を確認 | Jiace Sun, Lixue Cheng, Shi-Xin Zhang | (参考訳) 安定化器状態は、単純な数学的構造のため、量子情報、量子エラー補正、量子回路シミュレーションで一般的に利用されてきた。
本研究では、量子多体問題に対処するために安定化器状態を適用し、安定化器基底状態の概念を導入する。
一般のパウリ・ハミルトニアンの安定化基底状態を特定するための簡易な等価形式論を提案する。
さらに、1次元局所ハミルトニアンの安定化基底状態を得るための完全かつ線形スケールのアルゴリズムも開発し、したがって離散最適化は不要である。
この理論形式と線形スケールのアルゴリズムは有限サイズシステムだけでなく、無限周期システムにも適用可能である。
アルゴリズムのスケーラビリティと効率は、異なるハミルトン多様体上で数値的にベンチマークされる。
最後に、安定化器基底状態は、変分量子アルゴリズムのより良い設計、相転移の質的理解、より高度な基底状態アンサーゼのための基礎など、様々な有望な応用を見出すことができることを示した。
Stabilizer states have been commonly utilized in quantum information, quantum error correction, and quantum circuit simulation due to their simple mathematical structure. In this work, we apply stabilizer states to tackle quantum many-body problems and introduce the concept of stabilizer ground states. We present a simplified equivalent formalism for identifying stabilizer ground states of general Pauli Hamiltonians. Moreover, we also develop an exact and linear-scaled algorithm to obtain stabilizer ground states of 1D local Hamiltonians and thus free from discrete optimization. This proposed theoretical formalism and linear-scaled algorithm are not only applicable to finite-size systems, but also adaptable to infinite periodic systems. The scalability and efficiency of the algorithms are numerically benchmarked on different Hamiltonians. Finally, we demonstrate that stabilizer ground states can find various promising applications including better design on variational quantum algorithms, qualitative understanding of phase transitions, and cornerstones for more advanced ground state ansatzes. | 翻訳日:2024-03-14 14:43:40 公開日:2024-03-13 |
# 再現性と幾何学的内在次元に関する研究
グラフニューラルネットワークの研究について
Reproducibility and Geometric Intrinsic Dimensionality: An Investigation on Graph Neural Network Research ( http://arxiv.org/abs/2403.08438v1 ) ライセンス: Link先を確認 | Tobias Hille and Maximilian Stubbemann and Tom Hanika | (参考訳) 近年,機械学習研究における実証的証拠の複製と再現性の難しさが注目されている。
機械学習の研究結果が健全で信頼性の高いことを保証するには再現性が必要であり、同じコードとデータを使って研究結果の信頼性を検証する。
これにより、オープンでアクセス可能な研究、堅牢な実験ワークフロー、そして新しい発見の迅速な統合が促進される。
研究出版物がこれらの再現性の異なる側面をサポートする程度を評価することが,本研究の目標である。
そこで我々は,機械学習における再現性オントロジーを導入し,それをグラフニューラルネットワークの手法に適用する。
データ収集、表現、分析の課題を引き起こす次元の呪いによって、代表データを見つけにくくなり、トレーニングや推論プロセスの妨げになる。
幾何内在次元という密接な結びついた概念を用いて、使用する機械学習モデルの拡張は、トレーニングされたデータセットの内在次元に影響されるかを調べる。
Difficulties in replication and reproducibility of empirical evidences in machine learning research have become a prominent topic in recent years. Ensuring that machine learning research results are sound and reliable requires reproducibility, which verifies the reliability of research findings using the same code and data. This promotes open and accessible research, robust experimental workflows, and the rapid integration of new findings. Evaluating the degree to which research publications support these different aspects of reproducibility is one goal of the present work. For this we introduce an ontology of reproducibility in machine learning and apply it to methods for graph neural networks. Building on these efforts we turn towards another critical challenge in machine learning, namely the curse of dimensionality, which poses challenges in data collection, representation, and analysis, making it harder to find representative data and impeding the training and inference processes. Using the closely linked concept of geometric intrinsic dimension we investigate to which extend the used machine learning models are influenced by the intrinsic dimension of the data sets they are trained on. | 翻訳日:2024-03-14 14:43:39 公開日:2024-03-13 |
# PFStorer: パーソナライズされた顔復元とスーパーリゾリューション
PFStorer: Personalized Face Restoration and Super-Resolution ( http://arxiv.org/abs/2403.08436v1 ) ライセンス: Link先を確認 | Tuomas Varanka, Tapani Toivonen, Soumya Tripathy, Guoying Zhao, Erman Acar | (参考訳) 顔修復の最近の進歩は、高品質でライフスタイルのアウトプットを生み出すことに顕著な成果を上げている。
しかし、驚くべき結果は、モデルに必要なコンテキストが欠如しているため、人のアイデンティティに忠実でないことがしばしばあります。
本稿では,拡散モデルを用いた顔復元の可能性について検討する。
提案手法では, 個人像を用いて復元モデルをパーソナライズし, 詳細な情報を保持しつつ, 個人像に対して調整した復元を行う。
個人化のために独立したトレーニング可能なブロックを使用することで、ベース復元モデルのリッチを最大限活用することができる。
低画質画像に残されているアイデンティティの一部に依存するモデルを避けるために、生成正規化器を用いる。
学習可能なパラメータを用いて、モデルが入力画像に基づいて生成された詳細とパーソナライゼーションの度合いのバランスをとることを学習する。
さらに,顔復元モデルのトレーニングパイプラインを改善し,アライメントのないアプローチを実現する。
複数のアイデンティティを持つ実世界のシナリオにおいて、我々のアプローチの頑健な能力を実証し、忠実な復元できめ細かな詳細を生成する方法の能力を実証する。
ユーザスタディでは、生成された詳細の知覚的品質と忠実度を評価し、その方法が25%の得票率で第2の得票率と比較して61%の得票率で評価された。
Recent developments in face restoration have achieved remarkable results in producing high-quality and lifelike outputs. The stunning results however often fail to be faithful with respect to the identity of the person as the models lack necessary context. In this paper, we explore the potential of personalized face restoration with diffusion models. In our approach a restoration model is personalized using a few images of the identity, leading to tailored restoration with respect to the identity while retaining fine-grained details. By using independent trainable blocks for personalization, the rich prior of a base restoration model can be exploited to its fullest. To avoid the model relying on parts of identity left in the conditioning low-quality images, a generative regularizer is employed. With a learnable parameter, the model learns to balance between the details generated based on the input image and the degree of personalization. Moreover, we improve the training pipeline of face restoration models to enable an alignment-free approach. We showcase the robust capabilities of our approach in several real-world scenarios with multiple identities, demonstrating our method's ability to generate fine-grained details with faithful restoration. In the user study we evaluate the perceptual quality and faithfulness of the genereated details, with our method being voted best 61% of the time compared to the second best with 25% of the votes. | 翻訳日:2024-03-14 14:43:39 公開日:2024-03-13 |
# 視覚言語におけるパラメータの効率的な微調整に関する実証的研究
プレトレインモデル
An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train Model ( http://arxiv.org/abs/2403.08433v1 ) ライセンス: Link先を確認 | Yuxin Tian, Mouxing Yang, Yunfan Li, Dayiheng Liu, Xingzhang Ren, Xi Peng, Jiancheng Lv | (参考訳) 近年, パラメータ効率向上技術 (PEFT) を用いて, プレトレーニングと下流の性能ギャップを効率的に狭めている。
PEFTには、アクセス可能なデータサイズと微調整可能なパラメータサイズという、2つの重要な要素がある。
PEFTの自然な期待は、様々なPEFTの性能がデータサイズと微調整可能なパラメータサイズに肯定的な関係があることである。
しかし、2つの下流視覚言語(VL)タスクにおける5つのPEFTの評価によると、そのような直観は、下流のデータとタスクが事前学習と一致していない場合にのみ成立する。
事前トレーニングと整合した下流の微調整では、データサイズはもはやパフォーマンスに影響を与えず、微調整可能なパラメータサイズの影響は単調ではない。
このような観察は、様々なPEFTのトレーニング戦略の選択を導くことができると信じている。
Recent studies applied Parameter Efficient Fine-Tuning techniques (PEFTs) to efficiently narrow the performance gap between pre-training and downstream. There are two important factors for various PEFTs, namely, the accessible data size and fine-tunable parameter size. A natural expectation for PEFTs is that the performance of various PEFTs is positively related to the data size and fine-tunable parameter size. However, according to the evaluation of five PEFTs on two downstream vision-language (VL) tasks, we find that such an intuition holds only if the downstream data and task are not consistent with pre-training. For downstream fine-tuning consistent with pre-training, data size no longer affects the performance, while the influence of fine-tunable parameter size is not monotonous. We believe such an observation could guide the choice of training strategy for various PEFTs. | 翻訳日:2024-03-14 14:43:38 公開日:2024-03-13 |
# ストーリーポイントのためのLLM学習ショットの探索に基づく最適化
推定
Search-based Optimisation of LLM Learning Shots for Story Point Estimation ( http://arxiv.org/abs/2403.08430v1 ) ライセンス: Link先を確認 | Vali Tawosi, Salwa Alamir, Xiaomo Liu | (参考訳) 機械学習タスクの実行にLarge Language Models(LLM)を使用する方法の1つは、予測を生成する前に、いくつかの例を提供することである。
これは、数ショット学習として知られるメタ学習プロセスである。
本稿では,新しいアジャイルタスクのストーリーポイントを推定する場合に,LLMの見積性能を改善するためのサンプルの数と組み合わせを最適化するために,検索ベースの手法を用いる。
予備的な結果から,SBSE法は3つのデータセットに対して平均59.34%(推定の平均絶対誤差)でLLMの推定性能を向上することが示された。
One of the ways Large Language Models (LLMs) are used to perform machine learning tasks is to provide them with a few examples before asking them to produce a prediction. This is a meta-learning process known as few-shot learning. In this paper, we use available Search-Based methods to optimise the number and combination of examples that can improve an LLM's estimation performance, when it is used to estimate story points for new agile tasks. Our preliminary results show that our SBSE technique improves the estimation performance of the LLM by 59.34% on average (in terms of mean absolute error of the estimation) over three datasets against a zero-shot setting. | 翻訳日:2024-03-14 14:43:38 公開日:2024-03-13 |
# LLMを用いたソフトウェア脆弱性と機能評価
Software Vulnerability and Functionality Assessment using LLMs ( http://arxiv.org/abs/2403.08429v1 ) ライセンス: Link先を確認 | Rasmus Ingemann Tuffveson Jensen, Vali Tawosi, Salwa Alamir | (参考訳) コードレビューはソフトウェア開発プロセスの中心ですが、実行には面倒でコストがかかります。
本稿では,Large Language Models(LLM)がコードレビューにどのように役立つかを検討する。
我々の調査は、良いレビューに欠かせない2つの課題に焦点を当てている。
(i)セキュリティ上の脆弱性のあるコードをフラグ付けし、
i) ソフトウェア機能の検証、すなわち、コードが意図した機能を満たすことを保証する。
両方のタスクのパフォーマンスをテストするために、ゼロショットとチェーンオブ思想を使用して、最終的な `approve or reject' のレコメンデーションを取得する。
データとして、セミナーコード生成データセット(HumanEvalとMBPP)と、CWE(Common Weakness Enumeration)のセキュリティ脆弱性を備えた専門家によるコードスニペットを採用しています。
実験では,OpenAI と小型オープンソース LLM の3つのプロプライエタリモデルについて検討した。
前者は後者よりも大きな差で上回っている。
有望な結果に感動して、私たちは最終的に、セキュリティ脆弱性の詳細な説明をモデルに求めます。
結果は、LCMの生成した記述の36.7%が真のCWE脆弱性と関連していることを示している。
While code review is central to the software development process, it can be tedious and expensive to carry out. In this paper, we investigate whether and how Large Language Models (LLMs) can aid with code reviews. Our investigation focuses on two tasks that we argue are fundamental to good reviews: (i) flagging code with security vulnerabilities and (ii) performing software functionality validation, i.e., ensuring that code meets its intended functionality. To test performance on both tasks, we use zero-shot and chain-of-thought prompting to obtain final ``approve or reject'' recommendations. As data, we employ seminal code generation datasets (HumanEval and MBPP) along with expert-written code snippets with security vulnerabilities from the Common Weakness Enumeration (CWE). Our experiments consider a mixture of three proprietary models from OpenAI and smaller open-source LLMs. We find that the former outperforms the latter by a large margin. Motivated by promising results, we finally ask our models to provide detailed descriptions of security vulnerabilities. Results show that 36.7% of LLM-generated descriptions can be associated with true CWE vulnerabilities. | 翻訳日:2024-03-14 14:43:38 公開日:2024-03-13 |
# DeepCSHAP: 共有価値を活用して、より複雑な価値を説明する
ニューラルネットワーク
DeepCSHAP: Utilizing Shapley Values to Explain Deep Complex-Valued Neural Networks ( http://arxiv.org/abs/2403.08428v1 ) ライセンス: Link先を確認 | Florian Eilers and Xiaoyi Jiang | (参考訳) ディープニューラルネットワークは、医療や自動運転といった安全上の重要な応用を含む、アカデミーや企業や公共のアプリケーションで広く使われている。
アウトプットを説明する能力は、安全上の理由だけでなく、応募者の受け入れにも不可欠である。
実数値ニューラルネットワークを説明するために,多数の手法が提案されている。
近年、複雑な値を持つニューラルネットワークは、$\mathbb{R}^2$に投影することなく、複雑な値を持つ入力データを扱うニューラルネットワークの新しいクラスとして登場した。
これにより、この種のニューラルネットワークのための説明アルゴリズムを開発する必要が生じる。
本稿では,これらの展開について述べる。
我々は、広く使われているDeepSHAPアルゴリズムを複素領域に適用することに注力する一方で、複素数値ニューラルネットワークでの使用に適した4つの勾配に基づく説明方法のバージョンも提示する。
我々は、提示された全てのアルゴリズムの説明品質を評価し、それら全てを、最新の複雑な評価されたニューラルネットワークアーキテクチャに適応可能なオープンソースライブラリとして提供する。
Deep Neural Networks are widely used in academy as well as corporate and public applications, including safety critical applications such as health care and autonomous driving. The ability to explain their output is critical for safety reasons as well as acceptance among applicants. A multitude of methods have been proposed to explain real-valued neural networks. Recently, complex-valued neural networks have emerged as a new class of neural networks dealing with complex-valued input data without the necessity of projecting them onto $\mathbb{R}^2$. This brings up the need to develop explanation algorithms for this kind of neural networks. In this paper we provide these developments. While we focus on adapting the widely used DeepSHAP algorithm to the complex domain, we also present versions of four gradient based explanation methods suitable for use in complex-valued neural networks. We evaluate the explanation quality of all presented algorithms and provide all of them as an open source library adaptable to most recent complex-valued neural network architectures. | 翻訳日:2024-03-14 14:43:37 公開日:2024-03-13 |
# ゼロショットセマンティックセグメンテーションのための言語駆動型ビジュアルコンセンサス
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2403.08426v1 ) ライセンス: Link先を確認 | Zicheng Zhang, Tong Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang, QiXiang Ye, Wei Ke | (参考訳) CLIPで実証された事前学習された視覚言語モデルは、視覚的特徴とクラス埋め込みを変換器デコーダを通じて整列してセマンティックマスクを生成することで、ゼロショットセマンティックセマンティックセマンティックセマンティクスを前進させる。
その効果にもかかわらず、このパラダイムにおける一般的な手法は、見かけのクラスに過度に適合したり、マスクの小さな断片化など、課題に直面している。
これらの問題を緩和するため,言語駆動型ビジュアル・コンセンサス (LDVC) アプローチを提案し,セマンティックと視覚情報の整合性を向上し,クラス埋め込みをアンカーとして活用する。
さらに,視覚的コンセンサスを見出すための自己注意にルートアテンションを導入し,同一物体内の意味的一貫性を向上する。
視覚言語によるプロンプト戦略を取り入れた本手法は,未確認クラスに対するセグメンテーションモデルの一般化能力を大幅に向上させる。
その結果, PASCAL VOC 2012ではmIoUが4.5, COCO-Stuff 164kでは3.6であった。
The pre-trained vision-language model, exemplified by CLIP, advances zero-shot semantic segmentation by aligning visual features with class embeddings through a transformer decoder to generate semantic masks. Despite its effectiveness, prevailing methods within this paradigm encounter challenges, including overfitting on seen classes and small fragmentation in masks. To mitigate these issues, we propose a Language-Driven Visual Consensus (LDVC) approach, fostering improved alignment of semantic and visual information.Specifically, we leverage class embeddings as anchors due to their discrete and abstract nature, steering vision features toward class embeddings. Moreover, to circumvent noisy alignments from the vision part due to its redundant nature, we introduce route attention into self-attention for finding visual consensus, thereby enhancing semantic consistency within the same object. Equipped with a vision-language prompting strategy, our approach significantly boosts the generalization capacity of segmentation models for unseen classes. Experimental results underscore the effectiveness of our approach, showcasing mIoU gains of 4.5 on the PASCAL VOC 2012 and 3.6 on the COCO-Stuff 164k for unseen classes compared with the state-of-the-art methods. | 翻訳日:2024-03-14 14:43:37 公開日:2024-03-13 |
# 人工知能における仕様オーバーフィッティング
Specification Overfitting in Artificial Intelligence ( http://arxiv.org/abs/2403.08425v1 ) ライセンス: Link先を確認 | Benjamin Roth, Pedro Henrique Luz de Araujo, Yuxi Xia, Saskia Kaltenbrunner and Christoph Korab | (参考訳) 機械学習(ML)と人工知能(AI)のアプローチは、その固有のバイアスと、制御の欠如、説明責任、透明性のためにしばしば批判される。
その結果、規制機関は、この技術の潜在的な負の副作用を含むことに苦慮している。
フェアネスやロバストネスといった高レベルの要件は、具体的な仕様メトリクス、不完全なプロキシに形式化されて、基盤となる要件の分離された側面をキャプチャする必要があります。
異なるメトリクス間のトレードオフの可能性と過度な最適化の脆弱性を考えると、システム開発プロセスに仕様メトリクスを統合することは簡単ではありません。
本稿では,高レベルの要求とタスク性能の低下に対して,特定の指標に過度に注目するシナリオである仕様オーバーフィッティングを定義する。
我々は、研究者がいくつかのAI分野(自然言語処理、コンピュータビジョン、強化学習など)の仕様メトリクスを提案し、測定し、最適化する方法を分類するために、広範な文献調査を行う。
2018年から2023年半ばにかけて、主要なAIカンファレンスやジャーナルの論文に対するキーワードベースの検索を使用して、仕様メトリクスの提案や最適化を行う74の論文を特定し、分析する。
ほとんどの論文では、仕様の過剰適合(例えば、1つ以上の仕様のメトリクスを報告することで)を暗黙的に解決していますが、システム開発においてどの役割の仕様のメトリクスが機能すべきかを議論したり、メトリクスの定式化の背後にあるスコープと仮定を明確に定義したりすることはめったにありません。
Machine learning (ML) and artificial intelligence (AI) approaches are often criticized for their inherent bias and for their lack of control, accountability, and transparency. Consequently, regulatory bodies struggle with containing this technology's potential negative side effects. High-level requirements such as fairness and robustness need to be formalized into concrete specification metrics, imperfect proxies that capture isolated aspects of the underlying requirements. Given possible trade-offs between different metrics and their vulnerability to over-optimization, integrating specification metrics in system development processes is not trivial. This paper defines specification overfitting, a scenario where systems focus excessively on specified metrics to the detriment of high-level requirements and task performance. We present an extensive literature survey to categorize how researchers propose, measure, and optimize specification metrics in several AI fields (e.g., natural language processing, computer vision, reinforcement learning). Using a keyword-based search on papers from major AI conferences and journals between 2018 and mid-2023, we identify and analyze 74 papers that propose or optimize specification metrics. We find that although most papers implicitly address specification overfitting (e.g., by reporting more than one specification metric), they rarely discuss which role specification metrics should play in system development or explicitly define the scope and assumptions behind metric formulations. | 翻訳日:2024-03-14 14:43:36 公開日:2024-03-13 |
# Tastle: 自動脱獄攻撃のための大規模言語モデルを抽出する
Tastle: Distract Large Language Models for Automatic Jailbreak Attack ( http://arxiv.org/abs/2403.08424v1 ) ライセンス: Link先を確認 | Zeguan Xiao, Yan Yang, Guanhua Chen, Yun Chen | (参考訳) 大規模言語モデル (LLM) は近年大きな進歩を遂げている。
LLMの公開前に、その行動と人間の価値を一致させるために、広範囲にわたる努力がなされている。
アライメントの第一の目的は、彼らの役に立つこと、正直であること、無害であることを保証することです。
しかし、厳格に整列したLSMでさえ、ジェイルブレイクのような悪意のある操作に弱いままであり、意図しない行動に繋がる。
脱獄は故意にLLMのセキュリティ制限から逃れる悪意のあるプロンプトを開発し、無検閲の有害な有害なコンテンツを生成することである。
以前の作業では、レッドチームLDMのためのさまざまなjailbreakメソッドを探索していましたが、有効性とスケーラビリティに関する課題に直面しています。
本研究では,LDMの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークであるTastleを提案する。
我々は,不正なコンテンツの隠蔽とメモリリフレーミングを反復的最適化アルゴリズムを用いて設計し,LLMの障害性と過信現象の研究に動機づけられた。
オープンソースとプロプライエタリなLDMの両方をジェイルブレイクする大規模な実験は、有効性、スケーラビリティ、転送性の観点から、我々のフレームワークの優位性を実証している。
また,既存のジェイルブレイク防御手法の攻撃に対する効果を評価し,より効果的で実用的な防衛戦略を開発することの必要性を強調した。
Large language models (LLMs) have achieved significant advances in recent days. Extensive efforts have been made before the public release of LLMs to align their behaviors with human values. The primary goal of alignment is to ensure their helpfulness, honesty and harmlessness. However, even meticulously aligned LLMs remain vulnerable to malicious manipulations such as jailbreaking, leading to unintended behaviors. The jailbreak is to intentionally develop a malicious prompt that escapes from the LLM security restrictions to produce uncensored detrimental contents. Previous works explore different jailbreak methods for red teaming LLMs, yet they encounter challenges regarding to effectiveness and scalability. In this work, we propose Tastle, a novel black-box jailbreak framework for automated red teaming of LLMs. We designed malicious content concealing and memory reframing with an iterative optimization algorithm to jailbreak LLMs, motivated by the research about the distractibility and over-confidence phenomenon of LLMs. Extensive experiments of jailbreaking both open-source and proprietary LLMs demonstrate the superiority of our framework in terms of effectiveness, scalability and transferability. We also evaluate the effectiveness of existing jailbreak defense methods against our attack and highlight the crucial need to develop more effective and practical defense strategies. | 翻訳日:2024-03-14 14:43:35 公開日:2024-03-13 |
# ノイズモニタリングされた2量子ビットの絡み合いに対する確率的作用
システム
Stochastic action for the entanglement of a noisy monitored two-qubit system ( http://arxiv.org/abs/2403.08422v1 ) ライセンス: Link先を確認 | Dominic Shea and Alessandro Romito | (参考訳) 局所的な一意雑音が局所的なモニタリングおよび量子間カップリングを受ける2ビット系の絡み合い進化に及ぼす影響について検討した。
本稿では,Chantasri-Dressel-Jordan経路積分に雑音を組み込んで確率的ハミルトニアンを構築し,それを最適絡み合い力学の同定に利用し,ノイズと測定強度に解析的依存した平均絡み合い力学の閉形式近似の図式化法を開発する。
最適軌道と図形展開の両方が短時間で絡み合いの振動を捉えていることがわかった。
長時間定常エンタングルメントの数値解析により,コンカレンスと雑音強度の非単調な関係が明らかとなった。
We study the effect of local unitary noise on the entanglement evolution of a two-qubit system subject to local monitoring and inter-qubit coupling. We construct a stochastic Hamiltonian by incorporating the noise into the Chantasri-Dressel-Jordan path integral and use it to identify the optimal entanglement dynamics and to develop a diagrammatic method for a closed-form approximation of the average entanglement dynamics with an analytical dependence on the noise and measurement intensity. We find that both the optimal trajectory and diagrammatic expansion capture the oscillations of entanglement at short times. Numerical investigation of long-time steady-state entanglement reveals a non-monotonic relationship between concurrence and noise strength. | 翻訳日:2024-03-14 14:43:35 公開日:2024-03-13 |
# 低コスト・実時間産業人間行動認識
大規模ファンデーションモデル
Low-Cost and Real-Time Industrial Human Action Recognitions Based on Large-Scale Foundation Models ( http://arxiv.org/abs/2403.08420v1 ) ライセンス: Link先を確認 | Wensheng Liang, Ruiyan Zhuang, Xianwei Shi, Shuai Li, Zhicheng Wang, and Xiaoguang Ma | (参考訳) 品質管理、コストと安全性の最適化などの産業経営は、高コストと低リアルタイム性能のために大規模産業シーンで実施が困難であった高品質な産業人間行動認識(IHAR)に大きく依存している。
本稿では,低コストデータセット構築とリアルタイムIHARを実現するために,LSFMを用いた大規模基盤モデル (LSFM) を提案する。
大規模生産ラインの総合的な試験により, 提案手法は雇用コストの大幅な削減, リアルタイム性能の向上, 良好な精度と一般化能力を実現し, 特に大規模産業用途において, バックボーンIHAR法としての可能性を示した。
Industrial managements, including quality control, cost and safety optimization, etc., heavily rely on high quality industrial human action recognitions (IHARs) which were hard to be implemented in large-scale industrial scenes due to their high costs and poor real-time performance. In this paper, we proposed a large-scale foundation model(LSFM)-based IHAR method, wherein various LSFMs and lightweight methods were jointly used, for the first time, to fulfill low-cost dataset establishment and real-time IHARs. Comprehensive tests on in-situ large-scale industrial manufacturing lines elucidated that the proposed method realized great reduction on employment costs, superior real-time performance, and satisfactory accuracy and generalization capabilities, indicating its great potential as a backbone IHAR method, especially for large-scale industrial applications. | 翻訳日:2024-03-14 14:43:34 公開日:2024-03-13 |
# 機械学習に基づくモバイルの開発と性能
小児病理の病因を視覚的に決定するプラットフォーム
The Development and Performance of a Machine Learning Based Mobile Platform for Visually Determining the Etiology of Penile Pathology ( http://arxiv.org/abs/2403.08417v1 ) ライセンス: Link先を確認 | Lao-Tzu Allan-Blitz, Sithira Ambepitiya, Raghavendra Tirupathi, Jeffrey D. Klausner, Yudara Kularathne | (参考訳) 機械学習アルゴリズムは、性的健康サービスへのアクセスにおける格差に対処するために、低コストでユーザガイド付きビジュアル診断プラットフォームを促進することができる。
本研究は, 陰茎破裂, 梅毒シャンクレス, 陰茎カンジダ症, 陰茎癌, 生殖器の5つの疾患に対して, 原画像と増感画像を用いた臨床像データセットを開発した。
Inception-ResNetバージョン2のニューラルアーキテクチャを用いて、各ピクセルを疾患または非疾患と分類し、GradCAM++を用いたサリエンスマップを作成した。
画像毎150エポックを用いて画像データベースのランダムな91%のサンプルを用いてモデルを訓練し、残りの9%のイメージに対して、リコール(または感度)、精度、特異性、F1スコア(精度)を評価した。
検証データセットの239枚の画像のうち、45 (18.8%) は性器用ワート、43 (18.0%) はHSV感染症、29 (12.1%) は陰茎癌、40 (16.7%) は陰茎性カンジダ症、37 (15.5%) は梅毒性シャンク、45 (18.8%) は非溶解性ペニスである。
疾患像を正しく分類するためのモデルの総合的精度は0.944。
2023年7月1日から10月1日までの間に、このモバイルプラットフォームには2,640人のユニークユーザーがいた。
ランダムなサンプル(n=437)のうち271(62.0%)はアメリカから64(14.6%)、カンディアから41(9.4%)、イギリスから40(9.2%)、ベトナムから21(4.8%)であった。
過半数(n=277 [63.4%)は18歳から30歳の間である。
本稿では,5つの小児疾患を分類する機械学習モデルの開発について報告する。
このモデルは現在世界中で使用されており、ペニス病の診断サービスへのアクセスを改善する可能性を秘めている。
Machine-learning algorithms can facilitate low-cost, user-guided visual diagnostic platforms for addressing disparities in access to sexual health services. We developed a clinical image dataset using original and augmented images for five penile diseases: herpes eruption, syphilitic chancres, penile candidiasis, penile cancer, and genital warts. We used a U-net architecture model for semantic pixel segmentation into background or subject image, the Inception-ResNet version 2 neural architecture to classify each pixel as diseased or non-diseased, and a salience map using GradCAM++. We trained the model on a random 91% sample of the image database using 150 epochs per image, and evaluated the model on the remaining 9% of images, assessing recall (or sensitivity), precision, specificity, and F1-score (accuracy). Of the 239 images in the validation dataset, 45 (18.8%) were of genital warts, 43 (18.0%) were of HSV infection, 29 (12.1%) were of penile cancer, 40 (16.7%) were of penile candidiasis, 37 (15.5%) were of syphilitic chancres, and 45 (18.8%) were of non-diseased penises. The overall accuracy of the model for correctly classifying the diseased image was 0.944. Between July 1st and October 1st 2023, there were 2,640 unique users of the mobile platform. Among a random sample of submissions (n=437), 271 (62.0%) were from the United States, 64 (14.6%) from Singapore, 41 (9.4%) from Candia, 40 (9.2%) from the United Kingdom, and 21 (4.8%) from Vietnam. The majority (n=277 [63.4%]) were between 18 and 30 years old. We report on the development of a machine-learning model for classifying five penile diseases, which demonstrated excellent performance on a validation dataset. That model is currently in use globally and has the potential to improve access to diagnostic services for penile diseases. | 翻訳日:2024-03-14 14:43:34 公開日:2024-03-13 |
# 火災危険予測のための因果グラフニューラルネットワーク
Causal Graph Neural Networks for Wildfire Danger Prediction ( http://arxiv.org/abs/2403.08414v1 ) ライセンス: Link先を確認 | Shan Zhao, Ioannis Prapas, Ilektra Karasante, Zhitong Xiong, Ioannis Papoutsis, Gustau Camps-Valls, Xiao Xiang Zhu | (参考訳) 森林火災の予報は、気象条件、植生の種類、人的活動など様々な要因の複雑な相互作用のため、非常に難しいことが知られている。
ディープラーニングモデルは、データから直接学習することで、この複雑さを扱うことを約束している。
しかし、批判的な決定を下すには、正しい理由のために正しいモデルが必要である、と我々は主張する。
そこで我々は,グラフ学習を通じて複雑な変数間の因果関係を明示的にモデル化するグラフニューラルネットワーク(GNN)と因果関係を統合することを提案する。
因果親和性行列は変数間の相乗効果を考慮し、高相関な影響からスプリアスリンクを除去する。
本手法の有効性は,ヨーロッパ産シロイヌナズナおよび地中海産シロイヌナズナの森林火災パターンの優れた予測によって実証される。
この利得は、特に高度に不均衡なデータセットにおいて顕著であり、機能的関係のレギュラーシフトに適応するためにモデルの堅牢性を高めたことを示している。
さらに、トレーニングされたモデルからのSHAP値は、モデルの内部動作の理解をさらに高めます。
Wildfire forecasting is notoriously hard due to the complex interplay of different factors such as weather conditions, vegetation types and human activities. Deep learning models show promise in dealing with this complexity by learning directly from data. However, to inform critical decision making, we argue that we need models that are right for the right reasons; that is, the implicit rules learned should be grounded by the underlying processes driving wildfires. In that direction, we propose integrating causality with Graph Neural Networks (GNNs) that explicitly model the causal mechanism among complex variables via graph learning. The causal adjacency matrix considers the synergistic effect among variables and removes the spurious links from highly correlated impacts. Our methodology's effectiveness is demonstrated through superior performance forecasting wildfire patterns in the European boreal and mediterranean biome. The gain is especially prominent in a highly imbalanced dataset, showcasing an enhanced robustness of the model to adapt to regime shifts in functional relationships. Furthermore, SHAP values from our trained model further enhance our understanding of the model's inner workings. | 翻訳日:2024-03-14 14:43:33 公開日:2024-03-13 |
# Jeffries-Matusita 距離を減らす: 改善のための新しい損失関数
深部分類モデルの一般化性能
Reduced Jeffries-Matusita distance: A Novel Loss Function to Improve Generalization Performance of Deep Classification Models ( http://arxiv.org/abs/2403.08408v1 ) ライセンス: Link先を確認 | Mohammad Lashkari, Amin Gheibi | (参考訳) 分類タスクにおけるディープニューラルネットワークの一般化性能は、機械学習研究の大きな関心事である。
データ強化、擬似ラベル付け、正規化、アンサンブル学習といった過度に適合する問題を減らそうとする広範囲なテクニックにもかかわらず、このパフォーマンスは他のアプローチで強化する必要がある。
近年、損失関数の特徴、すなわちそのリプシッツ性と最大値が、新しい距離測度を提案するためのガイダンスとして利用できるディープニューラルネットワークの一般化性能に影響を与えることが理論的に証明されている。
本稿では、上記の特徴を解析することにより、深層分類モデルの訓練における損失関数としてReduced Jeffries-Matusitaと呼ばれる距離を導入し、過度に適合する問題を解消する。
実験では、コンピュータビジョンにおける画像分類とグラフ学習におけるノード分類の2つの異なる問題において、新たな損失関数を評価する。
その結果、トレーニングセットのサイズが小さい場合でも、新しい距離測定はトレーニングプロセスを著しく安定化させ、一般化能力を高め、精度とF1スコアの指標におけるモデルの性能を向上させることを示した。
The generalization performance of deep neural networks in classification tasks is a major concern in machine learning research. Despite widespread techniques used to diminish the over-fitting issue such as data augmentation, pseudo-labeling, regularization, and ensemble learning, this performance still needs to be enhanced with other approaches. In recent years, it has been theoretically demonstrated that the loss function characteristics i.e. its Lipschitzness and maximum value affect the generalization performance of deep neural networks which can be utilized as a guidance to propose novel distance measures. In this paper, by analyzing the aforementioned characteristics, we introduce a distance called Reduced Jeffries-Matusita as a loss function for training deep classification models to reduce the over-fitting issue. In our experiments, we evaluate the new loss function in two different problems: image classification in computer vision and node classification in the context of graph learning. The results show that the new distance measure stabilizes the training process significantly, enhances the generalization ability, and improves the performance of the models in the Accuracy and F1-score metrics, even if the training set size is small. | 翻訳日:2024-03-14 14:43:32 公開日:2024-03-13 |
# 不均衡を考慮した拡散モデルによる反復的オンライン画像合成
分類
Iterative Online Image Synthesis via Diffusion Model for Imbalanced Classification ( http://arxiv.org/abs/2403.08407v1 ) ライセンス: Link先を確認 | Shuhan Li, Yi Lin, Hao Chen, Kwang-Ting Cheng | (参考訳) 正確な疾患分類は適切な診断と治療に重要である。
しかしながら、医療データセットは、データ収集の困難さや、さまざまな種類の疾患の頻度の変化のために、限られたサンプルサイズと固有の不均衡分布に関連する課題に直面することが多い。
本稿では,医用画像分類におけるクラス不均衡問題に対処する反復オンライン画像合成(IOIS)フレームワークを提案する。
本フレームワークは,オンライン画像合成(OIS)と適応サンプリング(AAS)という2つの重要なモジュールを組み込んでいる。
OISモジュールは、分類器のオンライントレーニングに適した代表サンプルを生成することにより、データ不足を緩和する。
一方、AASモジュールは、様々なクラスで合成されたサンプルを動的にバランスさせ、訓練精度の低いものをターゲットにしている。
不均衡な分類に対処するための提案手法の有効性を評価するため,HAM10000およびAPTOSデータセットを用いて実験を行った。
その結果,最先端手法に対するアプローチの優位性と,各コンポーネントの有効性が示された。
ソースコードは受理時に公開される。
Accurate and robust classification of diseases is important for proper diagnosis and treatment. However, medical datasets often face challenges related to limited sample sizes and inherent imbalanced distributions, due to difficulties in data collection and variations in disease prevalence across different types. In this paper, we introduce an Iterative Online Image Synthesis (IOIS) framework to address the class imbalance problem in medical image classification. Our framework incorporates two key modules, namely Online Image Synthesis (OIS) and Accuracy Adaptive Sampling (AAS), which collectively target the imbalance classification issue at both the instance level and the class level. The OIS module alleviates the data insufficiency problem by generating representative samples tailored for online training of the classifier. On the other hand, the AAS module dynamically balances the synthesized samples among various classes, targeting those with low training accuracy. To evaluate the effectiveness of our proposed method in addressing imbalanced classification, we conduct experiments on the HAM10000 and APTOS datasets. The results obtained demonstrate the superiority of our approach over state-of-the-art methods as well as the effectiveness of each component. The source code will be released upon acceptance. | 翻訳日:2024-03-14 14:43:32 公開日:2024-03-13 |
# 離散量子フィードバック制御のトポロジー
Topology of Discrete Quantum Feedback Control ( http://arxiv.org/abs/2403.08406v1 ) ライセンス: Link先を確認 | Masaya Nakagawa, Masahito Ueda | (参考訳) 単一粒子系の量子チャネルのトポロジーを解析するための一般的なフレームワークを開発し、離散的な量子フィードバック制御によって実現できる真の動的トポロジー位相のクラスを見つける。
離散的量子フィードバック制御の10種類の対称性クラスを射影測定で同定することにより、量子チャネルの対称性分類を行う。
音やデコヒーレンスに対する強靭なフィードバック制御やヘリカルトランスポートを実現するトポロジカルマックスウェルのデーモンを用いて,様々な種類のトポロジカルフィードバック制御を構築した。
したがって、トポロジカルフィードバック制御は、非エルミート系とリンドブラディアン系とは異なる開量子系における非平衡トポロジカル位相の生成と制御のための汎用的なツールを提供し、量子フィードバック制御のトポロジに基づく設計の指針を与える必要がある。
A general framework for analyzing topology of quantum channels of single-particle systems is developed to find a class of genuinely dynamical topological phases that can be realized by means of discrete quantum feedback control. We provide a symmetry classification of quantum channels by identifying ten symmetry classes of discrete quantum feedback control with projective measurements. We construct various types of topological feedback control by using topological Maxwell's demons that achieve robust feedback-controlled chiral or helical transport against noise and decoherence. Topological feedback control thus offers a versatile tool for creating and controlling nonequilibrium topological phases in open quantum systems that are distinct from non-Hermitian and Lindbladian systems and should provide a guiding principle for topology-based design of quantum feedback control. | 翻訳日:2024-03-14 14:43:31 公開日:2024-03-13 |
# FSDR: Pseudoのための新しいディープラーニングベースの特徴選択アルゴリズム
離散緩和を用いた時系列データ
FSDR: A Novel Deep Learning-based Feature Selection Algorithm for Pseudo Time-Series Data using Discrete Relaxation ( http://arxiv.org/abs/2403.08403v1 ) ライセンス: Link先を確認 | Mohammad Rahman, Manzur Murshed, Shyh Wei Teng, Manoranjan Paul | (参考訳) Pseudo Time-Series(PTS)データに適用される従来の特徴選択アルゴリズムは、従来の時間次元に従わずに逐次的に配置された観測からなり、高次元データを伴う非現実的な計算複雑性を示すことが多い。
この課題に対処するために,PTSデータに適した,Deep Learning (DL) ベースの特徴選択アルゴリズムである,離散緩和(FSDR)による特徴選択を導入する。
既存の特徴選択アルゴリズムとは異なり、FSDRは離散緩和を用いてモデルパラメータとして重要な特徴を学習する。
FSDRは、既存のDLベースまたは従来のメソッドの範囲を超えて、多数の特徴次元を収容することができる。
実験結果は,超スペクトルデータセット(PSSデータの一種)のテストを通じて,FSDRが3つの一般的な特徴選択アルゴリズムを上回り,実行時間,R^2$,RMSE$のバランスを考慮した。
Conventional feature selection algorithms applied to Pseudo Time-Series (PTS) data, which consists of observations arranged in sequential order without adhering to a conventional temporal dimension, often exhibit impractical computational complexities with high dimensional data. To address this challenge, we introduce a Deep Learning (DL)-based feature selection algorithm: Feature Selection through Discrete Relaxation (FSDR), tailored for PTS data. Unlike the existing feature selection algorithms, FSDR learns the important features as model parameters using discrete relaxation, which refers to the process of approximating a discrete optimisation problem with a continuous one. FSDR is capable of accommodating a high number of feature dimensions, a capability beyond the reach of existing DL-based or traditional methods. Through testing on a hyperspectral dataset (i.e., a type of PTS data), our experimental results demonstrate that FSDR outperforms three commonly used feature selection algorithms, taking into account a balance among execution time, $R^2$, and $RMSE$. | 翻訳日:2024-03-14 14:43:31 公開日:2024-03-13 |
# 複数のAIエージェントを用いた体系的文献レビューシステム
概念と実証評価
System for systematic literature review using multiple AI agents: Concept and an empirical evaluation ( http://arxiv.org/abs/2403.08399v1 ) ライセンス: Link先を確認 | Abdul Malik Sami, Zeeshan Rasheed, Kai-Kristian Kemell, Muhammad Waseem, Terhi Kilamo, Mika Saari, Anh Nguyen Duc, Kari Syst\"a, Pekka Abrahamsson | (参考訳) Systematic Literature Reviews (SLRs) はエビデンスに基づく研究の基礎となり、研究者は特定の研究質問に基づいて既存の研究を識別、分類、組み合わせることができる。
SLRを実行することは、主に手動のプロセスである。
過去数年間、研究者はSLRプロセスの特定のフェーズを自動化し、高品質のSLRを実行するのに必要な労力と時間を短縮することを目的として、大きな進歩を遂げてきた。
しかし、SLRプロセス全体を自動化するAIエージェントベースのモデルはまだ存在しない。
そこで本研究では,SLRの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
LLM(Large Language Models)の機能を利用することで,提案モデルがレビュープロセスを合理化し,効率と精度を向上する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作し、それに応じて、関連する学術論文を検索するために使用される検索文字列を生成する。
その後、特定の研究領域に関連するタイトルに焦点をあてて、包括的で排他的なフィルタリングプロセスを適用する。
このモデルはこれらの論文の要約を自律的に要約し、研究分野に直接関係する論文のみを保持する。
最終段階では、あらかじめ定義された研究課題に関する選択された論文を徹底的に分析する。
また、提案モデルを10人の有能なソフトウェア工学研究者と共有し、テストと分析を行った。
研究チームは提案したモデルに強い満足感を示し、さらなる改善のためのフィードバックを提供した。
プロジェクトのコードはGitHubリポジトリhttps://github.com/GPT-Laboratory/SLR-automationにある。
Systematic Literature Reviews (SLRs) have become the foundation of evidence-based studies, enabling researchers to identify, classify, and combine existing studies based on specific research questions. Conducting an SLR is largely a manual process. Over the previous years, researchers have made significant progress in automating certain phases of the SLR process, aiming to reduce the effort and time needed to carry out high-quality SLRs. However, there is still a lack of AI agent-based models that automate the entire SLR process. To this end, we introduce a novel multi-AI agent model designed to fully automate the process of conducting an SLR. By utilizing the capabilities of Large Language Models (LLMs), our proposed model streamlines the review process, enhancing efficiency and accuracy. The model operates through a user-friendly interface where researchers input their topic, and in response, the model generates a search string used to retrieve relevant academic papers. Subsequently, an inclusive and exclusive filtering process is applied, focusing on titles relevant to the specific research area. The model then autonomously summarizes the abstracts of these papers, retaining only those directly related to the field of study. In the final phase, the model conducts a thorough analysis of the selected papers concerning predefined research questions. We also evaluated the proposed model by sharing it with ten competent software engineering researchers for testing and analysis. The researchers expressed strong satisfaction with the proposed model and provided feedback for further improvement. The code for this project can be found on the GitHub repository at https://github.com/GPT-Laboratory/SLR-automation. | 翻訳日:2024-03-14 14:43:30 公開日:2024-03-13 |
# 子どもの好奇心を育むための対話型環境
メタ認知スキルの実践:パイロット研究
Interactive environments for training children's curiosity through the practice of metacognitive skills: a pilot study ( http://arxiv.org/abs/2403.08397v1 ) ライセンス: Link先を確認 | Rania Abdelghani, Edith Law, Chlo\'e Desvaux, Pierre-Yves Oudeyer and H\'el\`ene Sauz\'eon | (参考訳) 好奇心駆動学習は、学生の学習経験と成果に有意な効果を示した。
しかし、この重要性にもかかわらず、子どもは特に正式な教育環境では、このスキルを欠いていることが報告されている。
この課題に対処するため,我々は,子どもの好奇心を高めるための8セッションワークショップを提案し,そのプロセスに係わる特定のメタ認知スキルのセットを訓練する。
ワークショップには,好奇心やそのメタ認知スキルに関する宣言的知識を示すビデオや,本研究用に設計されたWebプラットフォーム(不確実性表現,質問の定式化など)を用いて,読み・理解作業中にこれらのスキルを適用する練習セッションが紹介されている。
8歳から10歳までの小学生15名を対象にパイロット研究を行った。
最初の結果から,子どものメタ認知効率と,質問行動を通じて好奇心を表現する能力に肯定的な影響が認められた。
Curiosity-driven learning has shown significant positive effects on students' learning experiences and outcomes. But despite this importance, reports show that children lack this skill, especially in formal educational settings. To address this challenge, we propose an 8-session workshop that aims to enhance children's curiosity through training a set of specific metacognitive skills we hypothesize are involved in its process. Our workshop contains animated videos presenting declarative knowledge about curiosity and the said metacognitive skills as well as practice sessions to apply these skills during a reading-comprehension task, using a web platform designed for this study (e.g. expressing uncertainty, formulating questions, etc). We conduct a pilot study with 15 primary school students, aged between 8 and 10. Our first results show a positive impact on children's metacognitive efficiency and their ability to express their curiosity through question-asking behaviors. | 翻訳日:2024-03-14 14:43:30 公開日:2024-03-13 |
# ダイアグラムと動画を検索する「数千語」の価値ある写真
OOP が LLM のオーバー信頼対策を実施
A Picture Is Worth a Thousand Words: Exploring Diagram and Video-Based OOP Exercises to Counter LLM Over-Reliance ( http://arxiv.org/abs/2403.08396v1 ) ライセンス: Link先を確認 | Bruno Pereira Cipriano, Pedro Alves, Paul Denny | (参考訳) GPTやBardのような大規模言語モデル(LLM)の、入門プログラミングの課題を解決するための優れた能力を、多くの研究が強調している。
最近の研究は、LLMがテキストベースの仕様でより複雑なオブジェクト指向プログラミング(OOP)の課題を効果的に解決できることを示した。
これは、学生がこれらのモデルを使って非倫理的に課題を完了し、プログラム設計、問題解決、計算思考といった重要なスキルの開発を無視するので、学術的整合性に関する懸念を提起する。
そこで本研究では,OOP の授業において,学生の課題解決を奨励し,生徒をコピー・アンド・プロンプト・アプローチから遠ざける方法として,図表やビデオを用いてOOP タスクを定式化するための革新的なアプローチを提案する。
本稿では,OOPの割り当てを規定し,構造的および行動的要求を包含する新しい表記法を導入し,その利用を1学期にわたって教室で評価する。
このアプローチに対する学生の認識は、調査(n=56)を通して探索される。
一般に、学生は図やビデオに肯定的に反応し、ビデオベースのプロジェクトは図ベースのエクササイズよりも受け取られている。
この表記法にはいくつかの利点があるようで、学生はダイアグラムの理解により多くの努力を払っており、ビデオベースのプロジェクトに取り組む動機があると感じている。
さらに、学生はこれらの図やビデオベースの演習にLLMベースのコード生成ツールに頼る傾向が低いと報告した。
GPT-4とBardの視覚能力の実験では、これらの図を解釈して正確なコード解を生成するのに不足していることが判明した。
Much research has highlighted the impressive capabilities of large language models (LLMs), like GPT and Bard, for solving introductory programming exercises. Recent work has shown that LLMs can effectively solve a range of more complex object-oriented programming (OOP) exercises with text-based specifications. This raises concerns about academic integrity, as students might use these models to complete assignments unethically, neglecting the development of important skills such as program design, problem-solving, and computational thinking. To address this, we propose an innovative approach to formulating OOP tasks using diagrams and videos, as a way to foster problem-solving and deter students from a copy-and-prompt approach in OOP courses. We introduce a novel notation system for specifying OOP assignments, encompassing structural and behavioral requirements, and assess its use in a classroom setting over a semester. Student perceptions of this approach are explored through a survey (n=56). Generally, students responded positively to diagrams and videos, with video-based projects being better received than diagram-based exercises. This notation appears to have several benefits, with students investing more effort in understanding the diagrams and feeling more motivated to engage with the video-based projects. Furthermore, students reported being less inclined to rely on LLM-based code generation tools for these diagram and video-based exercises. Experiments with GPT-4 and Bard's vision abilities revealed that they currently fall short in interpreting these diagrams to generate accurate code solutions. | 翻訳日:2024-03-14 14:43:29 公開日:2024-03-13 |
# 誘導・刺激された経路情報の相補性
暖かいRb原子アンサンブルからの4波混合過程によるコヒーレンス
Complementarity of which-path information in induced and stimulated coherences via four-wave mixing process from warm Rb atomic ensemble ( http://arxiv.org/abs/2403.08395v1 ) ライセンス: Link先を確認 | Danbi Kim, Jiho Park, Changhoon Baek, Sun Kyung Lee and, Han Seb Moon | (参考訳) 本稿では,2モード圧縮コヒーレント状態の干渉可視性,コンカレンス,予測可能性の相補的関係を確立するための系統的アプローチについて報告する。
これは、2つの独立した4波混合(FWM)原子サンプルが87Rbの温原子アンサンブルから自然および刺激されたFWMプロセスによって生成される二重経路干渉計を用いて達成される。
量子的挙動から古典的挙動への遷移は、2モード圧縮真空とコヒーレント状態の区別により誘導されたコヒーレンス効果によって特徴づけられることを示した。
さらに、2つのFWM原子アンサンブルと長いコヒーレント光子を併用した実験手法により、誘導されたコヒーレンスと刺激されたコヒーレンスにおける経路情報の相補性に関する貴重な知見が得られる。
We report a systematic approach for establishing a complementary relationship between the interference visibility, concurrence, and predictability in the crossing of induced and stimulated coherences of two-mode squeezed coherent states. This is achieved using a double-path interferometer involving two independent four-wave mixing (FWM) atomic samples generated via spontaneous and stimulated FWM processes from a warm atomic ensemble of 87Rb. We demonstrate that the transition from quantum to classical behavior can be characterized by the induced coherence effect, distinguishing between the two-mode squeezed vacuum and coherent states. Moreover, our experimental scheme, employing two FWM atomic ensembles with long-coherent photons, provides valuable insights into the complementarity of which-path information in induced and stimulated coherences. | 翻訳日:2024-03-14 14:43:28 公開日:2024-03-13 |
# 誤報は悪い事実ではない:生産と生産の分析
フランジ含有量の消費
Misinformation is not about Bad Facts: An Analysis of the Production and Consumption of Fringe Content ( http://arxiv.org/abs/2403.08391v1 ) ライセンス: Link先を確認 | JooYoung Lee, Emily Booth, Hany Farid, Marian-Andrei Rizoiu | (参考訳) もし誤報が情報問題ではないとしたら?
本研究は,コンセンサスに基づく「実際に正しい」コンテンツの利用を通じて,オンラインのフロンティアイデオロギーが広まることを示唆する。
オーストラリアでは、中道派と極右派の両方の政治的傾向を持つニュースパブリッシャーが、情報完全性と品質のレベルを同等に含んでいることがわかりました。
しかし、次の2つの要因を考えると、大きな違いが現れる。
1)極右利用者による記事の狭い話題選択は、特定の話題に関係のあるニュース記事のみをチェリーピックすることを示唆している。
2) 記事の書き方を検討する際, 中道・極右の出版社の違いについて検討した。
さらに,コミュニケーションスタイルに基づいて誤情報を共有する傾向のあるユーザも特定できる。
これらの発見は、特定のトピックに対するユーザの個人的偏見や出版社の書き込みスタイルが、オンラインにおけるフリンジイデオロギーを増幅する強力な役割を浮き彫りにするため、オンライン誤報に対抗する上で重要な意味を持つ。
What if misinformation is not an information problem at all? Our findings suggest that online fringe ideologies spread through the use of content that is consensus-based and "factually correct". We found that Australian news publishers with both moderate and far-right political leanings contain comparable levels of information completeness and quality; and furthermore, that far-right Twitter users often share from moderate sources. However, a stark difference emerges when we consider two additional factors: 1) the narrow topic selection of articles by far-right users, suggesting that they cherrypick only news articles that engage with specific topics of their concern, and 2) the difference between moderate and far-right publishers when we examine the writing style of their articles. Furthermore, we can even identify users prone to sharing misinformation based on their communication style. These findings have important implications for countering online misinformation, as they highlight the powerful role that users' personal bias towards specific topics, and publishers' writing styles, have in amplifying fringe ideologies online. | 翻訳日:2024-03-14 14:43:28 公開日:2024-03-13 |
# リスク-逆ヒューマン-AIハイブリッドチームの最適化
Optimizing Risk-averse Human-AI Hybrid Teams ( http://arxiv.org/abs/2403.08386v1 ) ライセンス: Link先を確認 | Andrew Fuchs, Andrea Passarella, and Marco Conti | (参考訳) 私たちは、ハイブリッドチームと呼ばれる方法で一緒に働く人間とAIシステムのインスタンスの増加を期待しています。
AIシステムが習熟し、採用が広まるにつれて、コラボレーションの増加が期待される。
しかしながら、彼らの振る舞いはエラーのないものではなく、ハイブリッドチームが非常に適切なソリューションになります。
そこで我々は,これらのチームとAIシステムの性能向上手法を検討する。
ハイブリッドチームでは、人間とAIシステムの両方をエージェントと呼びます。
個々に運営するエージェントのチームパフォーマンスを改善するために,標準的な強化学習方式,最高の委譲方法,時間の経過とともに各エージェントに決定を下す責任を学習するマネージャを提案する。
さらにマネージャの学習をガイドし、望ましくないチームの振る舞いによるデリゲートの変更回数を最小限にします。
いくつかのグリッド環境では、エピソードを終了して回避すべき障害状態を含む、マネージャのパフォーマンスの最適性を示す。
障害状態に近い形で、許容できるリスクの度合いの異なるエージェントチームで実験を行い、マネージャが自身のリスクベースの制約に対して効果的なデリゲート決定を行う能力を計測し、これらを最適な決定と比較します。
その結果、マネージャは望ましいデリゲートの学習に成功し、その結果、パスの長さやデリゲートの数に関して、チームパスがほぼ正確に最適であることがわかった。
We anticipate increased instances of humans and AI systems working together in what we refer to as a hybrid team. The increase in collaboration is expected as AI systems gain proficiency and their adoption becomes more widespread. However, their behavior is not error-free, making hybrid teams a very suitable solution. As such, we consider methods for improving performance for these teams of humans and AI systems. For hybrid teams, we will refer to both the humans and AI systems as agents. To improve team performance over that seen for agents operating individually, we propose a manager which learns, through a standard Reinforcement Learning scheme, how to best delegate, over time, the responsibility of taking a decision to any of the agents. We further guide the manager's learning so they also minimize how many changes in delegation are made resulting from undesirable team behavior. We demonstrate the optimality of our manager's performance in several grid environments which include failure states which terminate an episode and should be avoided. We perform our experiments with teams of agents with varying degrees of acceptable risk, in the form of proximity to a failure state, and measure the manager's ability to make effective delegation decisions with respect to its own risk-based constraints, then compare these to the optimal decisions. Our results show our manager can successfully learn desirable delegations which result in team paths near/exactly optimal with respect to path length and number of delegations. | 翻訳日:2024-03-14 14:43:27 公開日:2024-03-13 |
# AADNet: 注意深いDemoir\'eing Network
AADNet: Attention aware Demoir\'eing Network ( http://arxiv.org/abs/2403.08384v1 ) ライセンス: Link先を確認 | M Rakesh Reddy, Shubham Mandloi and Aman Kumar | (参考訳) モアレパターンは、モバイルデバイスやデジタルカメラで撮影された写真にしばしば現れ、画質が劣化する可能性がある。
近年のコンピュータビジョンの進歩にもかかわらず、カラー、形状、モアレパターンの周波数の動的なテクスチャやバリエーションのため、画像のデシエリングは依然として難しい課題である。
既存のほとんどのメソッドは、目に見えないデータセットへの一般化に苦労し、現実世界のシナリオからモアレパターンを削除する効果を制限している。
本稿では,AADNet(Attention Aware Demoireing Network)という新しい軽量アーキテクチャを提案する。
UHDMデータセットを用いた大規模な実験により,本手法の有効性が検証され,高忠実度画像が得られた。
Moire pattern frequently appears in photographs captured with mobile devices and digital cameras, potentially degrading image quality. Despite recent advancements in computer vision, image demoire'ing remains a challenging task due to the dynamic textures and variations in colour, shape, and frequency of moire patterns. Most existing methods struggle to generalize to unseen datasets, limiting their effectiveness in removing moire patterns from real-world scenarios. In this paper, we propose a novel lightweight architecture, AADNet (Attention Aware Demoireing Network), for high-resolution image demoire'ing that effectively works across different frequency bands and generalizes well to unseen datasets. Extensive experiments conducted on the UHDM dataset validate the effectiveness of our approach, resulting in high-fidelity images. | 翻訳日:2024-03-14 14:43:27 公開日:2024-03-13 |
# RAF-GI:ロバスト、高精度、高速収束勾配インバージョンを目指して
フェデレートラーニングにおけるアタック
RAF-GI: Towards Robust, Accurate and Fast-Convergent Gradient Inversion Attack in Federated Learning ( http://arxiv.org/abs/2403.08383v1 ) ライセンス: Link先を確認 | Can Liu and Jin Wang and Dongyang Yu | (参考訳) フェデレートラーニング(FL)は、ユーザのモデル勾配のみを公開することによって、モデルトレーニングにおけるプライバシ保護を強化する。
しかし、FL利用者は、モデル勾配に基づく画像などの地中真実のトレーニングデータを再構成できるグラデーション・インバージョン(GI)攻撃の影響を受けやすい。
しかし、既存のGI攻撃作業による高解像度画像の再構成には、2つの課題がある: 精度の低下と収束の遅さ、特にコンテキストが複雑である場合、例えば、訓練バッチサイズが各FLユーザ1よりはるかに大きい。
これらの課題に対処するために,RAF-GIと呼ばれるロバスト,高精度,高速なGI攻撃アルゴリズムを提案する。
1) 既存の作業と比較して最大20%改善したラベルを復元できる追加の畳み込みブロック(ACB)
2) 3チャンネルのmEanとcAnnyエッジ検出正規化項(TEA)は,ACBが推定したラベルに基づいて画像の再構築を行うホワイトボックス攻撃戦略である。
さらに、RAF-GIは堅牢で、ユーザのトレーニングバッチサイズが48未満の場合にも、地上の真実データを正確に再構築することができる。
実験の結果,RAF-GIは94%の時間コスト削減が可能であり,ImageNetデータセットの超高精度なインバージョン品質を実現することができることがわかった。
特に、バッチサイズ1のRAF-GIは、最先端のベースラインに比べて7.89ピーク信号対ノイズ比(PSNR)が高い。
Federated learning (FL) empowers privacy-preservation in model training by only exposing users' model gradients. Yet, FL users are susceptible to the gradient inversion (GI) attack which can reconstruct ground-truth training data such as images based on model gradients. However, reconstructing high-resolution images by existing GI attack works faces two challenges: inferior accuracy and slow-convergence, especially when the context is complicated, e.g., the training batch size is much greater than 1 on each FL user. To address these challenges, we present a Robust, Accurate and Fast-convergent GI attack algorithm, called RAF-GI, with two components: 1) Additional Convolution Block (ACB) which can restore labels with up to 20% improvement compared with existing works; 2) Total variance, three-channel mEan and cAnny edge detection regularization term (TEA), which is a white-box attack strategy to reconstruct images based on labels inferred by ACB. Moreover, RAF-GI is robust that can still accurately reconstruct ground-truth data when the users' training batch size is no more than 48. Our experimental results manifest that RAF-GI can diminish 94% time costs while achieving superb inversion quality in ImageNet dataset. Notably, with a batch size of 1, RAF-GI exhibits a 7.89 higher Peak Signal-to-Noise Ratio (PSNR) compared to the state-of-the-art baselines. | 翻訳日:2024-03-14 14:43:26 公開日:2024-03-13 |
# PRAGO: オブジェクトの多視点最適化
検出
PRAGO: Differentiable Multi-View Pose Optimization From Objectness Detections ( http://arxiv.org/abs/2403.08586v1 ) ライセンス: Link先を確認 | Matteo Taiana, Matteo Toso, Stuart James and Alessio Del Bue | (参考訳) 画像の集合からカメラのポーズをロバストに推定することは、微分可能な方法、特に小さくスパースなカメラのポーズグラフの場合において、依然として困難である基本課題である。
この課題を克服するため、我々はPose-refined Rotation Averaging Graph Optimization (PRAGO)を提案する。
非順序画像上の対象性検出の集合から回転ポーズを再構成し、従って、絶対ポーズは幾何的タスクの列の最適化の恩恵を受け、微分可能な方法で再構成する。
PRAGOにおける我々の目的性ポーズ・リファインメント・モジュールは、エッジを除去することなく、グラフエッジの生存性に関する早期決定を避けることなく、ペアワイズな相対的なポーズ推定において、固有の曖昧さを洗練できることを示す。
その後、PRAGOは反復グラフ構築を通じて絶対回転を洗練し、グラフエッジを再重み付けして最終的な回転ポーズを計算する。
その結果,PRAGOは7シーンから抽出した未分化のシーンにおいて,類似の翻訳推定を行いながら,相対的に21%の回転率向上を実現できることがわかった。
Robustly estimating camera poses from a set of images is a fundamental task which remains challenging for differentiable methods, especially in the case of small and sparse camera pose graphs. To overcome this challenge, we propose Pose-refined Rotation Averaging Graph Optimization (PRAGO). From a set of objectness detections on unordered images, our method reconstructs the rotational pose, and in turn, the absolute pose, in a differentiable manner benefiting from the optimization of a sequence of geometrical tasks. We show how our objectness pose-refinement module in PRAGO is able to refine the inherent ambiguities in pairwise relative pose estimation without removing edges and avoiding making early decisions on the viability of graph edges. PRAGO then refines the absolute rotations through iterative graph construction, reweighting the graph edges to compute the final rotational pose, which can be converted into absolute poses using translation averaging. We show that PRAGO is able to outperform non-differentiable solvers on small and sparse scenes extracted from 7-Scenes achieving a relative improvement of 21% for rotations while achieving similar translation estimates. | 翻訳日:2024-03-14 14:11:14 公開日:2024-03-13 |
# 胸部プレコンディショニングによるSGDの急激な正則化の改善
正方形問題
Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems ( http://arxiv.org/abs/2403.08585v1 ) ライセンス: Link先を確認 | Junwei Su, Difan Zou, Chuan Wu | (参考訳) 確率勾配降下 (SGD) はアルゴリズムの正則化効果が強く、現代の機械学習の一般化において重要な役割を果たしている。
しかし、従来の研究では、SGDの一般化性能が、異なる次元に沿った不均一な最適化のため、リッジ回帰よりも悪いことが判明している。
プレコンディショニングは、最適化を異なる方向に再バランスすることで、この問題に自然な解決策を提供する。
しかし, プレコンディショニングによってSGDの一般化性能が向上し, 既存の溝をリッジレグレッションで橋渡しできるかどうかは不明である。
本稿では,最小二乗問題に対する事前条件付きSGDの一般化性能について検討する。
プレコンディション付きSGDと(標準 \&プレコンディション付き)リッジレグレッションの総合的な比較を行う。
本研究は,プレコンディショニングによるSGDの理解と改善にいくつかの重要な貢献をしている。
まず、任意の事前条件行列の下で、事前条件付きSGDとリッジ回帰に対する過剰リスク境界(一般化性能)を確立する。
第二に、プレコンディショニングされたSGDとリッジ回帰の過度なリスク特性を利用して、(構成を通して)単純なプレコンディショニングされた行列が存在し、(標準の \&プレコンディショニングされた)リッジ回帰よりも優れていることを示す。
最後に, 提案したプレコンディショニング行列は, リッジ回帰に対する理論的優位性を維持しつつ, 有限標本からのロバストな推定を可能にするほど単純であることを示す。
予備条件付きSGDの高次正則化効果を総合的に示し, 実験結果と理論的知見が一致した。
Stochastic gradient descent (SGD) exhibits strong algorithmic regularization effects in practice and plays an important role in the generalization of modern machine learning. However, prior research has revealed instances where the generalization performance of SGD is worse than ridge regression due to uneven optimization along different dimensions. Preconditioning offers a natural solution to this issue by rebalancing optimization across different directions. Yet, the extent to which preconditioning can enhance the generalization performance of SGD and whether it can bridge the existing gap with ridge regression remains uncertain. In this paper, we study the generalization performance of SGD with preconditioning for the least squared problem. We make a comprehensive comparison between preconditioned SGD and (standard \& preconditioned) ridge regression. Our study makes several key contributions toward understanding and improving SGD with preconditioning. First, we establish excess risk bounds (generalization performance) for preconditioned SGD and ridge regression under an arbitrary preconditions matrix. Second, leveraging the excessive risk characterization of preconditioned SGD and ridge regression, we show that (through construction) there exists a simple preconditioned matrix that can outperform (standard \& preconditioned) ridge regression. Finally, we show that our proposed preconditioning matrix is straightforward enough to allow robust estimation from finite samples while maintaining a theoretical advantage over ridge regression. Our empirical results align with our theoretical findings, collectively showcasing the enhanced regularization effect of preconditioned SGD. | 翻訳日:2024-03-14 14:11:13 公開日:2024-03-13 |
# 量子アニールを用いたローカルバイナリとマルチクラスSVM
Local Binary and Multiclass SVMs Trained on a Quantum Annealer ( http://arxiv.org/abs/2403.08584v1 ) ライセンス: Link先を確認 | Enrico Zardini, Amer Delilbasic, Enrico Blanzieri, Gabriele Cavallaro, Davide Pastorello | (参考訳) サポートベクターマシン(SVM)は、機械学習モデル(例えばリモートセンシング)で広く使われており、分類タスクと回帰タスクの両方に定式化されている。
近年,動作量子アンニールの出現に伴い,量子トレーニングと古典的実行を特徴とするハイブリッドSVMモデルが導入されている。
これらのモデルは、古典的なモデルに匹敵する性能を示した。
しかし、現在の量子アニールの接続が制限されているため、トレーニングセットサイズに制限がある。
したがって、大きなデータセット(地球観測に関連するものなど)を利用するには、戦略が必要である。
古典的なドメインでは、局所的なSVM、すなわちk-nearestの隣人モデルによって選択されたデータサンプルに基づいて訓練されたSVMがすでに成功している。
ここでは、量子学習SVMモデルの局所的な応用を提案し、実証的に評価する。
特に、このアプローチは、量子訓練されたモデルのトレーニングセットサイズの制約を克服し、性能を向上する。
実際には、効率の良いローカルSVM用に設計されたFaLK-SVM法と、バイナリおよびマルチクラス分類のための量子訓練されたSVMモデルが組み合わされている。
さらに、比較のために、FaLK-SVMは古典的なシングルステップのマルチクラスSVMモデル(CS SVM)で初めてインターフェースされている。
経験的評価に関しては、D-Waveの量子アニールとリモートセンシング領域から取得した実世界のデータセットが採用されている。
その結果,提案手法の有効性と拡張性に加えて,実世界の大規模シナリオにおける実用性も示された。
Support vector machines (SVMs) are widely used machine learning models (e.g., in remote sensing), with formulations for both classification and regression tasks. In the last years, with the advent of working quantum annealers, hybrid SVM models characterised by quantum training and classical execution have been introduced. These models have demonstrated comparable performance to their classical counterparts. However, they are limited in the training set size due to the restricted connectivity of the current quantum annealers. Hence, to take advantage of large datasets (like those related to Earth observation), a strategy is required. In the classical domain, local SVMs, namely, SVMs trained on the data samples selected by a k-nearest neighbors model, have already proven successful. Here, the local application of quantum-trained SVM models is proposed and empirically assessed. In particular, this approach allows overcoming the constraints on the training set size of the quantum-trained models while enhancing their performance. In practice, the FaLK-SVM method, designed for efficient local SVMs, has been combined with quantum-trained SVM models for binary and multiclass classification. In addition, for comparison, FaLK-SVM has been interfaced for the first time with a classical single-step multiclass SVM model (CS SVM). Concerning the empirical evaluation, D-Wave's quantum annealers and real-world datasets taken from the remote sensing domain have been employed. The results have shown the effectiveness and scalability of the proposed approach, but also its practical applicability in a real-world large-scale scenario. | 翻訳日:2024-03-14 14:11:13 公開日:2024-03-13 |
# 超高速ビデオ分類のための圧縮フレームサイズを活用
Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification ( http://arxiv.org/abs/2403.08580v1 ) ライセンス: Link先を確認 | Yuxing Han, Yunan Ding, Chen Ye Gan, Jiangtao Wen | (参考訳) 動画をSportやMusic Videoといった別のカテゴリーに分類することは、特に大量のビデオコンテンツが常に生成されている場合、マルチメディアの理解と検索に不可欠である。
従来の方法では、色、テクスチャ、動きといったピクセルレベルの特徴を抽出するためにビデオ圧縮が必要であり、それによって計算と記憶の要求が増大する。
さらに、これらの手法は低品質ビデオの性能劣化に悩まされることが多い。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリーム復号化の必要性を解消する手法を提案する。
このアプローチを検証するために、29,000以上のYouTubeビデオクリップで構成され、合計6000時間、11の異なるカテゴリにまたがる包括的なデータセットを構築しました。
評価の結果、精度、精度、リコール率は80%以上であり、その多くが90%を超え、一部は99%に達している。
このアルゴリズムは30fpsビデオのリアルタイムよりも約15,000倍高速で動作し、従来の動的時間ウォーピング(DTW)アルゴリズムよりも7桁高速である。
Classifying videos into distinct categories, such as Sport and Music Video, is crucial for multimedia understanding and retrieval, especially when an immense volume of video content is being constantly generated. Traditional methods require video decompression to extract pixel-level features like color, texture, and motion, thereby increasing computational and storage demands. Moreover, these methods often suffer from performance degradation in low-quality videos. We present a novel approach that examines only the post-compression bitstream of a video to perform classification, eliminating the need for bitstream decoding. To validate our approach, we built a comprehensive data set comprising over 29,000 YouTube video clips, totaling 6,000 hours and spanning 11 distinct categories. Our evaluations indicate precision, accuracy, and recall rates consistently above 80%, many exceeding 90%, and some reaching 99%. The algorithm operates approximately 15,000 times faster than real-time for 30fps videos, outperforming traditional Dynamic Time Warping (DTW) algorithm by seven orders of magnitude. | 翻訳日:2024-03-14 14:11:12 公開日:2024-03-13 |
# 直交基底方向の多項式を最適化した機械学習
近似
Machine Learning Optimized Orthogonal Basis Piecewise Polynomial Approximation ( http://arxiv.org/abs/2403.08579v1 ) ライセンス: Link先を確認 | Hannes Waclawek, Stefan Huber | (参考訳) Piecewise Polynomials (PP) は、軌道計画のようないくつかの工学分野において、点の集合の形で与えられる位置プロファイルを近似するために用いられる。
近似対象は Ck-連続性のような領域固有の要件とともに方程式の体系として定式化でき、結果を直接計算できるが、そのような閉形式解は多項式次数や多項式基底に関して限られた柔軟性を持ち、さらに領域固有の要求を加えることができる。
十分複雑な最適化のゴールは、勾配降下のような数値的な手法をすぐに呼び出す。
勾配降下はANN(Artificial Neural Networks)のトレーニングの中心にあるため、TensorFlowのような現代的な機械学習(ML)フレームワークには、ANNのトレーニングタスクを超えた幅広い最適化問題に適した勾配ベースのオプティマイザセットが付属している。
提案手法は, PPモデルの汎用性を活用し, 電子カメラ設計の文脈における1次元軌道計画における関数近似の活用を目的とした, 現代のMLオプティマイザの可能性と組み合わせることである。
ANNのスコープ外から直接、MLフレームワークTensorFlowの利用可能なオプティマイザを使用して、PPモデルのモデルパラメータを最適化します。
本稿では,直交多項式基底が近似および連続性最適化性能の向上にどのように貢献するかを示す。
第1種のチェビシェフ多項式を用いることで、収束挙動を明確に改善できる新しい正規化手法を開発する。
この正則化手法を用いて、Chebyshev ベースは、近似と連続性最適化の組合せにおいて、すべての関連する最適化器に対して、電力ベースよりも優れた性能を示し、電子カム領域における提案手法のユーザビリティを示す。
Piecewise Polynomials (PPs) are utilized in several engineering disciplines, like trajectory planning, to approximate position profiles given in the form of a set of points. While the approximation target along with domain-specific requirements, like Ck -continuity, can be formulated as a system of equations and a result can be computed directly, such closed-form solutions posses limited flexibility with respect to polynomial degrees, polynomial bases or adding further domain-specific requirements. Sufficiently complex optimization goals soon call for the use of numerical methods, like gradient descent. Since gradient descent lies at the heart of training Artificial Neural Networks (ANNs), modern Machine Learning (ML) frameworks like TensorFlow come with a set of gradient-based optimizers potentially suitable for a wide range of optimization problems beyond the training task for ANNs. Our approach is to utilize the versatility of PP models and combine it with the potential of modern ML optimizers for the use in function approximation in 1D trajectory planning in the context of electronic cam design. We utilize available optimizers of the ML framework TensorFlow directly, outside of the scope of ANNs, to optimize model parameters of our PP model. In this paper, we show how an orthogonal polynomial basis contributes to improving approximation and continuity optimization performance. Utilizing Chebyshev polynomials of the first kind, we develop a novel regularization approach enabling clearly improved convergence behavior. We show that, using this regularization approach, Chebyshev basis performs better than power basis for all relevant optimizers in the combined approximation and continuity optimization setting and demonstrate usability of the presented approach within the electronic cam domain. | 翻訳日:2024-03-14 14:11:12 公開日:2024-03-13 |
# 3波混合と4波のコヒーレント競争と制御
超伝導回路の混合
Coherent competition and control between three-wave mixing and four-wave mixing in superconducting circuits ( http://arxiv.org/abs/2403.08578v1 ) ライセンス: Link先を確認 | Miao-Xiang Liang, Yu-Xiang Qiu, Hai-Chao Li, and Wei Xiong | (参考訳) 異なる周波数混合プロセス間の相互作用と相互作用を探索することは、非線形光学と量子光学の相互作用において、常に興味深い主題の1つとなっている。
本稿では,三層超伝導量子系における三波混合(TWM)と四波混合(FWM)のコヒーレント競争と制御について検討する。
弱い制御場状態においては、強い競合はTWM信号とFWM信号の間で交互に発振し、この発振はこれら2つの非線形過程の間の強いエネルギー交換の兆候である。
特に、原子系の従来のマルチウェーブ・ミキシングにはそのような振動は欠落している。
驚くべきことに、同期TWMプロセスとFWMプロセスは、強い制御系で実証され、同時に、その効率は、それぞれ40%と45%と高い。
本研究は,これらのTWMとFWMの競合挙動を制御場強度の調整により操作できることを示唆する。
Exploring intermixing and interplay between different frequency-mixing processes has always been one of the interesting subjects at the interface of nonlinear optics with quantum optics. Here we investigate coherent competition and control between three-wave mixing (TWM) and four-wave mixing (FWM) in a cyclic three-level superconducting quantum system. In the weak control-field regime, strong competition leads to an alternating oscillation between TWM and FWM signals and this oscillation is a signature of strong energy exchange between these two nonlinear processes. In particular, such oscillation is absent from conventional multi-wave mixing in atomic systems. Surprisingly, synchronous TWM and FWM processes are demonstrated in the strong control-field regime and, at the same time, their efficiencies can be as high as 40% and 45%, respectively. Our study shows that these competitive behaviors between TWM and FWM can be manipulated by tuning the control-field intensity. | 翻訳日:2024-03-14 14:11:11 公開日:2024-03-13 |
# 非断熱的使用を伴わない円錐断面積の最適化
カップリング
Optimizing Conical Intersections Without Explicit Use of Non-Adiabatic Couplings ( http://arxiv.org/abs/2403.08574v1 ) ライセンス: Link先を確認 | Juan Sanz Garc\'ia, Rosa Maskri, Alexander Mitrushchenkov, and Lo\"ic Joubert-Doriol | (参考訳) 導電性結合(DC)を知らずに最小エネルギー円錐交叉(MECI)分子幾何学を最適化する2つの方法を提案する。
これらの方法はラグランジュ乗数の利用に基づいている。
一 直流の近似計算を用いる方法、一方の方法
二 直流を必要としないこと。
どちらの手法も、直流の情報が正方形エネルギー差のヘシアンに含まれるという事実を用いる。
一連の小さな分子系上で行った試験は、他の方法と比較して、提案手法がMECIを最適化する能力を示している。
最後に、この手法をフルミド分子に適用し、S$_1$/S$_2$ MECIを最適化し、銀トリマーのS$_0$/S$_1$ MECIを最適化する。
We present two alternative methods for optimizing minimum energy conical intersection (MECI) molecular geometries without knowledge of the derivative coupling (DC). These methods are based on the utilization of Lagrange multipliers: i) one method uses an approximate calculation of the DC, while the other ii) do not require the DC. Both methods use the fact that information of the DC is contained in the Hessian of the squared energy difference. Tests done on a set of small molecular systems, in comparison with other methods, show the ability of the proposed methods to optimize MECIs. Finally, we apply the methods to the furimamide molecule, to optimize and characterize its S$_1$ /S$_2$ MECI, and to optimizing the S$_0$ /S$_1$ MECI of the silver trimer. | 翻訳日:2024-03-14 14:11:11 公開日:2024-03-13 |
# システムバス相関と有限時間操作の強化
消散性量子電池の効率
System-bath correlations and finite-time operation enhance the efficiency of a dissipative quantum battery ( http://arxiv.org/abs/2403.08573v1 ) ライセンス: Link先を確認 | Daniel Feli\'u and Felipe Barra | (参考訳) 熱浴に強く結合した小さな系の還元状態は熱水性であり、一度切断された小さな電池として用いられることがある。
切断プロセスが遅すぎると、電池と浴槽の結合が弱まり、ある時点で電池が電池として使用できない熱状態になる。
したがって、単体抽出可能なエネルギー(エルゴトロピー)は切断時間とともに減少する。
バッテリーを切断するのに要する作業も切断時間に依存する。
量子電池のカルデイラ・レゲットモデルにおける切断時間の関数として, エルゴトロピーと作業コストとの比として定義されるこの電池の効率について検討した。
2つのシナリオを考えます。
第1のシナリオでは、放電した電池は接続時の浴槽とは無関係であると仮定し、最適切断時間で効率がピークに達すると仮定する。
第2のシナリオでは、放電された電池は浴槽と相関し、最適効率は瞬時に切断される。
これらの結果に基づいて,これらのカルデイラ・レゲット量子電池の様々な熱力学量を分析し,作業装置の初期相関と強い結合構造にもかかわらず,上記のサイクルにおける熱力学の第一法則と第二法則を簡単な形で表現することができる。
The reduced state of a small system strongly coupled to a thermal bath may be athermal and used as a small battery once disconnected. If the disconnecting process is too slow, the coupling between the battery and the bath weakens, and at some point, the battery will be in a thermal state that can not be used as a battery. Thus, the unitarily extractable energy (a.k.a ergotropy) decreases with the disconnection time. The work required to disconnect the battery also depends on the disconnection time. We study the efficiency of this battery, defined as the ratio between the ergotropy to the work cost of disconnecting and connecting the battery back to the bath to close the cycle, as a function of the disconnecting time in the Caldeira-Leggett model of a quantum battery. We consider two scenarios. In the first scenario, we assume that the discharged battery is uncorrelated to the bath at the connecting time and find that the efficiency peaks at an optimal disconnecting time. In the second scenario, the discharged battery is correlated to the bath, and find that the optimal efficiency corresponds to an instantaneous disconnection. On top of these results, we analyze various thermodynamic quantities for these Caldeira-Leggett quantum batteries that allow us to express the first and second laws of thermodynamics in the mentioned cycles in simple form despite the system-bath initial correlations and strong coupling regime of the working device. | 翻訳日:2024-03-14 14:11:10 公開日:2024-03-13 |
# Caformer: 因果的観点からの時系列分析の再考
Caformer: Rethinking Time Series Analysis from Causal Perspective ( http://arxiv.org/abs/2403.08572v1 ) ライセンス: Link先を確認 | Kexuan Zhang, Xiaobei Zou, Yang Tang | (参考訳) 時系列解析は様々な分野の幅広い応用において重要な課題である。
しかしながら、非定常時系列におけるクロス次元とクロスタイムの依存関係を効果的に捉えることは、特に環境要因の文脈において大きな課題となる。
環境によって引き起こされる急激な相関は、断面積と時間的依存関係の間の因果関係を混乱させる。
本稿では,因果的観点からの時系列解析のためのCaformer (\underline{\textbf{Ca}}usal Trans\underline{\textbf{former}}) という新しいフレームワークを紹介する。
具体的には,動的学習,環境学習,依存学習という3つのコンポーネントから構成される。
動的学習者は、次元間の動的相互作用を明らかにし、環境学習者は、バックドア調整によって環境によって引き起こされる刺激的な相関を緩和し、依存学習者は、時間と次元の両方にわたる堅牢な相互作用を推論することを目的としている。
我々のCaformerは、長期および短期の予測、計算、分類、異常検出を含む5つの主流時系列分析タスクにおいて、適切な解釈性を備えた一貫した最先端性能を示す。
Time series analysis is a vital task with broad applications in various domains. However, effectively capturing cross-dimension and cross-time dependencies in non-stationary time series poses significant challenges, particularly in the context of environmental factors. The spurious correlation induced by the environment confounds the causal relationships between cross-dimension and cross-time dependencies. In this paper, we introduce a novel framework called Caformer (\underline{\textbf{Ca}}usal Trans\underline{\textbf{former}}) for time series analysis from a causal perspective. Specifically, our framework comprises three components: Dynamic Learner, Environment Learner, and Dependency Learner. The Dynamic Learner unveils dynamic interactions among dimensions, the Environment Learner mitigates spurious correlations caused by environment with a back-door adjustment, and the Dependency Learner aims to infer robust interactions across both time and dimensions. Our Caformer demonstrates consistent state-of-the-art performance across five mainstream time series analysis tasks, including long- and short-term forecasting, imputation, classification, and anomaly detection, with proper interpretability. | 翻訳日:2024-03-14 14:11:09 公開日:2024-03-13 |
# 物理過程シミュレーションのための物理駆動グラフサージ法
部分微分方程式による記述
A Physics-driven GraphSAGE Method for Physical Process Simulations Described by Partial Differential Equations ( http://arxiv.org/abs/2403.08569v1 ) ライセンス: Link先を確認 | Hang Hu, Sidi Wu, Guoxiong Cai, Na Liu | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)に基づいて、様々な計算物理問題に対処することに成功した。
しかしながら、特異点や発振などの不規則性に関連する問題に対処する一方で、訓練された解は通常、精度が低い。
さらに、現在の作業の多くは、所定の入力パラメータに対するトレーニングされたソリューションのみを提供する。
入力パラメータに何らかの変化が発生した場合、転送学習や再学習が必要であり、従来の数値手法では独立したシミュレーションも必要である。
本研究では,不規則なPDEが支配する計算問題を解くために,ガレルキン法に基づく物理駆動グラフSAGE(PD-GraphSAGE)法と多項式ノルダル基底関数を提案し,パラメトリックPDEサロゲートモデルを開発した。
このアプローチでは、物理領域のグラフ表現を用い、局所的な洗練による評価点の要求を低減させる。
距離関連エッジ特徴と特徴マッピング戦略は,それぞれ特異点と発振状況のトレーニングと収束を支援するために考案された。
提案手法の利点はいくつかのケースで実証されている。
さらに,ガウス的ランダム場源がパラメータ化した熱伝導問題に対するロバストPDEサロゲートモデルの構築に成功した。
Physics-informed neural networks (PINNs) have successfully addressed various computational physics problems based on partial differential equations (PDEs). However, while tackling issues related to irregularities like singularities and oscillations, trained solutions usually suffer low accuracy. In addition, most current works only offer the trained solution for predetermined input parameters. If any change occurs in input parameters, transfer learning or retraining is required, and traditional numerical techniques also need an independent simulation. In this work, a physics-driven GraphSAGE approach (PD-GraphSAGE) based on the Galerkin method and piecewise polynomial nodal basis functions is presented to solve computational problems governed by irregular PDEs and to develop parametric PDE surrogate models. This approach employs graph representations of physical domains, thereby reducing the demands for evaluated points due to local refinement. A distance-related edge feature and a feature mapping strategy are devised to help training and convergence for singularity and oscillation situations, respectively. The merits of the proposed method are demonstrated through a couple of cases. Moreover, the robust PDE surrogate model for heat conduction problems parameterized by the Gaussian random field source is successfully established, which not only provides the solution accurately but is several times faster than the finite element method in our experiments. | 翻訳日:2024-03-14 14:11:09 公開日:2024-03-13 |
# リハーサルなし連続学習のための一貫性プロンプト
Consistent Prompting for Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2403.08568v1 ) ライセンス: Link先を確認 | Zhanxin Gao, Jun Cen, Xiaobin Chang | (参考訳) 継続的な学習は、古い知識を忘れずに、モデルが絶えず変化する環境やデータストリームに自律的に適応することを可能にする。
Promptベースのアプローチは、タスク固有のプロンプトと分類器を効率的に学習するために、凍結した事前訓練モデル上に構築されている。
既存のプロンプトベースの手法は、トレーニングとテストの間に不整合であり、その効果を制限している。
2種類の矛盾が明らかになる。
テスト予測はすべての分類器から作成され、トレーニングは全体的アライメントなしで現在のタスク分類器にのみフォーカスする。
プロンプトの不整合は、テスト中に選択されたプロンプトが、トレーニング中にこのタスクに関連するプロンプトと一致しないことを示している。
本稿では,より整合性のあるトレーニングとテストのための新しいプロンプトベース手法であるConsistent Prompting(CPrompt)を提案する。
具体的には、既存のすべての分類器が迅速な訓練に晒され、結果として分類器の一貫性が学習される。
さらに,予測ロバスト性を高め,選択精度を高めるために,即時一貫性学習を提案する。
我々のConsistent Promptingは、そのプロンプトベースのものを超え、複数の連続学習ベンチマークで最先端のパフォーマンスを達成する。
詳細な分析は、より一貫性のあるトレーニングとテストによって改善がもたらされることを示している。
Continual learning empowers models to adapt autonomously to the ever-changing environment or data streams without forgetting old knowledge. Prompt-based approaches are built on frozen pre-trained models to learn the task-specific prompts and classifiers efficiently. Existing prompt-based methods are inconsistent between training and testing, limiting their effectiveness. Two types of inconsistency are revealed. Test predictions are made from all classifiers while training only focuses on the current task classifier without holistic alignment, leading to Classifier inconsistency. Prompt inconsistency indicates that the prompt selected during testing may not correspond to the one associated with this task during training. In this paper, we propose a novel prompt-based method, Consistent Prompting (CPrompt), for more aligned training and testing. Specifically, all existing classifiers are exposed to prompt training, resulting in classifier consistency learning. In addition, prompt consistency learning is proposed to enhance prediction robustness and boost prompt selection accuracy. Our Consistent Prompting surpasses its prompt-based counterparts and achieves state-of-the-art performance on multiple continual learning benchmarks. Detailed analysis shows that improvements come from more consistent training and testing. | 翻訳日:2024-03-14 14:11:08 公開日:2024-03-13 |
# ボリュームデータのための新しい暗黙的ニューラル表現法
A Novel Implicit Neural Representation for Volume Data ( http://arxiv.org/abs/2403.08566v1 ) ライセンス: Link先を確認 | Armin Sheibanifard and Hongchuan Yu | (参考訳) 医用画像の保存は、医用画像分野における課題の1つである。
暗黙の神経表現(INR)を用いて、体積医学画像の圧縮を行う可変ワークがある。
しかし, 容積医用画像の圧縮率を改善する余地がある。
INRの技術の多くは、大量のGPUメモリと、高品質な医療ボリュームレンダリングのための長いトレーニング時間を必要としている。
本稿では,提案したアーキテクチャ,すなわちLaczos downsampling scheme,SIREN Deep Network,SRDenseNet High- resolution schemeを用いて,ボリュームデータを圧縮するための新しい暗黙的ニューラル表現を提案する。
我々のアーキテクチャは、トレーニング時間を効果的に削減し、最終的なレンダリング品質を維持しながら高い圧縮率を得ることができる。
さらに、既存の作業と比べてGPUメモリを節約できる。
実験の結果,SIRENのみを用いた現在の作業よりも,再構成画像の品質とアーキテクチャによるトレーニング速度が高いことがわかった。
さらにGPUメモリのコストは明らかに削減されている
The storage of medical images is one of the challenges in the medical imaging field. There are variable works that use implicit neural representation (INR) to compress volumetric medical images. However, there is room to improve the compression rate for volumetric medical images. Most of the INR techniques need a huge amount of GPU memory and a long training time for high-quality medical volume rendering. In this paper, we present a novel implicit neural representation to compress volume data using our proposed architecture, that is, the Lanczos downsampling scheme, SIREN deep network, and SRDenseNet high-resolution scheme. Our architecture can effectively reduce training time, and gain a high compression rate while retaining the final rendering quality. Moreover, it can save GPU memory in comparison with the existing works. The experiments show that the quality of reconstructed images and training speed using our architecture is higher than current works which use the SIREN only. Besides, the GPU memory cost is evidently decreased | 翻訳日:2024-03-14 14:11:08 公開日:2024-03-13 |
# 生成言語モデルにおける非識別基準
Non-discrimination Criteria for Generative Language Models ( http://arxiv.org/abs/2403.08564v1 ) ライセンス: Link先を確認 | Sara Sterlie, Nina Weng, Aasa Feragen | (参考訳) 近年では、大規模な言語モデルなどの生成AIが急速に発展している。
これらのモデルが一般に普及するにつれて、アプリケーションにおける有害なバイアスの持続性と増幅に関する懸念が生じる。
性別のステレオタイプは、彼らが対象とする個人に対して有害で制限されうる。
本稿では、ジェンダーバイアスを広汎な社会的構成として認識し、生成言語モデルにおけるジェンダーバイアスの存在を明らかにする方法と定量化方法について考察する。
特に、独立性、分離性、充足性という3つのよく知られた非識別基準のジェネレーティブAIアナログを導出する。
これらの基準を実際に実施するために、我々は、職業性ステレオタイプに焦点を当てた各基準のためのプロンプトを設計し、特に、医療試験を利用して、生成的AIコンテキストに基礎的真理を導入する。
本研究は,このような対話型言語モデルにおける職業性バイアスの存在に対処するものである。
Within recent years, generative AI, such as large language models, has undergone rapid development. As these models become increasingly available to the public, concerns arise about perpetuating and amplifying harmful biases in applications. Gender stereotypes can be harmful and limiting for the individuals they target, whether they consist of misrepresentation or discrimination. Recognizing gender bias as a pervasive societal construct, this paper studies how to uncover and quantify the presence of gender biases in generative language models. In particular, we derive generative AI analogues of three well-known non-discrimination criteria from classification, namely independence, separation and sufficiency. To demonstrate these criteria in action, we design prompts for each of the criteria with a focus on occupational gender stereotype, specifically utilizing the medical test to introduce the ground truth in the generative AI context. Our results address the presence of occupational gender bias within such conversational language models. | 翻訳日:2024-03-14 14:11:07 公開日:2024-03-13 |
# マルコフネットワークの制約に基づく学習に関する構造的視点
Structural perspective on constraint-based learning of Markov networks ( http://arxiv.org/abs/2403.08562v1 ) ライセンス: Link先を確認 | Tuukka Korhonen, Fedor V. Fomin, Pekka Parviainen | (参考訳) マルコフネットワーク(Markov network)は、変数間の条件付き独立関係を記述するために無向グラフを使用する確率的グラフィカルモデルである。
我々の焦点は制約に基づく構造学習であり、条件付き独立テストの実行を通じてデータから非方向グラフを学習する。
マルコフネットワークにおける制約に基づく学習の2つの重要な側面、すなわちテストの数と条件セットのサイズに関する理論的限界を確立する。
これらの境界は、グラフの構造的性質とマルコフネットワークを学ぶのに必要なテストの量の間のエキサイティングな相互作用を明らかにする。
我々の研究の出発点は、グラフパラメータの最大対接続である$\kappa$、すなわち、グラフ内の頂点のペアを接続する頂点非結合パスの最大数は、グラフを学ぶのに必要な独立性テストのサイズに責任があるということである。
一方、条件セットのサイズが少なくとも$\kappa$の少なくとも1つのテストは、常に必要であることを示す。
一方、任意のグラフは、最大$\kappa$で大きさのテストを実行することで学習可能であることを証明している。
これは、グラフを学習するのに必要となる条件セットの最小サイズに関する問題を完全に解決する。
テストの数に関して言えば、条件セットのサイズの上限は、すべての$n$-vertexグラフが少なくとも$n^{\kappa}$テストによって学習できることを意味します。
条件集合のサイズ上の任意の上限$q$に対して、学習するために少なくとも$n^{\Omega(\kappa)}$テストを必要とする$O(n q)$頂点を持つグラフが存在することを示す。
この下界は、木幅とグラフの最大度が少なくとも$\kappa+2$である場合でも成り立つ。
正の面において、有界木幅のすべてのグラフは、条件付きサイズの集合を少なくとも2\kappa$とする多項式数で学習できることを証明している。
Markov networks are probabilistic graphical models that employ undirected graphs to depict conditional independence relationships among variables. Our focus lies in constraint-based structure learning, which entails learning the undirected graph from data through the execution of conditional independence tests. We establish theoretical limits concerning two critical aspects of constraint-based learning of Markov networks: the number of tests and the sizes of the conditioning sets. These bounds uncover an exciting interplay between the structural properties of the graph and the amount of tests required to learn a Markov network. The starting point of our work is that the graph parameter maximum pairwise connectivity, $\kappa$, that is, the maximum number of vertex-disjoint paths connecting a pair of vertices in the graph, is responsible for the sizes of independence tests required to learn the graph. On one hand, we show that at least one test with the size of the conditioning set at least $\kappa$ is always necessary. On the other hand, we prove that any graph can be learned by performing tests of size at most $\kappa$. This completely resolves the question of the minimum size of conditioning sets required to learn the graph. When it comes to the number of tests, our upper bound on the sizes of conditioning sets implies that every $n$-vertex graph can be learned by at most $n^{\kappa}$ tests with conditioning sets of sizes at most $\kappa$. We show that for any upper bound $q$ on the sizes of the conditioning sets, there exist graphs with $O(n q)$ vertices that require at least $n^{\Omega(\kappa)}$ tests to learn. This lower bound holds even when the treewidth and the maximum degree of the graph are at most $\kappa+2$. On the positive side, we prove that every graph of bounded treewidth can be learned by a polynomial number of tests with conditioning sets of sizes at most $2\kappa$. | 翻訳日:2024-03-14 14:11:07 公開日:2024-03-13 |
# 被着物交換者の再同定
Occluded Cloth-Changing Person Re-Identification ( http://arxiv.org/abs/2403.08557v1 ) ライセンス: Link先を確認 | Zhihao Chen, Yiyuan Ge | (参考訳) 衣服交換者の再識別は, 衣服交換のシナリオにおいて, 衣服非関連の特徴を用いて, 歩行者の身元を把握し, 識別することを目的としている。
しかし、監視カメラが捉えた歩行者画像は、通常、現実世界のシナリオにおける閉塞を含んでいる。
既存の布の変質的再同定手法のパーフォマンスは, 閉塞による識別的布の無関係な特徴の低下により著しく低下する。
我々は,隠蔽布変人再識別(Occ-CC-ReID)として,隠蔽布変人再識別(Occ-CC-ReID)を定義した。
我々は,Occluded-PRCCとOccluded-LTCCの2つの隠蔽型人物識別データセットを構築した。
データセットは以下のリンクから取得できる。 https://github.com/1024AILab/Occluded-Cloth-Changing-Person- Re-Identification。
Cloth-changing person re-identification aims to retrieve and identify spe-cific pedestrians by using cloth-irrelevant features in person cloth-changing scenarios. However, pedestrian images captured by surveillance probes usually contain occlusions in real-world scenarios. The perfor-mance of existing cloth-changing re-identification methods is significantly degraded due to the reduction of discriminative cloth-irrelevant features caused by occlusion. We define cloth-changing person re-identification in occlusion scenarios as occluded cloth-changing person re-identification (Occ-CC-ReID), and to the best of our knowledge, we are the first to pro-pose occluded cloth-changing person re-identification as a new task. We constructed two occluded cloth-changing person re-identification datasets for different occlusion scenarios: Occluded-PRCC and Occluded-LTCC. The datasets can be obtained from the following link: https://github.com/1024AILab/Occluded-Cloth-Changing-Person- Re-Identification. | 翻訳日:2024-03-14 14:11:06 公開日:2024-03-13 |
# SM4Depth:シームレス単分子距離推定
ワンモデルによるカメラとシーン
SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model ( http://arxiv.org/abs/2403.08556v1 ) ライセンス: Link先を確認 | Yihao Liu and Feng Xue and Anlong Ming | (参考訳) 単分子距離深さ推定(MMDE)の一般化は長年にわたる課題である。
近年の手法では、相対深度とメートル法深度を組み合わせたり、入力画像焦点距離を調整したりして進行している。
しかし,カメラ,シーン,データレベルでの課題は,(1)異なるカメラに対する感度,(2)シーン間の不整合精度,(3)大規模なトレーニングデータへの信頼,等々である。
本稿では,1つのネットワーク内の全ての問題に対処する,シームレスなMMDE手法であるSM4Depthを提案する。
まず、一貫した視野(FOV)が、カメラ間の「測度あいまいさ」を解決する鍵であることを明らかにする。
第2に,シーン間で連続的に高い精度を達成するため,距離尺度の決定を,深さ間隔をビンに識別し,変分に基づく非正規化深度ビンを提案する。
この方法は従来の計量ビンのあいまいさを減らして多様なシーンの深さギャップを橋渡しする。
第三に、大規模なトレーニングデータへの依存を減らすために、我々は ‘divide and conquer’ ソリューションを提案する。
広大な解空間から直接推定する代わりに、正しい計量ビンは複雑性の減少のために複数の解部分空間から推定される。
最後に、たった150KのRGB-Dペアとトレーニング用のコンシューマグレードのGPUで、SM4Depthは、これまで見たことのないほとんどのデータセット、特にmRI$_\theta$のZoeDepthとMetric3Dを上回る最先端のパフォーマンスを実現している。
コードはhttps://github.com/1hao-Liu/SM4Depthで見ることができる。
The generalization of monocular metric depth estimation (MMDE) has been a longstanding challenge. Recent methods made progress by combining relative and metric depth or aligning input image focal length. However, they are still beset by challenges in camera, scene, and data levels: (1) Sensitivity to different cameras; (2) Inconsistent accuracy across scenes; (3) Reliance on massive training data. This paper proposes SM4Depth, a seamless MMDE method, to address all the issues above within a single network. First, we reveal that a consistent field of view (FOV) is the key to resolve ``metric ambiguity'' across cameras, which guides us to propose a more straightforward preprocessing unit. Second, to achieve consistently high accuracy across scenes, we explicitly model the metric scale determination as discretizing the depth interval into bins and propose variation-based unnormalized depth bins. This method bridges the depth gap of diverse scenes by reducing the ambiguity of the conventional metric bin. Third, to reduce the reliance on massive training data, we propose a ``divide and conquer" solution. Instead of estimating directly from the vast solution space, the correct metric bins are estimated from multiple solution sub-spaces for complexity reduction. Finally, with just 150K RGB-D pairs and a consumer-grade GPU for training, SM4Depth achieves state-of-the-art performance on most previously unseen datasets, especially surpassing ZoeDepth and Metric3D on mRI$_\theta$. The code can be found at https://github.com/1hao-Liu/SM4Depth. | 翻訳日:2024-03-14 14:11:05 公開日:2024-03-13 |
# 拡散モデルによるフェデレーション知識グラフの学習
Federated Knowledge Graph Unlearning via Diffusion Model ( http://arxiv.org/abs/2403.08554v1 ) ライセンス: Link先を確認 | Bingchen Liu and Yuanyuan Fang | (参考訳) フェデレートラーニング(FL)は、データプライバシを保護しつつ、モデル共有とコラボレーションを可能にすることによって、人工知能技術の開発と応用を促進する。
知識グラフ(KG)埋め込み表現は、エンティティと関係をベクトル空間にマッピングすることで知識推論と応用の基礎を提供する。
フェデレートされたKG埋め込みは、ローカルデータのプライバシーを保護しながら、多様なクライアントソースからの知識の利用を可能にする。
しかしながら、プライバシ保護や動的データ変更への適応の必要性といった要求により、マシン・アンラーニング(MU)の調査が引き起こされている。
しかし、KG埋め込みモデルの性能を維持することは、特定の忘れられたデータがモデルに与える影響を忘れてはならない。
本稿では,フェデレートされた知識グラフにおける機械学習に適した新しいフレームワークであるFedDMを提案する。
拡散モデルを利用すると、ノイズの多いデータを生成し、FLモデルに対する特定の知識の影響を軽減し、残りのデータに関する全体的な性能を保ちます。
提案モデルの有効性を評価するために,ベンチマークデータセットを用いて実験的な評価を行う。
大規模な実験は、FedDMが知識を忘れる有望な結果をもたらすことを示した。
Federated learning (FL) promotes the development and application of artificial intelligence technologies by enabling model sharing and collaboration while safeguarding data privacy. Knowledge graph (KG) embedding representation provides a foundation for knowledge reasoning and applications by mapping entities and relations into vector space. Federated KG embedding enables the utilization of knowledge from diverse client sources while safeguarding the privacy of local data. However, due to demands such as privacy protection and the need to adapt to dynamic data changes, investigations into machine unlearning (MU) have been sparked. However, it is challenging to maintain the performance of KG embedding models while forgetting the influence of specific forgotten data on the model. In this paper, we propose FedDM, a novel framework tailored for machine unlearning in federated knowledge graphs. Leveraging diffusion models, we generate noisy data to sensibly mitigate the influence of specific knowledge on FL models while preserving the overall performance concerning the remaining data. We conduct experimental evaluations on benchmark datasets to assess the efficacy of the proposed model. Extensive experiments demonstrate that FedDM yields promising results in knowledge forgetting. | 翻訳日:2024-03-14 14:11:05 公開日:2024-03-13 |
# 線形部分多様体上の政策最適化の回帰解析
制約付きオンラインLQG
Regret Analysis of Policy Optimization over Submanifolds for Linearly Constrained Online LQG ( http://arxiv.org/abs/2403.08553v1 ) ライセンス: Link先を確認 | Ting-Jui Chang and Shahin Shahrampour | (参考訳) オンライン最適化と制御の最近の進歩は、オンライン線形二次規制(LQR)問題を研究するための新しいツールを提供してきた。
しかし、既存の作業の制御パラメータ化は、物理的接続による疎らさのような現実的な条件を満たさない可能性がある。
本研究では,オンライン線形二次ガウス問題を制御器に与えられた線形制約を用いて検討する。
オフラインLQRの線形に制約されたポリシー最適化のために、最適制御問題の文脈で自然に現れるリーマン計量を備えた2次法を提案し、関数列の第1次および第2次情報に基づいてオンライン制御を行うオンライン楽観的ニュートン(OONM)を提案する。
提案アルゴリズムを定量化するために、累積コストのサブ最適性として定義される後悔の概念を、(局所的に)最小化コントローラシーケンスに利用し、最小化器シーケンスのパス長の観点から後悔境界を与える。
OONMの特性を検証するためのシミュレーション結果も提供される。
Recent advancement in online optimization and control has provided novel tools to study online linear quadratic regulator (LQR) problems, where cost matrices are varying adversarially over time. However, the controller parameterization of existing works may not satisfy practical conditions like sparsity due to physical connections. In this work, we study online linear quadratic Gaussian problems with a given linear constraint imposed on the controller. Inspired by the recent work of [1] which proposed, for a linearly constrained policy optimization of an offline LQR, a second order method equipped with a Riemannian metric that emerges naturally in the context of optimal control problems, we propose online optimistic Newton on manifold (OONM) which provides an online controller based on the prediction on the first and second order information of the function sequence. To quantify the proposed algorithm, we leverage the notion of regret defined as the sub-optimality of its cumulative cost to that of a (locally) minimizing controller sequence and provide the regret bound in terms of the path-length of the minimizer sequence. Simulation results are also provided to verify the property of OONM. | 翻訳日:2024-03-14 14:11:04 公開日:2024-03-13 |
# ガウシアン画像:1000FPS画像表現と2D圧縮
ガウススプラッティング
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting ( http://arxiv.org/abs/2403.08551v1 ) ライセンス: Link先を確認 | Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang | (参考訳) Inlicit Neural representations (INR)は画像表現と圧縮で大成功を収め、十分なGPUリソースが利用できると仮定して、10-1000 FPSで高画質で高速なレンダリング速度を提供する。
しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。
そこで本研究では,ガウス画像と2次元ガウス画像による画像表現と圧縮の画期的なパラダイムを提案する。
まず、画像を表すために2D Gaussianを導入し、各 Gaussian は位置、共分散、色を含む8つのパラメータを持つ。
その後、累積和に基づく新しいレンダリングアルゴリズムを公表する。
注目すべきは、最低3$\times$GPUメモリ使用量と5$\times$高速適合時間を持つ手法は、表現性能においてINRs(例えば、WIRE、I-NGP)と競合するだけでなく、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を提供する。
さらに,既存のベクトル量子化手法を統合して画像コーデックを構築する。
実験の結果,コーデックはCOINやCOIN++などの圧縮ベースのINRに匹敵する速度歪み性能を示し,約1000FPSの復号速度を実現している。
さらに、予備的な概念実証では、コーデックが部分ビットバック符号を使用する場合、COINとCOIN++を上回る性能を示している。
Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 1000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding. | 翻訳日:2024-03-14 14:11:04 公開日:2024-03-13 |
# CINA:時空間対応のための条件付きインシシデントニューラルアトラス
胎児脳の表現
CINA: Conditional Implicit Neural Atlas for Spatio-Temporal Representation of Fetal Brains ( http://arxiv.org/abs/2403.08550v1 ) ライセンス: Link先を確認 | Maik Dannecker, Vanessa Kyriakopoulou, Lucilio Cordero-Grande, Anthony N. Price, Joseph V. Hajnal, Daniel Rueckert | (参考訳) 磁気共鳴画像(MRI)からの時空間アトラス生成のための条件付き暗黙神経アトラス(CINA)を導入する。
トレーニング中、CINAは胎児の脳の一般的な表現を学び、対象の特定の情報を潜伏コードにエンコードする。
トレーニング後、CINAは胎児の脳の組織確率マップを任意の妊娠年齢(GA)と、トレーニング領域内を覆う解剖学的変異で構築することができる。
したがって、CINAは神経型脳と病理性脳の両方を表現できる。
さらに、トレーニングされたCINAモデルは、潜伏コードのテストタイム最適化を通じて、見えない被験者の脳MRIに適合することができる。
その後、CINAは特定の主題に合わせて確率論的組織マップを作成できる。
今回我々は,dHCPおよびFeTAデータセットから得られた正常および異常胎児脳のT2強調MRI198例について検討した。
心室容積や大脳皮質の折り畳み度などの解剖学的変化に柔軟に調節できる胎児性脳腺腫を表現できるCINAの能力を実証し,神経型脳と病理学的脳の両方をモデル化するのに適したツールとなった。
組織分画と年齢予測を用いて, アトラスの忠実度を定量化し, 確立した基準値と比較した。
CINAは、神経型脳と腹腔鏡下脳に優れた精度を示す。
さらに、CINAは胎児の脳年齢予測において平均0.23週間の絶対誤差を記録し、胎児の脳発達の正確な表現を確認する。
We introduce a conditional implicit neural atlas (CINA) for spatio-temporal atlas generation from Magnetic Resonance Images (MRI) of the neurotypical and pathological fetal brain, that is fully independent of affine or non-rigid registration. During training, CINA learns a general representation of the fetal brain and encodes subject specific information into latent code. After training, CINA can construct a faithful atlas with tissue probability maps of the fetal brain for any gestational age (GA) and anatomical variation covered within the training domain. Thus, CINA is competent to represent both, neurotypical and pathological brains. Furthermore, a trained CINA model can be fit to brain MRI of unseen subjects via test-time optimization of the latent code. CINA can then produce probabilistic tissue maps tailored to a particular subject. We evaluate our method on a total of 198 T2 weighted MRI of normal and abnormal fetal brains from the dHCP and FeTA datasets. We demonstrate CINA's capability to represent a fetal brain atlas that can be flexibly conditioned on GA and on anatomical variations like ventricular volume or degree of cortical folding, making it a suitable tool for modeling both neurotypical and pathological brains. We quantify the fidelity of our atlas by means of tissue segmentation and age prediction and compare it to an established baseline. CINA demonstrates superior accuracy for neurotypical brains and pathological brains with ventriculomegaly. Moreover, CINA scores a mean absolute error of 0.23 weeks in fetal brain age prediction, further confirming an accurate representation of fetal brain development. | 翻訳日:2024-03-14 14:11:03 公開日:2024-03-13 |
# Wet TinyML:遺伝子制御と細胞を用いたケミカルニューラルネットワーク
塑性
Wet TinyML: Chemical Neural Network Using Gene Regulation and Cell Plasticity ( http://arxiv.org/abs/2403.08549v1 ) ライセンス: Link先を確認 | Samitha Somathilaka, Adrian Ratwatte, Sasitharan Balasubramaniam, Mehmet Can Vuran, Witawas Srisa-an, Pietro Li\`o | (参考訳) 初期の研究で我々は、生物細胞固有のニューラルネットワークのような構造を利用して化学入力を用いて計算タスクを実行する遺伝子レギュレーションニューラルネットワーク(GRNN)の概念を導入しました。
我々はこの化学ベースのニューラルネットワークをWet TinyMLと定義する。
GRNN構造は、遺伝子制御ネットワークに基づいており、遺伝子間の推定された相互作用に基づいて、各リンクに関連する重みを持つ。
GRNNは、Network Architecture Searchに似たアプリケーションベースの検索プロセスを使用することで、従来の計算に使用できる。
本研究は, 細胞可塑性を取り入れ, 自然セルの適応性をさらに活用して, より大きなスペクトルと動的計算タスクを一致させるGRNN探索を多様化させることにより, この概念を推し進める。
例として, 配向セルの塑性により, 動的システムに適合する数学的回帰進化を抽出できることを示す。
我々はまた、GRNNの化学エネルギーとシリコンのエネルギーを比較することでエネルギー分析を行い、この分析はフォン・ノイマンアーキテクチャ上で実行される人工ニューラルネットワークアルゴリズムとニューロモルフィックプロセッサの両方を含む。
Wet TinyMLの概念は、化学ベースの、エネルギー効率が高く、ミニチュアな生物学的AIの出現の道を開くことができる。
In our earlier work, we introduced the concept of Gene Regulatory Neural Network (GRNN), which utilizes natural neural network-like structures inherent in biological cells to perform computing tasks using chemical inputs. We define this form of chemical-based neural network as Wet TinyML. The GRNN structures are based on the gene regulatory network and have weights associated with each link based on the estimated interactions between the genes. The GRNNs can be used for conventional computing by employing an application-based search process similar to the Network Architecture Search. This study advances this concept by incorporating cell plasticity, to further exploit natural cell's adaptability, in order to diversify the GRNN search that can match larger spectrum as well as dynamic computing tasks. As an example application, we show that through the directed cell plasticity, we can extract the mathematical regression evolution enabling it to match to dynamic system applications. We also conduct energy analysis by comparing the chemical energy of the GRNN to its silicon counterpart, where this analysis includes both artificial neural network algorithms executed on von Neumann architecture as well as neuromorphic processors. The concept of Wet TinyML can pave the way for the new emergence of chemical-based, energy-efficient and miniature Biological AI. | 翻訳日:2024-03-14 14:11:02 公開日:2024-03-13 |
# AIGCもAIを混乱させる - シンセティクスの調査と説明
大視領域モデルにおける画像誘発幻覚
AIGCs Confuse AI Too: Investigating and Explaining Synthetic Image-induced Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2403.08542v1 ) ライセンス: Link先を確認 | Yifei Gao, Jiaqi Wang, Zhiyu Lin, Jitao Sang | (参考訳) 人工知能生成コンテンツ(AIGC)の進化は、より高い品質に向かって進んでいる。
AI生成コンテンツは、幅広いAIモデルにおいて重要な役割を担っているが、彼らが導入する潜在的な隠れたリスクは、十分に検討されていない。
人間指向の偽造検出以外にも、AI生成コンテンツは、もともと自然データを処理するように設計されたAIモデルに潜在的な問題を引き起こす。
本研究では,AI合成画像によるLVLM(Large Vision-Language Models)の高次幻覚現象について述べる。
合成画像によって誘導される物体幻覚は、より多く、より均一な位置分布によって特徴づけられるが、これらの合成画像でさえ、自然画像と比較して非現実的あるいは付加的な視覚的特徴を示さない。
さらに,Q-formerとLinearプロジェクタについて検討した結果,合成画像は視覚投射後のトークン偏差を呈し,幻覚バイアスを増幅することがわかった。
The evolution of Artificial Intelligence Generated Contents (AIGCs) is advancing towards higher quality. The growing interactions with AIGCs present a new challenge to the data-driven AI community: While AI-generated contents have played a crucial role in a wide range of AI models, the potential hidden risks they introduce have not been thoroughly examined. Beyond human-oriented forgery detection, AI-generated content poses potential issues for AI models originally designed to process natural data. In this study, we underscore the exacerbated hallucination phenomena in Large Vision-Language Models (LVLMs) caused by AI-synthetic images. Remarkably, our findings shed light on a consistent AIGC \textbf{hallucination bias}: the object hallucinations induced by synthetic images are characterized by a greater quantity and a more uniform position distribution, even these synthetic images do not manifest unrealistic or additional relevant visual features compared to natural images. Moreover, our investigations on Q-former and Linear projector reveal that synthetic images may present token deviations after visual projection, thereby amplifying the hallucination bias. | 翻訳日:2024-03-14 14:11:02 公開日:2024-03-13 |
# 言語モデルはオーバートレーニングと下流で確実にスケールする
タスク
Language models scale reliably with over-training and on downstream tasks ( http://arxiv.org/abs/2403.08540v1 ) ライセンス: Link先を確認 | Samir Yitzhak Gadre and Georgios Smyrnis and Vaishaal Shankar and Suchin Gururangan and Mitchell Wortsman and Rulin Shao and Jean Mercat and Alex Fang and Jeffrey Li and Sedrick Keh and Rui Xin and Marianna Nezhurina and Igor Vasiljevic and Jenia Jitsev and Alexandros G. Dimakis and Gabriel Ilharco and Shuran Song and Thomas Kollar and Yair Carmon and Achal Dave and Reinhard Heckel and Niklas Muennighoff and Ludwig Schmidt | (参考訳) スケーリング法則は、言語モデルを開発する上で有用なガイドであるが、現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法との間にはまだギャップがある。
例えば、スケーリングは通常、計算最適トレーニング体制(すなわち「チンチラ最適」体制)で研究されるが、実際には推論コストを減らすためにモデルが過度に訓練されることが多い。
さらに、スケーリング法則は、主に次のトーケン予測における損失を予測するが、最終的には下流タスクのパフォーマンスに基づいてモデルを比較する。
本稿では,この2つの欠点に対処する。
そのために、0.011Bから6.9Bのパラメータを持つ104モデルのテストベッドを作成し、3つのデータ分布上のさまざまなトークンで訓練した。
まず,過度に訓練された体制におけるスケーリングについて検討する。
モデルパラメータの数とパラメータに対するトレーニングトークンの比率の両方を外挿するスケーリング法則に適合する。
これにより,11.4Bパラメータ,900Bトークン実行(32$\times$オーバートレーニング),6.9Bパラメータ,138Bトークン実行$\unicode{x2014}$eachの検証損失を,300$\times$少ない計算で予測することが可能になります。
第二に、言語モデルの難易度と、その下流タスク性能を電力法則により関連付ける。
この法則を用いて、上記の2つのモデルに対して、20$\times$より少ない計算を必要とする実験を用いて、ダウンストリームタスク上で平均化されたトップ1エラーを予測する。
実験はhttps://github.com/mlfoundations/scaling.comで公開しています。
Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32$\times$ over-trained) and a 6.9B parameter, 138B token run$\unicode{x2014}$each from experiments that take 300$\times$ less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20$\times$ less compute. Our experiments are available at https://github.com/mlfoundations/scaling. | 翻訳日:2024-03-14 14:11:01 公開日:2024-03-13 |
# HOLMES:Holionym-Meronymによる畳み込みのセマンティックインスペクション
画像分類器
HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional Image Classifiers ( http://arxiv.org/abs/2403.08536v1 ) ライセンス: Link先を確認 | Francesco Dibitonto, Fabio Garcea, Andr\'e Panisson, Alan Perotti, and Lia Morra | (参考訳) 畳み込みニューラルネットワーク(CNN)は、現在、視覚タスクにおける特徴抽出プロセスを自動化する能力のおかげで、コンピュータビジョンにおける選択モデルとなっている。
しかし、トレーニング中に得られた知識は完全に象徴的であり、エンドユーザに理解し説明することは困難である。
本稿では,HOLMES (Hoolonym-Meronym based Semantic inspection) と呼ばれる新しい手法を提案する。
具体的には、HOLMESはオントロジー、Webスクレイピング、転送学習を活用して、与えられたホロニム(クラス)のメロニム(部分)ベースの検出器を自動的に構築する。
そして, メロニムレベルで熱マップを生成し, そして最後に, ホログラムCNNを隠蔽画像で探索することにより, 分類出力における各部分の重要性を明らかにする。
HOLMESは最先端のサリエンシ手法と比較してさらに一歩前進し、高密度の注釈付きデータセットを必要とせず、概念を単一の計算単位に関連付けることなく、CNNがどこと何を見ているのかに関する情報を提供する。
対象物(動物、道具、車両)の分類に関する広範囲な実験的評価は、我々のアプローチの可能性を示している。
平均すると、HOLMESの説明には少なくとも2つのメロニムが含まれており、単一のメロニムのアブレーションはホロニムモデルの信頼性をほぼ半分にしている。
得られた熱マップは削除・挿入・保存曲線を用いて定量的に評価した。
すべてのメトリクスはGradCAMが達成したものに匹敵するものであり、人間の理解できない概念におけるヒートマップのさらなる分解の利点を提供し、その結果、メロニムのオブジェクト分類との関連性と、それをキャプチャするHOLMES能力の両方を強調した。
コードはhttps://github.com/FrancesC0de/HOLMESで公開されている。
Convolutional Neural Networks (CNNs) are nowadays the model of choice in Computer Vision, thanks to their ability to automatize the feature extraction process in visual tasks. However, the knowledge acquired during training is fully subsymbolic, and hence difficult to understand and explain to end users. In this paper, we propose a new technique called HOLMES (HOLonym-MEronym based Semantic inspection) that decomposes a label into a set of related concepts, and provides component-level explanations for an image classification model. Specifically, HOLMES leverages ontologies, web scraping and transfer learning to automatically construct meronym (parts)-based detectors for a given holonym (class). Then, it produces heatmaps at the meronym level and finally, by probing the holonym CNN with occluded images, it highlights the importance of each part on the classification output. Compared to state-of-the-art saliency methods, HOLMES takes a step further and provides information about both where and what the holonym CNN is looking at, without relying on densely annotated datasets and without forcing concepts to be associated to single computational units. Extensive experimental evaluation on different categories of objects (animals, tools and vehicles) shows the feasibility of our approach. On average, HOLMES explanations include at least two meronyms, and the ablation of a single meronym roughly halves the holonym model confidence. The resulting heatmaps were quantitatively evaluated using the deletion/insertion/preservation curves. All metrics were comparable to those achieved by GradCAM, while offering the advantage of further decomposing the heatmap in human-understandable concepts, thus highlighting both the relevance of meronyms to object classification, as well as HOLMES ability to capture it. The code is available at https://github.com/FrancesC0de/HOLMES. | 翻訳日:2024-03-14 14:11:00 公開日:2024-03-13 |
# CNN, Transformers, Recurrent を用いた豚の攻撃性分類
ネットワーク
Pig aggression classification using CNN, Transformers and Recurrent Networks ( http://arxiv.org/abs/2403.08528v1 ) ライセンス: Link先を確認 | Junior Silva Souza, Eduardo Bedin, Gabriel Toshio Hirokawa Higa, Newton Loebens, Hemerson Pistori | (参考訳) 動物行動の分析・検出に使用できる技術の開発は、ストレスや動物福祉の監視が可能であり、農業における意思決定に寄与するため、家畜部門にとって重要な活動である。
このようにして、動物行動が人間によって分析されると、繁殖者が生産性能を向上させるための決定を下すのに役立てることができる。
ブタの攻撃性は、動物の分類と識別を通じてその影響を減らすために研究される行動の例である。
しかし、このプロセスは面倒で、エラーの影響を受けやすいため、制御された環境で撮影されたビデオを視覚的に分類することで、自動化によって削減することができる。
キャプチャされたビデオはトレーニングに使用することができ、その結果、コンピュータビジョンと人工知能による分類にニューラルネットワーク技術を使用することができる。
本研究では,STAM,TimeSformer,ViViTの変種と,ResNet3D2,Resnet(2+1)D,CnnLstmなどの畳み込みを用いた手法が主な手法である。
これらの手法は、攻撃的および非攻撃的行動を特定することを目的として、ブタのビデオ分類に用いられた。
本研究は,ビデオ分類における畳み込み技術の有効性に加えて,トランスフォーマーの寄与を分析するために様々な手法を比較した。
性能は精度、精度、リコールを用いて評価した。
TimerSformer法はビデオの分類において最も良い結果を示し、平均精度は0.729である。
The development of techniques that can be used to analyze and detect animal behavior is a crucial activity for the livestock sector, as it is possible to monitor the stress and animal welfare and contributes to decision making in the farm. Thus, the development of applications can assist breeders in making decisions to improve production performance and reduce costs, once the animal behavior is analyzed by humans and this can lead to susceptible errors and time consumption. Aggressiveness in pigs is an example of behavior that is studied to reduce its impact through animal classification and identification. However, this process is laborious and susceptible to errors, which can be reduced through automation by visually classifying videos captured in controlled environment. The captured videos can be used for training and, as a result, for classification through computer vision and artificial intelligence, employing neural network techniques. The main techniques utilized in this study are variants of transformers: STAM, TimeSformer, and ViViT, as well as techniques using convolutions, such as ResNet3D2, Resnet(2+1)D, and CnnLstm. These techniques were employed for pig video classification with the objective of identifying aggressive and non-aggressive behaviors. In this work, various techniques were compared to analyze the contribution of using transformers, in addition to the effectiveness of the convolution technique in video classification. The performance was evaluated using accuracy, precision, and recall. The TimerSformer technique showed the best results in video classification, with median accuracy of 0.729. | 翻訳日:2024-03-14 14:11:00 公開日:2024-03-13 |
# 線形フォトニックの決定論的生成における時間-ビン絡み合い
cluster + state
Time-bin entanglement in the deterministic generation of linear photonic cluster states ( http://arxiv.org/abs/2403.08527v1 ) ライセンス: Link先を確認 | David Bauch and Nikolas K\"ocher and Nils Heinisch and Stefan Schumacher | (参考訳) 量子エミッタを$\Lambda$-type電子系で記述した個別量子エミッタを用いて、時間ビン絡み合った光子の列車の効率的な決定論的生成戦略について検討する。
フル微視的数値シミュレーションにおいて, かなりの長さの高品質な線形クラスター状態の生成を明示的に示す。
基礎となるスキームは、精密光駆動による基底状態のコヒーレンス操作に基づいている。
1つの重要な発見は、最も容易にアクセスできる品質指標である、達成可能な回転率(英語版)は、損失に直面して放出された光子の実際の量子相関を評価するのに不足していることである。
これを解決するために、多光子の状態の量子特性に対する優れたゲージとして、安定化器生成期待値を明示的に算出する。
この結果から,量子ドット型システムにおける損失の最小化と現実的なシステムパラメータの制御により,有効長の線形クラスタ状態が生成され,量子情報処理のスケーラビリティが期待できることを示す。
We investigate strategies for the efficient deterministic creation of trains of time-bin entangled photons using an individual quantum emitter described by a $\Lambda$-type electronic system. We explicitly demonstrate generation of high-quality linear cluster states of substantial length in our full microscopic numerical simulations. The underlying scheme is based on the manipulation of ground state coherences through precise optical driving. One important finding is that the most easily accessible quality metrics, the achievable rotation fidelities, fall short in assessing the actual quantum correlations of the emitted photons in the face of losses. To address this, we explicitly calculate stabilizer generator expectation values as a superior gauge for the quantum properties of the many-photon state. Our results illustrate that with controlled minimization of losses and realistic system parameters for quantum-dot type systems, useful linear cluster states of significant lengths can be generated, showcasing promise of scalability for quantum information processing endeavors. | 翻訳日:2024-03-14 14:10:59 公開日:2024-03-13 |
# 完全管理型L1暗号化3ノードネットワークのフィールド実証
ハイブリッドリレーQKDと集中型対称古典鍵管理
Field demonstration of a fully managed, L1 encrypted 3-node network with hybrid relayed-QKD and centralized symmetric classical key management ( http://arxiv.org/abs/2403.08526v1 ) ライセンス: Link先を確認 | N. Makris, A. Papageorgopoulos, K. Tsimvrakidis, P. Konteli, Y. Gautier, M. Terenziani, E. Daudin, D. Ntoulias, T. Fragkioudakis, I. Meletios, M. Mosca, D. Hobbs, T. Rosati, I. Papastamatiou, O. Prnjat, K. Koumantaros, D. Mitropoulos, Jean-Robert Morax, Bruno Huttner, O. K. Christodoulopoulos, G. T. Kanellos, D. Syvridis | (参考訳) 我々は、L1-OTNsec暗号を用いた完全管理された3ノードQKDリングネットワークの実証に成功した。
We successfully demonstrated a fully-managed, field-deployed, three-node QKD ring network with L1-OTNsec encryption, that employs a hybrid scheme of QKD and classical yet quantum-safe centrally-generated symmetric keys to support point-to-point and relay consumers. | 翻訳日:2024-03-14 14:10:59 公開日:2024-03-13 |
# 適応的変化点を用いた弱音から強音まで
検出とアクティブラーニング
From Weak to Strong Sound Event Labels using Adaptive Change-Point Detection and Active Learning ( http://arxiv.org/abs/2403.08525v1 ) ライセンス: Link先を確認 | John Martinsson, Olof Mogren, Maria Sandsten, Tuomas Virtanen | (参考訳) 本研究では,アダプティブ・チェンジポイント検出(A-CPD)に基づく音声録音セグメンテーション手法を提案する。
目標は、目標音の時間的アクティベーションについて得られる情報を最大化することである。
ラベルのない音声記録毎に,アノテーションを導くために使用する確率曲線の導出に予測モデルを用いる。
予測モデルは、まず、利用可能な注釈付き音声イベントデータに基づいて、ラベルなしデータセットのクラスから切り離されたクラスで事前訓練される。
予測モデルは、アクティブな学習ループにおけるアノテーションによって提供されるアノテーションに徐々に適応する。
これらの確率の変化点検出を用いて、弱いラベルアノテータを強いラベルに導くために使用するクエリを導出する。
アノテーション予算が限られていても,高品質なラベルを導出できることを示すとともに,2つのベースラインクエリ戦略と比較して,A-CPDに有利な結果が得られることを示す。
In this work we propose an audio recording segmentation method based on an adaptive change point detection (A-CPD) for machine guided weak label annotation of audio recording segments. The goal is to maximize the amount of information gained about the temporal activation's of the target sounds. For each unlabeled audio recording, we use a prediction model to derive a probability curve used to guide annotation. The prediction model is initially pre-trained on available annotated sound event data with classes that are disjoint from the classes in the unlabeled dataset. The prediction model then gradually adapts to the annotations provided by the annotator in an active learning loop. The queries used to guide the weak label annotator towards strong labels are derived using change point detection on these probabilities. We show that it is possible to derive strong labels of high quality even with a limited annotation budget, and show favorable results for A-CPD when compared to two baseline query strategies. | 翻訳日:2024-03-14 14:10:58 公開日:2024-03-13 |
# Adiabatically Decoupled Subsystem による射影量子固有解法
進化: 騒音における分子エネルギー学への資源効率の良いアプローチ
量子コンピュータ
Projective Quantum Eigensolver via Adiabatically Decoupled Subsystem Evolution: a Resource Efficient Approach to Molecular Energetics in Noisy Quantum Computers ( http://arxiv.org/abs/2403.08519v1 ) ライセンス: Link先を確認 | Chayan Patra, Sonaldeep Halder, Rahul Maitra | (参考訳) 量子コンピュータは化学の分野で大きな可能性を秘めており、古典的なコンピュータの範囲を超える複雑な多くの身体問題を解くために新しいフロンティアを開拓している。
しかし、現在の量子ハードウェアのノイズは、大きな化学系に適用性を制限する。
この研究は、ノイズ中間スケール量子(NISQ)ハードウェアを用いて分子系の基底状態エネルギーを資源効率よく正確に計算することを目的とした射影形式の開発を含む。
本手法は, 連接型ユニタリ結合クラスタ(dUCC)フレームワークにおいて, 連接型パラメータ化アンサッツの定式化に依存している。
このようなデカップリングは、低次元多様体における全パラメータ最適化をエミュレートし、パラメータ間の相互相乗関係を利用して特性精度を確保する。
回路前測定を行なわずに、より浅い回路と期待値の少ないよりコンパクトな固定深度アンサッツを導出する。
解析的および数値的な実演を通して,将来の耐故障システムにおいて必要な精度を確保しつつ,ノイズ下での手法の優れた性能を実証する。
このアプローチは、短期量子ハードウェア資源の効率的な利用により、出現する化学空間の迅速な探索を可能にする。
Quantum computers hold immense potential in the field of chemistry, ushering new frontiers to solve complex many body problems that are beyond the reach of classical computers. However, noise in the current quantum hardware limits their applicability to large chemical systems. This work encompasses the development of a projective formalism that aims to compute ground-state energies of molecular systems accurately using Noisy Intermediate Scale Quantum (NISQ) hardware in a resource efficient manner. Our approach is reliant upon the formulation of a bipartitely decoupled parameterized ansatz within the disentangled unitary coupled cluster (dUCC) framework based on the principles of synergetics. Such decoupling emulates the total parameter optimization in a lower dimensional manifold, while a mutual synergistic relationship among the parameters is exploited to ensure characteristic accuracy. Without any pre-circuit measurements, our method leads to a highly compact fixed-depth ansatz with shallower circuits and fewer expectation value evaluations. Through analytical and numerical demonstrations, we demonstrate the method's superior performance under noise while concurrently ensuring requisite accuracy in future fault-tolerant systems. This approach enables rapid exploration of emerging chemical spaces by efficient utilization of near-term quantum hardware resources. | 翻訳日:2024-03-14 14:10:58 公開日:2024-03-13 |
# 対流軸軸方向の軸方向軸方向の軸方向方向と軸方向方向の軸方向方向
An Extended View on Measuring Tor AS-level Adversaries ( http://arxiv.org/abs/2403.08517v1 ) ライセンス: Link先を確認 | Gabriel Karl Gegenhuber, Markus Maier, Florian Holzbauer, Wilfried Mayer, Georg Merzdovnik, Edgar Weippl, Johanna Ullrich | (参考訳) Torは世界中の何百万ものユーザーに対して匿名性を提供しており、悪意のあるアクターにとって貴重なターゲットとなっている。
低遅延匿名システムとして、大規模な自律システム(AS)のような強力な受動的敵からのトラフィック相関攻撃に弱い。
予備的な研究として、ドイツと米国におけるIPv4クライアントの匿名化のリスクを推測するため、RIPE Atlasフレームワーク(全世界で11,000以上のプローブからなるネットワーク)を利用した計測手法を開発した。
本稿では,Torネットワークにおける非匿名化の可能性について,より広範な知見を提供する追加シナリオに適用する。
特に私達は
(a)2022年以前の(2020年)の測定を繰り返すことで、経年変化を観察する。
(b)この次世代インターネットプロトコルを使用する場合の匿名化のリスクを分析するため、IPv6に対する我々のアプローチを採用し、
(c)ロシアのウクライナ侵攻開始後、検閲が強化されたロシアの現状を調査する。
我々の結果によると、Torは、一貫した品質でユーザ匿名性を提供します。 個々の数値は、クライアントと宛先に依存していますが、匿名化攻撃を行う可能性のあるASを識別することができました。
しかし、ドイツと米国の顧客にとって、全体像は2020年以来変わっていない。
さらに、プロトコル(IPv4 vs. IPv6)は匿名化のリスクに大きな影響を与えない。
ロシアのユーザーはTorを使って検閲を回避することができる。
匿名化の一般的なリスクは、実際には他の調査対象国よりも低い。
さらに、匿名化を成功させる可能性のある少数のASは、西側の企業によって運営されており、ロシア人のリスクをさらに減らしている。
Tor provides anonymity to millions of users around the globe which has made it a valuable target for malicious actors. As a low-latency anonymity system, it is vulnerable to traffic correlation attacks from strong passive adversaries such as large autonomous systems (ASes). In preliminary work, we have developed a measurement approach utilizing the RIPE Atlas framework -- a network of more than 11,000 probes worldwide -- to infer the risk of deanonymization for IPv4 clients in Germany and the US. In this paper, we apply our methodology to additional scenarios providing a broader picture of the potential for deanonymization in the Tor network. In particular, we (a) repeat our earlier (2020) measurements in 2022 to observe changes over time, (b) adopt our approach for IPv6 to analyze the risk of deanonymization when using this next-generation Internet protocol, and (c) investigate the current situation in Russia, where censorship has been intensified after the beginning of Russia's full-scale invasion of Ukraine. According to our results, Tor provides user anonymity at consistent quality: While individual numbers vary in dependence of client and destination, we were able to identify ASes with the potential to conduct deanonymization attacks. For clients in Germany and the US, the overall picture, however, has not changed since 2020. In addition, the protocols (IPv4 vs. IPv6) do not significantly impact the risk of deanonymization. Russian users are able to securely evade censorship using Tor. Their general risk of deanonymization is, in fact, lower than in the other investigated countries. Beyond, the few ASes with the potential to successfully perform deanonymization are operated by Western companies, further reducing the risk for Russian users. | 翻訳日:2024-03-14 14:10:57 公開日:2024-03-13 |
# UniLiDAR: 継続のために異なるLiDAR間のドメインギャップを橋渡しする
学び
UniLiDAR: Bridge the domain gap among different LiDARs for continual learning ( http://arxiv.org/abs/2403.08512v1 ) ライセンス: Link先を確認 | Zikun Xu, Jianqiang Wang, Shaobing Xu | (参考訳) LiDARベースの3D認識アルゴリズムは、大規模なデータセットの出現とともに急速に進化してきた。
それにもかかわらず、特定のデータセットでトレーニングされたモデルが、異なるLiDARを持つ他のデータセットや実世界のシナリオに適用された場合、大幅なパフォーマンス劣化が発生することが多い。
本稿では,多種多様なLiDARデータセット間の連続的な学習と異種プラットフォーム間のシームレスなデプロイが可能な,異なるLiDARを扱える統一モデルを開発することを目的とする。
データセット間のギャップは、主に幾何学的相違(ビームと点数の変化など)と意味的不整合(タコノミーの衝突)に現れる。
この目的のために,UniLiDARを提案する。UniLiDARは幾何学的階層化とセマンティックラベルマッピングを利用して,異種プラットフォームへの展開時の性能劣化を軽減し,複数のデータセットのトレーニングを容易にする。
さらに,本手法は既存の3次元知覚モデルと容易に組み合わせることができる。
LiDARドメインギャップをブリッジする手法の有効性は、OpenOccupancy-nuScenesとSemanticKITTIの2つの顕著なデータセットで包括的な実験によって検証されている。
UniLiDARは、直接マージされたデータセットでトレーニングされたモデルと比較して、占有率予測のmIoUをそれぞれ15.7%、12.5%上昇させる。
さらに、個々のデータセットでトレーニングされた複数のSOTAメソッドよりも優れています。
我々は、我々の研究が3D一般化のさらなる研究を促進することを期待している。
LiDAR-based 3D perception algorithms have evolved rapidly alongside the emergence of large datasets. Nonetheless, considerable performance degradation often ensues when models trained on a specific dataset are applied to other datasets or real-world scenarios with different LiDAR. This paper aims to develop a unified model capable of handling different LiDARs, enabling continual learning across diverse LiDAR datasets and seamless deployment across heterogeneous platforms. We observe that the gaps among datasets primarily manifest in geometric disparities (such as variations in beams and point counts) and semantic inconsistencies (taxonomy conflicts). To this end, this paper proposes UniLiDAR, an occupancy prediction pipeline that leverages geometric realignment and semantic label mapping to facilitate multiple datasets training and mitigate performance degradation during deployment on heterogeneous platforms. Moreover, our method can be easily combined with existing 3D perception models. The efficacy of the proposed approach in bridging LiDAR domain gaps is verified by comprehensive experiments on two prominent datasets: OpenOccupancy-nuScenes and SemanticKITTI. UniLiDAR elevates the mIoU of occupancy prediction by 15.7% and 12.5%, respectively, compared to the model trained on the directly merged dataset. Moreover, it outperforms several SOTA methods trained on individual datasets. We expect our research to facilitate further study of 3D generalization, the code will be available soon. | 翻訳日:2024-03-14 14:10:56 公開日:2024-03-13 |
# 学生感情認識のためのマルチモーダルフュージョンネットワーク
変圧器とテンソル製品
A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product ( http://arxiv.org/abs/2403.08511v1 ) ライセンス: Link先を確認 | Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma | (参考訳) 近年、鉄道や空港の滑走路に異物が侵入する事件が頻発している。
これらのオブジェクトには、歩行者、車両、動物、デブリが含まれる。
本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。
本研究では,航空・鉄道システムにおける異物検出のための2つの公開データセットを組み合わせたAARFOD(Aero and Rail Foreign Object Detection)を提案する。
このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。
この大規模データセットに対する実験結果から,提案モデルがベースライン YOLOv5 モデルよりも大幅に性能が向上し,計算要求の低減が図られた。
改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。
パラメータは約25.12%削減され、GFLOPは約10.63%削減された。
アブレーション実験では,FasterNetモジュールはモデルのパラメータ数を著しく削減し,アテンション機構の参照により軽量化による性能損失を低減できることがわかった。
In recent years, there have been frequent incidents of foreign objects intruding into railway and Airport runways. These objects can include pedestrians, vehicles, animals, and debris. This paper introduces an improved YOLOv5 architecture incorporating FasterNet and attention mechanisms to enhance the detection of foreign objects on railways and Airport runways. This study proposes a new dataset, AARFOD (Aero and Rail Foreign Object Detection), which combines two public datasets for detecting foreign objects in aviation and railway systems. The dataset aims to improve the recognition capabilities of foreign object targets. Experimental results on this large dataset have demonstrated significant performance improvements of the proposed model over the baseline YOLOv5 model, reducing computational requirements. improved YOLO model shows a significant improvement in precision by 1.2%, recall rate by 1.0%, and mAP@.5 by 0.6%, while mAP@.5-.95 remained unchanged. The parameters were reduced by approximately 25.12%, and GFLOPs were reduced by about 10.63%. In the ablation experiment, it is found that the FasterNet module can significantly reduce the number of parameters of the model, and the reference of the attention mechanism can slow down the performance loss caused by lightweight. | 翻訳日:2024-03-14 14:10:56 公開日:2024-03-13 |
# 光学的に定義されたフォノン結晶欠陥
An optically defined phononic crystal defect ( http://arxiv.org/abs/2403.08510v1 ) ライセンス: Link先を確認 | Thomas J. Clark, Simon Bernard, Jiaxing Ma, Vincent Dumont, and Jack C. Sankey | (参考訳) 光力で完全に制御された欠陥モードを持つフォノン結晶を提示する。
強光トラップをSi$_3$N$_4$フォノン結晶膜の単一単位セルに印加することにより、複数のモードを互いにコヒーレントに結合し、単一欠陥モードを音速バンドギャップにスムーズに転送する。
これは、このモードの空間プロファイルが結晶全体にまたがるものから、わずか数個の単位セルに閉じ込められたものへと局所化されることを伴い、37倍の質量の減少が証明された。
この光モード形状と機械モード形状との概念結合の証明は、光学設計空間を大きく広げる。
また、光学的にプログラム可能な格子ポテンシャルの実現可能性を示し、(欠陥に加えて)再構成可能な導波路、超格子、および障害を可能とし、マクロな量子運動のユニークな状態を作るための研究の道のりに対応する。
We present a phononic crystal with a defect mode defined and controlled entirely by optical forces. By applying a strong optical trap to a single unit cell of a Si$_3$N$_4$ phononic crystal membrane, we coherently couple many modes to each other, and smoothly transfer a single defect mode into the phononic bandgap. This is accompanied by localization of the mode's spatial profile from one spanning the entire crystal to one confined within just a few unit cells, as evidenced by a 37-fold reduction in the participating mass. This proof-of-concept coupling between light and mechanical mode shape significantly broadens the optomechanical design space. It also demonstrates the feasibility of optically programmable lattice potentials, enabling (in addition to defects) reconfigurable waveguides, superlattices, and disorder, with corresponding avenues of research toward creating unique states of macroscopic quantum motion. | 翻訳日:2024-03-14 14:10:55 公開日:2024-03-13 |
# ハイブリッド伝送線路における量子シミュレーション
Quantum simulation in hybrid transmission lines ( http://arxiv.org/abs/2403.08508v1 ) ライセンス: Link先を確認 | Alessandro Ferreri and Frank K. Wilhelm | (参考訳) 送信線に基づくプラットフォームは、現在、量子電磁力学と量子場理論の標準現象のシミュレーションに使われている。
本研究では,超伝導量子干渉装置(SQUID)を用いて,右手伝送線路を左手伝送線路に接続するハイブリッドプラットフォームを提案する。
本稿では,2つの伝送路間の相互作用と,合成プラットフォームに沿った励起流について検討する。
特定の共鳴条件を活性化することにより、このプラットフォームは量子光学、マルチモード量子システム、量子熱力学の異なる現象の量子シミュレータとして使用できることを示す。
Platforms based on transmission lines are nowadays employed for the simulation of standard phenomena in quantum electrodynamics and quantum field theory. In this work, we propose a hybrid platform, in which a right-handed transmission line is connected to a left-handed transmission line by means of a superconducting quantum interference device (SQUID). We examine the interaction between the two transmission lines, as well as the excitation flow along the composed platform. We show that, by activating specific resonance conditions, this platform can be used as a quantum simulator of different phenomena in quantum optics, multimode quantum systems and quantum thermodynamics. | 翻訳日:2024-03-14 14:10:55 公開日:2024-03-13 |
# ステレオ画像のためのコンテンツ対応マスド画像モデリング変換器
圧縮
Content-aware Masked Image Modeling Transformer for Stereo Image Compression ( http://arxiv.org/abs/2403.08505v1 ) ライセンス: Link先を確認 | Xinjie Zhang, Shenyuan Gao, Zhening Liu, Xingtong Ge, Dailan He, Tongda Xu, Yan Wang, Jun Zhang | (参考訳) 既存の学習ベースステレオ画像コーデックは、単一の画像コーデックから派生した単純なエントロピーモデルを用いて、遅延表現を符号化する。
しかし,これらのエントロピーモデルでは,ステレオ画像に固有の空間差特性を効果的にとらえることに苦慮し,最適速度歪みが生じる。
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは、各画像を遅延表現に独立に変換し、新しいコンテンツ対応マスク画像モデリング(MIM)技術を導入し、空間的および不均一な依存関係を捕捉する強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
我々のコンテンツ対応MIMは、事前情報と推定トークンとの双方向の効率的な対話を容易にするため、トランスフォーマーデコーダの追加は当然不要である。
実験により,我々のステレオ画像コーデックは,2つのステレオ画像データセットであるCityscapesとInStereo2Kの高速符号化と復号速度で,最先端の速度歪み性能を実現することが示された。
Existing learning-based stereo image codec adopt sophisticated transformation with simple entropy models derived from single image codecs to encode latent representations. However, those entropy models struggle to effectively capture the spatial-disparity characteristics inherent in stereo images, which leads to suboptimal rate-distortion results. In this paper, we propose a stereo image compression framework, named CAMSIC. CAMSIC independently transforms each image to latent representation and employs a powerful decoder-free Transformer entropy model to capture both spatial and disparity dependencies, by introducing a novel content-aware masked image modeling (MIM) technique. Our content-aware MIM facilitates efficient bidirectional interaction between prior information and estimated tokens, which naturally obviates the need for an extra Transformer decoder. Experiments show that our stereo image codec achieves state-of-the-art rate-distortion performance on two stereo image datasets Cityscapes and InStereo2K with fast encoding and decoding speed. | 翻訳日:2024-03-14 14:10:53 公開日:2024-03-13 |
# OccFiner: ハイブリッドプロパゲーションによるオフボード業務のリファインメント
OccFiner: Offboard Occupancy Refinement with Hybrid Propagation ( http://arxiv.org/abs/2403.08504v1 ) ライセンス: Link先を確認 | Hao Shi, Song Wang, Jiaming Zhang, Xiaoting Yin, Zhongdao Wang, Zhijian Zhao, Guangming Wang, Jianke Zhu, Kailun Yang, Kaiwei Wang | (参考訳) 3Dセマンティックシーンコンプリート(3D Semantic Scene Completion, SSC)は、コンピュータビジョンにおいて重要な課題である。
従来の手法は、オンボード処理に限られており、同時幾何的および意味的推定、様々な視点における連続性、単一視点の排他性に苦慮していた。
OccFinerは,視覚による占有率予測の精度を高めるために設計された,新しいオフボードフレームワークである。
OccFinerは2つのハイブリッドフェーズで動作します。
1)複数の局所的フレームを暗黙的に整列処理してモデルエラーを訂正し、全距離にわたって占有精度を一貫して向上するマルチ・マルチ・ローカル・プロパゲーションネットワーク。
2) 地域中心のグローバルな伝播は, 明示的なマルチビュー幾何を用いてラベルを精細化し, センサバイアスを統合することに焦点を当てている。
大規模な実験により、OccFinerは様々な種類の粗い占有領域における幾何学的および意味論的精度を向上し、SemanticKITTIデータセットに新しい最先端のパフォーマンスを設定できることを示した。
特に、OccFinerは視覚ベースのSSCモデルをLiDARベースのSSCモデルよりも高いレベルに引き上げている。
Vision-based occupancy prediction, also known as 3D Semantic Scene Completion (SSC), presents a significant challenge in computer vision. Previous methods, confined to onboard processing, struggle with simultaneous geometric and semantic estimation, continuity across varying viewpoints, and single-view occlusion. Our paper introduces OccFiner, a novel offboard framework designed to enhance the accuracy of vision-based occupancy predictions. OccFiner operates in two hybrid phases: 1) a multi-to-multi local propagation network that implicitly aligns and processes multiple local frames for correcting onboard model errors and consistently enhancing occupancy accuracy across all distances. 2) the region-centric global propagation, focuses on refining labels using explicit multi-view geometry and integrating sensor bias, especially to increase the accuracy of distant occupied voxels. Extensive experiments demonstrate that OccFiner improves both geometric and semantic accuracy across various types of coarse occupancy, setting a new state-of-the-art performance on the SemanticKITTI dataset. Notably, OccFiner elevates vision-based SSC models to a level even surpassing that of LiDAR-based onboard SSC models. | 翻訳日:2024-03-14 14:10:53 公開日:2024-03-13 |
# キャラクタガイダンスとキャプションを有するマスケ生成型ストーリートランス
増築
Masked Generative Story Transformer with Character Guidance and Caption Augmentation ( http://arxiv.org/abs/2403.08502v1 ) ライセンス: Link先を確認 | Christos Papadimitriou, Giorgos Filandrianos, Maria Lymperaiou, Giorgos Stamou | (参考訳) ストーリービジュアライゼーション(SV)は、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、困難な生成視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字の生成と背景を別々にモデル化して文字のレンダリングを改善したりしていた。
それとは対照的に、私たちは完全に並列なトランスフォーマーベースのアプローチを採用し、一貫性を達成するために、過去と将来のキャプションとのクロスアテンションにのみ依存しています。
さらに,ロジット空間に文字条件と文字条件のロジットの組み合わせを形成することにより,文字の生成を暗黙的に重視するキャラクタガイダンス手法を提案する。
また,Large Language Model (LLM) によるキャプション拡張手法を用いて,我々のアプローチの堅牢性を高める。
これらの手法の組み合わせは、最も顕著なSVベンチマーク(Pororo-SV)において、様々なメトリクスに対して、最先端のSOTA(State-of-the-art)に決定される。
定量的な結果の妥当性は、人間の調査によって裏付けられている。
Story Visualization (SV) is a challenging generative vision task, that requires both visual quality and consistency between different frames in generated image sequences. Previous approaches either employ some kind of memory mechanism to maintain context throughout an auto-regressive generation of the image sequence, or model the generation of the characters and their background separately, to improve the rendering of characters. On the contrary, we embrace a completely parallel transformer-based approach, exclusively relying on Cross-Attention with past and future captions to achieve consistency. Additionally, we propose a Character Guidance technique to focus on the generation of characters in an implicit manner, by forming a combination of text-conditional and character-conditional logits in the logit space. We also employ a caption-augmentation technique, carried out by a Large Language Model (LLM), to enhance the robustness of our approach. The combination of these methods culminates into state-of-the-art (SOTA) results over various metrics in the most prominent SV benchmark (Pororo-SV), attained with constraint resources while achieving superior computational complexity compared to previous arts. The validity of our quantitative results is supported by a human survey. | 翻訳日:2024-03-14 14:10:52 公開日:2024-03-13 |
# クラウドを乗り越える - コンピュータプロバイダの中間的役割
AIの規則では
Governing Through the Cloud: The Intermediary Role of Compute Providers in AI Regulation ( http://arxiv.org/abs/2403.08501v1 ) ライセンス: Link先を確認 | Lennart Heim, Tim Fist, Janet Egan, Sihao Huang, Stephen Zekany, Robert Trager, Michael A Osborne, Noa Zilberman | (参考訳) 世界中の司法機関が、EU AI ActやUS Executive Order 14110など、最も強力なAIシステムを規制するための第一歩を踏み出す中で、コンプライアンスの検証と違反への対応を可能にする効果的な執行メカニズムの必要性が高まっている。
計算プロバイダは、セキュアなインフラストラクチャの提供と、AI規制の仲介を行うために、AI開発とデプロイメントに関連する法的義務と倫理的責任を持つべきだ、と私たちは主張する。
コンピュータプロバイダーは、セキュリティ者として、AIシステムとクリティカルインフラストラクチャを保護し、記録保持者として、政策立案者に対する可視性を高め、顧客活動の検証として、監視を確実にし、執行機関として、規則違反に対して行動する4つの重要な能力を通じて、規制エコシステムにおいて重要な役割を果たすことができる。
本研究では,これらの機能を対象的かつプライバシを重視した方法で実行可能にする技術的実現可能性を分析し,さまざまな技術機器を提示する。
特に、計算プロバイダがすでにアクセスしている機密情報によって、計算ワークロードの2つの重要なガバナンス関連特性 – タイプ-eg、大規模トレーニング、推論 – と、消費した計算量 – を提供する方法について説明する。
AIエグゼクティブオーダー14110をケーススタディとして、我々は、米国がコンピュータプロバイダのレコード保持要件の実装を開始した経緯を概説する。
また、包括的なAI計算監視スキームを確立するために、検証と執行の役割をどのように追加できるかについても検討する。
我々は、国際化が効果的な実装の鍵であり、AI規制における計算プロバイダーの役割が拡大するにつれて、機密性とプライバシとリスク軽減とのバランスをとるという重要な課題を強調します。
As jurisdictions around the world take their first steps toward regulating the most powerful AI systems, such as the EU AI Act and the US Executive Order 14110, there is a growing need for effective enforcement mechanisms that can verify compliance and respond to violations. We argue that compute providers should have legal obligations and ethical responsibilities associated with AI development and deployment, both to provide secure infrastructure and to serve as intermediaries for AI regulation. Compute providers can play an essential role in a regulatory ecosystem via four key capacities: as securers, safeguarding AI systems and critical infrastructure; as record keepers, enhancing visibility for policymakers; as verifiers of customer activities, ensuring oversight; and as enforcers, taking actions against rule violations. We analyze the technical feasibility of performing these functions in a targeted and privacy-conscious manner and present a range of technical instruments. In particular, we describe how non-confidential information, to which compute providers largely already have access, can provide two key governance-relevant properties of a computational workload: its type-e.g., large-scale training or inference-and the amount of compute it has consumed. Using AI Executive Order 14110 as a case study, we outline how the US is beginning to implement record keeping requirements for compute providers. We also explore how verification and enforcement roles could be added to establish a comprehensive AI compute oversight scheme. We argue that internationalization will be key to effective implementation, and highlight the critical challenge of balancing confidentiality and privacy with risk mitigation as the role of compute providers in AI regulation expands. | 翻訳日:2024-03-14 14:10:52 公開日:2024-03-13 |
# 外国人のための注意機構と高速ネットに基づくYOLOv5の改良
鉄道・航空軌道における物体検出
Improved YOLOv5 Based on Attention Mechanism and FasterNet for Foreign Object Detection on Railway and Airway tracks ( http://arxiv.org/abs/2403.08499v1 ) ライセンス: Link先を確認 | Zongqing Qi, Danqing Ma, Jingyu Xu, Ao Xiang, Hedi Qu | (参考訳) 近年、鉄道や空港の滑走路に異物が侵入する事件が頻発している。
これらのオブジェクトには、歩行者、車両、動物、デブリが含まれる。
本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。
本研究では,航空・鉄道システムにおける異物検出のための2つの公開データセットを組み合わせたAARFOD(Aero and Rail Foreign Object Detection)を提案する。
この大データセットに対する実験結果から,提案モデルの性能改善が,ベースライン YOLOv5 モデルよりも顕著に向上し,計算要求が低減された。
パラメータは約25.12%削減され、GFLOPは約10.63%削減された。
アブレーション実験では,FasterNetモジュールはモデルのパラメータ数を著しく削減し,アテンション機構の参照により軽量化による性能損失を低減できることがわかった。
In recent years, there have been frequent incidents of foreign objects intruding into railway and Airport runways. These objects can include pedestrians, vehicles, animals, and debris. This paper introduces an improved YOLOv5 architecture incorporating FasterNet and attention mechanisms to enhance the detection of foreign objects on railways and Airport runways. This study proposes a new dataset, AARFOD (Aero and Rail Foreign Object Detection), which combines two public datasets for detecting foreign objects in aviation and railway systems.The dataset aims to improve the recognition capabilities of foreign object targets. Experimental results on this large dataset have demonstrated significant performance improvements of the proposed model over the baseline YOLOv5 model, reducing computational requirements.Improved YOLO model shows a significant improvement in precision by 1.2%, recall rate by 1.0%, and mAP@.5 by 0.6%, while mAP@.5-.95 remained unchanged. The parameters were reduced by approximately 25.12%, and GFLOPs were reduced by about 10.63%. In the ablation experiment, it is found that the FasterNet module can significantly reduce the number of parameters of the model, and the reference of the attention mechanism can slow down the performance loss caused by lightweight. | 翻訳日:2024-03-14 14:10:51 公開日:2024-03-13 |
# ガウス鋳型
Gaussian Splatting in Style ( http://arxiv.org/abs/2403.08498v1 ) ライセンス: Link先を確認 | Abhishek Saroha, Mariia Gladkova, Cecilia Curreli, Tarun Yenamandra, Daniel Cremers | (参考訳) シーンスタイリゼーションは、ニューラルスタイル転送の作業を3次元に拡張する。
この問題における重要な課題は、多視点でスタイリングされた外観の均一性を維持することである。
以前の作品の大半は、シーンを特定のスタイルのイメージで最適化することでこれを達成している。
対照的に、テスト時に高品質なスタイリングされた新しいビューを生成するスタイルイメージのコレクションに基づいて訓練された新しいアーキテクチャを提案する。
我々の研究は3Dガウススプラッティングの枠組みの上に成り立っている。
与えられたシーンに対して、事前学習したガウスアンをマルチ解像度のハッシュグリッドと小さなMLPを使って処理し、条件付きスタイリングされたビューを得る。
3Dガウスの明示的な性質は、幾何整合性を含むNeRFベースの手法に対して、高速なトレーニングとレンダリングの仕組みを持つという固有の利点を与えてくれる。
これにより、拡張現実やバーチャルリアリティーアプリケーションのような膨大なユースケースにおいて、本手法が有用となる。
実験により,室内および屋外の様々な実世界のデータに対して,視覚的品質に優れた最先端の性能が得られることを示す。
Scene stylization extends the work of neural style transfer to three spatial dimensions. A vital challenge in this problem is to maintain the uniformity of the stylized appearance across a multi-view setting. A vast majority of the previous works achieve this by optimizing the scene with a specific style image. In contrast, we propose a novel architecture trained on a collection of style images, that at test time produces high quality stylized novel views. Our work builds up on the framework of 3D Gaussian splatting. For a given scene, we take the pretrained Gaussians and process them using a multi resolution hash grid and a tiny MLP to obtain the conditional stylised views. The explicit nature of 3D Gaussians give us inherent advantages over NeRF-based methods including geometric consistency, along with having a fast training and rendering regime. This enables our method to be useful for vast practical use cases such as in augmented or virtual reality applications. Through our experiments, we show our methods achieve state-of-the-art performance with superior visual quality on various indoor and outdoor real-world data. | 翻訳日:2024-03-14 14:10:50 公開日:2024-03-13 |
# チャープパルスに基づく普遍的でロバストな量子コヒーレント制御
driving protocol
Universal and robust quantum coherent control based on a chirped-pulse driving protocol ( http://arxiv.org/abs/2403.08496v1 ) ライセンス: Link先を確認 | Yue-Hao Yin, Jin-Xin Yang and Li-Xiang Cen | (参考訳) 我々は、チャープパルス駆動プロトコルを提案し、量子コヒーレント制御における例外的な特性を明らかにする。
本発明の駆動プロトコルが生成する非断熱通路は、その成分として集団逆転と非断熱性による遷移を含むものであり、パルス切断に対する堅牢性を示す。
さらに、このプロトコルは、適切に調整されたスイーピング周波数またはパルス強度でパルスシーケンスを設計することで、キュービットシステムに対する普遍的な操作を可能にすることを実証する。
We propose a chirped-pulse driving protocol and reveal its exceptional property for quantum coherent control. The nonadiabatic passage generated by the driving protocol, which includes the population inversion and the nonadiabaticity-induced transition as its ingredients, is shown to be robust against pulse truncation. We further demonstrate that the protocol allows for universal manipulation on the qubit system through designing pulse sequences with either properly adjusted sweeping frequency or pulsing intensity. | 翻訳日:2024-03-14 14:10:50 公開日:2024-03-13 |
# 状態をもつ大規模言語モデルの対話的自動評価
Aware patient Simulator
Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator ( http://arxiv.org/abs/2403.08495v1 ) ライセンス: Link先を確認 | Yusheng Liao, Yutong Meng, Yuhao Wang, Hongcheng Liu, Yanfeng Wang, Yu Wang | (参考訳) 大規模言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示しているが、医療分野におけるそれらの応用はいまだ不十分である。
これまでの研究は主に、現実的なシナリオとは程遠い検査による医学的知識のパフォーマンスに焦点を当てており、臨床上のLCMの能力を評価するのに不足している。
医療におけるLarge Language Models(LLMs)の適用性を高めるために,従来のLSM評価と臨床実践の曖昧な要求とのギャップをターゲットとした,AIE(Automated Interactive Evaluation)フレームワークとSAPS(State-Aware patient Simulator)を導入する。
静的な医療知識評価に依存する従来の方法とは異なり、AIEとSAPSは多ターンの医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
このアプローチは、実際の臨床シナリオに密接な近似を提供し、複雑な患者の相互作用に応答して、LCMの挙動を詳細に分析することを可能にする。
我々は,AIEフレームワークの有効性を実証し,ヒトの評価と良好に一致し,医療用LLM検査に革命をもたらす可能性を示した。
Large Language Models (LLMs) have demonstrated remarkable proficiency in human interactions, yet their application within the medical field remains insufficiently explored. Previous works mainly focus on the performance of medical knowledge with examinations, which is far from the realistic scenarios, falling short in assessing the abilities of LLMs on clinical tasks. In the quest to enhance the application of Large Language Models (LLMs) in healthcare, this paper introduces the Automated Interactive Evaluation (AIE) framework and the State-Aware Patient Simulator (SAPS), targeting the gap between traditional LLM evaluations and the nuanced demands of clinical practice. Unlike prior methods that rely on static medical knowledge assessments, AIE and SAPS provide a dynamic, realistic platform for assessing LLMs through multi-turn doctor-patient simulations. This approach offers a closer approximation to real clinical scenarios and allows for a detailed analysis of LLM behaviors in response to complex patient interactions. Our extensive experimental validation demonstrates the effectiveness of the AIE framework, with outcomes that align well with human evaluations, underscoring its potential to revolutionize medical LLM testing for improved healthcare delivery. | 翻訳日:2024-03-14 14:10:50 公開日:2024-03-13 |
# Few-shotのためのリッチセマンティック知識による大規模言語モデルの構築
中国のスペルチェック
Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking ( http://arxiv.org/abs/2403.08492v1 ) ライセンス: Link先を確認 | Ming Dong, Yujing Chen, Miao Zhang, Hao Sun, Tingting He | (参考訳) Chinese Spell Checking (CSC) は、音声テキスト(STT)と光学文字認識(OCR)において重要な役割を果たす、広く使われている技術である。
既存のCSCアプローチの多くはBERTアーキテクチャに依存しており、優れたパフォーマンスを実現している。
しかし、基盤モデルの規模によって制限されているため、BERTベースの手法は数ショットのシナリオではうまく動作せず、実用的なアプリケーションでは一定の制限が示される。
本稿では,RS-LLM (Rich Semantic based LLMs) というコンテキスト内学習手法を用いて,大規模言語モデル (LLM) を基礎モデルとして導入する。
さらに,我々のフレームワークに中国語のリッチな意味情報を導入することの影響について検討した。
少数の中国固有のリッチなセマンティック構造を導入することで、LCMは、数ショットのCSCタスクにおいてBERTベースのモデルよりも優れた性能が得られることがわかった。
さらに,複数のデータセットに対して実験を行い,実験結果から提案フレームワークの優位性を検証した。
Chinese Spell Checking (CSC) is a widely used technology, which plays a vital role in speech to text (STT) and optical character recognition (OCR). Most of the existing CSC approaches relying on BERT architecture achieve excellent performance. However, limited by the scale of the foundation model, BERT-based method does not work well in few-shot scenarios, showing certain limitations in practical applications. In this paper, we explore using an in-context learning method named RS-LLM (Rich Semantic based LLMs) to introduce large language models (LLMs) as the foundation model. Besides, we study the impact of introducing various Chinese rich semantic information in our framework. We found that by introducing a small number of specific Chinese rich semantic structures, LLMs achieve better performance than the BERT-based model on few-shot CSC task. Furthermore, we conduct experiments on multiple datasets, and the experimental results verified the superiority of our proposed framework. | 翻訳日:2024-03-14 14:10:49 公開日:2024-03-13 |
# 固有状態を用いたフロック加熱開始のシャープ検出
感性
Sharp detection of the onset of Floquet heating using eigenstate sensitivity ( http://arxiv.org/abs/2403.08490v1 ) ライセンス: Link先を確認 | Sourav Bhattacharjee, Souvik Bandyopadhyay, Anatoli Polkovnikov | (参考訳) 十分に低い駆動周波数のカオスフロケ系は、熱力学限界における無限温度アンサンブルまで加熱することが知られている。
しかし、高い駆動周波数では、フロケ系は指数的に長い加熱時間を持つ堅牢な予熱相においてエネルギー的に安定である。
本研究では,Floquet固有状態の無限小変形に対する感度(感受性)を,この加熱遷移を検出するための鋭敏かつ敏感な尺度として提案する。
また、フロッケ熱化の様々なレギュラー(時間スケール)を正確に捉えている。
特に、非有界加熱の開始付近の低周波では、フロケ固有状態は摂動に最も敏感であり、その結果、スケールされた感受性は急激な最大値となる。
さらに,Floquet加熱の開始付近では,全ての駆動周波数で非可積分であるにもかかわらず,遅いガラス動力学では非エルゴディックであることを示すため,局所観測器の緩和ダイナミクスに我々の結果を関連付ける。
Chaotic Floquet systems at sufficiently low driving frequencies are known to heat up to an infinite temperature ensemble in the thermodynamic limit. However at high driving frequencies, Floquet systems remain energetically stable in a robust prethermal phase with exponentially long heating times. We propose sensitivity (susceptibility) of Floquet eigenstates against infinitesimal deformations of the drive, as a sharp and sensitive measure to detect this heating transition. It also captures various regimes (timescales) of Floquet thermalization accurately. Particularly, we find that at low frequencies near the onset of unbounded heating, Floquet eigenstates are maximally sensitive to perturbations and consequently the scaled susceptibility develops a sharp maximum. We further connect our results to the relaxation dynamics of local observables to show that near the onset of Floquet heating, the system is nonergodic with slow glassy dynamics despite being nonintegrable at all driving frequencies. | 翻訳日:2024-03-14 14:10:49 公開日:2024-03-13 |
# オペレータの制御結合型リモート実装とその可能性
一般化
Controlled-Joint Remote Implementation of Operators and its Possible Generalization ( http://arxiv.org/abs/2403.08712v1 ) ライセンス: Link先を確認 | Satish Kumar, Nguyen Ba An, Anirban Pathak | (参考訳) 局所的な操作と古典的なコミュニケーションを用いたユニタリ演算子(量子リモート制御と同等の)の共用状態支援遠隔準備の既存の概念を一般化し、地理的に分離されたユーザで利用可能な未知の量子状態上で、任意のユニタリ(各で1つの未知のユニタリ演算または同等に同じ次元の2つのユニタリに分解された1つのユニタリ演算)を共同で実装できるシナリオに一般化する。
この課題は、光子の空間的および偏光的自由度の両方で同時に絡み合う4量子超絡み合い状態を用いて実行可能であることが明確に示されている。
分散フォトニック量子コンピューティングのプリミティブと見なせるプロトコルは、コントローラの数とユニタリーを実行するパーティの数を制限し、両方の数値を任意にすることができるケースにさらに一般化されている。
また、既存の量子リモコンスキームのすべての変種が、現在のスキームの特別な場合として得られることが示されている。
The existing notion of the shared entangled state-assisted remote preparation of unitary operator (equivalently the existing notion of quantum remote control) using local operation and classical communication is generalized to a scenario where under the control of a supervisor two users can jointly implement arbitrary unitaries (one unknown unitary operation by each or equivalently a single unitary decomposed into two unitaries of the same dimension and given to two users) on an unknown quantum state available with a geographically separated user. It is explicitly shown that the task can be performed using a four-qubit hyperentangled state, which is entangled simultaneously in both spatial and polarization degrees of freedom of photons. The proposed protocol which can be viewed as primitive for distributed photonic quantum computing is further generalized to the case that drops the restrictions on the number of controllers and the number of parties performing unitaries and allows both the numbers to be arbitrary. It is also shown that all the existing variants of quantum remote control schemes can be obtained as special cases of the present scheme. | 翻訳日:2024-03-14 13:38:36 公開日:2024-03-13 |
# 面符号デコーダの局所雑音への最適適応
Optimal adaptation of surface-code decoders to local noise ( http://arxiv.org/abs/2403.08706v1 ) ライセンス: Link先を確認 | Andrew S. Darmawan | (参考訳) 量子デバイスのノイズ特性から得られる情報は、古典的な復号アルゴリズムで使用することができ、量子エラー訂正符号の性能を向上させることができる。
局所雑音(すなわち1量子ビット)下での曲面符号に着目して、表面符号デコーダを雑音特性に適応させる場合の最大範囲を決定する簡単な方法を提案する。
本手法は,シンドローム情報を用いたテンソルネットワーク復号アルゴリズムと,ノイズのプロセス行列記述を用いて,近似補正を演算する手法である。
復号器に入力されたノイズモデルを選択的に誤字し、論理量子ビットの忠実さの損失を計測することにより、復号化のための個々のノイズパラメータの相対的重要性を決定できる。
この手法を,コヒーレンス,空間的不均一性,バイアスといった特徴を持つ物理的に関係のないいくつかの非相関ノイズモデルに適用する。
ノイズは一般に、完全に記述するために多くのパラメータを必要とするが、最適に近い復号化を実現するには、少数の臨界パラメータにデコーダを適応するだけでよい。
Information obtained from noise characterization of a quantum device can be used in classical decoding algorithms to improve the performance of quantum error-correcting codes. Focusing on the surface code under local (i.e. single-qubit) noise, we present a simple method to determine the maximum extent to which adapting a surface-code decoder to a noise feature can lead to a performance improvement. Our method is based on a tensor-network decoding algorithm, which uses the syndrome information as well as a process matrix description of the noise to compute a near-optimal correction. By selectively mischaracterizing the noise model input to the decoder and measuring the resulting loss in fidelity of the logical qubit, we can determine the relative importance of individual noise parameters for decoding. We apply this method to several physically relevant uncorrelated noise models with features such as coherence, spatial inhomogeneity and bias. While noise generally requires many parameters to describe completely, we find that to achieve near optimal decoding it appears only necessary adapt the decoder to a small number of critical parameters. | 翻訳日:2024-03-14 13:38:35 公開日:2024-03-13 |
# 拡散に基づく胎児の反復的対実的説明
超音波画像品質評価
Diffusion-based Iterative Counterfactual Explanations for Fetal Ultrasound Image Quality Assessment ( http://arxiv.org/abs/2403.08700v1 ) ライセンス: Link先を確認 | Paraskevas Pegios, Manxi Lin, Nina Weng, Morten Bo S{\o}ndergaard Svendsen, Zahra Bashir, Siavash Bigdeli, Anders Nymark Christensen, Martin Tolsgaard and Aasa Feragen | (参考訳) 胎児の健康状態の正確な診断とモニタリングには,超音波画像の品質が不可欠である。
しかし、音韻学者の専門知識や母性BMIや胎児のダイナミクスなどの影響を受け、高品質な標準平面の作成は困難である。
本研究では,拡散に基づく対物的説明可能なAIを用いて,低品質の非標準平面から現実的な高品質の標準平面を生成することを提案する。
定量的および定性的な評価を通じて,本手法が品質向上に有効であることを示す。
このことは、視覚的フィードバックを提供することによる臨床医の訓練の強化と、画質の向上、そして下流の診断とモニタリングの両立を将来の約束として示している。
Obstetric ultrasound image quality is crucial for accurate diagnosis and monitoring of fetal health. However, producing high-quality standard planes is difficult, influenced by the sonographer's expertise and factors like the maternal BMI or the fetus dynamics. In this work, we propose using diffusion-based counterfactual explainable AI to generate realistic high-quality standard planes from low-quality non-standard ones. Through quantitative and qualitative evaluation, we demonstrate the effectiveness of our method in producing plausible counterfactuals of increased quality. This shows future promise both for enhancing training of clinicians by providing visual feedback, as well as for improving image quality and, consequently, downstream diagnosis and monitoring. | 翻訳日:2024-03-14 13:38:34 公開日:2024-03-13 |
# 1層ソフトマックス注意における勾配流れの入射正則化
Implicit Regularization of Gradient Flow on One-Layer Softmax Attention ( http://arxiv.org/abs/2403.08699v1 ) ライセンス: Link先を確認 | Heejune Sheen, Siyu Chen, Tianhao Wang, Harrison H. Zhou | (参考訳) 鍵および問合せ重量行列を個別に学習する一層ソフトマックスアテンションモデルを用いて,分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
このような暗黙的な正規化は、注意重みに関してSVM(Support Vector Machine)問題によって説明できる。
この発見は、勾配降下は、鍵行列とクエリ行列が訓練のために単一の重み行列に結合されたときに、積の重み行列上のフロベニウスノルムの暗黙の正則化を誘導することを示す以前の結果と対照的である。
対角鍵および問合せ行列に対しては、再パラメータ化法に基づいて、分類データに関連するSVMの近似KKT条件を利用する。
さらに、結果は初期化時のデータ特徴と重み行列の特異空間を適切にアライメントした一般重み構成に拡張される。
We study gradient flow on the exponential loss for a classification problem with a one-layer softmax attention model, where the key and query weight matrices are trained separately. Under a separability assumption on the data, we show that when gradient flow achieves the minimal loss value, it further implicitly minimizes the nuclear norm of the product of the key and query weight matrices. Such implicit regularization can be described by a Support Vector Machine (SVM) problem with respect to the attention weights. This finding contrasts with prior results showing that the gradient descent induces an implicit regularization on the Frobenius norm on the product weight matrix when the key and query matrices are combined into a single weight matrix for training. For diagonal key and query matrices, our analysis builds upon the reparameterization technique and exploits approximate KKT conditions of the SVM associated with the classification data. Moreover, the results are extended to general weights configurations given proper alignment of the weight matrices' singular spaces with the data features at initialization. | 翻訳日:2024-03-14 13:38:34 公開日:2024-03-13 |
# 軌道上のクラウドセグメンテーションと分類のためのディープラーニング
ハイパースペクトル衛星データ
Deep Learning for In-Orbit Cloud Segmentation and Classification in Hyperspectral Satellite Data ( http://arxiv.org/abs/2403.08695v1 ) ライセンス: Link先を確認 | Daniel Kovac, Jan Mucha, Jon Alvarez Justo, Jiri Mekyska, Zoltan Galaz, Krystof Novotny, Radoslav Pitonak, Jan Knezik, Jonas Herec, Tor Arne Johansen | (参考訳) 本稿では、ハイパースペクトル衛星を用いたクラウド検出のための最新の畳み込みニューラルネットワーク(CNN)について検討する。
クラウドセグメンテーションと分類のための最新の1D CNN(1D-Justo-LiuNet)と最近の2D CNN(nnU-netと2D-Justo-UNet-Simple)の性能を評価する。
評価基準には、軌道展開の精度と計算効率が含まれる。
実験では、NASAのEO-1ハイパーイオンデータを使用し、主成分分析後のスペクトルチャネル番号が異なる。
その結果,1D-Justo-LiuNetは2D CNNよりも高い精度を達成し,スペクトルチャネルセットが大きいほどコンパクト性を維持しつつ,推論時間も増大していることがわかった。
しかし、1D CNNの性能は著しく低下する。
この文脈では、2D-Justo-UNet-Simpleは、精度、メモリ、時間コストを考慮して、軌道上でのデプロイメントに最適なバランスを提供する。
nnU-netは地上処理に適しているが,高精度アプリケーションには軽量な1D-Justo-LiuNetの展開が推奨されている。
あるいは、軽量な2D-Justo-UNet-Simpleは、軌道上のタイミングと精度のバランスの取れたコストに対して推奨される。
This article explores the latest Convolutional Neural Networks (CNNs) for cloud detection aboard hyperspectral satellites. The performance of the latest 1D CNN (1D-Justo-LiuNet) and two recent 2D CNNs (nnU-net and 2D-Justo-UNet-Simple) for cloud segmentation and classification is assessed. Evaluation criteria include precision and computational efficiency for in-orbit deployment. Experiments utilize NASA's EO-1 Hyperion data, with varying spectral channel numbers after Principal Component Analysis. Results indicate that 1D-Justo-LiuNet achieves the highest accuracy, outperforming 2D CNNs, while maintaining compactness with larger spectral channel sets, albeit with increased inference times. However, the performance of 1D CNN degrades with significant channel reduction. In this context, the 2D-Justo-UNet-Simple offers the best balance for in-orbit deployment, considering precision, memory, and time costs. While nnU-net is suitable for on-ground processing, deployment of lightweight 1D-Justo-LiuNet is recommended for high-precision applications. Alternatively, lightweight 2D-Justo-UNet-Simple is recommended for balanced costs between timing and precision in orbit. | 翻訳日:2024-03-14 13:38:34 公開日:2024-03-13 |
# TeaMs-RL:LLMに教える
強化学習
TeaMs-RL: Teaching LLMs to Teach Themselves Better Instructions via Reinforcement Learning ( http://arxiv.org/abs/2403.08694v1 ) ライセンス: Link先を確認 | Shangding Gu, Alois Knoll, Ming Jin | (参考訳) 大規模言語モデル(LLM)の開発は、ヒューマンフィードバック(RLHF)フレームワークによる強化学習において、人間アノテータに強く依存することや、自己インストラクトパラダイムに結びついた頻繁でコストのかかる外部クエリから生じる課題にしばしば直面する。
この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。
命令データトレーニング後にLLMを洗練させる典型的なRLHFから切り離し、RLを使用して基礎的な命令データセットを直接生成し、微調整だけで十分である。
筆者らのTeaMs-RLはテキスト操作とルールの集合を使い,トレーニングデータセットの多様化を優先する。
外部の高度なモデルに過度に依存することなく、高品質なデータ生成を容易にし、単一の微調整ステップへの道を歩み、その後のRLHFステージの必要性を否定する。
我々の発見は、人間の関与の必要性を減らし、モデルのクエリを減らし(WizardLMの総計5.73セント)、強力なベースラインに比べて複雑な命令を作成・解釈するLLMの機能を強化し、モデルのプライバシ保護を大幅に改善した。
The development of Large Language Models (LLMs) often confronts challenges stemming from the heavy reliance on human annotators in the reinforcement learning with human feedback (RLHF) framework, or the frequent and costly external queries tied to the self-instruct paradigm. In this work, we pivot to Reinforcement Learning (RL) -- but with a twist. Diverging from the typical RLHF, which refines LLMs following instruction data training, we use RL to directly generate the foundational instruction dataset that alone suffices for fine-tuning. Our method, TeaMs-RL, uses a suite of textual operations and rules, prioritizing the diversification of training datasets. It facilitates the generation of high-quality data without excessive reliance on external advanced models, paving the way for a single fine-tuning step and negating the need for subsequent RLHF stages. Our findings highlight key advantages of our approach: reduced need for human involvement and fewer model queries (only $5.73\%$ of WizardLM's total), along with enhanced capabilities of LLMs in crafting and comprehending complex instructions compared to strong baselines, and substantially improved model privacy protection. | 翻訳日:2024-03-14 13:38:33 公開日:2024-03-13 |
# 言語モデルはテキストの品質を気にしているか? WebCrawledの評価
Corpora 11言語にまたがるコーパス
Do Language Models Care About Text Quality? Evaluating Web-Crawled Corpora Across 11 Languages ( http://arxiv.org/abs/2403.08693v1 ) ライセンス: Link先を確認 | Rik van Noord, Taja Kuzman, Peter Rupnik, Nikola Ljube\v{s}i\'c, Miquel Espl\`a-Gomis, Gema Ram\'irez-S\'anchez, Antonio Toral | (参考訳) 大規模でキュレーションされたWebcrawled corporaは、トレーニング言語モデル(LM)において重要な役割を果たす。
これらは、GPT、LLaMA、XLM-RoBERTaモデルなど、最近のLMのほぼ全てのトレーニングデータのライオンのシェアを形成している。
しかし、この重要性にもかかわらず、これらのコーパスの品質には比較的注意が向けられていない。
本稿では、現在最も関係の深いウェブクローラコーパス(CC100、MaCoCu、mC4、OSCAR)を、11の低リソースのヨーロッパ言語で比較する。
提案手法は,まず,異なるコーパスから採取した試料の品質を人為的に評価することにより本質的な評価を行う。
コーパスの品質には明らかな違いがみられ,MaCoCuとOSCARが最適結果を得た。
しかし,外因性評価では,CC100コーパスが最も高いスコアが得られた。
我々は,本実験において,Webcrawled corporaの品質は,LMのトレーニングにおいて重要な役割を果たさないと結論づけた。
Large, curated, web-crawled corpora play a vital role in training language models (LMs). They form the lion's share of the training data in virtually all recent LMs, such as the well-known GPT, LLaMA and XLM-RoBERTa models. However, despite this importance, relatively little attention has been given to the quality of these corpora. In this paper, we compare four of the currently most relevant large, web-crawled corpora (CC100, MaCoCu, mC4 and OSCAR) across eleven lower-resourced European languages. Our approach is two-fold: first, we perform an intrinsic evaluation by performing a human evaluation of the quality of samples taken from different corpora; then, we assess the practical impact of the qualitative differences by training specific LMs on each of the corpora and evaluating their performance on downstream tasks. We find that there are clear differences in quality of the corpora, with MaCoCu and OSCAR obtaining the best results. However, during the extrinsic evaluation, we actually find that the CC100 corpus achieves the highest scores. We conclude that, in our experiments, the quality of the web-crawled corpora does not seem to play a significant role when training LMs. | 翻訳日:2024-03-14 13:38:32 公開日:2024-03-13 |
# 胸部解剖の非監督的構造整合性
放射線画像における異常検出
Exploiting Structural Consistency of Chest Anatomy for Unsupervised Anomaly Detection in Radiography Images ( http://arxiv.org/abs/2403.08689v1 ) ライセンス: Link先を確認 | Tiange Xiang, Yixiao Zhang, Yongyi Lu, Alan Yuille, Chaoyi Zhang, Weidong Cai, Zongwei Zhou | (参考訳) 放射線画像撮影プロトコルは特定の身体領域に焦点をあてるため、非常に類似した画像が生成され、患者全体の解剖学的構造が繰り返される。
この構造化された情報をエクスプロイトすることで、X線撮影画像からの異常の検出が簡単になる可能性がある。
そこで本研究では,SimSID(SimSID)による画像からの異常検出のための簡易空間認識メモリマトリックスを提案する。
本稿では,画像再構成タスクとして,空間認識メモリマトリクスと特徴空間のインペイントブロックからなる異常検出を定式化する。
トレーニング中、SimSIDは詳細な解剖学的構造を反復的な視覚パターンに分類することができ、推論では、テストイメージから異常(見えない/修正された視覚パターン)を識別することができる。
我々のSimSIDは、教師なしの異常検出において、ZhangLab、COVIDx、CheXpertのベンチマークデータセット上の+8.0%、+5.0%、+9.9%のAUCスコアをそれぞれ上回っている。
コード:https://github.com/MrGiovanni/SimSID
Radiography imaging protocols focus on particular body regions, therefore producing images of great similarity and yielding recurrent anatomical structures across patients. Exploiting this structured information could potentially ease the detection of anomalies from radiography images. To this end, we propose a Simple Space-Aware Memory Matrix for In-painting and Detecting anomalies from radiography images (abbreviated as SimSID). We formulate anomaly detection as an image reconstruction task, consisting of a space-aware memory matrix and an in-painting block in the feature space. During the training, SimSID can taxonomize the ingrained anatomical structures into recurrent visual patterns, and in the inference, it can identify anomalies (unseen/modified visual patterns) from the test image. Our SimSID surpasses the state of the arts in unsupervised anomaly detection by +8.0%, +5.0%, and +9.9% AUC scores on ZhangLab, COVIDx, and CheXpert benchmark datasets, respectively. Code: https://github.com/MrGiovanni/SimSID | 翻訳日:2024-03-14 13:38:32 公開日:2024-03-13 |
# サブワード補完のための文字マッチングによるトークンアライメント
Token Alignment via Character Matching for Subword Completion ( http://arxiv.org/abs/2403.08688v1 ) ライセンス: Link先を確認 | Ben Athiwaratkun, Shiqi Wang, Mingyue Shang, Yuchen Tian, Zijian Wang, Sujan Kumar Gonugondla, Sanjay Krishna Gouda, Rob Kwiatowski, Ramesh Nallapati, Bing Xiang | (参考訳) 様々な用途で広く利用されている生成モデルは、部分トークンに対応するプロンプトとしばしば苦労する。
この闘争は、部分的なトークンが推論中に分布から外れ、誤ったあるいは非感覚的な出力をもたらすトークン化に起因している。
本稿では,生成モデルにおけるテキスト補完におけるトークン化アーティファクトを緩和し,通常の非サブワードの場合においても性能を維持する手法について検討する。
この手法はトークンアライメントと呼ばれ、最後の完全なトークンをバックトラックし、モデルの生成がプロンプトと整合することを保証する。
このアプローチは、スペースプレフィックスや部分的インデンテーションのようなニュアンスなケースを含む、多くの部分的トークンシナリオで顕著な改善が示され、わずかに時間的増加が見られた。
本稿では,コード補完やテキスト自動補完など,部分入力処理における生成モデルの継続的な発展に寄与する技術と解析について述べる。
Generative models, widely utilized in various applications, can often struggle with prompts corresponding to partial tokens. This struggle stems from tokenization, where partial tokens fall out of distribution during inference, leading to incorrect or nonsensical outputs. This paper examines a technique to alleviate the tokenization artifact on text completion in generative models, maintaining performance even in regular non-subword cases. The method, termed token alignment, involves backtracking to the last complete tokens and ensuring the model's generation aligns with the prompt. This approach showcases marked improvement across many partial token scenarios, including nuanced cases like space-prefix and partial indentation, with only a minor time increase. The technique and analysis detailed in this paper contribute to the continuous advancement of generative models in handling partial inputs, bearing relevance for applications like code completion and text autocompletion. | 翻訳日:2024-03-14 13:38:31 公開日:2024-03-13 |
# 資源認識のためのデジタルツイン支援強化学習
エッジコンピューティングにおけるマイクロサービスのオフロード
Digital Twin-assisted Reinforcement Learning for Resource-aware Microservice Offloading in Edge Computing ( http://arxiv.org/abs/2403.08687v1 ) ライセンス: Link先を確認 | Xiangchun Chen, Jiannong Cao, Zhixuan Liang, Yuvraj Sahni, Mingjin Zhang | (参考訳) コラボレーティブエッジコンピューティング(CEC)は、エッジノードがエンドユーザからのマイクロサービスのコラボレーションと実行を可能にする、有望なパラダイムとして登場した。
マイクロサービスのオフロードは、基本的に重要な問題であり、サービスの到着時にいつ、どこでマイクロサービスが実行されるかを決定する。
しかし、現実世界のCEC環境の動的な性質は、しばしば非効率なマイクロサービスのオフロード戦略をもたらし、未使用のリソースとネットワークの混雑をもたらす。
この課題に対処するため、オンライン共同マイクロサービスのオフロードと帯域割り当ての問題であるJMOBAを定式化し、サービスの平均完了時間を最小化する。
本稿では,深部強化学習(DRL)とディジタルツイン技術を活用した新しいマイクロサービスオフロードアルゴリズムDTDRLMOを提案する。
具体的には,デジタルツイン技術を用いて,CECのエッジノード負荷とネットワーク条件をリアルタイムで予測し,適応する。
さらにこのアプローチは,マイクロサービス毎に最適なエッジノードを選択することで,効率的なオフロード計画の生成を可能にする。
実世界のデータセットと合成データセットのシミュレーション結果から、DTDRLMOは平均サービス完了時間においてヒューリスティックおよび学習ベースの手法より優れていることが示された。
Collaborative edge computing (CEC) has emerged as a promising paradigm, enabling edge nodes to collaborate and execute microservices from end devices. Microservice offloading, a fundamentally important problem, decides when and where microservices are executed upon the arrival of services. However, the dynamic nature of the real-world CEC environment often leads to inefficient microservice offloading strategies, resulting in underutilized resources and network congestion. To address this challenge, we formulate an online joint microservice offloading and bandwidth allocation problem, JMOBA, to minimize the average completion time of services. In this paper, we introduce a novel microservice offloading algorithm, DTDRLMO, which leverages deep reinforcement learning (DRL) and digital twin technology. Specifically, we employ digital twin techniques to predict and adapt to changing edge node loads and network conditions of CEC in real-time. Furthermore, this approach enables the generation of an efficient offloading plan, selecting the most suitable edge node for each microservice. Simulation results on real-world and synthetic datasets demonstrate that DTDRLMO outperforms heuristic and learning-based methods in average service completion time. | 翻訳日:2024-03-14 13:38:31 公開日:2024-03-13 |
# OneVOS:オールインワンのトランスフォーマーでビデオオブジェクトのセグメンテーションを統一
枠組み
OneVOS: Unifying Video Object Segmentation with All-in-One Transformer Framework ( http://arxiv.org/abs/2403.08682v1 ) ライセンス: Link先を確認 | Wanyun Li, Pinxue Guo, Xinyu Zhou, Lingyi Hong, Yangji He, Xiangyu Zheng, Wei Zhang and Wenqiang Zhang | (参考訳) 現代のビデオオブジェクトセグメンテーション(VOS)アプローチは、典型的には、特徴抽出、マッチング、メモリ管理、複数のオブジェクト集約からなる。
最近の高度なモデルでは、これらのコンポーネントを逐次的に個別にモデリングするか、サブストラクチャアグリゲーションを通じて組み合わせたパイプラインを最適化する。
しかし、これらの既存の明示的なアプローチは、VOSフレームワークが統一された全体として最適化されることを防ぎ、複雑なビデオに対処する際の限られたキャパシティと準最適性能をもたらす。
本稿では,All-in-One TransformerとVOSのコアコンポーネントを統合する新しいフレームワークであるOneVOSを提案する。
具体的には、上記すべてのモジュールを視覚変換器に統合するために、複数のオブジェクトに対するフレーム、マスク、メモリの全ての特徴をトランスフォーマートークンとしてモデル化し、フレキシブルアテンション機構を通じて複数のオブジェクトの特徴抽出、マッチング、メモリ管理を一体的に達成する。
さらに、OneVOSフレームワークに格納されたトークンの意味的誤りとあいまいさを正すために、元々の注意操作を二重に分離することで、一方向ハイブリッド注意を提案する。
最後に, ストレージ負荷を軽減し, 推論の迅速化を図るため, 動的トークンセレクタを提案する。
大規模な実験は、OneVOSの優位性を示し、7つのデータセット、特に70.1%と66.4%のスコアを持つ複雑なLVOSとMOSEデータセットにおいて、それぞれ4.2%と7.0%の先行した最先端メソッドを上回り、最先端のパフォーマンスを達成する。
私たちのコードは再現性とさらなる研究のために利用できます。
Contemporary Video Object Segmentation (VOS) approaches typically consist stages of feature extraction, matching, memory management, and multiple objects aggregation. Recent advanced models either employ a discrete modeling for these components in a sequential manner, or optimize a combined pipeline through substructure aggregation. However, these existing explicit staged approaches prevent the VOS framework from being optimized as a unified whole, leading to the limited capacity and suboptimal performance in tackling complex videos. In this paper, we propose OneVOS, a novel framework that unifies the core components of VOS with All-in-One Transformer. Specifically, to unify all aforementioned modules into a vision transformer, we model all the features of frames, masks and memory for multiple objects as transformer tokens, and integrally accomplish feature extraction, matching and memory management of multiple objects through the flexible attention mechanism. Furthermore, a Unidirectional Hybrid Attention is proposed through a double decoupling of the original attention operation, to rectify semantic errors and ambiguities of stored tokens in OneVOS framework. Finally, to alleviate the storage burden and expedite inference, we propose the Dynamic Token Selector, which unveils the working mechanism of OneVOS and naturally leads to a more efficient version of OneVOS. Extensive experiments demonstrate the superiority of OneVOS, achieving state-of-the-art performance across 7 datasets, particularly excelling in complex LVOS and MOSE datasets with 70.1% and 66.4% $J \& F$ scores, surpassing previous state-of-the-art methods by 4.2% and 7.0%, respectively. And our code will be available for reproducibility and further research. | 翻訳日:2024-03-14 13:38:30 公開日:2024-03-13 |
# 単一光数計を用いた狭帯域光子の量子ジャンプ光検出器
原子
Quantum jump photodetector for narrowband photon counting with a single atom ( http://arxiv.org/abs/2403.08674v1 ) ライセンス: Link先を確認 | Laura Zarraoa, Romain Veyron, Tomas Lamich and Morgan W. Mitchell | (参考訳) 光トラップに保持された単一中性 \textsuperscript{87}Rb 原子と、単一光子開始状態変化の「量子ジャンプ」検出を用いて、強い光背景から弱い信号を切り離すための本質的な狭帯域単光子検出器を実証した。
新たな統計分析により, シングルパス量子ジャンプ記録である SI{2.9+-0.2e-3}{} の量子効率と, 受動的蓄積時の SI{9+-20e-3}{counts\per\second} の暗数と, リードアウト当たりの SI{1.8+-0.1e-2}{counts} のオーダーを, 従来の単光子検出器よりも桁違いに測定した。
SI{6}{\mega\hertz} 検出帯域幅は、既存の原子フィルタよりも桁違いに狭い。
利用可能な方法は、QJPDAcronym{}量子効率、暗カウント、帯域幅、チューニング性を大幅に改善することができる。
Using a single neutral \textsuperscript{87}Rb atom held in an optical trap, and "quantum jump" detection of single-photon-initiated state changes, we demonstrate an intrinsically-narrowband single-photon detector, of interest for separating weak signals from strong optical background. Using novel statistical analysis, we measure quantum efficiency of \SI{2.9+-0.2e-3}{}, a record for single-pass quantum jump production, and dark counts of \SI{9+-20e-3}{counts\per\second} during passive accumulation plus \SI{1.8+-0.1e-2}{counts} per readout, orders of magnitude below those of traditional single-photon detectors. The \SI{6}{\mega\hertz} detection bandwidth is orders of magnitude narrower than existing atomic filters. Available methods can substantially improve \QJPDAcronym{} quantum efficiency, dark counts, bandwidth, and tunability. | 翻訳日:2024-03-14 13:38:29 公開日:2024-03-13 |
# ニューラルタンジェントを用いた広域コントラストモデルの近似はいつ可能か
カーネルと主成分分析
When can we Approximate Wide Contrastive Models with Neural Tangent Kernels and Principal Component Analysis? ( http://arxiv.org/abs/2403.08673v1 ) ライセンス: Link先を確認 | Gautham Govind Anil, Pascal Esser, Debarghya Ghoshdastidar | (参考訳) コントラスト学習(Contrastive Learning)は、画像データやテキストデータに対して高い成功を収めた非競合データから表現を学習するためのパラダイムである。
コントラストモデルがスペクトル埋め込みを効果的に学習するのに対し、(全体)コントラストモデルとカーネル主成分分析(PCA)の関係を示す研究はほとんどない。
しかし、訓練されたコントラストモデルが実際にカーネルメソッドやPCAに対応するかどうかは不明である。
そこで本研究では,2層コントラストモデルのトレーニングダイナミクスを非線形アクティベーションを用いて解析し,PCA法やカーネル法に近い場合の解答について述べる。
ニューラルネットワークはニューラル・タンジェント・カーネル(NTK)と等価であり、トレーニング中に無限に広いネットワークのNTKが一定であることはよく知られている。
広帯域ネットワークのNTKは、コサイン類似性に基づくコントラスト類似性に基づいてほぼ一定であるが、ドット積類似性に基づく損失にはならない。
さらに、コントラスト学習とスペクトル埋め込みに関する研究において暗黙的に仮定される出力層上の直交制約を持つコントラストモデルのトレーニングダイナミクスについて検討する。
我々の偏差境界は、対照的なモデルによって学習された表現が、ランダムな特徴から計算されたある行列の主成分に近いことを示唆している。
理論的結果が2層ネットワークを超える可能性があることを実証的に示す。
Contrastive learning is a paradigm for learning representations from unlabelled data that has been highly successful for image and text data. Several recent works have examined contrastive losses to claim that contrastive models effectively learn spectral embeddings, while few works show relations between (wide) contrastive models and kernel principal component analysis (PCA). However, it is not known if trained contrastive models indeed correspond to kernel methods or PCA. In this work, we analyze the training dynamics of two-layer contrastive models, with non-linear activation, and answer when these models are close to PCA or kernel methods. It is well known in the supervised setting that neural networks are equivalent to neural tangent kernel (NTK) machines, and that the NTK of infinitely wide networks remains constant during training. We provide the first convergence results of NTK for contrastive losses, and present a nuanced picture: NTK of wide networks remains almost constant for cosine similarity based contrastive losses, but not for losses based on dot product similarity. We further study the training dynamics of contrastive models with orthogonality constraints on output layer, which is implicitly assumed in works relating contrastive learning to spectral embedding. Our deviation bounds suggest that representations learned by contrastive models are close to the principal components of a certain matrix computed from random features. We empirically show that our theoretical results possibly hold beyond two-layer networks. | 翻訳日:2024-03-14 13:38:29 公開日:2024-03-13 |
# 時間外相関関数のアンシラフリー測定
一般測定プロトコルとRydberg原子実装
Ancilla-free measurement of out-of-time-ordered correlation functions: General measurement protocol and Rydberg atom implementation ( http://arxiv.org/abs/2403.08670v1 ) ライセンス: Link先を確認 | Michael Kastner, Philip Osterholz, and Christian Gross | (参考訳) 本稿では,多体量子システムにおいて,時間外順序付き相関関数へのアクセスを可能にするプロトコルを提案する。
このような他のプロトコルとは異なり、我々の提案は任意の初期状態に適用できるが、興味のある量子系にアンシラ自由度も必要とせず、ランダムな測定も必要としない。
このプロトコルを実装するのに必要な非自明な実験的能力は、単一サイト計測、単一サイト回転、後方時間進化である。
プロトコルの実装を実証するために、我々は、Rydberg-dressed 原子の配列におけるハミルトニアン符号逆変換 $H\to-H$ の戦略を提唱した。
このようにして、平衡状態と非平衡状態の時間外相関を測定するための完全で実用的なツールボックスが得られる。
We introduce a protocol that gives access to out-of-time-ordered correlation functions in many-body quantum systems. Unlike other such protocols, our proposal, which can be applied to arbitrary initial states, neither requires ancilla degrees of freedom to the quantum system of interest, nor has the need for randomized measurements. Nontrivial experimental capabilities required to implement the protocol are single-site measurements, single-site rotations, and backwards time evolution. To exemplify the implementation of the protocol, we put forward a strategy for Hamiltonian sign inversion $H\to-H$ in arrays of Rydberg-dressed atoms. In this way, a complete and practical toolbox is obtained for the measurement of out-of-time-ordered correlations in equilibrium and nonequilibrium situations. | 翻訳日:2024-03-14 13:38:28 公開日:2024-03-13 |
# ゼロショット・ファウショット・ジェネレーション・ストラテジー
記録
Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records ( http://arxiv.org/abs/2403.08664v1 ) ライセンス: Link先を確認 | Erlend Frayling, Jake Lever, Graham McDonald | (参考訳) 臨床研究のために歴史的患者データにアクセスするという課題は、プライバシ規制に固執する一方で、医学において大きな障害となっている。
この問題を回避するための革新的なアプローチは、個々のプライバシを損なうことなく、実際の患者データをミラーする合成医療記録を利用することである。
これらの合成データセットの作成、特にLarge Language Models(LLMs)のトレーニングに実際の患者データを使用しない場合、モデルのトレーニングにセンシティブな患者情報にアクセスするという新しいソリューションも課題である。
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
この研究は、チェーン・オブ・シント・アプローチを活用する新しいプロンプト技術を導入し、より正確で文脈的に関連する医療物語を事前の微調整なしに生成する能力を高める。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
The challenge of accessing historical patient data for clinical research, while adhering to privacy regulations, is a significant obstacle in medical science. An innovative approach to circumvent this issue involves utilising synthetic medical records that mirror real patient data without compromising individual privacy. The creation of these synthetic datasets, particularly without using actual patient data to train Large Language Models (LLMs), presents a novel solution as gaining access to sensitive patient information to train models is also a challenge. This study assesses the capability of the Llama 2 LLM to create synthetic medical records that accurately reflect real patient information, employing zero-shot and few-shot prompting strategies for comparison against fine-tuned methodologies that do require sensitive patient data during training. We focus on generating synthetic narratives for the History of Present Illness section, utilising data from the MIMIC-IV dataset for comparison. In this work introduce a novel prompting technique that leverages a chain-of-thought approach, enhancing the model's ability to generate more accurate and contextually relevant medical narratives without prior fine-tuning. Our findings suggest that this chain-of-thought prompted approach allows the zero-shot model to achieve results on par with those of fine-tuned models, based on Rouge metrics evaluation. | 翻訳日:2024-03-14 13:38:28 公開日:2024-03-13 |
# QCSHQD: ハイブリッド古典量子のためのサービスとしての量子コンピューティング
ソフトウェア開発:ビジョン
QCSHQD: Quantum computing as a service for Hybrid classical-quantum software development: A Vision ( http://arxiv.org/abs/2403.08663v1 ) ライセンス: Link先を確認 | Arif Ali Khan, Maryam Tavassoli Sabzevari, Davide Taibi, Matteo Esposito | (参考訳) 量子コンピューティング(QC)は、理論的なフレームワークから計算能力の必要不可欠なパワーハウスへと移行し、産業と学術の両方の領域で広く採用されている。
QCは、非並列処理速度や、古典的なコンピュータの能力を超えた複雑な問題を解く可能性など、非常に利点がある。
それでも、学術研究者や業界実践者は、この技術の利点を活用する上で様々な課題に直面している。
古典的開発者にとってのQCリソースの限られたアクセシビリティ、およびドメイン知識と専門知識の欠如は、克服不可能な障壁を表しているため、これらの課題に対処するため、サービス指向戦略を活用するハイブリッド古典量子ソフトウェア開発のためのサービスとしての量子コンピューティング(QCSHQD)フレームワークを導入します。
本フレームワークは,ユーザインタラクションのための統合開発環境(IDE),量子サービスオーケストレーション専用の抽象化レイヤ,および量子コンピュータ上でサービスを実行するサービスプロバイダの3つの主要コンポーネントから構成される。
本研究は,QC パワーをシームレスに活用したい古典的開発者のために,QC リソースへのアクセスを民主化するために設計された QCSHQD の青写真を示す。
QCSHQDのビジョンは、古典的コンピュータと量子コンピュータのハイブリッド化における重要な課題に対処することで、イノベーションを画期的なものにする道を開く。
Quantum Computing (QC) is transitioning from theoretical frameworks to an indispensable powerhouse of computational capability, resulting in extensive adoption across both industrial and academic domains. QC presents exceptional advantages, including unparalleled processing speed and the potential to solve complex problems beyond the capabilities of classical computers. Nevertheless, academic researchers and industry practitioners encounter various challenges in harnessing the benefits of this technology. The limited accessibility of QC resources for classical developers, and a general lack of domain knowledge and expertise, represent insurmountable barrier, hence to address these challenges, we introduce a framework- Quantum Computing as a Service for Hybrid Classical-Quantum Software Development (QCSHQD), which leverages service-oriented strategies. Our framework comprises three principal components: an Integrated Development Environment (IDE) for user interaction, an abstraction layer dedicated to orchestrating quantum services, and a service provider responsible for executing services on quantum computer. This study presents a blueprint for QCSHQD, designed to democratize access to QC resources for classical developers who want to seamless harness QC power. The vision of QCSHQD paves the way for groundbreaking innovations by addressing key challenges of hybridization between classical and quantum computers. | 翻訳日:2024-03-14 13:38:27 公開日:2024-03-13 |
# 共分散推定のための自己教師付き学習
Self-Supervised Learning for Covariance Estimation ( http://arxiv.org/abs/2403.08662v1 ) ライセンス: Link先を確認 | Tzvi Diskin and Ami Wiesel | (参考訳) 共分散推定におけるディープラーニングの利用について考察する。
推論時に局所的に適用されるニューラルネットワークをグローバルに学習することを提案する。
自己教師型基礎モデルの最近の進歩を活用して、異なるサンプルを隠蔽し、周辺住民の共分散を予測することで、ラベル付けなしでネットワークを訓練する。
アーキテクチャは、一般的な注目メカニズムに基づいている。
古典的手法に対する主な利点は、分布的仮定や正規化を伴わない大域的特徴の自動利用である。
基礎モデルとして事前訓練し、レーダーやハイパースペクトル画像の適応目標検出など、さまざまな下流タスクに再利用することができる。
We consider the use of deep learning for covariance estimation. We propose to globally learn a neural network that will then be applied locally at inference time. Leveraging recent advancements in self-supervised foundational models, we train the network without any labeling by simply masking different samples and learning to predict their covariance given their surrounding neighbors. The architecture is based on the popular attention mechanism. Its main advantage over classical methods is the automatic exploitation of global characteristics without any distributional assumptions or regularization. It can be pre-trained as a foundation model and then be repurposed for various downstream tasks, e.g., adaptive target detection in radar or hyperspectral imagery. | 翻訳日:2024-03-14 13:38:26 公開日:2024-03-13 |
# ブラックボックスによる説明・正当化・不確かさの抽出
ディープニューラルネットワーク
Extracting Explanations, Justification, and Uncertainty from Black-Box Deep Neural Networks ( http://arxiv.org/abs/2403.08652v1 ) ライセンス: Link先を確認 | Paul Ardis, Arjuna Flenner | (参考訳) ディープニューラルネットワーク(DNN)は、本質的に計算や、経験的に修正されたタスクの信頼性を示すものではない。
ミッションクリティカルな応用においては、関連するDNN推論とそれを支持する証拠の両方を理解することが重要である。
本稿では,DNNから説明,正当化,不確実性推定を抽出する新しいベイズ的手法を提案する。
我々の手法はメモリと計算の両面で効率的であり、異常検出やアウト・オブ・ディストリビューション検出タスクなど、再トレーニングなしに任意のブラックボックスDNNに適用できる。
CIFAR-10データセットに対する我々のアプローチを検証し、DNNの解釈可能性と信頼性を大幅に向上させることができることを示す。
Deep Neural Networks (DNNs) do not inherently compute or exhibit empirically-justified task confidence. In mission critical applications, it is important to both understand associated DNN reasoning and its supporting evidence. In this paper, we propose a novel Bayesian approach to extract explanations, justifications, and uncertainty estimates from DNNs. Our approach is efficient both in terms of memory and computation, and can be applied to any black box DNN without any retraining, including applications to anomaly detection and out-of-distribution detection tasks. We validate our approach on the CIFAR-10 dataset, and show that it can significantly improve the interpretability and reliability of DNNs. | 翻訳日:2024-03-14 13:38:26 公開日:2024-03-13 |
# HAIFIT:ファッション画像翻訳のための人間中心AI
HAIFIT: Human-Centered AI for Fashion Image Translation ( http://arxiv.org/abs/2403.08651v1 ) ライセンス: Link先を確認 | Jianan Jiang, Xinglin Li, Weiren Yu, Di Wu | (参考訳) ファッションデザインの領域では、スケッチはアーティストの独特のドローイングスタイルと創造的なビジョンを表現するためのキャンバスとして機能し、ストロークのバリエーションやテクスチャのニュアンスといった複雑な詳細を捉えている。
スケッチ・ツー・イメージのクロスモーダル翻訳技術の出現は、デザイナを特に助けてきた。
しかし、既存の手法はしばしばこれらのスケッチの詳細を画像生成中に妥協し、設計者の意図した概念から逸脱する結果となる。
この制限は、デザイナーに最終的な出力の正確なプレビューを提供する能力を損なう。
この課題を克服するために,マルチスケール機能を統合し,多様な視点から広範な特徴マップ依存性をキャプチャすることで,スケッチを高忠実なライフライクな衣料品画像に変換する新しいアプローチであるHAIFITを導入する。
本手法は,我々の自己収集データセット上で行った定性的,定量的な評価を通じて,既存のフォトリアリスティックな衣料品画像生成手法と比較して,優れた性能を示す。
本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。
In the realm of fashion design, sketches serve as the canvas for expressing an artist's distinctive drawing style and creative vision, capturing intricate details like stroke variations and texture nuances. The advent of sketch-to-image cross-modal translation technology has notably aided designers. However, existing methods often compromise these sketch details during image generation, resulting in images that deviate from the designer's intended concept. This limitation hampers the ability to offer designers a precise preview of the final output. To overcome this challenge, we introduce HAIFIT, a novel approach that transforms sketches into high-fidelity, lifelike clothing images by integrating multi-scale features and capturing extensive feature map dependencies from diverse perspectives. Through extensive qualitative and quantitative evaluations conducted on our self-collected dataset, our method demonstrates superior performance compared to existing methods in generating photorealistic clothing images. Our method excels in preserving the distinctive style and intricate details essential for fashion design applications. | 翻訳日:2024-03-14 13:38:26 公開日:2024-03-13 |
# 人中心視におけるデータ拡張
Data Augmentation in Human-Centric Vision ( http://arxiv.org/abs/2403.08650v1 ) ライセンス: Link先を確認 | Wentao Jiang, Yige Zhang, Shaozhong Zheng, Si Liu, Shuicheng Yan | (参考訳) 本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析について述べる。
個人ReID、人間のパーシング、人間のポーズ推定、歩行者検出など幅広い研究分野に進出し、これらの領域における過度なトレーニングデータと限られたトレーニングデータによって引き起こされる重大な課題に対処する。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
データ生成は、グラフィックエンジンベースの生成、生成モデルベースの生成、データ再結合のようなテクニックをカバーし、データ摂動は、画像レベルと人間レベルの摂動に分割される。
それぞれの方法は、複数の領域にまたがって適用可能な、人間中心のタスクのユニークな要件に合わせて調整される。
私たちのコントリビューションには、広範囲にわたる文献レビュー、人中心の視覚におけるこれらの拡張技術の影響に関する深い洞察、各手法のニュアンスを強調することが含まれる。
また、より現実的で多様なトレーニングデータを作成するために、潜在拡散モデルのような先進的な生成モデルの統合など、オープンな問題や今後の方向性についても論じる。
この調査は、人間中心のビジョンにおけるデータ拡張の現状をカプセル化しているだけでなく、より堅牢で正確で効率的な人中心のビジョンシステムを開発することを目的とした将来の研究のコースもグラフ化している。
This survey presents a comprehensive analysis of data augmentation techniques in human-centric vision tasks, a first of its kind in the field. It delves into a wide range of research areas including person ReID, human parsing, human pose estimation, and pedestrian detection, addressing the significant challenges posed by overfitting and limited training data in these domains. Our work categorizes data augmentation methods into two main types: data generation and data perturbation. Data generation covers techniques like graphic engine-based generation, generative model-based generation, and data recombination, while data perturbation is divided into image-level and human-level perturbations. Each method is tailored to the unique requirements of human-centric tasks, with some applicable across multiple areas. Our contributions include an extensive literature review, providing deep insights into the influence of these augmentation techniques in human-centric vision and highlighting the nuances of each method. We also discuss open issues and future directions, such as the integration of advanced generative models like Latent Diffusion Models, for creating more realistic and diverse training data. This survey not only encapsulates the current state of data augmentation in human-centric vision but also charts a course for future research, aiming to develop more robust, accurate, and efficient human-centric vision systems. | 翻訳日:2024-03-14 13:38:25 公開日:2024-03-13 |
# 領域一般化のための因果的初期分岐構造
A Causal Inspired Early-Branching Structure for Domain Generalization ( http://arxiv.org/abs/2403.08649v1 ) ライセンス: Link先を確認 | Liang Chen, Yong Zhang, Yibing Song, Zhen Zhang, Lingqiao Liu | (参考訳) ドメイン不変セマンティック表現の学習はドメイン一般化(DG)の実現に不可欠である。
ひとつの重要な課題は、標準トレーニングがしばしば絡み合ったセマンティクスとドメイン固有の機能をもたらすことだ。
従来の研究は因果的観点から問題を定式化し、因果的 (\ie semantic) と非因果的 (\ie domain-specific) 特徴の間の限界独立を強制することで絡み合う問題を解くことを示唆していた。
その単純さにもかかわらず、基本的な境界的な独立に基づく考えだけでは因果的特徴を特定するには不十分かもしれない。
d-セパレーションにより、この因果的特徴は、オブジェクトに条件づけられたドメインから独立していることによってさらに特徴付けられることを観察し、基本的なフレームワークの補完として、以下の2つの戦略を提案する。
まず、同じ対象に対して因果的特徴を非因果的特徴に関連付けるべきではないことを暗黙的に示唆し、共通基盤特徴抽出器と2つの軽量予測ヘッドで2つの特徴を得るという共通の実践が不適切であることを示した。
この制約を満たすため,本手法では,各領域の因果的特徴と非因果的特徴が分岐しながら最初の数ブロックを共有できる簡易な早期分岐構造を提案する。
この目的のために, 因果的特徴をより正確に評価するために, 拡張をフレームワークに組み込むことを提案し, さらに, タスクを遂行するための効果的なランダム領域サンプリング手法を提案する。
理論的および実験的な結果は、この2つの戦略が基本的辺縁的な独立性に基づくフレームワークにとって有益であることを示している。
コードは \url{https://github.com/liangchen527/CausEB} で入手できる。
Learning domain-invariant semantic representations is crucial for achieving domain generalization (DG), where a model is required to perform well on unseen target domains. One critical challenge is that standard training often results in entangled semantic and domain-specific features. Previous works suggest formulating the problem from a causal perspective and solving the entanglement problem by enforcing marginal independence between the causal (\ie semantic) and non-causal (\ie domain-specific) features. Despite its simplicity, the basic marginal independent-based idea alone may be insufficient to identify the causal feature. By d-separation, we observe that the causal feature can be further characterized by being independent of the domain conditioned on the object, and we propose the following two strategies as complements for the basic framework. First, the observation implicitly implies that for the same object, the causal feature should not be associated with the non-causal feature, revealing that the common practice of obtaining the two features with a shared base feature extractor and two lightweight prediction heads might be inappropriate. To meet the constraint, we propose a simple early-branching structure, where the causal and non-causal feature obtaining branches share the first few blocks while diverging thereafter, for better structure design; Second, the observation implies that the causal feature remains invariant across different domains for the same object. To this end, we suggest that augmentation should be incorporated into the framework to better characterize the causal feature, and we further suggest an effective random domain sampling scheme to fulfill the task. Theoretical and experimental results show that the two strategies are beneficial for the basic marginal independent-based framework. Code is available at \url{https://github.com/liangchen527/CausEB}. | 翻訳日:2024-03-14 13:38:24 公開日:2024-03-13 |
# 分割値計算のためのリウェイトアニール法
量子モンテカルロによる関数
Reweight-annealing method for calculating the value of partition function via quantum Monte Carlo ( http://arxiv.org/abs/2403.08642v1 ) ライセンス: Link先を確認 | Yi-Ming Ding, Nvsen Ma, Gaopei Pan, Chen Cheng, and Zheng Yan | (参考訳) 分割関数、自由エネルギー、熱エントロピー計算の効率的かつ正確なアルゴリズムは、統計物理学や量子多体物理学において非常に重要である。
ここでは、量子モンテカルロフレームワーク内のバイアスのない低技術バリアアルゴリズムについて述べる。
従来の比熱積分法やWang-Landauサンプリング法と比較すると,エントロピーのサブリード係数のより正確な結果が得られる。
この方法は古典的モンテカルロシミュレーションと量子的モンテカルロシミュレーションの両方で広く利用でき、コンピュータ上で容易に並列化できる。
Efficient and accurate algorithm for partition function, free energy and thermal entropy calculations is of great significance in statistical physics and quantum many-body physics. Here we present an unbiased but low-technical-barrier algorithm within the quantum Monte Carlo framework, which has exceptionally high accuracy and no systemic error. Compared with the conventional specific heat integral method and Wang-Landau sampling algorithm, our method can obtain a much more accurate result of the sub-leading coefficient of the entropy. This method can be widely used in both classical and quantum Monte Carlo simulations and is easy to be parallelized on computer. | 翻訳日:2024-03-14 13:38:24 公開日:2024-03-13 |
# Refractive COLMAP: Refractive Structure-from-Motion Revisited
Refractive COLMAP: Refractive Structure-from-Motion Revisited ( http://arxiv.org/abs/2403.08640v1 ) ライセンス: Link先を確認 | Mengkun She and Felix Seegr\"aber and David Nakath and Kevin K\"oser | (参考訳) 本稿では, 屈折型カメラ装置を用いた水中3次元再構成のための完全屈折型構造移動(RSfM)フレームワークを提案する。
過去10年間の屈折率多視点幾何学の顕著な成果にもかかわらず、そのようなタスクに対する頑健で完全かつ一般公開された解は現時点では入手できず、しばしば実用的応用は、ピンホールカメラモデルの内在的(歪み)パラメータによる屈折率の近似に頼らざるを得ない。
このギャップを埋めるために、我々はSfMプロセス全体を通して、最先端のオープンソースのSfMフレームワークCOLMAPに統合した。
地上の真理を持つ合成生成光実写画像の数値シミュレーションと再構成結果から, 屈折を許容することは, 空気中の再構成に比べて精度や頑健さを損なうことはないことが確認された。
最後に,6000枚近い画像からなるデータセットを用いて,大規模屈折率シナリオに対するアプローチの有効性を示す。
実装は、https://cau-git.rz.uni-kiel.de/inf-ag-koeser/colmap_underwaterでオープンソースとしてリリースされた。
In this paper, we present a complete refractive Structure-from-Motion (RSfM) framework for underwater 3D reconstruction using refractive camera setups (for both, flat- and dome-port underwater housings). Despite notable achievements in refractive multi-view geometry over the past decade, a robust, complete and publicly available solution for such tasks is not available at present, and often practical applications have to resort to approximating refraction effects by the intrinsic (distortion) parameters of a pinhole camera model. To fill this gap, we have integrated refraction considerations throughout the entire SfM process within the state-of-the-art, open-source SfM framework COLMAP. Numerical simulations and reconstruction results on synthetically generated but photo-realistic images with ground truth validate that enabling refraction does not compromise accuracy or robustness as compared to in-air reconstructions. Finally, we demonstrate the capability of our approach for large-scale refractive scenarios using a dataset consisting of nearly 6000 images. The implementation is released as open-source at: https://cau-git.rz.uni-kiel.de/inf-ag-koeser/colmap_underwater. | 翻訳日:2024-03-14 13:38:23 公開日:2024-03-13 |
# HIMap: エンドツーエンドのベクトル化HDマップのためのHybrId表現学習
建築
HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction ( http://arxiv.org/abs/2403.08639v1 ) ライセンス: Link先を確認 | Yi Zhou, Hui Zhang, Jiaqian Yu, Yifan Yang, Sangil Jung, Seung-In Park, ByungIn Yoo | (参考訳) ベクトル化ハイディフィニション(HD)マップ構築は、地図要素(例えば、道路境界、車線分割、歩行者横断など)のカテゴリーと点座標の予測を必要とする。
State-of-the-art法は主に正確な点座標を回帰する点レベルの表現学習に基づいている。
しかし、このパイプラインは要素レベルの情報を取得し、要素間の誤った要素形状や絡み合いなど、要素レベルの障害を処理するのに制限がある。
以上の課題に対処するために,HIMap というシンプルなHybrId フレームワークを提案し,ポイントレベル情報と要素レベル情報の両方を十分に学習し,相互作用させる。
具体的には、すべての地図要素を表現するためにHIQueryと呼ばれるハイブリッド表現を導入し、要素のハイブリッド情報を対話的に抽出し、egポイント位置と要素形状をHIQueryにエンコードするポイント要素インターセプタを提案する。
さらに,ポイントレベルの情報と要素レベルの情報の整合性を高めるために,ポイント要素の整合性制約を提案する。
最後に、出力ポイント要素統合HIQueryは、マップ要素のクラス、ポイント座標、マスクに直接変換できる。
我々は、大規模な実験を行い、nuScenesとArgoverse2データセットの両方で、従来手法より一貫して優れています。
特に,本手法は, nuScenesデータセット上で77.8ドルmAPを達成し, 従来のSOTAよりも少なくとも8.3ドルmAPの方がはるかに優れている。
Vectorized High-Definition (HD) map construction requires predictions of the category and point coordinates of map elements (e.g. road boundary, lane divider, pedestrian crossing, etc.). State-of-the-art methods are mainly based on point-level representation learning for regressing accurate point coordinates. However, this pipeline has limitations in obtaining element-level information and handling element-level failures, e.g. erroneous element shape or entanglement between elements. To tackle the above issues, we propose a simple yet effective HybrId framework named HIMap to sufficiently learn and interact both point-level and element-level information. Concretely, we introduce a hybrid representation called HIQuery to represent all map elements, and propose a point-element interactor to interactively extract and encode the hybrid information of elements, e.g. point position and element shape, into the HIQuery. Additionally, we present a point-element consistency constraint to enhance the consistency between the point-level and element-level information. Finally, the output point-element integrated HIQuery can be directly converted into map elements' class, point coordinates, and mask. We conduct extensive experiments and consistently outperform previous methods on both nuScenes and Argoverse2 datasets. Notably, our method achieves $77.8$ mAP on the nuScenes dataset, remarkably superior to previous SOTAs by $8.3$ mAP at least. | 翻訳日:2024-03-14 13:38:23 公開日:2024-03-13 |
# 軽度メディエーターがカウサルの輸送性に及ぼす影響
影響
Disparate Effect Of Missing Mediators On Transportability of Causal Effects ( http://arxiv.org/abs/2403.08638v1 ) ライセンス: Link先を確認 | Vishwali Mhasawade, Rumi Chunara | (参考訳) 輸送媒介効果は、その影響を媒介する要因の結果として異なる集団に適用した場合、上流への介入(例えば緑地のような改善された近隣環境)がどう機能するかを理解するための道を提供する。
しかし、輸送対象の人口に仲介者がいない場合、これらの推定は偏りがある可能性がある。
我々は、公衆衛生の課題によって動機づけられた、メディアの欠落というこの問題について、ランダムにではなく、メディアの欠落について研究する。
本稿では, 媒介物質が輸送媒介効果に与える影響を定量的に評価する感度解析フレームワークを提案する。
このフレームワークにより、条件付き媒介効果が欠落した仲介者データを持つサブグループにとって重要でない設定を特定できる。
具体的には、輸送媒介効果の限界を欠如の関数として与える。
次に, 大規模住宅ブーチャー実験である移動・機会研究の縦断的データに適用し, 施設間の親の健康を介するメンタルヘルスや物質利用障害のその後のリスクに対する, ブウチャーレシートの輸送効果評価, 上流の居住地への介入, および, 施設間の親の健康を介する物質利用障害に対するメディエーターの影響を定量化する。
我々の発見は、偏りのない効果推定にどれだけの量のデータが欠落しているかを明確に理解する。
Transported mediation effects provide an avenue to understand how upstream interventions (such as improved neighborhood conditions like green spaces) would work differently when applied to different populations as a result of factors that mediate the effects. However, when mediators are missing in the population where the effect is to be transported, these estimates could be biased. We study this issue of missing mediators, motivated by challenges in public health, wherein mediators can be missing, not at random. We propose a sensitivity analysis framework that quantifies the impact of missing mediator data on transported mediation effects. This framework enables us to identify the settings under which the conditional transported mediation effect is rendered insignificant for the subgroup with missing mediator data. Specifically, we provide the bounds on the transported mediation effect as a function of missingness. We then apply the framework to longitudinal data from the Moving to Opportunity Study, a large-scale housing voucher experiment, to quantify the effect of missing mediators on transport effect estimates of voucher receipt, an upstream intervention on living location, in childhood on subsequent risk of mental health or substance use disorder mediated through parental health across sites. Our findings provide a tangible understanding of how much missing data can be withstood for unbiased effect estimates. | 翻訳日:2024-03-14 13:38:22 公開日:2024-03-13 |
# オンライン選好による大規模言語モデルのアライメント
最適化
Human Alignment of Large Language Models through Online Preference Optimisation ( http://arxiv.org/abs/2403.08635v1 ) ライセンス: Link先を確認 | Daniele Calandriello, Daniel Guo, Remi Munos, Mark Rowland, Yunhao Tang, Bernardo Avila Pires, Pierre Harvey Richemond, Charline Le Lan, Michal Valko, Tianqi Liu, Rishabh Joshi, Zeyu Zheng, Bilal Piot | (参考訳) 言語モデルのアウトプットと人間の好みとの整合性を確保することは、有用で安全で快適なユーザエクスペリエンスを保証するために重要です。
このように、ヒトのアライメントは近年広く研究されており、Reinforcement Learning from Human Feedback (RLHF)、Direct Policy Optimisation (DPO)、Sequence Likelihood Calibration (SLiC)などの手法が出現している。
本稿では、我々の貢献を2つにまとめる。
まず、最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
第2に,Nash-MDが提案する正規化サンプリングアプローチを活用するIPO-MDという,IPOの一般化を導入する。
IPOはオフラインの方法であり、Nash-MDは好みのモデルを使ったオンラインの方法である。
しかし、この等価性は、オンライン版のIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプリングされ、訓練された選好モデルによって注釈付けされる時である。
このようなデータストリームによるIPO損失の最適化は、セルフプレイを通じて好みモデルのナッシュ均衡を見つけることと同等になる。
この等価性に基づいて、一般的なNash-MDアルゴリズムと同様の(オンラインおよび参照ポリシー間の)混合ポリシーでデータを生成するIPO-MDアルゴリズムを導入する。
我々は、オンラインIPOとIPO-MDを、要約タスクにおけるDPOやSLiCなどの好みデータに対する既存の損失のオンラインバージョンと比較する。
Ensuring alignment of language models' outputs with human preferences is critical to guarantee a useful, safe, and pleasant user experience. Thus, human alignment has been extensively studied recently and several methods such as Reinforcement Learning from Human Feedback (RLHF), Direct Policy Optimisation (DPO) and Sequence Likelihood Calibration (SLiC) have emerged. In this paper, our contribution is two-fold. First, we show the equivalence between two recent alignment methods, namely Identity Policy Optimisation (IPO) and Nash Mirror Descent (Nash-MD). Second, we introduce a generalisation of IPO, named IPO-MD, that leverages the regularised sampling approach proposed by Nash-MD. This equivalence may seem surprising at first sight, since IPO is an offline method whereas Nash-MD is an online method using a preference model. However, this equivalence can be proven when we consider the online version of IPO, that is when both generations are sampled by the online policy and annotated by a trained preference model. Optimising the IPO loss with such a stream of data becomes then equivalent to finding the Nash equilibrium of the preference model through self-play. Building on this equivalence, we introduce the IPO-MD algorithm that generates data with a mixture policy (between the online and reference policy) similarly as the general Nash-MD algorithm. We compare online-IPO and IPO-MD to different online versions of existing losses on preference data such as DPO and SLiC on a summarisation task. | 翻訳日:2024-03-14 13:38:21 公開日:2024-03-13 |
# 非線形薄膜における光子対生成
Entangled Photon-pair Generation in Nonlinear Thin-films ( http://arxiv.org/abs/2403.08633v1 ) ライセンス: Link先を確認 | Elkin A. Santos, Maximilian A. Weissflog, Thomas Pertsch, Frank Setzpfandt and Sina Saravi | (参考訳) 非線形薄膜における自発パラメトリックダウンコンバージョンを記述するために, 完全ベクトルおよび非パラ軸形式を開発した。
この形式主義は、スラブをサブ波長の厚さで処理し、関連するファブリ・ペロト効果を記述し、吸収性非線形材料も扱うことができる。
この定式化により、非線形薄膜における光子対生成のダイナミックスを詳細に研究し、近年光子対の源として多くの実験的関心を集めているシステムに対して、必要な理論的理解を提供する。
重要な例として,Zinc-Blende構造を有する高屈折率非線形薄膜から生成する光子対の遠磁場放射特性について検討した。
特に,Fabry-P'erot干渉の厚さ依存性が光子対の遠方界放射パターンに及ぼす影響について検討した。
また, エンタングルメント生成の研究にも注意を払っており, このような非線形薄膜において, 最大偏光対を生成・検出できる条件を見出した。
We develop a fully vectorial and non-paraxial formalism to describe spontaneous parametric down-conversion in nonlinear thin films. The formalism is capable of treating slabs with a sub-wavelength thickness, describe the associated Fabry-P\'erot effects, and even treat absorptive nonlinear materials. With this formalism, we perform an in-depth study of the dynamics of entangled photon-pair generation in nonlinear thin films, to provide a needed theoretical understanding for such systems that have recently attracted much experimental attention as sources of photon pairs. As an important example, we study the far-field radiation properties of photon pairs generated from a high-refractive-index nonlinear thin-film with Zinc-Blende structure, that is deposited on a linear low-refractive-index substrate. In particular, we study the thickness-dependent effect of Fabry-P\'erot interferences on the far-field radiation pattern of the photon pairs. We also pay special attention to study of entanglement generation, and find the conditions under which maximally polarization-entangled photon pairs can be generated and detected in such nonlinear thin-films. | 翻訳日:2024-03-14 13:38:21 公開日:2024-03-13 |
# データセットのバイアスをめぐる10年の戦い:まだ存在するのか?
A Decade's Battle on Dataset Bias: Are We There Yet? ( http://arxiv.org/abs/2403.08632v1 ) ライセンス: Link先を確認 | Zhuang Liu, Kaiming He | (参考訳) 私たちは10年前にTorralba氏とEfros氏が提案した“データセット分類”実験を、大規模で多様性があり、バイアスの少ないデータセットと、より有能なニューラルネットワークアーキテクチャを備えた新しい時代に再検討した。
例えば、YFCC、CC、DataCompデータセットからなる3方向分類問題に対するホールドアウト検証データに対して84.7%の精度を報告します。
さらなる実験により、このようなデータセット分類器は、記憶によって簡単に説明できない一般化可能かつ伝達可能な意味的特徴を学習できることが示されている。
私たちの発見が、データセットバイアスとモデル機能に関わる問題を、コミュニティに再考させることを期待しています。
We revisit the "dataset classification" experiment suggested by Torralba and Efros a decade ago, in the new era with large-scale, diverse, and hopefully less biased datasets as well as more capable neural network architectures. Surprisingly, we observe that modern neural networks can achieve excellent accuracy in classifying which dataset an image is from: e.g., we report 84.7% accuracy on held-out validation data for the three-way classification problem consisting of the YFCC, CC, and DataComp datasets. Our further experiments show that such a dataset classifier could learn semantic features that are generalizable and transferable, which cannot be simply explained by memorization. We hope our discovery will inspire the community to rethink the issue involving dataset bias and model capabilities. | 翻訳日:2024-03-14 13:38:20 公開日:2024-03-13 |
# 非決定型ウェーブレットパケットの特徴と変圧器モデル
時系列予測
Leveraging Non-Decimated Wavelet Packet Features and Transformer Models for Time Series Forecasting ( http://arxiv.org/abs/2403.08630v1 ) ライセンス: Link先を確認 | Guy P Nason and James L. Wei | (参考訳) 本稿では,ウェーブレット解析手法と一変量時系列予測のための機械学習手法を組み合わせる。
まず,異なる数の消滅モーメントを持つDaubechieウェーブレットを,非時間的および時間的予測手法の両方の入力特徴として,クロスバリデーションフェーズにおいてこれらの数値を選択することにより検討する。
第二に、これらの特徴を計算するための非決定ウェーブレット変換と非決定ウェーブレットパケット変換の両方の使用を比較し、後者は潜在的に有用な係数ベクトルのより大きいセットを提供する。
ウェーブレット係数は、典型的なピラミッドアルゴリズムのシフトバージョンを用いて計算され、これらの入力に将来の情報が漏れないようにする。
第3に、これらのウェーブレットの特徴を、時間的・非時間的モデルと統計的・深層学習に基づく手法を含む、従来の研究よりもはるかに広範な予測手法を用いて評価する。
後者には最先端のトランスフォーマーベースのニューラルネットワークアーキテクチャが含まれる。
実験の結果,1ステップフォワード予測における時間的非時間的手法のすべてにまたがって,高次ラグ特徴をウェーブレット特徴に置き換えることの利点が示唆された。
This article combines wavelet analysis techniques with machine learning methods for univariate time series forecasting, focusing on three main contributions. Firstly, we consider the use of Daubechies wavelets with different numbers of vanishing moments as input features to both non-temporal and temporal forecasting methods, by selecting these numbers during the cross-validation phase. Secondly, we compare the use of both the non-decimated wavelet transform and the non-decimated wavelet packet transform for computing these features, the latter providing a much larger set of potentially useful coefficient vectors. The wavelet coefficients are computed using a shifted version of the typical pyramidal algorithm to ensure no leakage of future information into these inputs. Thirdly, we evaluate the use of these wavelet features on a significantly wider set of forecasting methods than previous studies, including both temporal and non-temporal models, and both statistical and deep learning-based methods. The latter include state-of-the-art transformer-based neural network architectures. Our experiments suggest significant benefit in replacing higher-order lagged features with wavelet features across all examined non-temporal methods for one-step-forward forecasting, and modest benefit when used as inputs for temporal deep learning-based models for long-horizon forecasting. | 翻訳日:2024-03-14 13:38:20 公開日:2024-03-13 |
# 動的ヒューマンシーンインタラクションモデリングのスケールアップ
Scaling Up Dynamic Human-Scene Interaction Modeling ( http://arxiv.org/abs/2403.08629v1 ) ライセンス: Link先を確認 | Nan Jiang, Zhiyuan Zhang, Hongjie Li, Xiaoxuan Ma, Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Siyuan Huang | (参考訳) ヒューマン・シーン・インタラクション・モデリングにおけるデータ不足と高度なモーション・シンセサイザーの課題に先立ち、新しいHSIモーション・シンセサイザー法とともにTRUMANSデータセットを導入する。
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーされたHSIデータセットであり、100の屋内シーンで15時間以上の人間のインタラクションを含んでいる。
人体全体の動きと部分レベルの物体の動きを複雑に捉え、接触のリアリズムに焦点をあてる。
このデータセットは、物理的環境を正確な仮想モデルに変換し、人間と物体の両方の外観と動きに広範囲に拡張し、相互作用の忠実さを維持しながら拡張することでさらにスケールアップされる。
TRUMANSを用いて,任意の長さのHSIシーケンスを効率よく生成する拡散型自己回帰モデルを提案し,シーンコンテキストと意図した動作を考慮に入れた。
実験では,3次元シーンのデータセット(例: PROX, Replica, ScanNet, ScanNet++)に対して,従来のモーションキャプチャーシーケンスを忠実に模倣した動きを生成できる,顕著なゼロショット一般化性を示した。
Confronting the challenges of data scarcity and advanced motion synthesis in human-scene interaction modeling, we introduce the TRUMANS dataset alongside a novel HSI motion synthesis method. TRUMANS stands as the most comprehensive motion-captured HSI dataset currently available, encompassing over 15 hours of human interactions across 100 indoor scenes. It intricately captures whole-body human motions and part-level object dynamics, focusing on the realism of contact. This dataset is further scaled up by transforming physical environments into exact virtual models and applying extensive augmentations to appearance and motion for both humans and objects while maintaining interaction fidelity. Utilizing TRUMANS, we devise a diffusion-based autoregressive model that efficiently generates HSI sequences of any length, taking into account both scene context and intended actions. In experiments, our approach shows remarkable zero-shot generalizability on a range of 3D scene datasets (e.g., PROX, Replica, ScanNet, ScanNet++), producing motions that closely mimic original motion-captured sequences, as confirmed by quantitative experiments and human studies. | 翻訳日:2024-03-14 13:38:19 公開日:2024-03-13 |
# 科学的機械学習のための多面的線形回帰
scarce (複数形 scarces)
Multifidelity linear regression for scientific machine learning from scarce data ( http://arxiv.org/abs/2403.08627v1 ) ライセンス: Link先を確認 | Elizabeth Qian, Anirban Chaudhuri, Dayoung Kang, Vignesh Sella | (参考訳) 機械学習(ML)メソッドは、パラメータ化されたモデルクラスのパラメータのデータに適合するが、従来のシミュレーションが高価である複雑なエンジニアリングシステムのサロゲートモデルを学習するための潜在的な方法として、大きな関心を集めている。
しかし、多くの科学的・工学的な設定では、MLモデルをトレーニングするための高忠実度データを生成するのは高価であり、トレーニングデータを生成するための予算は限られている。
得られた少ない高忠実度データに基づいてトレーニングされたMLモデルは、ばらつきが高く、トレーニングデータセットのバガリーに敏感である。
例えば、高忠実度データは高価な完全に解決された物理シミュレーションによって生成されるが、低忠実度データは仮定を単純化したより安価なモデルから生じる可能性がある。
我々は,線形回帰モデルの未知パラメータに対して,新しい多忠実度モンテカルロ推定器を定義するために多忠実度データを使用し,アプローチの精度を保証し,小さなトレーニング予算に頑健さを向上する理論解析を行う。
数値計算により, 少ない高忠実度データと付加的な低忠実度データに基づいて学習した多忠実度学習モデルが, 高忠実度データのみを学習した標準モデルよりも低次モデルの分散を実現することを示す。
これは、少ないデータ構造において、我々の多要素トレーニング戦略が、標準トレーニングアプローチよりも予測エラーの少ないモデルを生成することを示している。
Machine learning (ML) methods, which fit to data the parameters of a given parameterized model class, have garnered significant interest as potential methods for learning surrogate models for complex engineering systems for which traditional simulation is expensive. However, in many scientific and engineering settings, generating high-fidelity data on which to train ML models is expensive, and the available budget for generating training data is limited. ML models trained on the resulting scarce high-fidelity data have high variance and are sensitive to vagaries of the training data set. We propose a new multifidelity training approach for scientific machine learning that exploits the scientific context where data of varying fidelities and costs are available; for example high-fidelity data may be generated by an expensive fully resolved physics simulation whereas lower-fidelity data may arise from a cheaper model based on simplifying assumptions. We use the multifidelity data to define new multifidelity Monte Carlo estimators for the unknown parameters of linear regression models, and provide theoretical analyses that guarantee the approach's accuracy and improved robustness to small training budgets. Numerical results verify the theoretical analysis and demonstrate that multifidelity learned models trained on scarce high-fidelity data and additional low-fidelity data achieve order-of-magnitude lower model variance than standard models trained on only high-fidelity data of comparable cost. This illustrates that in the scarce data regime, our multifidelity training strategy yields models with lower expected error than standard training approaches. | 翻訳日:2024-03-14 13:38:19 公開日:2024-03-13 |
# 量子上のLipkin-Meshkov-Glickモデルの分散最小化
コンピュータ
Variance Minimisation of the Lipkin-Meshkov-Glick Model on a Quantum Computer ( http://arxiv.org/abs/2403.08625v1 ) ライセンス: Link先を確認 | Isaac Hobday, Paul Stevenson, James Benstead | (参考訳) 量子コンピューティングは、特定の計算タスクに利点をもたらす可能性がある。
フェルミオン系のシミュレーションは、核物理学や電子システムへの応用とともに、量子計算によく役立つタスクの一つである。
本稿では, 分散最小化法を用いて, リプキン・メシュコフ・グリックモデルのエネルギー固有値の全スペクトルを求める。
我々は、IBMクラウドベースの量子コンピュータを介してアクセスされる量子シミュレータと実際の量子ハードウェアの両方を用いて、これらの計算を実行する。
これらのIBM量子コンピュータを用いて、Lipkin-Meshkov-Glickモデルにおける3つのフェルミオンと7つのフェルミオン(核子)のすべての固有値を得ることができる。
Quantum computing can potentially provide advantages for specific computational tasks. The simulation of fermionic systems is one such task that lends itself well to quantum computation, with applications in nuclear physics and electronic systems. Here we present work in which we use a variance minimisation method to find the full spectrum of energy eigenvalues of the Lipkin-Meshkov-Glick model; an exactly-solvable nuclear shell model-type system. We perform these calculations using both quantum simulators and real quantum hardware accessed via IBM cloud-based quantum computers. Using these IBM quantum computers we are able to obtain all eigenvalues for the cases of three and seven fermions (nucleons) in the Lipkin-Meshkov-Glick model. | 翻訳日:2024-03-14 13:38:18 公開日:2024-03-13 |
# 倫理的AIのためのプライバシとセキュリティに配慮したフレームワーク: ガイド
AIシステムの開発と評価
Towards a Privacy and Security-Aware Framework for Ethical AI: Guiding the Development and Assessment of AI Systems ( http://arxiv.org/abs/2403.08624v1 ) ライセンス: Link先を確認 | Daria Korobenko, Anastasija Nikiforova, Rajesh Sharma | (参考訳) 人工知能が前例のないグローバル展開を続け、利益の急増に伴い、AI対応システムのプライバシとセキュリティへの影響に関する理解が高まっている。
管轄レベルと組織レベルの両方でAI開発を効果的に制御するという重要な問題は、現代の談話において顕著なテーマとなっている。
欧州議会と評議会は、最初の包括的なAI法であるEU AI法に関する政治的合意に達することで決定的な一歩を踏み出したが、組織は依然として、急速に進化するAIの状況に適応することが困難であり、AIモデルとシステムのプライバシとセキュリティの側面を評価する普遍的なツールが欠如している。
この批判的な課題に対応するため、この研究は2020年から2023年までの体系的な文献レビューを実施し、AI倫理における重要な概念の統一的な定義、特にプライバシとセキュリティの領域を強調することに重点を置いている。
本研究は,SLRから抽出した知識の合成を通じて,プライバシとセキュリティを意識したAIシステムに適した概念的枠組みを提案する。
このフレームワークは、AIシステムの開発と批判的評価において、組織、学術機関、政府機関を含む多様な利害関係者を支援するように設計されている。
基本的に、提案されたフレームワークは倫理的意思決定のガイドとして機能し、AIが開発され、倫理的原則への強いコミットメントで活用される環境を育む。
さらに、この研究はプライバシーとセキュリティの側面を取り巻く重要な問題と課題を明らかにし、将来の研究への有望な道を示すとともに、AI倫理のグローバル化と民主化に関する対話に寄与している。
As artificial intelligence continues its unprecedented global expansion, accompanied by a proliferation of benefits, an increasing apprehension about the privacy and security implications of AI-enabled systems emerges. The pivotal question of effectively controlling AI development at both jurisdictional and organizational levels has become a prominent theme in contemporary discourse. While the European Parliament and Council have taken a decisive step by reaching a political agreement on the EU AI Act, the first comprehensive AI law, organizations still find it challenging to adapt to the fast-evolving AI landscape, lacking a universal tool for evaluating the privacy and security dimensions of their AI models and systems. In response to this critical challenge, this study conducts a systematic literature review spanning the years 2020 to 2023, with a primary focus on establishing a unified definition of key concepts in AI Ethics, particularly emphasizing the domains of privacy and security. Through the synthesis of knowledge extracted from the SLR, this study presents a conceptual framework tailored for privacy- and security-aware AI systems. This framework is designed to assist diverse stakeholders, including organizations, academic institutions, and governmental bodies, in both the development and critical assessment of AI systems. Essentially, the proposed framework serves as a guide for ethical decision-making, fostering an environment wherein AI is developed and utilized with a strong commitment to ethical principles. In addition, the study unravels the key issues and challenges surrounding the privacy and security dimensions, delineating promising avenues for future research, thereby contributing to the ongoing dialogue on the globalization and democratization of AI ethics. | 翻訳日:2024-03-14 13:38:18 公開日:2024-03-13 |
# 電荷による環境誘起情報スクランブル遷移
保存
Environment-Induced Information Scrambling Transition with Charge Conservations ( http://arxiv.org/abs/2403.08622v1 ) ライセンス: Link先を確認 | Pengfei Zhang, Zhenhua Yu | (参考訳) 一般の閉量子系では、作用素の複雑さは、局所的な量子情報の揺らぎを反映してハイゼンベルク方程式によって支配される時間進化の下で増加する。
しかしながら、システムが外部環境と相互作用する場合、システム環境結合はオペレーターをシステムから脱出させ、スクランブル相と散逸相の間の動的遷移を誘導する。
この遷移は、もともとマヨラナ・フェルミオン・システムで提案された環境誘起情報スクランブル・トランジションとして知られている。
本研究では、時空ランダム性を持つ電荷保存系における遷移を調べることにより、この探索を進める。
複素フェルミオンを環境に結合した可解なブラウン・サハデフ・イ・キタエフモデルを構築し、演算子成長の解析計算を可能にする。
散乱過程におけるパウリ閉塞による量子リアプノフ指数の抑制から生じる複素フェルミオンの密度が$n$である$n(1-n)$に比例する臨界散逸強度を決定する。
さらに、遅延時の最大スクランブル作用素の密度依存性を解析する。
我々の結果は、情報交換、消散、保存法の間の興味深い相互作用に光を当てた。
In generic closed quantum systems, the complexity of operators increases under time evolution governed by the Heisenberg equation, reflecting the scrambling of local quantum information. However, when systems interact with an external environment, the system-environment coupling allows operators to escape from the system, inducing a dynamical transition between the scrambling phase and the dissipative phase. This transition is known as the environment-induced information scrambling transition, originally proposed in Majorana fermion systems. In this work, we advance this dicovery by investigating the transition in charge-conserved systems with space-time randomness. We construct solvable Brownian Sachdev-Ye-Kitaev models of complex fermions coupled to an environment, enabling the analytical computation of operator growth. We determine the critical dissipation strength, which is proportional to $n(1-n)$ with $n$ being the density of the complex fermions, arising from the suppression in the quantum Lyapunov exponent due to the Pauli blockade in the scattering process. We further analyze the density dependence of maximally scrambled operators at late time. Our results shed light on the intriguing interplay between information scrambling, dissipation, and conservation laws. | 翻訳日:2024-03-14 13:38:17 公開日:2024-03-13 |
# Verifix: ラベルノイズのロバスト性を改善するためのトレーニング後の補正
検証サンプル
Verifix: Post-Training Correction to Improve Label Noise Robustness with Verified Samples ( http://arxiv.org/abs/2403.08618v1 ) ライセンス: Link先を確認 | Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy | (参考訳) トレーニングサンプルが誤ったラベルを持つラベルの破損は、機械学習モデルの性能を著しく低下させる可能性がある。
この汚職は、しばしば非専門家のラベル付けや敵の攻撃によって生じる。
大規模で完全にラベル付けされたデータセットの取得にはコストがかかり、クリーンなデータセットが利用可能になった場合、スクラッチから大規模なモデルを再トレーニングするのは計算コストがかかる。
この課題に対処するために,ラベルノイズを軽減するために初期訓練後のモデルパラメータを調整する新しいパラダイムであるPost-Training Correctionを提案する。
単一更新でモデルの重みを補正するために,小さな検証データセットを活用する,SVD(Singular Value Decomposition)ベースの新しいアルゴリズムであるVerifixを導入する。
VerifixはSVDを使用してクリーンなアクティベーション空間を推定し、その後モデルの重みをこの空間に投射して、破損したデータに対応するアクティベーションを抑制する。
合成および実世界のラベルノイズに対するVerifixの有効性を実証する。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
さらに、WebVision1.0 や Clothing1M のような自然に破損したデータセット上で、最大2.63%の一般化の改善を観察する。
Label corruption, where training samples have incorrect labels, can significantly degrade the performance of machine learning models. This corruption often arises from non-expert labeling or adversarial attacks. Acquiring large, perfectly labeled datasets is costly, and retraining large models from scratch when a clean dataset becomes available is computationally expensive. To address this challenge, we propose Post-Training Correction, a new paradigm that adjusts model parameters after initial training to mitigate label noise, eliminating the need for retraining. We introduce Verifix, a novel Singular Value Decomposition (SVD) based algorithm that leverages a small, verified dataset to correct the model weights using a single update. Verifix uses SVD to estimate a Clean Activation Space and then projects the model's weights onto this space to suppress activations corresponding to corrupted data. We demonstrate Verifix's effectiveness on both synthetic and real-world label noise. Experiments on the CIFAR dataset with 25% synthetic corruption show 7.36% generalization improvements on average. Additionally, we observe generalization improvements of up to 2.63% on naturally corrupted datasets like WebVision1.0 and Clothing1M. | 翻訳日:2024-03-14 13:38:17 公開日:2024-03-13 |
# 表現学習とソーシャルネットワークのリンク予測
ヒューリスティックな特徴
Link Prediction for Social Networks using Representation Learning and Heuristic-based Features ( http://arxiv.org/abs/2403.08613v1 ) ライセンス: Link先を確認 | Samarth Khanna, Sree Bhattacharyya, Sudipto Ghosh, Kushagra Agarwal, Asit Kumar Das | (参考訳) スケールの指数的な成長とソーシャルネットワークの関連性により、彼らは広大な洞察を提供することができる。
ソーシャルネットワークにおけるリンクの欠落を効率的に予測することは、レコメンデーションの生成から影響分析まで、現代の様々なビジネスアプリケーションに役立つ。
同じ解のいくつかのカテゴリが存在する。
本稿では、欠落したリンクを予測できるソーシャルネットワークにおいて、ノードとエッジの表現を生成するための様々な特徴抽出手法について検討する。
構造埋め込み, 近傍型埋め込み, グラフニューラルネットワーク, グラフヒューリスティックスで分類した10種類の特徴抽出手法を用いて, 続いてアンサンブル分類器とカスタムニューラルネットワークを用いたモデリングを行った。
さらに,ソーシャルネットワークデータセット上でのリンク予測タスクの性能向上を示す,ヒューリスティックな特徴と学習表現を組み合わせることを提案する。
この手法を用いて、多くのアプリケーションに対して正確なレコメンデーションを生成することは、非常に有望と思われるさらなる研究の課題である。
すべての実験のコードは公開されています。
The exponential growth in scale and relevance of social networks enable them to provide expansive insights. Predicting missing links in social networks efficiently can help in various modern-day business applications ranging from generating recommendations to influence analysis. Several categories of solutions exist for the same. Here, we explore various feature extraction techniques to generate representations of nodes and edges in a social network that allow us to predict missing links. We compare the results of using ten feature extraction techniques categorized across Structural embeddings, Neighborhood-based embeddings, Graph Neural Networks, and Graph Heuristics, followed by modeling with ensemble classifiers and custom Neural Networks. Further, we propose combining heuristic-based features and learned representations that demonstrate improved performance for the link prediction task on social network datasets. Using this method to generate accurate recommendations for many applications is a matter of further study that appears very promising. The code for all the experiments has been made public. | 翻訳日:2024-03-14 13:38:16 公開日:2024-03-13 |
# 局所的適応性とスケーラブル拡散に基づく収束性について
ディープベイズニューラルネットワーク後駆体のサンプリング法
On the Convergence of Locally Adaptive and Scalable Diffusion-Based Sampling Methods for Deep Bayesian Neural Network Posteriors ( http://arxiv.org/abs/2403.08609v1 ) ライセンス: Link先を確認 | Tim Rensmeyer and Oliver Niggemann | (参考訳) ディープニューラルネットワークの堅牢な不確実性定量化を実現することは、ニューラルネットワークの予測の信頼性を評価する必要がある医療画像のような多くのディープラーニングの現実的な応用において重要な要件である。
ベイズニューラルネットワークは、ディープニューラルネットワークにおける不確実性をモデル化するための有望なアプローチである。
残念なことに、ニューラルネットワークの後部分布からサンプルを生成することは大きな課題である。
その方向への大きな進歩の1つは、現代のニューラルネットワークオプティマイザに似た適応的なステップサイズを、計算要求を大幅に増加させることなくモンテカルロマルコフ連鎖サンプリングアルゴリズムに組み込むことである。
過去数年間、いくつかの論文がサンプリングアルゴリズムを導入し、それらがこの性質を達成したと主張している。
しかし、それらは本当に正しい分布に収束するだろうか?
本稿では,これらの手法が,ステップサイズやバッチサイズが小さくても,サンプリングした分布にかなりの偏りがあることを実証する。
Achieving robust uncertainty quantification for deep neural networks represents an important requirement in many real-world applications of deep learning such as medical imaging where it is necessary to assess the reliability of a neural network's prediction. Bayesian neural networks are a promising approach for modeling uncertainties in deep neural networks. Unfortunately, generating samples from the posterior distribution of neural networks is a major challenge. One significant advance in that direction would be the incorporation of adaptive step sizes, similar to modern neural network optimizers, into Monte Carlo Markov chain sampling algorithms without significantly increasing computational demand. Over the past years, several papers have introduced sampling algorithms with claims that they achieve this property. However, do they indeed converge to the correct distribution? In this paper, we demonstrate that these methods can have a substantial bias in the distribution they sample, even in the limit of vanishing step sizes and at full batch size. | 翻訳日:2024-03-14 13:38:16 公開日:2024-03-13 |
# MedInsight: 生成のためのマルチソースコンテキスト拡張フレームワーク
大規模言語モデルを用いた患者中心医療応答
MedInsight: A Multi-Source Context Augmentation Framework for Generating Patient-Centric Medical Responses using Large Language Models ( http://arxiv.org/abs/2403.08607v1 ) ライセンス: Link先を確認 | Subash Neupane, Shaswata Mitra, Sudip Mittal, Noorbakhsh Amiri Golilarz, Shahram Rahimi, Amin Amirlatifi | (参考訳) 大きな言語モデル(LLM)は、人間のような応答を生成する素晴らしい能力を示している。
しかし、ドメイン固有の知識の欠如は、コンテキスト的かつ包括的な応答が不可欠である医療環境における適用性を制限している。
この課題に対処し、コンテキスト的に関連性があり包括的な患者中心の応答の生成を可能にするために、複数のソースからLLM入力(prompt)を関連づける新しい検索拡張フレームワークMedInsightを提案する。
MedInsightは患者の医療記録や相談書から関連する詳細を抽出する。
そして、患者の健康史と状態に基づいて、権威ある医学教科書やキュレーションされたウェブリソースからの情報を統合する。
患者の記録と関連する医療知識を組み合わせた拡張コンテキストを構築することにより、MedInsightは、診断、治療勧告、患者教育などの医療応用に適した、豊富な患者固有の応答を生成する。
MTSamplesデータセットの実験は、文脈的に適切な医療応答を生成するMedInsightの有効性を検証する。
ラガス計量とトゥルーレンスの解答類似性および解答正解性を用いた定量的評価は、モデルの有効性を示す。
さらに,MedInsightの実用性について,人体評価研究により確認し,その妥当性と正当性について中程度の合意を得た。
Large Language Models (LLMs) have shown impressive capabilities in generating human-like responses. However, their lack of domain-specific knowledge limits their applicability in healthcare settings, where contextual and comprehensive responses are vital. To address this challenge and enable the generation of patient-centric responses that are contextually relevant and comprehensive, we propose MedInsight:a novel retrieval augmented framework that augments LLM inputs (prompts) with relevant background information from multiple sources. MedInsight extracts pertinent details from the patient's medical record or consultation transcript. It then integrates information from authoritative medical textbooks and curated web resources based on the patient's health history and condition. By constructing an augmented context combining the patient's record with relevant medical knowledge, MedInsight generates enriched, patient-specific responses tailored for healthcare applications such as diagnosis, treatment recommendations, or patient education. Experiments on the MTSamples dataset validate MedInsight's effectiveness in generating contextually appropriate medical responses. Quantitative evaluation using the Ragas metric and TruLens for answer similarity and answer correctness demonstrates the model's efficacy. Furthermore, human evaluation studies involving Subject Matter Expert (SMEs) confirm MedInsight's utility, with moderate inter-rater agreement on the relevance and correctness of the generated responses. | 翻訳日:2024-03-14 13:38:15 公開日:2024-03-13 |
# DevBench: ソフトウェア開発のための総合ベンチマーク
DevBench: A Comprehensive Benchmark for Software Development ( http://arxiv.org/abs/2403.08604v1 ) ライセンス: Link先を確認 | Bowen Li, Wenhan Wu, Ziwei Tang, Lin Shi, John Yang, Jinyang Li, Shunyu Yao, Chen Qian, Binyuan Hui, Qicheng Zhang, Zhiyin Yu, He Du, Ping Yang, Dahua Lin, Chao Peng, Kai Chen | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、そのコーディング能力を著しく向上させた。
しかし、既存のベンチマークは主に、単一ファイルのコード生成やリポジトリのイシューデバッギングなど、プログラミングの単純化または孤立した側面に焦点を当てており、実際のプログラミング活動によって引き起こされる課題の完全な範囲を測るには至っていない。
この目的のために,ソフトウェア設計,環境設定,実装,受け入れテスト,単体テストなど,ソフトウェア開発ライフサイクルのさまざまな段階にわたるLCMを評価する包括的なベンチマークであるDevBenchを提案する。
DevBenchは、幅広いプログラミング言語とドメイン、高品質なデータ収集、各タスクに対して慎重に設計され、検証されたメトリクスを備えている。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
分析によると、モデルはリポジトリの複雑な構造を理解し、コンパイルプロセスを管理し、高度なプログラミング概念を把握するのに苦労している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
私たちのベンチマークはhttps://github.com/open-compass/DevBenchで公開されています。
Recent advancements in large language models (LLMs) have significantly enhanced their coding capabilities. However, existing benchmarks predominantly focused on simplified or isolated aspects of programming, such as single-file code generation or repository issue debugging, falling short of measuring the full spectrum of challenges raised by real-world programming activities. To this end, we propose DevBench, a comprehensive benchmark that evaluates LLMs across various stages of the software development lifecycle, including software design, environment setup, implementation, acceptance testing, and unit testing. DevBench features a wide range of programming languages and domains, high-quality data collection, and carefully designed and verified metrics for each task. Empirical studies show that current LLMs, including GPT-4-Turbo, fail to solve the challenges presented within DevBench. Analyses reveal that models struggle with understanding the complex structures in the repository, managing the compilation process, and grasping advanced programming concepts. Our findings offer actionable insights for the future development of LLMs toward real-world programming applications. Our benchmark is available at https://github.com/open-compass/DevBench | 翻訳日:2024-03-14 13:38:15 公開日:2024-03-13 |
# 位相による大域対称性破砕超ラジアント相の探索
競争
Exploring global symmetry-breaking superradiant phase via phase competition ( http://arxiv.org/abs/2403.08602v1 ) ライセンス: Link先を確認 | Hai-Chao Li, Wen Huang, and Wei Xiong | (参考訳) 超ラジアント相転移は、量子レベルでの集合的な光-物質相互作用のメカニズムを理解する上で、基本的な役割を果たす。
ここでは、2モードV型ディックモデルにおいて、異なる対称性破れパターンを持つ複数の超ラジアント相と相転移について検討する。
興味深いことに、通常の位相が1つ、大域対称性破れの超ラジアント位相が1つ、局所対称性破れの超ラジアント位相が2つ存在することが示される。
このような大域的な位相は、2つの局所超ラジアント位相間の位相の競合の結果であり、量子光学における標準的な$\Lambda$-および$\Xi$型3レベル構成では起こらない。
さらに、我々は1次量子位相を1つの局所から1つの局所から、もう1つの局所スーパーラジアント相へ順次遷移させる。
我々の研究は、大域対称性の破れを伴う多段階量子臨界現象を探求する視点を開拓する。
Superradiant phase transitions play a fundamental role in understanding the mechanism of collective light-matter interaction at the quantum level. Here we investigate multiple superradiant phases and phase transitions with different symmetry-breaking patterns in a two-mode V-type Dicke model. Interestingly, we show that there exists a quadruple point where one normal phase, one global symmetry-breaking superradiant phase and two local symmetry-breaking superradiant phases meet. Such a global phase results from the phase competition between two local superradiant phases and can not occur in the standard $\Lambda$- and $\Xi$-type three-level configurations in quantum optics. Moreover, we exhibit a sequential first-order quantum phase transition from one local to the global again to the other local superradiant phase. Our study opens up a perspective of exploring multi-level quantum critical phenomena with global symmetry breaking. | 翻訳日:2024-03-14 13:38:14 公開日:2024-03-13 |
# 必要なら電話する: LLMは効率的かつ忠実に反省できる
構造環境
Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments ( http://arxiv.org/abs/2403.08593v1 ) ライセンス: Link先を確認 | Sitao Cheng, Ziyuan Zhuang, Yong Xu, Fangkai Yang, Chaoyun Zhang, Xiaoting Qin, Xiang Huang, Ling Chen, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang | (参考訳) 大規模言語モデル(LLM)は、構造化された環境、例えば知識グラフ、テーブルを推論する可能性を示している。
このようなタスクは通常、マルチホップ推論、すなわち自然言語の発話と環境のインスタンスとのマッチングを必要とする。
従来の手法では、LSMを利用して推論パスを段階的に構築し、LSMはツールを呼び出すか、環境と段階的に対話してスキーマをピックアップする。
本稿では,LLMが構造化環境に対して効率的にかつ忠実に推論できる新しいフレームワークであるReasoning-Path-Editing (Readi)を提案する。
Readiでは、LLMはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。
構造化された環境のパスをインスタンス化し、何か問題が発生した場合、パスを編集するためのフィードバックを提供します。
3つのKGQAデータセットと2つのTableQAデータセットによる実験結果は、Readiの有効性を示し、全てのLCMベースのメソッド(WebQSPで9.1%、MQA-3Hで12.4%、WTQで10.9%)を大幅に上回り、最先端の微調整メソッド(CWQで67%、WebQSPで74.7%)に匹敵し、バニラLLM(CWQで14.9%)を大幅に上回った。
私たちのコードは出版時に利用可能になります。
Large Language Models (LLMs) have shown potential in reasoning over structured environments, e.g., knowledge graph and table. Such tasks typically require multi-hop reasoning, i.e., match natural language utterance with instances in the environment. Previous methods leverage LLMs to incrementally build a reasoning path, where the LLMs either invoke tools or pick up schemas by step-by-step interacting with the environment. We propose Reasoning-Path-Editing (Readi), a novel framework where LLMs can efficiently and faithfully reason over structured environments. In Readi, LLMs initially generate a reasoning path given a query, and edit the path only when necessary. We instantiate the path on structured environments and provide feedback to edit the path if anything goes wrong. Experimental results on three KGQA datasets and two TableQA datasets show the effectiveness of Readi, significantly surpassing all LLM-based methods (by 9.1% on WebQSP, 12.4% on MQA-3H and 10.9% on WTQ), comparable with state-of-the-art fine-tuned methods (67% on CWQ and 74.7% on WebQSP) and substantially boosting the vanilla LLMs (by 14.9% on CWQ). Our code will be available upon publication. | 翻訳日:2024-03-14 13:38:14 公開日:2024-03-13 |
# 合成時系列事前学習によるデータ効率のよい睡眠安定
Data-Efficient Sleep Staging with Synthetic Time Series Pretraining ( http://arxiv.org/abs/2403.08592v1 ) ライセンス: Link先を確認 | Niklas Grieger, Siamak Mehrkanoon, Stephan Bialonski | (参考訳) 脳波(EEG)時系列を解析することは、特にディープニューラルネットワークでは、人体としばしば小さなデータセットに大きなばらつきがあるため困難である。
これらの課題に対処するためには、自己教師付き学習のような様々な戦略が提案されているが、通常は広範な経験的データセットに依存している。
コンピュータビジョンの最近の進歩に触発されて、ランダムに生成された合成時系列の周波数量を予測して、睡眠ステージングのためのニューラルネットワークを事前訓練する「周波数事前学習」という事前訓練タスクを提案する。
実験の結果,本手法は,限られたデータと少ない主題のシナリオで完全に教師付き学習を超越し,多くの課題に適合することがわかった。
さらに,本研究の結果は,睡眠段階スコアリングにおける周波数情報の関連性を示すとともに,深層ニューラルネットワークが周波数を超える情報を活用して睡眠ステージング性能を向上させることを実証した。
我々は、脳波データに制限がある、あるいは脳-コンピュータインタフェースの領域を含む少数の主題から派生した幅広い分野のアプリケーションに対して、我々のアプローチが有利になることを期待している。
Analyzing electroencephalographic (EEG) time series can be challenging, especially with deep neural networks, due to the large variability among human subjects and often small datasets. To address these challenges, various strategies, such as self-supervised learning, have been suggested, but they typically rely on extensive empirical datasets. Inspired by recent advances in computer vision, we propose a pretraining task termed "frequency pretraining" to pretrain a neural network for sleep staging by predicting the frequency content of randomly generated synthetic time series. Our experiments demonstrate that our method surpasses fully supervised learning in scenarios with limited data and few subjects, and matches its performance in regimes with many subjects. Furthermore, our results underline the relevance of frequency information for sleep stage scoring, while also demonstrating that deep neural networks utilize information beyond frequencies to enhance sleep staging performance, which is consistent with previous research. We anticipate that our approach will be advantageous across a broad spectrum of applications where EEG data is limited or derived from a small number of subjects, including the domain of brain-computer interfaces. | 翻訳日:2024-03-14 13:38:13 公開日:2024-03-13 |
# Action Diffusion: 手続き計画のための行動認識拡散モデル
インストラクショナル・ビデオで
ActionDiffusion: An Action-aware Diffusion Model for Procedure Planning in Instructional Videos ( http://arxiv.org/abs/2403.08591v1 ) ライセンス: Link先を確認 | Lei Shi, Paul B\"urkner, Andreas Bulling | (参考訳) 本稿では,プロシージャプランニングのための拡散モデルとして,プロシージャプランニングのための新しい拡散モデルであるActionDiffusionを提案する。
このアプローチは、アクションを実行する特定の順序で利用可能な豊富な情報コンテンツを活用できない既存の方法とは対照的である。
本手法は,ノイズ空間に動作情報を投影することにより,行動間の時間的依存関係の学習と拡散過程における行動計画の認知を統一する。
これは達成される
1)ノイズ付加相におけるノイズマスクにアクション埋め込みを加えることにより、
2) ノイズ予測ネットワークに注意機構を導入し, 異なる動作ステップ間の相関関係を学習する。
提案手法はCrossTask,Coin,NIVの3つのビデオベンチマークデータセット(CrossTask,Coin,NIV)について広範な実験を行い,CrossTaskおよびNIVのすべてのメトリクスおよびCoinデータセットの精度以外のすべてのメトリクスにおいて,従来の最先端手法よりも優れていたことを示す。
ノイズマスクにアクション埋め込みを追加することで、拡散モデルにより、アクションの時間依存性を学習し、プロシージャ計画におけるパフォーマンスを向上させることができることを示す。
We present ActionDiffusion -- a novel diffusion model for procedure planning in instructional videos that is the first to take temporal inter-dependencies between actions into account in a diffusion model for procedure planning. This approach is in stark contrast to existing methods that fail to exploit the rich information content available in the particular order in which actions are performed. Our method unifies the learning of temporal dependencies between actions and denoising of the action plan in the diffusion process by projecting the action information into the noise space. This is achieved 1) by adding action embeddings in the noise masks in the noise-adding phase and 2) by introducing an attention mechanism in the noise prediction network to learn the correlations between different action steps. We report extensive experiments on three instructional video benchmark datasets (CrossTask, Coin, and NIV) and show that our method outperforms previous state-of-the-art methods on all metrics on CrossTask and NIV and all metrics except accuracy on Coin dataset. We show that by adding action embeddings into the noise mask the diffusion model can better learn action temporal dependencies and increase the performances on procedure planning. | 翻訳日:2024-03-14 13:38:12 公開日:2024-03-13 |
# 物理情報はニューラルネットワークの一般化能力に役立つか
水理モデリングのためのネットワーク?
Can physical information aid the generalization ability of Neural Networks for hydraulic modeling? ( http://arxiv.org/abs/2403.08589v1 ) ライセンス: Link先を確認 | Gianmarco Guglielmo, Andrea Montessori, Jean-Michel Tucny, Michele La Rocca, Pietro Prestininzi | (参考訳) ニューラルネットワークの河川水理学への応用は、データ不足に苦しむ分野にもかかわらず、機械学習技術の課題である。
その結果、純粋にデータ駆動型ニューラルネットワークの多くは予測能力に欠けていた。
本研究では,トレーニングフェーズに物理情報を導入することで,そのような問題を緩和することを提案する。
このアイデアは、最近他の文脈で提案された物理情報ニューラルネットワークから借用されている。
物理インフォームドニューラルネットワークは、物理情報を現象を制御している部分微分方程式(PDE)の残余の形で埋め込んでおり、従来の数値解法に代わるニューラルネットワークとして考えられている。
このような手法は、疫学的な不確実性が大きい環境水理学にはあまり適しておらず、PDEの計算残差は古典的な数値法と類似した困難を示す。
代わりに、PDEに頼らずに定式化された物理的制約を特徴とするニューラルネットワークをニューラルネットワークとして採用することを考えました。
提案手法はデータ拡張と正規化と類似性を有する。
このようなソフトな物理情報を組み込むことで予測能力を向上できることを示す。
Application of Neural Networks to river hydraulics is fledgling, despite the field suffering from data scarcity, a challenge for machine learning techniques. Consequently, many purely data-driven Neural Networks proved to lack predictive capabilities. In this work, we propose to mitigate such problem by introducing physical information into the training phase. The idea is borrowed from Physics-Informed Neural Networks which have been recently proposed in other contexts. Physics-Informed Neural Networks embed physical information in the form of the residual of the Partial Differential Equations (PDEs) governing the phenomenon and, as such, are conceived as neural solvers, i.e. an alternative to traditional numerical solvers. Such approach is seldom suitable for environmental hydraulics, where epistemic uncertainties are large, and computing residuals of PDEs exhibits difficulties similar to those faced by classical numerical methods. Instead, we envisaged the employment of Neural Networks as neural operators, featuring physical constraints formulated without resorting to PDEs. The proposed novel methodology shares similarities with data augmentation and regularization. We show that incorporating such soft physical information can improve predictive capabilities. | 翻訳日:2024-03-14 13:38:12 公開日:2024-03-13 |
# 光子を用いた屈折率センサの量子プラズモニクスモデル
相関
Quantum plasmonics model of refractive index sensing using photon correlations ( http://arxiv.org/abs/2403.08588v1 ) ライセンス: Link先を確認 | L. C. Ugwuoke, T. P. J. Kr\"uger, M. S. Tame | (参考訳) 量子エミッターの電気双極子モーメントと金属ナノ粒子の相互作用は、干渉誘起光子相関のようなユニークな光学特性を生じさせ、強度に基づくセンシングを強化するのに有用である。
光検出の量子理論を用いて、屈折率検出に高次光子相関を利用する可能性を探る量子エミッタと金属ナノ粒子からなるナノセンサシステムを提案する。
可視領域内に散乱スペクトルを持つナノセンサの屈折率感度と分解能の両方を予測する。
センサは基板によって支持され、コヒーレントフィールドによって弱駆動される。
系の散乱場から生じる平均光数とその第2因子モーメントを計算することにより、最適な駆動波長において、強度と強度-強度相関のセンシング性能を比較する。
平均光価は本質的に低く、干渉誘起光子アンチバンチングがセンサーの強度ショットノイズを最小限に抑える役割を阻害することが判明した。
しかし、ショットノイズ限界以下でノイズを低減できる状態が同定され、センシング性能が量子的に向上する。
The interaction between the electric dipole moments of a quantum emitter and a metal nanoparticle gives rise to unique optical properties, such as interference-induced photon correlations, that could be useful for enhanced intensity-based sensing. Using the quantum theory of photodetection, we propose a nanosensor system comprising a quantum emitter and a metal nanoparticle that explores the possibility of utilizing higher-order photon correlations for refractive index sensing. Both the refractive index sensitivity and resolution of the nanosensor, whose scattering spectrum lies within the visible region, are predicted. The sensor is supported by a substrate and driven weakly by a coherent field. By calculating the mean photocount and its second factorial moment resulting from the scattered field of the system, the sensing performance of the intensity and intensity-intensity correlation, are compared at optimal driving wavelengths. The mean photocount was found to be inherently low, inhibiting the role of interference-induced photon antibunching in minimizing the sensor's intensity shot noise. However, a regime in which the noise could be reduced below the shot noise limit is identified, leading to a quantum enhancement in the sensing performance. | 翻訳日:2024-03-14 13:38:11 公開日:2024-03-13 |
# FastMAC: 対応グラフの確率スペクトルサンプリング
FastMAC: Stochastic Spectral Sampling of Correspondence Graph ( http://arxiv.org/abs/2403.08770v1 ) ライセンス: Link先を確認 | Yifei Zhang, Hao Zhao, Hongyang Li, Siheng Chen | (参考訳) 3D対応、すなわち一対の3Dポイントは、コンピュータビジョンの基本的な概念である。
互換性エッジを備えた3D対応のセットは、対応グラフを形成する。
このグラフは、いくつかの最先端の3Dポイントクラウド登録アプローチ、例えば最大傾き(MAC)に基づくものにおいて重要な要素である。
しかし、その性質はよく理解されていない。
そこで本研究では,対応グラフの領域にグラフ信号処理を導入する最初の研究について述べる。
我々は、対応グラフ上の一般化次数信号を利用し、この信号の高周波成分を保存するサンプリング戦略を追求する。
決定的サンプリングにおいて時間を要する特異値の分解に対処するため,確率的近似サンプリング戦略を用いる。
このように、我々の手法のコアは対応グラフの確率スペクトルサンプリングである。
アプリケーションとして、我々はFastMACと呼ばれる完全な3D登録アルゴリズムを構築しました。
大規模な実験を通じて、FastMACが屋内および屋外のベンチマークの両方で機能することを検証した。
例えば、FastMACは、KITTI上で高い登録成功率を維持しながら、MACを80倍加速させることができる。
コードはhttps://github.com/Forrest-110/FastMACで公開されている。
3D correspondence, i.e., a pair of 3D points, is a fundamental concept in computer vision. A set of 3D correspondences, when equipped with compatibility edges, forms a correspondence graph. This graph is a critical component in several state-of-the-art 3D point cloud registration approaches, e.g., the one based on maximal cliques (MAC). However, its properties have not been well understood. So we present the first study that introduces graph signal processing into the domain of correspondence graph. We exploit the generalized degree signal on correspondence graph and pursue sampling strategies that preserve high-frequency components of this signal. To address time-consuming singular value decomposition in deterministic sampling, we resort to a stochastic approximate sampling strategy. As such, the core of our method is the stochastic spectral sampling of correspondence graph. As an application, we build a complete 3D registration algorithm termed as FastMAC, that reaches real-time speed while leading to little to none performance drop. Through extensive experiments, we validate that FastMAC works for both indoor and outdoor benchmarks. For example, FastMAC can accelerate MAC by 80 times while maintaining high registration success rate on KITTI. Codes are publicly available at https://github.com/Forrest-110/FastMAC. | 翻訳日:2024-03-14 13:07:19 公開日:2024-03-13 |
# 3DFIRES:隠れた表面を持つシーンの3D再構成
3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface ( http://arxiv.org/abs/2403.08768v1 ) ライセンス: Link先を確認 | Linyi Jin, Nilesh Kulkarni, David Fouhey | (参考訳) 本稿では,ポーズ画像からシーンレベルの3D再構成を行うシステムである3DFIRESを紹介する。
3DFIRESは、わずか1つのビューで動くように設計されており、隠れた表面を含む見えないシーンの完全な幾何学を再構築している。
複数のビューインプットを用いて,全カメラフラストラム内で全再構成を行う。
提案手法の重要な特徴は,特徴レベルにおける多視点情報の融合であり,コヒーレントで包括的な3次元再構成を実現することができる。
我々は大規模な実シーンデータセットから非水密スキャンでシステムを訓練する。
本研究では, 単一視点再構成法の有効性を1つの入力と一致させ, スパースビュー3次元再構成における定量的, 質的手法の両面で, 既存の手法を超越していることを示す。
This paper introduces 3DFIRES, a novel system for scene-level 3D reconstruction from posed images. Designed to work with as few as one view, 3DFIRES reconstructs the complete geometry of unseen scenes, including hidden surfaces. With multiple view inputs, our method produces full reconstruction within all camera frustums. A key feature of our approach is the fusion of multi-view information at the feature level, enabling the production of coherent and comprehensive 3D reconstruction. We train our system on non-watertight scans from large-scale real scene dataset. We show it matches the efficacy of single-view reconstruction methods with only one input and surpasses existing techniques in both quantitative and qualitative measures for sparse-view 3D reconstruction. | 翻訳日:2024-03-14 13:07:18 公開日:2024-03-13 |
# ガウス振動子の固有値について
perturbation
On the eigenvalues of the harmonic oscillator with a Gaussian perturbation ( http://arxiv.org/abs/2403.08767v1 ) ライセンス: Link先を確認 | Paolo Amore, Francisco M. Fern\'andez, Javier Garcia | (参考訳) 最近提案されたガウス摂動を用いた高調波発振器の最初の2つの固有値の解析式を検証した。
我々の数値固有値は、これらの式が著者が見積もった値よりも大きい結合パラメータの間隔で有効であることを示している。
また、複素平面における結合パラメータといくつかの例外点の臨界値を計算する。
We test the analytical expressions for the first two eigenvalues of the harmonic oscillator with a Gaussian perturbation proposed recently. Our numerical eigenvalues show that those expressions are valid in an interval of the coupling parameter that is greater than the one estimated by the authors. We also calculate critical values of the coupling parameter and several exceptional points in the complex plane. | 翻訳日:2024-03-14 13:07:18 公開日:2024-03-13 |
# MonoOcc: Monocular Semantic Occupancy PredictionへのDigg
MonoOcc: Digging into Monocular Semantic Occupancy Prediction ( http://arxiv.org/abs/2403.08766v1 ) ライセンス: Link先を確認 | Yupeng Zheng, Xiang Li, Pengfei Li, Yuhang Zheng, Bu Jin, Chengliang Zhong, Xiaoxiao Long, Hao Zhao and Qichao Zhang | (参考訳) 単眼セマンティック占領予測は2次元画像のみからシーンの完全な3次元形状と意味情報を推測することを目的としている。
自動運転車の3D認識を高める可能性から、特に注目されている。
しかし、既存の手法では、ネットワーク全体の出力にのみ依存すること、単一フレーム入力、小さなバックボーンの利用など、比較的限られた情報で3Dシーンを復元する複雑なカスケードフレームワークに依存している。
これらの課題は、フレームワークの最適化を妨げ、特に小さく長い尾を持つオブジェクトに関して劣った予測結果をもたらす。
これらの問題に対処するため、MonoOccを提案する。
特に私達は
一 フレームワークの浅い層を監督する補助的な意味的損失と、視覚的手がかりでボクセルの特徴を洗練するための画像条件のクロスアテンションモジュールを提案することにより、単眼の占有率予測枠組みを改善すること。
(II) 時間的情報とより豊かな知識をより大きな画像バックボーンから低コストのハードウェアで単分子的セマンティック占有予測フレームワークに伝達する蒸留モジュールを用いる。
これらの利点により、カメラベースのSemanticKITTI Scene Completionベンチマークで最先端の性能が得られる。
コードとモデルはhttps://github.com/ucaszyp/MonoOccでアクセスすることができる。
Monocular Semantic Occupancy Prediction aims to infer the complete 3D geometry and semantic information of scenes from only 2D images. It has garnered significant attention, particularly due to its potential to enhance the 3D perception of autonomous vehicles. However, existing methods rely on a complex cascaded framework with relatively limited information to restore 3D scenes, including a dependency on supervision solely on the whole network's output, single-frame input, and the utilization of a small backbone. These challenges, in turn, hinder the optimization of the framework and yield inferior prediction results, particularly concerning smaller and long-tailed objects. To address these issues, we propose MonoOcc. In particular, we (i) improve the monocular occupancy prediction framework by proposing an auxiliary semantic loss as supervision to the shallow layers of the framework and an image-conditioned cross-attention module to refine voxel features with visual clues, and (ii) employ a distillation module that transfers temporal information and richer knowledge from a larger image backbone to the monocular semantic occupancy prediction framework with low cost of hardware. With these advantages, our method yields state-of-the-art performance on the camera-based SemanticKITTI Scene Completion benchmark. Codes and models can be accessed at https://github.com/ucaszyp/MonoOcc | 翻訳日:2024-03-14 13:07:17 公開日:2024-03-13 |
# VLOGGER: 電子化アバター合成のための多モード拡散
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis ( http://arxiv.org/abs/2403.08764v1 ) ライセンス: Link先を確認 | Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu | (参考訳) 本稿では,VLOGGERを提案する。VLOGGERは人間の単一入力画像から人間の映像を音声で生成する手法であり,近年の再生拡散モデルの成功を基盤としている。
私たちの方法は
1)確率的人間から3次元運動拡散モデル、及び
2)空間的・時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張した新しい拡散型アーキテクチャ。
これは、人間の顔や身体の高レベルな表現によって容易に制御できる、可変長の高品質なビデオの生成をサポートする。
従来の研究とは対照的に,本手法では,各人の訓練を必要とせず,顔検出や採り取りに頼らず,完全な画像(顔や唇だけでなく)を生成し,コミュニケーションする人間を正しく合成する上で重要なシナリオ(例えば,視覚的な胴体や多様な被写体等)の広い範囲を考察している。
また、3dのポーズと表現アノテーションを備えた新しい多彩なデータセットであるmentORを、以前のもの(80,000のID)よりも1桁大きく、動的ジェスチャーでキュレートします。
VLOGGERは、画像の品質、アイデンティティの保存、時間的一貫性を考慮し、上半身のジェスチャーを生成する3つの公開ベンチマークにおいて最先端の手法より優れている。
我々は、VLOGGERの性能を複数の多様性指標に関して分析し、私たちのアーキテクチャ選択とMENTORの使用が、公正で偏見のないモデルを大規模にトレーニングすることの恩恵であることを示した。
最後に、ビデオ編集とパーソナライゼーションの応用について述べる。
We propose VLOGGER, a method for audio-driven human video generation from a single input image of a person, which builds on the success of recent generative diffusion models. Our method consists of 1) a stochastic human-to-3d-motion diffusion model, and 2) a novel diffusion-based architecture that augments text-to-image models with both spatial and temporal controls. This supports the generation of high quality video of variable length, easily controllable through high-level representations of human faces and bodies. In contrast to previous work, our method does not require training for each person, does not rely on face detection and cropping, generates the complete image (not just the face or the lips), and considers a broad spectrum of scenarios (e.g. visible torso or diverse subject identities) that are critical to correctly synthesize humans who communicate. We also curate MENTOR, a new and diverse dataset with 3d pose and expression annotations, one order of magnitude larger than previous ones (800,000 identities) and with dynamic gestures, on which we train and ablate our main technical contributions. VLOGGER outperforms state-of-the-art methods in three public benchmarks, considering image quality, identity preservation and temporal consistency while also generating upper-body gestures. We analyze the performance of VLOGGER with respect to multiple diversity metrics, showing that our architectural choices and the use of MENTOR benefit training a fair and unbiased model at scale. Finally we show applications in video editing and personalization. | 翻訳日:2024-03-14 13:07:17 公開日:2024-03-13 |
# 大規模言語を継続するシンプルでスケーラブルな戦略
モデル
Simple and Scalable Strategies to Continually Pre-train Large Language Models ( http://arxiv.org/abs/2403.08763v1 ) ライセンス: Link先を確認 | Adam Ibrahim, Benjamin Th\'erien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timoth\'ee Lesort, Eugene Belilovsky, and Irina Rish | (参考訳) 大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
より効率的な解決策は、これらのモデルを継続的に事前トレーニングし、再トレーニングよりもかなりの計算を節約することである。
しかし、新しいデータによって引き起こされる分布シフトは、通常、以前のデータの性能低下または新しいデータへの適応不良をもたらす。
本研究では,学習率 (LR) の再ウォーミング, LR再復号化, 過去のデータ再生の簡易かつスケーラブルな組み合わせが, 最終損失と言語モデル (LM) 評価ベンチマークによって測定された, 利用可能なすべてのデータに対してスクラッチから完全に再学習する性能に適合することを示す。
具体的には,2つの LLM 事前学習データセット (英:$\rightarrow$ English) と,大規模データセットサイズ (数十億トークン) のパラメータモデルスケール (405$M) における強い分布シフト (英:$\rightarrow$German) との間に,弱いが現実的な分布シフトを示す。
大規模実験において,弱いが現実的なシフトを選択することで,連続学習戦略が10BパラメータLLMの再学習ベースラインと一致していることが分かる。
この結果から,LLMは単純かつスケーラブルな連続学習戦略により,計算のごく一部で再学習ベースラインに適合することを示す。
最後に,従来の研究に触発されて,LR再ウォーミングによる忘れを回避し,固定トークン予算に縛られないコサイン学習率スケジュールの代替案を提案する。
Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by final loss and language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (English$\rightarrow$English) and a stronger distribution shift (English$\rightarrow$German) at the $405$M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget. | 翻訳日:2024-03-14 13:07:16 公開日:2024-03-13 |
# ボースアインシュタイン凝縮体の2次元アレイを用いた多軸慣性センシング
Multi-axis inertial sensing with 2D arrays of Bose Einstein Condensates ( http://arxiv.org/abs/2403.08762v1 ) ライセンス: Link先を確認 | K. Stolzenberg, C. Struckmann, S. Bode, R. Li, A. Herbst, V. Vollenkemper, D. Thomas, E. M. Rasel, N. Gaaloul, and D. Schlippert | (参考訳) 原子干渉計は慣性力の精密測定ツールである。
しかし、通常は1つの感度軸に制限されており、その後の測定や修正後の測定によってのみ、高精度な多次元センシングが可能である。
本稿では,Bose-Einstein Condensates (BEC) の2次元アレイ配置について紹介する。
1.6mm^2の3 x 3 BECアレイを配置し、回転参照ミラーの角速度と加速度の測定を行い、重力、勾配、高次微分によって誘導される線形加速度egを計測した。
我々は,長基線あるいは衛星原子間干渉計における大規模因子を有する干渉計において,本手法の感度の向上を期待する。
本研究は, 簡易な高精度多軸慣性センシングの道を開くとともに, 3次元波面解析へのさらなる応用を構想する。
Atom interferometers are an exquisite measurement tool for inertial forces. However, they are commonly limited to one single sensitive axis, allowing high-precision multi-dimensional sensing only through subsequent or postcorrected measurements. Here, we introduce a novel 2D-array-arrangement of Bose-Einstein Condensates (BEC) initialized utilizing time-averaged optical potentials for simultaneous multi-axis inertial sensing. Deploying a 3 x 3 BEC array covering 1.6 mm^2, we perform measurements of angular velocity and acceleration of a rotating reference mirror, as well as a linear acceleration, e.g., induced by gravity, gradients, and higher order derivatives. We anticipate increased sensitivity of our method in interferometers with large scale factors in long-baseline or satellite atom interferometry. Our work paves the way for simple high-precision multi-axis inertial sensing and we envision further applications, e.g., for three-dimensional wave front characterization. | 翻訳日:2024-03-14 13:07:15 公開日:2024-03-13 |
# 変形性膝関節症に対する膝骨分割術の検討
教師付き, 少数ショット, ゼロショット学習アプローチの解析
Segmentation of Knee Bones for Osteoarthritis Assessment: A Comparative Analysis of Supervised, Few-Shot, and Zero-Shot Learning Approaches ( http://arxiv.org/abs/2403.08761v1 ) ライセンス: Link先を確認 | Yun Xin Teoh, Alice Othmani, Siew Li Goh, Juliana Usman, Khin Wee Lai | (参考訳) 膝関節症 (Knee osteoarthritis) は、慢性的な痛みや障害を引き起こす変形性関節疾患である。
骨形態解析は、この疾患の機械的側面を理解するための有望なツールである。
そこで本研究では,手動分割骨を用いた2次元骨形態解析を行い,異なる痛み条件に関連する形態的特徴について検討した。
さらに、6つのセマンティックセグメンテーションアルゴリズムを用いて、X線画像から大腿骨骨と大腿骨骨を抽出する。
解析の結果,大腿骨の形態は痛みが悪化する症例において著しい変化がみられた。
逆に、痛みの改善は骨の形状の顕著な変化を示さない可能性がある。
数発の学習に基づくアルゴリズムであるUniverSegは、Diceスコアが99.69%で大腿骨が99.69%、ティビアが99.60%という優れたセグメンテーション結果を示した。
痛み条件分類に関しては、ゼロショット学習に基づくアルゴリズムCP-SAMが全モデルの中で66%の精度で達成された。
UniverSegは自動膝骨分割に推奨され、SAMモデルは最適化された結果に対する即時エンコーダ修正によるポテンシャルを示す。
これらの知見は, 膝関節症診断の分類モデルの改善における, セグメンテーションにおける少数ショット学習の有効性とゼロショット学習の可能性を明らかにするものである。
Knee osteoarthritis is a degenerative joint disease that induces chronic pain and disability. Bone morphological analysis is a promising tool to understand the mechanical aspect of this disorder. This study proposes a 2D bone morphological analysis using manually segmented bones to explore morphological features related to distinct pain conditions. Furthermore, six semantic segmentation algorithms are assessed for extracting femur and tibia bones from X-ray images. Our analysis reveals that the morphology of the femur undergoes significant changes in instances where pain worsens. Conversely, improvements in pain may not manifest pronounced alterations in bone shape. The few-shot-learning-based algorithm, UniverSeg, demonstrated superior segmentation results with Dice scores of 99.69% for femur and 99.60% for tibia. Regarding pain condition classification, the zero-shot-learning-based algorithm, CP-SAM, achieved the highest accuracy at 66% among all models. UniverSeg is recommended for automatic knee bone segmentation, while SAM models show potential with prompt encoder modifications for optimized outcomes. These findings highlight the effectiveness of few-shot learning for semantic segmentation and the potential of zero-shot learning in enhancing classification models for knee osteoarthritis diagnosis. | 翻訳日:2024-03-14 13:07:15 公開日:2024-03-13 |
# MIM4D: 自律運転のためのマルチビュービデオによるマスケッドモデリング
表現学習
MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving Representation Learning ( http://arxiv.org/abs/2403.08760v1 ) ライセンス: Link先を確認 | Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang | (参考訳) 大規模なマルチビュービデオデータから堅牢でスケーラブルな視覚表現を学ぶことは、コンピュータビジョンと自律運転において依然として課題である。
既存の事前学習手法は、3Dアノテーションによる高価な教師あり学習、スケーラビリティの制限、あるいは1フレームまたは単眼入力に集中し、時間的情報を無視している。
デュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムMIM4Dを提案する。
MIM4Dは、マスク付きマルチビュービデオ入力のトレーニングにより、空間的および時間的関係を利用する。
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
濃密な3D監督の欠如に対処するため、MIM4Dは幾何学的表現を学習するために3Dボリューム微分可能レンダリングを用いて画素を再構成する。
自律運転における視覚的表現学習のためのnuScenesデータセット上でMIM4Dが最先端のパフォーマンスを実現することを示す。
BEVセグメンテーション(8.7% IoU)、3Dオブジェクト検出(3.5% mAP)、HDマップ構築(1.4% mAP)など、複数の下流タスクにおける既存の手法を大幅に改善した。
私たちの仕事は、自律運転において大規模に表現を学習するための新しい選択肢を提供します。
コードとモデルはhttps://github.com/hustvl/MIM4Dで公開される
Learning robust and scalable visual representations from massive multi-view video data remains a challenge in computer vision and autonomous driving. Existing pre-training methods either rely on expensive supervised learning with 3D annotations, limiting the scalability, or focus on single-frame or monocular inputs, neglecting the temporal information. We propose MIM4D, a novel pre-training paradigm based on dual masked image modeling (MIM). MIM4D leverages both spatial and temporal relations by training on masked multi-view video inputs. It constructs pseudo-3D features using continuous scene flow and projects them onto 2D plane for supervision. To address the lack of dense 3D supervision, MIM4D reconstruct pixels by employing 3D volumetric differentiable rendering to learn geometric representations. We demonstrate that MIM4D achieves state-of-the-art performance on the nuScenes dataset for visual representation learning in autonomous driving. It significantly improves existing methods on multiple downstream tasks, including BEV segmentation (8.7% IoU), 3D object detection (3.5% mAP), and HD map construction (1.4% mAP). Our work offers a new choice for learning representation at scale in autonomous driving. Code and models are released at https://github.com/hustvl/MIM4D | 翻訳日:2024-03-14 13:07:14 公開日:2024-03-13 |
# 加速のためのペアサンプリングによる時空間拡散モデル
心臓洞MRI
Spatiotemporal Diffusion Model with Paired Sampling for Accelerated Cardiac Cine MRI ( http://arxiv.org/abs/2403.08758v1 ) ライセンス: Link先を確認 | Shihan Qiu, Shaoyan Pan, Yikang Liu, Lin Zhao, Jian Xu, Qi Liu, Terrence Chen, Eric Z. Chen, Xiao Chen, Shanhui Sun | (参考訳) 拡張型心血管MRIにおける近年の深層学習再建は,空間的および時間的ぼかしに悩まされている。
我々は,高アンダーサンプリング率のシネMRIにおいて,画像のシャープネスと動きのデライン化を改善することを目的としている。
既存の深層学習再構成を前提とした時空間拡散促進モデルと新しいペアサンプリング戦略を開発した。
拡散モデルでは, 臨床データを用いた専門家評価において, 元の再建よりも組織境界と運動の鮮明さが認められた。
革新的なペアサンプリング戦略は、生成結果における人工ノイズを大幅に低減した。
Current deep learning reconstruction for accelerated cardiac cine MRI suffers from spatial and temporal blurring. We aim to improve image sharpness and motion delineation for cine MRI under high undersampling rates. A spatiotemporal diffusion enhancement model conditional on an existing deep learning reconstruction along with a novel paired sampling strategy was developed. The diffusion model provided sharper tissue boundaries and clearer motion than the original reconstruction in experts evaluation on clinical data. The innovative paired sampling strategy substantially reduced artificial noises in the generative results. | 翻訳日:2024-03-14 13:07:13 公開日:2024-03-13 |
# 熱拡散による効率的な組合せ最適化
Efficient Combinatorial Optimization via Heat Diffusion ( http://arxiv.org/abs/2403.08757v1 ) ライセンス: Link先を確認 | Hengyuan Ma, Wenlian Lu, Jianfeng Feng | (参考訳) 組合せ最適化問題は、その離散的な性質のため本質的に困難であるが、既存の手法の最大の制限は、各イテレーションにおいて解空間のごく一部しかアクセスできないことである。
この課題を克服するため,解答者の探索範囲を拡大する従来の取り組みから切り離して,熱拡散による解答者への情報伝達を積極的に行うことに注力した。
目標関数を最適に保ちながら変換することにより、熱拡散は、遠隔地からソルバへの情報流を容易にし、より効率的なナビゲーションを提供する。
熱拡散を利用して、一般的な組合せ最適化問題を解くための枠組みを提案する。
提案手法は、最も困難で広く遭遇する組合せ最適化の範囲で優れた性能を示す。
生成人工知能に熱力学を応用した最近の進歩を振り返って, 組合せ最適化の進歩におけるその大きな可能性を明らかにした。
Combinatorial optimization problems are widespread but inherently challenging due to their discrete nature.The primary limitation of existing methods is that they can only access a small fraction of the solution space at each iteration, resulting in limited efficiency for searching the global optimal. To overcome this challenge, diverging from conventional efforts of expanding the solver's search scope, we focus on enabling information to actively propagate to the solver through heat diffusion. By transforming the target function while preserving its optima, heat diffusion facilitates information flow from distant regions to the solver, providing more efficient navigation. Utilizing heat diffusion, we propose a framework for solving general combinatorial optimization problems. The proposed methodology demonstrates superior performance across a range of the most challenging and widely encountered combinatorial optimizations. Echoing recent advancements in harnessing thermodynamics for generative artificial intelligence, our study further reveals its significant potential in advancing combinatorial optimization. | 翻訳日:2024-03-14 13:07:13 公開日:2024-03-13 |
# DAM: 連続ビデオQA学習のための動的アダプタマージ
DAM: Dynamic Adapter Merging for Continual Video QA Learning ( http://arxiv.org/abs/2403.08755v1 ) ライセンス: Link先を確認 | Feng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas Bertasius | (参考訳) 連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
DAMと名付けられた本手法では,動的アダプタマージ方式を提案する。
一 破滅的な忘れを和らげる
(ii) 継続的に到着するデータセットへの効率的な適応を可能にする。
三 推論中に未知のデータセットからの入力を処理し、
(iv)類似のデータセットドメイン間の知識共有を可能にする。
VidQAデータセットを継続的にストリーミングすると、データセットごとにデータセット固有のアダプタを順次トレーニングし、トレーニング済みの大規模なビデオ言語バックボーンのパラメータを凍結します。
提案手法は,未知領域からのビデオ検索サンプルを推定する際に,まず提案した非パラメトリックルータ関数を用いて各アダプタの確率を計算し,そのアダプタが現在のビデオ検索入力インスタンスとどの程度関係があるかを考察する。
その後、提案した動的アダプタマージスキームは、全てのアダプタ重みを特定のテストサンプルに適した新しいアダプタインスタンスに集約し、最終的なVidQA予測を計算し、不正確なルータ予測の影響を緩和し、ドメイン間の知識共有を容易にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
さらにDAMを連続的な画像分類と画像QAに拡張し、先行手法よりも大きなマージンで性能を向上する。
コードは、https://github.com/klauscc/DAMで公開されている。
We present a parameter-efficient method for continual video question-answering (VidQA) learning. Our method, named DAM, uses the proposed Dynamic Adapter Merging to (i) mitigate catastrophic forgetting, (ii) enable efficient adaptation to continually arriving datasets, (iii) handle inputs from unknown datasets during inference, and (iv) enable knowledge sharing across similar dataset domains. Given a set of continually streaming VidQA datasets, we sequentially train dataset-specific adapters for each dataset while freezing the parameters of a large pretrained video-language backbone. During inference, given a video-question sample from an unknown domain, our method first uses the proposed non-parametric router function to compute a probability for each adapter, reflecting how relevant that adapter is to the current video-question input instance. Subsequently, the proposed dynamic adapter merging scheme aggregates all the adapter weights into a new adapter instance tailored for that particular test sample to compute the final VidQA prediction, mitigating the impact of inaccurate router predictions and facilitating knowledge sharing across domains. Our DAM model outperforms prior state-of-the-art continual learning approaches by 9.1% while exhibiting 1.9% less forgetting on 6 VidQA datasets spanning various domains. We further extend DAM to continual image classification and image QA and outperform prior methods by a large margin. The code is publicly available at: https://github.com/klauscc/DAM | 翻訳日:2024-03-14 13:07:13 公開日:2024-03-13 |
# 神経再生核バナッハ空間と表現定理
ディープ・ネットワーク
Neural reproducing kernel Banach spaces and representer theorems for deep networks ( http://arxiv.org/abs/2403.08750v1 ) ライセンス: Link先を確認 | Francesca Bartolucci, Ernesto De Vito, Lorenzo Rosasco, Stefano Vigogna | (参考訳) ニューラルネットワークによって定義される関数空間の研究は、対応する学習モデルとその帰納バイアスを理解するのに役立つ。
ある極限において、ニューラルネットワークはカーネルヒルベルト空間を再現する関数空間に対応するが、これらのレジームは実際に使用されるネットワークの性質を捉えない。
対照的に、深層ニューラルネットワークは、適切な再生カーネルバナッハ空間を定義する。
これらの空間は間隔の形式を強制するノルムを備えており、入力データとその表現内の潜在的潜在構造に適応することができる。
特に、再現されたカーネルバナッハ空間の理論と変分結果を組み合わせることで、アプリケーションでよく用いられる有限アーキテクチャを正当化する代表者定理を導出する。
我々の研究は、浅いネットワークに対する類似の結果を拡張し、より実用的なニューラルネットワークアーキテクチャを考えるためのステップと見なすことができる。
Studying the function spaces defined by neural networks helps to understand the corresponding learning models and their inductive bias. While in some limits neural networks correspond to function spaces that are reproducing kernel Hilbert spaces, these regimes do not capture the properties of the networks used in practice. In contrast, in this paper we show that deep neural networks define suitable reproducing kernel Banach spaces. These spaces are equipped with norms that enforce a form of sparsity, enabling them to adapt to potential latent structures within the input data and their representations. In particular, leveraging the theory of reproducing kernel Banach spaces, combined with variational results, we derive representer theorems that justify the finite architectures commonly employed in applications. Our study extends analogous results for shallow networks and can be seen as a step towards considering more practically plausible neural architectures. | 翻訳日:2024-03-14 13:07:12 公開日:2024-03-13 |
# 高度加速術における難治性拡散再建術
心臓洞MRI
Clinically Feasible Diffusion Reconstruction for Highly-Accelerated Cardiac Cine MRI ( http://arxiv.org/abs/2403.08749v1 ) ライセンス: Link先を確認 | Shihan Qiu, Shaoyan Pan, Yikang Liu, Lin Zhao, Jian Xu, Qi Liu, Terrence Chen, Eric Z. Chen, Xiao Chen, Shanhui Sun | (参考訳) 現在、加速された心血管再建の質は、新しい拡散モデルによって改善される可能性があるが、臨床上許容できない長い処理時間が課題となる。
我々は,シネMRIの画質を向上させるために,臨床応用可能な拡散モデルに基づく再建パイプラインを開発することを目的とする。
マルチインマルチアウト拡散促進モデルと高速推論戦略を併用して, 再構成モデルと併用する手法を開発した。
拡散再建は, 有意なアンサンプによる臨床データにおいて, 空間的, 時間的ぼやけを低減し, 専門家の検査で検証した。
ビデオ処理時間当たり1.5秒は、臨床シナリオに適用できる。
The currently limited quality of accelerated cardiac cine reconstruction may potentially be improved by the emerging diffusion models, but the clinically unacceptable long processing time poses a challenge. We aim to develop a clinically feasible diffusion-model-based reconstruction pipeline to improve the image quality of cine MRI. A multi-in multi-out diffusion enhancement model together with fast inference strategies were developed to be used in conjunction with a reconstruction model. The diffusion reconstruction reduced spatial and temporal blurring in prospectively undersampled clinical data, as validated by experts inspection. The 1.5s per video processing time enabled the approach to be applied in clinical scenarios. | 翻訳日:2024-03-14 13:07:12 公開日:2024-03-13 |
# 自動運転車のリアルタイム3次元セマンティック占有予測
メモリ効率の良いスパース畳み込み
Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution ( http://arxiv.org/abs/2403.08748v1 ) ライセンス: Link先を確認 | Samuel Sze and Lars Kunze | (参考訳) 自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。
幾何学的距離と意味オブジェクト情報をエンコードしながらシーンを表現するためのコンパクトな方法は、3Dセマンティック占有マップを経由する。
State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。
しかし、これらの手法は、推論中の高い計算要求のため、リアルタイムアプリケーションにおいて重大な課題に遭遇する。
この制限は、GPUリソースをローカライズや計画といった他のタスクと共有する必要がある自動運転車において特に問題となる。
本稿では,正面2次元カメラ画像とLiDARスキャンから特徴を抽出し,スパース畳み込みネットワーク(Minkowski Engine)を用いて3次元セマンティック占有予測を行う手法を提案する。
自律運転シナリオの屋外シーンは本質的にスパースであるため、スパースコンボリューションの利用は特に適している。
スパースシーンの3次元シーン補完と3次元セマンティックセグメンテーションの問題を共同で解決することにより、自動運転車のリアルタイムアプリケーションに適した、より効率的な学習フレームワークを提供する。
また、nuScenesデータセット上での競合精度も示す。
In autonomous vehicles, understanding the surrounding 3D environment of the ego vehicle in real-time is essential. A compact way to represent scenes while encoding geometric distances and semantic object information is via 3D semantic occupancy maps. State of the art 3D mapping methods leverage transformers with cross-attention mechanisms to elevate 2D vision-centric camera features into the 3D domain. However, these methods encounter significant challenges in real-time applications due to their high computational demands during inference. This limitation is particularly problematic in autonomous vehicles, where GPU resources must be shared with other tasks such as localization and planning. In this paper, we introduce an approach that extracts features from front-view 2D camera images and LiDAR scans, then employs a sparse convolution network (Minkowski Engine), for 3D semantic occupancy prediction. Given that outdoor scenes in autonomous driving scenarios are inherently sparse, the utilization of sparse convolution is particularly apt. By jointly solving the problems of 3D scene completion of sparse scenes and 3D semantic segmentation, we provide a more efficient learning framework suitable for real-time applications in autonomous vehicles. We also demonstrate competitive accuracy on the nuScenes dataset. | 翻訳日:2024-03-14 13:07:11 公開日:2024-03-13 |
# iCONTRA:インタラクティブなコンセプトによるテーマコレクションデザインを目指して
移転
iCONTRA: Toward Thematic Collection Design Via Interactive Concept Transfer ( http://arxiv.org/abs/2403.08746v1 ) ライセンス: Link先を確認 | Dinh-Khoi Vo, Duy-Nam Ly, Khanh-Duy Le, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le | (参考訳) 産業における主題的コレクションを作るには、革新的なデザインと結束的な概念が必要である。
デザイナーは、既存のオブジェクト、ランドスケープ、アーティファクトからインスピレーションを得る際に、テーマの一貫性を維持することの課題に直面します。
AIを使ったグラフィックデザインツールは助けを提供するが、特定のテーマの概念に基づいて結束集合を生成するのに失敗することが多い。
そこで本研究では,対話型Concept TRAnsferシステムであるiCONTRAを紹介する。
iCONTRAは、ユーザフレンドリーなインターフェースにより、経験豊富なデザイナーと初心者の両方が、創造的なデザイン概念を熱心に探求し、テーマコレクションを効率的に生成することを可能にする。
また、ゼロショット画像編集アルゴリズムを提案し、微調整モデルの必要性を排除し、初期オブジェクトからの情報を徐々に統合し、背景に影響を与えることなく生成プロセスにおける一貫性を確保する。
パイロット研究は、iCONTRAがデザイナーの努力を減らす可能性を示唆している。
実験結果から,一貫した高品質なオブジェクト・コンセプト・トランスファーの創出の有効性が示された。
iCONTRAは、テーマのコレクションデザインにおける革新と創造的な探索のための有望なツールである。
ソースコードは、https://github.com/vdkhoi20/iCONTRA.comから入手できる。
Creating thematic collections in industries demands innovative designs and cohesive concepts. Designers may face challenges in maintaining thematic consistency when drawing inspiration from existing objects, landscapes, or artifacts. While AI-powered graphic design tools offer help, they often fail to generate cohesive sets based on specific thematic concepts. In response, we introduce iCONTRA, an interactive CONcept TRAnsfer system. With a user-friendly interface, iCONTRA enables both experienced designers and novices to effortlessly explore creative design concepts and efficiently generate thematic collections. We also propose a zero-shot image editing algorithm, eliminating the need for fine-tuning models, which gradually integrates information from initial objects, ensuring consistency in the generation process without influencing the background. A pilot study suggests iCONTRA's potential to reduce designers' efforts. Experimental results demonstrate its effectiveness in producing consistent and high-quality object concept transfers. iCONTRA stands as a promising tool for innovation and creative exploration in thematic collection design. The source code will be available at: https://github.com/vdkhoi20/iCONTRA. | 翻訳日:2024-03-14 13:07:11 公開日:2024-03-13 |
# 偏りのない反応に向けたLCMのステアリング:因果性誘導型デバイアス
枠組み
Steering LLMs Towards Unbiased Responses: A Causality-Guided Debiasing Framework ( http://arxiv.org/abs/2403.08743v1 ) ライセンス: Link先を確認 | Jingling Li, Zeyu Tang, Xiaoyu Liu, Peter Spirtes, Kun Zhang, Liu Leqi, Yang Liu | (参考訳) 大規模言語モデル(LLM)はバイアスや差別的な応答を容易に生成できる。
LLMは、連続的な意思決定(雇用や医療など)を取り入れているため、これらのバイアスを軽減するための戦略を開発することが重要である。
本稿では,人口統計情報とLCMのアウトプットの関連性に着目し,社会的偏見に着目した。
本稿では,(1) LLMに供給されるトレーニングコーパスのデータ生成過程と(2) LLM推論の内部推論プロセスの因果的理解を利用して, LLM出力の偏りを除去するプロンプトの設計を導く因果性誘導型脱バイアスフレームワークを提案する。
本フレームワークは,既存脱バイアスの抑制的指示やコンテクスト内コントラスト的例などのアプローチを統一し,バイアスのない推論を奨励することによって,新たな脱バイアスの方法に光を当てる。
実世界のデータセット上での強い経験的パフォーマンスは、ブラックボックスアクセスのみであっても、私たちのフレームワークがLCM出力のデバイアスに関する原則的なガイドラインを提供することを示している。
Large language models (LLMs) can easily generate biased and discriminative responses. As LLMs tap into consequential decision-making (e.g., hiring and healthcare), it is of crucial importance to develop strategies to mitigate these biases. This paper focuses on social bias, tackling the association between demographic information and LLM outputs. We propose a causality-guided debiasing framework that utilizes causal understandings of (1) the data-generating process of the training corpus fed to LLMs, and (2) the internal reasoning process of LLM inference, to guide the design of prompts for debiasing LLM outputs through selection mechanisms. Our framework unifies existing de-biasing prompting approaches such as inhibitive instructions and in-context contrastive examples, and sheds light on new ways of debiasing by encouraging bias-free reasoning. Our strong empirical performance on real-world datasets demonstrates that our framework provides principled guidelines on debiasing LLM outputs even with only the black-box access. | 翻訳日:2024-03-14 13:07:10 公開日:2024-03-13 |
# ストロンチウム結合Rydberg状態の多チャンネル量子欠陥理論
Multichannel quantum defect theory of strontium bound Rydberg states ( http://arxiv.org/abs/2403.08742v1 ) ライセンス: Link先を確認 | C. L. Vaillant, M. P. A. Jones and R. M. Potvliege | (参考訳) 新規に算出されたマルチチャネル量子欠陥理論パラメータとチャネル分画を、ストロンチウムの1重項および3重項S,P,D系列および1重項F系列に対して提示する。
これらの結果は、Vayllant C L, Jones M P A および Potvliege R M 2014 J. Phys で報告されているものを修正した。
B: です。
Mol
Opt
Phys
47 155001
Newly calculated multichannel quantum defect theory parameters and channel fractions are presented for the singlet and triplet S, P and D series and singlet F series of strontium. These results correct those reported in Vaillant C L, Jones M P A and Potvliege R M 2014 J. Phys. B: At. Mol. Opt. Phys. 47 155001. | 翻訳日:2024-03-14 13:07:10 公開日:2024-03-13 |
# 情報を戦略的に開示する方法を学ぶ
Learning How to Strategically Disclose Information ( http://arxiv.org/abs/2403.08741v1 ) ライセンス: Link先を確認 | Raj Kiriti Velicheti, Melih Bastopcu, S. Rasoul Etesami, Tamer Ba\c{s}ar | (参考訳) 戦略的情報開示は、最も単純な形式で、情報受信者が興味を持っているプライベート情報にアクセス可能な情報提供者(ベンダー)間のゲームを考える。
受信機は両方のプレイヤーの効用に影響を与えるアクションを取るが、送信機は信号のコミットメントを通じて受信機の情報(または信条の変更)を設計できるため、スタックルバーグゲームを使用する。
しかし、このゲームのスタックルバーグ均衡を得るには、伝統的に送信側は受信者の目的にアクセスできる必要がある。
本研究では,各ラウンドで反対に選択された未知のタイプの受信機と送信者が対話するオンライン情報設計について考察する。
送信者および受信者に対するガウス的事前及び二次的コストの制限により,$\mathcal{O}(\sqrt{T})$ regretが完全な情報フィードバックによって達成可能であることを示す。
さらに,一般凸効用関数に対する$\mathcal{O}(\sqrt{T})$ regret を実現するための新しいパラメトリゼーションを提案する。
次に、目的関数のさらなるコスト項でベイズ的説得問題を考察し、より情報的なシグナルポリシーをペナルティ化し、$\mathcal{O}(\log(T))$ regretを得る。
最後に,部分的な情報フィードバック設定のためのサブ線形後悔境界を確立し,理論的結果を支援するためのシミュレーションを行う。
Strategic information disclosure, in its simplest form, considers a game between an information provider (sender) who has access to some private information that an information receiver is interested in. While the receiver takes an action that affects the utilities of both players, the sender can design information (or modify beliefs) of the receiver through signal commitment, hence posing a Stackelberg game. However, obtaining a Stackelberg equilibrium for this game traditionally requires the sender to have access to the receiver's objective. In this work, we consider an online version of information design where a sender interacts with a receiver of an unknown type who is adversarially chosen at each round. Restricting attention to Gaussian prior and quadratic costs for the sender and the receiver, we show that $\mathcal{O}(\sqrt{T})$ regret is achievable with full information feedback, where $T$ is the total number of interactions between the sender and the receiver. Further, we propose a novel parametrization that allows the sender to achieve $\mathcal{O}(\sqrt{T})$ regret for a general convex utility function. We then consider the Bayesian Persuasion problem with an additional cost term in the objective function, which penalizes signaling policies that are more informative and obtain $\mathcal{O}(\log(T))$ regret. Finally, we establish a sublinear regret bound for the partial information feedback setting and provide simulations to support our theoretical results. | 翻訳日:2024-03-14 13:07:09 公開日:2024-03-13 |
# フォークパスの庭:動的パラメータ分布の観察
大規模言語モデルにおいて
The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models ( http://arxiv.org/abs/2403.08739v1 ) ライセンス: Link先を確認 | Carlo Nicolini, Jacopo Staiano, Bruno Lepri, Raffaele Marino | (参考訳) NLPにおけるTransformerアーキテクチャの例外的なパフォーマンスの背景にある理由を理解する上で、大きなギャップが続いている。
特に探索されていない領域では、トレーニング中にパラメータの分布が時間とともにどのように進化するかを機械論的に記述する。
本研究では,モデルパラメータの統計分布の時間的発展,特に分岐効果を考察することにより,モデル品質の理解,トレーニングコストの削減,評価努力の削減,および重みの分散効果の背景にある理由を実証的に示すことを提案する。
A substantial gap persists in understanding the reasons behind the exceptional performance of the Transformer architecture in NLP. A particularly unexplored area involves the mechanistic description of how the distribution of parameters evolves over time during training. In this work we suggest that looking at the time evolution of the statistic distribution of model parameters, and specifically at bifurcation effects, can help understanding the model quality, potentially reducing training costs and evaluation efforts and empirically showing the reasons behind the effectiveness of weights sparsification. | 翻訳日:2024-03-14 13:07:09 公開日:2024-03-13 |
# 対応学習による音響単語埋め込みの改善
自己教師型音声表現
Improving Acoustic Word Embeddings through Correspondence Training of Self-supervised Speech Representations ( http://arxiv.org/abs/2403.08738v1 ) ライセンス: Link先を確認 | Amit Meghanani and Thomas Hain | (参考訳) 音響単語埋め込み(AWEs)は、音声のベクトル表現である。
AWEsを得るための効果的な方法は、対応オートエンコーダ(CAE)である。
過去には、CAE法は従来のMFCCの特徴と関連付けられてきた。
HuBERTやWav2vec2といった自己教師型学習(SSL)ベースの音声モデルから得られた表現は、多くの下流タスクにおいてMFCCを上回っている。
しかし、これらはAWEの学習の文脈ではあまり研究されていない。
本研究は、改良されたAWEを得るために、SSLベースの音声表現を用いたCAEの有効性について検討する。
さらに、SSLベースの音声モデルの能力は、AWEを得るための言語横断シナリオで探索される。
実験はポーランド語、ポルトガル語、スペイン語、フランス語、英語の5言語で行われる。
HuBERTベースのCAEモデルは、Hu-BERTが英語のみで事前訓練されているにもかかわらず、すべての言語で単語識別の最良の結果を得る。
また、HuBERTベースのCAEモデルは、言語間設定でうまく機能する。
1つのソース言語でトレーニングし、ターゲット言語でテストする場合、MFCCベースのCAEモデルよりも優れています。
Acoustic word embeddings (AWEs) are vector representations of spoken words. An effective method for obtaining AWEs is the Correspondence Auto-Encoder (CAE). In the past, the CAE method has been associated with traditional MFCC features. Representations obtained from self-supervised learning (SSL)-based speech models such as HuBERT, Wav2vec2, etc., are outperforming MFCC in many downstream tasks. However, they have not been well studied in the context of learning AWEs. This work explores the effectiveness of CAE with SSL-based speech representations to obtain improved AWEs. Additionally, the capabilities of SSL-based speech models are explored in cross-lingual scenarios for obtaining AWEs. Experiments are conducted on five languages: Polish, Portuguese, Spanish, French, and English. HuBERT-based CAE model achieves the best results for word discrimination in all languages, despite Hu-BERT being pre-trained on English only. Also, the HuBERT-based CAE model works well in cross-lingual settings. It outperforms MFCC-based CAE models trained on the target languages when trained on one source language and tested on target languages. | 翻訳日:2024-03-14 13:07:08 公開日:2024-03-13 |
# ILCiteR:Evidence-grounded Interpretable Local Citation Recommendation
ILCiteR: Evidence-grounded Interpretable Local Citation Recommendation ( http://arxiv.org/abs/2403.08737v1 ) ライセンス: Link先を確認 | Sayar Ghosh Roy, Jiawei Han | (参考訳) 既存の機械学習アプローチは、ローカル引用レコメンデーションを直接、クレームまたはエンティティの言及であるクエリを、引用に値する研究論文にマップまたは翻訳する。
このような定式化の中で、特定のクエリに対して特定の研究論文を引用すべき理由を特定することは困難であり、リコメンデーションの解釈可能性に制限がある。
そこで本稿では,特定の論文を推薦するエビデンスを対象とする局所引用推薦タスクについて紹介する。
提案システムであるICCiteRは,遠隔監視型エビデンス検索と多段階再評価の枠組みを用いて,既存の研究文献から抽出した類似のエビデンスに基づくクエリを引用する論文を推奨する。
単にレコメンデーションを出力する過去の定式化とは異なり、ICCiteRはエビデンスのリストとレコメンデーションペーパーのペアを検索する。
第二に、これまで提案されていた引用レコメンデーションのためのニューラルモデルでは、候補論文のプールに重要な更新が行われるたびに、大量のラベル付きデータに対する高価なトレーニングが必要である。
対照的に、ICCiteRは、モデルトレーニングなしで動的エビデンスデータベースと事前訓練されたトランスフォーマーベースの言語モデルからの遠方の監督にのみ依存している。
本研究では,エビデンスに基づく局所的引用推薦タスクのための新しいデータセットを提供し,提案手法の有効性を実証する。
Existing Machine Learning approaches for local citation recommendation directly map or translate a query, which is typically a claim or an entity mention, to citation-worthy research papers. Within such a formulation, it is challenging to pinpoint why one should cite a specific research paper for a particular query, leading to limited recommendation interpretability. To alleviate this, we introduce the evidence-grounded local citation recommendation task, where the target latent space comprises evidence spans for recommending specific papers. Using a distantly-supervised evidence retrieval and multi-step re-ranking framework, our proposed system, ILCiteR, recommends papers to cite for a query grounded on similar evidence spans extracted from the existing research literature. Unlike past formulations that simply output recommendations, ILCiteR retrieves ranked lists of evidence span and recommended paper pairs. Secondly, previously proposed neural models for citation recommendation require expensive training on massive labeled data, ideally after every significant update to the pool of candidate papers. In contrast, ILCiteR relies solely on distant supervision from a dynamic evidence database and pre-trained Transformer-based Language Models without any model training. We contribute a novel dataset for the evidence-grounded local citation recommendation task and demonstrate the efficacy of our proposed conditional neural rank-ensembling approach for re-ranking evidence spans. | 翻訳日:2024-03-14 13:07:08 公開日:2024-03-13 |
# GaussCtrl: テキスト駆動型3Dガウス分割
編集
GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing ( http://arxiv.org/abs/2403.08733v1 ) ライセンス: Link先を確認 | Jing Wu, Jia-Wang Bian, Xinghui Li, Guangrun Wang, Ian Reid, Philip Torr, Victor Adrian Prisacariu | (参考訳) 本稿では,3Dガウススティング(3DGS)によって再構成された3Dシーンをテキスト駆動で編集するGussCtrlを提案する。
まず3DGSを用いて画像の集合をレンダリングし、入力プロンプトに基づいて事前学習した2D拡散モデル(ControlNet)を用いて編集し、3Dモデルを最適化する。
これにより、以前のように3Dモデルを更新しながら、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集することが可能になる。
これにより、より高速な編集が可能となり、視覚的品質も向上する。
これは2つの条件によって達成される。
(a)自然に一貫した深度マップを活用することにより、多視点画像間の幾何的整合性を実現する深度条件付き編集。
(b)注目に基づく遅延コードアライメントは、画像の潜在表現間の自己および横断的な注目を通して、複数の参照ビューに編集を条件付けることにより、編集画像の外観を統一する。
実験により,従来の最先端手法よりも高速な編集と視覚効果が得られた。
We propose GaussCtrl, a text-driven method to edit a 3D scene reconstructed by the 3D Gaussian Splatting (3DGS). Our method first renders a collection of images by using the 3DGS and edits them by using a pre-trained 2D diffusion model (ControlNet) based on the input prompt, which is then used to optimise the 3D model. Our key contribution is multi-view consistent editing, which enables editing all images together instead of iteratively editing one image while updating the 3D model as in previous works. It leads to faster editing as well as higher visual quality. This is achieved by the two terms: (a) depth-conditioned editing that enforces geometric consistency across multi-view images by leveraging naturally consistent depth maps. (b) attention-based latent code alignment that unifies the appearance of edited images by conditioning their editing to several reference views through self and cross-view attention between images' latent representations. Experiments demonstrate that our method achieves faster editing and better visual results than previous state-of-the-art methods. | 翻訳日:2024-03-14 13:07:07 公開日:2024-03-13 |
# ダイヤモンドを用いたマイクロファブリケート表面イオントラップの欠陥局在
窒素空洞磁力計
Fault Localization in a Microfabricated Surface Ion Trap using Diamond Nitrogen-Vacancy Center Magnetometry ( http://arxiv.org/abs/2403.08731v1 ) ライセンス: Link先を確認 | Pauli Kehayias, Matthew A. Delaney, Raymond A. Haltli, Susan M. Clark, Melissa C. Revelle, Andrew M. Mounce | (参考訳) 量子コンピューティングのハードウェアが、進行中の設計革新や能力の増大と共に複雑化するにつれ、量子コンピューティングコミュニティは、製造失敗の根本原因分析のための、ますます強力な技術を必要としている。
これは特に閉じ込められたイオン量子コンピューティングに当てはまる。
閉じ込められたイオン量子コンピューティングが数千のイオンにスケールすることを目的としているため、電極番号は数百に増加し、統合されたフォトニックなコンポーネントは電気と製造の複雑さを増し、故障の発見をさらに困難にしている。
本研究では,ダイヤモンド中の窒素空孔(NV)中心をベースとした高分解能量子磁気イメージング技術を用いて,イオントラップチップの短絡欠陥を解析した。
これらの短絡断層から地中への電流を意図的に生成した断層と比較したところ、断層の根本原因はオンチップトレンチコンデンサの故障であることがわかった。
この研究は、量子センシング技術の性能上の利点を利用して量子コンピューティングのハードウェアをトラブルシュートし、新しい量子技術間の相乗効果を進化させ、これまでアクセス不能だった能力を実現するというユニークな例である。
As quantum computing hardware becomes more complex with ongoing design innovations and growing capabilities, the quantum computing community needs increasingly powerful techniques for fabrication failure root-cause analysis. This is especially true for trapped-ion quantum computing. As trapped-ion quantum computing aims to scale to thousands of ions, the electrode numbers are growing to several hundred with likely integrated-photonic components also adding to the electrical and fabrication complexity, making faults even harder to locate. In this work, we used a high-resolution quantum magnetic imaging technique, based on nitrogen-vacancy (NV) centers in diamond, to investigate short-circuit faults in an ion trap chip. We imaged currents from these short-circuit faults to ground and compared to intentionally-created faults, finding that the root-cause of the faults was failures in the on-chip trench capacitors. This work, where we exploited the performance advantages of a quantum magnetic sensing technique to troubleshoot a piece of quantum computing hardware, is a unique example of the evolving synergy between emerging quantum technologies to achieve capabilities that were previously inaccessible. | 翻訳日:2024-03-14 13:07:06 公開日:2024-03-13 |
# ブートストラップを用いたマルチモーダル大言語モデルの強化
選好最適化
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization ( http://arxiv.org/abs/2403.08730v1 ) ライセンス: Link先を確認 | Renjie Pi, Tianyang Han, Wei Xiong, Jipeng Zhang, Runtao Liu, Rui Pan, Tong Zhang | (参考訳) MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
しかし、彼らはしばしば、事前学習したコーパスと同様の反応を生じさせ、視覚情報の重要性を誇示するバイアスに悩まされる。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
この問題を緩和するために、モデル自体からブートストラップされた負の応答を含むデータセットを用いて好みの学習を行うBootstrapped Preference Optimization (BPO)を提案する。
具体的には,以下の2つの戦略を提案する。
1) MLLMへの歪み画像入力を用いて,有意な事前学習バイアスを含む応答を抽出する。
2) テキストベースの LLM を利用して, 誤ったが共通な要素を元の応答に明示的に注入する。
これらの望ましくない応答は、データセットからのオリジナルの注釈付き応答とペアになって、好みのデータセットを構築し、その後、好みの学習を実行するために使用される。
提案手法は,事前学習したLLMバイアスを効果的に抑制し,視覚入力のグラウンド化を向上する。
大規模な実験により、複数のベンチマークで大幅な性能向上が示され、マルチモーダルな会話システムにおける最先端技術が進歩した。
Multimodal Large Language Models (MLLMs) excel in generating responses based on visual inputs. However, they often suffer from a bias towards generating responses similar to their pretraining corpus, overshadowing the importance of visual information. We treat this bias as a "preference" for pretraining statistics, which hinders the model's grounding in visual input. To mitigate this issue, we propose Bootstrapped Preference Optimization (BPO), which conducts preference learning with datasets containing negative responses bootstrapped from the model itself. Specifically, we propose the following two strategies: 1) using distorted image inputs to the MLLM for eliciting responses that contain signified pretraining bias; 2) leveraging text-based LLM to explicitly inject erroneous but common elements into the original response. Those undesirable responses are paired with original annotated responses from the datasets to construct the preference dataset, which is subsequently utilized to perform preference learning. Our approach effectively suppresses pretrained LLM bias, enabling enhanced grounding in visual inputs. Extensive experimentation demonstrates significant performance improvements across multiple benchmarks, advancing the state-of-the-art in multimodal conversational systems. | 翻訳日:2024-03-14 13:07:06 公開日:2024-03-13 |
# 時間依存的ハミルトニアンシミュレーションの有用性と実用性
product formulas
Efficient and practical Hamiltonian simulation from time-dependent product formulas ( http://arxiv.org/abs/2403.08729v1 ) ライセンス: Link先を確認 | Jan Lukas Bosse and Andrew M. Childs and Charles Derby and Filippo Maria Gambetta and Ashley Montanaro and Raul A. Santos | (参考訳) 本研究では,製品公式を用いた量子システムの時間進化手法を提案する。
私たちが開発している量子アルゴリズムは、エネルギースケールの異なるハミルトン式(すなわち、一方が「大きい」、もう一方が「小さい」)によって進化が決定されるシステムに対して、よく知られたトロッターの公式の単純適用よりも、(ゲートの複雑さと回路深さの点で)確実に優れたスケーリングを持つ。
我々のアルゴリズムは、進化演算子を量子コンピュータ上で直接実装可能な単純なユニタリの積に分解する。
理論的スケーリングは最先端のアルゴリズム(例えば量子信号処理)と比較すると最適ではないが、我々が提案するアルゴリズムの性能は実際に非常に競争力がある。
いくつかのモデルに対する広範な数値シミュレーションを通してこれを解説する。
例えば、1次元横フィールドイジングモデルの強磁場状態において、我々のアルゴリズムは、標準的なトロッター式と比較して1000の任意の2ビットゲートの固定予算でシミュレートできるシステムサイズと進化時間の両方において、一桁の精度向上を実現している。
In this work we propose an approach for implementing time-evolution of a quantum system using product formulas. The quantum algorithms we develop have provably better scaling (in terms of gate complexity and circuit depth) than a naive application of well-known Trotter formulas, for systems where the evolution is determined by a Hamiltonian with different energy scales (i.e., one part is "large" and another part is "small"). Our algorithms generate a decomposition of the evolution operator into a product of simple unitaries that are directly implementable on a quantum computer. Although the theoretical scaling is suboptimal compared with state-of-the-art algorithms (e.g., quantum signal processing), the performance of the algorithms we propose is highly competitive in practice. We illustrate this via extensive numerical simulations for several models. For instance, in the strong-field regime of the 1D transverse-field Ising model, our algorithms achieve an improvement of one order of magnitude in both the system size and evolution time that can be simulated with a fixed budget of 1000 arbitrary 2-qubit gates, compared with standard Trotter formulas. | 翻訳日:2024-03-14 13:07:05 公開日:2024-03-13 |
# Ambient Diffusion Posterior Smpling:solving inverse Problems with the Smpling (特集 バイオサイバネティックスとバイオサイバネティックス)
崩壊データに基づく拡散モデル
Ambient Diffusion Posterior Sampling: Solving Inverse Problems with Diffusion Models trained on Corrupted Data ( http://arxiv.org/abs/2403.08728v1 ) ライセンス: Link先を確認 | Asad Aali and Giannis Daras, Brett Levac, Sidharth Kumar, Alexandros G. Dimakis, Jonathan I. Tamir | (参考訳) 線形に破損したデータから学習した拡散モデルを用いて逆問題を解決するためのフレームワークを提供する。
A-DPS(Ambient Diffusion Posterior Smpling)は,1種類の腐敗(eg画像の塗布)に事前学習した生成モデルを用いて,潜在的に異なる前処理(eg画像のぼかし)から測定した後続サンプリング条件を実行する。
我々は, 標準的な自然画像データセット(CelebA, FFHQ, AFHQ)に対するアプローチの有効性を検証するとともに, A-DPSは, 速度と性能の両方において, 複数の画像復元タスクに対して, クリーンなデータで訓練されたモデルよりも優れていることを示す。
我々はさらに、Ambient Diffusion frameworkを拡張して、FourierサブサンプルのマルチコイルMRI測定(R=2, 4, 6, 8)にのみアクセス可能なMRIモデルを訓練する。
また,高サブサンプリングデータに基づいてトレーニングしたモデルの方が,完全サンプルデータでトレーニングしたモデルよりも,高加速度状態における逆問題の解決に先行していることも確認した。
私たちはコードとトレーニング済みのAmbient Diffusion MRIモデルをオープンソースにしています。
We provide a framework for solving inverse problems with diffusion models learned from linearly corrupted data. Our method, Ambient Diffusion Posterior Sampling (A-DPS), leverages a generative model pre-trained on one type of corruption (e.g. image inpainting) to perform posterior sampling conditioned on measurements from a potentially different forward process (e.g. image blurring). We test the efficacy of our approach on standard natural image datasets (CelebA, FFHQ, and AFHQ) and we show that A-DPS can sometimes outperform models trained on clean data for several image restoration tasks in both speed and performance. We further extend the Ambient Diffusion framework to train MRI models with access only to Fourier subsampled multi-coil MRI measurements at various acceleration factors (R=2, 4, 6, 8). We again observe that models trained on highly subsampled data are better priors for solving inverse problems in the high acceleration regime than models trained on fully sampled data. We open-source our code and the trained Ambient Diffusion MRI models: https://github.com/utcsilab/ambient-diffusion-mri . | 翻訳日:2024-03-14 13:07:05 公開日:2024-03-13 |
# Stabilizer Tensor Networks: ユニバーサル量子シミュレーター
スタビライザー状態
Stabilizer Tensor Networks: universal quantum simulator on a basis of stabilizer states ( http://arxiv.org/abs/2403.08724v1 ) ライセンス: Link先を確認 | Sergi Masot-Llima, Artur Garcia-Saez | (参考訳) 量子コンピュータの効率的なシミュレーションは、量子状態の性質の理解と活用に依存している。
これは、絡み合いに基づくテンソルネットワーク(英語版)や安定化状態を表すテーブルー形式(英語版)のような手法のケースである。
本研究では、これらの2つの手法を統合し、クリフォード回路シミュレーションに使用される表形式を一般化する。
我々は、クリフォードゲート、非クリフォードゲート、および測定を用いてフォーマリズムを更新する方法を明確に証明し、普遍回路シミュレーションを可能にする。
また、このフレームワークがより多くの状態の効率的なシミュレーションを可能にし、テンソルネットワークの表現力や、絡み合いや魔法のようなリソースの量子的性質に関する興味深い疑問を提起し、シミュレーションによるクレームの支持についても論じる。
Efficient simulation of quantum computers relies on understanding and exploiting the properties of quantum states. This is the case for methods such as tensor networks, based on entanglement, and the tableau formalism, which represents stabilizer states. In this work, we integrate these two approaches to present a generalization of the tableau formalism used for Clifford circuit simulation. We explicitly prove how to update our formalism with Clifford gates, non-Clifford gates, and measurements, enabling universal circuit simulation. We also discuss how the framework allows for efficient simulation of more states, raising some interesting questions on the representation power of tensor networks and the quantum properties of resources such as entanglement and magic, and support our claims with simulations. | 翻訳日:2024-03-14 13:07:04 公開日:2024-03-13 |
# 幾何学的プリミティブにおける歴史的天文学的ダイアグラムの分解
Historical Astronomical Diagrams Decomposition in Geometric Primitives ( http://arxiv.org/abs/2403.08721v1 ) ライセンス: Link先を確認 | Syrine Kalleli, Scott Trigg, S\'egol\`ene Albouy, Mathieu Husson, and Mathieu Aubry | (参考訳) 歴史写本に描かれた数十万の図から幾何学的内容を自動的に抽出することで、歴史学者は世界規模で天文学的知識の拡散を研究することができる。
しかし、現代のデータに対処するためにしばしば設計された最先端のベクトル化法は、歴史的天文学図の複雑さと多様性に適応していない。
私たちの貢献は2倍です。
まず、XII世紀からXVIII世紀にかけて、3000以上の線分、円、弧でアノテートされた、様々な伝統から得られた303の天文図のユニークなデータセットを紹介する。
次に、DINO-DETR上に構築されたモデルを構築し、複数の幾何学的プリミティブの予測を可能にする。
合成データのみに基づいてトレーニングし、課題のあるデータセット上でプリミティブを正確に予測できることが示されています。
提案手法は,複数のプリミティブに対して有意なパラメトリゼーションを導入し,検出およびパラメータ改善のための共同トレーニングを行い,変形可能な注意とリッチな合成データに対するトレーニングを行うことにより,ラインに制限されたLETRベースラインを改良する。
データセットとコードは、私たちのWebページで利用可能です。
Automatically extracting the geometric content from the hundreds of thousands of diagrams drawn in historical manuscripts would enable historians to study the diffusion of astronomical knowledge on a global scale. However, state-of-the-art vectorization methods, often designed to tackle modern data, are not adapted to the complexity and diversity of historical astronomical diagrams. Our contribution is thus twofold. First, we introduce a unique dataset of 303 astronomical diagrams from diverse traditions, ranging from the XIIth to the XVIIIth century, annotated with more than 3000 line segments, circles and arcs. Second, we develop a model that builds on DINO-DETR to enable the prediction of multiple geometric primitives. We show that it can be trained solely on synthetic data and accurately predict primitives on our challenging dataset. Our approach widely improves over the LETR baseline, which is restricted to lines, by introducing a meaningful parametrization for multiple primitives, jointly training for detection and parameter refinement, using deformable attention and training on rich synthetic data. Our dataset and code are available on our webpage. | 翻訳日:2024-03-14 13:07:04 公開日:2024-03-13 |
# SOTOPIA-$\pi$:社会知能言語の対話型学習
エージェント
SOTOPIA-$\pi$: Interactive Learning of Socially Intelligent Language Agents ( http://arxiv.org/abs/2403.08715v1 ) ライセンス: Link先を確認 | Ruiyi Wang, Haofei Yu, Wenxin Zhang, Zhengyang Qi, Maarten Sap, Graham Neubig, Yonatan Bisk, Hao Zhu | (参考訳) 人間は模倣と社会的相互作用の両方を通して社会的スキルを学ぶ。
この社会的学習プロセスは、言語エージェントの構築に関する既存の研究によって、ほとんど解明されていない。
そこで本稿では,対話型学習手法であるSOTOPIA-$\pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
本稿では,言語エージェントの安全性を向上し,MMLUベンチマーク上での一般QA能力を維持しつつ、7B LLMが専門家モデル(GPT-4ベースエージェント)の社会的目標達成能力に到達することを実証する。
また、この学習パラダイムは、LLMに基づく社会知能評価の難しさを明らかにしている: LLMに基づく評価者は、社会交流に特化した訓練された言語エージェントの能力を過大評価する。
Humans learn social skills through both imitation and social interaction. This social learning process is largely understudied by existing research on building language agents. Motivated by this gap, we propose an interactive learning method, SOTOPIA-$\pi$, improving the social intelligence of language agents. This method leverages behavior cloning and self-reinforcement training on filtered social interaction data according to large language model (LLM) ratings. We show that our training method allows a 7B LLM to reach the social goal completion ability of an expert model (GPT-4-based agent), while improving the safety of language agents and maintaining general QA ability on the MMLU benchmark. We also find that this training paradigm uncovers some difficulties in LLM-based evaluation of social intelligence: LLM-based evaluators overestimate the abilities of the language agents trained specifically for social interaction. | 翻訳日:2024-03-14 13:07:03 公開日:2024-03-13 |
# マルチノミカル)ロジスティックバンドのレグレト境界の改善
Regret-to-Confidence-Set変換
Improved Regret Bounds of (Multinomial) Logistic Bandits via Regret-to-Confidence-Set Conversion ( http://arxiv.org/abs/2310.18554v3 ) ライセンス: Link先を確認 | Junghyun Lee, Se-Young Yun, Kwang-Sung Jun | (参考訳) Logistic Banditは、ユーザの選択をモデル化するためのユビキタスフレームワークである。
ここで、$\theta_\star \in \mathbb{R}^d$は未知のパラメータベクトルであり、$S$が大きければ特に問題となる。
本研究は,オンライン学習アルゴリズムの「textit{existence}」のみに基づく凸信頼度セットを構築することができる「R2CS」と呼ばれる新しい手法により,$S$への依存性を改善するものである。
R2CSを用いると、ロジスティックな包帯においてw.r.t.$S$に対して、計算可能性を維持しながら、$d$や$T$などの他の要因に依存するような、厳格な改善が得られる。
我々は,ロジスティック・バンディットに対する新たな信頼度セットを,新たなマルティンゲール濃度ステップを用いて,S$の付加的要因を回避し,ロジスティック・バンディットの後悔分析に適用した。
次に,この分析を多項ロジスティック・バンディットに拡張し,同様の改善を加え,R2CSの有効性を示した。
我々は、R2CSを(多重項)ロジスティックモデルに適用したが、R2CSは、様々なモデルに使える信頼セットを開発するための一般的なアプローチであり、それは独立した関心を持つことができる。
Logistic bandit is a ubiquitous framework of modeling users' choices, e.g., click vs. no click for advertisement recommender system. We observe that the prior works overlook or neglect dependencies in $S \geq \lVert \theta_\star \rVert_2$, where $\theta_\star \in \mathbb{R}^d$ is the unknown parameter vector, which is particularly problematic when $S$ is large, e.g., $S \geq d$. In this work, we improve the dependency on $S$ via a novel approach called {\it regret-to-confidence set conversion (R2CS)}, which allows us to construct a convex confidence set based on only the \textit{existence} of an online learning algorithm with a regret guarantee. Using R2CS, we obtain a strict improvement in the regret bound w.r.t. $S$ in logistic bandits while retaining computational feasibility and the dependence on other factors such as $d$ and $T$. We apply our new confidence set to the regret analyses of logistic bandits with a new martingale concentration step that circumvents an additional factor of $S$. We then extend this analysis to multinomial logistic bandits and obtain similar improvements in the regret, showing the efficacy of R2CS. While we applied R2CS to the (multinomial) logistic model, R2CS is a generic approach for developing confidence sets that can be used for various models, which can be of independent interest. | 翻訳日:2024-03-14 11:16:59 公開日:2024-03-13 |
# 半導体量子ドットの断熱的量子アドミタンス
高周波:リフレクションメトリーをポラロンダイナミクスとして考える
Beyond-adiabatic Quantum Admittance of a Semiconductor Quantum Dot at High Frequencies: Rethinking Reflectometry as Polaron Dynamics ( http://arxiv.org/abs/2307.16725v4 ) ライセンス: Link先を確認 | L. Peri, G. A. Oakes, L. Cochrane, C. J. B. Ford, M. F. Gonzalez-Zalba | (参考訳) 量子ドットは動的に動作し、量子センサやコンピュータなどの多くの量子技術の基礎となっている。
したがって、マイクロ波周波数での電気特性のモデル化は、より大きな電子回路での性能をシミュレートするために不可欠である。
そこで我々は,コヒーレント光子浴の効果により,電荷貯留層に結合した量子ドットトンネルの存在感を得るために,自己整合型量子マスター方程式の定式化を開発する。
本研究では, フォトニックドライブの共振器と共振器との結合が増大し, 寿命の推移とともに, 既知の半古典的(熱的)限界を捉えたアクセタンスに対する一般表現を求める。
さらに,Floquet wideeningはQD状態のドレッシングによって決定され,Floquet wideeningはシステム内の光子損失によって決定される。
本研究では,QDの高周波挙動を広範囲に再現し,過去の実験を記述し,新しいQD-光子相互作用の探索法を提案する。
Semiconductor quantum dots operated dynamically are the basis of many quantum technologies such as quantum sensors and computers. Hence, modelling their electrical properties at microwave frequencies becomes essential to simulate their performance in larger electronic circuits. Here, we develop a self-consistent quantum master equation formalism to obtain the admittance of a quantum dot tunnel-coupled to a charge reservoir under the effect of a coherent photon bath. We find a general expression for the admittance that captures the well-known semiclassical (thermal) limit, along with the transition to lifetime and power broadening regimes due to the increased coupling to the reservoir and amplitude of the photonic drive, respectively. Furthermore, we describe two new photon-mediated regimes: Floquet broadening, determined by the dressing of the QD states, and broadening determined by photon loss in the system. Our results provide a method to simulate the high-frequency behaviour of QDs in a wide range of limits, describe past experiments, and propose novel explorations of QD-photon interactions. | 翻訳日:2024-03-14 11:16:58 公開日:2024-03-13 |
# 多項式関数の効率的な量子振幅符号化
Efficient quantum amplitude encoding of polynomial functions ( http://arxiv.org/abs/2307.10917v5 ) ライセンス: Link先を確認 | Javier Gonzalez-Conde, Thomas W. Watts, Pablo Rodriguez-Grasa and Mikel Sanz | (参考訳) 量子コンピュータへの関数のロードは、量子偏微分方程式解法のようないくつかの量子アルゴリズムにおいて重要なステップである。
したがって、このプロセスの非効率性は、これらのアルゴリズムの適用に大きなボトルネックをもたらす。
ここでは、$n$ qubits 上の実多項式関数の振幅符号化のための2つの効率的な方法を比較し、比較する。
このケースは、閉区間上の任意の連続函数が多項式関数によって任意の精度で均一に近似できるので、特別な関係を持つ。
最初のアプローチは行列積の状態表現に依存する。
結合次元が小さいと仮定した場合の目標状態の近似を研究・ベンチマークする。
2つ目のアルゴリズムは2つのサブルーチンを組み合わせる。
当初、線形関数は、線形関数のアダマール・ウォルシュ級数を読み込む多制御ゲートのドロークシーケンスで量子レジスタにエンコードし、線形関数のアダマール・ウォルシュ級数が最終忠実性にどのように影響するかを探索する。
逆離散アダマール・ウォルシュ変換を適用することで、級数係数を線形関数の振幅符号化に変換する。
次に、この構成をビルディングブロックとして使用して、$k_0$ qubits上の線形関数に対応する振幅のブロック符号化を実現し、振幅のブロック符号化に多項式変換を実装する量子特異値変換を適用する。
Amplitude Amplificationアルゴリズムと組み合わせることで、$k_0$ qubitsで多項式関数を符号化する量子状態を作成することができる。
最後に、$n-k_0$ qubitsをパッドして、$n$ qubitsに多項式の近似符号化を生成し、$k_0$に依存する誤差を分析する。
そこで本研究では,制御可能なエラーを導入することにより,最先端の複雑さを改善する手法を提案する。
Loading functions into quantum computers represents an essential step in several quantum algorithms, such as quantum partial differential equation solvers. Therefore, the inefficiency of this process leads to a major bottleneck for the application of these algorithms. Here, we present and compare two efficient methods for the amplitude encoding of real polynomial functions on $n$ qubits. This case holds special relevance, as any continuous function on a closed interval can be uniformly approximated with arbitrary precision by a polynomial function. The first approach relies on the matrix product state representation. We study and benchmark the approximations of the target state when the bond dimension is assumed to be small. The second algorithm combines two subroutines. Initially we encode the linear function into the quantum registers with a swallow sequence of multi-controlled gates that loads the linear function's Hadamard-Walsh series, exploring how truncating the Hadamard-Walsh series of the linear function affects the final fidelity. Applying the inverse discrete Hadamard-Walsh transform transforms the series coefficients into an amplitude encoding of the linear function. Then, we use this construction as a building block to achieve a block encoding of the amplitudes corresponding to the linear function on $k_0$ qubits and apply the quantum singular value transformation that implements a polynomial transformation to the block encoding of the amplitudes. This unitary together with the Amplitude Amplification algorithm will enable us to prepare the quantum state that encodes the polynomial function on $k_0$ qubits. Finally we pad $n-k_0$ qubits to generate an approximated encoding of the polynomial on $n$ qubits, analyzing the error depending on $k_0$. In this regard, our methodology proposes a method to improve the state-of-the-art complexity by introducing controllable errors. | 翻訳日:2024-03-14 11:16:57 公開日:2024-03-13 |
# メモリ化を超えて - 言語におけるランダムメモリアクセスの課題
モデル
Beyond Memorization: The Challenge of Random Memory Access in Language Models ( http://arxiv.org/abs/2403.07805v2 ) ライセンス: Link先を確認 | Tongyao Zhu, Qian Liu, Liang Pang, Zhengbao Jiang, Min-Yen Kan, Min Lin | (参考訳) 言語モデル(LM)の最近の進歩は、NLPタスク、特に知識集約タスクにおいてその効果を示している。
しかし、そのパラメータ内の知識記憶とメモリアクセスのメカニズムは、いまだ解明されていない。
本稿では、生成型LM(eg, GPT-2)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
入念に設計した合成タスクを通じて, 記憶されたコンテンツをランダムにアクセスする際の課題に遭遇しながら, LMが連続的にメモリにアクセスできることを明らかにする。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
さらに、この介入をオープンドメイン質問応答の現実的なシナリオに適用することにより、リサイクリングによるランダムアクセスの強化が質問応答の顕著な改善につながることを検証した。
実験を再現するコードは https://github.com/sail-sg/lm-random-Memory- Access にある。
Recent developments in Language Models (LMs) have shown their effectiveness in NLP tasks, particularly in knowledge-intensive tasks. However, the mechanisms underlying knowledge storage and memory access within their parameters remain elusive. In this paper, we investigate whether a generative LM (e.g., GPT-2) is able to access its memory sequentially or randomly. Through carefully-designed synthetic tasks, covering the scenarios of full recitation, selective recitation and grounded question answering, we reveal that LMs manage to sequentially access their memory while encountering challenges in randomly accessing memorized content. We find that techniques including recitation and permutation improve the random memory access capability of LMs. Furthermore, by applying this intervention to realistic scenarios of open-domain question answering, we validate that enhancing random access by recitation leads to notable improvements in question answering. The code to reproduce our experiments can be found at https://github.com/sail-sg/lm-random-memory-access. | 翻訳日:2024-03-14 10:59:27 公開日:2024-03-13 |
# セムシティ:三面体拡散によるセマンティックシーン生成
SemCity: Semantic Scene Generation with Triplane Diffusion ( http://arxiv.org/abs/2403.07773v2 ) ライセンス: Link先を確認 | Jumin Lee, Sebin Lee, Changho Jo, Woobin Im, Juhyeong Seon, Sung-Eui Yoon | (参考訳) 実世界の屋外環境におけるセマンティックシーン生成のための3次元拡散モデル「セムシティ」を提案する。
ほとんどの3D拡散モデルは、単一のオブジェクト、合成室内シーン、または合成屋外シーンを生成することに焦点を当てているが、実際の屋外シーンの生成はほとんど解決されていない。
本稿では,実世界の屋外データセット上での拡散モデル学習を通じて,実際の屋外シーンを生成することに集中する。
合成データとは対照的に、実際の屋外データセットはセンサーの制限により、より空の空間を含むことが多く、実際の屋外分布を学習する際の課題となる。
この問題に対処するために,3平面表現をシーン分布のプロキシ形式として利用し,拡散モデルを用いて学習する。
さらに,我々の三面拡散モデルとシームレスに統合した三面体操作を提案する。
この操作により、屋外シーンの生成に関連する様々な作業、例えばシーンの塗り絵、シーンの塗り絵、セマンティックシーンの仕上げなどにおいて、拡散モデルの適用性が向上する。
実験の結果,我々の三面体拡散モデルでは,実空間データセットSemanticKITTIの既存手法と比較して有意義な生成結果が得られた。
また、シーン内のオブジェクトのシームレスな追加、削除、修正を容易にするトリプレーン操作も示しています。
また、都市レベルの規模への拡張も可能である。
最後に,この拡散モデルによりシーン分布の学習による意味的シーン補完ネットワークの予測が促進されるセマンティックシーン補完改善手法の評価を行った。
私たちのコードはhttps://github.com/zoomin-lee/SemCity.comで利用可能です。
We present "SemCity," a 3D diffusion model for semantic scene generation in real-world outdoor environments. Most 3D diffusion models focus on generating a single object, synthetic indoor scenes, or synthetic outdoor scenes, while the generation of real-world outdoor scenes is rarely addressed. In this paper, we concentrate on generating a real-outdoor scene through learning a diffusion model on a real-world outdoor dataset. In contrast to synthetic data, real-outdoor datasets often contain more empty spaces due to sensor limitations, causing challenges in learning real-outdoor distributions. To address this issue, we exploit a triplane representation as a proxy form of scene distributions to be learned by our diffusion model. Furthermore, we propose a triplane manipulation that integrates seamlessly with our triplane diffusion model. The manipulation improves our diffusion model's applicability in a variety of downstream tasks related to outdoor scene generation such as scene inpainting, scene outpainting, and semantic scene completion refinements. In experimental results, we demonstrate that our triplane diffusion model shows meaningful generation results compared with existing work in a real-outdoor dataset, SemanticKITTI. We also show our triplane manipulation facilitates seamlessly adding, removing, or modifying objects within a scene. Further, it also enables the expansion of scenes toward a city-level scale. Finally, we evaluate our method on semantic scene completion refinements where our diffusion model enhances predictions of semantic scene completion networks by learning scene distribution. Our code is available at https://github.com/zoomin-lee/SemCity. | 翻訳日:2024-03-14 10:59:26 公開日:2024-03-13 |
# 人工物処理による計算病理システムの構築
Pipelines: 計算とパフォーマンスのトレードオフのためのショーケース
Equipping Computational Pathology Systems with Artifact Processing Pipelines: A Showcase for Computation and Performance Trade-offs ( http://arxiv.org/abs/2403.07743v2 ) ライセンス: Link先を確認 | Neel Kanwal, Farbod Khoraminia, Umay Kiraz, Andres Mosquera-Zamudio, Carlos Monteagudo, Emiel A.M. Janssen, Tahlita C.M. Zuiverloon, Chunmig Rong, and Kjersti Engan | (参考訳) 病理組織学は、顕微鏡検査によるがん診断における金の基準である。
しかし、組織組織処理は結果として人工物となり、最終的にはガラススライドのデジタル版(全スライド画像(WSI))に転送される。
アーティファクトは診断的に無関係な領域であり、誤った深層学習(DL)アルゴリズムの予測をもたらす可能性がある。
したがって、CPATH(Computer pathology)システムにおけるアーティファクトの検出と排除は、信頼性の高い自動診断に不可欠である。
本稿では, 損傷組織, ぼかし, 折りたたみ組織, 気泡, 組織学的に無関係な血液を含む5つの重要な遺物を検出するための専門家(MoE)の混合手法を提案する。
まず、独立したバイナリDLモデルを専門家として訓練し、特定のアーティファクト形態を捉える。
そして,融合機構を用いてそれらの予測をアンサンブルする。
最終確率分布に対して確率しきい値を適用し,MoEの感度を向上させる。
2つのMoEと2つのマルチクラスモデルであるDCNN(Deep Convolutional Neural Network)とビジョントランスフォーマー(ViT)を用いてDLパイプラインを開発した。
DCNN ベースの MoE と ViTs ベースの MoE スキームは、より単純なマルチクラスモデルよりも優れており、様々な病院やがんタイプのデータセットでテストされた。
提案されたMoEは86.15%のF1と97.93%の感度スコアを持ち、ViTを用いたMoEよりも推論の計算コストが低い。
このMoEsの最高の性能は、マルチクラスモデルよりも比較的高い計算トレードオフを持つ。
提案したアーティファクト検出パイプラインは、信頼性の高いCPATH予測を保証するだけでなく、品質管理も提供する。
Histopathology is a gold standard for cancer diagnosis under a microscopic examination. However, histological tissue processing procedures result in artifacts, which are ultimately transferred to the digitized version of glass slides, known as whole slide images (WSIs). Artifacts are diagnostically irrelevant areas and may result in wrong deep learning (DL) algorithms predictions. Therefore, detecting and excluding artifacts in the computational pathology (CPATH) system is essential for reliable automated diagnosis. In this paper, we propose a mixture of experts (MoE) scheme for detecting five notable artifacts, including damaged tissue, blur, folded tissue, air bubbles, and histologically irrelevant blood from WSIs. First, we train independent binary DL models as experts to capture particular artifact morphology. Then, we ensemble their predictions using a fusion mechanism. We apply probabilistic thresholding over the final probability distribution to improve the sensitivity of the MoE. We developed DL pipelines using two MoEs and two multiclass models of state-of-the-art deep convolutional neural networks (DCNNs) and vision transformers (ViTs). DCNNs-based MoE and ViTs-based MoE schemes outperformed simpler multiclass models and were tested on datasets from different hospitals and cancer types, where MoE using DCNNs yielded the best results. The proposed MoE yields 86.15% F1 and 97.93% sensitivity scores on unseen data, retaining less computational cost for inference than MoE using ViTs. This best performance of MoEs comes with relatively higher computational trade-offs than multiclass models. The proposed artifact detection pipeline will not only ensure reliable CPATH predictions but may also provide quality control. | 翻訳日:2024-03-14 10:59:26 公開日:2024-03-13 |
# StableToolBench: ツールの大規模ベンチマークの安定に向けて
大規模言語モデルの学習
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models ( http://arxiv.org/abs/2403.07714v2 ) ライセンス: Link先を確認 | Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu | (参考訳) 大規模言語モデル(LLM)は近年、目覚ましい進歩を目の当たりにしており、LLMと外部ツールを統合して様々な現実世界の課題に対処するツール学習の探求を促している。
LLMのツール活用能力を評価するには、大規模で安定したベンチマークが必要である。
しかし、以前の作業は、手作りのオンラインツールに限られているか、APIステータスの不安定さに悩まされている大規模な実際のオンラインAPIに依存していた。
この問題に対処するため、ToolBenchから進化したベンチマークであるStableToolBenchを導入し、仮想APIサーバと安定した評価システムを提案する。
仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。
一方、安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
実験により,StableToolBenchの安定性を実証し,APIシミュレータ,キャッシングシステム,評価システムの有効性について検討した。
Large Language Models (LLMs) have witnessed remarkable advancements in recent years, prompting the exploration of tool learning, which integrates LLMs with external tools to address diverse real-world challenges. Assessing the capability of LLMs to utilise tools necessitates large-scale and stable benchmarks. However, previous works relied on either hand-crafted online tools with limited scale, or large-scale real online APIs suffering from instability of API status. To address this problem, we introduce StableToolBench, a benchmark evolving from ToolBench, proposing a virtual API server and stable evaluation system. The virtual API server contains a caching system and API simulators which are complementary to alleviate the change in API status. Meanwhile, the stable evaluation system designs solvable pass and win rates using GPT-4 as the automatic evaluator to eliminate the randomness during evaluation. Experimental results demonstrate the stability of StableToolBench, and further discuss the effectiveness of API simulators, the caching system, and the evaluator system. | 翻訳日:2024-03-14 10:59:25 公開日:2024-03-13 |
# MinkUNeXt:3Dによるポイントクラウドによる大規模位置認識
スパース・コンボリューション
MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D Sparse Convolutions ( http://arxiv.org/abs/2403.07593v2 ) ライセンス: Link先を確認 | J.J. Cabrera, A. Santo, A. Gil, C. Viegas and L. Pay\'a | (参考訳) 本稿では,新しい3次元MinkNeXtブロックをベースとした,ポイント雲からの位置認識のための効率的かつ効率的なアーキテクチャであるMinkUNeXtについて述べる。
特徴抽出は、U-Netエンコーダデコーダネットワークによって異なるスケールで行われ、それらの特徴の1つの記述子への特徴集約は、一般化平均プール(GeM)によって実行される。
提案したアーキテクチャは,トランスフォーマーやアテンション・レイヤ,デフォルタブル・コンボリューションといった,より複雑で洗練された提案を使わずに,従来の3次元スパース・コンボリューションにのみ依存することで,現在の最先端を超えることが可能であることを実証している。
提案の徹底的な評価は、Oxford RobotCarとIn-houseデータセットを用いて行われている。
その結果、MinkUNeXtは最先端の他のメソッドよりも優れていることが証明された。
This paper presents MinkUNeXt, an effective and efficient architecture for place-recognition from point clouds entirely based on the new 3D MinkNeXt Block, a residual block composed of 3D sparse convolutions that follows the philosophy established by recent Transformers but purely using simple 3D convolutions. Feature extraction is performed at different scales by a U-Net encoder-decoder network and the feature aggregation of those features into a single descriptor is carried out by a Generalized Mean Pooling (GeM). The proposed architecture demonstrates that it is possible to surpass the current state-of-the-art by only relying on conventional 3D sparse convolutions without making use of more complex and sophisticated proposals such as Transformers, Attention-Layers or Deformable Convolutions. A thorough assessment of the proposal has been carried out using the Oxford RobotCar and the In-house datasets. As a result, MinkUNeXt proves to outperform other methods in the state-of-the-art. | 翻訳日:2024-03-14 10:59:24 公開日:2024-03-13 |
# エージェントをフォローする対話型インストラクションのためのオンライン連続学習
Online Continual Learning For Interactive Instruction Following Agents ( http://arxiv.org/abs/2403.07548v2 ) ライセンス: Link先を確認 | Byeonghwi Kim, Minhyuk Seo, Jonghyun Choi | (参考訳) 言語指示を通して日常的なタスクを実行する具体的エージェントを学ぶ際、文献はエージェントが最初からすべてのトレーニングデータを学習していると仮定する。
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
より現実的なエージェント学習のシナリオに向けて、我々は、新しい行動(行動インクリメンタルラーニング、行動-IL)と新しい環境(環境インクリメンタルラーニング、環境-IL)を学習する2つの連続的な学習設定を提案する。
しかし、記憶されている情報は、しばしば不十分に学習された情報であり、常に利用できるとは限らないタスク境界情報を必要とする。
そこで本研究では,タスク境界情報(タスクフリー)を平均移動平均値(CAMA)として,タスク境界情報のない信頼性スコアに基づいて更新することを提案する。
提案したBehavior-ILとEnvironment-ILのセットアップでは、単純なCAMAは、顕著なマージンによる経験的検証において、技術の先行状態を上回ります。
コードを含むプロジェクトページはhttps://github.com/snumprlab/cl-alfredである。
In learning an embodied agent executing daily tasks via language directives, the literature largely assumes that the agent learns all training data at the beginning. We argue that such a learning scenario is less realistic since a robotic agent is supposed to learn the world continuously as it explores and perceives it. To take a step towards a more realistic embodied agent learning scenario, we propose two continual learning setups for embodied agents; learning new behaviors (Behavior Incremental Learning, Behavior-IL) and new environments (Environment Incremental Learning, Environment-IL) For the tasks, previous 'data prior' based continual learning methods maintain logits for the past tasks. However, the stored information is often insufficiently learned information and requires task boundary information, which might not always be available. Here, we propose to update them based on confidence scores without task boundary information during training (i.e., task-free) in a moving average fashion, named Confidence-Aware Moving Average (CAMA). In the proposed Behavior-IL and Environment-IL setups, our simple CAMA outperforms prior state of the art in our empirical validations by noticeable margins. The project page including codes is https://github.com/snumprlab/cl-alfred. | 翻訳日:2024-03-14 10:59:24 公開日:2024-03-13 |
# DragAnything:エンティティ表現を用いた任意の物の動作制御
DragAnything: Motion Control for Anything using Entity Representation ( http://arxiv.org/abs/2403.07420v2 ) ライセンス: Link先を確認 | Weijia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang | (参考訳) DragAnythingを導入し、エンティティ表現を利用して、制御可能なビデオ生成における任意のオブジェクトに対するモーション制御を実現する。
既存のモーションコントロール手法と比較して、DragAnythingにはいくつかの利点がある。
第一に、他の誘導信号(マスク、深度マップなど)を取得する場合、トラジェクトリベースの方がインタラクションに親しみやすい。
ユーザはインタラクション中に行(軌道)を描画するだけです。
第二に、私たちのエンティティ表現は、あらゆるオブジェクトを表現できるオープンドメイン埋め込みとして機能し、背景を含む多様なエンティティの動作の制御を可能にします。
最後に、エンティティ表現は複数のオブジェクトに対して同時かつ異なる動作制御を可能にする。
我々のDragAnythingは、FVD, FID, User Studyの最先端性能、特にオブジェクトの動き制御において、従来の手法(例えばDragNUWA)を26%上回る精度で達成している。
We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting. | 翻訳日:2024-03-14 10:59:23 公開日:2024-03-13 |
# FSC:Few-point Shape Completion
FSC: Few-point Shape Completion ( http://arxiv.org/abs/2403.07359v2 ) ライセンス: Link先を確認 | Xianzu Wu, Xianfeng Wu, Tianyu Luan, Yajing Bai, Zhongyuan Lai, Junsong Yuan | (参考訳) これまでの研究では、十分な数の点で3次元オブジェクトの形状を完遂することに成功したが、数点(例えば数十点)が観測された場合、しばしば失敗する。
驚くべきことに、エントロピー解析により、いくつかの点、例えば64点でさえ、物体の3次元形状を復元するのに十分な情報を保持できることが判明した。
極めてスパースな点雲による形状完備化の課題に対処するため, 極めてスパースな入力を処理するための新しいデュアルブランチ特徴抽出器と, 動的に重要な割り当てを行うためのサリエンシブランチを併用したFew-point Shape Completion (FSC)モデルを提案する。
このモデルは、抽出された特徴とデコーダ出力の両方を洗練し、完了した点雲の詳細と信頼性を高める2段階のリビジョンネットワークによってさらに強化されている。
実験では,数点から3次元形状を復元できる可能性を示した。
提案したFew-point Shape Completion (FSC) モデルは、小点入力と多点入力の両方において従来の手法よりも優れ、異なる対象カテゴリに対して優れた一般化性を示す。
While previous studies have demonstrated successful 3D object shape completion with a sufficient number of points, they often fail in scenarios when a few points, e.g. tens of points, are observed. Surprisingly, via entropy analysis, we find that even a few points, e.g. 64 points, could retain substantial information to help recover the 3D shape of the object. To address the challenge of shape completion with very sparse point clouds, we then propose Few-point Shape Completion (FSC) model, which contains a novel dual-branch feature extractor for handling extremely sparse inputs, coupled with an extensive branch for maximal point utilization with a saliency branch for dynamic importance assignment. This model is further bolstered by a two-stage revision network that refines both the extracted features and the decoder output, enhancing the detail and authenticity of the completed point cloud. Our experiments demonstrate the feasibility of recovering 3D shapes from a few points. The proposed Few-point Shape Completion (FSC) model outperforms previous methods on both few-point inputs and many-point inputs, and shows good generalizability to different object categories. | 翻訳日:2024-03-14 10:59:23 公開日:2024-03-13 |
# 大規模MIMOにおける深層学習に基づくCSIフィードバックのためのベクトル量子化
システム
Vector Quantization for Deep-Learning-Based CSI Feedback in Massive MIMO Systems ( http://arxiv.org/abs/2403.07355v2 ) ライセンス: Link先を確認 | Junyong Shin, Yujin Kang, Yo-Seb Jeon | (参考訳) 本稿では,大規模マルチインプットマルチアウトプット(MIMO)システムのための,有限レート深層学習(DL)に基づくチャネル状態情報(CSI)フィードバック手法を提案する。
提案手法は,ベクトル量子化変分オートエンコーダ(VQ-VAE)フレームワークに基づく潜在ベクトルの有限ビット表現を提供するとともに,形状ゲインベクトル量子化に基づく計算複雑性を低減させる。
この方法では、潜伏ベクトルの大きさを適切な変換関数を持つ非一様スカラー符号ブックを用いて量子化し、訓練可能なグラスマン符号ブックを用いて潜伏ベクトルの方向を量子化する。
また、ネストされたコードブックのコードワード選択ルールと損失関数の設計を導入することで、マルチレートのコードブック設計戦略を開発する。
シミュレーションの結果,提案手法は,与えられたフィードバックオーバヘッド下でのCSI再構成性能を改善しつつ,VQ-VAEに関連する計算複雑性を低減する。
This paper presents a finite-rate deep-learning (DL)-based channel state information (CSI) feedback method for massive multiple-input multiple-output (MIMO) systems. The presented method provides a finite-bit representation of the latent vector based on a vector-quantized variational autoencoder (VQ-VAE) framework while reducing its computational complexity based on shape-gain vector quantization. In this method, the magnitude of the latent vector is quantized using a non-uniform scalar codebook with a proper transformation function, while the direction of the latent vector is quantized using a trainable Grassmannian codebook. A multi-rate codebook design strategy is also developed by introducing a codeword selection rule for a nested codebook along with the design of a loss function. Simulation results demonstrate that the proposed method reduces the computational complexity associated with VQ-VAE while improving CSI reconstruction performance under a given feedback overhead. | 翻訳日:2024-03-14 10:59:22 公開日:2024-03-13 |
# 部分的学習を効果的に行うグラフアンラーニング
Graph Unlearning with Efficient Partial Retraining ( http://arxiv.org/abs/2403.07353v2 ) ライセンス: Link先を確認 | Jiahao Zhang, Lin Wang, Shijie Wang, Wenqi Fan | (参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで顕著な成功を収めている。
しかし、GNNは望ましくないグラフデータに基づいて訓練され、パフォーマンスと信頼性が低下する可能性がある。
トレーニングされたGNNが望ましくないデータを効率的に解けるようにするために、トレーニンググラフをサブグラフに分割し、サブモデルをトレーニングし、部分的なリトレーニングを通じて高速なアンラーニングを可能にする、リトレーニングベースのグラフアンラーニングが望ましいソリューションである。
しかし、グラフ分割プロセスはトレーニンググラフに情報損失をもたらし、結果としてサブGNNモデルの低モデルの有用性をもたらす。
本稿では,学習不能なGNNのモデルユーティリティをよりよく維持するグラフアンラーニングフレームワークであるGraphRevokerを提案する。
具体的には,グラフ特性を考慮したシャーディングを用いてグラフ特性を保存し,グラフコントラッシブなサブモデルアグリゲーションを用いた予測のためのサブGNNモデルを効果的に集約する。
提案手法の優位性を実証するための広範な実験を行う。
Graph Neural Networks (GNNs) have achieved remarkable success in various real-world applications. However, GNNs may be trained on undesirable graph data, which can degrade their performance and reliability. To enable trained GNNs to efficiently unlearn unwanted data, a desirable solution is retraining-based graph unlearning, which partitions the training graph into subgraphs and trains sub-models on them, allowing fast unlearning through partial retraining. However, the graph partition process causes information loss in the training graph, resulting in the low model utility of sub-GNN models. In this paper, we propose GraphRevoker, a novel graph unlearning framework that better maintains the model utility of unlearnable GNNs. Specifically, we preserve the graph property with graph property-aware sharding and effectively aggregate the sub-GNN models for prediction with graph contrastive sub-model aggregation. We conduct extensive experiments to demonstrate the superiority of our proposed approach. | 翻訳日:2024-03-14 10:59:22 公開日:2024-03-13 |
# スピン量子シミュレータにおける中間子散乱のシミュレーション
Simulating Meson Scattering on Spin Quantum Simulators ( http://arxiv.org/abs/2403.07061v2 ) ライセンス: Link先を確認 | Elizabeth R. Bennewitz, Brayden Ware, Alexander Schuckert, Alessio Lerose, Federica M. Surace, Ron Belyansky, William Morong, De Luo, Arinjoy De, Kate S. Collins, Or Katz, Christopher Monroe, Zohreh Davoudi, Alexey V. Gorshkov | (参考訳) ハドロンや核のような複合粒子の高エネルギー衝突の研究は、量子シミュレーターの優れた目標である。
しかし、ハドロンの複雑化と波状パケットの正確な構造が原因で、ハドロンの波状パケットの調製は大きな課題となっている。
これは、量子シミュレーターにおけるハドロン散乱の限られた実証である。
量子スピン系における閉じ込めと複合励起の観測は、スピンモデルにおける散乱力学を探求する可能性を開く。
本稿では,イジングスピンハミルトニアンのアナログ量子シミュレータにおいて,複合粒子の波状パケットに対応する絡み合ったスピン状態を生成する2つの方法を開発する。
1つの波束形成法は、アネレスト近傍のイジングスピン相互作用によって実現された遮断効果を用いる。
もう一つの方法は、トラップされたイオン配列のスピンフォノンカップリングのような量子バス経由の交換を利用する。
トラップイオンシミュレータに焦点をあて,両手法を数値的にベンチマークし,短期実験において高忠実度波動パケットが実現可能であることを示す。
我々は,Isingモデルにおける実験実現可能なパラメータに対するウェーブパケットの散乱を数値的に研究し,散乱イベントにおける粒子生成に対応する非弾性散乱規則を,顕著で実験的な信号で発見する。
そこで本提案では, 短期量子シミュレータにおける非弾性散乱の観測の可能性を示す。
Studying high-energy collisions of composite particles, such as hadrons and nuclei, is an outstanding goal for quantum simulators. However, preparation of hadronic wave packets has posed a significant challenge, due to the complexity of hadrons and the precise structure of wave packets. This has limited demonstrations of hadron scattering on quantum simulators to date. Observations of confinement and composite excitations in quantum spin systems have opened up the possibility to explore scattering dynamics in spin models. In this article, we develop two methods to create entangled spin states corresponding to wave packets of composite particles in analog quantum simulators of Ising spin Hamiltonians. One wave-packet preparation method uses the blockade effect enabled by beyond-nearest-neighbor Ising spin interactions. The other method utilizes a quantum-bus-mediated exchange, such as the native spin-phonon coupling in trapped-ion arrays. With a focus on trapped-ion simulators, we numerically benchmark both methods and show that high-fidelity wave packets can be achieved in near-term experiments. We numerically study scattering of wave packets for experimentally realizable parameters in the Ising model and find inelastic-scattering regimes, corresponding to particle production in the scattering event, with prominent and distinct experimental signals. Our proposal, therefore, demonstrates the potential of observing inelastic scattering in near-term quantum simulators. | 翻訳日:2024-03-14 10:59:21 公開日:2024-03-13 |
# 人間とLLMにおける視覚オブジェクトの命名・記述・定量化
Naming, Describing, and Quantifying Visual Objects in Humans and LLMs ( http://arxiv.org/abs/2403.06935v2 ) ライセンス: Link先を確認 | Alberto Testoni, Juell Sprott, Sandro Pezzelle | (参考訳) 人間の話者は、イメージ内で同じオブジェクトを記述する際に様々な表現を使用するため、実用的制約によって駆動される可塑性ラベルの分布が生じるが、現在のVision \&Language Large Language Models(VLLM)がこの言語使用の重要な特徴を模倣できる範囲は、オープンな疑問である。
これは一般的な日常的な対象に当てはまるが、カテゴリーラベルが欠落したりファジィになるような、珍しい、あるいは新しい対象には特に興味深い。
さらに、人間は『few』や『most』などの量化子のような、文脈に敏感な表現に対する明確な生産嗜好を示す。
本研究では,VLLMs (FROMAGe, BLIP-2, LLaVA) を3つのカテゴリ (名詞, 属性, 定量化器) で評価し, 従来の研究でほとんど探索されていないデータセットと資源を用いて, 可塑性ラベル上の分布に関する大きな主観的変動を示す。
これらの結果から,VLLMが人間の命名選好を捉えていることを示すとともに,量化器の割り当てなどの高レベルな推論を必要とするタスクにおいて,全てのモデルが失敗することを示す。
While human speakers use a variety of different expressions when describing the same object in an image, giving rise to a distribution of plausible labels driven by pragmatic constraints, the extent to which current Vision \& Language Large Language Models (VLLMs) can mimic this crucial feature of language use is an open question. This applies to common, everyday objects, but it is particularly interesting for uncommon or novel objects for which a category label may be lacking or fuzzy. Furthermore, humans show clear production preferences for highly context-sensitive expressions, such as the quantifiers `few' or `most'. In our work, we evaluate VLLMs (FROMAGe, BLIP-2, LLaVA) on three categories (nouns, attributes, and quantifiers) where humans show great subjective variability concerning the distribution over plausible labels, using datasets and resources mostly under-explored in previous work. Our results reveal mixed evidence on the ability of VLLMs to capture human naming preferences, with all models failing in tasks that require high-level reasoning such as assigning quantifiers. | 翻訳日:2024-03-14 10:59:21 公開日:2024-03-13 |
# DNGaussian: Sparse-View 3D Gaussian Radiance Fields の最適化
グローバルローカル深度正規化
DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization ( http://arxiv.org/abs/2403.06912v2 ) ライセンス: Link先を確認 | Jiahe Li, Jiawei Zhang, Xiao Bai, Jin Zheng, Xin Ning, Jun Zhou, Lin Gu | (参考訳) 放射場は、スパース入力ビューから新しいビューを合成する際、顕著な性能を示してきたが、一般的な方法は、高いトレーニングコストと遅い推論速度に悩まされている。
本稿では,DNGaussianについて紹介する。DNGaussianは3次元ガウス放射場に基づく奥行き規則化フレームワークで,低コストでリアルタイムかつ高品質なノベルショットビュー合成を提供する。
我々のモチベーションは、入力ビューが減少すると幾何劣化に遭遇するにもかかわらず、最近の3次元ガウススプラッティングの非常に効率的な表現と驚くべき品質に起因している。
ガウス放射場において、シーン幾何学におけるこの劣化は主にガウス原始体の位置決めに関係しており、深さ制約によって緩和できる。
その結果,粗い単眼深度監視下での正確なシーン形状を再現し,きめ細かい色調を維持しつつ,ハード・ソフト深度正規化を提案する。
より精細な幾何再構成を実現するため,グローバル・ローカル深度正規化を導入し,小さな局所深度変化に焦点をあてる。
LLFF、DTU、Blenderのデータセットに対する大規模な実験により、DNGaussianは最先端の手法よりも優れており、メモリコストが大幅に削減され、25 \times$トレーニング時間が短縮され、3000 \times$レンダリング速度が向上した。
Radiance fields have demonstrated impressive performance in synthesizing novel views from sparse input views, yet prevailing methods suffer from high training costs and slow inference speed. This paper introduces DNGaussian, a depth-regularized framework based on 3D Gaussian radiance fields, offering real-time and high-quality few-shot novel view synthesis at low costs. Our motivation stems from the highly efficient representation and surprising quality of the recent 3D Gaussian Splatting, despite it will encounter a geometry degradation when input views decrease. In the Gaussian radiance fields, we find this degradation in scene geometry primarily lined to the positioning of Gaussian primitives and can be mitigated by depth constraint. Consequently, we propose a Hard and Soft Depth Regularization to restore accurate scene geometry under coarse monocular depth supervision while maintaining a fine-grained color appearance. To further refine detailed geometry reshaping, we introduce Global-Local Depth Normalization, enhancing the focus on small local depth changes. Extensive experiments on LLFF, DTU, and Blender datasets demonstrate that DNGaussian outperforms state-of-the-art methods, achieving comparable or better results with significantly reduced memory cost, a $25 \times$ reduction in training time, and over $3000 \times$ faster rendering speed. | 翻訳日:2024-03-14 10:59:20 公開日:2024-03-13 |
# プロセス署名駆動型高時空間分解能アライメント
multi‐modal
Process signature-driven high spatio-temporal resolution alignment of multimodal data ( http://arxiv.org/abs/2403.06888v2 ) ライセンス: Link先を確認 | Abhishek Hanchate, Himanshu Balhara, Vishal S. Chindepalli, Satish T.S. Bukkapatnam | (参考訳) 製造機械など,多種多様な過渡的非線形確率力学を示す実世界のプロセスやシステムからのマルチモーダル信号を高時空間分解能で整合させる新しい手法であるHiRA-Proを提案する。
これは、これらの異なる信号における顕著なキネマティックおよび動的事象のプロセスシグネチャの識別と同期に基づいている。
HiRA-Proは、従来のタイムスタンプ、外部トリガー、クロックベースのアライメントメソッドが不足するミリ秒以下の現象とデータを整列するという課題に対処する。
HiRA-Proの有効性は、Optomec-LENS MTS 500ハイブリッドマシン上での3Dプリンティングおよびミリング操作で取得した13以上のチャネルからのデータを整列するスマート製造環境で実証されている。
そして、アライメントされたデータをボキシ化して、生成された部分の物理ボキシルに対応する0.05秒アライメントされたデータチャンクを生成する。
HiRA-Proの優位性はさらに、加法製造におけるケーススタディを通じて示され、精度の高いマルチモーダルデータアライメントによる機械学習ベースの予測性能の向上が示されている。
具体的には、限られたデータであっても、HiRA-Proの適用により、分類精度が約35%向上し、アーティファクトの正確なローカライズが可能になった。
また,提案手法とその適用法,および他のいくつかのアライメント手法との比較定性解析について包括的な議論を行う。
HiRA-Proは、時間空間分解能を10~1000 usと100 umで達成し、3Dプリントで加工した部分の物理ボクセルで登録されたデータセットを生成する。
これらの分解能は、個々のタイムスタンプ、統計相関、あるいはコモンクロックを用いて数百ミリ秒の精度を達成している既存のアライメント法よりも、少なくとも桁違いに微細である。
We present HiRA-Pro, a novel procedure to align, at high spatio-temporal resolutions, multimodal signals from real-world processes and systems that exhibit diverse transient, nonlinear stochastic dynamics, such as manufacturing machines. It is based on discerning and synchronizing the process signatures of salient kinematic and dynamic events in these disparate signals. HiRA-Pro addresses the challenge of aligning data with sub-millisecond phenomena, where traditional timestamp, external trigger, or clock-based alignment methods fall short. The effectiveness of HiRA-Pro is demonstrated in a smart manufacturing context, where it aligns data from 13+ channels acquired during 3D-printing and milling operations on an Optomec-LENS MTS 500 hybrid machine. The aligned data is then voxelized to generate 0.25 second aligned data chunks that correspond to physical voxels on the produced part. The superiority of HiRA-Pro is further showcased through case studies in additive manufacturing, demonstrating improved machine learning-based predictive performance due to precise multimodal data alignment. Specifically, testing classification accuracies improved by almost 35% with the application of HiRA-Pro, even with limited data, allowing for precise localization of artifacts. The paper also provides a comprehensive discussion on the proposed method, its applications, and comparative qualitative analysis with a few other alignment methods. HiRA-Pro achieves temporal-spatial resolutions of 10-1000 us and 100 um in order to generate datasets that register with physical voxels on the 3D-printed and milled part. These resolutions are at least an order of magnitude finer than the existing alignment methods that employ individual timestamps, statistical correlations, or common clocks, which achieve precision of hundreds of milliseconds. | 翻訳日:2024-03-14 10:59:19 公開日:2024-03-13 |
# アフリカの文化遺産保存について
人工知能
On the Preservation of Africa's Cultural Heritage in the Age of Artificial Intelligence ( http://arxiv.org/abs/2403.06865v2 ) ライセンス: Link先を確認 | Mohamed El Louadi | (参考訳) 本稿では,コミュニケーションと知識伝達の基本的な要素として,データの歴史的進化を探求する。
本論文は,口頭伝承からデジタル時代への知識の普及の過程を辿り,言語の重要性と文化の多様性を浮き彫りにしたものである。
また、デジタル技術が記憶、コミュニケーション、文化保存に与える影響を探求し、アフリカなどにおけるデジタル文化(デジタル文化ではなく)の文化を促進する必要性を強調している。
さらに、AI開発においてデータバイアスがもたらす課題と機会について論じ、同値表現のための多様なデータセットを作成することの重要性を強調している。
我々は、デジタルリテラシー、経済発展、そして何よりも、デジタル時代の文化的保存を育成するための重要な素材として、データへの投資を提唱する。
In this paper we delve into the historical evolution of data as a fundamental element in communication and knowledge transmission. The paper traces the stages of knowledge dissemination from oral traditions to the digital era, highlighting the significance of languages and cultural diversity in this progression. It also explores the impact of digital technologies on memory, communication, and cultural preservation, emphasizing the need for promoting a culture of the digital (rather than a digital culture) in Africa and beyond. Additionally, it discusses the challenges and opportunities presented by data biases in AI development, underscoring the importance of creating diverse datasets for equitable representation. We advocate for investing in data as a crucial raw material for fostering digital literacy, economic development, and, above all, cultural preservation in the digital age. | 翻訳日:2024-03-14 10:59:19 公開日:2024-03-13 |
# 回帰支援としての分類器を用いた変数の構成:
経験的評価
Constructing Variables Using Classifiers as an Aid to Regression: An Empirical Assessment ( http://arxiv.org/abs/2403.06829v2 ) ライセンス: Link先を確認 | Colin Troisemaine, Vincent Lemaire | (参考訳) 本稿では,初期入力ベクトルに含まれる情報を補完する変数の自動生成手法を提案する。
この方法は、回帰される変数の連続した値を、値しきい値を定義するために使用される間隔の集合に離散化する前処理ステップとして機能する。
次に、分類器は、回帰すべき値がこれらのしきい値のそれぞれに等しいかどうかを予測するように訓練される。
分類器の異なる出力は、回帰問題の初期ベクトルを豊かにする変数の追加ベクトルの形で連結される。
したがって、実装されたシステムは汎用的な前処理ツールとみなすことができる。
提案手法を5種類の回帰器を用いて検証し,33種類の回帰データセットで評価した。
実験の結果,本手法の意義が確認された。
This paper proposes a method for the automatic creation of variables (in the case of regression) that complement the information contained in the initial input vector. The method works as a pre-processing step in which the continuous values of the variable to be regressed are discretized into a set of intervals which are then used to define value thresholds. Then classifiers are trained to predict whether the value to be regressed is less than or equal to each of these thresholds. The different outputs of the classifiers are then concatenated in the form of an additional vector of variables that enriches the initial vector of the regression problem. The implemented system can thus be considered as a generic pre-processing tool. We tested the proposed enrichment method with 5 types of regressors and evaluated it in 33 regression datasets. Our experimental results confirm the interest of the approach. | 翻訳日:2024-03-14 10:59:18 公開日:2024-03-13 |
# 透明なAI開示義務:誰、いつ、どこで、なぜ、どのように
Transparent AI Disclosure Obligations: Who, What, When, Where, Why, How ( http://arxiv.org/abs/2403.06823v2 ) ライセンス: Link先を確認 | Abdallah El Ali, Karthikeya Puttur Venkatraj, Sophie Morosoli, Laurens Naudts, Natali Helberger, Pablo Cesar | (参考訳) 生成人工知能(AI)の進歩は、人間が生成したコンテンツと(ほぼ)区別できない、AI生成メディア出力をもたらす。
これはユーザーとメディアセクターに大きな影響を与える可能性がある。
現在議論されている欧州AI法は、52条の透明性義務を通じてこれらのリスクに対処することを目的としているが、その解釈と意味は明確ではない。
本稿では,第52条の開示義務に基づく重要な質問を導出するために,参加型AIアプローチを採用する。
参加者は5W1Hフレームワークを用いて52条の関連条項をデコンストラクションした。
我々は5つのテーマと18のサブテーマにまとめられた149の質問をコントリビュートする。
我々は、これらが、第52条の今後の法的発展と解釈を知らせるだけでなく、人間中心のAIレンズからの情報開示の透明性を(再)検査するために、人間とコンピュータのインタラクション研究の出発点となると考えている。
Advances in Generative Artificial Intelligence (AI) are resulting in AI-generated media output that is (nearly) indistinguishable from human-created content. This can drastically impact users and the media sector, especially given global risks of misinformation. While the currently discussed European AI Act aims at addressing these risks through Article 52's AI transparency obligations, its interpretation and implications remain unclear. In this early work, we adopt a participatory AI approach to derive key questions based on Article 52's disclosure obligations. We ran two workshops with researchers, designers, and engineers across disciplines (N=16), where participants deconstructed Article 52's relevant clauses using the 5W1H framework. We contribute a set of 149 questions clustered into five themes and 18 sub-themes. We believe these can not only help inform future legal developments and interpretations of Article 52, but also provide a starting point for Human-Computer Interaction research to (re-)examine disclosure transparency from a human-centered AI lens. | 翻訳日:2024-03-14 10:59:18 公開日:2024-03-13 |
# Koopman、確率的時系列予測で合意
Koopman Ensembles for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2403.06757v2 ) ライセンス: Link先を確認 | Anthony Frion, Lucas Drumetz, Guillaume Tochon, Mauro Dalla Mura, Albdeldjalil A\"issa El Bey | (参考訳) 動的システムを表現するデータ駆動モデルの人気が高まっている状況において、Koopman演算子の多くの機械学習ベースの実装が最近提案されている。
しかし、これらの研究の大部分は決定論的予測に限られており、気象学や気候学のような分野において不確実性に関する知識は不可欠である。
本研究では,確率的出力を生成するためのモデルのアンサンブルの訓練について検討する。
我々は,個別に訓練されたモデルのアンサンブルが極めて過度に信頼されている実リモートセンシング画像時系列の実験を通じて,モデル間のばらつきの高い予測をメンバーに明示的に促すトレーニング基準を用いることで,アンサンブルの不確かさの定量化が大幅に向上することを示す。
In the context of an increasing popularity of data-driven models to represent dynamical systems, many machine learning-based implementations of the Koopman operator have recently been proposed. However, the vast majority of those works are limited to deterministic predictions, while the knowledge of uncertainty is critical in fields like meteorology and climatology. In this work, we investigate the training of ensembles of models to produce stochastic outputs. We show through experiments on real remote sensing image time series that ensembles of independently trained models are highly overconfident and that using a training criterion that explicitly encourages the members to produce predictions with high inter-model variances greatly improves the uncertainty quantification of the ensembles. | 翻訳日:2024-03-14 10:59:17 公開日:2024-03-13 |
# 大域的推定のための最適戦略の厳密な階層:マッピング
グローバルな地域推定は
Strict hierarchy of optimal strategies for global estimations: Mapping global estimations into local ones ( http://arxiv.org/abs/2403.06585v2 ) ライセンス: Link先を確認 | Zhao-Yi Zhou, Jing-Tao Qiu, Da-Jian Zhang | (参考訳) 量子力学における決定的かつ挑戦的な問題は、推定戦略において達成可能な最終的な精度を確かめることである。
局所的および大域的推定のパラダイムは2つあるが、現在の研究は主に局所的推定に限られており、興味のパラメータがほぼ知られている場合に有用である。
このレターでは,少数の測定データでも確実に動作し,パラメータについて十分な事前知識を持たないグローバル推定へのパラダイムシフトを目標としている。
ここでの鍵となる革新は、仮想想像時間進化と呼ばれる技術を開発することであり、グローバルな見積もりをローカルなものにマッピングすることができる。
これは、局所的な見積もりに適した強力なツールを活用することで、グローバルな見積もりの領域における課題を克服する興味深い経路を提供する。
我々は,並列性,シーケンシャル性,不確定因数順序戦略を含む,異なる大域的推定戦略に対する達成可能な精度の厳密な階層を明らかにするための手法を探究する。
A crucial yet challenging issue in quantum metrology is to ascertain the ultimate precision achievable in estimation strategies. While there are two paradigms of estimations, local and global, current research is largely confined to local estimations, which are useful once the parameter of interest is approximately known. In this Letter we target a paradigm shift towards global estimations, which can operate reliably even with a few measurement data and no substantial prior knowledge about the parameter. The key innovation here is to develop a technique, dubbed virtual imaginary time evolution, capable of mapping global estimations into local ones. This offers an intriguing pathway to surmount challenges in the realm of global estimations by leveraging powerful tools tailored for local estimations. We explore our technique to unveil a strict hierarchy of achievable precision for different global estimation strategies, including parallel, sequential, and indefinite-causal-order strategies. | 翻訳日:2024-03-14 10:59:17 公開日:2024-03-13 |
# 音声活動予測を用いた多言語ターンテイク予測
Multilingual Turn-taking Prediction Using Voice Activity Projection ( http://arxiv.org/abs/2403.06487v2 ) ライセンス: Link先を確認 | Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze | (参考訳) 本稿では,音声対話における音声活動予測(VAP)の多言語データへの応用について検討する。
VAPモデルは、対話における参加者の今後の音声活動を継続的に予測し、参加者間の動的相互作用を捉えるために、相互注意変換器を活用する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。
しかし、3つの言語すべてで訓練された多言語モデルは、すべての言語にわたる単言語モデルと同等の予測性能を示す。
さらに分析した結果,多言語モデルが入力信号の言語を識別できることが判明した。
また,ターンテイキングに重要であると考えられる韻律的キューであるピッチに対する感度も分析した。
最後に、英語で事前学習したコントラスト予測符号化(CPC)と、多言語wav2vec 2.0(MMS)に基づく最近のモデルを比較した。
This paper investigates the application of voice activity projection (VAP), a predictive turn-taking model for spoken dialogue, on multilingual data, encompassing English, Mandarin, and Japanese. The VAP model continuously predicts the upcoming voice activities of participants in dyadic dialogue, leveraging a cross-attention Transformer to capture the dynamic interplay between participants. The results show that a monolingual VAP model trained on one language does not make good predictions when applied to other languages. However, a multilingual model, trained on all three languages, demonstrates predictive performance on par with monolingual models across all languages. Further analyses show that the multilingual model has learned to discern the language of the input signal. We also analyze the sensitivity to pitch, a prosodic cue that is thought to be important for turn-taking. Finally, we compare two different audio encoders, contrastive predictive coding (CPC) pre-trained on English, with a recent model based on multilingual wav2vec 2.0 (MMS). | 翻訳日:2024-03-14 10:59:16 公開日:2024-03-13 |
# 置換質量関数の否定
The negation of permutation mass function ( http://arxiv.org/abs/2403.06483v2 ) ライセンス: Link先を確認 | Yongchuan Tang, Rongfei Li | (参考訳) 否定は知識表現の重要な視点である。
既存の否定法は主に確率論、エビデンス理論、複雑なエビデンス理論に適用される。
証拠理論の一般化として、ランダムな置換集合論は情報をより正確に表現することができる。
しかし、ランダムな置換集合論に否定の概念を適用する方法はまだ研究されていない。
本稿では,置換質量関数の否定について述べる。
さらに, 否定過程において, 提案手法の収束性を検証する。
各否定操作後の不確実性と相違性について検討した。
数値的な例を用いて提案手法の合理性を示す。
Negation is an important perspective of knowledge representation. Existing negation methods are mainly applied in probability theory, evidence theory and complex evidence theory. As a generalization of evidence theory, random permutation sets theory may represent information more precisely. However, how to apply the concept of negation to random permutation sets theory has not been studied. In this paper, the negation of permutation mass function is proposed. Moreover, in the negation process, the convergence of proposed negation method is verified. The trends of uncertainty and dissimilarity after each negation operation are investigated. Numerical examples are used to demonstrate the rationality of the proposed method. | 翻訳日:2024-03-14 10:59:16 公開日:2024-03-13 |
# Text2QR:美的カスタマイズとロバストさの調和
テキストガイドQRコード生成
Text2QR: Harmonizing Aesthetic Customization and Scanning Robustness for Text-Guided QR Code Generation ( http://arxiv.org/abs/2403.06452v2 ) ライセンス: Link先を確認 | Guangyang Wu, Xiaohong Liu, Jun Jia, Xuehao Cui, Guangtao Zhai | (参考訳) デジタル時代には、QRコードは仮想空間と物理領域を繋ぐリンチピンとして機能する。
さまざまなアプリケーションにまたがる広範囲な統合は、スカンサビリティを損なうことなく、美的なコードに対する需要を浮き彫りにしている。
しかし、一般的な手法は、カスタマイズとスキャスタビリティのバランスをとるという本質的な課題に支障をきたす。
特に、安定拡散モデルは、高品質でカスタマイズ可能なコンテンツ生成のエポジックに定着している。
本稿では,ユーザ定義美学とスキャニングロバストネスの同時実現という,これらの進歩を活用する先駆的なアプローチであるText2QRを紹介する。
審美的QRコードの安定した生成を保証するため,QR Aesthetic Blueprint (QAB) モジュールを導入し,生成プロセス全体の制御を行うブループリント画像を生成する。
その後、Scanannability Enhancing Latent Refinement (SELR)プロセスは、潜在空間における出力を反復的に洗練し、走査堅牢性を高める。
このアプローチは、画像美学とQRコードスキャン可能性の間のトレードオフをナビゲートすることで、安定拡散モデルの強力な生成能力を活用する。
我々の実験は、視覚的魅力と美的QRコードの実用性とのシームレスな融合を実証し、従来の方法よりも顕著に優れていた。
コードは \url{https://github.com/mulns/Text2QR} で入手できる。
In the digital era, QR codes serve as a linchpin connecting virtual and physical realms. Their pervasive integration across various applications highlights the demand for aesthetically pleasing codes without compromised scannability. However, prevailing methods grapple with the intrinsic challenge of balancing customization and scannability. Notably, stable-diffusion models have ushered in an epoch of high-quality, customizable content generation. This paper introduces Text2QR, a pioneering approach leveraging these advancements to address a fundamental challenge: concurrently achieving user-defined aesthetics and scanning robustness. To ensure stable generation of aesthetic QR codes, we introduce the QR Aesthetic Blueprint (QAB) module, generating a blueprint image exerting control over the entire generation process. Subsequently, the Scannability Enhancing Latent Refinement (SELR) process refines the output iteratively in the latent space, enhancing scanning robustness. This approach harnesses the potent generation capabilities of stable-diffusion models, navigating the trade-off between image aesthetics and QR code scannability. Our experiments demonstrate the seamless fusion of visual appeal with the practical utility of aesthetic QR codes, markedly outperforming prior methods. Codes are available at \url{https://github.com/mulns/Text2QR} | 翻訳日:2024-03-14 10:59:16 公開日:2024-03-13 |
# FSViewFusion:新しいオブジェクトの生成を少し見る
FSViewFusion: Few-Shots View Generation of Novel Objects ( http://arxiv.org/abs/2403.06394v2 ) ライセンス: Link先を確認 | Rukhshanda Hussain, Hui Xian Grace Lim, Borchun Chen, Mubarak Shah, Ser Nam Lim | (参考訳) 新規なビュー合成は、NeRFの到来以来、著しく発展してきた。
しかし、Nerfモデルは単一シーンで過度に適合し、分散オブジェクトの外部への一般化が欠如している。
近年、拡散モデルは、ビュー合成における一般化の導入において顕著な性能を示した。
これらの進歩にインスパイアされ、3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルの能力について検討する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
我々の研究は2つの興味深い発見を明らかにしている。
まず、Dreamboothは、大量のマルチビューデータ上で微細な拡散を伴うより複雑な戦略と比較して、ビューの高レベルな概念を学習することができることを観察する。
第2に、ビューが学習された元のオブジェクトの識別によらず、ビューの概念を歪め、新しいオブジェクトに転送できることを確立する。
そこで我々は,単一のシーンの1つのイメージサンプルを通して特定のビューを継承する学習戦略FSViewFusionを導入し,その知識を新しいオブジェクトに転送し,低ランクのアダプタを用いて,少数のショットから学習する。
広範にわたる実験を通して,本手法が野生画像の信頼性の高いビューサンプルの生成に有効であることを示す。
コードとモデルはリリースされる。
Novel view synthesis has observed tremendous developments since the arrival of NeRFs. However, Nerf models overfit on a single scene, lacking generalization to out of distribution objects. Recently, diffusion models have exhibited remarkable performance on introducing generalization in view synthesis. Inspired by these advancements, we explore the capabilities of a pretrained stable diffusion model for view synthesis without explicit 3D priors. Specifically, we base our method on a personalized text to image model, Dreambooth, given its strong ability to adapt to specific novel objects with a few shots. Our research reveals two interesting findings. First, we observe that Dreambooth can learn the high level concept of a view, compared to arguably more complex strategies which involve finetuning diffusions on large amounts of multi-view data. Second, we establish that the concept of a view can be disentangled and transferred to a novel object irrespective of the original object's identify from which the views are learnt. Motivated by this, we introduce a learning strategy, FSViewFusion, which inherits a specific view through only one image sample of a single scene, and transfers the knowledge to a novel object, learnt from few shots, using low rank adapters. Through extensive experiments we demonstrate that our method, albeit simple, is efficient in generating reliable view samples for in the wild images. Code and models will be released. | 翻訳日:2024-03-14 10:59:15 公開日:2024-03-13 |
# 何でも流儀で言う
Say Anything with Any Style ( http://arxiv.org/abs/2403.06363v2 ) ライセンス: Link先を確認 | Shuai Tan and Bin Ji and Yu Ding and Ye Pan | (参考訳) さまざまな頭の動きでスタイリングされた頭を生成することは、自然に見えるビデオを実現するには不可欠だが、それでも難しい。
以前の作品では、会話スタイルをキャプチャする回帰的手法を採用しており、その結果、すべてのトレーニングデータで平均化される粗いスタイルとなるか、あるいは、様々なスタイルでビデオを合成するために普遍的なネットワークを使用している。
そこで本研究では,学習スタイルのコードブックを用いて生成モデルを用いて個別のスタイル表現をクエリする,新しい動的重み付け手法であるSay Anything withAny Style (SAAS)を提案する。
具体的には、3つの密接に関連するタスクを組み込んだマルチタスクVQ-VAEを開発し、スタイル抽出の先駆けとしてスタイルコードブックを学習する。
この離散的な先行は、生成モデルとともに、与えられたスタイルクリップの発声スタイルを抽出する際の精度と堅牢性を高める。
抽出されたスタイルを利用して、標準分岐とスタイル特化分岐とからなる残余アーキテクチャを用いて、ソースから任意の所望のスタイルに話スタイルを転送しながら、任意の駆動オーディオに条件付けられた口形状を予測する。
異なる話し方に適応するために、我々は、スタイルブランチのスタイル固有の重み付けをオフセットするために、精巧なHyperStyleを探索することで、普遍的なネットワークを採用することを明確にする。
さらに、ポーズ生成器とポーズコードブックを構築して、定量化されたポーズ表現を格納し、音声や抽出されたスタイルに合わせて様々な頭部の動きをサンプリングする。
実験により,本手法はリップ同期とスタイリング表現の両面で最先端の手法を超越していることが示された。
さらに,SAASをビデオ駆動型編集領域に拡張し,良好な性能を実現する。
Generating stylized talking head with diverse head motions is crucial for achieving natural-looking videos but still remains challenging. Previous works either adopt a regressive method to capture the speaking style, resulting in a coarse style that is averaged across all training data, or employ a universal network to synthesize videos with different styles which causes suboptimal performance. To address these, we propose a novel dynamic-weight method, namely Say Anything withAny Style (SAAS), which queries the discrete style representation via a generative model with a learned style codebook. Specifically, we develop a multi-task VQ-VAE that incorporates three closely related tasks to learn a style codebook as a prior for style extraction. This discrete prior, along with the generative model, enhances the precision and robustness when extracting the speaking styles of the given style clips. By utilizing the extracted style, a residual architecture comprising a canonical branch and style-specific branch is employed to predict the mouth shapes conditioned on any driving audio while transferring the speaking style from the source to any desired one. To adapt to different speaking styles, we steer clear of employing a universal network by exploring an elaborate HyperStyle to produce the style-specific weights offset for the style branch. Furthermore, we construct a pose generator and a pose codebook to store the quantized pose representation, allowing us to sample diverse head motions aligned with the audio and the extracted style. Experiments demonstrate that our approach surpasses state-of-theart methods in terms of both lip-synchronization and stylized expression. Besides, we extend our SAAS to video-driven style editing field and achieve satisfactory performance. | 翻訳日:2024-03-14 10:59:14 公開日:2024-03-13 |
# S-DyRF:ダイナミックシーンのための基準ベーススティル化放射場
S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2403.06205v2 ) ライセンス: Link先を確認 | Xingyi Li, Zhiguo Cao, Yizheng Wu, Kewei Wang, Ke Xian, Zhe Wang, Guosheng Lin | (参考訳) 現在の3Dスタイリング手法は、現実世界の動的な性質に反する静的なシーンを想定することが多い。
この制限に対処するため、S-DyRFは動的神経放射場のための参照型時空間スタイリング法である。
しかし、時間軸に沿ってスタイリングされた参照画像が限られているため、動的3Dシーンのスタイリングは本質的に困難である。
私たちの重要な洞察は、提供された参照に加えて、追加の時間的手がかりを導入することです。
この目的のために、与えられたスタイル化された参照から時間的擬似参照を生成する。
これらの擬似参照は、動的3Dシーン全体の参照からスタイル情報の伝播を促進する。
粗いスタイルの転送には、特徴レベルでの擬似参照に現れるスタイルの詳細を模倣するために、新しいビューと時間を強制する。
高周波の詳細を保存するために、時間的擬似参照からスタイル化された時間的擬似画像のコレクションを作成する。
これらの擬似光線は、細かなスタイル転送を実現するための詳細で明示的なスタイリングガイダンスとして機能する。
合成, 実世界の両方のデータセットを用いた実験により, 動的3次元シーンにおける時空間ビュー合成の高機能なスタイリング結果が得られた。
Current 3D stylization methods often assume static scenes, which violates the dynamic nature of our real world. To address this limitation, we present S-DyRF, a reference-based spatio-temporal stylization method for dynamic neural radiance fields. However, stylizing dynamic 3D scenes is inherently challenging due to the limited availability of stylized reference images along the temporal axis. Our key insight lies in introducing additional temporal cues besides the provided reference. To this end, we generate temporal pseudo-references from the given stylized reference. These pseudo-references facilitate the propagation of style information from the reference to the entire dynamic 3D scene. For coarse style transfer, we enforce novel views and times to mimic the style details present in pseudo-references at the feature level. To preserve high-frequency details, we create a collection of stylized temporal pseudo-rays from temporal pseudo-references. These pseudo-rays serve as detailed and explicit stylization guidance for achieving fine style transfer. Experiments on both synthetic and real-world datasets demonstrate that our method yields plausible stylized results of space-time view synthesis on dynamic 3D scenes. | 翻訳日:2024-03-14 10:59:14 公開日:2024-03-13 |
# Mipha:小さなマルチモーダルアシスタント
言語モデル
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models ( http://arxiv.org/abs/2403.06199v2 ) ライセンス: Link先を確認 | Minjie Zhu, Yichen Zhu, Xin Liu, Ning Liu, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Zhicai Ou, Feifei Feng, Jian Tang | (参考訳) MLLM(Multimodal Large Language Models)は、視覚的理解と推論に関連するタスクにおいて、優れたスキルを誇示している。
しかし、彼らの幅広い応用は、トレーニングと推論フェーズの両方において高い計算要求のために障害に直面しており、研究とユーザコミュニティ内の限られた利用者に限られている。
本稿では,Multimodal Small Language Models (MSLM) の設計側面について検討し,視覚表現,言語モデル,最適化戦略など,様々な側面の相乗効果を創出するために設計された,効率的なマルチモーダルアシスタント Mipha を提案する。
トレーニングデータの量を増やすことなく、我々のMipha-3Bは最先端の大規模MLLM(特にLLaVA-1.5-13B)を複数のベンチマークで上回ります。
より詳細な議論を通じて,MLLMの能力に匹敵する強力なMSLMを開発するための洞察とガイドラインを提供する。
私たちのコードはhttps://github.com/zhuyiche/Mipha.comで公開されています。
Multimodal Large Language Models (MLLMs) have showcased impressive skills in tasks related to visual understanding and reasoning. Yet, their widespread application faces obstacles due to the high computational demands during both the training and inference phases, restricting their use to a limited audience within the research and user communities. In this paper, we investigate the design aspects of Multimodal Small Language Models (MSLMs) and propose an efficient multimodal assistant named Mipha, which is designed to create synergy among various aspects: visual representation, language models, and optimization strategies. We show that without increasing the volume of training data, our Mipha-3B outperforms the state-of-the-art large MLLMs, especially LLaVA-1.5-13B, on multiple benchmarks. Through detailed discussion, we provide insights and guidelines for developing strong MSLMs that rival the capabilities of MLLMs. Our code is available at https://github.com/zhuyiche/Mipha. | 翻訳日:2024-03-14 10:59:13 公開日:2024-03-13 |
# コンビニティカル・イシューのジェネリック表現に向けて
学習に基づくアプローチ
Towards a Generic Representation of Combinatorial Problems for Learning-Based Approaches ( http://arxiv.org/abs/2403.06026v2 ) ライセンス: Link先を確認 | L\'eo Boisvert, H\'el\`ene Verhaeghe, Quentin Cappart | (参考訳) 近年,従来の最適化アルゴリズムと組み合わさって,組み合わさった問題を解決するための学習ベースのアプローチへの関心が高まっている。
どちらのシナリオでも、ターゲットの組合せ問題を学習アルゴリズムと互換性のある構造に符号化することが課題である。
既存の多くの研究は、しばしばグラフの形で、問題固有の表現を提案し、 \textit{graph neural network} の利点を活用している。
しかし、これらのアプローチは一般性に欠けており、表現は1つの組合せ問題から別の問題へ容易に移動できない。
このギャップを埋める試みはいくつかあるが、それでも部分的な一般性しか提供していない。
この課題に対して,本論文は,学習ベースアプローチにおける組合せ問題を完全に一般化した表現に向けての進歩を提唱する。
提案するアプローチは、組合せ問題の制約を抽象構文木に分解し、エッジを通して関係(例えば、制約に関わる変数)を表現することによってグラフを構築することである。
さらに,この表現から効率的に学習できるグラフニューラルネットワークアーキテクチャを導入する。
このツールはXCSP3フォーマットで表現された組合せ問題で動作し、2023年のミニトラックコンペティションで利用可能なすべての制約を処理する。
4つの組合せ問題に対する実験結果から,本アーキテクチャは汎用性を維持しつつ,専用アーキテクチャに匹敵する性能を実現することが示された。
私たちのコードとトレーニングされたモデルは、 \url{https://github.com/corail-research/learning-generic-csp}で公開されています。
In recent years, there has been a growing interest in using learning-based approaches for solving combinatorial problems, either in an end-to-end manner or in conjunction with traditional optimization algorithms. In both scenarios, the challenge lies in encoding the targeted combinatorial problems into a structure compatible with the learning algorithm. Many existing works have proposed problem-specific representations, often in the form of a graph, to leverage the advantages of \textit{graph neural networks}. However, these approaches lack generality, as the representation cannot be easily transferred from one combinatorial problem to another one. While some attempts have been made to bridge this gap, they still offer a partial generality only. In response to this challenge, this paper advocates for progress toward a fully generic representation of combinatorial problems for learning-based approaches. The approach we propose involves constructing a graph by breaking down any constraint of a combinatorial problem into an abstract syntax tree and expressing relationships (e.g., a variable involved in a constraint) through the edges. Furthermore, we introduce a graph neural network architecture capable of efficiently learning from this representation. The tool provided operates on combinatorial problems expressed in the XCSP3 format, handling all the constraints available in the 2023 mini-track competition. Experimental results on four combinatorial problems demonstrate that our architecture achieves performance comparable to dedicated architectures while maintaining generality. Our code and trained models are publicly available at \url{https://github.com/corail-research/learning-generic-csp}. | 翻訳日:2024-03-14 10:59:12 公開日:2024-03-13 |
# CSCNET: 合成ゼロショットのためのクラス指定カスケードネットワーク
学び
CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2403.05924v2 ) ライセンス: Link先を確認 | Yanyi Zhang, Qi Jia, Xin Fan, Yu Liu, Ran He | (参考訳) アトリビュートとオブジェクト(A-O)のアンタングル化は、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である。
アンタングル表現学習に基づく既存の手法は、A-Oプリミティブペア間のコンテキスト依存を見失う。
そこで我々は,CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
主要な洞察は、まず1つのプリミティブを分類し、次に予測されたクラスを、カスケードされた方法で別のプリミティブ認識を導くための優先順位として指定することである。
この目的のために、CSCNetは2つのプリミティブ全体をモデル化する合成ブランチに加えて、Attribute-to-ObjectとObject-to-Attributeのカスケードブランチを構築している。
特に、視覚と意味の埋め込みのマッチングを改善するためにパラメトリック分類器(ParamCls)を考案した。
A-Oの歪みを改善することで,従来の競合手法よりも優れた結果が得られる。
Attribute and object (A-O) disentanglement is a fundamental and critical problem for Compositional Zero-shot Learning (CZSL), whose aim is to recognize novel A-O compositions based on foregone knowledge. Existing methods based on disentangled representation learning lose sight of the contextual dependency between the A-O primitive pairs. Inspired by this, we propose a novel A-O disentangled framework for CZSL, namely Class-specified Cascaded Network (CSCNet). The key insight is to firstly classify one primitive and then specifies the predicted class as a priori for guiding another primitive recognition in a cascaded fashion. To this end, CSCNet constructs Attribute-to-Object and Object-to-Attribute cascaded branches, in addition to a composition branch modeling the two primitives as a whole. Notably, we devise a parametric classifier (ParamCls) to improve the matching between visual and semantic embeddings. By improving the A-O disentanglement, our framework achieves superior results than previous competitive methods. | 翻訳日:2024-03-14 10:59:11 公開日:2024-03-13 |
# LTGC:LLMによる生成コンテンツを活用したLong-tail認識
LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content ( http://arxiv.org/abs/2403.05854v3 ) ライセンス: Link先を確認 | Qihao Zhao, Yalun Dai, Hao Li, Wei Hu, Fan Zhang, Jun Liu | (参考訳) 尾の認識は、尾のカテゴリから良い表現を学習し、すべてのカテゴリで不均衡に対処する必要があるため、困難である。
本稿では,生成コンテンツを利用した長期認識のための新しい生成・微調整フレームワークLTGCを提案する。
まず、大規模モデル(例えば、大規模言語モデル、LLM)における豊富な暗黙の知識にインスパイアされたLTGCは、これらのモデルのパワーを活用して、オリジナルのテールデータを解析し、推論し、多様なテールクラスのコンテンツを生成する。
そこで我々は,生成したデータの品質を保証し,生成したデータとオリジナルデータの両方を用いてモデルを効率よく微調整する,LTGCの新しい設計を提案する。
可視化はLTGCにおける生成モジュールの有効性を示し、正確で多様なテールデータを生成する。
さらに, 実験結果から, LTGCは, 一般的なロングテールベンチマークにおいて, 既存の最先端手法よりも優れていることが示された。
Long-tail recognition is challenging because it requires the model to learn good representations from tail categories and address imbalances across all categories. In this paper, we propose a novel generative and fine-tuning framework, LTGC, to handle long-tail recognition via leveraging generated content. Firstly, inspired by the rich implicit knowledge in large-scale models (e.g., large language models, LLMs), LTGC leverages the power of these models to parse and reason over the original tail data to produce diverse tail-class content. We then propose several novel designs for LTGC to ensure the quality of the generated data and to efficiently fine-tune the model using both the generated and original data. The visualization demonstrates the effectiveness of the generation module in LTGC, which produces accurate and diverse tail data. Additionally, the experimental results demonstrate that our LTGC outperforms existing state-of-the-art methods on popular long-tailed benchmarks. | 翻訳日:2024-03-14 10:59:10 公開日:2024-03-13 |
# 複雑な宇宙機作業のためのシールド型深部強化学習
Shielded Deep Reinforcement Learning for Complex Spacecraft Tasking ( http://arxiv.org/abs/2403.05693v2 ) ライセンス: Link先を確認 | Robert Reed, Hanspeter Schaub, Morteza Lahijanian | (参考訳) シールド型深部強化学習(SDRL)による自律型宇宙船制御は、急速に成長している研究領域となっている。
しかしながら、シールドの構築とタスクの定義は非公式であり、その結果、RLエージェントの安全性と曖昧な目標に関する保証のないポリシーが生まれている。
本稿では,まず,宇宙船の作業や安全要件を形式化するための形式言語であるLTL(Linear Temporal Logic)について検討する。
次に、SDRLフレームワークにおける効果的なトレーニングのために、コセーフなLTL仕様から報酬関数を自動構築する方法を定義する。
また、宇宙船用安全LTL仕様からシールドを構築する方法についても検討し、確率的保証を提供する3つの設計を提案する。
いくつかの実験を通して、これらのシールドが異なるポリシーや報酬構造の柔軟性とどのように相互作用するかを示す。
Autonomous spacecraft control via Shielded Deep Reinforcement Learning (SDRL) has become a rapidly growing research area. However, the construction of shields and the definition of tasking remains informal, resulting in policies with no guarantees on safety and ambiguous goals for the RL agent. In this paper, we first explore the use of formal languages, namely Linear Temporal Logic (LTL), to formalize spacecraft tasks and safety requirements. We then define a manner in which to construct a reward function from a co-safe LTL specification automatically for effective training in SDRL framework. We also investigate methods for constructing a shield from a safe LTL specification for spacecraft applications and propose three designs that provide probabilistic guarantees. We show how these shields interact with different policies and the flexibility of the reward structure through several experiments. | 翻訳日:2024-03-14 10:59:10 公開日:2024-03-13 |
# レポート生成のための心電図インストラクションチューニング
Electrocardiogram Instruction Tuning for Report Generation ( http://arxiv.org/abs/2403.04945v2 ) ライセンス: Link先を確認 | Zhongwei Wan, Che Liu, Xin Wang, Chaofan Tao, Hui Shen, Zhenwu Peng, Jie Fu, Rossella Arcucci, Huaxiu Yao, Mi Zhang | (参考訳) 心電図(ECG)は、心臓の状態をモニタリングする主要な非侵襲的診断ツールであり、臨床医の補助に不可欠である。
近年の研究では、心電図データを用いた心臓状態の分類に焦点が当てられているが、心電図のレポート生成は見過ごされている。
マルチモーダルECGインストラクションチューニング(MEIT)フレームワークとして,LCMとマルチモーダル命令を用いてECGレポート生成に取り組み,ECGレポート生成を自動化し,その汎用性を確保する。
今後の研究を容易にするため、2つの大規模ECGデータセットにまたがる様々なLLMバックボーンを用いたMEIT評価ベンチマークを構築した。
提案手法はECG信号とレポートの表現を一意に整合させ, 800,000以上のECGレポートを用いて, MEIT を9つのオープンソース LLM でベンチマークする広範囲な実験を行った。
MEITの結果は、命令調整LDMの優れた性能を強調し、高品質なレポート生成、ゼロショット機能、信号摂動に対する弾力性を示す。
本研究は,MEITフレームワークの有効性と臨床応用の可能性を明らかにするものである。
Electrocardiogram (ECG) serves as the primary non-invasive diagnostic tool for cardiac conditions monitoring, are crucial in assisting clinicians. Recent studies have concentrated on classifying cardiac conditions using ECG data but have overlooked ECG report generation, which is not only time-consuming but also requires clinical expertise. To automate ECG report generation and ensure its versatility, we propose the Multimodal ECG Instruction Tuning (MEIT) framework, the \textit{first} attempt to tackle ECG report generation with LLMs and multimodal instructions. To facilitate future research, we establish a benchmark to evaluate MEIT with various LLMs backbones across two large-scale ECG datasets. Our approach uniquely aligns the representations of the ECG signal and the report, and we conduct extensive experiments to benchmark MEIT with nine open source LLMs, using more than 800,000 ECG reports. MEIT's results underscore the superior performance of instruction-tuned LLMs, showcasing their proficiency in quality report generation, zero-shot capabilities, and resilience to signal perturbation. These findings emphasize the efficacy of our MEIT framework and its potential for real-world clinical application. | 翻訳日:2024-03-14 10:59:08 公開日:2024-03-13 |
# 量子光学におけるマトリックス分解:高木・オートン
Bloch-Messiah/Euler,Iwasawa,Williamson
Matrix decompositions in Quantum Optics: Takagi/Autonne, Bloch-Messiah/Euler, Iwasawa, and Williamson ( http://arxiv.org/abs/2403.04596v2 ) ライセンス: Link先を確認 | Martin Houde, Will McCutcheon, Nicol\'as Quesada | (参考訳) 本稿では,量子光学においてよく用いられる4つの重要な行列分解,すなわち,高木・オートン,ブロッホ・メシア・オイラー,岩沢,ウィリアムソンの分解を要約する。
これらの分解の最初の2つは、対称行列やシンプレクティック行列に適用する場合の特異値分解の特殊版である。
第三の因子はシンプレクティック群(英語版)の異なる部分群に属する行列の観点で一意的にシンプレクティック行列である。
最後のものは、偶数の実、正定値行列のシンプレクティック対角化を与えるものである。
これらの分解の存在の証明は文献に存在しているが、標準的な線型代数パッケージや特異値、極性、シュール、QR分解、行列平方根や逆数といった函数を用いてこれらの分解を実装するための明示的な構成を提供することに焦点をあてる。
In this note we summarize four important matrix decompositions commonly used in quantum optics, namely the Takagi/Autonne, Bloch-Messiah/Euler, Iwasawa, and Williamson decompositions. The first two of these decompositions are specialized versions of the singular-value decomposition when applied to symmetric or symplectic matrices. The third factors any symplectic matrix in a unique way in terms of matrices that belong to different subgroups of the symplectic group. The last one instead gives the symplectic diagonalization of real, positive definite matrices of even size. While proofs of the existence of these decompositions exist in the literature, we focus on providing explicit constructions to implement these decompositions using standard linear algebra packages and functionalities such as singular-value, polar, Schur and QR decompositions, and matrix square roots and inverses. | 翻訳日:2024-03-14 10:59:05 公開日:2024-03-13 |
# SWAP-NAS:超高速NASのためのサンプルワイズ活性化パターン
SWAP-NAS: Sample-Wise Activation Patterns for Ultra-fast NAS ( http://arxiv.org/abs/2403.04161v3 ) ライセンス: Link先を確認 | Yameng Peng, Andy Song, Haytham M. Fayek, Vic Ciesielski, Xiaojun Chang | (参考訳) トレーニングフリーなメトリクス(すなわちゼロコストプロキシ)は、特にニューラルアーキテクチャサーチ(NAS)において、リソース集約型ニューラルネットワークトレーニングを避けるために広く使用されている。
近年の研究では、既存のトレーニングフリーメトリクスには、相関の限定や、異なる検索空間やタスク間の一般化の欠如など、いくつかの制限があることが示された。
そこで本研究では,Sample-Wise Activation Patternsとその派生品であるSWAP-Scoreを提案する。
入力サンプルのバッチ上でのネットワークの表現性を測定する。
SWAPスコアは,NAS-Bench-101/201/301 と TransNAS-Bench-101 において,既存のトレーニング不要の指標を15 以上上回った。
SWAP-Scoreは正規化によってさらに強化され、セルベースの検索空間の相関がさらに高められ、検索中のモデルサイズ制御が可能となる。
例えば、NAS-Bench-201ネットワーク上の正規化SWAP-ScoreとCIFAR-100の検証精度のSpearmanのランク相関係数は0.90であり、第2の基準であるNWOTよりは0.80よりかなり高い。
NASの進化的アルゴリズムと統合すると、SWAP-NASは、約6分9分でCIFAR-10とImageNetの競合性能を達成する。
Training-free metrics (a.k.a. zero-cost proxies) are widely used to avoid resource-intensive neural network training, especially in Neural Architecture Search (NAS). Recent studies show that existing training-free metrics have several limitations, such as limited correlation and poor generalisation across different search spaces and tasks. Hence, we propose Sample-Wise Activation Patterns and its derivative, SWAP-Score, a novel high-performance training-free metric. It measures the expressivity of networks over a batch of input samples. The SWAP-Score is strongly correlated with ground-truth performance across various search spaces and tasks, outperforming 15 existing training-free metrics on NAS-Bench-101/201/301 and TransNAS-Bench-101. The SWAP-Score can be further enhanced by regularisation, which leads to even higher correlations in cell-based search space and enables model size control during the search. For example, Spearman's rank correlation coefficient between regularised SWAP-Score and CIFAR-100 validation accuracies on NAS-Bench-201 networks is 0.90, significantly higher than 0.80 from the second-best metric, NWOT. When integrated with an evolutionary algorithm for NAS, our SWAP-NAS achieves competitive performance on CIFAR-10 and ImageNet in approximately 6 minutes and 9 minutes of GPU time respectively. | 翻訳日:2024-03-14 10:59:05 公開日:2024-03-13 |
# 言語モデルは天才か?アルゴリズム的なパズルは恐ろしい
マルチモーダル推論の課題
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning ( http://arxiv.org/abs/2403.03864v3 ) ライセンス: Link先を確認 | Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria | (参考訳) 本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では、視覚的理解、言語理解、複雑なアルゴリズム推論の両方を必要とするアルゴリズムパズルを解く際に、マルチモーダル言語モデルの能力に挑戦し、評価するために設計された新しいデータセットAlgoPuzzleVQAを提案する。
我々は,視覚データ解釈とアルゴリズム的問題解決スキルのギャップを評価することを目的とした,ブール論理,コンビネータ論,グラフ理論,最適化,探索など,多種多様な数学的およびアルゴリズム的なトピックを包含するパズルを作成する。
データセットは、人間が作成したコードから自動的に生成される。
私たちのパズルはすべて、退屈な人間の計算なしにアルゴリズムから見つけることができる正確な解を持っています。
推論の複雑さとデータセットサイズの観点から、データセットを任意にスケールアップできるようにします。
GPT4V や Gemini のような大規模言語モデル (LLM) はパズル解法において限られた性能を示した。
多数のパズルに対する複数選択質問回答設定において,その性能はランダムに近いことが判明した。
この発見は、複雑な推論問題を解決するために視覚的、言語的、アルゴリズム的な知識を統合することの課題を強調した。
This paper introduces the novel task of multimodal puzzle solving, framed within the context of visual question-answering. We present a new dataset, AlgoPuzzleVQA designed to challenge and evaluate the capabilities of multimodal language models in solving algorithmic puzzles that necessitate both visual understanding, language understanding, and complex algorithmic reasoning. We create the puzzles to encompass a diverse array of mathematical and algorithmic topics such as boolean logic, combinatorics, graph theory, optimization, search, etc., aiming to evaluate the gap between visual data interpretation and algorithmic problem-solving skills. The dataset is generated automatically from code authored by humans. All our puzzles have exact solutions that can be found from the algorithm without tedious human calculations. It ensures that our dataset can be scaled up arbitrarily in terms of reasoning complexity and dataset size. Our investigation reveals that large language models (LLMs) such as GPT4V and Gemini exhibit limited performance in puzzle-solving tasks. We find that their performance is near random in a multi-choice question-answering setup for a significant number of puzzles. The findings emphasize the challenges of integrating visual, language, and algorithmic knowledge for solving complex reasoning problems. | 翻訳日:2024-03-14 10:59:04 公開日:2024-03-13 |
# 画像クラス増分学習のための一般化可能な2分岐フレームワーク
Generalizable Two-Branch Framework for Image Class-Incremental Learning ( http://arxiv.org/abs/2402.18086v4 ) ライセンス: Link先を確認 | Chao Wu, Xiaobin Chang, Ruixuan Wang | (参考訳) ディープニューラルネットワークはしばしば、新しい知識を学ぶ際に、以前に学んだ知識を忘れてしまう。
種々の連続学習法 (CL) は, 様々な視点から, 破滅的な忘れの問題に対処し, 大幅な改善が達成されている。
本稿では,既存のCL手法をさらに強化するために,新しい2分岐連続学習フレームワークを提案する。
具体的には、メインブランチは既存のCLモデルであり、新しく導入されたサイドブランチは軽量な畳み込みネットワークである。
各主分岐ブロックの出力は、対応する側分岐ブロックの出力によって変調される。
このような単純な2分岐モデルを簡単に実装し、whiやベルを使わずにバニラ最適化設定で学習することができる。
複数の画像データセットの様々な設定による大規模な実験により、提案したフレームワークは最先端の手法よりも一貫した改善をもたらすことが示された。
Deep neural networks often severely forget previously learned knowledge when learning new knowledge. Various continual learning (CL) methods have been proposed to handle such a catastrophic forgetting issue from different perspectives and achieved substantial improvements. In this paper, a novel two-branch continual learning framework is proposed to further enhance most existing CL methods. Specifically, the main branch can be any existing CL model and the newly introduced side branch is a lightweight convolutional network. The output of each main branch block is modulated by the output of the corresponding side branch block. Such a simple two-branch model can then be easily implemented and learned with the vanilla optimization setting without whistles and bells. Extensive experiments with various settings on multiple image datasets show that the proposed framework yields consistent improvements over state-of-the-art methods. | 翻訳日:2024-03-14 10:59:03 公開日:2024-03-13 |
# MambaMorph:医療用MR-CTのためのMambaベースのフレームワーク
登録
MambaMorph: a Mamba-based Framework for Medical MR-CT Deformable Registration ( http://arxiv.org/abs/2401.13934v4 ) ライセンス: Link先を確認 | Tao Guo and Yinuo Wang and Shihao Shu and Diansheng Chen and Zhouping Tang and Cai Meng and Xiangzhi Bai | (参考訳) 医用画像解析において,異なるモダリティにまたがるボクセルの空間的対応を捉えることが重要である。
しかし、現在の登録手法は、登録精度と臨床応用性の観点からは不十分である。
本稿では,新しい多モード変形可能な登録フレームワークであるMambaMorphを紹介する。
具体的には、MambaMorphは、Mambaベースの登録モジュールと、細粒度でシンプルで特徴抽出器を使用して、効率的な長距離対応モデリングと高次元特徴学習を行う。
さらに,マルチモーダル登録におけるデータの不足に対処するため,脳MR-CT登録データセットSR-Regを開発した。
MambaMorphのマルチモダリティ登録機能を検証するため、SR-RegデータセットとパブリックT1-T2データセットの両方で定量的な実験を行った。
両データセットの実験結果から,MambaMorphは,登録精度の観点から,現在の最先端の学習ベース登録方法よりも有意に優れていることが示された。
さらに,マンバをベースとした登録モジュールと軽量特徴抽出器の効率性を強調し,適正な計算コストと速度を維持しつつ,優れた登録品質を実現する。
我々は,MambaMorphが医用画像登録の実用化に有意な可能性を秘めていると考えている。
MambaMorphのコードは、https://github.com/Guo-Stone/MambaMorphで入手できる。
Capturing voxel-wise spatial correspondence across distinct modalities is crucial for medical image analysis. However, current registration approaches are not practical enough in terms of registration accuracy and clinical applicability. In this paper, we introduce MambaMorph, a novel multi-modality deformable registration framework. Specifically, MambaMorph utilizes a Mamba-based registration module and a fine-grained, yet simple, feature extractor for efficient long-range correspondence modeling and high-dimensional feature learning, respectively. Additionally, we develop a well-annotated brain MR-CT registration dataset, SR-Reg, to address the scarcity of data in multi-modality registration. To validate MambaMorph's multi-modality registration capabilities, we conduct quantitative experiments on both our SR-Reg dataset and a public T1-T2 dataset. The experimental results on both datasets demonstrate that MambaMorph significantly outperforms the current state-of-the-art learning-based registration methods in terms of registration accuracy. Further study underscores the efficiency of the Mamba-based registration module and the lightweight feature extractor, which achieve notable registration quality while maintaining reasonable computational costs and speeds. We believe that MambaMorph holds significant potential for practical applications in medical image registration. The code for MambaMorph is available at: https://github.com/Guo-Stone/MambaMorph. | 翻訳日:2024-03-14 10:59:03 公開日:2024-03-13 |
# 凍結型マルチモーダルファンデーションモデルによるソースフリードメイン適応
Source-Free Domain Adaptation with Frozen Multimodal Foundation Model ( http://arxiv.org/abs/2311.16510v3 ) ライセンス: Link先を確認 | Song Tang, Wenxin Su, Mao Ye, and Xiatian Zhu | (参考訳) Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットトレーニングデータと教師付きソースドメインで事前トレーニングされたソースモデルのみにアクセスして、ターゲットドメインにソースモデルを適用することを目的としている。
疑似ラベリングおよび/または補助的な監督に基づく従来の手法は、必然的にエラーを起こしやすい。
この制限を緩和するために、この研究では、不均一な知識を伴い、リッチで、市販のヴィジュアル言語(ViL)マルチモーダルモデル(例えば、CLIP)のポテンシャルを初めて探求する。
ゼロショット方式でターゲット領域に直接ViLモデルを適用することは、この特定のタスクに特化せず、概ね汎用的であるため、不満足である。
タスクを具体化するために,新しいDIFOアポローチモデルを提案する。
具体的には、DIFOは順応中に2つのステップを交互に切り替える。
一 ターゲットモデルとの相互情報を素早い学習方法で最大化することにより、ViLモデルをカスタマイズすること。
(II)このカスタマイズされたViLモデルの知識をターゲットモデルに拡張する。
より微細で信頼性の高い蒸留には、さらに2つの効果的な正則化項、すなわち最も類似したカテゴリーの奨励と予測整合を導入する。
大規模な実験により、DIFOは最先端の代替品よりも著しく優れていることが示された。
コードはここです
Source-Free Domain Adaptation (SFDA) aims to adapt a source model for a target domain, with only access to unlabeled target training data and the source model pre-trained on a supervised source domain. Relying on pseudo labeling and/or auxiliary supervision, conventional methods are inevitably error-prone. To mitigate this limitation, in this work we for the first time explore the potentials of off-the-shelf vision-language (ViL) multimodal models (e.g.,CLIP) with rich whilst heterogeneous knowledge. We find that directly applying the ViL model to the target domain in a zero-shot fashion is unsatisfactory, as it is not specialized for this particular task but largely generic. To make it task specific, we propose a novel Distilling multimodal Foundation model(DIFO)approach. Specifically, DIFO alternates between two steps during adaptation: (i) Customizing the ViL model by maximizing the mutual information with the target model in a prompt learning manner, (ii) Distilling the knowledge of this customized ViL model to the target model. For more fine-grained and reliable distillation, we further introduce two effective regularization terms, namely most-likely category encouragement and predictive consistency. Extensive experiments show that DIFO significantly outperforms the state-of-the-art alternatives. Code is here | 翻訳日:2024-03-14 10:59:02 公開日:2024-03-13 |
# WsiCaption: 病態レポートの複数インスタンス生成
ギガピクセル全スライド画像
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images ( http://arxiv.org/abs/2311.16480v3 ) ライセンス: Link先を確認 | Pingyi Chen, Honglin Li, Chenglu Zhu, Sunyi Zheng, Zhongyi Shui, Lin Yang | (参考訳) 全スライド画像は、癌の診断と治療のためのデジタル病理の基礎である。
病理報告を書くことは、経験の浅い病理学者にとって、残酷でエラーを起こしやすい。
作業負荷を低減し, 臨床自動化を改善するため, スライド画像全体の病態レポートの作成方法について検討した。
データエンドでは、最大のWSIテキストデータセット(TCGA-PathoText)をキュレートしました。
具体的には,TCGAにおける診断スライドの認識とクリーニングにより,約10000の高品質なWSIテキストペアを視覚言語モデルで収集した。
モデル終端では、ギガピクセルWSIに対する病理報告を生成できる多重インスタンス生成モデル(MI-Gen)を提案する。
TCGA-PathoTextの最大のサブセットにモデルをベンチマークする。
実験結果から,本モデルでは,複数の臨床手掛かりを含む病態報告を生成でき,特定のスライドレベルタスクにおける競合性能を達成できることが示された。
本研究は, BRCA サブタイプにおいて, 診断報告から単純な意味抽出を行うことで, 従来の最先端手法を超越した性能(F1スコアの0.838)を達成できることを観察する。
収集したデータセットと関連するコードが利用可能です。
Whole slide images are the foundation of digital pathology for the diagnosis and treatment of carcinomas. Writing pathology reports is laborious and error-prone for inexperienced pathologists. To reduce the workload and improve clinical automation, we investigate how to generate pathology reports given whole slide images. On the data end, we curated the largest WSI-text dataset (TCGA-PathoText). In specific, we collected nearly 10000 high-quality WSI-text pairs for visual-language models by recognizing and cleaning pathology reports which narrate diagnostic slides in TCGA. On the model end, we propose the multiple instance generative model (MI-Gen) which can produce pathology reports for gigapixel WSIs. We benchmark our model on the largest subset of TCGA-PathoText. Experimental results show our model can generate pathology reports which contain multiple clinical clues and achieve competitive performance on certain slide-level tasks. We observe that simple semantic extraction from the pathology reports can achieve the best performance (0.838 of F1 score) on BRCA subtyping surpassing previous state-of-the-art approaches. Our collected dataset and related code are available. | 翻訳日:2024-03-14 10:59:02 公開日:2024-03-13 |