このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240328となっている論文です。

PDF登録状況(公開日: 20240328)

TitleAuthorsAbstract論文公表日・翻訳日
# ML2SC: ブロックチェーン上のスマートコントラクトとしてマシンラーニングモデルをデプロイする

ML2SC: Deploying Machine Learning Models as Smart Contracts on the Blockchain ( http://arxiv.org/abs/2404.16967v1 )

ライセンス: Link先を確認
Zhikai Li, Steve Vott, Bhaskar Krishnamachar, (参考訳) AIの安全性に対する懸念が高まっているため、マシンラーニング(ML)モデルによる計算を信頼する必要がある。 ブロックチェーン技術は、データの記録と計算の透明な実行で知られており、この信頼を提供する。 ML分類器をチェーン上にデプロイする際の大きな課題のひとつは、MLモデルは一般的にPytorchなどのMLライブラリを使用してPythonで記述されるが、EVM互換のブロックチェーンにデプロイされるスマートコントラクトはSolidityで記述されていることだ。 我々は、Pytorchで記述された多層パーセプトロン(MLP)モデルをSolidityスマートコントラクトバージョンに自動的に変換できる、PyTorch to SolidityトランスレータであるML2SC(Machine Learning to Smart Contract)を紹介した。 ML2SCは浮動小数点演算を近似するために固定点数学ライブラリを使用する。 生成されたスマートコントラクトをデプロイした後、PyTorchを使用してモデルをオフチェーンでトレーニングし、取得したウェイトとバイアスを関数コールを使用してスマートコントラクトに転送します。 最後に、モデル推論は入力を提供する関数呼び出しで行うこともできる。 我々は, モデルパラメータの配置, 更新, およびこれらのモデル上での推論に伴うガスコストを数学的にモデル化し, MLPに関連する様々なパラメータにおいて, ガスコストが線形に増加することを示す。 モデリングと一致する実験結果を示す。 また、透明なオンチェーン実装によって得られた出力が、Pytorchによる元のオフチェーン実装と同一であることを示す分類精度も評価した。

With the growing concern of AI safety, there is a need to trust the computations done by machine learning (ML) models. Blockchain technology, known for recording data and running computations transparently and in a tamper-proof manner, can offer this trust. One significant challenge in deploying ML Classifiers on-chain is that while ML models are typically written in Python using an ML library such as Pytorch, smart contracts deployed on EVM-compatible blockchains are written in Solidity. We introduce Machine Learning to Smart Contract (ML2SC), a PyTorch to Solidity translator that can automatically translate multi-layer perceptron (MLP) models written in Pytorch to Solidity smart contract versions. ML2SC uses a fixed-point math library to approximate floating-point computation. After deploying the generated smart contract, we can train our models off-chain using PyTorch and then further transfer the acquired weights and biases to the smart contract using a function call. Finally, the model inference can also be done with a function call providing the input. We mathematically model the gas costs associated with deploying, updating model parameters, and running inference on these models on-chain, showing that the gas costs increase linearly in various parameters associated with an MLP. We present empirical results matching our modeling. We also evaluate the classification accuracy showing that the outputs obtained by our transparent on-chain implementation are identical to the original off-chain implementation with Pytorch.
翻訳日:2024-05-05 18:04:17 公開日:2024-03-28
# ニューラルネットワークを用いたロボットアームの関節トルク予測

Joint torques prediction of a robotic arm using neural networks ( http://arxiv.org/abs/2405.00695v1 )

ライセンス: Link先を確認
Giulia d'Addato, Ruggero Carli, Eurico Pedrosa, Artur Pereira, Luigi Palopoli, Daniele Fontanelli, (参考訳) 多くのロボットアプリケーションには正確なダイナミックモデルが不可欠である。 これらのモデルを導出するための伝統的なアプローチは、ラグランジュ力学やニュートン力学の応用に基づいている。 これらの手法はシステムの物理的挙動に関する優れた洞察を与えるが、慣性、摩擦、関節の柔軟性といったパラメータの正確な知識に依存している。 さらに、このシステムは飽和やデッドゾーンといった不確実で非線形な影響を受けやすいため、モデル化が難しい場合が多い。 一般的な代替手段は、"ブラックボックス"方法論のコンテキストにおける機械学習(ML)テクニック(例えば、ニューラルネットワーク(NN))の適用である。 本稿では,実際の6自由度マニピュレータ(DoF)に対するこのアプローチの経験について報告する。 具体的には,NNアーキテクチャとして単一NN,複数NN,カスケードNNについて検討した。 NNハイパーパラメータの選択に異なるポリシーを用いてシステムの性能を比較した。 実験の結果, 最大精度と性能はカスケードNNで得られ, 関節間の依存関係に関するこれまでの物理知識を符号化し, ハイパーパラメータの適切な最適化によって補完することがわかった。

Accurate dynamic models are crucial for many robotic applications. Traditional approaches to deriving these models are based on the application of Lagrangian or Newtonian mechanics. Although these methods provide a good insight into the physical behaviour of the system, they rely on the exact knowledge of parameters such as inertia, friction and joint flexibility. In addition, the system is often affected by uncertain and nonlinear effects, such as saturation and dead zones, which can be difficult to model. A popular alternative is the application of Machine Learning (ML) techniques - e.g., Neural Networks (NNs) - in the context of a "black-box" methodology. This paper reports on our experience with this approach for a real-life 6 degrees of freedom (DoF) manipulator. Specifically, we considered several NN architectures: single NN, multiple NNs, and cascade NN. We compared the performance of the system by using different policies for selecting the NN hyperparameters. Our experiments reveal that the best accuracy and performance are obtained by a cascade NN, in which we encode our prior physical knowledge about the dependencies between joints, complemented by an appropriate optimisation of the hyperparameters.
翻訳日:2024-05-05 17:54:32 公開日:2024-03-28
# 深部シンボルレグレッションによる閉形混雑制御

Closed-form congestion control via deep symbolic regression ( http://arxiv.org/abs/2405.01435v1 )

ライセンス: Link先を確認
Jean Martins, Igor Almeida, Ricardo Souza, Silvia Lins, (参考訳) モバイルネットワークが5G時代を受け入れるにつれ、超低レイテンシと高スループットシナリオの課題に対処する強化学習(RL)アルゴリズムの採用への関心が高まっている。 同時に、パケット化されたフロントホールネットワークの出現は、従来の渋滞制御機構が達成できない要求を課し、RLベースの混雑制御アルゴリズムの可能性を強調している。 厳格なフロントホール要件を満たすために最適化されたRLポリシーを学ぶことは実現可能だが、実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関していくつかの課題を提起している。 本稿では,ベースラインRLポリシーによって提供される性能と一般化能力を維持しつつ,このような課題に対処する手法を提案する。 本手法は,(1)フォアホール型ネットワークに特有な渋滞制御ポリシーを強化学習により訓練し,(2)ベースラインから状態行動経験を収集し,(3)収集したデータセットに深い記号回帰を行う。 提案手法は, ベースライン性能(リンク利用, 遅延, 公平性)を近似し, 任意のプログラミング言語で直接実装可能なクローズドフォーム式により, 推論時間制限に関連する課題を克服する。 最後に, 閉形式表現の内部構造を解析する。

As mobile networks embrace the 5G era, the interest in adopting Reinforcement Learning (RL) algorithms to handle challenges in ultra-low-latency and high throughput scenarios increases. Simultaneously, the advent of packetized fronthaul networks imposes demanding requirements that traditional congestion control mechanisms cannot accomplish, highlighting the potential of RL-based congestion control algorithms. Although learning RL policies optimized for satisfying the stringent fronthaul requirements is feasible, the adoption of neural network models in real deployments still poses some challenges regarding real-time inference and interpretability. This paper proposes a methodology to deal with such challenges while maintaining the performance and generalization capabilities provided by a baseline RL policy. The method consists of (1) training a congestion control policy specialized in fronthaul-like networks via reinforcement learning, (2) collecting state-action experiences from the baseline, and (3) performing deep symbolic regression on the collected dataset. The proposed process overcomes the challenges related to inference-time limitations through closed-form expressions that approximate the baseline performance (link utilization, delay, and fairness) and which can be directly implemented in any programming language. Finally, we analyze the inner workings of the closed-form expressions.
翻訳日:2024-05-05 17:44:45 公開日:2024-03-28
# エアトラヒック制御器のマルチモーダル生理学的データを用いた主観的時間知覚の自動分類

Automatic Classification of Subjective Time Perception Using Multi-modal Physiological Data of Air Traffic Controllers ( http://arxiv.org/abs/2404.15213v1 )

ライセンス: Link先を確認
Till Aust, Eirini Balta, Argiro Vatakis, Heiko Hamann, (参考訳) 幸福感の指標の1つは、その人の主観的時間知覚である。 プロジェクトChronoPilotでは、人間の主観的時間知覚を調節する装置の開発を目標としている。 本研究では,その生理的データと11種類の最先端機械学習分類器を用いて,航空交通管制官の主観的時間知覚を自動的に評価する手法を提案する。 生理データは、光胸腺図、電球活動、温度データから成っている。 支持ベクトル分類器は,99%の精度で有効であり,電磁気活性は最も説明的なバイオマーカーを提供する。 これらの発見は、ユーザの主観的時間知覚を自動的に調節するChronoPilot-deviceのフィードバックループを閉じるための重要なステップである。 この技術進歩は、高度な専門職におけるタスクマネジメント、ストレス低減、全体的な生産性の向上を約束する。

One indicator of well-being can be the person's subjective time perception. In our project ChronoPilot, we aim to develop a device that modulates human subjective time perception. In this study, we present a method to automatically assess the subjective time perception of air traffic controllers, a group often faced with demanding conditions, using their physiological data and eleven state-of-the-art machine learning classifiers. The physiological data consist of photoplethysmogram, electrodermal activity, and temperature data. We find that the support vector classifier works best with an accuracy of 79 % and electrodermal activity provides the most descriptive biomarker. These findings are an important step towards closing the feedback loop of our ChronoPilot-device to automatically modulate the user's subjective time perception. This technological advancement may promise improvements in task management, stress reduction, and overall productivity in high-stakes professions.
翻訳日:2024-04-28 11:06:36 公開日:2024-03-28
# FewUser: コントラスト学習によるソーシャルユーザジオロケーション

FewUser: Few-Shot Social User Geolocation via Contrastive Learning ( http://arxiv.org/abs/2404.08662v1 )

ライセンス: Link先を確認
Menglin Li, Kwan Hui Lim, (参考訳) ソーシャルユーザジオロケーションのためのジオタグデータの不足に対処するため、FewUserというソーシャルユーザジオロケーションのための新しいフレームワークを提案する。 ユーザとロケーション間のコントラスト学習戦略を取り入れて,トレーニングデータに制限なく位置情報性能を向上させる。 FewUserは、事前訓練された言語モデル(PLM)を利用するユーザ表現モジュールと、多様なソーシャルメディア入力を効率的に処理し、融合させるユーザエンコーダを備えている。 PLMの知識と地理的データとのギャップを埋めるため、ハード、ソフト、セミソフトのプロンプトを持つ地理的プロンプトモジュールを導入し、位置情報のエンコーディングを強化する。 コントラスト学習は、対照的な損失と一致した損失を通じて実施され、学習プロセスを洗練するための強硬な負のマイニング戦略によって補完される。 既存のベンチマークよりも豊富なメタデータを含むTwiUとFliUの2つのデータセットを構築し、FewUserを評価することで、FewUserはゼロショットと様々な数ショット設定の両方で最先端のメソッドを著しく上回り、TwiUとFliUでは26.95\%と \textbf{41.62\%の絶対的な改善を実現している。 さらに、ユーザ表現が位置情報性能に与える影響とFewUserのコンポーネントの有効性を総合的に分析し、今後の研究に有用な知見を提供する。

To address the challenges of scarcity in geotagged data for social user geolocation, we propose FewUser, a novel framework for Few-shot social User geolocation. We incorporate a contrastive learning strategy between users and locations to improve geolocation performance with no or limited training data. FewUser features a user representation module that harnesses a pre-trained language model (PLM) and a user encoder to process and fuse diverse social media inputs effectively. To bridge the gap between PLM's knowledge and geographical data, we introduce a geographical prompting module with hard, soft, and semi-soft prompts, to enhance the encoding of location information. Contrastive learning is implemented through a contrastive loss and a matching loss, complemented by a hard negative mining strategy to refine the learning process. We construct two datasets TwiU and FliU, containing richer metadata than existing benchmarks, to evaluate FewUser and the extensive experiments demonstrate that FewUser significantly outperforms state-of-the-art methods in both zero-shot and various few-shot settings, achieving absolute improvements of 26.95\% and \textbf{41.62\%} on TwiU and FliU, respectively, with only one training sample per class. We further conduct a comprehensive analysis to investigate the impact of user representation on geolocation performance and the effectiveness of FewUser's components, offering valuable insights for future research in this area.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-28
# アンモニア分子の直流スターク共鳴の計算

Calculation of DC Stark Resonances for the Ammonia Molecule ( http://arxiv.org/abs/2404.10000v1 )

ライセンス: Link先を確認
Patrik Pirkola, Marko Horbatsch, (参考訳) アンモニア分子のために以前に開発されたモデル電位は、Mocciaによって開発された自己持続磁場法と類似した単一中心部分波近似で処理される。 後者は多くの衝突実験で使用された。 モデルポテンシャルは、放射座標の複素スケーリング法を用いて、dcスターク共鳴パラメータ、すなわち、単一中心部分波展開における共鳴位置とシフトを計算するために用いられる。 3つの分子価軌道は、3つのカルト座標、すなわち分子軸に沿った2つの垂直方向の磁場に対して研究される。 この研究は、非単調なシフトが観測された平面幾何学水分子に関する以前の研究を拡張した。 分子軸に沿った場の非単調なシフトが見つかる。 垂直場の場合、1e軌道の高速かつ遅いイオン化軌道への分割を報告する。

A model potential previously developed for the ammonia molecule is treated in a single-center partial-wave approximation in analogy with a self-consistent field method developed by Moccia. The latter was used in a number of collision studies. The model potential is used to calculate dc Stark resonance parameters, i.e., resonance positions and shifts within a single-center partial wave expansion, using the exterior complex scaling method for the radial coordinate. Three molecular valence orbitals are investigated for fields along the three Cartesian coordinates, i.e., along the molecular axis and in two perpendicular directions. The work extends previous work on the planar-geometry water molecule for which non-monotonic shifts were observed. We find such non-monotonic shifts for fields along the molecular axis. For perpendicular fields we report the splitting of the 1e orbitals into a fast- and a slow-ionizing orbital.
翻訳日:2024-04-21 19:54:47 公開日:2024-03-28
# ハイパースペクトル臨床応用のための空間スペクトル分類器の並列実装評価

Parallel Implementations Assessment of a Spatial-Spectral Classifier for Hyperspectral Clinical Applications ( http://arxiv.org/abs/2404.10631v1 )

ライセンス: Link先を確認
Raquel Lazcano, Daniel Madroñal, Giordana Florimbi, Jaime Sancho, Sergio Sanchez, Raquel Leon, Himar Fabelo, Samuel Ortega, Emanuele Torti, Ruben Salvador, Margarita Marrero-Martin, Francesco Leporati, Eduardo Juarez, Gustavo M Callico, Cesar Sanz, (参考訳) ハイパースペクトル(HS)イメージングは、医療診断に適した非接触、非イオン化、非侵襲的手法として自らを提示する。 しかし,これらの画像に含まれる情報量は,リアルタイムに境界情報を提供するのが困難である。 そのため、HPC(High-Performance-Computing)プラットフォームが必要である。 本稿では,5つの異なるHPCプラットフォームが提供する性能の比較を行い,HS画像の空間スペクトルによる分類を行い,その主な利点と欠点を評価する。 完全な研究のために、2つの異なる要件を持つ2つの異なる医学的応用が分析された。 第1の応用は、神経外科手術から採取したHS画像から成り、第2の応用は、皮膚科的介入から採取したHS画像を提示する。 神経外科的応用の主な制約は処理時間であるが、他の環境においては皮膚学的な要件も考慮できる。 この種のアプリケーションは通常ハンドヘルドデバイスとして開発され、バッテリー容量に依存するため、その意味でエネルギー効率は大きな課題となっている。 これらの要件は、ターゲットプラットフォームを選択するために検討されている。一方、市場で利用可能な最も強力なGraphic Processing Unit(GPU)の3つと、低消費電力GPUとマルチコアアーキテクチャである。

Hyperspectral (HS) imaging presents itself as a non-contact, non-ionizing and non-invasive technique, proven to be suitable for medical diagnosis. However, the volume of information contained in these images makes difficult providing the surgeon with information about the boundaries in real-time. To that end, High-Performance-Computing (HPC) platforms become necessary. This paper presents a comparison between the performances provided by five different HPC platforms while processing a spatial-spectral approach to classify HS images, assessing their main benefits and drawbacks. To provide a complete study, two different medical applications, with two different requirements, have been analyzed. The first application consists of HS images taken from neurosurgical operations; the second one presents HS images taken from dermatological interventions. While the main constraint for neurosurgical applications is the processing time, in other environments, as the dermatological one, other requirements can be considered. In that sense, energy efficiency is becoming a major challenge, since this kind of applications are usually developed as hand-held devices, thus depending on the battery capacity. These requirements have been considered to choose the target platforms: on the one hand, three of the most powerful Graphic Processing Units (GPUs) available in the market; and, on the other hand, a low-power GPU and a manycore architecture, both specifically thought for being used in battery-dependent environments.
翻訳日:2024-04-21 19:45:03 公開日:2024-03-28
# 機械学習による検査性能の変動源の同定

Machine learning augmented diagnostic testing to identify sources of variability in test performance ( http://arxiv.org/abs/2404.03678v1 )

ライセンス: Link先を確認
Christopher J. Banks, Aeron Sanchez, Vicki Stewart, Kate Bowen, Graham Smith, Rowland R. Kao, (参考訳) 予防接種前またはサブクリニカル感染を検出できる診断検査は、我々の武器の装甲において、伝染病を予防するための最も強力なツールの1つです。 そのため、人間、植物、動物の病気に対する診断検査の改善に多大な努力が払われている。 本稿では、機械学習を用いて、診断試験を適用して解釈を強化する状況リスクを評価することにより、この概念をさらに洗練するための最近の提案に従う。 本研究は,ウシの結核による牛の群集の崩壊の発生を予測し,極めて詳細な検査記録の入手可能性を利用した。 検査特異性を損なうことなく、皮膚検査で検出された感染群の割合が16ポイント以上向上するように、検査感度を向上できることを示した。 多くの危険因子が感染リスクの増加に関連しているが、いくつかの群れでは、検査を行う獣医の習慣と相関する影響や家畜の数が群れから移動したなど、感染のリスクが未発見であることが示唆されている。

Diagnostic tests which can detect pre-clinical or sub-clinical infection, are one of the most powerful tools in our armoury of weapons to control infectious diseases. Considerable effort has been therefore paid to improving diagnostic testing for human, plant and animal diseases, including strategies for targeting the use of diagnostic tests towards individuals who are more likely to be infected. Here, we follow other recent proposals to further refine this concept, by using machine learning to assess the situational risk under which a diagnostic test is applied to augment its interpretation . We develop this to predict the occurrence of breakdowns of cattle herds due to bovine tuberculosis, exploiting the availability of exceptionally detailed testing records. We show that, without compromising test specificity, test sensitivity can be improved so that the proportion of infected herds detected by the skin test, improves by over 16 percentage points. While many risk factors are associated with increased risk of becoming infected, of note are several factors which suggest that, in some herds there is a higher risk of infection going undetected, including effects that are correlated to the veterinary practice conducting the test, and number of livestock moved off the herd.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-28
# 持続可能な土壌管理慣行に対応する土壌呼吸信号は土壌有機炭素ストックを増強する

Soil respiration signals in response to sustainable soil management practices enhance soil organic carbon stocks ( http://arxiv.org/abs/2404.05737v1 )

ライセンス: Link先を確認
Mario Guevara, (参考訳) 土壌温度, 年次土壌水分, 土壌有機炭素(C)推定に基づく地球規模における土壌呼吸の時空間およびデータ駆動モデルの開発 比較的高精度な土壌呼吸予測(1991-2018) (NSE 0.69, CCC 0.82)。 土壌呼吸の傾向は, 土壌呼吸の傾向が低く, 土壌呼吸の規模が大きくなるとともに, 持続的な土壌管理の実践を経験する地域全体の土壌有機物在庫が増加した。

Development of a spatial-temporal and data-driven model of soil respiration at the global scale based on soil temperature, yearly soil moisture, and soil organic carbon (C) estimates. Prediction of soil respiration on an annual basis (1991-2018) with relatively high accuracy (NSE 0.69, CCC 0.82). Lower soil respiration trends, higher soil respiration magnitudes, and higher soil organic C stocks across areas experiencing the presence of sustainable soil management practices.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-28
# ポリアディックシグママトリックス

Polyadic sigma matrices ( http://arxiv.org/abs/2403.19361v1 )

ライセンス: Link先を確認
Steven Duplij, (参考訳) 著者らによって提案されたポリアダナイズ手順を用いて、より高次アリーズに$\sigma$-matricesを一般化する。 循環シフトブロック行列を用いて、$SU\left(2\right) $ の非派生 $n$-ary バージョンを構築します。 ブロック対角行列の通常のトレースに類似した付加性を持ち、対応する不変量を構築するために使用できる新しい関数、ポリアディックトレースを定義する。 ここで導入された基本的な$\Sigma$-行列は、通常の行列単位と同様の役割を果たすが、それらの和はフル$\Sigma$-行列であり、$\Sigma$-行列の多進類似として扱うことができる。 フル$\Sigma$-matricesという観点からの$n$-ary $SU\left(2\right)$のプレゼンテーションは、Hadamard製品を使って行われる。 2次の場合については、次数 4q$ (q>4$) の巡回群の乗数を持つ拡大位相シフト$\sigma$-行列を導入し、ポリアディックの場合、次数 4q\left(n-1\right) +1$ の対応有限$n$-項半群と、次数 $\Sigma$-行列の有限$n$-項群を構築する。 最後に、不均一完全$\mathit{\Sigma}^{het}$-行列の有限$n$-ary群を次数$\left(4q\left(n-1\right) \right) ^{4}$に導入する。 最も低いアリティのいくつかの例が提示される。

We generalize $\sigma$-matrices to higher arities using the polyadization procedure proposed by the author. We build the nonderived $n$-ary version of $SU\left( 2\right) $ using cyclic shift block matrices. We define a new function, the polyadic trace, which has an additivity property analogous to the ordinary trace for block diagonal matrices and which can be used to build the corresponding invariants. The elementary $\Sigma$-matrices introduced here play a role similar to ordinary matrix units, and their sums are full $\Sigma$-matrices which can be treated as a polyadic analog of $\sigma$-matrices. The presentation of $n$-ary $SU\left( 2\right) $ in terms of full $\Sigma$-matrices is done using the Hadamard product. We then generalize the Pauli group in two ways: for the binary case we introduce the extended phase shifted $\sigma$-matrices with multipliers in cyclic groups of order $4q$ ($q>4$), and for the polyadic case we construct the correspondent finite $n$-ary semigroup of phase-shifted elementary $\Sigma$-matrices of order $4q\left( n-1\right) +1$, and the finite $n$-ary group of phase-shifted full $\Sigma$-matrices of order $4q$. Finally, we introduce the finite $n$-ary group of heterogeneous full $\mathit{\Sigma}^{het}$-matrices of order $\left( 4q\left( n-1\right) \right) ^{4}$. Some examples of the lowest arities are presented.
翻訳日:2024-04-04 07:37:38 公開日:2024-03-28
# プロセスサイエンスの理論的基礎を目指して

Towards a Theoretical Foundation of Process Science ( http://arxiv.org/abs/2404.00065v1 )

ライセンス: Link先を確認
Peter Fettke, Wolfgang Reisig, (参考訳) プロセスサイエンスは、非常に学際的な研究分野である。 多くの提案にもかかわらず、プロセス科学は、プロセス、イベント、システムといった概念を含む分野の中核的な概念を十分に理解していない。 プロセスサイエンスに対処するより体系的なフレームワークは必須である。 このようなフレームワークを例を使って提案する。 フレームワーク自体はアーキテクチャ、静的、動的という3つの側面に対処している。 確立された科学的理論に基づく形式的な概念に対応することは、世界のプロセスを理解するための統合された枠組みを提供する。 我々は,理論的な研究だけでなく,仮説化された関係を明示的に検証できる経験的研究にも,我々の基礎は肯定的な意味を持つと主張している。 今こそ、私たちの分野の基礎についての議論を始める時です。

Process science is a highly interdisciplinary field of research. Despite numerous proposals, process science lacks an adequate understanding of the core concepts of the field, including notions such as process, event, and system. A more systematic framework to cope with process science is mandatory. We suggest such a framework using an example. The framework itself addresses three aspects: architecture, statics, and dynamics. Corresponding formal concepts, based on established scientific theories, together provide an integrated framework for understanding processes in the world. We argue that our foundations have positive implications not only for theoretical research, but also for empirical research, e.g., because hypothesized relationships can be explicitly tested. It is now time to start a discussion about the foundations of our field.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# リスク要因を考慮したサイバーセキュリティ脅威に関するデータ駆動予測分析

A Data-Driven Predictive Analysis on Cyber Security Threats with Key Risk Factors ( http://arxiv.org/abs/2404.00068v1 )

ライセンス: Link先を確認
Fatama Tuz Johora, Md Shahedul Islam Khan, Esrath Kanon, Mohammad Abu Tareq Rony, Md Zubair, Iqbal H. Sarker, (参考訳) サイバーリスク(サイバーリスク、英: Cyber risk)とは、組織や個人の評判、金銭的損失、破壊のリスクを指し、この状況は通常、無意識のサイバーシステムの使用によって起こる。 サイバーリスクは日々急速に増加しており、今や世界的脅威だ。 バングラデシュのような発展途上国は、サイバーリスクの大きな課題に直面している。 世界中のサイバー脅威は、関連するリスクを予測し、管理するための効果的なモデリングの必要性に焦点を当てている。 本稿では、社会経済的要因を分析して、サイバー攻撃の犠牲者となる可能性のある個人を予測するための機械学習(ML)に基づくモデルを示す。 我々は,社会デマトグラフィーの特徴に基づいて,被害者や被害者以外のサイバー攻撃のデータセットを収集した。 調査には、データ収集のためのアンケートの開発が含まれており、特徴の意義を測定するために使用された。 データ拡張により、データセットは3286エントリに拡張され、調査とモデリングのステージが設定された。 19,20,21,26特徴を有するMLモデルのうち,20特徴(95.95\%)で最大精度を達成し,AprioriアルゴリズムとConfidence(80\%以上)を用いて選択した特徴の関連性を実証する新しい特徴ランダムフォレスト(RF)モデルを提案した。 我々は10の重要な関連ルールを作成し、実世界のデータセットで厳格に評価されたフレームワークを示し、サイバー攻撃や関連するリスク要因を効果的に予測する可能性を実証した。 今後は、予測モデルの精度を改良し、さらなるリスク要因を開拓し、サイバーセキュリティの脅威の複雑な地形をナビゲートする上で、提案されたフレームワークの有効性を固めていくことを目指している。

Cyber risk refers to the risk of defacing reputation, monetary losses, or disruption of an organization or individuals, and this situation usually occurs by the unconscious use of cyber systems. The cyber risk is unhurriedly increasing day by day and it is right now a global threat. Developing countries like Bangladesh face major cyber risk challenges. The growing cyber threat worldwide focuses on the need for effective modeling to predict and manage the associated risk. This paper exhibits a Machine Learning(ML) based model for predicting individuals who may be victims of cyber attacks by analyzing socioeconomic factors. We collected the dataset from victims and non-victims of cyberattacks based on socio-demographic features. The study involved the development of a questionnaire to gather data, which was then used to measure the significance of features. Through data augmentation, the dataset was expanded to encompass 3286 entries, setting the stage for our investigation and modeling. Among several ML models with 19, 20, 21, and 26 features, we proposed a novel Pertinent Features Random Forest (RF) model, which achieved maximum accuracy with 20 features (95.95\%) and also demonstrated the association among the selected features using the Apriori algorithm with Confidence (above 80\%) according to the victim. We generated 10 important association rules and presented the framework that is rigorously evaluated on real-world datasets, demonstrating its potential to predict cyberattacks and associated risk factors effectively. Looking ahead, future efforts will be directed toward refining the predictive model's precision and delving into additional risk factors, to fortify the proposed framework's efficacy in navigating the complex terrain of cybersecurity threats.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# 高速モデル選択のための2相リコール・アンド・セレクションフレームワーク

A Two-Phase Recall-and-Select Framework for Fast Model Selection ( http://arxiv.org/abs/2404.00069v1 )

ライセンス: Link先を確認
Jianwei Cui, Wenhang Shi, Honglin Tao, Wei Lu, Xiaoyong Du, (参考訳) さまざまな機械学習アプリケーションにおけるディープラーニングの普及が拡大するにつれ、ニューラルネットワークモデルの普及がトレーニングされ、公開モデルリポジトリで共有されている。 ターゲットとなる機械学習の課題の文脈では、アプタソースモデルを出発点として利用することで、特に限られたトレーニングデータにおいて、スクラッチからトレーニングの戦略を上回ります。 先行作業における多数のモデル選択戦略の調査と開発にもかかわらず、特にモデルリポジトリの規模が増加し続けることを考えると、プロセスは時間を要する。 本稿では、ベンチマークデータセット上でモデルのトレーニング性能を活用することにより、ロバストモデルを選択する効率を高めることを目的とした、2相モデル選択フレームワークを提案する。 具体的には、粗いリコールフェーズクラスタモデルが、オフラインでベンチマークデータセット上で同様のトレーニングパフォーマンスを示している。 その後、このモデルクラスタとターゲットデータセットの間で軽量なプロキシスコアが計算される。 次のファインセレクションフェーズでは、最終モデルは、ターゲットデータセット上のリコールされたモデルを、連続した半減期で微調整することによって選択される。 このプロセスを加速するために、各ポテンシャルモデルの最終的な微調整性能は、ベンチマークデータセット上でモデルの収束傾向をマイニングすることで予測される。 自然言語処理とコンピュータビジョンを含むタスクの広範な実験を通じて,提案手法は,従来のベースライン手法の約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。 私たちのコードはhttps://github.com/plasware/two-phase-selection.comで利用可能です。

As the ubiquity of deep learning in various machine learning applications has amplified, a proliferation of neural network models has been trained and shared on public model repositories. In the context of a targeted machine learning assignment, utilizing an apt source model as a starting point typically outperforms the strategy of training from scratch, particularly with limited training data. Despite the investigation and development of numerous model selection strategies in prior work, the process remains time-consuming, especially given the ever-increasing scale of model repositories. In this paper, we propose a two-phase (coarse-recall and fine-selection) model selection framework, aiming to enhance the efficiency of selecting a robust model by leveraging the models' training performances on benchmark datasets. Specifically, the coarse-recall phase clusters models showcasing similar training performances on benchmark datasets in an offline manner. A light-weight proxy score is subsequently computed between this model cluster and the target dataset, which serves to recall a significantly smaller subset of potential candidate models in a swift manner. In the following fine-selection phase, the final model is chosen by fine-tuning the recalled models on the target dataset with successive halving. To accelerate the process, the final fine-tuning performance of each potential model is predicted by mining the model's convergence trend on the benchmark datasets, which aids in filtering lower performance models more earlier during fine-tuning. Through extensive experimentation on tasks covering natural language processing and computer vision, it has been demonstrated that the proposed methodology facilitates the selection of a high-performing model at a rate about 3x times faster than conventional baseline methods. Our code is available at https://github.com/plasware/two-phase-selection.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# ホロー導波路における高次高調波の位相整合

Phase Matching of High-Order Harmonics in Hollow Waveguides ( http://arxiv.org/abs/2404.00071v1 )

ライセンス: Link先を確認
Charles G. Durfee III, Andy R. Rundquist, Sterling Backus, Catherine Herne, Margaret M. Murnane, Henry C. Kapteyn, (参考訳) 気化キャピラリー導波管の位相整合高調波発生例について, 実験結果との比較検討を行った。 原子分散が導波路分散のバランスをとる場合と、非線形チェレンコフ位相マッチングに対応する場合と、原子分散とプラズマ分散のバランスをとる場合の3つの相整合を観察した。 原子分散の役割は、いくつかの気体に対するハーモニック信号の依存性を研究することによって示される。 また, 位相マッチングが特定の分数イオン化レベルでのみ発生し, キャリア波の絶対位相に敏感な出力信号が生じる状態の予備的証拠も提示する。

We investigate the case of phase-matched high-harmonic generation in a gas-filled capillary waveguide, comparing in detail theory with experiment. We observe three different regimes of phase matching: one where atomic dispersion balances waveguide dispersion, another corresponding to non-collinear Cerenkov phase-matching, and a third where atomic dispersion and plasma dispersion balance. The role of atomic dispersion is demonstrated by studying the dependence of the harmonic signal for several gases. We also predict and provide preliminary evidence of a regime where phase-matching occurs only at specific fractional ionization levels, leading to an output signal that is sensitive to the absolute phase of the carrier wave.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# 中赤外光による高次高調波の位相整合

Phase-Matching of High-Order Harmonics Driven by Mid- Infrared Light ( http://arxiv.org/abs/2404.00072v1 )

ライセンス: Link先を確認
Tenio Popmintchev, Ming-Chang Chen, Oren Cohen, Michael E. Grisham, Jorge J. Rocca, Margaret M. Murnane, Henry C. Kapteyn, (参考訳) 超高速レーザー光の位相整合周波数アップコンバージョンは、より長い駆動レーザー波長を用いて短波長まで拡張可能であることを実証した。 実験により、アルゴン中での高調波発生のための位相整合遮断は、駆動レーザ波長が0.8から1.3マイクロメートルに増加すると45から100eVに増加することがわかった。 位相整合はまた、より長い波長の駆動レーザーを用いて高い圧力で得られ、単一原子応答の好ましくないスケーリングを緩和する。 理論計算により、中赤外パルスによって駆動される位相整合高調波周波数のアップコンバージョンは、極端に高光子エネルギーに拡張できることが示唆された。

We demonstrate that phase-matched frequency upconversion of ultrafast laser light can be extended to shorter wavelengths by using longer driving laser wavelengths. Experimentally, we show that the phase-matching cutoff for harmonic generation in argon increases from 45 to 100 eV when the driving laser wavelength is increased from 0.8 to 1.3 micrometers. Phase matching is also obtained at higher pressures using a longer-wavelength driving laser, mitigating the unfavorable scaling of the single-atom response. Theoretical calculations suggest that phase-matched high harmonic frequency upconversion driven by mid-infrared pulses could be extended to extremely high photon energies.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# 有限演算子学習によるミクロ組織の弾性特性と機械的変形のマッピング

A finite operator learning technique for mapping the elastic properties of microstructures to their mechanical deformations ( http://arxiv.org/abs/2404.00074v1 )

ライセンス: Link先を確認
Shahed Rezaei, Shirko Faroughi, Mahdi Asgharzadeh, Ali Harandi, Gottfried Laschet, Stefanie Reese, Markus Apel, (参考訳) 固体力学における物理方程式を高速に制御する解法を開発するために,パラメトリックに機械平衡の解を学習する手法を提案する。 提案手法は計算コストの観点から従来の手法より優れ,精度を良好に維持する。 さらに、標準的な物理インフォームドニューラルネットワークを一般化し、拡張し、かなり鋭い不連続性を持つパラメトリック解を学習する。 本稿では, マイクロメカニクスを例として, マイクロメカニクスに焦点をあてる。そこでは, マイクロメカニクスの知識, すなわち, 与えられた不均一なミクロ組織に対する変形および応力場が不可欠である。 検討中のパラメータは、不均質固体系のヤング率分布である。 演算子学習と有限要素法にインスパイアされた本手法は,他の数値解法からのデータに頼らずに学習できることを実証する。 代わりに、有限要素アプローチのアイデアを活用して、特に支配方程式の離散化弱形式に基づいて、損失関数を代数的に効率的に設定する。 特に、物理学に基づくトレーニングは、純粋なデータ駆動型アプローチよりも精度が高いことが、我々の研究で明らかになった。 本質的に、この方法はデータからの独立性を達成し、トレーニング範囲を超えた予測の精度を高める。 上述の観察は、異種弾性構造に適用される。 DeepOnetのような他のよく知られた演算子学習アルゴリズムとの比較も行われ、新しく提案されたアーキテクチャの利点をさらに強調している。

To develop faster solvers for governing physical equations in solid mechanics, we introduce a method that parametrically learns the solution to mechanical equilibrium. The introduced method outperforms traditional ones in terms of computational cost while acceptably maintaining accuracy. Moreover, it generalizes and enhances the standard physics-informed neural networks to learn a parametric solution with rather sharp discontinuities. We focus on micromechanics as an example, where the knowledge of the micro-mechanical solution, i.e., deformation and stress fields for a given heterogeneous microstructure, is crucial. The parameter under investigation is the Young modulus distribution within the heterogeneous solid system. Our method, inspired by operator learning and the finite element method, demonstrates the ability to train without relying on data from other numerical solvers. Instead, we leverage ideas from the finite element approach to efficiently set up loss functions algebraically, particularly based on the discretized weak form of the governing equations. Notably, our investigations reveal that physics-based training yields higher accuracy compared to purely data-driven approaches for unseen microstructures. In essence, this method achieves independence from data and enhances accuracy for predictions beyond the training range. The aforementioned observations apply here to heterogeneous elastic microstructures. Comparisons are also made with other well-known operator learning algorithms, such as DeepOnet, to further emphasize the advantages of the newly proposed architecture.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# BEACON: 条件付き正規化フローによるベイズ実験設計加速 : CO$_2$隔離のための最適監視井戸配置におけるケーススタディ

BEACON: Bayesian Experimental design Acceleration with Conditional Normalizing flows $-$ a case study in optimal monitor well placement for CO$_2$ sequestration ( http://arxiv.org/abs/2404.00075v1 )

ライセンス: Link先を確認
Rafael Orozco, Abhinav Gahlot, Felix J. Herrmann, (参考訳) CO$_2$隔離は気候変動を緩和するための重要なエンジニアリングソリューションである。 しかし, 貯留層特性の不確かさは, 漏洩, 誘発地震性, ライセンス境界違反などのリスクを防止するため, CO$2$プルームの厳密なモニタリングを必要とする。 これを解決するために、プロジェクトマネージャは、特定の場所でCO$2$と圧力モニタリングを行うために、ボーアホール井戸を使用する。 掘削に伴う高コストを考えると、予算的制約の中で最大限のモニタリングを確保するために、限られた数の井戸を戦略的に配置することが不可欠である。 井戸位置を選択するためのアプローチは,梅の軌跡を予測するための流体流解法と,梅の推論の不確かさを予測するための生成ニューラルネットワークを統合した。 提案手法は3次元領域に拡張可能であり,ベイジアン・フレームワークを用いて最適な実験設計を行い,拡張性と数学的最適性を確保する。 我々は,本手法の大規模領域での応用と,ベースラインウェルプレースメントと比較して最適性能を実証し,これらの主張を検証するために,現実的なケーススタディを用いた。

CO$_2$ sequestration is a crucial engineering solution for mitigating climate change. However, the uncertain nature of reservoir properties, necessitates rigorous monitoring of CO$_2$ plumes to prevent risks such as leakage, induced seismicity, or breaching licensed boundaries. To address this, project managers use borehole wells for direct CO$_2$ and pressure monitoring at specific locations. Given the high costs associated with drilling, it is crucial to strategically place a limited number of wells to ensure maximally effective monitoring within budgetary constraints. Our approach for selecting well locations integrates fluid-flow solvers for forecasting plume trajectories with generative neural networks for plume inference uncertainty. Our methodology is extensible to three-dimensional domains and is developed within a Bayesian framework for optimal experimental design, ensuring scalability and mathematical optimality. We use a realistic case study to verify these claims by demonstrating our method's application in a large scale domain and optimal performance as compared to baseline well placement.
翻訳日:2024-04-04 07:27:29 公開日:2024-03-28
# JailbreakBench: 大規模言語モデルのジェイルブレークのためのオープンなロバストネスベンチマーク

JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models ( http://arxiv.org/abs/2404.01318v1 )

ライセンス: Link先を確認
Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, Eric Wong, (参考訳) ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。 これらの攻撃を評価することは、現在のベンチマークや評価技術が適切に対処していない多くの課題を示す。 第一に、脱獄評価に関する明確な基準はない。 第二に、既存の作業はコストと成功率を相容れない方法で計算します。 そして第3に、多くの著作物は再現不可能で、敵のプロンプトを無視したり、クローズドソースのコードに関わったり、プロプライエタリなAPIの進化に依存している。 これらの課題に対処するために、(1)JBB-Behaviorsと呼ばれる100のユニークな行動を含む新しいjailbreakデータセット、(2)Jailbreakアーティファクトと呼ばれる最先端の敵プロンプトの進化したリポジトリ、(3)明確に定義された脅威モデル、システムプロンプト、チャットテンプレート、スコアリング機能を含む標準化された評価フレームワーク、(4)様々なLLMの攻撃と防御のパフォーマンスを追跡するリーダーボードを紹介する。 我々は、このベンチマークのリリースによる倫理的影響を慎重に検討し、コミュニティにとってプラスになると考えている。 今後は、研究コミュニティの技術的・方法論的な進歩を反映して、ベンチマークを拡大し、適応していく。

Jailbreak attacks cause large language models (LLMs) to generate harmful, unethical, or otherwise objectionable content. Evaluating these attacks presents a number of challenges, which the current collection of benchmarks and evaluation techniques do not adequately address. First, there is no clear standard of practice regarding jailbreaking evaluation. Second, existing works compute costs and success rates in incomparable ways. And third, numerous works are not reproducible, as they withhold adversarial prompts, involve closed-source code, or rely on evolving proprietary APIs. To address these challenges, we introduce JailbreakBench, an open-sourced benchmark with the following components: (1) a new jailbreaking dataset containing 100 unique behaviors, which we call JBB-Behaviors; (2) an evolving repository of state-of-the-art adversarial prompts, which we refer to as jailbreak artifacts; (3) a standardized evaluation framework that includes a clearly defined threat model, system prompts, chat templates, and scoring functions; and (4) a leaderboard that tracks the performance of attacks and defenses for various LLMs. We have carefully considered the potential ethical implications of releasing this benchmark, and believe that it will be a net positive for the community. Over time, we will expand and adapt the benchmark to reflect technical and methodological advances in the research community.
翻訳日:2024-04-03 21:16:45 公開日:2024-03-28
# 公共機関における情報カスケード予測 : 調査

Information Cascade Prediction under Public Emergencies: A Survey ( http://arxiv.org/abs/2404.01319v1 )

ライセンス: Link先を確認
Qi Zhang, Guang Wang, Li Lin, Kaiwen Xia, Shuai Wang, (参考訳) ビッグデータの時代が到来すると、膨大な情報、専門家の経験、そして高精度なモデルが、公衆の緊急時の情報カスケード予測に大きな機会をもたらします。 しかし、様々な分野からの専門知識の関与は、主に災害、洪水、伝染病など)公衆の緊急事態の情報をカスケードで予測するための用途に特化している。 統合予測フレームワークの欠如は、異なるアプリケーション分野にわたる交差予測手法を分類する上での課題となる。 本稿では,情報カスケードモデリング,予測,応用の体系的な分類と概要について述べる。 我々は,最先端の研究と情報カスケード予測のモデルと方法の理解を支援することを目的としている。 本論文は,オープンな問題を要約し,今後の方向性を概説することによって,情報カスケードの予測に関するさらなる研究を行う研究者にとって貴重な資源となる可能性がある。

With the advent of the era of big data, massive information, expert experience, and high-accuracy models bring great opportunities to the information cascade prediction of public emergencies. However, the involvement of specialist knowledge from various disciplines has resulted in a primarily application-specific focus (e.g., earthquakes, floods, infectious diseases) for information cascade prediction of public emergencies. The lack of a unified prediction framework poses a challenge for classifying intersectional prediction methods across different application fields. This survey paper offers a systematic classification and summary of information cascade modeling, prediction, and application. We aim to help researchers identify cutting-edge research and comprehend models and methods of information cascade prediction under public emergencies. By summarizing open issues and outlining future directions in this field, this paper has the potential to be a valuable resource for researchers conducting further studies on predicting information cascades.
翻訳日:2024-04-03 21:16:45 公開日:2024-03-28
# ドックレス自転車共有システムにおけるネットワーク拡張のグラフベース最適化

Graph-Based Optimisation of Network Expansion in a Dockless Bike Sharing System ( http://arxiv.org/abs/2404.01320v1 )

ライセンス: Link先を確認
Mark Roantree, Niamh Murphi, Dinh Viet Cuong, Vuong Minh Ngo, (参考訳) 自転車シェアリングシステム(BSS)は世界中で数千以上の都市に展開されており、多くの都市交通システムにおいて重要な役割を果たしている。 BSSは渋滞を緩和し、汚染を軽減し、身体運動を促進する。 システムの運用効率を最適化するためには,自転車シェアリング需要の時空間パターンと,これらのパターンに影響を与える要因を検討することが不可欠である。 本研究では,ドッキングレスBSSオペレータであるMoby Bikesの旅行データを用いて,時空間の最適化グラフを構築した。 グラフを最適化するプロセスは、将来のBSSの拡張中に新しいステーションを建てるための主要な場所を明らかにした。 コミュニティ検出手法であるLouvainアルゴリズムは、時間的粒度の異なるレベルでの使用パターンを明らかにするために使用される。 コミュニティ検出の結果は, 時間的粒度のそれぞれに類似した利用パターンを示す, 自己完結型のサブネットワークであることが判明した。 本研究は, BSSが本質的に時空間系であり, 時空間力学によるコミュニティの存在感を裏付けるものである。 これらの発見は、オペレーターが再分配効率を向上させるのに役立つかもしれない。

Bike-sharing systems (BSSs) are deployed in over a thousand cities worldwide and play an important role in many urban transportation systems. BSSs alleviate congestion, reduce pollution and promote physical exercise. It is essential to explore the spatiotemporal patterns of bike-sharing demand, as well as the factors that influence these patterns, in order to optimise system operational efficiency. In this study, an optimised geo-temporal graph is constructed using trip data from Moby Bikes, a dockless BSS operator. The process of optimising the graph unveiled prime locations for erecting new stations during future expansions of the BSS. The Louvain algorithm, a community detection technique, is employed to uncover usage patterns at different levels of temporal granularity. The community detection results reveal largely self-contained sub-networks that exhibit similar usage patterns at their respective levels of temporal granularity. Overall, this study reinforces that BSSs are intrinsically spatiotemporal systems, with community presence driven by spatiotemporal dynamics. These findings may aid operators in improving redistribution efficiency.
翻訳日:2024-04-03 21:16:45 公開日:2024-03-28
# マルチモーダル大言語と視覚モデルの検討

A Review of Multi-Modal Large Language and Vision Models ( http://arxiv.org/abs/2404.01322v1 )

ライセンス: Link先を確認
Kilian Carolan, Laura Fennelly, Alan F. Smeaton, (参考訳) 大規模言語モデル(LLM)は、人間のような品質のテキストを理解・生成する前例のない能力によって、研究と応用の焦点として最近登場した。 さらに最近では、LLMはマルチモーダルな大言語モデル(MM-LLM)に拡張され、テキストに加えて、画像、ビデオ、オーディオ情報を扱う能力を拡張している。 これにより、テキスト・トゥ・ビデオ生成、画像キャプション、テキスト・トゥ・スペルなどのアプリケーションがオープンになり、マルチモーダル機能を備えたLLMのレトロフィットや、スクラッチからMM-LLMを構築することで実現される。 本稿では,近年のMM-LLMとともに,マルチモーダル機能を有するLLMの現状を概観する。 LLMの歴史的発展、特にOpenAIのGPTシリーズやGoogleのBERTのようなトランスフォーマーベースのアーキテクチャによって実現された進歩、およびモデルパフォーマンスの向上における注意機構の役割をカバーしている。 本論文では,LLM と MM-LLM の主要および最も重要な機能について紹介するとともに,特定のタスクやドメインに事前学習したモデルをカスタマイズするファインチューニングやプロンプトエンジニアリングなど,モデルチューニングのテクニックについても紹介する。 データバイアスやモデル誤用といった倫理的考察や課題も、責任あるAI開発とデプロイメントの重要性を明らかにするために分析されている。 最後に、AI研究におけるオープンソースとプロプライエタリモデルの影響について論じる。 本稿では,様々なアプリケーションにおけるMM-LLMの変換可能性について考察する。

Large Language Models (LLMs) have recently emerged as a focal point of research and application, driven by their unprecedented ability to understand and generate text with human-like quality. Even more recently, LLMs have been extended into multi-modal large language models (MM-LLMs) which extends their capabilities to deal with image, video and audio information, in addition to text. This opens up applications like text-to-video generation, image captioning, text-to-speech, and more and is achieved either by retro-fitting an LLM with multi-modal capabilities, or building a MM-LLM from scratch. This paper provides an extensive review of the current state of those LLMs with multi-modal capabilities as well as the very recent MM-LLMs. It covers the historical development of LLMs especially the advances enabled by transformer-based architectures like OpenAI's GPT series and Google's BERT, as well as the role of attention mechanisms in enhancing model performance. The paper includes coverage of the major and most important of the LLMs and MM-LLMs and also covers the techniques of model tuning, including fine-tuning and prompt engineering, which tailor pre-trained models to specific tasks or domains. Ethical considerations and challenges, such as data bias and model misuse, are also analysed to underscore the importance of responsible AI development and deployment. Finally, we discuss the implications of open-source versus proprietary models in AI research. Through this review, we provide insights into the transformative potential of MM-LLMs in various applications.
翻訳日:2024-04-03 21:16:45 公開日:2024-03-28
# 軟X線領域と硬X線領域における高調波発生の位相整合

Phase matching of high harmonic generation in the soft and hard X-ray regions of the spectrum ( http://arxiv.org/abs/2404.01325v1 )

ライセンス: Link先を確認
Tenio Popmintchev, Ming-Chang Chen, Alon Bahabad, Michael Gerrity, Pavel Sidorenko, Oren Cohen, Ivan P. Christov, Margaret M. Murnane, Henry C. Kapteyn, (参考訳) フェムト秒レーザー光の非線形アップコンバージョンにより、明るく、完全コヒーレントで硬いX線ビームが生成可能であることを示す。 適度なピーク強度を持つ長波長中赤外駆動レーザーを使用することで、高調波発生過程の全位相マッチングを理論上、スペクトルの硬X線領域に拡張することができる。 長波長駆動レーザーの位相整合機構を同定し, レーザーにより弱イオン化された高圧ガス媒体を用いて330eV前後のスペクトルの軟X線領域への位相整合アップコンバージョンを実証することにより, 予測を実験的に検証した。 駆動レーザの波長が増大するにつれて、全体的な変換効率のスケーリングは驚くほど好適であり、有用で完全コヒーレントなマルチkeVX線源を実現することができる。 最後に, 位相整合に対する最適圧力の増大と, 高光子エネルギーにおける生成光の再吸収の急激な減少により, より長い駆動波長での微視的単原子収率の低下がマクロ的に補正されることを示した。

We show how bright, fully coherent, hard x-ray beams can be generated through nonlinear upconversion of femtosecond laser light. By using longer-wavelength mid-infrared driving lasers of moderate peak intensity, full phase matching of the high harmonic generation process can extend, in theory, into the hard x-ray region of the spectrum. We identify the dominant phase matching mechanism for long wavelength driving lasers, and verify our predictions experimentally by demonstrating phase-matched up-conversion into the soft x-ray region of the spectrum around 330 eV using an extended, high-pressure, gas medium that is weakly ionized by the laser. Scaling of the overall conversion efficiency is surprisingly favorable as the wavelength of the driving laser is increased, making useful, fully coherent, multi-keV x-ray sources feasible. Finally, we show that the rapidly decreasing microscopic single-atom yield at longer driving wavelengths is compensated macroscopically by an increasing optimal pressure for phase matching and a rapidly decreasing reabsorption of the generated light at higher photon energies.
翻訳日:2024-04-03 21:06:49 公開日:2024-03-28
# ユニタリオラクルを用いた量子計算へのトポロジ的障害

Topological obstructions to quantum computation with unitary oracles ( http://arxiv.org/abs/2011.10031v3 )

ライセンス: Link先を確認
Zuzana Gavorová, Matan Seidel, Yonathan Touati, (参考訳) ユニタリオラクルを持つアルゴリズムはネストできるため、非常に多用途である。 例えば、量子スピードアップのために多くの候補アルゴリズムで使われる位相推定アルゴリズムがある。 量子回路ではいくつかのタスクは不可能であるが、古典的なバージョンのクローニングは容易である。 ユニタリオラクル$U$の例はif節であり、制御された$U$を実装するタスクである($U$のフェーズまで)。 古典計算では条件文は簡単かつ必須である。 量子回路では、if節は1つのクエリから$U$まで表示できない。 多項式的に多くのクエリから可能か? 量子回路は、近似、ポストセレクション、緩和因果関係を許容しても、if節を実装することができる。 また,プロセストモグラフィ,オラクル中性化,および$\sqrt[\dim U]{U}$,$U^T$,$U^\dagger$アルゴリズムの制限を示す。 その結果、線形光学の利点を強化し、緩和因果性の実験に挑戦し、多くのアウトカム測定で新しいアルゴリズムを動機づけた。

Algorithms with unitary oracles can be nested, which makes them extremely versatile. An example is the phase estimation algorithm used in many candidate algorithms for quantum speed-up. The search for new quantum algorithms benefits from understanding their limitations: Some tasks are impossible in quantum circuits, although their classical versions are easy, for example, cloning. An example with a unitary oracle $U$ is the if clause, the task to implement controlled $U$ (up to the phase on $U$). In classical computation the conditional statement is easy and essential. In quantum circuits the if clause was shown impossible from one query to $U$. Is it possible from polynomially many queries? Here we unify algorithms with a unitary oracle and develop a topological method to prove their limitations: No number of queries to $U$ and $U^\dagger$ lets quantum circuits implement the if clause, even if admitting approximations, postselection and relaxed causality. We also show limitations of process tomography, oracle neutralization, and $\sqrt[\dim U]{U}$, $U^T$, and $U^\dagger$ algorithms. Our results strengthen an advantage of linear optics, challenge the experiments on relaxed causality, and motivate new algorithms with many-outcome measurements.
翻訳日:2024-04-02 16:23:34 公開日:2024-03-28
# グラフ依存に基づく学習における一般化のバウンダリ--調査

Generalization bounds for learning under graph-dependence: A survey ( http://arxiv.org/abs/2203.13534v2 )

ライセンス: Link先を確認
Rui-Ray Zhang, Massih-Reza Amini, (参考訳) 従来の統計的学習理論は、データが同一かつ独立に分散されているという仮定に依存している(すなわち、d)。 しかし、この仮定は現実の応用の多くに当てはまらないことが多い。 本研究では,実例が依存する学習シナリオについて,確率とコンビネータのモデルである依存性グラフを用いて記述する。 グラフ依存濃度境界を収集し、グラフ依存データから学習するためにラデマッハの複雑性と安定性の一般化境界を導出する。 本稿では,このパラダイムを実践的な学習タスクを通じて説明し,今後の研究の方向性を示す。 私たちの知る限りでは、この調査はこの種の調査としては初めてである。

Traditional statistical learning theory relies on the assumption that data are identically and independently distributed (i.i.d.). However, this assumption often does not hold in many real-life applications. In this survey, we explore learning scenarios where examples are dependent and their dependence relationship is described by a dependency graph, a commonly utilized model in probability and combinatorics. We collect various graph-dependent concentration bounds, which are then used to derive Rademacher complexity and stability generalization bounds for learning from graph-dependent data. We illustrate this paradigm through practical learning tasks and provide some research directions for future work. To our knowledge, this survey is the first of this kind on this subject.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-28
# ポジティブなラベルなしコントラスト学習

Positive Unlabeled Contrastive Learning ( http://arxiv.org/abs/2206.01206v3 )

ライセンス: Link先を確認
Anish Acharya, Sujay Sanghavi, Li Jing, Bhargav Bhushanam, Dhruv Choudhary, Michael Rabbat, Inderjit Dhillon, (参考訳) ラベル付きデータに対する自己教師付き事前トレーニングとラベル付きデータに対する教師付き微調整は、ラベル付きデータの限られた例から学ぶための一般的なパラダイムである。 このパラダイムを古典的正の未ラベル(PU)設定に拡張し、いくつかのラベル付き正のサンプルのみを与えられたバイナリ分類器を学習し、(しばしば)大量の未ラベルのサンプル(正あるいは負の可能性がある)を学習する。 まず,コントラスト損失の標準的なインフォネッションNCEファミリをPU設定に簡易に拡張し,既存の教師なしおよび教師なしアプローチと比較して優れた表現を学習することを示す。 次に、新しいPU固有のクラスタリング方式を用いて、未ラベルのサンプルを擬似ラベル化する方法を開発し、その擬似ラベルを用いて最終(正対負の)分類器を訓練する。 提案手法は,いくつかの標準PUベンチマークデータセットにおいて最先端のPUメソッドよりも優れているが,どのクラスの事前知識も必要としない(他のPUメソッドでは一般的な仮定である)。 また、我々の手法を動機づける単純な理論分析も提供する。

Self-supervised pretraining on unlabeled data followed by supervised fine-tuning on labeled data is a popular paradigm for learning from limited labeled examples. We extend this paradigm to the classical positive unlabeled (PU) setting, where the task is to learn a binary classifier given only a few labeled positive samples, and (often) a large amount of unlabeled samples (which could be positive or negative). We first propose a simple extension of standard infoNCE family of contrastive losses, to the PU setting; and show that this learns superior representations, as compared to existing unsupervised and supervised approaches. We then develop a simple methodology to pseudo-label the unlabeled samples using a new PU-specific clustering scheme; these pseudo-labels can then be used to train the final (positive vs. negative) classifier. Our method handily outperforms state-of-the-art PU methods over several standard PU benchmark datasets, while not requiring a-priori knowledge of any class prior (which is a common assumption in other PU methods). We also provide a simple theoretical analysis that motivates our methods.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-28
# QAGCN:知識グラフに対するシングルステップインプシシット推論によるマルチリレーション質問への回答

QAGCN: Answering Multi-Relation Questions via Single-Step Implicit Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2206.01818v3 )

ライセンス: Link先を確認
Ruijie Wang, Luca Rossetto, Michael Cochez, Abraham Bernstein, (参考訳) マルチリレーショナル質問応答(マルチリレーショナル質問応答、Multi-relation question answering, QA)は、複数の関係からなるKGの長い推論連鎖を必要とする課題である。 近年,KGに対する明示的な多段階推論手法がこの課題で顕著に使われており,有望な性能を示している。 例えば、KG三重項による段階的にラベルの伝搬を行う方法や、強化学習に基づくKG三重項をナビゲートする方法などがある。 これらの手法の主な弱点は、それらの推論機構が通常複雑で、実装や訓練が難しいことである。 本稿では,マルチリレーショナルQAは,よりシンプルで,より効率的に,より容易に適用可能な,エンドツーエンドのシングルステップの暗黙的推論によって実現可能であることを論じる。 本稿では,暗黙的推論のための質問依存メッセージの伝達を制御した新しいGCNアーキテクチャを含む質問認識グラフ畳み込みネットワーク(GCN)に基づくQAGCNを提案する。 大規模な実験が行われており、QAGCNは最先端の明示的推論法と比較して、競争力があり、性能も優れている。 私たちのコードと事前トレーニングされたモデルは、リポジトリで利用可能です。

Multi-relation question answering (QA) is a challenging task, where given questions usually require long reasoning chains in KGs that consist of multiple relations. Recently, methods with explicit multi-step reasoning over KGs have been prominently used in this task and have demonstrated promising performance. Examples include methods that perform stepwise label propagation through KG triples and methods that navigate over KG triples based on reinforcement learning. A main weakness of these methods is that their reasoning mechanisms are usually complex and difficult to implement or train. In this paper, we argue that multi-relation QA can be achieved via end-to-end single-step implicit reasoning, which is simpler, more efficient, and easier to adopt. We propose QAGCN -- a Question-Aware Graph Convolutional Network (GCN)-based method that includes a novel GCN architecture with controlled question-dependent message propagation for the implicit reasoning. Extensive experiments have been conducted, where QAGCN achieved competitive and even superior performance compared to state-of-the-art explicit-reasoning methods. Our code and pre-trained models are available in the repository: https://github.com/ruijie-wang-uzh/QAGCN
翻訳日:2024-04-01 21:15:55 公開日:2024-03-28
# 有限学習課題を用いたメタ強化学習 -密度推定アプローチ-

Meta Reinforcement Learning with Finite Training Tasks -- a Density Estimation Approach ( http://arxiv.org/abs/2206.10716v2 )

ライセンス: Link先を確認
Zohar Rimon, Aviv Tamar, Gilad Adler, (参考訳) メタ強化学習(メタRL)では、エージェントは、同じタスク分布から引き出された新しいタスクの迅速な解決方法のセットから学習する。 最適メタRLポリシー、すなわちベイズ最適行動は明確に定義されており、タスク分布に関して取られる期待における最適報酬を保証する。 この研究で検討する質問は、高い確率で最適な行動を保証するために、どの程度のトレーニングタスクが必要かということだ。 最近の研究は、トレーニングタスクから履歴に依存したポリシーが学習されたモデルフリー設定のための最初のPAC分析を提供した。 本研究では,タスク分布を直接学習し,密度推定手法を用いて,学習したタスク分布に関するポリシーを訓練するアプローチを提案する。 提案手法は,タスク分布の次元に依存する境界に導かれることを示す。 特に、タスク分布が低次元多様体内にある場合、我々は解析を次元還元技術に拡張し、そのような構造を考慮し、状態や行動の数に厳密に依存する以前の作業よりもはるかに優れた境界を得る。 提案手法の鍵となるのは,カーネル密度推定法による正則化である。 さらに、この正規化は、最先端のVariBADメタRLアルゴリズムを 'plugged in' する場合、実際に有用であることを示す。

In meta reinforcement learning (meta RL), an agent learns from a set of training tasks how to quickly solve a new task, drawn from the same task distribution. The optimal meta RL policy, a.k.a. the Bayes-optimal behavior, is well defined, and guarantees optimal reward in expectation, taken with respect to the task distribution. The question we explore in this work is how many training tasks are required to guarantee approximately optimal behavior with high probability. Recent work provided the first such PAC analysis for a model-free setting, where a history-dependent policy was learned from the training tasks. In this work, we propose a different approach: directly learn the task distribution, using density estimation techniques, and then train a policy on the learned task distribution. We show that our approach leads to bounds that depend on the dimension of the task distribution. In particular, in settings where the task distribution lies in a low-dimensional manifold, we extend our analysis to use dimensionality reduction techniques and account for such structure, obtaining significantly better bounds than previous work, which strictly depend on the number of states and actions. The key of our approach is the regularization implied by the kernel density estimation method. We further demonstrate that this regularization is useful in practice, when `plugged in' the state-of-the-art VariBAD meta RL algorithm.
翻訳日:2024-04-01 21:15:55 公開日:2024-03-28
# GOTCHA:チャレンジ応答によるリアルタイムビデオディープフェイク検出

GOTCHA: Real-Time Video Deepfake Detection via Challenge-Response ( http://arxiv.org/abs/2210.06186v3 )

ライセンス: Link先を確認
Govind Mittal, Chinmay Hegde, Nasir Memon, (参考訳) AI対応のリアルタイムディープフェイク(RTDF)の台頭により、オンラインビデオインタラクションの完全性が懸念されている。 RTDFは、ライブビデオのやりとりにおいて、偽造者の顔と被害者の顔を置き換えることを可能にした。 このようなディープフェイクの進歩は、検出をコックス化し、同じ基準に達する。 しかし、既存のディープフェイク検出技術は非同期であり、RTDFには適していない。 このギャップを埋めるため,ライブ環境での信頼性を確立するための課題応答アプローチを提案する。 本稿では,RTDF生成パイプラインに固有の制約を特に対象とする課題の分類について述べる。 本研究では,8つの課題からなる独自のデータセットを収集することにより,分類学における代表例を評価し,最先端のディープフェイクジェネレータの品質を継続的にかつ視覚的に劣化させる。 これらの結果は人間と新しい自動スコアリング機能の両方で相関しており、それぞれ88.6%と80.1%のAUCとなっている。 この結果は,現実的なシナリオにおいて,説明可能でスケーラブルなリアルタイムディープフェイク検出のための課題応答システムの有望な可能性を示している。 We provide access to data and code at https://github.com/mittalgovind/GOTCHA-Deepfakes

With the rise of AI-enabled Real-Time Deepfakes (RTDFs), the integrity of online video interactions has become a growing concern. RTDFs have now made it feasible to replace an imposter's face with their victim in live video interactions. Such advancement in deepfakes also coaxes detection to rise to the same standard. However, existing deepfake detection techniques are asynchronous and hence ill-suited for RTDFs. To bridge this gap, we propose a challenge-response approach that establishes authenticity in live settings. We focus on talking-head style video interaction and present a taxonomy of challenges that specifically target inherent limitations of RTDF generation pipelines. We evaluate representative examples from the taxonomy by collecting a unique dataset comprising eight challenges, which consistently and visibly degrades the quality of state-of-the-art deepfake generators. These results are corroborated both by humans and a new automated scoring function, leading to 88.6% and 80.1% AUC, respectively. The findings underscore the promising potential of challenge-response systems for explainable and scalable real-time deepfake detection in practical scenarios. We provide access to data and code at https://github.com/mittalgovind/GOTCHA-Deepfakes
翻訳日:2024-04-01 21:15:55 公開日:2024-03-28
# 形式的に検証されたデプロイされたソフトウェアシステムから学んだこと(拡張バージョン)

Lessons from Formally Verified Deployed Software Systems (Extended version) ( http://arxiv.org/abs/2301.02206v3 )

ライセンス: Link先を確認
Li Huang, Sophie Ebersold, Alexander Kogtenkov, Bertrand Meyer, Yinling Liu, (参考訳) フォーマルなソフトウェア検証の技術は目覚ましい進歩を遂げましたが、実際のソフトウェアの開発にはどの程度の恩恵がありますか? 機械的検査による正当性証明による建築システムの実用性については、重要な意見の相違が残っている。 この見通しは、高価でライフクリティカルなプロジェクトに限定されているのだろうか、それとも、このアイデアをソフトウェア産業の広範囲に適用できるのだろうか? 本研究は, 各種のアプリケーション領域において, 公式に検証されたシステムを作成し, 実際に使用するためにデプロイしたプロジェクトについて検討する。 使用される技術、適用の形式、得られた結果、そしてソフトウェア産業が形式的な検証技術やツールの恩恵を受ける能力について示すべき教訓を考察する。 注意:このバージョンは拡張された記事であり、関連するものとして特定されたすべてのシステムをカバーする。 選択のみをカバーした短いバージョンも利用可能である。

The technology of formal software verification has made spectacular advances, but how much does it actually benefit the development of practical software? Considerable disagreement remains about the practicality of building systems with mechanically-checked proofs of correctness. Is this prospect confined to a few expensive, life-critical projects, or can the idea be applied to a wide segment of the software industry? To help answer this question, the present survey examines a range of projects, in various application areas, that have produced formally verified systems and deployed them for actual use. It considers the technologies used, the form of verification applied, the results obtained, and the lessons that the software industry should draw regarding its ability to benefit from formal verification techniques and tools. Note: this version is the extended article, covering all the systems identified as relevant. A shorter version, covering only a selection, is also available.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-28
# 完全ユークリッドグラフのための完全ニューラルネットワーク

Complete Neural Networks for Complete Euclidean Graphs ( http://arxiv.org/abs/2301.13821v3 )

ライセンス: Link先を確認
Snir Hordan, Tal Amir, Steven J. Gortler, Nadav Dym, (参考訳) 点雲のニューラルネットワークは、置換や剛体運動に対する自然な不変性を尊重しており、分子動力学からレコメンデーターシステムまで幾何学現象のモデリングに成功している。 しかし、今のところ、多項式複雑性を持つモデルは完備であることが知られておらず、すなわち、任意の非同型点雲の対を区別することができる。 この理論的ギャップを、点雲の集中的なグラム行列に3WLグラフ同型テストを適用することにより、点雲が置換や剛体運動まで完全に決定可能であることを示すことによって埋める。 さらに、2-WLテストのユークリッド多様体を定式化し、完全性を達成するのに十分であることを示す。 次に、ユークリッドのWLテストが適度な大きさのユークリッドグラフニューラルネットワークによってどのようにシミュレートされるかを示し、その分離能力を高対称性の点雲上で実証する。

Neural networks for point clouds, which respect their natural invariance to permutation and rigid motion, have enjoyed recent success in modeling geometric phenomena, from molecular dynamics to recommender systems. Yet, to date, no model with polynomial complexity is known to be complete, that is, able to distinguish between any pair of non-isomorphic point clouds. We fill this theoretical gap by showing that point clouds can be completely determined, up to permutation and rigid motion, by applying the 3-WL graph isomorphism test to the point cloud's centralized Gram matrix. Moreover, we formulate an Euclidean variant of the 2-WL test and show that it is also sufficient to achieve completeness. We then show how our complete Euclidean WL tests can be simulated by an Euclidean graph neural network of moderate size and demonstrate their separation capability on highly symmetrical point clouds.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-28
# グラフ変換器への取り組み

Attending to Graph Transformers ( http://arxiv.org/abs/2302.04181v3 )

ライセンス: Link先を確認
Luis Müller, Mikhail Galkin, Christopher Morris, Ladislav Rampášek, (参考訳) 近年、グラフのトランスフォーマーアーキテクチャが、(メッセージパス)グラフニューラルネットワークのようなグラフを用いた機械学習の確立した技術に代わるものとして登場した。 これまでのところ、分子予測データセットでは、オーバースムーシングやオーバースキャッシングといったグラフニューラルネットワークの欠点を回避する能力に起因した、有望な実験結果(例:分子予測データセット)が示されている。 ここでは、グラフトランスフォーマーアーキテクチャの分類を導き、この新興分野に何らかの秩序をもたらす。 本稿では,それらの理論的性質を概説し,構造的および位置的エンコーディングを調査し,重要なグラフクラス,例えば3次元分子グラフの拡張について論じる。 実験では,グラフトランスフォーマーがグラフ特性の回復にどの程度有効か,不テロ親和性のあるグラフにどの程度うまく対処できるか,過度なスキャッシングを防ぐのかを検証した。 さらに,今後の作業を促進するために,オープンな課題と研究の方向性を概説する。 私たちのコードはhttps://github.com/luis-mueller/probing-graph-transformersで利用可能です。

Recently, transformer architectures for graphs emerged as an alternative to established techniques for machine learning with graphs, such as (message-passing) graph neural networks. So far, they have shown promising empirical results, e.g., on molecular prediction datasets, often attributed to their ability to circumvent graph neural networks' shortcomings, such as over-smoothing and over-squashing. Here, we derive a taxonomy of graph transformer architectures, bringing some order to this emerging field. We overview their theoretical properties, survey structural and positional encodings, and discuss extensions for important graph classes, e.g., 3D molecular graphs. Empirically, we probe how well graph transformers can recover various graph properties, how well they can deal with heterophilic graphs, and to what extent they prevent over-squashing. Further, we outline open challenges and research direction to stimulate future work. Our code is available at https://github.com/luis-mueller/probing-graph-transformers.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-28
# 前立腺癌診断とGleason gradingのためのフェデレーション型一貫した学習モデル

Federated attention consistent learning models for prostate cancer diagnosis and Gleason grading ( http://arxiv.org/abs/2302.06089v5 )

ライセンス: Link先を確認
Fei Kong, Xiyue Wang, Jinxi Xiang, Sen Yang, Xinran Wang, Meng Yue, Jun Zhang, Junhan Zhao, Xiao Han, Yuhan Dong, Biyue Zhu, Fang Wang, Yueping Liu, (参考訳) 人工知能(AI)は、医療画像の変換、診断の強化、治療戦略の精細化において大きな可能性を秘めている。 しかしながら、AIモデルをトレーニングするための広範なマルチセンターデータセットへの依存は、プライバシの懸念による課題を引き起こす。 フェデレーション学習は、生データを共有せずに、複数のセンターで協調的なモデルトレーニングを容易にするソリューションを提供する。 本研究では,大規模病理画像とデータ不均一性に関わる課題に対処するために,FACL(Federated attention-consistent Learning)フレームワークを提案する。 FACLは、ローカルクライアントとサーバモデル間の注意の一貫性を最大化することで、モデルの一般化を強化する。 プライバシーの確保とロバスト性を検証するため,パラメータ転送時にノイズを導入することで差分プライバシーを組み込んだ。 多発性前立腺癌19,461枚の全スライディング画像を用いて, がん診断およびGleason grading タスクにおけるFACLの有効性を検討した。 診断タスクでは、FACLは曲線(AUC)0.9718の領域を達成し、カテゴリーが比較的バランスの取れている場合、平均AUC0.9499の7つのセンターを上回った。 グリーソングレーディングのタスクでは、FACLはカッパスコア0.8463を獲得し、平均カッパスコア0.7379を6つのセンターから上回った。 結論として、FACLは、効果的なデータ保護を維持しながら、前立腺癌病理のための堅牢で、正確で、費用対効果の高いAIトレーニングモデルを提供する。

Artificial intelligence (AI) holds significant promise in transforming medical imaging, enhancing diagnostics, and refining treatment strategies. However, the reliance on extensive multicenter datasets for training AI models poses challenges due to privacy concerns. Federated learning provides a solution by facilitating collaborative model training across multiple centers without sharing raw data. This study introduces a federated attention-consistent learning (FACL) framework to address challenges associated with large-scale pathological images and data heterogeneity. FACL enhances model generalization by maximizing attention consistency between local clients and the server model. To ensure privacy and validate robustness, we incorporated differential privacy by introducing noise during parameter transfer. We assessed the effectiveness of FACL in cancer diagnosis and Gleason grading tasks using 19,461 whole-slide images of prostate cancer from multiple centers. In the diagnosis task, FACL achieved an area under the curve (AUC) of 0.9718, outperforming seven centers with an average AUC of 0.9499 when categories are relatively balanced. For the Gleason grading task, FACL attained a Kappa score of 0.8463, surpassing the average Kappa score of 0.7379 from six centers. In conclusion, FACL offers a robust, accurate, and cost-effective AI training model for prostate cancer pathology while maintaining effective data safeguards.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-28
# データ効率,説明可能,安全なボックス操作:モデル予測制御における物理優先の利点を例証する

Data-efficient, Explainable and Safe Box Manipulation: Illustrating the Advantages of Physical Priors in Model-Predictive Control ( http://arxiv.org/abs/2303.01563v2 )

ライセンス: Link先を確認
Achkan Salehi, Stephane Doncieux, (参考訳) モデルベースのRL/コントロールは、ロボット工学において大きな牽引力を得ている。 しかし、これらのアプローチは、しばしばデータ非効率であり、手作業によるソリューションの説明可能性に欠ける。 これにより、セーフティクリティカルな設定でのデバッグや統合が困難になります。 しかし、多くのシステムでは、環境キネマティクス/力学の事前知識が利用可能である。 このような先入観を組み込むことは、上記の問題に対処し、問題の複雑さを減らし、探索の必要性を減らし、また、エージェントが物理的に意味のある実体で行う決定の表現を容易にする。 本論文の目的は,この視点をケーススタディで説明し,支援することである。 我々は、実際のロボットシステムに基づくペイロード操作問題をモデル化し、MPCフレームワークにおける環境のダイナミクスに関する事前知識を活用することにより、説明可能性、安全性、データ効率が改善され、より少ないデータで一般化特性を満足できることを示す。

Model-based RL/control have gained significant traction in robotics. Yet, these approaches often remain data-inefficient and lack the explainability of hand-engineered solutions. This makes them difficult to debug/integrate in safety-critical settings. However, in many systems, prior knowledge of environment kinematics/dynamics is available. Incorporating such priors can help address the aforementioned problems by reducing problem complexity and the need for exploration, while also facilitating the expression of the decisions taken by the agent in terms of physically meaningful entities. Our aim with this paper is to illustrate and support this point of view via a case-study. We model a payload manipulation problem based on a real robotic system, and show that leveraging prior knowledge about the dynamics of the environment in an MPC framework can lead to improvements in explainability, safety and data-efficiency, leading to satisfying generalization properties with less data.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-28
# 深部ニューラルネットワーク時代の腫瘍学のためのマルチモーダルデータ統合

Multimodal Data Integration for Oncology in the Era of Deep Neural Networks: A Review ( http://arxiv.org/abs/2303.06471v3 )

ライセンス: Link先を確認
Asim Waqas, Aakash Tripathi, Ravi P. Ramachandran, Paul Stewart, Ghulam Rasool, (参考訳) がんは、放射線学、病理学、ゲノム学、プロテオミクス、臨床記録など、取得したデータの様々なスケール、モダリティ、解像度に関係する情報を持っている。 多様なデータ型を統合することで、がんの診断と治療の精度と信頼性が向上する。 人間や既存の技術ツールが視覚的に識別するには微妙すぎる病気関連の情報もある。 従来の手法は、通常、個々のスケールでの生物学的システムに関する部分的または非モダル的な情報に焦点を当て、データの異種の性質の完全なスペクトルをカプセル化できない。 ディープニューラルネットワークは、複数のソースから関連する情報を抽出し統合できる高度なマルチモーダルデータ融合アプローチの開発を促進する。 グラフニューラルネットワーク(GNN)やトランスフォーマーといった最近のディープラーニングフレームワークは、マルチモーダル学習において顕著な成功を収めている。 本稿では,GNN と Transformer のマルチモーダルデータ融合に関する詳細な解析結果について述べる。 また、マルチモーダル学習の基礎、固有の課題、およびオンコロジーにおける統合学習の機会についても論じる。 腫瘍学におけるマルチモーダルデータ統合の現況と今後の展開について検討し、がん予防、早期発見、治療において、パーソナライズされた環境における情報オンコロジーの実践を通じて、マルチモーダルニューラルネットワークが果たす有望な役割を実証することを目的とする。

Cancer has relational information residing at varying scales, modalities, and resolutions of the acquired data, such as radiology, pathology, genomics, proteomics, and clinical records. Integrating diverse data types can improve the accuracy and reliability of cancer diagnosis and treatment. There can be disease-related information that is too subtle for humans or existing technological tools to discern visually. Traditional methods typically focus on partial or unimodal information about biological systems at individual scales and fail to encapsulate the complete spectrum of the heterogeneous nature of data. Deep neural networks have facilitated the development of sophisticated multimodal data fusion approaches that can extract and integrate relevant information from multiple sources. Recent deep learning frameworks such as Graph Neural Networks (GNNs) and Transformers have shown remarkable success in multimodal learning. This review article provides an in-depth analysis of the state-of-the-art in GNNs and Transformers for multimodal data fusion in oncology settings, highlighting notable research studies and their findings. We also discuss the foundations of multimodal learning, inherent challenges, and opportunities for integrative learning in oncology. By examining the current state and potential future developments of multimodal data integration in oncology, we aim to demonstrate the promising role that multimodal neural networks can play in cancer prevention, early detection, and treatment through informed oncology practices in personalized settings.
翻訳日:2024-04-01 21:06:09 公開日:2024-03-28
# ソマン最小化による関節内レーダ通信のためのマルチアンテナデュアルブラインドデコンボリューション

Multi-Antenna Dual-Blind Deconvolution for Joint Radar-Communications via SoMAN Minimization ( http://arxiv.org/abs/2303.13609v2 )

ライセンス: Link先を確認
Roman Jacome, Edwin Vargas, Kumar Vijay Mishra, Brian M. Sadler, Henry Arguello, (参考訳) セキュアな軍事受信機のような共同レーダー通信(JRC)の用途では、受信信号にレーダーと通信信号がオーバーレイされることが多い。 これらの受動的聴取基地では、レーダと通信の両方の信号とチャネルが受信機に未知である。 オーバーレイド信号から全ての信号とチャネルパラメータを復元する不適切な問題は、 \textit{dual-blind deconvolution} (DBD) と呼ばれる。 本研究では,マルチアンテナ受信機のDBDについて検討する。 レーダと通信チャネルを,時間遅延,ドップラー速度,航法方向 (DoA) などの数パラメータでモデル化する。 この高度に不規則なDBDを解決するために,未知のパラメータに依存する多変量原子ノルム(SoMAN)の和を最小化することを提案する。 この目的のために、正の超八角三角多項式(PhTP)の理論を用いて、正確な半定値プログラムを考案する。 理論解析により,完全回復に必要なサンプル・アンテナの最小数は,その総和よりもレーダー目標・通信経路の最大値に対数的に依存していることが示された。 提案手法は,ゲイン/位相誤差や付加雑音など,いくつかの実用的な問題を含むように容易に一般化できることを示す。 数値実験により, 異なるJRCシナリオの正確なパラメータリカバリが示された。

In joint radar-communications (JRC) applications such as secure military receivers, often the radar and communications signals are overlaid in the received signal. In these passive listening outposts, the signals and channels of both radar and communications are unknown to the receiver. The ill-posed problem of recovering all signal and channel parameters from the overlaid signal is termed as \textit{dual-blind deconvolution} (DBD). In this work, we investigate DBD for a multi-antenna receiver. We model the radar and communications channels with a few (sparse) \textit{continuous-valued} parameters such as time delays, Doppler velocities, and directions-of-arrival (DoAs). To solve this highly ill-posed DBD, we propose to minimize the sum of multivariate atomic norms (SoMAN) that depend on unknown parameters. To this end, we devise an exact semidefinite program using theories of positive hyperoctant trigonometric polynomials (PhTP). Our theoretical analyses show that the minimum number of samples and antennas required for perfect recovery is logarithmically dependent on the maximum of the number of radar targets and communications paths rather than their sum. We show that our approach is easily generalized to include several practical issues such as gain/phase errors and additive noise. Numerical experiments show the exact parameter recovery for different JRC scenarios.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-28
# SuperNOVA:計算ノートにおけるインタラクティブな可視化のための設計戦略と機会

SuperNOVA: Design Strategies and Opportunities for Interactive Visualization in Computational Notebooks ( http://arxiv.org/abs/2305.03039v2 )

ライセンス: Link先を確認
Zijie J. Wang, David Munechika, Seongmin Lee, Duen Horng Chau, (参考訳) Jupyter Notebookのような計算ノートは、データサイエンティストの事実上のプログラミング環境になっている。 多くの可視化研究者や実践家はノートブックをサポートするインタラクティブな可視化ツールを開発したが、これらのツールの適切な設計についてはほとんど分かっていない。 この重要な研究ギャップに対処するために,163個のノートブック可視化ツールを解析して,この分野の設計戦略について検討する。 私たちの分析では、学術論文から得られた64のシステムと、GitHub上の860万のノートブックをスクラップすることで得られるインタラクティブな視覚化を含む55kノートブックのプールから得られた105のシステムが含まれています。 本研究では,ノートブックにおけるマルチモーダルデータの活用や,可視化ノートブック統合の度合いのバランスなど,重要な設計上の意味とトレードオフを明らかにする。 さらに、より多くのノートプラットフォームと互換性のあるツールがより大きな影響を与えるという実証的な証拠を提供する。 最後に、研究者が既存のノートブック視覚化ツールを探索するのに役立つオープンソースのインタラクティブブラウザであるSuperNOVAを開発した。 SuperNOVAは、https://poloclub.github.io/supernova/.comで公開されている。

Computational notebooks, such as Jupyter Notebook, have become data scientists' de facto programming environments. Many visualization researchers and practitioners have developed interactive visualization tools that support notebooks, yet little is known about the appropriate design of these tools. To address this critical research gap, we investigate the design strategies in this space by analyzing 163 notebook visualization tools. Our analysis encompasses 64 systems from academic papers and 105 systems sourced from a pool of 55k notebooks containing interactive visualizations that we obtain via scraping 8.6 million notebooks on GitHub. Through this study, we identify key design implications and trade-offs, such as leveraging multimodal data in notebooks as well as balancing the degree of visualization-notebook integration. Furthermore, we provide empirical evidence that tools compatible with more notebook platforms have a greater impact. Finally, we develop SuperNOVA, an open-source interactive browser to help researchers explore existing notebook visualization tools. SuperNOVA is publicly accessible at: https://poloclub.github.io/supernova/.
翻訳日:2024-04-01 20:56:17 公開日:2024-03-28
# PQA: DNNハードウェアアクセラレーションにおける製品量子化の可能性を探る

PQA: Exploring the Potential of Product Quantization in DNN Hardware Acceleration ( http://arxiv.org/abs/2305.18334v2 )

ライセンス: Link先を確認
Ahmed F. AbouElhamayed, Angela Cui, Javier Fernandez-Marques, Nicholas D. Lane, Mohamed S. Abdelfattah, (参考訳) 従来の乗算累積(MAC)演算は、ディープニューラルネットワーク(DNN)やespcially convolutional Neural Network(CNN)の計算時間を支配してきた。 近年、これらのワークロードにPQ(Product Quantization)が適用され、MACをメモリルックアップに置き換えて、事前に計算済みのドット製品に置き換えている。 製品量子化DNN(PQ-DNNs)の効率トレードオフをよりよく理解するため,我々は,近接探索とドット生成検索を並列化し,高速化する,カスタムハードウェアアクセラレータを構築した。 さらに、異なるPQパラメータ化およびトレーニング手法の効率-正確性トレードオフを検討するための実証的研究を行った。 我々は、高度に最適化された従来のDNNアクセラレータと比較しても、ResNet20の性能を最大3.1$\times$で改善するPQ構成を識別する。 最近のPQソリューションと比較すると、パフォーマンス・パー・エリアにおいて、0.6%の精度で事前処理を4\times$で上回ります。 最後に,PQ操作のビット幅を小さくし,ハードウェアの効率と精度に与える影響について検討する。 3つのコンパクトDNNに対して2~6ビットの精度しか持たず、DSPを必要としないDNNの精度を維持することができた。

Conventional multiply-accumulate (MAC) operations have long dominated computation time for deep neural networks (DNNs), espcially convolutional neural networks (CNNs). Recently, product quantization (PQ) has been applied to these workloads, replacing MACs with memory lookups to pre-computed dot products. To better understand the efficiency tradeoffs of product-quantized DNNs (PQ-DNNs), we create a custom hardware accelerator to parallelize and accelerate nearest-neighbor search and dot-product lookups. Additionally, we perform an empirical study to investigate the efficiency--accuracy tradeoffs of different PQ parameterizations and training methods. We identify PQ configurations that improve performance-per-area for ResNet20 by up to 3.1$\times$, even when compared to a highly optimized conventional DNN accelerator, with similar improvements on two additional compact DNNs. When comparing to recent PQ solutions, we outperform prior work by $4\times$ in terms of performance-per-area with a 0.6% accuracy degradation. Finally, we reduce the bitwidth of PQ operations to investigate the impact on both hardware efficiency and accuracy. With only 2-6-bit precision on three compact DNNs, we were able to maintain DNN accuracy eliminating the need for DSPs.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-28
# 合成テンソルゲージ場

Synthetic tensor gauge fields ( http://arxiv.org/abs/2306.15663v3 )

ライセンス: Link先を確認
Shaoliang Zhang, Chenwei Lv, Qi Zhou, (参考訳) 合成ゲージ場は、物理学者に様々な基本的な重要な現象を探索するためのユニークなツールを提供している。 しかし、ほとんどの実験は合成ベクトルゲージ場に焦点を当てている。 テンソルゲージ場をフラクトン相に結合させることによってもたらされる非常にリッチな物理学は、実験室では未解明のままである。 本稿では,単粒子ではなく双極子に対処する合成テンソルゲージ場を実現する手法を提案する。 強い線形ポテンシャルと弱い二次ポテンシャルによって傾いた格子は、粒子-ホール対によって形成されるリニアンのランク2電場を得る。 このようなランク2電場は、四重極モーメントを変調し、系の双極子モーメントを保存する新しいタイプのブロッホ振動をもたらす。 より高次元において、相互作用とベクトルゲージポテンシャルの間の相互作用は、環交換相互作用に位相を印加し、平面に対する合成テンソルゲージ場を生成する。 そのようなテンソルゲージ場は、実験室で双極子ハーパーホフシュタッターモデルを実現することができる。 その結果、双極子チャーン絶縁体は、純電荷電流が存在しないときに双極子のキラルエッジ電流を特徴付ける。

Synthetic gauge fields have provided physicists with a unique tool to explore a wide range of fundamentally important phenomena. However, most experiments have been focusing on synthetic vector gauge fields. The very rich physics brought by coupling tensor gauge fields to fracton phase of matter remain unexplored in laboratories. Here, we propose schemes to realize synthetic tensor gauge fields that address dipoles instead of single-particles. A lattice tilted by a strong linear potential and a weak quadratic potential yields a rank-2 electric field for a lineon formed by a particle-hole pair. Such a rank-2 electric field leads to a new type of Bloch oscillations, which modulate the quadrupole moment and preserve the dipole moment of the system. In higher dimensions, the interplay between interactions and vector gauge potentials imprints a phase to the ring-exchange interaction and thus generates synthetic tensor gauge fields for planons. Such tensor gauge fields make it possible to realize a dipolar Harper-Hofstadter model in laboratories. The resultant dipolar Chern insulators feature chiral edge currents of dipoles in the absence of net charge currents.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-28
# 推論かリサイティングか? 対物課題による言語モデルの能力と限界を探る

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks ( http://arxiv.org/abs/2307.02477v3 )

ライセンス: Link先を確認
Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim, (参考訳) 最近の言語モデルの様々なタスクにおける印象的なパフォーマンスは、それらが抽象的な推論スキルを持っていることを示唆している。 これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか? これらの影響を解消するために、標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。 11のタスクの組にわたって、反ファクトな変形に対して非自明なパフォーマンスを観察するが、しかしながら、パフォーマンスはデフォルト条件よりも大幅に、一貫して低下する。 これは、現在のLMは抽象的なタスク解決スキルをある程度持っているが、タスク解決のための狭義の非参照可能な手順にも依存していることを示唆している。 これらの結果は、これらの振る舞いの側面を区別する言語モデルのパフォーマンスをより慎重に解釈する動機となっている。

The impressive performance of recent language models across a wide range of tasks suggests that they possess a degree of abstract reasoning skills. Are these skills general and transferable, or specialized to specific tasks seen during pretraining? To disentangle these effects, we propose an evaluation framework based on "counterfactual" task variants that deviate from the default assumptions underlying standard tasks. Across a suite of 11 tasks, we observe nontrivial performance on the counterfactual variants, but nevertheless find that performance substantially and consistently degrades compared to the default conditions. This suggests that while current LMs may possess abstract task-solving skills to an extent, they often also rely on narrow, non-transferable procedures for task-solving. These results motivate a more careful interpretation of language model performance that teases apart these aspects of behavior.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-28
# TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net

TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition ( http://arxiv.org/abs/2307.09997v3 )

ライセンス: Link先を確認
Isabel Funke, Dominik Rivoir, Stefanie Krell, Stefanie Speidel, (参考訳) 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。 外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間的情報を効果的にモデル化する、という2つの課題を提示する。 時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。 本稿では,既存の術期認識のための時間モデルに注意を向ける設計選択について検討し,より効果的に注意を利用でき,手作り制約を必要としない新しいアプローチを提案する。 さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。 実験では, ほぼすべての時間モデルが, より長い時間的文脈で訓練された特徴抽出器上でより優れた性能を示した。 これらのコンテキスト化された機能において、TUNeSはColec80とAutoLaparoデータセットの最先端の結果を達成する。

To enable context-aware computer assistance in the operating room of the future, cognitive systems need to understand automatically which surgical phase is being performed by the medical team. The primary source of information for surgical phase recognition is typically video, which presents two challenges: extracting meaningful features from the video stream and effectively modeling temporal information in the sequence of visual features. For temporal modeling, attention mechanisms have gained popularity due to their ability to capture long-range dependencies. In this paper, we explore design choices for attention in existing temporal models for surgical phase recognition and propose a novel approach that uses attention more effectively and does not require hand-crafted constraints: TUNeS, an efficient and simple temporal model that incorporates self-attention at the core of a convolutional U-Net structure. In addition, we propose to train the feature extractor, a standard CNN, together with an LSTM on preferably long video segments, i.e., with long temporal context. In our experiments, almost all temporal models performed better on top of feature extractors that were trained with longer temporal context. On these contextualized features, TUNeS achieves state-of-the-art results on the Cholec80 and AutoLaparo datasets.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-28
# スピン交換緩和フリーアルカリ金属蒸気中の異常ノイズスペクトル

Anomalous noise spectra in a spin-exchange-relaxation-free alkali-metal vapor ( http://arxiv.org/abs/2307.16869v2 )

ライセンス: Link先を確認
K. Mouloudakis, J. Kong, A. Sierant, E. Arkin, M. Hernández Ruiz, R. Jiménez-Martínez, M. W. Mitchell, (参考訳) スピン交換緩和自由(SERF)系において、非偏極の$^{87}\mathrm{Rb}$蒸気上でスピンノイズ分光を行う。 低密度規則を正確に記述するローレンツモデルから強く逸脱する雑音スペクトル分布を観測する。 例えば、$\sim 1 \mathrm{\mu T}$および$^{87}\mathrm{Rb}$ densities $\gtrsim 1 \times 10^{14} \rm{atoms/cm^{3}}$ の磁場では、共鳴線が約半分のパワーで劣化する非対称スピンノイズ分布が観察され、発散電力は光ショットノイズと間違えられる広いスペクトル成分となる。 結果は、基底超微細状態間の相関を考慮に入れた最近のモデルとよく一致している。 スピンスクイーズおよび絡み込み検出における量子センシングと絶対雑音校正の意義について論じる。

We perform spin-noise spectroscopy on an unpolarized $^{87}\mathrm{Rb}$ vapor in the spin-exchange-relaxation-free (SERF) regime. We observe noise spectral distributions that deviate strongly from Lorentzian models that accurately describe lower-density regimes. For example, at magnetic fields of $\sim 1 \mathrm{\mu T}$ and $^{87}\mathrm{Rb}$ densities $\gtrsim 1 \times 10^{14} \rm{atoms/cm^{3}}$ we observe an asymmetric spin-noise distribution in which the resonance line is depleted by about half its power, with the diverted power becoming a broad spectral component that could be mistaken for optical shot noise. The results are in good agreement with recent models accounting for correlations between the ground hyperfine states. We discuss implications for quantum sensing and absolute noise calibration in spin-squeezing and entanglement detection.
翻訳日:2024-04-01 20:46:32 公開日:2024-03-28
# トラップイオンの多地点集積光アドレス化

Multi-site Integrated Optical Addressing of Trapped Ions ( http://arxiv.org/abs/2308.14918v3 )

ライセンス: Link先を確認
Joonhyuk Kwon, William J. Setzer, Michael Gehl, Nicholas Karl, Jay Van Der Wall, Ryan Law, Matthew G. Blain, Daniel Stick, Hayden J. McGuinness, (参考訳) 量子コンピュータと量子センサーの性能を向上させる最も効果的な方法の1つは、システム内の量子ビットや量子リソースの数を増やすことである。 閉じ込められたイオン系のこの目的を実現するために解決しなければならない大きな技術的課題は、多くの個々のイオンへの光信号の配信を拡大することである。 本稿では,複数個の$^{171}\textrm{Yb}^+$ イオンを表面トラップで光学的に処理するために,導波路とマルチモード干渉計スプリッタを用いたアプローチを示す。 ドップラー冷却、状態調整、コヒーレント操作、検出に必要な光を供給するために集積導波路を用いて、E2クロック遷移における超微細スペクトルとラビフローッピングの測定を行った。 我々は、波長毎に1個の光入力を用いて複数のイオンに対処するスプリッタの使用を説明し、異なるトラップ部位で発生する2つの異なる遷移で同時にラビの浮き彫りを示す。 この研究は、原子時計や閉じ込められたイオン量子情報システムのためのスケーラブルな集積フォトニクスの実現に向けた重要なステップである。

One of the most effective ways to advance the performance of quantum computers and quantum sensors is to increase the number of qubits or quantum resources in the system. A major technical challenge that must be solved to realize this goal for trapped-ion systems is scaling the delivery of optical signals to many individual ions. In this paper we demonstrate an approach employing waveguides and multi-mode interferometer splitters to optically address multiple $^{171}\textrm{Yb}^+$ ions in a surface trap by delivering all wavelengths required for full qubit control. Measurements of hyperfine spectra and Rabi flopping were performed on the E2 clock transition, using integrated waveguides for delivering the light needed for Doppler cooling, state preparation, coherent operations, and detection. We describe the use of splitters to address multiple ions using a single optical input per wavelength and use them to demonstrate simultaneous Rabi flopping on two different transitions occurring at distinct trap sites. This work represents an important step towards the realization of scalable integrated photonics for atomic clocks and trapped-ion quantum information systems.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# 時間多重リピータを用いたネットワーク上の絡み合いルーティング

Entanglement Routing over Networks with Time Multiplexed Repeaters ( http://arxiv.org/abs/2308.15028v3 )

ライセンス: Link先を確認
Emily A Van Milligen, Eliana Jacobson, Ashlesha Patil, Gayane Vardoyan, Don Towsley, Saikat Guha, (参考訳) 量子ネットワークは、隣人とベルペア(またはリンク)を生成する量子リピータを使い、確率$p$でiidを生成し、確率$q$でiidを成功させるリンク上でBell State Measurements (BSMs)を実行することで、長距離の絡み合いで消費者にサービスを提供することができる。 グローバルリンク状態の知識は、2つのコンシューマ間の絡み合いの発生率を最大化するために必要であるが、古典的な通信要求によるプロトコル遅延を増大させ、長い量子メモリコヒーレンス時間を必要とする。 本稿では,局所リンク状態のみを必要とする2つの絡み合ったルーティングプロトコルを提案し,量子メモリのコヒーレンス時間要件を緩和し,プロトコルのレイテンシを低減する。 これらのプロトコルはマルチパスルーティングプロトコルと時間多重リピータを利用する。 時間多重リピータは、まず、任意のリンクに対してBSMを実行する前に、$k$のタイムステップのリンクを生成する。 我々の2つのプロトコルは、リピータでBSMを実行するために使用される決定ルールが異なる: 1つは静的パスベースのルーティングプロトコルであり、2つ目は動的距離ベースのルーティングプロトコルである。 これらのプロトコルの性能は、量子ネットワークトポロジと消費者の位置に依存する。 我々は,プロトコルによらず,時間多重化ブロック長で平均絡み合い率と遅延が増加することを観察した。 ステップ関数メモリデコヒーレンスモデルを導入すると、量子ビットが平均$\mu$で指数関数的に分散された時間に保持され、最適な$k$$$k_\text{opt}$)値が現れる。 k_{\rm opt}$は$p$で減少し、$\mu$で増加します。 $k_{\rm opt}$は、時間多重化の利点と、有限メモリコヒーレンス時間によって確立されたベルペアがデコヒーレンスする可能性の増加とのトレードオフによって現れる。

Quantum networks will be able to service consumers with long-distance entanglement by use of quantum repeaters that generate Bell pairs (or links) with their neighbors, iid with probability $p$ and perform Bell State Measurements (BSMs) on the links that succeed iid with probability $q$. While global link state knowledge is required to maximize the rate of entanglement generation between any two consumers, it increases the protocol latency due to the classical communication requirements and requires long quantum memory coherence times. We propose two entanglement routing protocols that require only local link state knowledge to relax the quantum memory coherence time requirements and reduce the protocol latency. These protocols utilize multi-path routing protocol and time multiplexed repeaters. The time multiplexed repeaters first generate links for $k$-time steps before performing BSMs on any pairs of links. Our two protocols differ in the decision rule used for performing BSMs at the repeater: the first being a static path based routing protocol and second a dynamic distance based routing protocol. The performance of these protocols depends on the quantum network topology and the consumers' location. We observe that the average entanglement rate and the latency increase with the time multiplexing block length, $k$, irrespective of the protocol. When a step function memory decoherence model is introduced such that qubits are held in the quantum memory for an exponentially distributed time with mean $\mu$, an optimal $k$ ($k_\text{opt}$) value appears, such that for increasing $k$ beyond $k_{\rm opt}$ hurts the entanglement rate. $k_{\rm opt}$ decreases with $p$ and increases with $\mu$. $k_{\rm opt}$ appears due to the tradeoff between benefits from time multiplexing and the increased likelihood of previously established Bell pairs decohering due to finite memory coherence times.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# 効率的な抽象化のための誘導バイアスとしてのリレーショナルボトルネック

The Relational Bottleneck as an Inductive Bias for Efficient Abstraction ( http://arxiv.org/abs/2309.06629v3 )

ライセンス: Link先を確認
Taylor W. Webb, Steven M. Frankland, Awni Altabaa, Simon Segert, Kamesh Krishnamurthy, Declan Campbell, Jacob Russin, Tyler Giallanza, Randall O'Reilly, John Lafferty, Jonathan D. Cohen, (参考訳) 認知科学における中心的な課題は、抽象概念が限られた経験からどのように獲得されるかを説明することである。 これはコネクショニストとシンボリック認知モデルの間の二分法という観点で表されることが多い。 ここでは、リレーショナルボトルネックと呼ばれる帰納的バイアスを活用することによって、これらのアプローチの新たな和解を示唆する最近の研究のラインを強調します。 このアプローチでは、ニューラルネットワークはアーキテクチャを通じて制約され、個々の入力の属性ではなく、知覚的な入力間の関係に焦点を当てる。 我々は、この手法を用いて抽象概念をデータ効率で誘導するモデル群をレビューし、人間の心と脳における抽象概念の獲得の候補モデルとしての可能性を強調した。

A central challenge for cognitive science is to explain how abstract concepts are acquired from limited experience. This has often been framed in terms of a dichotomy between connectionist and symbolic cognitive models. Here, we highlight a recently emerging line of work that suggests a novel reconciliation of these approaches, by exploiting an inductive bias that we term the relational bottleneck. In that approach, neural networks are constrained via their architecture to focus on relations between perceptual inputs, rather than the attributes of individual inputs. We review a family of models that employ this approach to induce abstractions in a data-efficient manner, emphasizing their potential as candidate models for the acquisition of abstract concepts in the human mind and brain.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# デンスインスタンスセグメンテーションによる腎生検病変評価の進歩

Advances in Kidney Biopsy Lesion Assessment through Dense Instance Segmentation ( http://arxiv.org/abs/2309.17166v2 )

ライセンス: Link先を確認
Zhan Xiong, Junling He, Pieter Valkema, Tri Q. Nguyen, Maarten Naesens, Jesper Kers, Fons J. Verbeek, (参考訳) 腎生検は腎疾患の診断における金の基準である。 腎病理学者による病変スコアは半定量的であり、サーバ間の変動が高い。 セグメント化された解剖学的構造内の病変分類の自動化は、定量化分析における決定的サポートを提供し、サーバ間変動を低減することができる。 それでも、関心領域(ROI)における病変の分類は臨床的に困難である。 (a)多量に充填された解剖学的対象物(最大1000件) (b)異なる区画にまたがるクラス不均衡(少なくとも3) (c)物体のスケール(大きさと形状)の有意な変動、及び (d) 解剖学的構造ごとに複数ラベル病変が存在すること。 既存のモデルには、これらの複雑さに効率的かつ汎用的に対処する能力がない。 本稿では,多様な病変を有する大規模マルチソースデータセットに対して,‘textbf{a Generalized Technical Solution} を提案する。 本手法では,2つのサブネットワーク,すなわち高密度なインスタンスセグメンテーションと病変分類を利用する。 我々は、ROI内のマルチクラスのマルチスケールオブジェクト用に設計された、エンドツーエンドの高密度インスタンスセグメンテーションモデルである \textbf{DiffRegFormer} を紹介する。 拡散モデル、トランスフォーマー、RCNNを組み合わせることで、DiffRegFormerは、単一のNVIDIA GeForce RTX 3090 GPU上でROI内の3つの解剖学的クラス(グロマリ、チューリ、動脈)にわたる500以上のオブジェクトを効率的に認識する。 303ROIのデータセット(ジョーンズの148個の銀色の腎WSIから)では、芸術モデルの状態を上回り、APは52.1\%(検出)と46.8\%(分離)となる。 病変分類サブネットワークは21889のオブジェクトパッチに対して89.2\%の精度と64.6\%のリコールを達成する(303ROIから)。 重要なことは、このモデルは微調整なしでPASが保持するWSIへの直接ドメイン転送を示す。

Renal biopsies are the gold standard for diagnosis of kidney diseases. Lesion scores made by renal pathologists are semi-quantitative and exhibit high inter-observer variability. Automating lesion classification within segmented anatomical structures can provide decision support in quantification analysis and reduce the inter-observer variability. Nevertheless, classifying lesions in regions-of-interest (ROIs) is clinically challenging due to (a) a large amount of densely packed anatomical objects (up to 1000), (b) class imbalance across different compartments (at least 3), (c) significant variation in object scales (i.e. sizes and shapes), and (d) the presence of multi-label lesions per anatomical structure. Existing models lack the capacity to address these complexities efficiently and generically. This paper presents \textbf{a generalized technical solution} for large-scale, multi-source datasets with diverse lesions. Our approach utilizes two sub-networks: dense instance segmentation and lesion classification. We introduce \textbf{DiffRegFormer}, an end-to-end dense instance segmentation model designed for multi-class, multi-scale objects within ROIs. Combining diffusion models, transformers, and RCNNs, DiffRegFormer efficiently recognizes over 500 objects across three anatomical classes (glomeruli, tubuli, arteries) within ROIs on a single NVIDIA GeForce RTX 3090 GPU. On a dataset of 303 ROIs (from 148 Jones' silver-stained renal WSIs), it outperforms state of art models, achieving AP of 52.1\% (detection) and 46.8\% (segmentation). Our lesion classification sub-network achieves 89.2\% precision and 64.6\% recall on 21889 object patches (from the 303 ROIs). Importantly, the model demonstrates direct domain transfer to PAS-stained WSIs without fine-tuning.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# ジャグリング面におけるプレトレーニングモデルの命名実践

Naming Practices of Pre-Trained Models in Hugging Face ( http://arxiv.org/abs/2310.01642v2 )

ライセンス: Link先を確認
Wenxin Jiang, Chingwo Cheung, Mingyu Kim, Heesoo Kim, George K. Thiruvathukal, James C. Davis, (参考訳) ディープラーニングのイノベーションが続くにつれて、多くのエンジニアが、コンピュータシステムのコンポーネントとして事前学習モデル(PTM)を採用しようとしている。 研究者は、デプロイ前に品質やパフォーマンスに適応するPTMを公開している。 PTMの著者は、モデル発見と再利用を容易にするPTMの適切な名前を選択する必要がある。 しかしながら、以前の研究では、モデル名は必ずしも適切に選択されているわけではないと報告されている。 PTMパッケージの命名は体系的に研究されていない。 本稿では,Hugging Face PTMレジストリにおいて,PTM命名の実践に関する実証的研究を行った。 筆者らは, PTM命名における実践を理解するために, 108人のHugging Faceユーザを対象に調査を開始した。 本調査から,従来のソフトウェアパッケージの命名と相違点に注目し,命名の実践について報告する。 以上の結果から,技術者の好みと PTM 命名の実践との間には大きなミスマッチがあることが示唆された。 我々はまた、命名異常を検出するためのプラクティスを提示し、PTM命名異常を検出することができる新しいDNNARchitecture Assessment Technique (DARA)を導入する。 PTMのメタ機能を活用したモデル再利用と信頼性の向上に向けた今後の研究を期待する。

As innovation in deep learning continues, many engineers seek to adopt Pre-Trained Models (PTMs) as components in computer systems. Researchers publish PTMs, which engineers adapt for quality or performance prior to deployment. PTM authors should choose appropriate names for their PTMs, which would facilitate model discovery and reuse. However, prior research has reported that model names are not always well chosen - and are sometimes erroneous. The naming for PTM packages has not been systematically studied. In this paper, we frame and conduct the first empirical investigation of PTM naming practices in the Hugging Face PTM registry. We initiated our study with a survey of 108 Hugging Face users to understand the practices in PTM naming. From our survey analysis, we highlight discrepancies from traditional software package naming, and present findings on naming practices. Our findings indicate there is a great mismatch between engineers' preferences and practical practices of PTM naming. We also present practices on detecting naming anomalies and introduce a novel automated DNN ARchitecture Assessment technique (DARA), capable of detecting PTM naming anomalies. We envision future works on leveraging meta-features of PTMs to improve model reuse and trustworthiness.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# HallE-Control:大規模マルチモーダルモデルにおける物体の幻覚制御

HallE-Control: Controlling Object Hallucination in Large Multimodal Models ( http://arxiv.org/abs/2310.01779v3 )

ライセンス: Link先を確認
Bohan Zhai, Shijia Yang, Chenfeng Xu, Sheng Shen, Kurt Keutzer, Chunyuan Li, Manling Li, (参考訳) 現在のLMM(Large Multimodal Models)は目覚しい進歩を遂げているが、視覚的詳細を正確に把握する能力、すなわち詳細なキャプションを行う能力には大きな不確実性がある。 そこで我々は,詳細な字幕作成のための GPT-4 支援評価手法である $\textit{CCEval}$ を導入する。 興味深いことに、既存のVQAベンチマークでは、LMMは最小限のオブジェクト存在幻覚を示すが、提案した評価は、そのような幻覚に対する継続的な感受性を示す。 本稿では,画像の解像度,言語デコーダサイズ,命令データ量,品質,粒度など,さまざまな面での幻覚について検討する。 言語記述が視覚モジュールの接地や検証よりも細かな物体の粒度の詳細を含む場合, 幻覚を誘発する場合には, 言語記述が不規則な推論を裏付ける。 このような幻覚を制御するために、キャプションの信頼性は文脈的知識(文脈的接地対象のみを含む)とパラメトリック知識(モデルによる推論対象を含む)に比例する。 したがって、オブジェクト $\textbf{Hall}$xistence における $\textbf{Hall}$ucination という用語で制御可能な LMM である $\textit{HallE-Control}$ を導入する。 HallE-Controlはキャプションの切り替えを条件にできる 一 接地対象の文脈知識を専ら描写すること (二)推測対象を想像するためにパラメトリック知識と混同すること。 LLaVA$_{7B}$に比べて幻覚は44%減少し,対象範囲を維持できる。

Current Large Multimodal Models (LMMs) achieve remarkable progress, yet there remains significant uncertainty regarding their ability to accurately apprehend visual details, that is, in performing detailed captioning. To address this, we introduce $\textit{CCEval}$, a GPT-4 assisted evaluation method for detailed captioning. Interestingly, while LMMs demonstrate minimal object existence hallucination in existing VQA benchmarks, our proposed evaluation reveals continued susceptibility to such hallucinations. In this paper, we make the first attempt to investigate such hallucination from different aspects, including image resolution, the language decoder size, and instruction data amount, quality, granularity. Our findings underscore the unwarranted inference when the language description includes details at a finer object granularity than what the vision module can ground or verify, thus inducing hallucination. To control such hallucinations, we further attribute the reliability of captioning to contextual knowledge (involving only contextually grounded objects) and parametric knowledge (containing inferred objects by the model). Thus, we introduce $\textit{HallE-Control}$, a controllable LMM in terms of $\textbf{Hall}$ucination in object $\textbf{E}$xistence. HallE-Control can condition the captioning to shift between (i) exclusively depicting contextual knowledge for grounded objects and (ii) blending it with parametric knowledge to imagine inferred objects. Our method reduces hallucination by 44% compared to LLaVA$_{7B}$ and maintains the object coverage.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# ヴァッサーシュタイン歪曲 : 忠実性とリアリズムを統一する

Wasserstein Distortion: Unifying Fidelity and Realism ( http://arxiv.org/abs/2310.03629v2 )

ライセンス: Link先を確認
Yang Qiu, Aaron B. Wagner, Johannes Ballé, Lucas Theis, (参考訳) 本稿では,画像の歪み尺度であるワッサーシュタイン歪みを,一方の画素レベルの忠実度と他方の現実性や知覚品質を同時に一般化する手法を提案する。 ワッサーシュタインの歪みが、パラメータ選択の異なる純粋忠実性制約や純粋現実性制約にどのように還元されるかを示し、その計量特性について議論する。 ワッサーシュタイン歪みの下で近い画像のペアは、その有用性を示している。 特に,画像の1つの位置における参照テクスチャに対する忠実度が高いランダムテクスチャを生成し,この点から離れるにつれて、スムーズにテクスチャの独立的な実現に遷移する。 ワッサースタインの歪みは、テクスチャ生成、イメージリアリズム、歪み、初期の人間の視覚システムのモデルに関する先行研究を、数学的意味で最適化可能な計量の形で一般化し統一しようとする。

We introduce a distortion measure for images, Wasserstein distortion, that simultaneously generalizes pixel-level fidelity on the one hand and realism or perceptual quality on the other. We show how Wasserstein distortion reduces to a pure fidelity constraint or a pure realism constraint under different parameter choices and discuss its metric properties. Pairs of images that are close under Wasserstein distortion illustrate its utility. In particular, we generate random textures that have high fidelity to a reference texture in one location of the image and smoothly transition to an independent realization of the texture as one moves away from this point. Wasserstein distortion attempts to generalize and unify prior work on texture generation, image realism and distortion, and models of the early human visual system, in the form of an optimizable metric in the mathematical sense.
翻訳日:2024-04-01 20:36:47 公開日:2024-03-28
# マルチリガンドドッキングとバインドサイト設計のための高調波自己整合流マッチング

Harmonic Self-Conditioned Flow Matching for Multi-Ligand Docking and Binding Site Design ( http://arxiv.org/abs/2310.05764v3 )

ライセンス: Link先を確認
Hannes Stärk, Bowen Jing, Regina Barzilay, Tommi Jaakkola, (参考訳) タンパク質の機能のかなりの部分は、酵素触媒を含む小さな分子の結合を必要とする。 そのため、小さな分子に対する結合ポケットの設計には、薬物合成からエネルギー貯蔵まで、いくつかの影響のある応用がある。 この目的に向けて,我々はまず,自己条件付きフローマッチングの目的に基づいて,3次元タンパク質-リガンド結合構造を改良した生成過程であるHarmonicFlowを開発した。 FlowSiteはこのフローモデルを拡張して、タンパク質ポケットの離散残基タイプと分子の結合3D構造を共同で生成する。 本研究では,HarmonicFlowがポケットレベルのドッキングにおいて,ドッキングの簡易性,汎用性,平均サンプル品質を向上することを示す。 この構造モデリングによって実現されたFlowSiteは、ベースラインアプローチよりもはるかに優れたバインディングサイトを設計する。

A significant amount of protein function requires binding small molecules, including enzymatic catalysis. As such, designing binding pockets for small molecules has several impactful applications ranging from drug synthesis to energy storage. Towards this goal, we first develop HarmonicFlow, an improved generative process over 3D protein-ligand binding structures based on our self-conditioned flow matching objective. FlowSite extends this flow model to jointly generate a protein pocket's discrete residue types and the molecule's binding 3D structure. We show that HarmonicFlow improves upon state-of-the-art generative processes for docking in simplicity, generality, and average sample quality in pocket-level docking. Enabled by this structure modeling, FlowSite designs binding sites substantially better than baseline approaches.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-28
# ゆるやかなフィードバックを持つ強いモノトーンゲームとExp-Concaveゲームにおける適応的2倍最適非線形学習

Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback ( http://arxiv.org/abs/2310.14085v4 )

ライセンス: Link先を確認
Michael I. Jordan, Tianyi Lin, Zhengyuan Zhou, (参考訳) オンライン勾配降下(OGD)は、強凸性や単調性仮定の下では2倍に最適であることがよく知られており、(1)強凸コスト関数に対する$\Theta(\log T)$の最適後悔、(2)強凸コスト関数に対する強い単調ゲームのマルチエージェント設定において、OGDを用いる各エージェントは、それぞれ$\Theta(\frac{1}{T})$の最適な速度で、一意のナッシュ平衡に対する結合作用の最終的な収束を得る。 これらの有限時間保証はその利点を強調するが、OGDは強い凸性/単調性パラメータを知る必要があるという欠点がある。 本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズムである \textsf{AdaOGD} を設計する。 単一エージェント設定では、このアルゴリズムは強い凸性の下で$O(\log^2(T))$ regretを達成し、ログ係数まで最適である。 さらに、強単調ゲームにおいて各エージェントが \textsf{AdaOGD} を用いる場合、結合作用は最後の定位感覚で$O(\frac{\log^3 T}{T})$で一意なナッシュ平衡に収束する。 従来のニュースベンダ問題の学習バージョンでは,販売が遅れたため,(ノイズの多い)勾配フィードバックのみを観測できる。 この結果から, 単小売店と複数小売店の双方で実現可能な, ほぼ最適アルゴリズムが得られた。 また、オンラインニュートンステップ(ONS)アルゴリズムを用いて、exp-concaveコスト関数とゲームをより一般的な設定に拡張する。

Online gradient descent (OGD) is well known to be doubly optimal under strong convexity or monotonicity assumptions: (1) in the single-agent setting, it achieves an optimal regret of $\Theta(\log T)$ for strongly convex cost functions; and (2) in the multi-agent setting of strongly monotone games, with each agent employing OGD, we obtain last-iterate convergence of the joint action to a unique Nash equilibrium at an optimal rate of $\Theta(\frac{1}{T})$. While these finite-time guarantees highlight its merits, OGD has the drawback that it requires knowing the strong convexity/monotonicity parameters. In this paper, we design a fully adaptive OGD algorithm, \textsf{AdaOGD}, that does not require a priori knowledge of these parameters. In the single-agent setting, our algorithm achieves $O(\log^2(T))$ regret under strong convexity, which is optimal up to a log factor. Further, if each agent employs \textsf{AdaOGD} in strongly monotone games, the joint action converges in a last-iterate sense to a unique Nash equilibrium at a rate of $O(\frac{\log^3 T}{T})$, again optimal up to log factors. We illustrate our algorithms in a learning version of the classical newsvendor problem, where due to lost sales, only (noisy) gradient feedback can be observed. Our results immediately yield the first feasible and near-optimal algorithm for both the single-retailer and multi-retailer settings. We also extend our results to the more general setting of exp-concave cost functions and games, using the online Newton step (ONS) algorithm.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-28
# 肝脂肪症診断のためのハイブリッド量子画像分類とフェデレーション学習

Hybrid quantum image classification and federated learning for hepatic steatosis diagnosis ( http://arxiv.org/abs/2311.02402v2 )

ライセンス: Link先を確認
Luca Lusnig, Asel Sagingalieva, Mikhail Surmach, Tatjana Protasevich, Ovidiu Michiu, Joseph McLoughlin, Christopher Mansell, Graziano de' Petris, Deborah Bonazza, Fabrizio Zanconati, Alexey Melnikov, Fabio Cavalli, (参考訳) 肝移植の領域では,肝脂肪症レベルを正確に判定することが重要である。 本研究の目的は, 診断精度の向上, 特に診断時間を最適化し, 解決し易い症例を迅速に処理し, 専門家がより複雑な症例に焦点を合わせることにある。 さらに、病院間での患者データの共有が制限され、開発と検証プロセスが複雑になるため、自動化されたアルゴリズムソリューションを作成する際に、データのプライバシを維持するという課題が生じる。 この研究は、量子機械学習の急速に進化する分野から新しい技術を活用することで、診断精度に取り組み、その優れた一般化能力で知られている。 同時に、プライバシを意識したコラボレーティブ機械学習とフェデレーション学習を実装することで、プライバシの懸念に対処する。 実世界の臨床データを利用して非アルコール性肝脂肪症を正確に評価するハイブリッド量子ニューラルネットワークモデルを提案する。 このモデルでは画像分類精度が97%に達し、従来の手法を1.8%上回る。 さらに、異なるクライアントからのデータを共有しながら、プライバシを確保するためのフェデレート学習アプローチを採用することで、90%を超える精度を維持します。 このイニシアチブは、スケーラブルで、協調的で、効率的で、信頼性の高い計算フレームワークへの重要な一歩であり、臨床病理医が日々の診断作業を支援する。

In the realm of liver transplantation, accurately determining hepatic steatosis levels is crucial. Recognizing the essential need for improved diagnostic precision, particularly for optimizing diagnosis time by swiftly handling easy-to-solve cases and allowing the expert time to focus on more complex cases, this study aims to develop cutting-edge algorithms that enhance the classification of liver biopsy images. Additionally, the challenge of maintaining data privacy arises when creating automated algorithmic solutions, as sharing patient data between hospitals is restricted, further complicating the development and validation process. This research tackles diagnostic accuracy by leveraging novel techniques from the rapidly evolving field of quantum machine learning, known for their superior generalization abilities. Concurrently, it addresses privacy concerns through the implementation of privacy-conscious collaborative machine learning with federated learning. We introduce a hybrid quantum neural network model that leverages real-world clinical data to assess non-alcoholic liver steatosis accurately. This model achieves an image classification accuracy of 97%, surpassing traditional methods by 1.8%. Moreover, by employing a federated learning approach that allows data from different clients to be shared while ensuring privacy, we maintain an accuracy rate exceeding 90%. This initiative marks a significant step towards a scalable, collaborative, efficient, and dependable computational framework that aids clinical pathologists in their daily diagnostic tasks.
翻訳日:2024-04-01 20:26:59 公開日:2024-03-28
# 大規模マルチモーダルモデルのためのコンポジションチェーン・オブ・サート・プロンプティング

Compositional Chain-of-Thought Prompting for Large Multimodal Models ( http://arxiv.org/abs/2311.17076v2 )

ライセンス: Link先を確認
Chancharik Mitra, Brandon Huang, Trevor Darrell, Roei Herzig, (参考訳) 強力な視覚バックボーンとLLM(Large Language Model)推論の組み合わせにより、LMM(Large Multimodal Models)が、幅広いビジョンと言語(VL)タスクの現在の標準となった。 しかし、近年の研究では、最も先進的なLMMでさえ、属性やオブジェクト間の関係といった、構成的視覚的推論の側面を捉えるのに苦戦していることが示されている。 1つの解決策はシーングラフ(SG)を利用することだ。オブジェクトとその関係と属性は視覚領域とテキスト領域の間のブリッジとして広く利用されている。 しかし、シーングラフデータにはシーングラフアノテーションが必要です。 さらに、SGデータに基づくLMMの微調整は、事前学習対象を壊滅的に忘れてしまう可能性がある。 これを解決するために,LMMから合成知識を抽出するために,SG表現を利用した新しいゼロショット・チェーン・オブ・ソート・プロンプト法であるコンポジション・チェーン・オブ・ソート(CCoT)を提案する。 具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。 広範にわたる実験により、提案手法は、複数の視覚および言語VL合成ベンチマークにおけるLMM性能を向上するだけでなく、一般的なマルチモーダルベンチマークにおけるいくつかのLMMの性能も改善する。 コード:https://github.com/chancharikmitra/CCoT

The combination of strong visual backbones and Large Language Model (LLM) reasoning has led to Large Multimodal Models (LMMs) becoming the current standard for a wide range of vision and language (VL) tasks. However, recent research has shown that even the most advanced LMMs still struggle to capture aspects of compositional visual reasoning, such as attributes and relationships between objects. One solution is to utilize scene graphs (SGs)--a formalization of objects and their relations and attributes that has been extensively used as a bridge between the visual and textual domains. Yet, scene graph data requires scene graph annotations, which are expensive to collect and thus not easily scalable. Moreover, finetuning an LMM based on SG data can lead to catastrophic forgetting of the pretraining objective. To overcome this, inspired by chain-of-thought methods, we propose Compositional Chain-of-Thought (CCoT), a novel zero-shot Chain-of-Thought prompting method that utilizes SG representations in order to extract compositional knowledge from an LMM. Specifically, we first generate an SG using the LMM, and then use that SG in the prompt to produce a response. Through extensive experiments, we find that the proposed CCoT approach not only improves LMM performance on several vision and language VL compositional benchmarks but also improves the performance of several popular LMMs on general multimodal benchmarks, without the need for fine-tuning or annotated ground-truth SGs. Code: https://github.com/chancharikmitra/CCoT
翻訳日:2024-04-01 20:17:13 公開日:2024-03-28
# 強化と模倣学習を用いた眼科ロボットのサージオンインザループ化に向けて

Toward a Surgeon-in-the-Loop Ophthalmic Robotic Apprentice using Reinforcement and Imitation Learning ( http://arxiv.org/abs/2311.17693v2 )

ライセンス: Link先を確認
Amr Gomaa, Bilal Mahdy, Niko Kleer, Antonio Krüger, (参考訳) ロボットによる手術支援システムは、手術の精度を向上し、人間の誤りを最小化するための大きな可能性を示している。 しかし、既存のシステムは個々の外科医の独特な好みや要求を満たす能力に欠けていた。 さらに、主に一般的な手術(例えば、腹腔鏡)に焦点を当てており、眼科手術のような高精度な微小手術には適さない。 そこで本研究では,眼内白内障手術において,個々の外科医のスキルレベルに適応し,外科的テクニックを優先する,外科医中心の自律エージェントに対するシミュレーションに基づく画像誘導アプローチを提案する。 本手法は,白内障手術の切開フェーズのすべてのタスクを実行するために,画像データに導かれる強化学習エージェントを訓練するために,シミュレーション環境を利用する。 外科医の行動と嗜好をトレーニングプロセスに組み込むことで,ロボットは実演を通して個々の外科医のユニークなアプローチを暗黙的に学習し,適応することができる。 これにより、外科医にとってより直感的でパーソナライズされた外科的経験が得られる。 同時に、自律ロボットの見習いにとって一貫したパフォーマンスを確保する。 提案した指標を用いてアプローチの有効性を定義し,評価し,ジェネリックエージェントと外科医中心の適応エージェントとのトレードオフを強調した。 さらに,本手法は他の眼科手術にも応用できる可能性があり,新世代の手術ロボットへの扉を開くことができる。 今後の開発と再現性のためのオープンソースのシミュレーションフレームワークを提供する。

Robotic-assisted surgical systems have demonstrated significant potential in enhancing surgical precision and minimizing human errors. However, existing systems lack the ability to accommodate the unique preferences and requirements of individual surgeons. Additionally, they primarily focus on general surgeries (e.g., laparoscopy) and are not suitable for highly precise microsurgeries, such as ophthalmic procedures. Thus, we propose a simulation-based image-guided approach for surgeon-centered autonomous agents that can adapt to the individual surgeon's skill level and preferred surgical techniques during ophthalmic cataract surgery. Our approach utilizes a simulated environment to train reinforcement and imitation learning agents guided by image data to perform all tasks of the incision phase of cataract surgery. By integrating the surgeon's actions and preferences into the training process with the surgeon-in-the-loop, our approach enables the robot to implicitly learn and adapt to the individual surgeon's unique approach through demonstrations. This results in a more intuitive and personalized surgical experience for the surgeon. Simultaneously, it ensures consistent performance for the autonomous robotic apprentice. We define and evaluate the effectiveness of our approach using our proposed metrics; and highlight the trade-off between a generic agent and a surgeon-centered adapted agent. Moreover, our approach has the potential to extend to other ophthalmic surgical procedures, opening the door to a new generation of surgeon-in-the-loop autonomous surgical robots. We provide an open-source simulation framework for future development and reproducibility.
翻訳日:2024-04-01 20:17:12 公開日:2024-03-28
# 1つの連続的ビデオストリームから学ぶ

Learning from One Continuous Video Stream ( http://arxiv.org/abs/2312.00598v2 )

ライセンス: Link先を確認
João Carreira, Michael King, Viorica Pătrăucean, Dilara Gokay, Cătălin Ionescu, Yi Yang, Daniel Zoran, Joseph Heyward, Carl Doersch, Yusuf Aytar, Dima Damen, Andrew Zisserman, (参考訳) ミニバッチやデータ拡張、シャッフルなしで、人々や動物が学ぶ方法です。 連続するビデオフレーム間の高い相関性を考えると,これは大きな課題となる。 我々のフレームワークは、このトピックを深く掘り下げ、既存の2つのビデオデータセットで構成されたストリームとタスクのコレクションと、適応と一般化の両方を考慮したパフォーマンス評価の方法論を含むことができます。 我々は,事前学習と単一ストリーム評価の切り替えと任意のタスクの切り替えを,モデルの変更を必要とせず,常に同じピクセル損失を使用するための実用的で柔軟な方法として,ピクセル間モデリングを採用している。 この枠組みを取り入れて、将来の予測タスクの新たなファミリーで事前トレーニングを行うことで、大きなシングルストリーム学習の成果を得ることができ、モメンタムが損なわれ、重量の更新のペースが重要になることがわかった。 これらの洞察を組み合わせることで、IID学習のパフォーマンスをバッチサイズ1と一致させることができます。

We introduce a framework for online learning from a single continuous video stream -- the way people and animals learn, without mini-batches, data augmentation or shuffling. This poses great challenges given the high correlation between consecutive video frames and there is very little prior work on it. Our framework allows us to do a first deep dive into the topic and includes a collection of streams and tasks composed from two existing video datasets, plus methodology for performance evaluation that considers both adaptation and generalization. We employ pixel-to-pixel modelling as a practical and flexible way to switch between pre-training and single-stream evaluation as well as between arbitrary tasks, without ever requiring changes to models and always using the same pixel loss. Equipped with this framework we obtained large single-stream learning gains from pre-training with a novel family of future prediction tasks, found that momentum hurts, and that the pace of weight updates matters. The combination of these insights leads to matching the performance of IID learning with batch size 1, when using the same architecture and without costly replay buffers.
翻訳日:2024-04-01 20:17:12 公開日:2024-03-28
# 拡張木上の量子ダーウィン主義-エンコード遷移

Quantum Darwinism-encoding transitions on expanding trees ( http://arxiv.org/abs/2312.04284v3 )

ライセンス: Link先を確認
Benoît Ferté, Xiangyu Cao, (参考訳) 量子ダーウィン主義 (Quantum Darwinism, QD) は、古典的客観性は、顕微鏡的自由度に関する情報を多体環境の複数の分節に伝達することから生じると提唱している。 このような情報のブロードキャストは、強い相互作用の下での揺らぎとは対照的である。 近年、ブロードキャストとスクランブルの間を補間する量子力学は、QD符号化遷移と呼ばれる情報伝達の鋭い位相遷移を示すことが示されている。 ここでは、それらの系統的研究を、一般の非クリフォード設定で開始する。 まず,情報伝達がアイソメトリとしてモデル化され,その入力quditが参照と絡み合う一般的な理論設定において,環境分数測定後の参照の密度行列分布である遷移のプローブを提案する。 このプローブは、分数とインジェクションされた情報の間の古典的相関を測定する。 次に、このフレームワークを拡大木上のテンソルネットワークで定義された2つの類似モデルに適用し、スピンハーフの$z$成分をブロードキャストしようとするノイズのある装置をモデル化する。 密度行列分布の正確な再帰関係を導出し,解析および数値解析を行った。 結果として、QD、中間および符号化の3つのフェーズと、2つの連続遷移が見つかる。 エンコーディング・中間遷移は、基準と小さな環境分数の非ゼロ相関の成立を記述しており、中間空間における非ガウス的および対称性の破れとなる分数の総スピン-z$の「粗い粒度」測度によって探究することができる。 QD-中間遷移は、相関が完璧かどうかに関するものである。 微細な測度によって探索されなければならず、レプリカ空間のより微妙な対称性の破れに対応する。

Quantum Darwinism (QD) proposes that classical objectivity emerges from the broadcast of information about a microscopic degree of freedom into multiple fractions of a many-body environment. Such a broadcast of information is in sharp contrast with its scrambling under strong interaction. It was recently shown that quantum dynamics interpolating between broadcasting and scrambling may display sharp phase transitions of information propagation, named QD-encoding transitions. Here, we initiate their systematic study in generic, non-Clifford settings. First, in a general theoretical setup where the information propagation is modeled as an isometry, whose input qudit is entangled with a reference, we propose a probe of the transitions -- the distribution of the density matrix of the reference after measuring an environment fraction. This probe measures the classical correlation between the fraction and the injected information. We then apply the framework to two similar models defined by a tensor network on an expanding tree, modeling a noisy apparatus that attempts to broadcast the $z$ component of a spin-half. We derive an exact recursion relation of the density matrix distribution, which we analyze analytically and numerically. As a result we find three phases: QD, intermediate and encoding, and two continuous transitions. The encoding-intermediate transition describes the establishment of nonzero correlation between the reference and a small environment fraction, and can be probed by a ``coarse-grained'' measure of the total spin-$z$ of the fraction, which becomes non-Gaussian and symmetry breaking in the intermediate space. The QD-intermediate transition is about whether the correlation is perfect. It must be probed by fined-grained measures, and corresponds to a more subtle symmetry breaking in the replica space.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-28
# 単一GPUにおけるデータ効率の良いマルチモーダル融合

Data-Efficient Multimodal Fusion on a Single GPU ( http://arxiv.org/abs/2312.10144v3 )

ライセンス: Link先を確認
Noël Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims Volkovs, (参考訳) マルチモーダルアライメントの目標は、マルチモーダル入力間で共有される単一の潜在空間を学習することである。 この分野でもっとも強力なモデルは、ペア化された入力と大規模な計算資源の膨大なデータセットを使用して訓練されており、多くの実践的なシナリオでトレーニングするのは非常に高価である。 我々は、大量のユニモーダルデータで事前訓練された既存のユニモーダルエンコーダが、より低コストでインモーダルエンコーダからマルチモーダルモデルを作成するための効果的なブートストラップを提供するだろうと推測する。 そこで,本稿では,任意の事前学習されたユニモーダルエンコーダの潜在空間で動作するマルチモーダル拡張スキームであるFuseMixを提案する。 マルチモーダルアライメントにFuseMixを使用することで、画像テキストとオーディオテキストの検索において、競合するパフォーマンス -- と、場合によっては最先端のメソッド -- を、桁違いに少ない計算とデータで上回ります。 600\times$GPUの日数を減らし、$\sim \! 80\times$少ない画像テキストペア。 さらに,本手法を用いて,事前学習したテキストから画像への生成モデルを音声から画像へ変換する方法について述べる。 コードは、https://github.com/layer6ai-labs/fusemix.comで入手できる。

The goal of multimodal alignment is to learn a single latent space that is shared between multimodal inputs. The most powerful models in this space have been trained using massive datasets of paired inputs and large-scale computational resources, making them prohibitively expensive to train in many practical scenarios. We surmise that existing unimodal encoders pre-trained on large amounts of unimodal data should provide an effective bootstrap to create multimodal models from unimodal ones at much lower costs. We therefore propose FuseMix, a multimodal augmentation scheme that operates on the latent spaces of arbitrary pre-trained unimodal encoders. Using FuseMix for multimodal alignment, we achieve competitive performance -- and in certain cases outperform state-of-the art methods -- in both image-text and audio-text retrieval, with orders of magnitude less compute and data: for example, we outperform CLIP on the Flickr30K text-to-image retrieval task with $\sim \! 600\times$ fewer GPU days and $\sim \! 80\times$ fewer image-text pairs. Additionally, we show how our method can be applied to convert pre-trained text-to-image generative models into audio-to-image ones. Code is available at: https://github.com/layer6ai-labs/fusemix.
翻訳日:2024-04-01 20:07:17 公開日:2024-03-28
# 自然言語による方言の自然言語処理に関する調査

Natural Language Processing for Dialects of a Language: A Survey ( http://arxiv.org/abs/2401.05632v2 )

ライセンス: Link先を確認
Aditya Joshi, Raj Dabre, Diptesh Kanojia, Zhuang Li, Haolan Zhan, Gholamreza Haffari, Doris Dippold, (参考訳) 最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々は,データセットの観点からのNLPにおける過去の研究を調査した。 自然言語理解(NLU)(方言分類,感情分析,構文解析,NLUベンチマークなどのタスク)と自然言語生成(NLG)(要約,機械翻訳,対話システム)の2つのカテゴリに分類される。 この調査はまた、英語、アラビア語、ドイツ語などを含む言語をカバーしている。 我々は,NLPにおける方言に関する過去の研究が,単なる方言分類よりも深くなっていることを観察する。 これには、ハイパーネットワークをLoRAに統合する最近のアプローチに繋がる、文のトランスダクションを使った初期のアプローチが含まれる。 この調査は,LLMベンチマークやモデルアーキテクチャを再考することによって,公平な言語技術の構築に関心を持つNLP研究者にとって有用であることが期待されている。

State-of-the-art natural language processing (NLP) models are trained on massive training corpora, and report a superlative performance on evaluation datasets. This survey delves into an important attribute of these datasets: the dialect of a language. Motivated by the performance degradation of NLP models for dialectic datasets and its implications for the equity of language technologies, we survey past research in NLP for dialects in terms of datasets, and approaches. We describe a wide range of NLP tasks in terms of two categories: natural language understanding (NLU) (for tasks such as dialect classification, sentiment analysis, parsing, and NLU benchmarks) and natural language generation (NLG) (for summarisation, machine translation, and dialogue systems). The survey is also broad in its coverage of languages which include English, Arabic, German among others. We observe that past work in NLP concerning dialects goes deeper than mere dialect classification, and . This includes early approaches that used sentence transduction that lead to the recent approaches that integrate hypernetworks into LoRA. We expect that this survey will be useful to NLP researchers interested in building equitable language technologies by rethinking LLM benchmarks and model architectures.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-28
# グラバーミキサーを用いた量子交互演算子アンザッツの解析結果

Analytical results for the Quantum Alternating Operator Ansatz with Grover Mixer ( http://arxiv.org/abs/2401.11056v2 )

ライセンス: Link先を確認
Guilherme Adamatti Bridi, Franklin de Lima Marquezino, (参考訳) グロバー混合器によるQAOAの重要な性質は、その期待値は状態の任意の置換に対して不変であることである。 その結果、アルゴリズムは問題の構造とは無関係である。 この特徴が、非構造化探索問題の限界を克服するアルゴリズムの能力に深刻な疑問を呈する一方で、解析的研究への道を開くことができる。 この意味で、先行研究は、問題ハミルトニアンスペクトルに関連する確率分布に依存する期待値の解析的表現をもたらすGM-QAOAを分析する統計的アプローチを導入した。 この手法は計算における驚くほどの単純化を提供するが、式は指数関数的に層数に依存するため、直接解析処理は不可能である。 本研究では,Grover Mixer Threshold QAOA(Grover Mixer Threshold QAOA, GM-Th-QAOA, GM-QAOAの位相分離演算子を置換してしきい値関数を符号化する変種)のより単純な文脈に解析を拡張した。 その結果,レイヤ数に依存しない期待値の式が得られ,その結果,異なるパフォーマンス指標のバウンダリが提供される。 さらに、Grover-based QAOAと呼ぶGrovermixerを用いて、より一般的なQAOAの文脈まで分析を拡張した。 このフレームワークでは、位相分離演算子がコスト関数の任意のコンパイルを符号化できるので、非構造化探索問題上でのGroverのアルゴリズムの最適性と矛盾する引数を用いて、すべての境界を一般化する。 その結果、この研究の主な貢献は、古典的なブライト力に対してグロバーミキサーが二次的なグロバースタイルのスピードアップを反映するという考えを形式化する期待値によって達成された量子化の漸近的な下界である。

An important property of QAOA with Grover mixer is that its expectation value is invariant over any permutation of states. As a consequence, the algorithm is independent of the structure of the problem. If, on the one hand, this characteristic raises serious doubts about the capacity of the algorithm to overcome the bound of the unstructured search problem, on the other hand, it can pave the way to its analytical study. In this sense, a prior work introduced a statistical approach to analyze GM-QAOA that results in an analytical expression for the expectation value depending on the probability distribution associated with the problem Hamiltonian spectrum. Although the method provides surprising simplifications in calculations, the expression depends exponentially on the number of layers, which makes direct analytical treatment unfeasible. In this work, we extend the analysis to the more simple context of Grover Mixer Threshold QAOA (GM-Th-QAOA), a variant that replaces the phase separation operator of GM-QAOA to encode a threshold function. As a result, we obtain an expression for the expectation value independent of the number of layers and, with it, we provide bounds for different performance metrics. Furthermore, we extend the analysis to a more general context of QAOA with Grover mixer, which we called Grover-based QAOA. In that framework, which allows the phase separation operator to encode any compilation of the cost function, we generalize all the bounds by using a contradiction argument with the optimality of Grover's algorithm on the unstructured search problem. As a result, we get the main contribution of this work, an asymptotic lower bound on the quantile achieved by the expectation value that formalizes the notion that the Grover mixer, at most, reflects a quadratic Grover-style speed-up over classical brute force.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-28
# 発光ダイバーシティによるロバストネスのマルチエージェント診断

Multi-Agent Diagnostics for Robustness via Illuminated Diversity ( http://arxiv.org/abs/2401.13460v2 )

ライセンス: Link先を確認
Mikayel Samvelyan, Davide Paglieri, Minqi Jiang, Jack Parker-Holder, Tim Rocktäschel, (参考訳) 多エージェントシステムの急速に進歩する分野では、不慣れな環境や敵対的な環境において堅牢性を確保することが不可欠である。 慣れ親しんだ環境での卓越した性能にもかかわらず、これらのシステムはトレーニング期間中に過度に適合するため、しばしば新しい状況で失敗する。 これは、協調行動と競争行動の両方が存在する状況において特に顕著であり、過剰適合と一般化の2つの性質をカプセル化している。 この問題に対処するため、我々は、事前訓練されたマルチエージェントポリシーにおける戦略的脆弱性を露呈する多様な敵シナリオを生成する新しいアプローチである、照度変化によるロバストネスのマルチエージェント診断(MADRID)を提案する。 オープンエンド学習の概念を活用して、MADRIDは敵の設定の広大な空間をナビゲートし、これらの設定の脆弱性を測定するために、ターゲットポリシーの後悔を利用する。 我々はマルチエージェント強化学習における最も複雑な環境の一つであるGoogle Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。 具体的には,大規模な分散インフラ上での45日間のトレーニングを通じてゲームを"マスター"する,最先端のアプローチであるTiZeroに対して,多様な敵設定を生成するためにMADRIDを使用する。 マルチエージェントシステムにおける厳密な評価の重要性を浮き彫りにして,TiZeroの戦術的意思決定における重要な欠点を明らかにする。

In the rapidly advancing field of multi-agent systems, ensuring robustness in unfamiliar and adversarial settings is crucial. Notwithstanding their outstanding performance in familiar environments, these systems often falter in new situations due to overfitting during the training phase. This is especially pronounced in settings where both cooperative and competitive behaviours are present, encapsulating a dual nature of overfitting and generalisation challenges. To address this issue, we present Multi-Agent Diagnostics for Robustness via Illuminated Diversity (MADRID), a novel approach for generating diverse adversarial scenarios that expose strategic vulnerabilities in pre-trained multi-agent policies. Leveraging the concepts from open-ended learning, MADRID navigates the vast space of adversarial settings, employing a target policy's regret to gauge the vulnerabilities of these settings. We evaluate the effectiveness of MADRID on the 11vs11 version of Google Research Football, one of the most complex environments for multi-agent reinforcement learning. Specifically, we employ MADRID for generating a diverse array of adversarial settings for TiZero, the state-of-the-art approach which "masters" the game through 45 days of training on a large-scale distributed infrastructure. We expose key shortcomings in TiZero's tactical decision-making, underlining the crucial importance of rigorous evaluation in multi-agent systems.
翻訳日:2024-04-01 19:57:29 公開日:2024-03-28
# 大規模言語モデルの文脈内学習における不確かさの定量化

Uncertainty Quantification for In-Context Learning of Large Language Models ( http://arxiv.org/abs/2402.10189v2 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Xuchao Zhang, Wei Cheng, Yanchi Liu, Yiyou Sun, Mika Oishi, Takao Osaki, Katsushi Matsuda, Jie Ji, Guangji Bai, Liang Zhao, Haifeng Chen, (参考訳) In-context LearningはLarge Language Models(LLM)の画期的な能力として登場し、いくつかのタスク関連デモをプロンプトで提供することによって、さまざまな分野に革命をもたらした。 しかし、幻覚などのLSMの反応に関する信頼できる問題も積極的に議論されている。 既存の研究はLLMの応答の不確かさの定量化に費やされてきたが、LLMの複雑な性質と文脈内学習の独特さをしばしば見落としている。 本研究は、文脈内学習に関連するLCMの予測的不確実性について考察し、そのような不確実性は、提示された実証(アラート的不確実性)とモデルの構成に関連付けられた曖昧性(視点的不確実性)の両方から生じる可能性があることを明らかにする。 両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。 提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。 大規模な実験を行い, 分解の有効性を実証した。 コードとデータは、https://github.com/lingchen0331/UQ_ICL.comで入手できる。

In-context learning has emerged as a groundbreaking ability of Large Language Models (LLMs) and revolutionized various fields by providing a few task-relevant demonstrations in the prompt. However, trustworthy issues with LLM's response, such as hallucination, have also been actively discussed. Existing works have been devoted to quantifying the uncertainty in LLM's response, but they often overlook the complex nature of LLMs and the uniqueness of in-context learning. In this work, we delve into the predictive uncertainty of LLMs associated with in-context learning, highlighting that such uncertainties may stem from both the provided demonstrations (aleatoric uncertainty) and ambiguities tied to the model's configurations (epistemic uncertainty). We propose a novel formulation and corresponding estimation method to quantify both types of uncertainties. The proposed method offers an unsupervised way to understand the prediction of in-context learning in a plug-and-play fashion. Extensive experiments are conducted to demonstrate the effectiveness of the decomposition. The code and data are available at: https://github.com/lingchen0331/UQ_ICL.
翻訳日:2024-04-01 18:02:50 公開日:2024-03-28
# QN-Mixer:Sparse-View CT再構成のための準ニュートンMLP-Mixerモデル

QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2402.17951v3 )

ライセンス: Link先を確認
Ishak Ayad, Nicolas Larue, Maï K. Nguyen, (参考訳) 逆問題は様々な分野にまたがる。 医学的文脈では、CT(Computerd tomography)は患者の内部構造を再構築する上で重要な役割を果たす。 従来の研究では、ポストプロセッシングやディープアンローリングアルゴリズムを通じて画像品質を向上していたが、超スパースデータによる収束時間の拡張といった課題に直面していた。 拡張にもかかわらず、結果として得られる画像は、しばしば重要なアーティファクトを示し、現実世界の診断アプリケーションに対する有効性を制限している。 本研究の目的は,画像逆問題の解法として,勾配降下のような一般的な一階解法と比較して,より高速な収束と低時間の複雑さを強調した2階解法を探索することである。 本稿では準ニュートン法に基づくアルゴリズムQN-Mixerを紹介する。 BFGSアルゴリズムを通じて学習パラメータを使用し、非局所正規化用語として機能し、画像内の長距離依存関係をキャプチャする効率的なニューラルネットワークであるIncept-Mixerを導入する。 完全ヘッセン行列計算を必要とする準ニュートンアルゴリズムに典型的に関連する計算要求に対処するため,メモリ効率の代替案を提案する。 提案手法は、勾配情報をインテリジェントにサンプリングし、性能を維持しながら計算要求を大幅に削減する。 このアプローチは、さまざまなデータセットや走査プロトコルを含むスパースビューCT問題の実験を通じて検証され、後処理や最先端のアプローチと比較される。 提案手法は既存の手法より優れ,SSIMとPSNRの両面において最先端の性能を実現し,必要なアンロールイテレーションの回数を削減した。

Inverse problems span across diverse fields. In medical contexts, computed tomography (CT) plays a crucial role in reconstructing a patient's internal structure, presenting challenges due to artifacts caused by inherently ill-posed inverse problems. Previous research advanced image quality via post-processing and deep unrolling algorithms but faces challenges, such as extended convergence times with ultra-sparse data. Despite enhancements, resulting images often show significant artifacts, limiting their effectiveness for real-world diagnostic applications. We aim to explore deep second-order unrolling algorithms for solving imaging inverse problems, emphasizing their faster convergence and lower time complexity compared to common first-order methods like gradient descent. In this paper, we introduce QN-Mixer, an algorithm based on the quasi-Newton approach. We use learned parameters through the BFGS algorithm and introduce Incept-Mixer, an efficient neural architecture that serves as a non-local regularization term, capturing long-range dependencies within images. To address the computational demands typically associated with quasi-Newton algorithms that require full Hessian matrix computations, we present a memory-efficient alternative. Our approach intelligently downsamples gradient information, significantly reducing computational requirements while maintaining performance. The approach is validated through experiments on the sparse-view CT problem, involving various datasets and scanning protocols, and is compared with post-processing and deep unrolling state-of-the-art approaches. Our method outperforms existing approaches and achieves state-of-the-art performance in terms of SSIM and PSNR, all while reducing the number of unrolling iterations required.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-28
# 量子回路と測定による多体量子状態の近似

Approximating many-body quantum states with quantum circuits and measurements ( http://arxiv.org/abs/2403.07604v2 )

ライセンス: Link先を確認
Lorenzo Piroli, Georgios Styliaris, J. Ignacio Cirac, (参考訳) 本稿では,局所的な演算と古典的通信を補助する量子回路を用いた多体量子状態の生成プロトコルを提案する。 正確な準備条件を引き上げることで、資源を大幅に節約できることを示す。 特に、いわゆる$W$と、より一般的には、Dicke状態は、システムサイズに依存しないサイト毎の回路深さとアンシラの数を必要とする。 我々の研究の双積として、特定の非局所非クリフォードユニタリ作用素を実装する効率的なスキームを導入する。 また、よく知られたスピンモデルの固有状態(自由と相互作用の両方)の準備において、私の類似した考えがどのように適用されるかについても論じる。

We introduce protocols to prepare many-body quantum states with quantum circuits assisted by local operations and classical communication. We show that by lifting the requirement of exact preparation, one can substantially save resources. In particular, the so-called $W$ and, more generally, Dicke states require a circuit depth and number of ancillas per site that are independent of the system size. As a biproduct of our work, we introduce an efficient scheme to implement certain non-local, non-Clifford unitary operators. We also discuss how similar ideas my be applied in the preparation of eigenstates of well-known spin models, both free and interacting.
翻訳日:2024-04-01 18:02:49 公開日:2024-03-28
# リンドブラッド進化における古典的量子対応

Classical-Quantum correspondence in Lindblad evolution ( http://arxiv.org/abs/2403.09345v3 )

ライセンス: Link先を確認
Jeffrey Galkowski, Maciej Zworski, (参考訳) 古典的ハミルトニアンと(多くは)線型に成長する古典的ジャンプ関数(ある楕円性条件を満たすと仮定されるジャンプ作用素に量子化され、より大きなシステムとのモデリング相互作用)を用いて定義されるリンドブラッドの進化について、量子可観測関数の進化はエルベルト-シュミットノルムにおける古典的フォッカー-プランクの進化に近く、エレンフェスト時(ジャンプ作用素とのそのような合意の限界)をはるかに超えていることを示す。 時間スケールは、Hern\'andez--Ranard--Riedelによる最近の2つの論文と同じであるが、ステートメントとメソッドが異なる。

We show that for the Lindblad evolution defined using (at most) quadratically growing classical Hamiltonians and (at most) linearly growing classical jump functions (quantized into jump operators assumed to satisfy certain ellipticity conditions and modeling interaction with a larger system), the evolution of a quantum observable remains close to the classical Fokker--Planck evolution in the Hilbert--Schmidt norm for times vastly exceeding the Ehrenfest time (the limit of such agreement with no jump operators). The time scale is the same as in two recent papers by Hern\'andez--Ranard--Riedel but the statement and methods are different.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-28
# STREAM:ビデオ生成モデルのための時空間評価と分析基準

STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models ( http://arxiv.org/abs/2403.09669v3 )

ライセンス: Link先を確認
Pum Jun Kim, Seojun Kim, Jaejun Yoo, (参考訳) 画像生成モデルは、様々な評価指標からの包括的なガイダンスによって支援され、現実的で多様な画像の生成に大きな進歩をもたらした。 しかし、現在のビデオ生成モデルは、改善のための洞察を提供するツールが限られている短いビデオクリップを生成するのに苦労している。 現在のビデオ評価指標は、ビデオのユニークな特徴を過小評価するビデオ埋め込みネットワークで埋め込みを切り替えることによって、画像メトリクスの単純な適応である。 解析の結果,広範に使用されているFrechet Video Distance(FVD)はビデオの時間的自然性よりも空間的側面に重点を置いていることが判明した。 さらに、人間の評価からかなりの不安定性と分岐を示す。 そこで本稿では,空間的側面と時間的側面を独立に評価するためのビデオ評価基準STREAMを提案する。 この機能は様々な視点から動画生成モデルの包括的解析と評価を可能にする。 我々はSTREAMがビデオの視覚的品質と時間的品質の両方に効果的な評価ツールを提供し、ビデオ生成モデルの改善領域に関する洞察を提供することを示す分析的および実験的証拠を提供する。 我々の知る限り、STREAMはビデオの時間的側面と空間的側面を別々に評価できる最初の評価指標である。 私たちのコードはhttps://github.com/pro2nit/STREAMで公開されています。

Image generative models have made significant progress in generating realistic and diverse images, supported by comprehensive guidance from various evaluation metrics. However, current video generative models struggle to generate even short video clips, with limited tools that provide insights for improvements. Current video evaluation metrics are simple adaptations of image metrics by switching the embeddings with video embedding networks, which may underestimate the unique characteristics of video. Our analysis reveals that the widely used Frechet Video Distance (FVD) has a stronger emphasis on the spatial aspect than the temporal naturalness of video and is inherently constrained by the input size of the embedding networks used, limiting it to 16 frames. Additionally, it demonstrates considerable instability and diverges from human evaluations. To address the limitations, we propose STREAM, a new video evaluation metric uniquely designed to independently evaluate spatial and temporal aspects. This feature allows comprehensive analysis and evaluation of video generative models from various perspectives, unconstrained by video length. We provide analytical and experimental evidence demonstrating that STREAM provides an effective evaluation tool for both visual and temporal quality of videos, offering insights into area of improvement for video generative models. To the best of our knowledge, STREAM is the first evaluation metric that can separately assess the temporal and spatial aspects of videos. Our code is available at https://github.com/pro2nit/STREAM.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-28
# DecentNeRFs: クラウドソーシング画像からの分散ニューラルラジアンスフィールド

DecentNeRFs: Decentralized Neural Radiance Fields from Crowdsourced Images ( http://arxiv.org/abs/2403.13199v2 )

ライセンス: Link先を確認
Zaid Tasneem, Akshat Dave, Abhishek Singh, Kushagra Tiwary, Praneeth Vepakomma, Ashok Veeraraghavan, Ramesh Raskar, (参考訳) ニューラルレイディアンス場(NeRF)は、世界中で撮影された画像を没入型3D視覚体験に変換する可能性を示している。 しかし、これらのキャプチャーされた視覚データのほとんどは、画像が個人の詳細を含んでいるため、カメラロールにサイロ化されている。 たとえ公開されても、毎日数十億のシーンを集中的に撮影する3D表現を学習する問題は、計算的に難解である。 私たちのアプローチであるDecentNeRFは、中央集権的なアプローチよりも、シーンのサーバコンピューティングを少なくする$\sim 10^4\timesを必要とする、分散型でクラウドソースのNeRFの最初の試みです。 当社のアプローチでは,生データを送信するのではなく,ユーザが3D表現を送信し,ユーザ間で集中的なNeRFをトレーニングする際の高い計算コストを分散する。 ユーザの3Dビューを個人的およびグローバルなNeRFに分解することで、フォトリアリスティックなシーン表現を学習し、後者のみを最適な重み付けで集約する。 我々は、構造化された合成写真と実世界の写真観光データセット上で、NeRFをフォトリアリズムで学習し、サーバの計算コストを最小限に抑える方法の利点を検証した。 さらに、DecentNeRFにおけるグローバルNeRFの安全なアグリゲーションが、サーバによる個人コンテンツの望ましくない再構築をいかに最小化するかを分析する。

Neural radiance fields (NeRFs) show potential for transforming images captured worldwide into immersive 3D visual experiences. However, most of this captured visual data remains siloed in our camera rolls as these images contain personal details. Even if made public, the problem of learning 3D representations of billions of scenes captured daily in a centralized manner is computationally intractable. Our approach, DecentNeRF, is the first attempt at decentralized, crowd-sourced NeRFs that require $\sim 10^4\times$ less server computing for a scene than a centralized approach. Instead of sending the raw data, our approach requires users to send a 3D representation, distributing the high computation cost of training centralized NeRFs between the users. It learns photorealistic scene representations by decomposing users' 3D views into personal and global NeRFs and a novel optimally weighted aggregation of only the latter. We validate the advantage of our approach to learn NeRFs with photorealism and minimal server computation cost on structured synthetic and real-world photo tourism datasets. We further analyze how secure aggregation of global NeRFs in DecentNeRF minimizes the undesired reconstruction of personal content by the server.
翻訳日:2024-04-01 17:53:05 公開日:2024-03-28
# 変圧器による感情検出 : 比較検討

Emotion Detection with Transformers: A Comparative Study ( http://arxiv.org/abs/2403.15454v2 )

ライセンス: Link先を確認
Mahdi Rezapour, (参考訳) 本研究では,テキストデータを用いた感情分類におけるトランスフォーマーモデルの適用について検討する。 我々は、異なる変圧器の変種を用いて、感情データセットを用いて、事前訓練されたトランスフォーマーモデルを訓練し、評価する。 また、トランス層の微調整、層の訓練性、テキストデータの事前処理など、モデルの性能に影響を及ぼす要因についても分析する。 解析の結果,句読解や停止語といった一般的な手法は,モデルの性能を損なうことが判明した。 これは、トランスフォーマーの強みがテキスト内のコンテキスト関係を理解することにあるためかもしれない。 句読点や停止語といった要素は、それでも感情や強調を伝達し、それらを取り除くことで、この文脈を混乱させる可能性がある。

In this study, we explore the application of transformer-based models for emotion classification on text data. We train and evaluate several pre-trained transformer models, on the Emotion dataset using different variants of transformers. The paper also analyzes some factors that in-fluence the performance of the model, such as the fine-tuning of the transformer layer, the trainability of the layer, and the preprocessing of the text data. Our analysis reveals that commonly applied techniques like removing punctuation and stop words can hinder model performance. This might be because transformers strength lies in understanding contextual relationships within text. Elements like punctuation and stop words can still convey sentiment or emphasis and removing them might disrupt this context.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-28
# DASA: 遅延適応型マルチエージェント確率近似

DASA: Delay-Adaptive Multi-Agent Stochastic Approximation ( http://arxiv.org/abs/2403.17247v2 )

ライセンス: Link先を確認
Nicolo Dal Fabbro, Arman Adibi, H. Vincent Poor, Sanjeev R. Kulkarni, Aritra Mitra, George J. Pappas, (参考訳) 我々は,Stochastic Approximation (SA) 問題を並列に動作し,中央サーバと通信することで高速化することを目的としている。 サーバへのアップリンク送信は、非同期で潜在的に非バウンドな時間変化の遅延にさらされていると仮定する。 分散計算の利点を享受しながら遅延とストラグラーの効果を緩和するため,マルチエージェント確率近似のための遅延適応アルゴリズムである \texttt{DASA} を提案する。 エージェントの確率的観察過程が独立なマルコフ連鎖であることを仮定して、 texttt{DASA} の有限時間解析を行う。 既存の結果を前進させる最初のアルゴリズムは、収束速度が混合時間$\tau_{mix}$と平均遅延$\tau_{avg}$にのみ依存するが、マルコヴィアンサンプリングでは$N$倍収束速度を共同で達成する。 我々の研究は、マルチエージェントおよび分散時間差学習(TD)、Qラーニング、相関データによる確率的最適化など、様々なSAアプリケーションに関係している。

We consider a setting in which $N$ agents aim to speedup a common Stochastic Approximation (SA) problem by acting in parallel and communicating with a central server. We assume that the up-link transmissions to the server are subject to asynchronous and potentially unbounded time-varying delays. To mitigate the effect of delays and stragglers while reaping the benefits of distributed computation, we propose \texttt{DASA}, a Delay-Adaptive algorithm for multi-agent Stochastic Approximation. We provide a finite-time analysis of \texttt{DASA} assuming that the agents' stochastic observation processes are independent Markov chains. Significantly advancing existing results, \texttt{DASA} is the first algorithm whose convergence rate depends only on the mixing time $\tau_{mix}$ and on the average delay $\tau_{avg}$ while jointly achieving an $N$-fold convergence speedup under Markovian sampling. Our work is relevant for various SA applications, including multi-agent and distributed temporal difference (TD) learning, Q-learning and stochastic optimization with correlated data.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-28
# HGT:Few-shot Complex Table理解のための不均一グラフ強化大言語モデルの活用

HGT: Leveraging Heterogeneous Graph-enhanced Large Language Models for Few-shot Complex Table Understanding ( http://arxiv.org/abs/2403.19723v1 )

ライセンス: Link先を確認
Rihui Jin, Yu Li, Guilin Qi, Nan Hu, Yuan-Fang Li, Jiaoyan Chen, Jianan Wang, Yongrui Chen, Dehai Min, (参考訳) 表理解(TU)は,有望な進歩を遂げつつも,手動ラベル付きテーブルの不足や複雑なテーブル構造の存在に直面する課題に直面している。これらの課題に対処するために,HGTという,不均一グラフ(HG)を拡張した大規模言語モデル(LLM)を用いて,数発のTUタスクに対処するフレームワークを提案する。これは,表セマンティクスとLLMのパラメトリック知識をソフトプロンプトと命令変換により整列させることにより,表のセマンティクスをLLMのパラメトリック知識と整列させ,新しい3つの新しいマルチタスク事前学習手法による複雑なテーブルのマルチタスク前訓練手法により処理することにより,HGTの有効性を実証的に実証する。

Table understanding (TU) has achieved promising advancements, but it faces the challenges of the scarcity of manually labeled tables and the presence of complex table structures.To address these challenges, we propose HGT, a framework with a heterogeneous graph (HG)-enhanced large language model (LLM) to tackle few-shot TU tasks.It leverages the LLM by aligning the table semantics with the LLM's parametric knowledge through soft prompts and instruction turning and deals with complex tables by a multi-task pre-training scheme involving three novel multi-granularity self-supervised HG pre-training objectives.We empirically demonstrate the effectiveness of HGT, showing that it outperforms the SOTA for few-shot complex TU on several benchmarks.
翻訳日:2024-04-01 17:43:20 公開日:2024-03-28
# 脳のリバースエンジニアリングに向けて:3次元集積回路におけるフォトニック、電子、イオンの動的性を用いた脳誘導型ニューロモルフィックコンピューティングアプローチ

Towards Reverse-Engineering the Brain: Brain-Derived Neuromorphic Computing Approach with Photonic, Electronic, and Ionic Dynamicity in 3D integrated circuits ( http://arxiv.org/abs/2403.19724v1 )

ライセンス: Link先を確認
S. J. Ben Yoo, Luis El-Srouji, Suman Datta, Shimeng Yu, Jean Anne Incorvia, Alberto Salleo, Volker Sorger, Juejun Hu, Lionel C Kimerling, Kristofer Bouchard, Joy Geng, Rishidev Chaudhuri, Charan Ranganath, Randall O'Reilly, (参考訳) 人間の脳は、極度のエネルギー効率とスケールで膨大な学習能力を持ち、人工システムは一致していない。 何十年もの間、脳のリバースエンジニアリングは科学と技術研究の最優先事項の1つだった。 多くの努力にもかかわらず、従来の電子工学に基づく手法は、人間の脳のスケーラビリティ、エネルギー効率、そして自己制御学習能力と一致しなかった。 一方、新しい世代のフォトニック・電子機械材料、デバイス技術、および3D電子フォトニック集積回路(3D EPIC)の開発は、同等の接続性、密度、エネルギー効率、スケーラビリティを持つ新しい脳由来のニューロモルフィックシステムを実現することを約束している。 バイオリアリスティック学習アルゴリズムとアーキテクチャを組み合わせることで、一般的な自己学習機能を備えた「人工脳」プロトタイプを実現することができるかもしれない。 本論文は,脳のバイオプラスティック分子,神経シナプス,ニューロサーキット,多構造階層マクロサーキットに類似した動作性を有する人工電子,イオン,フォトニック材料,デバイス,回路からなる脳由来ニューロモルフィックコンピューティングシステムのプロトタイプを設計し,脳のリバースエンジニアリングの可能性について論じる。 さらに,人間の知能に根ざした,柔軟で適応的かつ自己制御的な学習機構を捉えるニューロモルフィックコンピューティングシステムに適用可能な,生物工学的局所学習アルゴリズムの重要性を論じる。 最も重要なことは、脳由来のニューロモルフィックコンピューティングのプロトタイプシステムのユニークな能力によって、特定の神経機能とネットワークレベルの特性とシステムレベルの機能と振舞いの関連を理解することができることだ。

The human brain has immense learning capabilities at extreme energy efficiencies and scale that no artificial system has been able to match. For decades, reverse engineering the brain has been one of the top priorities of science and technology research. Despite numerous efforts, conventional electronics-based methods have failed to match the scalability, energy efficiency, and self-supervised learning capabilities of the human brain. On the other hand, very recent progress in the development of new generations of photonic and electronic memristive materials, device technologies, and 3D electronic-photonic integrated circuits (3D EPIC ) promise to realize new brain-derived neuromorphic systems with comparable connectivity, density, energy-efficiency, and scalability. When combined with bio-realistic learning algorithms and architectures, it may be possible to realize an 'artificial brain' prototype with general self-learning capabilities. This paper argues the possibility of reverse-engineering the brain through architecting a prototype of a brain-derived neuromorphic computing system consisting of artificial electronic, ionic, photonic materials, devices, and circuits with dynamicity resembling the bio-plausible molecular, neuro/synaptic, neuro-circuit, and multi-structural hierarchical macro-circuits of the brain based on well-tested computational models. We further argue the importance of bio-plausible local learning algorithms applicable to the neuromorphic computing system that capture the flexible and adaptive unsupervised and self-supervised learning mechanisms central to human intelligence. Most importantly, we emphasize that the unique capabilities in brain-derived neuromorphic computing prototype systems will enable us to understand links between specific neuronal and network-level properties with system-level functioning and behavior.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# MUGC: 生成したマシンとユーザ生成したコンテンツ検出

MUGC: Machine Generated versus User Generated Content Detection ( http://arxiv.org/abs/2403.19725v1 )

ライセンス: Link先を確認
Yaqi Xie, Anjali Rawal, Yujing Cen, Dixuan Zhao, Sunil K Narang, Shanu Sushmita, (参考訳) ディープニューラルネットワーク(DNN)やジェネレーティブAIといった先進的な現代システムは、説得力があり現実的なコンテンツを生み出す能力を強化し続けているため、ユーザ生成コンテンツとマシン生成コンテンツとを区別する必要性が高まっている。 本研究では,従来の8つの機械学習アルゴリズムの比較評価を行い,機械生成データと人間生成データを3つの多様なデータセット(詩,要約,エッセイ)で区別する。 この結果から,従来の手法は,RoBERTのような事前学習モデルの文書化の有効性を反映して,機械生成データの同定に高い精度を示すことが示唆された。 機械生成テキストは、人間生成コンテンツに比べて短くなる傾向があり、単語の多様性が低いことに留意する。 現在のLLM(Large Language Models)では無視されているような、人間によく使われる特定のドメイン関連キーワードは、この高い検出精度に寄与する可能性があるが、Word2vecのようなより深い単語表現は、微妙な意味的分散を捉えることができる。 さらに、可読性、バイアス、モラル、影響の比較は、機械生成コンテンツと人間生成コンテンツとの違いを明確に示している。 表現スタイルにはバリエーションがあり、データソース(人間と機械生成)には潜在的なバイアスがある。 本研究は、様々な領域にわたる機械生成コンテンツに関連する能力と課題に関する貴重な知見を提供する。

As advanced modern systems like deep neural networks (DNNs) and generative AI continue to enhance their capabilities in producing convincing and realistic content, the need to distinguish between user-generated and machine generated content is becoming increasingly evident. In this research, we undertake a comparative evaluation of eight traditional machine-learning algorithms to distinguish between machine-generated and human-generated data across three diverse datasets: Poems, Abstracts, and Essays. Our results indicate that traditional methods demonstrate a high level of accuracy in identifying machine-generated data, reflecting the documented effectiveness of popular pre-trained models like RoBERT. We note that machine-generated texts tend to be shorter and exhibit less word variety compared to human-generated content. While specific domain-related keywords commonly utilized by humans, albeit disregarded by current LLMs (Large Language Models), may contribute to this high detection accuracy, we show that deeper word representations like word2vec can capture subtle semantic variances. Furthermore, readability, bias, moral, and affect comparisons reveal a discernible contrast between machine-generated and human generated content. There are variations in expression styles and potentially underlying biases in the data sources (human and machine-generated). This study provides valuable insights into the advancing capacities and challenges associated with machine-generated content across various domains.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# フランス語における臨床名前付きエンティティ認識のベンチマーク評価

A Benchmark Evaluation of Clinical Named Entity Recognition in French ( http://arxiv.org/abs/2403.19726v1 )

ライセンス: Link先を確認
Nesrine Bannour, Christophe Servan, Aurélie Névéol, Xavier Tannier, (参考訳) 背景: トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクで強いパフォーマンスを示している。 Masked Language Models (MLMs) は、異なる言語やサブドメインに適応し、訓練や特定のコーパスの微調整を行いながら、軽量で近代的なLarge Language Models (LLMs) を維持できるため、持続的な関心を集めている。 近年、フランスのバイオメディカルドメイン向けにいくつかのMLMがリリースされており、実験の結果、標準のフランスのドメインよりも優れていることが示唆されている。 しかし、同じコーパス上の全てのモデルを比較したノシステマティックな評価は可能である。 目的: 本論文は, 生物医学モデルであるCamemBERT-bioとDrBERTの評価を行い, 標準フランス語モデルであるCamemBERT, FlauBERT, FrALBERT, および3つの公用コーパスを用いた多言語mBERTとの比較を行った。 評価セットは、コーパス開発者がリリースしたゴールドスタンダードコーパスに依存している。 その結果、CamemBERT-bioは一貫してDrBERTを上回り、FrauBERTは競争性能を示し、FrAlBERTは最低のカーボンフットプリントを達成することが示唆された。 結論: これは、バイオメディカルマスキング言語モデルの最初のベンチマーク評価であり、メトリクス探索性能と環境影響を用いて、ネストされたエンティティ認識におけるモデル性能を一貫して比較する。

Background: Transformer-based language models have shown strong performance on many Natural LanguageProcessing (NLP) tasks. Masked Language Models (MLMs) attract sustained interest because they can be adaptedto different languages and sub-domains through training or fine-tuning on specific corpora while remaining lighterthan modern Large Language Models (LLMs). Recently, several MLMs have been released for the biomedicaldomain in French, and experiments suggest that they outperform standard French counterparts. However, nosystematic evaluation comparing all models on the same corpora is available. Objective: This paper presentsan evaluation of masked language models for biomedical French on the task of clinical named entity recognition.Material and methods: We evaluate biomedical models CamemBERT-bio and DrBERT and compare them tostandard French models CamemBERT, FlauBERT and FrALBERT as well as multilingual mBERT using three publicallyavailable corpora for clinical named entity recognition in French. The evaluation set-up relies on gold-standardcorpora as released by the corpus developers. Results: Results suggest that CamemBERT-bio outperformsDrBERT consistently while FlauBERT offers competitive performance and FrAlBERT achieves the lowest carbonfootprint. Conclusion: This is the first benchmark evaluation of biomedical masked language models for Frenchclinical entity recognition that compares model performance consistently on nested entity recognition using metricscovering performance and environmental impact.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# MEDIAベンチマークを理解するフランス語音声言語のための新しい意味課題

New Semantic Task for the French Spoken Language Understanding MEDIA Benchmark ( http://arxiv.org/abs/2403.19727v1 )

ライセンス: Link先を確認
Nadège Alavoine, Gaëlle Laperriere, Christophe Servan, Sahar Ghannay, Sophie Rosset, (参考訳) インテント分類とスロット充足は、Spoken Language Understanding (SLU) の重要なタスクである。 ほとんどのSLUシステムでは、これらのタスクは独立したモジュールによって実現される。 約15年間,両モデルが協調的に達成し,相互強化を生かしたモデルが提案されてきた。 ジョイントモデルを用いた多言語モジュールは、ヨーロッパのプロジェクトであるHumanE-AI-Netのための観光対話システムを構築するために構想された。 MEDIAデータセットを含む複数のデータセットの組み合わせが、このジョイントモデルをトレーニングするために提案された。 MEDIA SLUデータセット(英語: MEDIA SLU datasetis)は、2005年にELRAによって配布されたフランスのデータセットであり、主にフランスの研究コミュニティと2020年以降のフリーフォアカデミック研究によって使用されている。 残念ながら、アノテートはスロットでのみ行われ、インテントでは行われない。 インテントを付加したMEDIAの拡張バージョンが開発され、より多くのタスクやユースケースに拡張されている。 本稿では,この拡張版を得るために使用されるテミオートマチック手法を提案する。 さらに、この拡張データセット上でのSLU実験の最初の結果について、意図分類とスロット充足のためのジョイントモデルを用いて述べる。

Intent classification and slot-filling are essential tasks of Spoken Language Understanding (SLU). In most SLUsystems, those tasks are realized by independent modules. For about fifteen years, models achieving both of themjointly and exploiting their mutual enhancement have been proposed. A multilingual module using a joint modelwas envisioned to create a touristic dialogue system for a European project, HumanE-AI-Net. A combination ofmultiple datasets, including the MEDIA dataset, was suggested for training this joint model. The MEDIA SLU datasetis a French dataset distributed since 2005 by ELRA, mainly used by the French research community and free foracademic research since 2020. Unfortunately, it is annotated only in slots but not intents. An enhanced version ofMEDIA annotated with intents has been built to extend its use to more tasks and use cases. This paper presents thesemi-automatic methodology used to obtain this enhanced version. In addition, we present the first results of SLUexperiments on this enhanced dataset using joint models for intent classification and slot-filling.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# EmoScan: ローマ化シンハラツイートにおける抑うつ症状の自動スクリーニング

EmoScan: Automatic Screening of Depression Symptoms in Romanized Sinhala Tweets ( http://arxiv.org/abs/2403.19728v1 )

ライセンス: Link先を確認
Jayathi Hewapathirana, Deshan Sumanathilaka, (参考訳) この研究は、抑うつのリスクがある個人を特定するために、ロマタイズド・シンハラのソーシャルメディアデータの利用を探求する。 ソーシャルメディア投稿の包括的なデータセット内の言語パターン、感情、行動の手がかりを分析することにより、うつ病症状の自動スクリーニングのための機械学習ベースのフレームワークが提示される。 従来の機械学習技術と比較してニューラルネットワークの適合性を比較するために,本研究が実施されている。 長周期データを処理可能な注目層を有するニューラルネットワークは、現在の最先端手法を超越した、うつ病症状の検出において、93.25%の顕著な精度を達成している。 これらの知見は、積極的な介入と支援を必要とする個人をピンポイントするこのアプローチの有効性を裏付けるものである。 メンタルヘルスの専門家、政策立案者、ソーシャルメディア企業は、提案されたモデルを通じて貴重な洞察を得ることができる。 自然言語処理技術と機械学習アルゴリズムを活用して、この研究はデジタル時代のメンタルヘルススクリーニングに有望な経路を提供する。 このフレームワークは、ソーシャルメディアデータの可能性を活用することで、うつ病のリスクがある個人を認識し、支援するための積極的な方法を導入する。 結論として, 本研究は, 積極的介入とメンタルヘルス支援の進展に寄与し, この分野における研究と実践の両方に影響を及ぼす。

This work explores the utilization of Romanized Sinhala social media data to identify individuals at risk of depression. A machine learning-based framework is presented for the automatic screening of depression symptoms by analyzing language patterns, sentiment, and behavioural cues within a comprehensive dataset of social media posts. The research has been carried out to compare the suitability of Neural Networks over the classical machine learning techniques. The proposed Neural Network with an attention layer which is capable of handling long sequence data, attains a remarkable accuracy of 93.25% in detecting depression symptoms, surpassing current state-of-the-art methods. These findings underscore the efficacy of this approach in pinpointing individuals in need of proactive interventions and support. Mental health professionals, policymakers, and social media companies can gain valuable insights through the proposed model. Leveraging natural language processing techniques and machine learning algorithms, this work offers a promising pathway for mental health screening in the digital era. By harnessing the potential of social media data, the framework introduces a proactive method for recognizing and assisting individuals at risk of depression. In conclusion, this research contributes to the advancement of proactive interventions and support systems for mental health, thereby influencing both research and practical applications in the field.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 物理インフォームドニューラルネットワークによる衛星状態推定

Physics-Informed Neural Networks for Satellite State Estimation ( http://arxiv.org/abs/2403.19736v1 )

ライセンス: Link先を確認
Jacob Varey, Jessica D. Ruprecht, Michael Tierney, Ryan Sullenberger, (参考訳) SDA(Space Domain Awareness)コミュニティは、宇宙監視ネットワーク(Space Surveillance Network, SSN)による観測に軌道状態を適用することで、軌道上の衛星を定期的に追跡している。 このような軌道に適合させるためには、衛星に作用する力の正確なモデルが必要である。 過去数十年間、衛星状態の推定と伝播のための高品質な物理モデルが開発されてきた。 これらのモデルは非空気化衛星の軌道状態の推定と伝播に非常に適しているが、低推力電気推進を用いて軌道を変更する衛星など、衛星が十分にモデル化されていないものを経験する可能性のある異常加速のクラスはいくつかある。 物理インフォームドニューラルネットワーク(PINN)は、物理モデルとDeep Neural Networks(DNN)を組み合わせることで、これらの種類の衛星にとって貴重なツールである。 物理モデルとDNNを組み合わせることで、機械学習モデルは天体力学を学習する必要はない。 本稿では、衛星の軌道状態と連続低振幅加速度プロファイルを推定するためのPINNの適用について詳述する。 PINNは、観測の平均2乗誤差を最小限に抑えて未知の加速度を学習するように訓練されている。 PINNを用いた純粋物理モデルの性能を観測残差および観測範囲を超えた伝播精度の観点から評価した。 10^{-8} \text{ km/s}^2$の順に非モデル化された加速度プロファイルを用いたGEO衛星の2日間のシミュレーションでは、PINNは観測残差(123 arcsec vs 1.00 arcsec)と伝播精度(5日後に3860 km vs 164 km)で最良の物理モデルより優れていた。

The Space Domain Awareness (SDA) community routinely tracks satellites in orbit by fitting an orbital state to observations made by the Space Surveillance Network (SSN). In order to fit such orbits, an accurate model of the forces that are acting on the satellite is required. Over the past several decades, high-quality, physics-based models have been developed for satellite state estimation and propagation. These models are exceedingly good at estimating and propagating orbital states for non-maneuvering satellites; however, there are several classes of anomalous accelerations that a satellite might experience which are not well-modeled, such as satellites that use low-thrust electric propulsion to modify their orbit. Physics-Informed Neural Networks (PINNs) are a valuable tool for these classes of satellites as they combine physics models with Deep Neural Networks (DNNs), which are highly expressive and versatile function approximators. By combining a physics model with a DNN, the machine learning model need not learn astrodynamics, which results in more efficient and effective utilization of machine learning resources. This paper details the application of PINNs to estimate the orbital state and a continuous, low-amplitude anomalous acceleration profile for satellites. The PINN is trained to learn the unknown acceleration by minimizing the mean square error of observations. We evaluate the performance of pure physics models with PINNs in terms of their observation residuals and their propagation accuracy beyond the fit span of the observations. For a two-day simulation of a GEO satellite using an unmodeled acceleration profile on the order of $10^{-8} \text{ km/s}^2$, the PINN outperformed the best-fit physics model by orders of magnitude for both observation residuals (123 arcsec vs 1.00 arcsec) as well as propagation accuracy (3860 km vs 164 km after five days).
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# MIST:テキストと画像の拡散モデルにおける交差注意編集による断面バイアスの緩和

MIST: Mitigating Intersectional Bias with Disentangled Cross-Attention Editing in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.19738v1 )

ライセンス: Link先を確認
Hidir Yesiltepe, Kiymet Akdemir, Pinar Yanardag, (参考訳) 拡散ベースのテキスト・ツー・イメージモデルは、テキスト記述から詳細でリアルな画像を生成する能力で急速に人気を集めている。 しかしながら、これらのモデルはトレーニングデータに存在するバイアスを反映することが多い。 言語モデルのデバイアスへの以前の取り組みは、人種や性別のバイアスといった特定のバイアスに対処することに重点を置いているが、交差バイアスに対処する努力は限られている。 節間バイアス(Intersectional bias)とは、複数の社会的アイデンティティの交差点で個人が経験する独自のバイアスの形式を指す。 人種、性別、その他のアイデンティティに基づく差別のネガティブな影響を増幅するため、交差バイアスに対処することが不可欠である。 本稿では,拡散に基づくテキスト・画像モデルの交叉バイアスに対処する手法を提案する。 提案手法では,事前学習した安定拡散モデルを用いて,参照画像の追加の必要性を排除し,未修正概念の本来の品質を維持する。 総合的な実験により,本手法は様々な属性にまたがる単一偏差と交叉偏差を緩和する既存手法を超えることを示した。 我々は、生成モデルにおける公平性を奨励し、さらなる研究を支援するために、ソースコードと様々な属性に対するバイアス付きモデルを作成します。

Diffusion-based text-to-image models have rapidly gained popularity for their ability to generate detailed and realistic images from textual descriptions. However, these models often reflect the biases present in their training data, especially impacting marginalized groups. While prior efforts to debias language models have focused on addressing specific biases, such as racial or gender biases, efforts to tackle intersectional bias have been limited. Intersectional bias refers to the unique form of bias experienced by individuals at the intersection of multiple social identities. Addressing intersectional bias is crucial because it amplifies the negative effects of discrimination based on race, gender, and other identities. In this paper, we introduce a method that addresses intersectional bias in diffusion-based text-to-image models by modifying cross-attention maps in a disentangled manner. Our approach utilizes a pre-trained Stable Diffusion model, eliminates the need for an additional set of reference images, and preserves the original quality for unaltered concepts. Comprehensive experiments demonstrate that our method surpasses existing approaches in mitigating both single and intersectional biases across various attributes. We make our source code and debiased models for various attributes available to encourage fairness in generative models and to support further research.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 測定に基づくフィードバックとしての一般量子古典力学

General quantum-classical dynamics as measurement based feedback ( http://arxiv.org/abs/2403.19748v1 )

ライセンス: Link先を確認
Antoine Tilloy, (参考訳) このノートは、連続測定の理論と一般(非マルコフ)フィードバックから、一般ハイブリッド量子古典力学の確率微分方程式と偏微分方程式を導出する。 このアプローチの利点は、追加の肯定的制約を伴わない明示的なパラメータ化である。 この構造はまた、量子が古典にどのように影響するか、そして古典が量子にどのように影響するかという、異なる効果をきちんと分離している。 このモジュラー構造は、特に基本的な理論を構築するために用いられる場合、ハイブリッド力学に何を期待するかをより直感的にする。

This note derives the stochastic differential equations and partial differential equation of general hybrid quantum-classical dynamics from the theory of continuous measurement and general (non-Markovian) feedback. The advantage of this approach is an explicit parameterization, without additional positivity constraints. The construction also neatly separates the different effects: how the quantum influences the classical and how the classical influences the quantum. This modular construction gives a better intuition of what to expect from hybrid dynamics, especially when used to construct possibly fundamental theories.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 極紫外波長における空間コヒーレント光の発生

Generation of Spatially Coherent Light at Extreme Ultraviolet Wavelengths ( http://arxiv.org/abs/2403.19750v1 )

ライセンス: Link先を確認
Randy A. Bartels, Ariel Paul, Hans Green, Henry C. Kapteyn, Margaret M. Murnane, Sterling Backus, Ivan P. Christov, Yanwei Liu, David Attwood, Chris Jacobsen, (参考訳) フェムト秒レーザーの高調波アップコンバージョンによる極紫外光の空間コヒーレンス測定を行った。 位相整合中空ファイバー幾何学を用いて、生成したビームは本質的に完全な空間コヒーレンスを示す。 このレーザーのようなEUV源のコヒーレンスは、小さな物体のガボルホログラムを記録することによって実証される。 この研究は、テーブルトップ実験装置を用いてEUVホログラフィーを行う能力を示す。 これらのEUV源は、低ばらつきと高空間コヒーレンスを持つもので、高精度なメトロジー、EUVリソグラフィーのための光学部品の検査、ナノメートル分解能の顕微鏡・ホログラフィー(2)に利用できる。 さらに、EUV放射の短い時間(数フェムト秒)は、EUV顕微鏡とホログラフィーを超高分解能で行うことができる。

We present spatial coherence measurements of extreme-ultraviolet light generated using the process of high-harmonic upconversion of a femtosecond laser. Using a phase-matched hollow-fiber geometry, the generated beam is found to exhibit essentially full spatial coherence. The coherence of this laser-like EUV source is demonstrated by recording Gabor holograms of small objects. This work demonstrates the capability to do EUV holography using a tabletop experimental setup. Such an EUV source, with low divergence and high spatial coherence, can be used for experiments such as high-precision metrology, inspection of optical components for EUV lithography (1), and for microscopy and holography (2) with nanometer resolution. Furthermore, the short time duration of the EUV radiation (a few femtoseconds) will enable EUV microscopy and holography to be performed with ultrahigh time resolution.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 調査データに対する不確実性定量化を用いた深層学習フレームワーク:アメリカの人口における糖尿病リスクの評価と予測

Deep Learning Framework with Uncertainty Quantification for Survey Data: Assessing and Predicting Diabetes Mellitus Risk in the American Population ( http://arxiv.org/abs/2403.19752v1 )

ライセンス: Link先を確認
Marcos Matabuena, Juan C. Vidal, Rahul Ghosal, Jukka-Pekka Onnela, (参考訳) 複雑な調査デザインは、多くの医療コホートで一般的に採用されている。 このようなシナリオでは,研究設計の特徴を反映したケース固有予測リスクスコアモデルの開発が不可欠である。 このアプローチは、結果の潜在的な選択バイアスを最小限にする鍵となる。 本論文の目的は次のとおりである。 一 ニューラルネットワーク(NN)モデルを用いた回帰・分類のための一般的な予測フレームワークを提案する。 二 複雑な調査設計のデータに適したモデル予測のための不確実性定量化アルゴリズムを導入すること。 3)NHANES 2011-2014コホートのデータを利用して,米国における糖尿病のリスク評価のためのロバストリスクスコアモデルの開発に本手法を適用した。 推定器の理論的特性は, バイアスの最小化と統計的整合性を確保するために設計されており, 信頼性の高い予測が得られ, 糖尿病研究における新たな科学的洞察に寄与することが保証されている。 糖尿病に焦点を当てながら、このNN予測フレームワークは、さまざまな疾患や医療コホートのための臨床モデルを作成するために適応できる。 この論文で使用されたソフトウェアとデータはGitHubで公開されている。

Complex survey designs are commonly employed in many medical cohorts. In such scenarios, developing case-specific predictive risk score models that reflect the unique characteristics of the study design is essential. This approach is key to minimizing potential selective biases in results. The objectives of this paper are: (i) To propose a general predictive framework for regression and classification using neural network (NN) modeling, which incorporates survey weights into the estimation process; (ii) To introduce an uncertainty quantification algorithm for model prediction, tailored for data from complex survey designs; (iii) To apply this method in developing robust risk score models to assess the risk of Diabetes Mellitus in the US population, utilizing data from the NHANES 2011-2014 cohort. The theoretical properties of our estimators are designed to ensure minimal bias and the statistical consistency, thereby ensuring that our models yield reliable predictions and contribute novel scientific insights in diabetes research. While focused on diabetes, this NN predictive framework is adaptable to create clinical models for a diverse range of diseases and medical cohorts. The software and the data used in this paper is publicly available on GitHub.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# GOLD:アウト・オブ・ディストリビューション型言語データ生成による一般知識蒸留

GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation ( http://arxiv.org/abs/2403.19754v1 )

ライセンス: Link先を確認
Mohsen Gholami, Mohammad Akbari, Cindy Hu, Vaden Masrani, Z. Jane Wang, Yong Zhang, (参考訳) LLMの知識蒸留は、言語モデルの効率的な展開に不可欠である。 以前の研究では、蒸留モデルの作成にLLMを用いたデータ生成が提案されていた。 LLMによるデータ生成は、主にオリジナルコンテンツ配信の中心からサンプリングされる傾向にある。 この制限は、蒸留されたモデルが真の基礎となるデータ分布を学習し、分布の尾部(確率の低いサンプル)を忘れることを妨げる。 この目的のために, LLM の反復的アウト・オブ・ディストリビューション誘導フィードバック機構を用いたタスク依存型データ生成・知識蒸留フレームワーク GOLD を提案する。 その結果, 生成したデータにより, 蒸留モデルの一般化性が向上した。 ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。 NLPにおける10の異なる分類とシーケンス・ツー・シーケンスタスクに関する広範な実験により、GOLDは、それぞれ、5%と14%の平均的な改善で、先行技術とLLMより優れていることが示された。 また,提案手法は探索の少ない新しいタスクにも適用可能であることを示す。 コードは利用可能です。

Knowledge distillation from LLMs is essential for the efficient deployment of language models. Prior works have proposed data generation using LLMs for preparing distilled models. We argue that generating data with LLMs is prone to sampling mainly from the center of original content distribution. This limitation hinders the distilled model from learning the true underlying data distribution and to forget the tails of the distributions (samples with lower probability). To this end, we propose GOLD, a task-agnostic data generation and knowledge distillation framework, which employs an iterative out-of-distribution-guided feedback mechanism for the LLM. As a result, the generated data improves the generalizability of distilled models. An energy-based OOD evaluation approach is also introduced to deal with noisy generated data. Our extensive experiments on 10 different classification and sequence-to-sequence tasks in NLP show that GOLD respectively outperforms prior arts and the LLM with an average improvement of 5% and 14%. We will also show that the proposed method is applicable to less explored and novel tasks. The code is available.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 2024年の自然言語、AI、量子コンピューティング:QNLPの研究成果と方向性

Natural Language, AI, and Quantum Computing in 2024: Research Ingredients and Directions in QNLP ( http://arxiv.org/abs/2403.19758v1 )

ライセンス: Link先を確認
Dominic Widdows, Willie Aboumrad, Dohun Kim, Sayonee Ray, Jonathan Mei, (参考訳) 言語処理は、人工知能の現在の発展の中心であり、量子コンピュータは同時に利用できるようになった。 これは量子自然言語処理に大きな関心を惹き付け、いくつかの初期の提案と実験を行った。 本稿では, 単語埋め込み, 逐次モデル, 注意, 文法解析などのNLP関連手法が, 量子言語処理にどのように使われているかを示す。 本稿では,テキストエンコーディングの基本課題(メモリ上の文字列を表現)に対する新しい量子設計を提案する。 新しい技術のモチベーションに加え、量子理論は「不確実性とは何か」や「知性は何なのか」といった課題に重要な貢献をしている。 これらの疑問は, 人工システムによる新たな緊急性を重視しているため, 事実が概念化され, 言語で提示される方法についても考察する。 特に、私たちは「幻覚」の問題は基本的な誤解によって生じると論じる: 言語は任意の数のプラルーシブル仮説を表現し、そのうちのごく一部は現実的なものとなり、古典力学では無視されるが、量子力学では現在(紛らわしいが)存在する。

Language processing is at the heart of current developments in artificial intelligence, and quantum computers are becoming available at the same time. This has led to great interest in quantum natural language processing, and several early proposals and experiments. This paper surveys the state of this area, showing how NLP-related techniques including word embeddings, sequential models, attention, and grammatical parsing have been used in quantum language processing. We introduce a new quantum design for the basic task of text encoding (representing a string of characters in memory), which has not been addressed in detail before. As well as motivating new technologies, quantum theory has made key contributions to the challenging questions of 'What is uncertainty?' and 'What is intelligence?' As these questions are taking on fresh urgency with artificial systems, the paper also considers some of the ways facts are conceptualized and presented in language. In particular, we argue that the problem of 'hallucinations' arises through a basic misunderstanding: language expresses any number of plausible hypotheses, only a few of which become actual, a distinction that is ignored in classical mechanics, but present (albeit confusing) in quantum mechanics.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# POMDP政策のコントラスト的説明のための反ファクトパスの活用

Leveraging Counterfactual Paths for Contrastive Explanations of POMDP Policies ( http://arxiv.org/abs/2403.19760v1 )

ライセンス: Link先を確認
Benjamin Kraske, Zakariya Laouar, Zachary Sunberg, (参考訳) 人間は自律システムにますます依存するようになり、そのようなシステムの透明性を確保することが、その採用の継続に重要である。 説明可能な人工知能(XAI)は、エージェントの振る舞いの説明を提供することで、混乱を減らし、システムの信頼を高めることを目的としている。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、遷移と状態の不確実性を推論できるフレキシブルなフレームワークを提供すると同時に、説明も可能である。 本研究は,POMDPポリシーの対照的な説明を生成するために,ユーザが提供する反ファクトファクトの活用について検討する。 機能期待は、これらのポリシーのパフォーマンスを対比する手段として使用される。 我々は、SAR(Search and Rescue)設定で我々のアプローチを実証する。 2つのケーススタディを通じて、関連する課題を分析し、議論する。

As humans come to rely on autonomous systems more, ensuring the transparency of such systems is important to their continued adoption. Explainable Artificial Intelligence (XAI) aims to reduce confusion and foster trust in systems by providing explanations of agent behavior. Partially observable Markov decision processes (POMDPs) provide a flexible framework capable of reasoning over transition and state uncertainty, while also being amenable to explanation. This work investigates the use of user-provided counterfactuals to generate contrastive explanations of POMDP policies. Feature expectations are used as a means of contrasting the performance of these policies. We demonstrate our approach in a Search and Rescue (SAR) setting. We analyze and discuss the associated challenges through two case studies.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 深層学習を用いたバーチャルリアリティにおける視線追跡ロバスト性、精度、精度の向上

Using Deep Learning to Increase Eye-Tracking Robustness, Accuracy, and Precision in Virtual Reality ( http://arxiv.org/abs/2403.19768v1 )

ライセンス: Link先を確認
Kevin Barkevich, Reynold Bailey, Gabriel J. Diaz, (参考訳) モバイルおよびビデオベースの視線追跡装置から視線方向を推定するアルゴリズムは、眼球カメラ画像中を移動する眼球の特徴を、眼球中心や眼球境界などの移動する視線方向と照合する方法で追跡するのが一般的である。 これらの特徴を従来のコンピュータビジョン技術を用いて追跡することは、部分閉塞と環境反射のために困難である。 近年,機械学習(ML)を瞳孔追跡に活用する試みは,分割性能の基準値を用いて評価すると,優れた結果が得られたが,これらのネットワークが最終的な視線推定値の品質にどのように影響するかは分かっていない。 本研究は、特徴ベース法とモデルベース法のいずれかを用いて、その後の視線推定が生成される場合に、現代の視線特徴追跡法が与える影響を客観的に評価するものである。 メトリックには、視線推定の精度と精度、およびドロップアウト率が含まれる。

Algorithms for the estimation of gaze direction from mobile and video-based eye trackers typically involve tracking a feature of the eye that moves through the eye camera image in a way that covaries with the shifting gaze direction, such as the center or boundaries of the pupil. Tracking these features using traditional computer vision techniques can be difficult due to partial occlusion and environmental reflections. Although recent efforts to use machine learning (ML) for pupil tracking have demonstrated superior results when evaluated using standard measures of segmentation performance, little is known of how these networks may affect the quality of the final gaze estimate. This work provides an objective assessment of the impact of several contemporary ML-based methods for eye feature tracking when the subsequent gaze estimate is produced using either feature-based or model-based methods. Metrics include the accuracy and precision of the gaze estimate, as well as drop-out rate.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# 組立作業における遠隔操作の意図推定のための階層的深層学習

Hierarchical Deep Learning for Intention Estimation of Teleoperation Manipulation in Assembly Tasks ( http://arxiv.org/abs/2403.19770v1 )

ライセンス: Link先を確認
Mingyu Cai, Karankumar Patel, Soshi Iba, Songpo Li, (参考訳) 人間とロボットのコラボレーションにおいて、共有制御は、製造および組み立てプロセスの効率を改善するためにロボット操作を遠隔操作する機会を提供する。 ロボットはユーザの意図の実行を支援することが期待されている。 この目的のためには、行動観察に頼って頑健で迅速な意図推定が必要である。 このフレームワークは、ニューラルネットワークにマルチスケール階層情報を組み込むことにより、階層レベルでの意図推定手法、すなわち低レベルな行動と高レベルなタスクを示す。 技術的には、全体的な正確性を高めるために階層的な依存性損失を使用します。 さらに,入力データの適切な階層的予測ウィンドウを割り当てるマルチウィンドウ手法を提案する。 様々な入力による予測力の分析は、予測精度と早期意図同定の点で、深層階層モデルの優位性を示す。 本アルゴリズムは,仮想現実感(VR)装置上に実装され,ロボットハンドを様々な組立タスクでシミュレーションし,オンライン推定の有効性を示す。

In human-robot collaboration, shared control presents an opportunity to teleoperate robotic manipulation to improve the efficiency of manufacturing and assembly processes. Robots are expected to assist in executing the user's intentions. To this end, robust and prompt intention estimation is needed, relying on behavioral observations. The framework presents an intention estimation technique at hierarchical levels i.e., low-level actions and high-level tasks, by incorporating multi-scale hierarchical information in neural networks. Technically, we employ hierarchical dependency loss to boost overall accuracy. Furthermore, we propose a multi-window method that assigns proper hierarchical prediction windows of input data. An analysis of the predictive power with various inputs demonstrates the predominance of the deep hierarchical model in the sense of prediction accuracy and early intention identification. We implement the algorithm on a virtual reality (VR) setup to teleoperate robotic hands in a simulation with various assembly tasks to show the effectiveness of online estimation.
翻訳日:2024-04-01 17:33:35 公開日:2024-03-28
# ShapeFusion:局所的な形状編集のための3次元拡散モデル

ShapeFusion: A 3D diffusion model for localized shape editing ( http://arxiv.org/abs/2403.19773v1 )

ライセンス: Link先を確認
Rolandos Alexandros Potamias, Michail Tarasiou Stylianos Ploumpis, Stefanos Zafeiriou, (参考訳) 3Dコンピュータビジョンの領域では、パラメトリックモデルは現実的で表現力のある3Dアバターを作成するための画期的な方法論として登場した。 伝統的に、彼らは主成分分析(PCA)に依存しており、データを正則空間に分解し、形状の変化を最大限に捉えている。 しかし、直交性の制約とPCAの分解のグローバルな性質により、これらのモデルは3次元形状の局所的・非絡み合いの編集に苦慮し、顔彫刻などの微妙な制御を必要とするアプリケーションでの使用に大きく影響する。 本稿では,拡散モデルを利用して,非編集領域を完全に保存しつつ,多種多様かつ完全に局所化された3次元メッシュの編集を可能にする。 本研究では,任意の形状領域の局所的な操作を,予め定義された領域に制限されず,かつ,事前定義された制御頂点の集合を疎結合にすることなく,効果的な拡散マスキング訓練戦略を提案する。 我々のフレームワークに従うと、ユーザーは選択した操作領域を明示的に設定し、3Dメッシュを編集するためのハンドルとして任意の頂点セットを定義することができる。 現在の最先端技術と比較して、我々の手法は、遅延コード状態に依存するメソッドよりも解釈可能な形状操作をし、ローカライゼーションと生成の多様性を高め、最適化ベースのアプローチよりも高速な推論を提供する。 プロジェクトページ: https://rolpotamias.github.io/Shapefusion/

In the realm of 3D computer vision, parametric models have emerged as a ground-breaking methodology for the creation of realistic and expressive 3D avatars. Traditionally, they rely on Principal Component Analysis (PCA), given its ability to decompose data to an orthonormal space that maximally captures shape variations. However, due to the orthogonality constraints and the global nature of PCA's decomposition, these models struggle to perform localized and disentangled editing of 3D shapes, which severely affects their use in applications requiring fine control such as face sculpting. In this paper, we leverage diffusion models to enable diverse and fully localized edits on 3D meshes, while completely preserving the un-edited regions. We propose an effective diffusion masking training strategy that, by design, facilitates localized manipulation of any shape region, without being limited to predefined regions or to sparse sets of predefined control vertices. Following our framework, a user can explicitly set their manipulation region of choice and define an arbitrary set of vertices as handles to edit a 3D mesh. Compared to the current state-of-the-art our method leads to more interpretable shape manipulations than methods relying on latent code state, greater localization and generation diversity while offering faster inference than optimization based approaches. Project page: https://rolpotamias.github.io/Shapefusion/
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# CLoRA: 複数のLoRAモデルを構成するための対照的なアプローチ

CLoRA: A Contrastive Approach to Compose Multiple LoRA Models ( http://arxiv.org/abs/2403.19776v1 )

ライセンス: Link先を確認
Tuna Han Salih Meral, Enis Simsar, Federico Tombari, Pinar Yanardag, (参考訳) Low-Rank Adaptations (LoRA) は画像生成の分野で強力でポピュラーな手法として登場し、包括的なリトレーニングを必要とせずに、特定のタスクのために事前学習されたディープラーニングモデルを適応および洗練するための非常に効果的な方法を提供している。 特定の猫と特定の犬を表すような訓練済みのLoRAモデルを使用することで、両方の動物をLoRAが定義したように忠実に具体化する画像を生成することが目的である。 しかし、複数の概念LoRAをシームレスにブレンドして1つのイメージに様々な概念をキャプチャするという作業は、大きな課題であることが証明されている。 共通アプローチは、主に異なるLoRAモデル内の注意機構が重なり合うため、ひとつの概念が完全に無視される場合(例えば、犬を省略する場合)や、誤って組み合わせられた場合(例えば、1匹の猫と1匹の犬の代わりに2匹の猫のイメージを生成する場合)に起因する。 これらの問題を解決するために、CLoRAは複数のLoRAモデルのアテンションマップを更新し、それらを利用して潜在表現の融合を容易にするセマンティックマスクを作成する。 提案手法により,各LoRAの特徴を反映した合成画像の作成が可能となり,複数の概念やスタイルの融合に成功している。 我々の総合的な評価は質的・定量的に、既存の手法よりも優れており、LoRAによる画像生成の分野において顕著な進歩を示している。 さらに、ソースコード、ベンチマークデータセット、トレーニングされたLoRAモデルを共有して、このトピックに関するさらなる研究を促進します。

Low-Rank Adaptations (LoRAs) have emerged as a powerful and popular technique in the field of image generation, offering a highly effective way to adapt and refine pre-trained deep learning models for specific tasks without the need for comprehensive retraining. By employing pre-trained LoRA models, such as those representing a specific cat and a particular dog, the objective is to generate an image that faithfully embodies both animals as defined by the LoRAs. However, the task of seamlessly blending multiple concept LoRAs to capture a variety of concepts in one image proves to be a significant challenge. Common approaches often fall short, primarily because the attention mechanisms within different LoRA models overlap, leading to scenarios where one concept may be completely ignored (e.g., omitting the dog) or where concepts are incorrectly combined (e.g., producing an image of two cats instead of one cat and one dog). To overcome these issues, CLoRA addresses them by updating the attention maps of multiple LoRA models and leveraging them to create semantic masks that facilitate the fusion of latent representations. Our method enables the creation of composite images that truly reflect the characteristics of each LoRA, successfully merging multiple concepts or styles. Our comprehensive evaluations, both qualitative and quantitative, demonstrate that our approach outperforms existing methodologies, marking a significant advancement in the field of image generation with LoRAs. Furthermore, we share our source code, benchmark dataset, and trained LoRA models to promote further research on this topic.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# 調整された資源状態をもつ不完全な量子ネットワーク

Imperfect quantum networks with tailored resource states ( http://arxiv.org/abs/2403.19778v1 )

ライセンス: Link先を確認
Maria Flors Mor-Ruiz, Julius Wallnöfer, Wolfgang Dür, (参考訳) 絡み合いに基づく量子ネットワークは、絡み合ったリソース状態の選択においてユニークな柔軟性を示し、ネットワーク内の要求を満たすためにノードによって局所的に操作される。 さらに、この操作は一意に定義されておらず、最適化することができる。 我々は、時間依存メモリエラーを含む不完全な設定で、リソース状態の適応や、事前に確立された絡み合いを調整し、双方向通信を実現する。 この設定では, 完全に非対称なネットワークシナリオにおける絡み合いの分布に, このアプローチの柔軟性をどのように利用できるかを検討する。 絡み合いトポロジーはベル対を回収するために必要な測定値の最小化に基づくカスタムトポロジーである。 この操作の最適化と、そのようなカスタムエンタングルメントトポロジの研究は、最近導入されたグラフ状態のノイズを完全に追跡するノイズ安定化フォーマリズムを用いて行われる。 絡み合いトポロジの柔軟性を活用することは、一組のバイパーティイト要求が与えられた場合、最終状態の忠実さの観点から非常に有利である。

Entanglement-based quantum networks exhibit a unique flexibility in the choice of entangled resource states that are then locally manipulated by the nodes to fulfill any request in the network. Furthermore, this manipulation is not uniquely defined and thus can be optimized. We tailor the adaptation of the resource state or pre-established entanglement to achieve bipartite communication in an imperfect setting that includes time-dependent memory errors. In this same setting, we study how the flexibility of this approach can be used for the distribution of entanglement in a fully asymmetric network scenario. The considered entanglement topology is a custom one based on the minimization of the required measurements to retrieve a Bell pair. The optimization of the manipulation and the study of such a custom entanglement topology are performed using the noisy stabilizer formalism, a recently introduced method to fully track noise on graph states. We find that exploiting the flexibility of the entanglement topology, given a certain set of bipartite requests, is highly favorable in terms of the fidelity of the final state.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# 事象とフレームを伴うニューラルラジアンス場における運動ブラジャーの緩和

Mitigating Motion Blur in Neural Radiance Fields with Events and Frames ( http://arxiv.org/abs/2403.19780v1 )

ライセンス: Link先を確認
Marco Cannici, Davide Scaramuzza, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成において大きな可能性を示している。 しかし、トレーニングに使用されるデータが動きのぼけの影響を受ければ、シャープな画像のレンダリングに苦労する。 一方、イベントカメラは、マイクロ秒の解像度で明るさの変化を測定するため、ダイナミックなシーンで優れており、ぼやけの影響はわずかである。 フレームとイベントを融合させることにより, カメラ動作下でのNeRF再構成を向上する手法が最近提案されている。 しかし、彼らは、正確な色内容の回復や、NeRFを予め定義されたカメラのポーズに拘束するという課題に直面しており、困難な状況下での再現品質を損なう。 本稿では,モデルベースモジュールと学習ベースモジュールの両方を活用することで,これらの問題に対処する新しい定式化を提案する。 我々は、イベント二重積分を追加のモデルベースとして利用して、ぼやけた生成プロセスを明示的にモデル化する。 さらに、エンド・ツー・エンドの学習可能な応答関数を用いてイベント・ピクセル・レスポンスをモデル化し、実際のイベント・カメラ・センサにおける非理想に適応できるようにする。 合成データと実データから,提案手法は,フレームとイベントを+6.13dBと+2.48dBで組み合わせた場合と同様に,フレームのみを使用する既成の遅延NeRFよりも優れていることを示す。

Neural Radiance Fields (NeRFs) have shown great potential in novel view synthesis. However, they struggle to render sharp images when the data used for training is affected by motion blur. On the other hand, event cameras excel in dynamic scenes as they measure brightness changes with microsecond resolution and are thus only marginally affected by blur. Recent methods attempt to enhance NeRF reconstructions under camera motion by fusing frames and events. However, they face challenges in recovering accurate color content or constrain the NeRF to a set of predefined camera poses, harming reconstruction quality in challenging conditions. This paper proposes a novel formulation addressing these issues by leveraging both model- and learning-based modules. We explicitly model the blur formation process, exploiting the event double integral as an additional model-based prior. Additionally, we model the event-pixel response using an end-to-end learnable response function, allowing our method to adapt to non-idealities in the real event-camera sensor. We show, on synthetic and real data, that the proposed approach outperforms existing deblur NeRFs that use only frames as well as those that combine frames and events by +6.13dB and +2.48dB, respectively.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# エージェント・ベース・マーケット・シミュレーションにおける強化学習:現実的なスティル化と行動の解明

Reinforcement Learning in Agent-Based Market Simulation: Unveiling Realistic Stylized Facts and Behavior ( http://arxiv.org/abs/2403.19781v1 )

ライセンス: Link先を確認
Zhiyuan Yao, Zheng Li, Matthew Thomas, Ionut Florescu, (参考訳) 投資家や規制当局は、現実的な市場シミュレーターから大きな恩恵を受けることができる。 しかし、伝統的なルールベースの市場シミュレーターは、市場参加者のダイナミックな振る舞い、特に外部の市場への影響イベントや他の参加者の行動の変化を正確に把握するのに不足することが多い。 本研究では,強化学習(RL)エージェントを用いたエージェントベースシミュレーションフレームワークについて検討する。 本稿では、これらのRLエージェントの実装の詳細を述べるとともに、実世界の市場において、シミュレートされた市場は現実的なスタイル化された事実を示すことを示す。 さらに,フラッシュクラッシュなどの外部市場の影響に直面する場合のRLエージェントの挙動について検討した。 本研究は,RLをベースとしたエージェントの有効性と適応性に光を当て,市場における重要なイベントに対する反応について考察した。

Investors and regulators can greatly benefit from a realistic market simulator that enables them to anticipate the consequences of their decisions in real markets. However, traditional rule-based market simulators often fall short in accurately capturing the dynamic behavior of market participants, particularly in response to external market impact events or changes in the behavior of other participants. In this study, we explore an agent-based simulation framework employing reinforcement learning (RL) agents. We present the implementation details of these RL agents and demonstrate that the simulated market exhibits realistic stylized facts observed in real-world markets. Furthermore, we investigate the behavior of RL agents when confronted with external market impacts, such as a flash crash. Our findings shed light on the effectiveness and adaptability of RL-based agents within the simulation, offering insights into their response to significant market events.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# ENet-21 レーン検出のための最適化光CNN構造

ENet-21: An Optimized light CNN Structure for Lane Detection ( http://arxiv.org/abs/2403.19782v1 )

ライセンス: Link先を確認
Seyed Rasoul Hosseini, Mohammad Teshnehlab, (参考訳) 自動運転車の車線検出は重要な概念であるが、現代の車両における運転支援システムの課題である。 ディープラーニングの出現は、自動運転車の大幅な進歩につながります。 従来のディープ・ラーニング・ベースの手法では、レーン検出問題をバイナリ・セグメンテーション・タスクとして扱い、ピクセルがラインに属しているかどうかを判定する。 これらの手法は固定数の車線の仮定に依存するが、必ずしもうまくいかない。 本研究の目的は,車線検出問題に対する最適構造の構築であり,車線や車線変更シナリオの多様さを管理するための二分セグメンテーションとアフィニティフィールドからなる機械学習手法を用いて,現代の車両における運転支援機能に有望なソリューションを提供することである。 このアプローチでは、特徴抽出器として畳み込みニューラルネットワーク(CNN)が選択され、セマンティックセグメンテーションとアフィニティフィールドの出力をクラスタリングすることで最終的な出力が得られる。 我々の手法は exi よりも複雑でない CNN アーキテクチャを用いる

Lane detection for autonomous vehicles is an important concept, yet it is a challenging issue of driver assistance systems in modern vehicles. The emergence of deep learning leads to significant progress in self-driving cars. Conventional deep learning-based methods handle lane detection problems as a binary segmentation task and determine whether a pixel belongs to a line. These methods rely on the assumption of a fixed number of lanes, which does not always work. This study aims to develop an optimal structure for the lane detection problem, offering a promising solution for driver assistance features in modern vehicles by utilizing a machine learning method consisting of binary segmentation and Affinity Fields that can manage varying numbers of lanes and lane change scenarios. In this approach, the Convolutional Neural Network (CNN), is selected as a feature extractor, and the final output is obtained through clustering of the semantic segmentation and Affinity Field outputs. Our method uses less complex CNN architecture than exi
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# AlloyBERT:大規模言語モデルによる合金の特性予測

AlloyBERT: Alloy Property Prediction with Large Language Models ( http://arxiv.org/abs/2403.19783v1 )

ライセンス: Link先を確認
Akshat Chaudhari, Chakradhar Guntuboina, Hongshuo Huang, Amir Barati Farimani, (参考訳) 特定の要求に合わせた新しい合金の追求は、この分野の研究者にとって大きな課題となっている。 このことは、その化学組成と加工パラメータに基づいて、合金の本質的な物性を予測する技術を開発することの重要性を浮き彫りにしている。 本研究は, 弾性率, 降伏強度などの特性をテキスト入力を用いて予測する変換器エンコーダモデル, AlloyBERTを紹介する。 事前学習されたRoBERTaエンコーダモデルを基礎として、A AlloyBERTは単語間の有意義な関係を確立するための自己認識機構を採用し、人間の読みやすい入力を解釈し、ターゲット合金特性を予測する。 テキストデータに基づいてトレーニングされたトークン化器とRoBERTaエンコーダを組み合わさることで,Multi principal Elemental Alloys(MPEA)データセットの平均2乗誤差(MSE)が0.00015,Refractory Alloy Yield Strength(RAYS)データセットの0.00611に達した。 これは、MPEAデータセットとRAYSデータセットでそれぞれ0.00025と0.0076のベストケースMSEを達成した浅いモデルのパフォーマンスを上回っている。 本研究は, 材料科学における言語モデルの可能性を強調し, 複雑な基礎となる表現, 計算, シミュレーションに依存しない, 合金特性のテキストベース予測のための基礎的枠組みを構築した。

The pursuit of novel alloys tailored to specific requirements poses significant challenges for researchers in the field. This underscores the importance of developing predictive techniques for essential physical properties of alloys based on their chemical composition and processing parameters. This study introduces AlloyBERT, a transformer encoder-based model designed to predict properties such as elastic modulus and yield strength of alloys using textual inputs. Leveraging the pre-trained RoBERTa encoder model as its foundation, AlloyBERT employs self-attention mechanisms to establish meaningful relationships between words, enabling it to interpret human-readable input and predict target alloy properties. By combining a tokenizer trained on our textual data and a RoBERTa encoder pre-trained and fine-tuned for this specific task, we achieved a mean squared error (MSE) of 0.00015 on the Multi Principal Elemental Alloys (MPEA) data set and 0.00611 on the Refractory Alloy Yield Strength (RAYS) dataset. This surpasses the performance of shallow models, which achieved a best-case MSE of 0.00025 and 0.0076 on the MPEA and RAYS datasets respectively. Our results highlight the potential of language models in material science and establish a foundational framework for text-based prediction of alloy properties that does not rely on complex underlying representations, calculations, or simulations.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# ゼロショットプロンプトによるジェスチャー認識のためのビデオエンコーダ

Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition ( http://arxiv.org/abs/2403.19786v1 )

ライセンス: Link先を確認
Mingxing Rao, Yinhong Qin, Soheil Kolouri, Jie Ying Wu, Daniel Moyer, (参考訳) 目的: ジェスチャー認識において, 手術映像は重要なデータストリームである。 したがって、これらのデータストリームに対する堅牢なビジュアルエンコーダも同様に重要である。 方法:Bridge-Promptフレームワークを利用して,手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を微調整する。 これはテキストなどの広範囲な外部ビデオデータを利用することができるが、ラベルメタデータも利用でき、コントラスト的損失を弱めている。 結果: プロンプトベースビデオエンコーダは, 外科的ジェスチャー認識タスクにおいて, 標準的なエンコーダよりも優れていた。 特に、ゼロショットのシナリオでは、エンコーダのトレーニングフェーズで提供されなかったジェスチャー/タスクが予測フェーズに含まれる。 さらに,特徴抽出学習スキーマにテキスト記述を含めることの利点を計測する。 結論: Bridge-Promptと類似のトレーニング済み+微調整ビデオエンコーダモデルは,特にジェスチャー認識タスクにおいて,外科的ロボティクスにおいて重要な視覚的表現を示す。 多様な外科的タスク(妊娠)を考慮に入れれば、これらのモデルが特定の作業(妊娠)の訓練を必要とせずにゼロショット転送を行う能力は、これらのモデルに有益である。

Purpose: Surgical video is an important data stream for gesture recognition. Thus, robust visual encoders for those data-streams is similarly important. Methods: Leveraging the Bridge-Prompt framework, we fine-tune a pre-trained vision-text model (CLIP) for gesture recognition in surgical videos. This can utilize extensive outside video data such as text, but also make use of label meta-data and weakly supervised contrastive losses. Results: Our experiments show that prompt-based video encoder outperforms standard encoders in surgical gesture recognition tasks. Notably, it displays strong performance in zero-shot scenarios, where gestures/tasks that were not provided during the encoder training phase are included in the prediction phase. Additionally, we measure the benefit of inclusion text descriptions in the feature extractor training schema. Conclusion: Bridge-Prompt and similar pre-trained+fine-tuned video encoder models present significant visual representation for surgical robotics, especially in gesture recognition tasks. Given the diverse range of surgical tasks (gestures), the ability of these models to zero-shot transfer without the need for any task (gesture) specific retraining makes them invaluable.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# JIST:連続的な視覚的位置認識のための共同画像とシーケンストレーニング

JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition ( http://arxiv.org/abs/2403.19787v1 )

ライセンス: Link先を確認
Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone, (参考訳) 視覚的場所認識は、視覚的手がかりに頼って、これまで訪れた場所を認識することを目的としており、SLAMとローカライゼーションのためのロボティクスアプリケーションで使用される。 通常、移動ロボットは連続したフレームストリームにアクセスするため、このタスクはシーケンシャル・ツー・シーケンスのローカライズ問題として自然にキャストされる。 それでも、ラベル付きデータのシーケンスを取得することは、分離された画像の収集よりもはるかにコストがかかる。 この問題を緩和するために,マルチタスク学習フレームワークを用いて,大規模な未処理画像の集合を利用する新しいJIST(Joint Image and Sequence Training Protocol)を提案する。 JISTでは、一般的なGeMプーリングを再検討して、単一のフレームの埋め込みシーケンスから単一の堅牢でコンパクトな埋め込みを生成する、セックGeMも導入しています。 提案モデルでは,より高速で,より小型のディスクリプタを8倍使い,軽量なアーキテクチャを持ち,様々な長さのシーケンスを処理可能であることを示す。 コードはhttps://github.com/ga1i13o/JISTで入手できる。

Visual Place Recognition aims at recognizing previously visited places by relying on visual clues, and it is used in robotics applications for SLAM and localization. Since typically a mobile robot has access to a continuous stream of frames, this task is naturally cast as a sequence-to-sequence localization problem. Nevertheless, obtaining sequences of labelled data is much more expensive than collecting isolated images, which can be done in an automated way with little supervision. As a mitigation to this problem, we propose a novel Joint Image and Sequence Training protocol (JIST) that leverages large uncurated sets of images through a multi-task learning framework. With JIST we also introduce SeqGeM, an aggregation layer that revisits the popular GeM pooling to produce a single robust and compact embedding from a sequence of single-frame embeddings. We show that our model is able to outperform previous state of the art while being faster, using 8 times smaller descriptors, having a lighter architecture and allowing to process sequences of various lengths. Code is available at https://github.com/ga1i13o/JIST
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# メンタルヘルスにおけるデジタルトリアージ支援のための大規模言語モデルの構築

Bespoke Large Language Models for Digital Triage Assistance in Mental Health Care ( http://arxiv.org/abs/2403.19790v1 )

ライセンス: Link先を確認
Niall Taylor, Andrey Kormilitzin, Isabelle Lorge, Alejo Nevado-Holgado, Dan W Joyce, (参考訳) 現代の大規模言語モデル(LLMs)は、電子健康記録(EHRs)に含まれる、構造化されていない物語的自由テキスト臨床データを処理するためのユーティリティを持つ可能性がある。 英国国立衛生局(NHS)にとって重要な問題は、専門的な精神医療の長い待ち行列である。 NHSのデータによると、2023年の毎月、370,000人から470,000人の新規レファラーが、二次的なメンタルヘルスサービスに移行している。 患者の EHR に含まれる臨床情報を用いて、これらの患者を評価し、治療する最も適切な精神医療チームに関する決定を下すためには、臨床医が参考にしなければならない。 有能な臨床ノートを摂取することで、関係するチームを効率的に推薦する能力は、参照待ち時間と適切な技術の両方を減らし、トリアージ決定を正当化するために利用可能な証拠を改善するのに役立つ。 LLMをベースとした可変長臨床ERHデータのエンド・ツー・エンドの摂取に関する3つのアプローチを提案し,その評価を行った。 我々のモデルは,既存の臨床プラクティスと整合したトリアージレコメンデーションを提供することができ,そのアーキテクチャを1つのGPU上に実装することで,LLM技術のプライベート実装が必要とされるリソース制限型のNHS環境において,秘密の臨床データが適切に制御され,管理されるようにする。

Contemporary large language models (LLMs) may have utility for processing unstructured, narrative free-text clinical data contained in electronic health records (EHRs) -- a particularly important use-case for mental health where a majority of routinely-collected patient data lacks structured, machine-readable content. A significant problem for the the United Kingdom's National Health Service (NHS) are the long waiting lists for specialist mental healthcare. According to NHS data, in each month of 2023, there were between 370,000 and 470,000 individual new referrals into secondary mental healthcare services. Referrals must be triaged by clinicians, using clinical information contained in the patient's EHR to arrive at a decision about the most appropriate mental healthcare team to assess and potentially treat these patients. The ability to efficiently recommend a relevant team by ingesting potentially voluminous clinical notes could help services both reduce referral waiting times and with the right technology, improve the evidence available to justify triage decisions. We present and evaluate three different approaches for LLM-based, end-to-end ingestion of variable-length clinical EHR data to assist clinicians when triaging referrals. Our model is able to deliver triage recommendations consistent with existing clinical practices and it's architecture was implemented on a single GPU, making it practical for implementation in resource-limited NHS environments where private implementations of LLM technology will be necessary to ensure confidential clinical data is appropriately controlled and governed.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# MAPL: モデルに依存しないピアツーピアラーニング

MAPL: Model Agnostic Peer-to-peer Learning ( http://arxiv.org/abs/2403.19792v1 )

ライセンス: Link先を確認
Sayak Mukherjee, Andrea Simonetto, Hadi Jamali-Rad, (参考訳) 分散化された環境での異種クライアント間の効果的なコラボレーションは、文学における未探索の道である。 モデル非依存的ピアツーピアラーニング(MAPL)は異種パーソナライズされたモデルと、近隣のクライアント間のピアツーピア通信を通じて協調グラフを同時に学習する新しいアプローチである。 MAPLは2つの主要なモジュールから構成されています。 (i)地域レベルのパーソナライズド・モデル・ラーニング(PML)は、地域内と地域内におけるコントラスト的損失の組合せを活用する。 (II)ネットワーク全体で分散化された協調グラフ学習(CGL)は、局所的なタスク類似性に基づいたプライバシー保護方式で協調重みを動的に洗練する。 我々の大規模な実験は、MAPLとその競争力(ほとんどの場合、中央サーバに頼らずに、その集中型モデルに依存しないものよりも優れている)の性能を実証している。 私たちのコードはこちらからアクセスできます。

Effective collaboration among heterogeneous clients in a decentralized setting is a rather unexplored avenue in the literature. To structurally address this, we introduce Model Agnostic Peer-to-peer Learning (coined as MAPL) a novel approach to simultaneously learn heterogeneous personalized models as well as a collaboration graph through peer-to-peer communication among neighboring clients. MAPL is comprised of two main modules: (i) local-level Personalized Model Learning (PML), leveraging a combination of intra- and inter-client contrastive losses; (ii) network-wide decentralized Collaborative Graph Learning (CGL) dynamically refining collaboration weights in a privacy-preserving manner based on local task similarities. Our extensive experimentation demonstrates the efficacy of MAPL and its competitive (or, in most cases, superior) performance compared to its centralized model-agnostic counterparts, without relying on any central server. Our code is available and can be accessed here: https://github.com/SayakMukherjee/MAPL
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# ニューラルネットワークを用いた効率的な3次元インスタンスマッピングと位置決め

Efficient 3D Instance Mapping and Localization with Neural Fields ( http://arxiv.org/abs/2403.19797v1 )

ライセンス: Link先を確認
George Tang, Krishna Murthy Jatavallabhula, Antonio Torralba, (参考訳) 本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。 そこで本研究では,新しい視点からレンダリング可能なラベルフィールドを効率よく学習し,ビュー一貫性のあるインスタンスセグメンテーションマスクを生成する3DIMLを提案する。 3DIMLは、既存の暗黙のシーン表現ベースのメソッドのトレーニングと推論ランタイムを大幅に改善する。 3DIMLは、自己監督的な方法で神経野を最適化し、複雑な訓練手順と損失関数設計を必要とする先行技術に対して、2段階のプロセスを活用する。 第1フェーズであるInstanceMapは、フロントエンドインスタンスセグメンテーションモデルによって生成された画像シーケンスの2Dセグメンテーションマスクとして入力され、画像間で対応するマスクを3Dラベルに関連付ける。 これらのほぼビューに一貫性のある擬似ラベルマスクは、第2フェーズの InstanceLift で、 InstanceMap が見逃した領域を補間し、あいまいさを解決するニューラルラベルフィールドのトレーニングを監督するために使用される。 さらに、トレーニングされたラベルフィールドとオフザシェルフイメージセグメンテーションモデルに与えられたインスタンスマスクのほぼリアルタイムなローカライズを可能にするインスタンスLocを導入する。 Replica と ScanNet のデータセットから 3DIML を推定し,画像シーケンスの軽度な仮定の下で 3DIML の有効性を実証した。 既存の暗黙的なシーン表現手法よりも14~24倍の高速化を実現し,より高速で効率的な3Dシーン理解を実現する可能性を示した。

We tackle the problem of learning an implicit scene representation for 3D instance segmentation from a sequence of posed RGB images. Towards this, we introduce 3DIML, a novel framework that efficiently learns a label field that may be rendered from novel viewpoints to produce view-consistent instance segmentation masks. 3DIML significantly improves upon training and inference runtimes of existing implicit scene representation based methods. Opposed to prior art that optimizes a neural field in a self-supervised manner, requiring complicated training procedures and loss function design, 3DIML leverages a two-phase process. The first phase, InstanceMap, takes as input 2D segmentation masks of the image sequence generated by a frontend instance segmentation model, and associates corresponding masks across images to 3D labels. These almost view-consistent pseudolabel masks are then used in the second phase, InstanceLift, to supervise the training of a neural label field, which interpolates regions missed by InstanceMap and resolves ambiguities. Additionally, we introduce InstanceLoc, which enables near realtime localization of instance masks given a trained label field and an off-the-shelf image segmentation model by fusing outputs from both. We evaluate 3DIML on sequences from the Replica and ScanNet datasets and demonstrate 3DIML's effectiveness under mild assumptions for the image sequences. We achieve a 14-24x speedup over existing implicit scene representation methods with comparable quality, showcasing its potential to facilitate faster and more effective 3D scene understanding.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# 非マルコフ量子力学写像に対するリンドブラッド様量子トモグラフィ

Lindblad-like quantum tomography for non-Markovian quantum dynamical maps ( http://arxiv.org/abs/2403.19799v1 )

ライセンス: Link先を確認
Santiago Varona, Markus Müller, Alejandro Bermudez, (参考訳) 本稿では,Lindblad-like quantum tomography (L$\ell$QT) を量子情報プロセッサにおける時間相関ノイズの量子キャラクタリゼーション技術として紹介する。 このアプローチにより、動的制約を受ける可能性関数を最大化することにより、負の崩壊率を含む時間局所マスター方程式を推定できる。 単一量子ビットの強調力学について、L$\ell$QT を詳細に論じ、量子進化の複数のスナップショットを可能性関数に含めることの重要性と、これらがノイズ特性に応じて時間で分散する必要があることの正確な理解を可能にする。 頻度論的アプローチとベイズ的アプローチを併用した詳細な比較研究により、リンドブラッド限界を超える量子力学写像のL$\ell$QTの精度と精度を評価し、閉じ込められたイオンまたは超伝導回路アーキテクチャで実現可能な2つの異なる顕微鏡ノイズモデルに焦点を当てた。 推定誤差を最小限に抑えるために測定時間の分布の最適化について検討し、ノイズの非マルコフ性度を条件とした各学習方式の優越性を評価し、非マルコフ量子トモグラフィーの将来の実験的設計のステージを設定する。

We introduce Lindblad-like quantum tomography (L$\ell$QT) as a quantum characterization technique of time-correlated noise in quantum information processors. This approach enables the estimation of time-local master equations, including their possible negative decay rates, by maximizing a likelihood function subject to dynamical constraints. We discuss L$\ell$QT for the dephasing dynamics of single qubits in detail, which allows for a neat understanding of the importance of including multiple snapshots of the quantum evolution in the likelihood function, and how these need to be distributed in time depending on the noise characteristics. By a detailed comparative study employing both frequentist and Bayesian approaches, we assess the accuracy and precision of L$\ell$QT of a dephasing quantum dynamical map that goes beyond the Lindblad limit, focusing on two different microscopic noise models that can be realised in either trapped-ion or superconducting-circuit architectures. We explore the optimization of the distribution of measurement times to minimize the estimation errors, assessing the superiority of each learning scheme conditioned on the degree of non-Markovinity of the noise, and setting the stage for future experimental designs of non-Markovian quantum tomography.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# 時変信号再構成のためのゲゲンバウアーグラフニューラルネットワーク

Gegenbauer Graph Neural Networks for Time-varying Signal Reconstruction ( http://arxiv.org/abs/2403.19800v1 )

ライセンス: Link先を確認
Jhon A. Castro-Correa, Jhony H. Giraldo, Mohsen Badiey, Fragkiskos D. Malliaros, (参考訳) 時間変化グラフ信号(あるいはグラフ時系列計算)の再構成は、センサネットワークにおけるデータ計算の欠如から時系列予測に至るまで、幅広いアプリケーションで機械学習と信号処理を行う上で重要な問題である。 これらの信号に固有の時空間情報の正確な取得は、これらの課題に効果的に対処するために重要である。 しかし、時間差の滑らかさを前提とした既存手法や単純な凸最適化手法には固有の制限がある。 これらの課題に対処するため、下流タスクの精度を高めるために学習モジュールを組み込んだ新しいアプローチを提案する。 この目的のために、ゲゲンバウアー型グラフ畳み込み作用素(GegenConv)を導入し、ゲゲンバウアー多項式の理論を利用して従来のチェビシェフグラフ畳み込みを一般化する。 従来の凸問題から逸脱することで、モデルの複雑さを拡大し、時間変化のあるグラフ信号を復元するためのより正確なソリューションを提供する。 GegenConvに基づいて、エンコーダデコーダ構造を採用したGegenbauerベースの時間グラフニューラルネットワーク(GegenGNN)アーキテクチャを設計する。 また,本手法では,ソボレフの滑らか度正規化とともに平均二乗誤差成分を組み込んだ専用損失関数も利用している。 この組み合わせにより、GegenGNNは、真理と信号の基本的な滑らか性の両方をキャプチャし、再構成性能を向上させることができる。 提案手法の有効性を評価するために,実データセットに関する広範な実験を行った。 実験の結果、GegenGNNは最先端の手法よりも優れており、時間変動グラフ信号の回復に優れた能力を示している。

Reconstructing time-varying graph signals (or graph time-series imputation) is a critical problem in machine learning and signal processing with broad applications, ranging from missing data imputation in sensor networks to time-series forecasting. Accurately capturing the spatio-temporal information inherent in these signals is crucial for effectively addressing these tasks. However, existing approaches relying on smoothness assumptions of temporal differences and simple convex optimization techniques have inherent limitations. To address these challenges, we propose a novel approach that incorporates a learning module to enhance the accuracy of the downstream task. To this end, we introduce the Gegenbauer-based graph convolutional (GegenConv) operator, which is a generalization of the conventional Chebyshev graph convolution by leveraging the theory of Gegenbauer polynomials. By deviating from traditional convex problems, we expand the complexity of the model and offer a more accurate solution for recovering time-varying graph signals. Building upon GegenConv, we design the Gegenbauer-based time Graph Neural Network (GegenGNN) architecture, which adopts an encoder-decoder structure. Likewise, our approach also utilizes a dedicated loss function that incorporates a mean squared error component alongside Sobolev smoothness regularization. This combination enables GegenGNN to capture both the fidelity to ground truth and the underlying smoothness properties of the signals, enhancing the reconstruction performance. We conduct extensive experiments on real datasets to evaluate the effectiveness of our proposed approach. The experimental results demonstrate that GegenGNN outperforms state-of-the-art methods, showcasing its superior capability in recovering time-varying graph signals.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# 一般化ホルシュタイン・プリマコフ写像によるスピンアンサンブルのボソニックモードへの局所的デコヒーレンスモデリング

Modeling local decoherence of a spin ensemble using a generalized Holstein-Primakoff mapping to a bosonic mode ( http://arxiv.org/abs/2403.19801v1 )

ライセンス: Link先を確認
Andrew Kolmer Forbes, Philip Daniel Blocher, Ivan H. Deutsch, (参考訳) エンタングル原子スピンライト界面で発生するデコヒーレンスを、単純にボソニックモードのダイナミクスとしてモデル化できることを示す。 置換不変な(対称な)部分空間における原子系の集合スピンを制御しようとするが、拡散散乱と光ポンピングは局所的であり、多体状態の正確な説明が可能である。 この問題を克服するために、大規模な原子アンサンブルでデコヒーレンスが均一であるときに有効である集合状態に対する一般化されたホルシュタイン・プリマコフ近似を開発した。 異なる応用では、力学は熱化拡散方程式に従って進化するウィグナー関数として、あるいはゼロ温度貯水池で崩壊するボゾンモードに対するフォッカー・プランク方程式によって便利に扱われる。 我々は、量子メトロジーに応用するための非古典的スピン状態の生成におけるハミルトン進化、局所的および集合的デコヒーレンス、および測定バックアクションの組合せ効果を研究するために、フォーマリズムを利用する。

We show how the decoherence that occurs in an entangling atomic spin-light interface can be simply modeled as the dynamics of a bosonic mode. Although one seeks to control the collective spin of the atomic system in the permutationally invariant (symmetric) subspace, diffuse scattering and optical pumping are local, making an exact description of the many-body state intractable. To overcome this issue we develop a generalized Holstein-Primakoff approximation for collective states which is valid when decoherence is uniform across a large atomic ensemble. In different applications the dynamics is conveniently treated as a Wigner function evolving according to a thermalizing diffusion equation, or by a Fokker-Planck equation for a bosonic mode decaying in a zero temperature reservoir. We use our formalism to study the combined effect of Hamiltonian evolution, local and collective decoherence, and measurement backaction in preparing nonclassical spin states for application in quantum metrology.
翻訳日:2024-04-01 17:23:49 公開日:2024-03-28
# 空間を埋め込んだ医療言語モデルの開発

Developing Healthcare Language Model Embedding Spaces ( http://arxiv.org/abs/2403.19802v1 )

ライセンス: Link先を確認
Niall Taylor, Dan Schofield, Andrey Kormilitzin, Dan W Joyce, Alejo Nevado-Holgado, (参考訳) 事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。 より小さなLSMを異なる医療データセットに適応させるための、特別な事前トレーニングについて検討する。 従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、医療設定からメタデータのカテゴリを利用する新しい事前学習の3つの手法が評価されている。 これらのスキームは、各データセットの下流文書分類タスクに基づいて評価され、結果の埋め込み空間を解析する。 対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。 メタデータベースの事前トレーニングはデータセット全体の分類をさらに改善するものではないが、興味深い埋め込みクラスタ分離性が得られる。 すべてのドメイン適応 LLM は、パブリックな汎用 LLM よりも優れており、ドメイン特殊化の重要性を検証している。 本研究は, コンパクトLLMにおいて, 厳密な計算予算の下でも, 医療能力を高めるための効果的なアプローチを示すものである。 専門的な医療用LDMの事前トレーニングガイドラインを提供し、対照的な目的に対する継続的な調査を動機づけ、小さなLSMをプライバシに敏感な医療タスクに合わせるための適応手法を実証する。

Pre-trained Large Language Models (LLMs) often struggle on out-of-domain datasets like healthcare focused text. We explore specialized pre-training to adapt smaller LLMs to different healthcare datasets. Three methods are assessed: traditional masked language modeling, Deep Contrastive Learning for Unsupervised Textual Representations (DeCLUTR), and a novel pre-training objective utilizing metadata categories from the healthcare settings. These schemes are evaluated on downstream document classification tasks for each dataset, with additional analysis of the resultant embedding spaces. Contrastively trained models outperform other approaches on the classification tasks, delivering strong performance from limited labeled data and with fewer model parameter updates required. While metadata-based pre-training does not further improve classifications across the datasets, it yields interesting embedding cluster separability. All domain adapted LLMs outperform their publicly available general base LLM, validating the importance of domain-specialization. This research illustrates efficient approaches to instill healthcare competency in compact LLMs even under tight computational budgets, an essential capability for responsible and sustainable deployment in local healthcare settings. We provide pre-training guidelines for specialized healthcare LLMs, motivate continued inquiry into contrastive objectives, and demonstrates adaptation techniques to align small LLMs with privacy-sensitive medical tasks.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# スマートコントラクトの脆弱性と緩和策:包括的調査

Vulnerabilities of smart contracts and mitigation schemes: A Comprehensive Survey ( http://arxiv.org/abs/2403.19805v1 )

ライセンス: Link先を確認
Wejdene Haouari, Abdelhakim Senhaji Hafid, Marios Fokaefs, (参考訳) Ethereumスマートコントラクトは非常に強力で、不変であり、大量のトークンを保持する。 しかし、スマートコントラクトは、スマートコントラクトの欠陥とEthereumの予期せぬ振る舞いの恩恵を受けるために、攻撃者を惹きつけ続けている。 このように、セキュアなスマートコントラクトの実装を支援し、すでにデプロイされているスマートコントラクトのセキュリティを評価するために、方法論とツールが提案されている。 また、ツールのテストやコミュニティからのフィードバックの収集よりも、論文に基づいてツールを評価する。 他の調査では、スマートコントラクト機能に特化したツールの使い方に関するガイドラインがない。 本論文は,NFTの所有権を取引可能な単位に分割することのユニークなリスクに対処することで,NFTの分別化による課題と脆弱性に新たな重点を置いて,開発者がセキュアなスマートな技術を開発するのを支援することを目的とした,実験報告と組み合わせた文献レビューである。 頻繁な脆弱性とそれに対応する緩和ソリューションのリストを提供する。 さらに、サンプルのスマートコントラクト上でそれらを実行し、テストすることで、コミュニティで最も広く使用されているツールを評価します。 最後に、スマートコントラクトの安全性に関する完全なガイダンスが提示される。

Ethereum smart contracts are highly powerful; they are immutable and retain massive amounts of tokens. However, smart contracts keep attracting attackers to benefit from smart contract flaws and Ethereum's unexpected behaviour. Thus, methodologies and tools have been proposed to help implementing secure smart contracts and to evaluate the security of smart contracts already deployed. Most related surveys focus on tools without discussing the logic behind them; in addition, they assess the tools based on papers rather than testing the tools and collecting community feedback. Other surveys lack guidelines on how to use tools specific to smart contract functionalities. This paper presents a literature review combined with an experimental report, that aims to assist developers in developing secure smarts, with a novel emphasis on the challenges and vulnerabilities introduced by NFT fractionalization by addressing the unique risks of dividing NFT ownership into tradeable units called fractions. It provides a list of frequent vulnerabilities and corresponding mitigation solutions. In addition, it evaluates the community's most widely used tools by executing and testing them on sample smart contracts. Finally, a complete guidance on how to secure smart contracts is presented.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# 機能ベースEcho-State Networks:Reservoir Computerにおける解釈可能性と最小化に向けて

Feature-Based Echo-State Networks: A Step Towards Interpretability and Minimalism in Reservoir Computer ( http://arxiv.org/abs/2403.19806v1 )

ライセンス: Link先を確認
Debdipta Goswami, (参考訳) 本稿では,時系列予測のためのエコー状態ネットワーク(ESN)パラダイムを用いた,新しい,解釈可能なリカレントニューラルネットワーク構造を提案する。 従来のESNは動的システムの予測にうまく機能するが、計算複雑性が増大した大きな動的貯水池が必要である。 また、異なる入力の組み合わせから出力へのコントリビューションを識別する能力も欠如している。 ここでは、異なる入力の組み合わせによって駆動される小さな並列貯水池を用いて、系統的な貯水池アーキテクチャを開発し、その後、非線形に結合して出力を生成する。 結果として、Feat-ESN(Feat-ESN)は、従来の単一貯留層ESNよりも低いリザーブノードを持つ。 提案アーキテクチャの予測能力は,カオス力学系からの2つの合成データセットとリアルタイムトラフィックデータのセットの3つのシステムで実証される。

This paper proposes a novel and interpretable recurrent neural-network structure using the echo-state network (ESN) paradigm for time-series prediction. While the traditional ESNs perform well for dynamical systems prediction, it needs a large dynamic reservoir with increased computational complexity. It also lacks interpretability to discern contributions from different input combinations to the output. Here, a systematic reservoir architecture is developed using smaller parallel reservoirs driven by different input combinations, known as features, and then they are nonlinearly combined to produce the output. The resultant feature-based ESN (Feat-ESN) outperforms the traditional single-reservoir ESN with less reservoir nodes. The predictive capability of the proposed architecture is demonstrated on three systems: two synthetic datasets from chaotic dynamical systems and a set of real-time traffic data.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# ツイストされた単純分布

Twisted simplicial distributions ( http://arxiv.org/abs/2403.19808v1 )

ライセンス: Link先を確認
Cihan Okay, Walker H. Stern, (参考訳) 単純主バンドル上のツイストされた単純分布の理論を導入し、ベルの非局所性とより一般的な量子文脈性の概念を捉えることができる。 simplicial principal bundle の古典的理論とそのようなバンドルの圏の構造を活用し、simplicial set における直接構成とホモロジー代数からの技法の両方の観点から、ねじれた分布を解析するための強力な計算ツールを提供する。 量子計算の古典的シミュレーションで用いられる量子分布と演算子理論の多面体を解析するためにこれらの手法を用いる。

We introduce a theory of twisted simplicial distributions on simplicial principal bundles, which allow us to capture Bell's non-locality, and the more general notion of quantum contextuality. We leverage the classical theory of simplicial principal bundles, as well as structures on categories of such bundles, to provide powerful computational tools for analyzing twisted distributions in terms of both direct constructions in simplicial sets and techniques from homological algebra. We use these techniques to analyze our key examples: quantum distributions and operator-theoretic polytopes used in the classical simulation of quantum computation.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# トラップイオン量子プロセッサのための完全統合2量子ビット演算レジスタ上の任意量子回路

Arbitrary quantum circuits on a fully integrated two-qubit computation register for a trapped-ion quantum processor ( http://arxiv.org/abs/2403.19809v1 )

ライセンス: Link先を確認
N. Pulido-Mateo, H. Mendpara, M. Duwe, T. Dubielzig, G. Zarantonello, L. Krinner, C. Ospelkaus, (参考訳) 本稿では,量子電荷結合デバイスアーキテクチャに基づくトラップイオン量子コンピュータの計算モジュールとして機能する,普遍的な2量子レジスタ上の任意の回路の実装について報告する。 量子ゲートの普遍集合は、チップ集積マイクロ波アドレスのみを用いて、$^9$Be$^+$イオンの2イオンクーロン結晶上に実装される。 マイクロ波マイクロモーションサイドバンド遷移を用いて個別イオンアドレッシングを行い、レジスタ内のクロストークのアドレッシングにおける上限値を求める。 任意の2量子演算は、サイクルベンチマークプロトコルを用いて特徴付けられる。

We report on the implementation of arbitrary circuits on a universal two-qubit register that can act as the computational module in a trapped-ion quantum computer based on the quantum charge-coupled device architecture. A universal set of quantum gates is implemented on a two-ion Coulomb crystal of $^9$Be$^+$ ions using only chip-integrated microwave addressing. Individual-ion addressing is implemented using microwave micromotion sideband transitions; we obtain upper limits on addressing cross-talk in the register. Arbitrary two-qubit operations are characterized using the cycle benchmarking protocol.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# X-MIC:Egocentric Action Generalizationのためのクロスモーダルインスタンス条件

X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization ( http://arxiv.org/abs/2403.19811v1 )

ライセンス: Link先を確認
Anna Kukleva, Fadime Sener, Edoardo Remelli, Bugra Tekin, Eric Sauser, Bernt Schiele, Shugao Ma, (参考訳) 近年、ゼロショット認識の成功により、視覚言語モデル(VLM)を画像分類や第三者ビデオ分類に適用することへの関心が高まっている。 しかし、これらのモデルがエゴセントリックなビデオに適応することは、ほとんど探索されていない。 このギャップに対処するために、我々はX-MICと呼ぶ、単純だが効果的なクロスモーダル適応フレームワークを提案する。 ビデオアダプタを使用して、パイプラインは凍結したテキスト埋め込みを、共有埋め込み空間内で、各エゴセントリックなビデオに直接アライメントすることを学ぶ。 我々の新しいアダプタアーキテクチャは、学習可能な時間モデルと凍結したビジュアルエンコーダを混在させることにより、事前訓練されたVLMの一般化を維持・改善する。 これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。 Epic-Kitchens, Ego4D, EGTEAデータセットへのアプローチを評価し, 提案手法の有効性を実証した。 コードはhttps://github.com/annusha/xmicで入手できる。

Lately, there has been growing interest in adapting vision-language models (VLMs) to image and third-person video classification due to their success in zero-shot recognition. However, the adaptation of these models to egocentric videos has been largely unexplored. To address this gap, we propose a simple yet effective cross-modal adaptation framework, which we call X-MIC. Using a video adapter, our pipeline learns to align frozen text embeddings to each egocentric video directly in the shared embedding space. Our novel adapter architecture retains and improves generalization of the pre-trained VLMs by disentangling learnable temporal modeling and frozen visual encoder. This results in an enhanced alignment of text embeddings to each egocentric video, leading to a significant improvement in cross-dataset generalization. We evaluate our approach on the Epic-Kitchens, Ego4D, and EGTEA datasets for fine-grained cross-dataset action generalization, demonstrating the effectiveness of our method. Code is available at https://github.com/annusha/xmic
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# CPS時代のリチウムイオン電池健康診断の現状

The State of Lithium-Ion Battery Health Prognostics in the CPS Era ( http://arxiv.org/abs/2403.19816v1 )

ライセンス: Link先を確認
Gaurav Shinde, Rohan Mohapatra, Pooja Krishan, Harish Garg, Srikanth Prabhu, Sanchari Das, Mohammad Masum, Saptarshi Sengupta, (参考訳) リチウムイオン電池(Liイオン)はエネルギー貯蔵技術に革命をもたらし、さまざまなデバイスやアプリケーションを動かすことで、私たちの日常生活に不可欠なものになっています。 その高エネルギー密度、高速な電力応答、リサイクル可能性、モビリティの優位性が多くのセクターで好まれている。 本報告では, 電力系統の信頼性, 安全性, 性能を向上する多分野的アプローチとして, 電池内における診断・健康管理のシームレスな統合について検討する。 予後学において重要な概念であるRetaining useful Life (RUL) を深く検討し、その前にコンポーネントの故障を予測する役割を強調した。 本稿では,従来のモデルから最先端のデータ駆動技術まで,さまざまなRUL予測手法についてレビューする。 さらに、Liイオン電池の健康診断分野におけるディープラーニングアーキテクチャへのパラダイムシフトを強調し、バッテリーシステムの複雑さに対処する上でのディープラーニングの役割を解明する。 この論文は、Liイオン電池PHMの分野における研究者と実践者の双方にとって総合的なガイドとなる。

Lithium-ion batteries (Li-ion) have revolutionized energy storage technology, becoming integral to our daily lives by powering a diverse range of devices and applications. Their high energy density, fast power response, recyclability, and mobility advantages have made them the preferred choice for numerous sectors. This paper explores the seamless integration of Prognostics and Health Management within batteries, presenting a multidisciplinary approach that enhances the reliability, safety, and performance of these powerhouses. Remaining useful life (RUL), a critical concept in prognostics, is examined in depth, emphasizing its role in predicting component failure before it occurs. The paper reviews various RUL prediction methods, from traditional models to cutting-edge data-driven techniques. Furthermore, it highlights the paradigm shift toward deep learning architectures within the field of Li-ion battery health prognostics, elucidating the pivotal role of deep learning in addressing battery system complexities. Practical applications of PHM across industries are also explored, offering readers insights into real-world implementations.This paper serves as a comprehensive guide, catering to both researchers and practitioners in the field of Li-ion battery PHM.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# 医学診断における機械学習モデルの説明能力の評価--人間とループのアプローチ

Evaluating Explanatory Capabilities of Machine Learning Models in Medical Diagnostics: A Human-in-the-Loop Approach ( http://arxiv.org/abs/2403.19820v1 )

ライセンス: Link先を確認
José Bobes-Bascarán, Eduardo Mosqueira-Rey, Ángel Fernández-Leal, Elena Hernández-Pereira, David Alonso-Ríos, Vicente Moret-Bonillo, Israel Figueirido-Arnoso, Yolanda Vidal-Ínsua, (参考訳) 本稿では, 膵癌データセットを用いた決定木, ランダムフォレスト, およびXGBoostモデルに着目し, 機械学習モデルの説明能力の評価に関する総合的研究を行った。 我々は、膵癌治療の確立に関係するさまざまな特徴の重要性を確立するために、Human-in-the-Loop関連技術と医療ガイドラインをドメイン知識の源泉として使用しています。 これらの特徴は、機械学習モデルにおける次元削減アプローチとしてだけでなく、非依存的および非認識的説明可能性技術を用いて、異なるモデルの説明可能性能力を評価する手段としても用いられる。 本稿では,説明結果の解釈を容易にするために,重み付きジャカード類似度係数などの類似度尺度の利用を提案する。 目標は、最高のパフォーマンスモデルを選択するだけでなく、その結論を最もよく説明し、人間のドメイン知識と整合できるモデルを選択することです。

This paper presents a comprehensive study on the evaluation of explanatory capabilities of machine learning models, with a focus on Decision Trees, Random Forest and XGBoost models using a pancreatic cancer dataset. We use Human-in-the-Loop related techniques and medical guidelines as a source of domain knowledge to establish the importance of the different features that are relevant to establish a pancreatic cancer treatment. These features are not only used as a dimensionality reduction approach for the machine learning models, but also as way to evaluate the explainability capabilities of the different models using agnostic and non-agnostic explainability techniques. To facilitate interpretation of explanatory results, we propose the use of similarity measures such as the Weighted Jaccard Similarity coefficient. The goal is to not only select the best performing model but also the one that can best explain its conclusions and aligns with human domain knowledge.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# 自動音声認識のためのマルチステージマルチモーダル事前訓練

Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition ( http://arxiv.org/abs/2403.19822v1 )

ライセンス: Link先を確認
Yash Jain, David Chan, Pranav Dheram, Aparna Khare, Olabanji Shonibare, Venkatesh Ravichandran, Shalini Ghosh, (参考訳) 機械学習の最近の進歩は、モデルがユニモーダルタスクで微調整された場合でも、ランダムに初期化されるモデルと比較して、マルチモーダル事前学習が自動音声認識(ASR)性能を改善することを実証している。 ASRタスクの既存のマルチモーダル事前訓練手法は、主に1つの教師なしタスクが事前訓練に使用され、その後下流タスクの微調整が行われるシングルステージ事前訓練に焦点を当てている。 本研究では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習手法を組み合わせた新しい手法を提案する。 このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。 さらに,事前学習方法やデータセットを選択する上で,いくつかの重要な知見を共有している。

Recent advances in machine learning have demonstrated that multi-modal pre-training can improve automatic speech recognition (ASR) performance compared to randomly initialized models, even when models are fine-tuned on uni-modal tasks. Existing multi-modal pre-training methods for the ASR task have primarily focused on single-stage pre-training where a single unsupervised task is used for pre-training followed by fine-tuning on the downstream task. In this work, we introduce a novel method combining multi-modal and multi-task unsupervised pre-training with a translation-based supervised mid-training approach. We empirically demonstrate that such a multi-stage approach leads to relative word error rate (WER) improvements of up to 38.45% over baselines on both Librispeech and SUPERB. Additionally, we share several important findings for choosing pre-training methods and datasets.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# セマンティックセグメンテーションのための不確実性推定基準の再検討

Segmentation Re-thinking Uncertainty Estimation Metrics for Semantic Segmentation ( http://arxiv.org/abs/2403.19826v1 )

ライセンス: Link先を確認
Qitian Ma, Shyam Nanda Rai, Carlo Masone, Tatiana Tommasi, (参考訳) コンピュータビジョンの領域では、セマンティックセグメンテーションは機械学習の基本的な応用として現れ、画像の個々のピクセルは異なるセマンティックカテゴリに分類される。 このタスクは、各セグメンテーション予測の信頼性を評価する重要な尺度である不確実な定量化を組み込むことで、従来の精度メトリクスを超越する。 このような定量化は、特に精度が最重要であるアプリケーションにおいて、情報的な意思決定を促進するのに有効である。 画像セグメンテーションタスクにおけるエントロピーに基づく不確実性を評価するための特別なツールとして,PAvPU(パッチ精度対パッチ不確実性)と呼ばれる手法が開発された。 しかし,本研究では,PAvPUフレームワークの中核となる3つの欠陥を同定し,その改善を目的とした堅牢な解法を提案する。 これらの課題に対処することで、特に高い安全性と精度を要求されるシナリオにおいて、不確実性定量化の信頼性と適用性を高め、重要なアプリケーションにおけるセマンティックセグメンテーション手法の進歩に寄与することを目指している。

In the domain of computer vision, semantic segmentation emerges as a fundamental application within machine learning, wherein individual pixels of an image are classified into distinct semantic categories. This task transcends traditional accuracy metrics by incorporating uncertainty quantification, a critical measure for assessing the reliability of each segmentation prediction. Such quantification is instrumental in facilitating informed decision-making, particularly in applications where precision is paramount. Within this nuanced framework, the metric known as PAvPU (Patch Accuracy versus Patch Uncertainty) has been developed as a specialized tool for evaluating entropy-based uncertainty in image segmentation tasks. However, our investigation identifies three core deficiencies within the PAvPU framework and proposes robust solutions aimed at refining the metric. By addressing these issues, we aim to enhance the reliability and applicability of uncertainty quantification, especially in scenarios that demand high levels of safety and accuracy, thus contributing to the advancement of semantic segmentation methodologies in critical applications.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# 少ない希少現象から希少現象を学習する言語モデル:行方不明AANNを事例として

Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNs ( http://arxiv.org/abs/2403.19827v1 )

ライセンス: Link先を確認
Kanishka Misra, Kyle Mahowald, (参考訳) 言語モデルは稀な構文現象を学習するが、文法的な一般化とは対照的に、ロート記憶に依存していると論じられている。 人体サイズのコーパス(100万語)を訓練し、体系的に操作されたコーパス上でトランスフォーマー言語モデルを反復的に訓練し、その後、英文+形容詞+Numeral+Noun(AANN)構築(「美しい5日間」)という、特定の稀な文法現象の学習を評価した。 AANN文を削除した対実コーパスに対して,この構築がデフォルトコーパスでどの程度うまく学習されたかを比較した。 AANNは、建設の体系的に摂動された派生型よりも、いまだによく学習されていた。 追加の対物コーパスを用いて、この学習は関連する構成(例えば ``a few days'' )からの一般化によって起こることを示唆する。 さらなる実験により、この学習は、入力により多くのばらつきがある場合に強化されることが示された。 この結果から,比較的希少な現象から一般化することで,モデルが希少な文法現象を学習することを示す。 code available at https://github.com/kanishkamisra/aannalysis

Language models learn rare syntactic phenomena, but it has been argued that they rely on rote memorization, as opposed to grammatical generalization. Training on a corpus of human-scale in size (100M words), we iteratively trained transformer language models on systematically manipulated corpora and then evaluated their learning of a particular rare grammatical phenomenon: the English Article+Adjective+Numeral+Noun (AANN) construction (``a beautiful five days''). We first compared how well this construction was learned on the default corpus relative to a counterfactual corpus in which the AANN sentences were removed. AANNs were still learned better than systematically perturbed variants of the construction. Using additional counterfactual corpora, we suggest that this learning occurs through generalization from related constructions (e.g., ``a few days''). An additional experiment showed that this learning is enhanced when there is more variability in the input. Taken together, our results provide an existence proof that models learn rare grammatical phenomena by generalization from less rare phenomena. Code available at https://github.com/kanishkamisra/aannalysis
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# テンソル形式における線形系問題に対する効率的な量子アルゴリズム

An Efficient Quantum Algorithm for Linear System Problem in Tensor Format ( http://arxiv.org/abs/2403.19829v1 )

ライセンス: Link先を確認
Zeguan Wu, Sidhant Misra, Tamás Terlaky, Xiu Yang, Marc Vuffray, (参考訳) 線形システムの解決は多くのアルゴリズムの基礎にある。 近年、量子線形システムアルゴリズム (QLSA) は、問題次元の観点から古典的アルゴリズムよりも指数関数的に高速な解に収束するため、大きな注目を集めている。 しかし、これらのQLSAで想定されるオラクルの低複雑さ回路実装は、線形系を解くための実用的な量子スピードアップのボトルネックとなっている。 本研究では、低階テンソル和として表される線形システムに対するQLSAの適用に焦点を当て、離散化されたPDEの解法で生じる。 以前の研究は、修正されたクリロフ部分空間法を用いて、次元の多対数的であるが、総収束コストの保証がない、一点当たりの複雑性を持つような線型系を解く。 本稿では,近年の断熱型QLSAの進歩に基づく量子アルゴリズムを提案し,その実装の回路深さを詳細に解析する。 我々は,古典的ヒューリスティック手法の解法毎の複雑性に匹敵する次元において,実装の全体的な複雑さが多元対数的であることを厳密に示す。

Solving linear systems is at the foundation of many algorithms. Recently, quantum linear system algorithms (QLSAs) have attracted great attention since they converge to a solution exponentially faster than classical algorithms in terms of the problem dimension. However, low-complexity circuit implementations of the oracles assumed in these QLSAs constitute the major bottleneck for practical quantum speed-up in solving linear systems. In this work, we focus on the application of QLSAs for linear systems that are expressed as a low rank tensor sums, which arise in solving discretized PDEs. Previous works uses modified Krylov subspace methods to solve such linear systems with a per-iteration complexity being polylogarithmic of the dimension but with no guarantees on the total convergence cost. We propose a quantum algorithm based on the recent advances on adiabatic-inspired QLSA and perform a detailed analysis of the circuit depth of its implementation. We rigorously show that the total complexity of our implementation is polylogarithmic in the dimension, which is comparable to the per-iteration complexity of the classical heuristic methods.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# ChatTracer:大規模言語モデルによるリアルタイムBluetoothデバイス追跡システム

ChatTracer: Large Language Model Powered Real-time Bluetooth Device Tracking System ( http://arxiv.org/abs/2403.19833v1 )

ライセンス: Link先を確認
Qijun Wang, Shichen Zhang, Kunzhe Song, Huacheng Zeng, (参考訳) OpenAI ChatGPTとGoogle Bardによって実証された大規模言語モデル(LLM)は、私たちがサイバー技術と対話する方法を変えました。 本稿では,LLMを無線センサネットワーク(WSN)に接続する可能性について検討する。 成功した設計は、LLMの知識の景観を物理世界へと拡張するだけでなく、WSNとの人間のインタラクションにも革命をもたらすだろう。 最後に,LLMを利用したリアルタイムBluetoothデバイストラッキングシステムChatTracerを紹介する。 ChatTracerは、Bluetoothスニッフィングノードの配列、データベース、微調整LDMの3つのキーコンポーネントから構成される。 ChatTracerは、Apple/Androidの商用デバイスがアイドル状態でも毎分数百のBLEパケットをブロードキャストする、という実験結果に基づいて設計されました。 その斬新さは2つの側面がある。 一 信頼性及び効率のよいBLEパケットグループ化アルゴリズム 二 教師付き微調整(SFT)と強化学習と人間のフィードバック(RLHF)を併用したLLM微調整戦略。 4つのスニッフィングノードを持つChatTracerのプロトタイプを開発しました。 実験の結果,ChatTracerは既存のローカライゼーションアプローチを上回るだけでなく,ユーザインタラクションのためのインテリジェントインターフェースも提供することがわかった。

Large language models (LLMs), exemplified by OpenAI ChatGPT and Google Bard, have transformed the way we interact with cyber technologies. In this paper, we study the possibility of connecting LLM with wireless sensor networks (WSN). A successful design will not only extend LLM's knowledge landscape to the physical world but also revolutionize human interaction with WSN. To the end, we present ChatTracer, an LLM-powered real-time Bluetooth device tracking system. ChatTracer comprises three key components: an array of Bluetooth sniffing nodes, a database, and a fine-tuned LLM. ChatTracer was designed based on our experimental observation that commercial Apple/Android devices always broadcast hundreds of BLE packets per minute even in their idle status. Its novelties lie in two aspects: i) a reliable and efficient BLE packet grouping algorithm; and ii) an LLM fine-tuning strategy that combines both supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF). We have built a prototype of ChatTracer with four sniffing nodes. Experimental results show that ChatTracer not only outperforms existing localization approaches, but also provides an intelligent interface for user interaction.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# 有害な有害コンテンツに対するターゲットスパン検出

Target Span Detection for Implicit Harmful Content ( http://arxiv.org/abs/2403.19836v1 )

ライセンス: Link先を確認
Nazanin Jafari, James Allan, (参考訳) ヘイトスピーチのターゲットを特定することは、そのようなスピーチの性質を把握し、究極的には、オンラインフォーラムにおける攻撃的投稿の検出を改善するための重要なステップである。 オンラインプラットフォーム上で有害なコンテンツは、特に、明示的なターゲット名ではなく、ステレオタイプの特徴を使用するような、脆弱で保護されたグループをターゲットにする場合には、暗黙の言語を使用する。 本研究では,より微妙なヘイトスピーチの認識と,デジタルプラットフォーム上での有害コンテンツの検出の促進に不可欠な,ヘイトスピーチの暗黙のターゲットを特定することに焦点を当てた。 明示的に述べられていなくても、ターゲットを特定することを目的とした新しいタスクを定義します。 この課題に対処するために、ターゲットをSBIC、DynaHate、IHCの3つの顕著な暗黙のヘイトスピーチデータセットで収集し、アノテートする。 統合したコレクションを Implicit-Target-Span と呼びます。 このコレクションは、人間のアノテーションとLLM(Large Language Models)に基づくスコアの一致による革新的なプーリング手法を用いて実現されている。 実験の結果,Implicit-Target-Spanはターゲットスパン検出法に挑戦的なテストベッドを提供することがわかった。

Identifying the targets of hate speech is a crucial step in grasping the nature of such speech and, ultimately, in improving the detection of offensive posts on online forums. Much harmful content on online platforms uses implicit language especially when targeting vulnerable and protected groups such as using stereotypical characteristics instead of explicit target names, making it harder to detect and mitigate the language. In this study, we focus on identifying implied targets of hate speech, essential for recognizing subtler hate speech and enhancing the detection of harmful content on digital platforms. We define a new task aimed at identifying the targets even when they are not explicitly stated. To address that task, we collect and annotate target spans in three prominent implicit hate speech datasets: SBIC, DynaHate, and IHC. We call the resulting merged collection Implicit-Target-Span. The collection is achieved using an innovative pooling method with matching scores based on human annotations and Large Language Models (LLMs). Our experiments indicate that Implicit-Target-Span provides a challenging test bed for target span detection methods.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# ビジョンランゲージモデルによるニューラルネットワークの概念に基づく解析

Concept-based Analysis of Neural Networks via Vision-Language Models ( http://arxiv.org/abs/2403.19837v1 )

ライセンス: Link先を確認
Ravi Mangal, Nina Narodytska, Divya Gopinath, Boyue Caroline Hu, Anirban Roy, Susmit Jha, Corina Pasareanu, (参考訳) 視覚に基づくディープニューラルネットワーク(DNN)の形式解析は非常に望ましいが、視覚タスクの形式仕様の表現が困難であり、効率的な検証手順が欠如しているため、非常に難しい。 本稿では,新たなマルチモーダル,視覚言語,基礎モデル(VLM)をレンズとして活用することを提案する。 VLMは、テキストによる記述を伴う大量の画像に基づいて訓練されており、画像を記述する高レベルで人間に理解可能な概念を暗黙的に認識している。 これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $\textt{Con}_{\textt{spec}}$ を記述します。 仕様を定義し、正式にチェックするために、VLMを活用し、視覚モデルの自然言語特性をエンコードし、効率的にチェックする手段を提供する。 マルチモーダルモデルとしてCLIPを利用するRIVAL-10データセットに基づいてトレーニングされたResNetベースの分類器について,本手法を実証する。

Formal analysis of vision-based deep neural networks (DNNs) is highly desirable but it is very challenging due to the difficulty of expressing formal specifications for vision tasks and the lack of efficient verification procedures. In this paper, we propose to leverage emerging multimodal, vision-language, foundation models (VLMs) as a lens through which we can reason about vision models. VLMs have been trained on a large body of images accompanied by their textual description, and are thus implicitly aware of high-level, human-understandable concepts describing the images. We describe a logical specification language $\texttt{Con}_{\texttt{spec}}$ designed to facilitate writing specifications in terms of these concepts. To define and formally check $\texttt{Con}_{\texttt{spec}}$ specifications, we leverage a VLM, which provides a means to encode and efficiently check natural-language properties of vision models. We demonstrate our techniques on a ResNet-based classifier trained on the RIVAL-10 dataset leveraging CLIP as the multimodal model.
翻訳日:2024-04-01 17:13:56 公開日:2024-03-28
# 自律運転における質問応答のための多フレーム・軽量・高能率ビジョンランゲージモデル

Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving ( http://arxiv.org/abs/2403.19838v1 )

ライセンス: Link先を確認
Akshay Gopalkrishnan, Ross Greer, Mohan Trivedi, (参考訳) 視覚言語モデル(VLM)とマルチモーダル言語モデル(MMLM)は、交通シーン画像やその他のデータモダリティを用いて、エンドツーエンドの自動運転安全タスクに対して、解釈可能なテキスト推論と応答を提供することができるため、自律運転研究において注目されている。 しかしながら、これらのシステムに対する現在のアプローチでは、高価な大規模言語モデル(LLM)のバックボーンとイメージエンコーダを使用しており、厳しいメモリ制約が存在し、高速な推論時間が必要なリアルタイム自律運転システムには適さない。 これらの課題に対処するため,自動走行のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルEM-VLM4ADを開発した。 従来のアプローチと比較して、EM-VLM4ADはメモリと浮動小数点演算の少なくとも10倍の削減と、既存のDriveLMデータセットのベースラインよりも高いBLEU-4、METEOR、CIDEr、ROGUEスコアを達成する必要がある。 EM-VLM4ADはまた、プロンプトに関連する交通ビューから関連する情報を抽出し、様々な自律運転サブタスクに対する質問に答える能力も示している。 トレーニング用のコードをhttps://github.com/akshaygopalkr/EM-VLM4ADで公開しています。

Vision-Language Models (VLMs) and Multi-Modal Language models (MMLMs) have become prominent in autonomous driving research, as these models can provide interpretable textual reasoning and responses for end-to-end autonomous driving safety tasks using traffic scene images and other data modalities. However, current approaches to these systems use expensive large language model (LLM) backbones and image encoders, making such systems unsuitable for real-time autonomous driving systems where tight memory constraints exist and fast inference time is necessary. To address these previous issues, we develop EM-VLM4AD, an efficient, lightweight, multi-frame vision language model which performs Visual Question Answering for autonomous driving. In comparison to previous approaches, EM-VLM4AD requires at least 10 times less memory and floating point operations, while also achieving higher BLEU-4, METEOR, CIDEr, and ROGUE scores than the existing baseline on the DriveLM dataset. EM-VLM4AD also exhibits the ability to extract relevant information from traffic views related to prompts and can answer questions for various autonomous driving subtasks. We release our code to train and evaluate our model at https://github.com/akshaygopalkr/EM-VLM4AD.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 新しいアグロノミスト:言語モデルは作物管理の専門家である

The New Agronomists: Language Models are Experts in Crop Management ( http://arxiv.org/abs/2403.19839v1 )

ライセンス: Link先を確認
Jing Wu, Zhixin Lai, Suiyao Chen, Ran Tao, Pan Zhao, Naira Hovakimyan, (参考訳) 作物管理は、収穫量、経済的な利益性、環境の持続可能性を決定する上で重要な役割を担っている。 管理ガイドラインが利用可能であるにも関わらず、これらのプラクティスを最適化することは、複雑で多面的な課題である。 これに対し、従来の研究では、ニューラルネットワークに基づく強化学習(RL)エージェントを用いた作物シミュレータを用いた強化学習が研究されている。 本稿では,この基盤を基盤として,より先進的な知的な作物管理システムを導入する。 このシステムは、言語モデル(LM)であるRLと、農業技術移転決定支援システム(DSSAT)によって促進される作物シミュレーションを一意に組み合わせている。 我々は、特に深層Qネットワークである深部RLを用いて、シミュレータから多数の状態変数を観測として処理する管理ポリシーを訓練する。 我々のアプローチの新たな側面は、これらの状態変数をより情報的な言語に変換し、言語モデルが状態を理解し、最適な管理方法を探求する能力を促進することである。 実験結果から,LMは優れた学習能力を示すことが明らかとなった。 フロリダ (US) とサラゴサ (Spain) のトウモロコシ作物を用いたシミュレーション実験を通じて, LM は様々な評価基準の下で最先端のパフォーマンスを達成するだけでなく, 経済利益の49%以上を顕著に改善し, ベースライン法と比較して環境影響の低減を図っている。 私たちのコードは \url{https://github.com/jingwu6/LM_AG} で利用可能です。

Crop management plays a crucial role in determining crop yield, economic profitability, and environmental sustainability. Despite the availability of management guidelines, optimizing these practices remains a complex and multifaceted challenge. In response, previous studies have explored using reinforcement learning with crop simulators, typically employing simple neural-network-based reinforcement learning (RL) agents. Building on this foundation, this paper introduces a more advanced intelligent crop management system. This system uniquely combines RL, a language model (LM), and crop simulations facilitated by the Decision Support System for Agrotechnology Transfer (DSSAT). We utilize deep RL, specifically a deep Q-network, to train management policies that process numerous state variables from the simulator as observations. A novel aspect of our approach is the conversion of these state variables into more informative language, facilitating the language model's capacity to understand states and explore optimal management practices. The empirical results reveal that the LM exhibits superior learning capabilities. Through simulation experiments with maize crops in Florida (US) and Zaragoza (Spain), the LM not only achieves state-of-the-art performance under various evaluation metrics but also demonstrates a remarkable improvement of over 49\% in economic profit, coupled with reduced environmental impact when compared to baseline methods. Our code is available at \url{https://github.com/jingwu6/LM_AG}.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 分子フィンガープリントのためのk-merとフラグメントベースフィンガープリントによる化学表現の拡張

Expanding Chemical Representation with k-mers and Fragment-based Fingerprints for Molecular Fingerprinting ( http://arxiv.org/abs/2403.19844v1 )

ライセンス: Link先を確認
Sarwan Ali, Prakash Chourasia, Murray Patterson, (参考訳) 本研究では,サブストラクチャカウント,$k$-mers,Daylightのような指紋を組み合わせることで,SMILES文字列の化学構造の表現を拡大する手法を提案する。 本発明の統合方法は、識別力及び情報内容を高める包括的分子埋め込みを生成する。 実験による評価は、従来のモーガン指紋、MACCS、デイライト指紋のみよりも優れており、薬物分類のような化学情報学のタスクを改善している。 提案手法は, 化学構造をより情報的に表現し, 分子類似性解析を推し進め, 分子設計や創薬への応用を促進する。 分子構造解析と設計のための有望な道を示し、実用的な実装に有意義な可能性を秘めている。

This study introduces a novel approach, combining substruct counting, $k$-mers, and Daylight-like fingerprints, to expand the representation of chemical structures in SMILES strings. The integrated method generates comprehensive molecular embeddings that enhance discriminative power and information content. Experimental evaluations demonstrate its superiority over traditional Morgan fingerprinting, MACCS, and Daylight fingerprint alone, improving chemoinformatics tasks such as drug classification. The proposed method offers a more informative representation of chemical structures, advancing molecular similarity analysis and facilitating applications in molecular design and drug discovery. It presents a promising avenue for molecular structure analysis and design, with significant potential for practical implementation.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 一般化グラディエントDescentはハイパーグラフファクターである

Generalized Gradient Descent is a Hypergraph Functor ( http://arxiv.org/abs/2403.19845v1 )

ライセンス: Link先を確認
Tyler Hanks, Matthew Klawonn, James Fairbanks, (参考訳) 直交逆微分圏 (CRDC) は、逆微分の公理的一般化を提供し、勾配降下のような古典最適化アルゴリズムの一般化された類似を幅広い問題に応用することができる。 本稿では、与えられたCRDCに対する一般化勾配勾配勾配は、最適化問題のハイパーグラフ圏から力学系のハイパーグラフ圏へハイパーグラフ関手を誘導することを示す。 この関手の領域は、対象函数からなる。 1)任意のCRDCに関して定義されているという意味での一般 2) 変数共有を通じて他の目的関数で構成できるスパンを装飾すること。 コドメインは、基礎となるCRDCの一般およびオープンな力学系のカテゴリとして類似して定義される。 本稿では、ハイパーグラフ関手が、ドメイン内で指定された任意の合成問題に対して分散最適化アルゴリズムをいかに誘導するかを説明する。 機械学習のパラダイムであるマルチタスク学習におけるパラメータ共有モデルが,CRDCの任意の選択に対して複合最適化問題をもたらすことを示す。 次に、この合成問題に勾配降下関手を適用し、パラメータ共有モデルの学習のための分散勾配降下アルゴリズムについて述べる。

Cartesian reverse derivative categories (CRDCs) provide an axiomatic generalization of the reverse derivative, which allows generalized analogues of classic optimization algorithms such as gradient descent to be applied to a broad class of problems. In this paper, we show that generalized gradient descent with respect to a given CRDC induces a hypergraph functor from a hypergraph category of optimization problems to a hypergraph category of dynamical systems. The domain of this functor consists of objective functions that are 1) general in the sense that they are defined with respect to an arbitrary CRDC, and 2) open in that they are decorated spans that can be composed with other such objective functions via variable sharing. The codomain is specified analogously as a category of general and open dynamical systems for the underlying CRDC. We describe how the hypergraph functor induces a distributed optimization algorithm for arbitrary composite problems specified in the domain. To illustrate the kinds of problems our framework can model, we show that parameter sharing models in multitask learning, a prevalent machine learning paradigm, yield a composite optimization problem for a given choice of CRDC. We then apply the gradient descent functor to this composite problem and describe the resulting distributed gradient descent algorithm for training parameter sharing models.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 無線不均質環境下でのバイアスドオーバーエアフェデレーション学習

Biased Over-the-Air Federated Learning under Wireless Heterogeneity ( http://arxiv.org/abs/2403.19849v1 )

ライセンス: Link先を確認
Muhammad Faraz Ul Abrar, Nicolò Michelusi, (参考訳) 近年,OTA(Over-the-Air)計算は,無線チャネルの波形重畳特性を利用して高速なモデル更新を実現する,有望なフェデレーション学習(FL)パラダイムとして出現している。 以前の作業では、emph{homogeneous} 無線条件下での OTA デバイス ``pre-scaler' 設計に重点を置いていた。 しかし、ゼロバイアス設計は、平均的なパス損失が最も低いデバイスによって制限され、したがって、emph{heterogeneous} 無線設定では性能が悪くなる可能性がある。 このシナリオでは、モデル更新の低分散と引き換えに、 \emph{biased} ソリューションを設計する利点があるかもしれない。 このトレードオフを最適化するために、OTA-FL収束に着目して、OTAデバイスプリスケーラの設計について検討する。 プレスケーラの選択の観点からバイアスと分散の影響を明示的に捉えるモデル「最適誤差」の上限を導出する。 この境界に基づいて、最小ノイズ分散と最小ノイズ分散ゼロバイアス解の2つの解を同定する。 数値評価により,FL更新のばらつきを最小限に抑えたOTAデバイスプリスケーラを用いることで,既存のスキームよりも高い利得が得られることが示された。

Recently, Over-the-Air (OTA) computation has emerged as a promising federated learning (FL) paradigm that leverages the waveform superposition properties of the wireless channel to realize fast model updates. Prior work focused on the OTA device ``pre-scaler" design under \emph{homogeneous} wireless conditions, in which devices experience the same average path loss, resulting in zero-bias solutions. Yet, zero-bias designs are limited by the device with the worst average path loss and hence may perform poorly in \emph{heterogeneous} wireless settings. In this scenario, there may be a benefit in designing \emph{biased} solutions, in exchange for a lower variance in the model updates. To optimize this trade-off, we study the design of OTA device pre-scalers by focusing on the OTA-FL convergence. We derive an upper bound on the model ``optimality error", which explicitly captures the effect of bias and variance in terms of the choice of the pre-scalers. Based on this bound, we identify two solutions of interest: minimum noise variance, and minimum noise variance zero-bias solutions. Numerical evaluations show that using OTA device pre-scalers that minimize the variance of FL updates, while allowing a small bias, can provide high gains over existing schemes.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 言語モデルにおけるパラグラフ記憶の局所化

Localizing Paragraph Memorization in Language Models ( http://arxiv.org/abs/2403.19851v1 )

ライセンス: Link先を確認
Niklas Stoehr, Mitchell Gordon, Chiyuan Zhang, Owen Lewis, (参考訳) 学習データの全段落を記憶・引用するために言語モデルが用いる重みとメカニズムをローカライズできるだろうか? 本稿では,複数層にまたがって記憶化が展開されているが,記憶化段落の勾配は,非記憶化段落の勾配よりも低いモデル層において,識別可能な空間パターンを有することを示す。 さらに、記憶された例は、高次重みのみを微調整することによって解き放つことができる。 我々は,段落記憶に特に関与していると思われる低層アテンションヘッドをローカライズする。 このヘッドは、コーパスレベルのユニグラム分布において最も頻度の低い特異で希少なトークンに主に注意を向けている。 次に,トークンの摂動と復号化の原因となる変化の測定により,前置詞のトークン間の局所記憶がいかに重要であるかを検討する。 接頭辞の早い段階ではいくつかの特異なトークンが連続体全体を損なうことがある。 全体として、記憶された継続は、学習が困難であるだけでなく、記憶されていないものよりも腐敗しがちである。

Can we localize the weights and mechanisms used by a language model to memorize and recite entire paragraphs of its training data? In this paper, we show that while memorization is spread across multiple layers and model components, gradients of memorized paragraphs have a distinguishable spatial pattern, being larger in lower model layers than gradients of non-memorized examples. Moreover, the memorized examples can be unlearned by fine-tuning only the high-gradient weights. We localize a low-layer attention head that appears to be especially involved in paragraph memorization. This head is predominantly focusing its attention on distinctive, rare tokens that are least frequent in a corpus-level unigram distribution. Next, we study how localized memorization is across the tokens in the prefix by perturbing tokens and measuring the caused change in the decoding. A few distinctive tokens early in a prefix can often corrupt the entire continuation. Overall, memorized continuations are not only harder to unlearn, but also to corrupt than non-memorized ones.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# エピデミックモデリングにおけるグラフニューラルネットワークの展望

A Review of Graph Neural Networks in Epidemic Modeling ( http://arxiv.org/abs/2403.19852v1 )

ライセンス: Link先を確認
Zewen Liu, Guancheng Wan, B. Aditya Prakash, Max S. Y. Lau, Wei Jin, (参考訳) 新型コロナウイルスのパンデミックが始まって以来、疫学モデルの研究への関心が高まっている。 伝統的な力学モデルは、伝染病の伝染機構を数学的に記述する。 しかし、今日の増大する課題に直面すると、しばしば不足する。 結果として、グラフニューラルネットワーク(GNN)は、疫病研究において徐々に人気のあるツールとなっている。 本稿では,感染症対策におけるGNNの総合的な見直しと今後の方向性を明らかにすることを目的とする。 この目的を達成するために,疫学の課題と方法論の両方に階層的な分類を導入し,その領域内での展開の軌跡を提供する。 疫病対策においては、通常、疫病領域で雇用されているものと類似した分類を確立させる。 方法論として、既存の作業は \textit{Neural Models} と \textit{Hybrid Models} に分類する。 次に,本手法の総合的,体系的な検討を行い,課題と技術的詳細の両方を包含する。 さらに,多様な視点から既存手法の限界について考察し,今後の研究方向性を体系的に提案する。 本調査は,文学のギャップを埋め,この将来性のある分野の進展を促進することを目的としている。 我々は,GNNと疫学のコミュニティ間の相乗効果を促進し,その総合的な進歩に寄与することを期待している。

Since the onset of the COVID-19 pandemic, there has been a growing interest in studying epidemiological models. Traditional mechanistic models mathematically describe the transmission mechanisms of infectious diseases. However, they often fall short when confronted with the growing challenges of today. Consequently, Graph Neural Networks (GNNs) have emerged as a progressively popular tool in epidemic research. In this paper, we endeavor to furnish a comprehensive review of GNNs in epidemic tasks and highlight potential future directions. To accomplish this objective, we introduce hierarchical taxonomies for both epidemic tasks and methodologies, offering a trajectory of development within this domain. For epidemic tasks, we establish a taxonomy akin to those typically employed within the epidemic domain. For methodology, we categorize existing work into \textit{Neural Models} and \textit{Hybrid Models}. Following this, we perform an exhaustive and systematic examination of the methodologies, encompassing both the tasks and their technical details. Furthermore, we discuss the limitations of existing methods from diverse perspectives and systematically propose future research directions. This survey aims to bridge literature gaps and promote the progression of this promising field. We hope that it will facilitate synergies between the communities of GNNs and epidemiology, and contribute to their collective progress.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# ブラジルの歴史知識グラフを目指して

Towards a Brazilian History Knowledge Graph ( http://arxiv.org/abs/2403.19856v1 )

ライセンス: Link先を確認
Valeria de Paiva, Alexandre Rademaker, (参考訳) 本稿では,ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づいて,ブラジルの歴史に関する知識グラフを構築するプロジェクトの最初のステップについて述べる。 ブラジルの企業(人、場所、組織、政治イベント、運動)の大規模なリポジトリは、ポルトガルのテキストから情報を取り出すのに役立つと我々は主張する。 DHBBで記述されている用語やエンティティの多くは、ウィキデータにおいて対応する概念(またはQ項目)を持っていない。 本稿では,DHBBから情報を抽出する作業について述べるとともに,ウィキデータに基づく歴史知識グラフの構築手順について概説する。

This short paper describes the first steps in a project to construct a knowledge graph for Brazilian history based on the Brazilian Dictionary of Historical Biographies (DHBB) and Wikipedia/Wikidata. We contend that large repositories of Brazilian-named entities (people, places, organizations, and political events and movements) would be beneficial for extracting information from Portuguese texts. We show that many of the terms/entities described in the DHBB do not have corresponding concepts (or Q items) in Wikidata, the largest structured database of entities associated with Wikipedia. We describe previous work on extracting information from the DHBB and outline the steps to construct a Wikidata-based historical knowledge graph.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# LLMSense:時空間センサトレースに対する高レベル推論のためのハーネスリングLDM

LLMSense: Harnessing LLMs for High-level Reasoning Over Spatiotemporal Sensor Traces ( http://arxiv.org/abs/2403.19857v1 )

ライセンス: Link先を確認
Xiaomin Ouyang, Mani Srivastava, (参考訳) センシングシステムにおける機械学習に関する研究の多くは、短時間で生の知覚データを処理する低レベルの知覚タスクに焦点を当てている。 しかしながら、人間のルーチンモデリングや占有追跡といった多くの実践的応用は、概念を理解し、長期的なセンサトレースに基づいて推論を行うために高いレベルの推論能力を必要とする。 このような複雑なタスクを扱う機械学習ベースのアプローチは、限られたトレーニングサンプルとセンサートレースの高次元性のために一般化が困難であり、第一原理モデルや論理推論を設計するための人間の知識の統合が必要である。 大きな言語モデル(LLM)の推論能力と世界知識を利用して、長期の時空間センサトレースから複雑な事象を認識できますか? そこで本研究では,LLMの高次推論タスクに対する効果的なプロンプトフレームワークを設計し,センサデータのトレースや低次認識結果の処理を行う。 また,長いセンサトレースによる性能向上のための2つの戦略を設計する。 当社のフレームワークはエッジクラウドで実装可能で,データ要約やプライバシ保護のためにクラウド上での高レベルの推論を行うために,エッジ上で小さなLLMを実行することができる。 その結果,LLMSenseは認知症診断や環境センサの追跡など,2つのハイレベル推論タスクにおいて80%以上の精度を達成できることが示唆された。 本稿では,LLMをセンサトレースの高レベル推論に活用するための洞察とガイドラインを提供し,今後の研究の方向性を強調した。

Most studies on machine learning in sensing systems focus on low-level perception tasks that process raw sensory data within a short time window. However, many practical applications, such as human routine modeling and occupancy tracking, require high-level reasoning abilities to comprehend concepts and make inferences based on long-term sensor traces. Existing machine learning-based approaches for handling such complex tasks struggle to generalize due to the limited training samples and the high dimensionality of sensor traces, necessitating the integration of human knowledge for designing first-principle models or logic reasoning methods. We pose a fundamental question: Can we harness the reasoning capabilities and world knowledge of Large Language Models (LLMs) to recognize complex events from long-term spatiotemporal sensor traces? To answer this question, we design an effective prompting framework for LLMs on high-level reasoning tasks, which can handle traces from the raw sensor data as well as the low-level perception results. We also design two strategies to enhance performance with long sensor traces, including summarization before reasoning and selective inclusion of historical traces. Our framework can be implemented in an edge-cloud setup, running small LLMs on the edge for data summarization and performing high-level reasoning on the cloud for privacy preservation. The results show that LLMSense can achieve over 80\% accuracy on two high-level reasoning tasks such as dementia diagnosis with behavior traces and occupancy tracking with environmental sensor traces. This paper provides a few insights and guidelines for leveraging LLM for high-level reasoning on sensor traces and highlights several directions for future work.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# モバイルアドホックネットワークのためのセキュアリンク状態ルーティング

Secure Link State Routing for Mobile Ad Hoc Networks ( http://arxiv.org/abs/2403.19859v1 )

ライセンス: Link先を確認
Panagiotis Papadimitratos, Zygmunt J. Haas, (参考訳) ルーティングプロトコルのセキュアな操作は、モバイルアドホックネットワーク(MANET)パラダイムの普及に直面する大きな課題の1つである。 それでも、セキュリティの強化は、主にリアクティブMANETプロトコルのために提案されている。 提案するSecure Link State Routing Protocol (SLSP) は,ネットワーク操作に有効であるセキュアなプロアクティブトポロジ探索を提供する。 SLSPはスタンドアロンプロトコルとして、あるいはリアクティブプロトコルと組み合わせることで、ハイブリッドルーティングフレームワークに自然に適合する。 SLSPは個々の攻撃者に対して堅牢であり、局所的なトポロジ発見とネットワーク全体のトポロジ発見の範囲を調整でき、頻繁に変化するトポロジとメンバシップのネットワークで操作できる。

The secure operation of the routing protocol is one of the major challenges to be met for the proliferation of the Mobile Ad hoc Networking (MANET) paradigm. Nevertheless, security enhancements have been proposed mostly for reactive MANET protocols. The proposed here Secure Link State Routing Protocol (SLSP) provides secure proactive topology discovery, which can be multiply beneficial to the network operation. SLSP can be employed as a stand-alone protocol, or fit naturally into a hybrid routing framework, when combined with a reactive protocol. SLSP is robust against individual attackers, it is capable of adjusting its scope between local and network-wide topology discovery, and it is capable of operating in networks of frequently changing topology and membership.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# DeNetDM: ネットワーク深さ変調によるデバイアス

DeNetDM: Debiasing by Network Depth Modulation ( http://arxiv.org/abs/2403.19863v1 )

ライセンス: Link先を確認
Silpa Vadakkeeveetil Sreelatha, Adarsh Kappiyath, Anjan Dutta, (参考訳) ニューラルネットワークがバイアス付きデータセットに基づいてトレーニングされる場合、彼らは必然的に急激な相関を学習する傾向にあり、強力な一般化と堅牢性を達成する上での課題に繋がる。 このようなバイアスに対処する現在のアプローチは、一般的にバイアスアノテーションの利用、疑似バイアスラベルに基づくリウェイト、または増補手法によるバイアス強調データポイント内の多様性の向上を含む。 DeNetDMは、浅層ニューラルネットワークが学習コア属性を優先するのに対して、より深いものは、異なる情報を取得することを課題とする際のバイアスを強調するという観察に基づく、新しいデバイアス手法である。 エキスパートのプロダクトから派生したトレーニングパラダイムを使用して、深いアーキテクチャと浅いアーキテクチャを持つ偏見のあるブランチと偏見のあるブランチの両方を作成し、知識を蒸留して、ターゲットの偏見のあるモデルを生成する。 大規模な実験と分析により、我々のアプローチは現在のデバイアス技術より優れており、3つのデータセットで約5%の顕著な改善を実現し、合成データと実世界のデータの両方を包含していることが示された。 注目すべきは、DeNetDMはバイアスラベルやバイアスタイプに関連するアノテーションを必要とせずにこれを達成すると同時に、監視対象と同等のパフォーマンスを提供することだ。 さらに,本手法は,データ内のバイアス強調点の多様性を効果的に活用し,従来の手法を超越し,バイアス強調点の多様性を高めるための明示的な拡張法の必要性を回避している。 ソースコードは受理時に利用可能になる。

When neural networks are trained on biased datasets, they tend to inadvertently learn spurious correlations, leading to challenges in achieving strong generalization and robustness. Current approaches to address such biases typically involve utilizing bias annotations, reweighting based on pseudo-bias labels, or enhancing diversity within bias-conflicting data points through augmentation techniques. We introduce DeNetDM, a novel debiasing method based on the observation that shallow neural networks prioritize learning core attributes, while deeper ones emphasize biases when tasked with acquiring distinct information. Using a training paradigm derived from Product of Experts, we create both biased and debiased branches with deep and shallow architectures and then distill knowledge to produce the target debiased model. Extensive experiments and analyses demonstrate that our approach outperforms current debiasing techniques, achieving a notable improvement of around 5% in three datasets, encompassing both synthetic and real-world data. Remarkably, DeNetDM accomplishes this without requiring annotations pertaining to bias labels or bias types, while still delivering performance on par with supervised counterparts. Furthermore, our approach effectively harnesses the diversity of bias-conflicting points within the data, surpassing previous methods and obviating the need for explicit augmentation-based methods to enhance the diversity of such bias-conflicting points. The source code will be available upon acceptance.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# シュレーディンガー・ファインマン法による大規模多体量子系の力学シミュレーション

Simulating the dynamics of large many-body quantum systems with Schrödinger-Feynman techniques ( http://arxiv.org/abs/2403.19864v1 )

ライセンス: Link先を確認
Jonas Richter, (参考訳) 強力な数値技術の発達により、量子物質の平衡性に対する理解が大幅に向上した。 ノイズの多い中規模量子デバイスの領域の最近の進歩に触発されて、古典的コンピュータにおける多体量子力学の特定の側面を効率的にシミュレートする革新的なアプローチとして、ハイブリッド型Schr\"odinger-Feynman技術が注目されている。 この目的のために、時間内に散発的に相互作用するが、それ以外は互いに独立して進化する2つの大きなサブシステムの非平衡ダイナミクスを探索する。 本研究は,多体局所化の文脈において,調整可能な障害強度を持つサブシステムについて考察する。 そこで,本研究では,2つの独立したサブシステムを持つ場合と比較して,熱伝達のシグネチャが向上することが確認された。 特に、ここで提案されたSchr\"odinger-Feynman法により、標準的なスパース・マトリクス法よりはるかに大きい系の純粋状態生存確率をシミュレートすることができる。

The development of powerful numerical techniques has drastically improved our understanding of quantum matter out of equilibrium. Inspired by recent progress in the area of noisy intermediate-scale quantum devices, this paper highlights hybrid Schr\"odinger-Feynman techniques as an innovative approach to efficiently simulate certain aspects of many-body quantum dynamics on classical computers. To this end, we explore the nonequilibrium dynamics of two large subsystems, which interact sporadically in time, but otherwise evolve independently from each other. We consider subsystems with tunable disorder strength, relevant in the context of many-body localization, where one subsystem can act as a bath for the other. Importantly, studying the full interacting system, we observe that signatures of thermalization are enhanced compared to the reference case of having two independent subsystems. Notably, with the here proposed Schr\"odinger-Feynman method, we are able to simulate the pure-state survival probability in systems significantly larger than accessible by standard sparse-matrix techniques.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 合成画像は伝達学習に有用か? : データ生成・ボリューム・利用に関する研究

Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization ( http://arxiv.org/abs/2403.19866v1 )

ライセンス: Link先を確認
Yuhang Li, Xin Dong, Chen Chen, Jingtao Li, Yuxin Wen, Michael Spranger, Lingjuan Lyu, (参考訳) 合成画像データ生成は、特に転送学習の領域において、ディープラーニングモデルをトレーニングするための有望な方法であり、プライバシーや知的財産権の考慮により、特定の領域内で実際の画像を取得することは、違法にコストがかかる可能性がある。 本研究は, テキストから画像への生成モデルから得られた合成画像の生成と利用を, 伝達学習パラダイムの促進に役立てるものである。 生成した画像の視覚的忠実度が高いにもかかわらず、合成画像と実画像の間に固有の分布ギャップがあるため、既存の実画像データセットへのナイーブな取り込みがモデル性能を継続的に向上させるわけではないことが観察された。 この問題を解決するために、ブリッジドトランスファーと呼ばれる新しい2段階のフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を改善し、その後、実データを用いて高速適応する。 また,合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。 提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示され、最大30%の精度が向上した。 興味深いことに、この拡張がまだ飽和していないことに留意し、合成データの容量を拡大することで、さらなるメリットがもたらされることを示唆している。

Synthetic image data generation represents a promising avenue for training deep learning models, particularly in the realm of transfer learning, where obtaining real images within a specific domain can be prohibitively expensive due to privacy and intellectual property considerations. This work delves into the generation and utilization of synthetic images derived from text-to-image generative models in facilitating transfer learning paradigms. Despite the high visual fidelity of the generated images, we observe that their naive incorporation into existing real-image datasets does not consistently enhance model performance due to the inherent distribution gap between synthetic and real images. To address this issue, we introduce a novel two-stage framework called bridged transfer, which initially employs synthetic images for fine-tuning a pre-trained model to improve its transferability and subsequently uses real data for rapid adaptation. Alongside, We propose dataset style inversion strategy to improve the stylistic alignment between synthetic and real images. Our proposed methods are evaluated across 10 different datasets and 5 distinct models, demonstrating consistent improvements, with up to 30% accuracy increase on classification tasks. Intriguingly, we note that the enhancements were not yet saturated, indicating that the benefits may further increase with an expanded volume of synthetic data.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# ストリームおよび大規模並列モデルにおける決定木分割の探索

Finding Decision Tree Splits in Streaming and Massively Parallel Models ( http://arxiv.org/abs/2403.19867v1 )

ライセンス: Link先を確認
Huy Pham, Hoang Ta, Hoa T. Vu, (参考訳) 本研究では,決定木学習における最適分割を計算するためのデータストリームアルゴリズムを提案する。 特に、観測用$x_i$とそのラベル$y_i$のデータストリームが与えられた場合、目標は、データを2つのセットに分割する最適な分割点$j$を見つけ、平均二乗誤差(回帰用)または誤分類率(分類用)を最小化することである。 これらの問題に対してサブ線形空間と少数のパスを使用する高速ストリーミングアルゴリズムを提供する。 これらのアルゴリズムは、超並列計算モデルにも拡張することができる。 我々の研究は直接的に比較するものではないが、ドミンゴスとハルテン(KDD 2000)の独創的な研究を補完する。

In this work, we provide data stream algorithms that compute optimal splits in decision tree learning. In particular, given a data stream of observations $x_i$ and their labels $y_i$, the goal is to find the optimal split point $j$ that divides the data into two sets such that the mean squared error (for regression) or misclassification rate (for classification) is minimized. We provide various fast streaming algorithms that use sublinear space and a small number of passes for these problems. These algorithms can also be extended to the massively parallel computation model. Our work, while not directly comparable, complements the seminal work of Domingos and Hulten (KDD 2000).
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# Slowly Varying Sequencesによる安定機械学習モデルの訓練に向けて

Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences ( http://arxiv.org/abs/2403.19871v1 )

ライセンス: Link先を確認
Vassilis Digalakis Jr, Yu Ma, Phevos Paschalidis, Dimitris Bertsimas, (参考訳) 機械学習モデルのリトレーニングは、現実の機械学習モデルのデプロイにおいて依然として重要なタスクである。 既存の手法は主に、訓練されたモデル構造の異なる再学習進化に対する安定性を考慮せずに、最高の性能のモデルを見つけるための欲求的なアプローチに焦点を当てている。 本研究では,異なるデータバッチ更新における機械学習モデルの再学習問題について,一意に考察した混合整数最適化アルゴリズムを提案する。 本手法は、最適化問題に直接組み込むことができるカスタム定義距離メトリクスを使用することにより、一貫した分析的洞察(解釈可能性のモデル化、実装の容易さ、ユーザとの信頼の促進)を維持することに焦点を当てる。 重要なことは,本手法は実世界の生産事例研究において,小型で制御可能なモデル性能の犠牲を伴って,厳格に訓練されたモデルよりも強い安定性を示すことである。 最後に、SHAP機能の重要性を実証した重要な分析的洞察は、再学習イテレーション間で一貫性があることが示されている。

Retraining machine learning models remains an important task for real-world machine learning model deployment. Existing methods focus largely on greedy approaches to find the best-performing model without considering the stability of trained model structures across different retraining evolutions. In this study, we develop a mixed integer optimization algorithm that holistically considers the problem of retraining machine learning models across different data batch updates. Our method focuses on retaining consistent analytical insights - which is important to model interpretability, ease of implementation, and fostering trust with users - by using custom-defined distance metrics that can be directly incorporated into the optimization problem. Importantly, our method shows stronger stability than greedily trained models with a small, controllable sacrifice in model performance in a real-world production case study. Finally, important analytical insights, as demonstrated using SHAP feature importance, are shown to be consistent across retraining iterations.
翻訳日:2024-04-01 17:04:07 公開日:2024-03-28
# 心エコー図を用いた視覚言語合成データの構築

Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks ( http://arxiv.org/abs/2403.19880v1 )

ライセンス: Link先を確認
Pooria Ashrafian, Milad Yazdani, Moein Heidari, Dena Shahriari, Ilker Hacihaliloglu, (参考訳) 医療応用、特に超音波画像解析における堅牢なディープラーニングモデルには、高品質で大規模なデータが不可欠である。 拡散モデルは高忠実度医用画像生成を促進し、新しい画像の取得と注釈付けに伴うコストを低減させる。 本稿では,近年の視覚言語モデルを用いて,テキスト・セマンティック・ラベル・マップでガイドされた原画像のキーとなる特徴を保存し,多種多様かつリアルな合成心エコー画像データを生成する。 具体的には、非条件生成、テキストガイドによる生成、テキストと意味の両方を取り入れたハイブリッドアプローチの3つの道について検討する。 合成されたデータに含まれるリッチな文脈情報により、心エコー区分けや分類などの下流タスクの精度と解釈性が向上し、メトリクスが向上し、より高速な収束が期待できることを示す。 チェックポイント、プロンプト、生成した合成データセットによる実装は、 \href{https://github.com/Pooria90/DiffEcho}{GitHub}で公開されます。

High-quality, large-scale data is essential for robust deep learning models in medical applications, particularly ultrasound image analysis. Diffusion models facilitate high-fidelity medical image generation, reducing the costs associated with acquiring and annotating new images. This paper utilizes recent vision-language models to produce diverse and realistic synthetic echocardiography image data, preserving key features of the original images guided by textual and semantic label maps. Specifically, we investigate three potential avenues: unconditional generation, generation guided by text, and a hybrid approach incorporating both textual and semantic supervision. We show that the rich contextual information present in the synthesized data potentially enhances the accuracy and interpretability of downstream tasks, such as echocardiography segmentation and classification with improved metrics and faster convergence. Our implementation with checkpoints, prompts, and the created synthetic dataset will be publicly available at \href{https://github.com/Pooria90/DiffEcho}{GitHub}.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-28
# IME: 時間的知識グラフ補完のための多曲率共有と固有埋め込みの統合

IME: Integrating Multi-curvature Shared and Specific Embedding for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2403.19881v1 )

ライセンス: Link先を確認
Jiapu Wang, Zheng Cui, Boyue Wang, Shirui Pan, Junbin Gao, Baocai Yin, Wen Gao, (参考訳) 時間的知識グラフ(TKG)は、時間的次元を取り入れ、知識の進化を正確に捉え、現実世界の動的な性質を反映することができる。 典型的には、TKGは複雑な幾何学構造を持ち、様々な幾何学構造が織り込まれている。 しかし、既存の時間知識グラフ補完法(TKGC)は、単一の空間でTKGをモデル化するか、異なる曲率空間の不均一性を無視して、これらの複雑な幾何学構造を捉える能力を制限する。 本稿では,TKGCタスクのための多曲率共有および固有埋め込み(IME)モデルを提案する。 具体的には、IME は TKG を超球面、双曲、ユークリッド空間を含む多重曲率空間にモデル化する。 その後、IMEは空間共有性と空間固有性という2つの重要な性質を取り入れた。 空間共有性は、異なる曲率空間の共通性を学習し、多曲率空間の不均一性に起因する空間ギャップを軽減する。 一方、IMEは、重要な情報を効果的に保持するための調整可能な多曲率プーリング(AMP)アプローチを提案する。 さらに、IMEは、その目的を達成するために、類似性、差分、構造損失関数を革新的に設計する。 実験の結果,既存のTKGCモデルよりもIMEの方が優れた性能を示した。

Temporal Knowledge Graphs (TKGs) incorporate a temporal dimension, allowing for a precise capture of the evolution of knowledge and reflecting the dynamic nature of the real world. Typically, TKGs contain complex geometric structures, with various geometric structures interwoven. However, existing Temporal Knowledge Graph Completion (TKGC) methods either model TKGs in a single space or neglect the heterogeneity of different curvature spaces, thus constraining their capacity to capture these intricate geometric structures. In this paper, we propose a novel Integrating Multi-curvature shared and specific Embedding (IME) model for TKGC tasks. Concretely, IME models TKGs into multi-curvature spaces, including hyperspherical, hyperbolic, and Euclidean spaces. Subsequently, IME incorporates two key properties, namely space-shared property and space-specific property. The space-shared property facilitates the learning of commonalities across different curvature spaces and alleviates the spatial gap caused by the heterogeneous nature of multi-curvature spaces, while the space-specific property captures characteristic features. Meanwhile, IME proposes an Adjustable Multi-curvature Pooling (AMP) approach to effectively retain important information. Furthermore, IME innovatively designs similarity, difference, and structure loss functions to attain the stated objective. Experimental results clearly demonstrate the superior performance of IME over existing state-of-the-art TKGC models.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-28
# ビジョントランスネットワークにおける効率向上--設計技術とインサイト

Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights ( http://arxiv.org/abs/2403.19882v1 )

ライセンス: Link先を確認
Moein Heidari, Reza Azad, Sina Ghorbani Kolahi, René Arimond, Leon Niggemeier, Alaa Sulaiman, Afshin Bozorgpour, Ehsan Khodapanah Aghdam, Amirhossein Kazerouni, Ilker Hacihaliloglu, Dorit Merhof, (参考訳) 複雑なシーンにおける有能な領域を識別する人間の視覚システムの本質的な能力によって、注意機構は様々なコンピュータビジョン(CV)タスクにシームレスに統合されている。 このパラダイムに基づいて、ViT(Vision Transformer)ネットワークは、効率を改善するために注意機構を利用する。 このレビューは、ViT内の再設計されたアテンションメカニズムの展望をナビゲートし、パフォーマンスの向上を目的としている。 本稿では、CV分野における最近の文献を体系的にレビューし、注意機構を設計するための技術と洞察を包括的に探求する。 この調査は、注意機構の基礎となる理論的基礎と基本的な概念の紹介から始まる。 次に、再設計されたアプローチを用いて、ViT内の様々な注意機構の系統分類を示す。 適用対象, 対象, 適用対象のタイプに基づいて, マルチパースペクティブな分類を提案する。 この分析には、新規性、強み、弱み、そして提案された様々な戦略の詳細な評価が含まれる。 このことは、重要な特性と貢献を強調する分類学の発展に繋がる。 最後に、レビューされた研究と利用可能なオープンソース実装を、我々の \href{https://github.com/mindflow-institue/Awesome-Attention-Mechanism-in-Medical-Imaging}{GitHub}\footnote{\url{https://github.com/xmindflow/Awesome-Attention-Mechanism-in-Medical-Imaging}}にまとめます。 最新の関連論文で定期的に更新することを目指しています。

Intrigued by the inherent ability of the human visual system to identify salient regions in complex scenes, attention mechanisms have been seamlessly integrated into various Computer Vision (CV) tasks. Building upon this paradigm, Vision Transformer (ViT) networks exploit attention mechanisms for improved efficiency. This review navigates the landscape of redesigned attention mechanisms within ViTs, aiming to enhance their performance. This paper provides a comprehensive exploration of techniques and insights for designing attention mechanisms, systematically reviewing recent literature in the field of CV. This survey begins with an introduction to the theoretical foundations and fundamental concepts underlying attention mechanisms. We then present a systematic taxonomy of various attention mechanisms within ViTs, employing redesigned approaches. A multi-perspective categorization is proposed based on their application, objectives, and the type of attention applied. The analysis includes an exploration of the novelty, strengths, weaknesses, and an in-depth evaluation of the different proposed strategies. This culminates in the development of taxonomies that highlight key properties and contributions. Finally, we gather the reviewed studies along with their available open-source implementations at our \href{https://github.com/mindflow-institue/Awesome-Attention-Mechanism-in-Medical-Imaging}{GitHub}\footnote{\url{https://github.com/xmindflow/Awesome-Attention-Mechanism-in-Medical-Imaging}}. We aim to regularly update it with the most recent relevant papers.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-28
# Policy-Space Search: 等価性、改善、圧縮

Policy-Space Search: Equivalences, Improvements, and Compression ( http://arxiv.org/abs/2403.19883v1 )

ライセンス: Link先を確認
Frederico Messa, André Grahl Pereira, (参考訳) 完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。 非決定論的効果の作用を通じて不確実性をモデル化する。 A* with Non-Determinism (AND*) (Messa and Pereira, 2023) は、FOND計画のために A* (Hart et al , 1968) を一般化した FOND プランナーである。 FONDタスクのポリシー空間を明示的にヒューリスティック検索することで、ソリューションポリシーを検索する。 本稿では,AND*によるポリシー空間探索の性能について検討し,その改善について述べる。 写像すべき状態の集合のみを与えられた解ポリシーを構成する多項式時間プロシージャを提案する。 この手順は、FONDポリシーの構造をよりよく理解すると共に、ポリシー間の等価性の3つの概念を提示することができる。 政策の等価性を利用して政策探索空間の一部を創り出し、AND* を FOND タスクの解法において実質的に効果的にする。 また、同値ポリシーの検出を強化するために、構造的状態空間対称性を考慮した場合の影響と、満足度の高い手法による探索を行う場合の影響についても検討する。 グループ理論の文献から最近の手法を応用して、構造的状態空間対称性をよりよく計算する。 最後に, 完全状態上で定義されたポリシが与えられた場合, 部分状態の最小値を用いて, 曖昧に表現したポリシを求める解圧縮器を提案する。 導入したテクニックによって、平均してFONDタスクを解決するための2桁のポリシーが生成される。 これらの技術により、明示的なポリシー空間探索は、他の最先端のFONDプランナーとカバレッジとソリューションのコンパクト性の両方の観点から競合することができる。

Fully-observable non-deterministic (FOND) planning is at the core of artificial intelligence planning with uncertainty. It models uncertainty through actions with non-deterministic effects. A* with Non-Determinism (AND*) (Messa and Pereira, 2023) is a FOND planner that generalizes A* (Hart et al., 1968) for FOND planning. It searches for a solution policy by performing an explicit heuristic search on the policy space of the FOND task. In this paper, we study and improve the performance of the policy-space search performed by AND*. We present a polynomial-time procedure that constructs a solution policy given just the set of states that should be mapped. This procedure, together with a better understanding of the structure of FOND policies, allows us to present three concepts of equivalences between policies. We use policy equivalences to prune part of the policy search space, making AND* substantially more effective in solving FOND tasks. We also study the impact of taking into account structural state-space symmetries to strengthen the detection of equivalence policies and the impact of performing the search with satisficing techniques. We apply a recent technique from the group theory literature to better compute structural state-space symmetries. Finally, we present a solution compressor that, given a policy defined over complete states, finds a policy that unambiguously represents it using the minimum number of partial states. AND* with the introduced techniques generates, on average, two orders of magnitude fewer policies to solve FOND tasks. These techniques allow explicit policy-space search to be competitive in terms of both coverage and solution compactness with other state-of-the-art FOND planners.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-28
# 熱画像の長期SLAMに向けて

Towards Long Term SLAM on Thermal Imagery ( http://arxiv.org/abs/2403.19885v1 )

ライセンス: Link先を確認
Colin Keil, Aniket Gupta, Pushyami Kaveti, Hanumant Singh, (参考訳) 熱画像を用いた視覚SLAMや、水中や雪や氷が支配する地域での他の低コントラストの環境は、多くの最先端(SOTA)アルゴリズムにとって難しい問題である。 フロントエンドデータアソシエーションの挑戦に加えて、熱画像は長期的再ローカライズとマップの再利用にさらなる困難をもたらす。 熱画像中の物体の相対温度は、昼から夜にかけて劇的に変化する。 SLAMにおける再ローカライズに一般的に使用される特徴記述子は、これらの日内変化に対して一貫性を維持することができない。 学習した特徴記述子は、既存のBag of Wordベースのローカライズ方式で使用することができ、熱画像の時間的大きなギャップにおける位置認識を劇的に改善することができる。 学習語彙の有効性を実証するために,学習した特徴とマッチングを古典的なSLAMアルゴリズムに統合したベースラインSLAMシステムを開発した。 本システムでは, サーマルイメージの挑戦と, 昼夜の劇的なサーマル外観変化を克服する再ローカライゼーションについて, 良好な局所追跡を行う。 私たちのコードとデータセットはこちらで入手可能です。

Visual SLAM with thermal imagery, and other low contrast visually degraded environments such as underwater, or in areas dominated by snow and ice, remain a difficult problem for many state of the art (SOTA) algorithms. In addition to challenging front-end data association, thermal imagery presents an additional difficulty for long term relocalization and map reuse. The relative temperatures of objects in thermal imagery change dramatically from day to night. Feature descriptors typically used for relocalization in SLAM are unable to maintain consistency over these diurnal changes. We show that learned feature descriptors can be used within existing Bag of Word based localization schemes to dramatically improve place recognition across large temporal gaps in thermal imagery. In order to demonstrate the effectiveness of our trained vocabulary, we have developed a baseline SLAM system, integrating learned features and matching into a classical SLAM algorithm. Our system demonstrates good local tracking on challenging thermal imagery, and relocalization that overcomes dramatic day to night thermal appearance changes. Our code and datasets are available here: https://github.com/neufieldrobotics/IRSLAM_Baseline
翻訳日:2024-04-01 16:54:17 公開日:2024-03-28
# Jamba: ハイブリッドトランスフォーマー-マンバ言語モデル

Jamba: A Hybrid Transformer-Mamba Language Model ( http://arxiv.org/abs/2403.19887v1 )

ライセンス: Link先を確認
Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham, (参考訳) 本稿では,新しいハイブリッドなTransformer-Mambamix-of-experts (MoE)アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。 具体的には、JambaはTransformer層とMamba層のブロックをインターリーブし、モデルファミリの両方の利点を享受する。 MoEはこれらのレイヤの一部に追加され、アクティブなパラメータ使用量を管理しながらモデルキャパシティが向上する。 この柔軟なアーキテクチャは、リソースや客観的な設定を可能にする。 実装した特定の構成では、単一の80GBのGPUに適合する強力なモデルが出来上がります。 大規模に構築されたJambaは、バニラトランスフォーマーに比べてスループットが高く、メモリフットプリントも小さい。 注目すべきは、このモデルが最大256Kトークンのコンテキスト長に対して強い結果をもたらすことだ。 本稿では,Transformer層とMamba層を組み合わせる方法,専門家を混在させる方法など,さまざまなアーキテクチャ上の決定について検討し,その一部が大規模モデリングにおいて重要であることを示す。 また、Jambaのトレーニングと評価が明らかにしたこれらのアーキテクチャのいくつかの興味深い特性について述べるとともに、この新しいアーキテクチャのさらなる探求を促進するために、様々なアブレーションランからのチェックポイントをリリースする計画について述べる。 私たちは、Jambaの実装の重みをパーミッシブライセンスの下で公開しています。

We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows resource- and objective-specific configurations. In the particular configuration we have implemented, we end up with a powerful model that fits in a single 80GB GPU. Built at large scale, Jamba provides high throughput and small memory footprint compared to vanilla Transformers, and at the same time state-of-the-art performance on standard language model benchmarks and long-context evaluations. Remarkably, the model presents strong results for up to 256K tokens context length. We study various architectural decisions, such as how to combine Transformer and Mamba layers, and how to mix experts, and show that some of them are crucial in large scale modeling. We also describe several interesting properties of these architectures which the training and evaluation of Jamba have revealed, and plan to release checkpoints from various ablation runs, to encourage further exploration of this novel architecture. We make the weights of our implementation of Jamba publicly available under a permissive license.
翻訳日:2024-04-01 16:54:17 公開日:2024-03-28
# ビジョンランゲージモデルで人間の意思決定をガイドする学習

Learning To Guide Human Decision Makers With Vision-Language Models ( http://arxiv.org/abs/2403.16501v2 )

ライセンス: Link先を確認
Debodeep Banerjee, Stefano Teso, Burcu Sayin, Andrea Passerini, (参考訳) 意思決定の質の向上と認知歪の低減を目的とした,医療診断などのハイテイクタスクにおいて,人間の意思決定を支援するAI開発への関心が高まっている。 Mainstreamは、安全な意思決定をオフロードするマシンラーニングモデルの専門家とチームを組むことで、前者が注意を要するケースに集中できるようにする。 しかし、彼の責任設定の分離は、高リスクシナリオには不十分です。 一方、専門家は偏見を抑えるためにマシンの決定を過度に検討し、信頼できるAIを確保するために規制当局がますます要求している人間の監督を失う可能性がある。 一方、専門家は、モデルが棄権した(通常、最も難しい)決定について完全に助けられません。 これは、人間の専門家から制御されるのではなく、機械が意思決定に有用なガイダンスを提供し、人間は決定を下す責任を完全に負うという、代替のフレームワークである。 SLOG(SLOG)は,視覚言語モデルから人間のフィードバックのモディクスを活用することで,テキスト誘導の能力のある生成装置に変換する手法である。 私たちの経験的評価は、挑戦的で現実的な診断タスクにおいて、Shamethodの約束が強調されます。

There is increasing interest in developing AIs for assisting human decision-making in high-stakes tasks, such as medical diagnosis, for the purpose of improving decision quality and reducing cognitive strain. Mainstream approaches team up an expert with a machine learning model to which safer decisions are offloaded, thus letting the former focus on cases that demand their attention. his separation of responsibilities setup, however, is inadequate for high-stakes scenarios. On the one hand, the expert may end up over-relying on the machine's decisions due to anchoring bias, thus losing the human oversight that is increasingly being required by regulatory agencies to ensure trustworthy AI. On the other hand, the expert is left entirely unassisted on the (typically hardest) decisions on which the model abstained. As a remedy, we introduce learning to guide (LTG), an alternative framework in which - rather than taking control from the human expert - the machine provides guidance useful for decision making, and the human is entirely responsible for coming up with a decision. In order to ensure guidance is interpretable} and task-specific, we develop SLOG, an approach for turning any vision-language model into a capable generator of textual guidance by leveraging a modicum of human feedback. Our empirical evaluation highlights the promise of \method on a challenging, real-world medical diagnosis task.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-28
# 残留言語モデルとバイオメディカルイメージング

Residual-based Language Models are Free Boosters for Biomedical Imaging ( http://arxiv.org/abs/2403.17343v3 )

ライセンス: Link先を確認
Zhixin Lai, Jing Wu, Suiyao Chen, Yucheng Zhou, Naira Hovakimyan, (参考訳) 本研究では,従来の言語やテキストデータがない領域であるバイオメディカルイメージングタスクのエンコーダの一部として,残留型大規模言語モデル(LLM)の予期せぬ有効性を明らかにする。 この手法は、予め訓練されたLCMから抽出した冷凍変圧器ブロックを、視覚トークンの直接処理のための革新的なエンコーダ層として利用することにより、確立した手法から分岐する。 この戦略は、言語駆動のプロンプトとインプットを隠蔽する標準のマルチモーダルビジョン言語フレームワークから大きく離れている。 これらのLLMは,2次元および3次元の視覚的分類タスクを含む,様々なバイオメディカルイメージングアプリケーションにおいて,プラグ・アンド・プレイ・ブースターとしての性能向上を図っている。 より興味深いことに,提案したフレームワークは,MedMNIST-2Dおよび3Dの広範囲な標準化データセットに対して,最先端の結果を新たに設定し,優れた性能を実現した。 本研究は, バイオメディカルイメージングにLLMを応用し, 本専門領域におけるその可能性の理解を深めるための新たな道を開くことを目的としている。

In this study, we uncover the unexpected efficacy of residual-based large language models (LLMs) as part of encoders for biomedical imaging tasks, a domain traditionally devoid of language or textual data. The approach diverges from established methodologies by utilizing a frozen transformer block, extracted from pre-trained LLMs, as an innovative encoder layer for the direct processing of visual tokens. This strategy represents a significant departure from the standard multi-modal vision-language frameworks, which typically hinge on language-driven prompts and inputs. We found that these LLMs could boost performance across a spectrum of biomedical imaging applications, including both 2D and 3D visual classification tasks, serving as plug-and-play boosters. More interestingly, as a byproduct, we found that the proposed framework achieved superior performance, setting new state-of-the-art results on extensive, standardized datasets in MedMNIST-2D and 3D. Through this work, we aim to open new avenues for employing LLMs in biomedical imaging and enriching the understanding of their potential in this specialized domain.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-28
# 置換不変ニューラルネットワークについて

On permutation-invariant neural networks ( http://arxiv.org/abs/2403.17410v2 )

ライセンス: Link先を確認
Masanari Kimura, Ryotaro Shimizu, Yuki Hirakawa, Ryosuke Goto, Yuki Saito, (参考訳) 従来の機械学習アルゴリズムは、入力データがベクトル中心のパラダイムに重点を置いてベクトルベースのフォーマットに従うという仮定の下で伝統的に設計されてきた。 しかし、セットベース入力に関わるタスクの需要が高まるにつれて、これらの課題に対処する研究コミュニティのパラダイムシフトが進んでいる。 近年、Deep SetsやTransformersといったニューラルネットワークアーキテクチャの出現は、セットベースのデータ処理において大きな進歩を見せている。 これらのアーキテクチャは、集合を入力として自然に適応するように特別に設計されており、集合構造のより効率的な表現と処理を可能にしている。 その結果、集合関数の近似を含む様々なタスクに対して、これらのアーキテクチャの能力を探索し活用するための研究が急増した。 この総合的な調査は、設定関数を近似するニューラルネットワークに関する様々な問題設定と進行中の研究の概観を提供することを目的としている。 これらのアプローチの複雑さを掘り下げて、関連する課題を解明することで、この調査は、読者にその分野を包括的に理解させることを目的としている。 この包括的視点を通じて、研究者たちは、セットベースのニューラルネットワークの潜在的な応用、固有の制限、そして将来の方向性について、貴重な洞察を得ることができることを願っている。 実際、この調査から2つの洞察を得た。 一 深集合及びその変種は、集約関数の差分により一般化することができる。 二 ディープセットの挙動は、アグリゲーション関数の選択に敏感である。 これらの観測結果から,置換不変ニューラルネットワークとしてよく知られたDeep Setsが準パラメータ平均の意味で一般化できることが示唆された。

Conventional machine learning algorithms have traditionally been designed under the assumption that input data follows a vector-based format, with an emphasis on vector-centric paradigms. However, as the demand for tasks involving set-based inputs has grown, there has been a paradigm shift in the research community towards addressing these challenges. In recent years, the emergence of neural network architectures such as Deep Sets and Transformers has presented a significant advancement in the treatment of set-based data. These architectures are specifically engineered to naturally accommodate sets as input, enabling more effective representation and processing of set structures. Consequently, there has been a surge of research endeavors dedicated to exploring and harnessing the capabilities of these architectures for various tasks involving the approximation of set functions. This comprehensive survey aims to provide an overview of the diverse problem settings and ongoing research efforts pertaining to neural networks that approximate set functions. By delving into the intricacies of these approaches and elucidating the associated challenges, the survey aims to equip readers with a comprehensive understanding of the field. Through this comprehensive perspective, we hope that researchers can gain valuable insights into the potential applications, inherent limitations, and future directions of set-based neural networks. Indeed, from this survey we gain two insights: i) Deep Sets and its variants can be generalized by differences in the aggregation function, and ii) the behavior of Deep Sets is sensitive to the choice of the aggregation function. From these observations, we show that Deep Sets, one of the well-known permutation-invariant neural networks, can be generalized in the sense of a quasi-arithmetic mean.
翻訳日:2024-04-01 11:08:03 公開日:2024-03-28
# マニフォールド上の関数近似のためのランダムベクトル関数リンクネットワーク

Random Vector Functional Link Networks for Function Approximation on Manifolds ( http://arxiv.org/abs/2007.15776v3 )

ライセンス: Link先を確認
Deanna Needell, Aaron A. Nelson, Rayan Saab, Palina Salanevich, Olov Schavemaker, (参考訳) フィードフォワードニューラルネットワークの学習速度は、非常に遅く、数十年にわたってディープラーニングアプリケーションにボトルネックをもたらしてきた。 例えば、ニューラルネットワークのトレーニングに広く使用される勾配に基づく学習アルゴリズムは、すべてのネットワークパラメータを反復的に調整する必要がある場合、動作が遅くなる傾向がある。 これに対抗するため、研究者も実践者も学習要求を減らすためにランダム性の導入を試みた。 イジェルニクとパオの当初の構成に基づいて、ランダムな入射層重みとバイアスを持つ単層ニューラルネットワークが実際に成功したが、必要な理論上の正当化は欠如している。 本稿では,この理論的ギャップを埋める。 我々は、Igelnik と Pao の構造がコンパクト領域上の連続函数の普遍近似であり、ネットワークノードの数$n$に対して$O(1/\sqrt{n})$のように近似誤差が漸近的に減衰する(補正された)厳密な証明を与える。 すると、この結果を漸近的でない設定に拡張し、n$が十分大きければ高い確率で任意の所望の近似誤差を達成できることを証明した。 さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用し、漸近型と非漸近型の両方において理論的保証を提供する。 最後に, 数値実験による解析結果について述べる。

The learning speed of feed-forward neural networks is notoriously slow and has presented a bottleneck in deep learning applications for several decades. For instance, gradient-based learning algorithms, which are used extensively to train neural networks, tend to work slowly when all of the network parameters must be iteratively tuned. To counter this, both researchers and practitioners have tried introducing randomness to reduce the learning requirement. Based on the original construction of Igelnik and Pao, single layer neural-networks with random input-to-hidden layer weights and biases have seen success in practice, but the necessary theoretical justification is lacking. In this paper, we begin to fill this theoretical gap. We provide a (corrected) rigorous proof that the Igelnik and Pao construction is a universal approximator for continuous functions on compact domains, with approximation error decaying asymptotically like $O(1/\sqrt{n})$ for the number $n$ of network nodes. We then extend this result to the non-asymptotic setting, proving that one can achieve any desired approximation error with high probability provided $n$ is sufficiently large. We further adapt this randomized neural network architecture to approximate functions on smooth, compact submanifolds of Euclidean space, providing theoretical guarantees in both the asymptotic and non-asymptotic forms. Finally, we illustrate our results on manifolds with numerical experiments.
翻訳日:2024-04-01 03:58:36 公開日:2024-03-28
# MIMO OFDMシステムにおける逐次Denoisingによるチャネル推定:強化学習アプローチ

Channel Estimation via Successive Denoising in MIMO OFDM Systems: A Reinforcement Learning Approach ( http://arxiv.org/abs/2101.10300v5 )

ライセンス: Link先を確認
Myeung Suk Oh, Seyyedali Hosseinalipour, Taejoon Kim, Christopher G. Brinton, David J. Love, (参考訳) 一般に、多重入力多重出力(MIMO)直交周波数分割多重化(OFDM)による信頼性の高い通信は、受信側で正確なチャネル推定を必要とする。 既存の文献は、どちらにも依存するチャネル推定法に主に焦点をあてている。 一 事前のチャンネル知識を有する時間領域におけるチャンネル分析 (II)訓練に大規模なラベル付きデータセットを必要とする教師あり学習手法。 これらの制約に対処するために,事前のチャネル知識や事前ラベル付きデータを必要としない強化学習フレームワークに基づく周波数領域記述手法を提案する。 提案手法は,チャネル曲率計算に基づく新しい連続チャネル復調プロセスを含み,信頼できないチャネル推定を識別するためのチャネル曲率閾値を求める。 このプロセスに基づいて、マルコフ決定過程としてデノベーション機構を定式化し、幾何学に基づくチャネル推定更新によってアクションを定義し、平均二乗誤差(MSE)を低減するポリシーに基づく報酬関数を定式化する。 次に、チャンネルの見積を更新するためにQラーニングを活用します。 数値計算により,提案手法がチャネル推定におけるノイズ低減に有効であることを検証した。 特に,本アルゴリズムは,実用最小二乗推定法 (LS) を大幅に改善し,理想的な線形平均二乗誤差推定法 (LMMSE) をチャネル統計学の完全知識で実現した性能を提供する。

In general, reliable communication via multiple-input multiple-output (MIMO) orthogonal frequency division multiplexing (OFDM) requires accurate channel estimation at the receiver. The existing literature largely focuses on denoising methods for channel estimation that depend on either (i) channel analysis in the time-domain with prior channel knowledge or (ii) supervised learning techniques which require large pre-labeled datasets for training. To address these limitations, we present a frequency-domain denoising method based on a reinforcement learning framework that does not need a priori channel knowledge and pre-labeled data. Our methodology includes a new successive channel denoising process based on channel curvature computation, for which we obtain a channel curvature magnitude threshold to identify unreliable channel estimates. Based on this process, we formulate the denoising mechanism as a Markov decision process, where we define the actions through a geometry-based channel estimation update, and the reward function based on a policy that reduces mean squared error (MSE). We then resort to Q-learning to update the channel estimates. Numerical results verify that our denoising algorithm can successfully mitigate noise in channel estimates. In particular, our algorithm provides a significant improvement over the practical least squares (LS) estimation method and provides performance that approaches that of the ideal linear minimum mean square error (LMMSE) estimation with perfect knowledge of channel statistics.
翻訳日:2024-04-01 03:58:36 公開日:2024-03-28
# ビジネスプロセスにおけるリソース自動割り当て:システム文献調査

Automatic Resource Allocation in Business Processes: A Systematic Literature Survey ( http://arxiv.org/abs/2107.07264v2 )

ライセンス: Link先を確認
Luise Pufahl, Sven Ihde, Fabian Stiehle, Mathias Weske, Ingo Weber, (参考訳) 製品やサービスを顧客に提供するために、組織は多様体のビジネスプロセスを実行します。 このような実行中は、今後のプロセスタスクを内部リソースに割り当てる必要がある。 リソース割り当ては複雑な意思決定の問題であり、プロセスの有効性と効率に大きな影響を与えます。 研究アロケーションを自動で支援するために、幅広いアプローチが開発された。 この体系的な文献調査は、アプローチの概要を提供し、それらのリソース割り当て目標と能力、モデルとデータの使用、アルゴリズムによるソリューション、そして成熟度について分類する。 ルールベースのアプローチは支配的であると認識されたが、ヒューリスティックスや学習アプローチも関連する役割を担っている。

For delivering products or services to their clients, organizations execute manifold business processes. During such execution, upcoming process tasks need to be allocated to internal resources. Resource allocation is a complex decision-making problem with high impact on the effectiveness and efficiency of processes. A wide range of approaches was developed to support research allocation automatically. This systematic literature survey provides an overview of approaches and categorizes them regarding their resource allocation goals and capabilities, their use of models and data, their algorithmic solutions, and their maturity. Rule-based approaches were identified as dominant, but heuristics and learning approaches also play a relevant role.
翻訳日:2024-04-01 03:58:36 公開日:2024-03-28
# 非インクリメンタルエンコーダ時代のインクリメンタルプロセッシング:インクリメンタルNLUにおける双方向モデルの実証評価

Incremental Processing in the Age of Non-Incremental Encoders: An Empirical Assessment of Bidirectional Models for Incremental NLU ( http://arxiv.org/abs/2010.05330v2 )

ライセンス: Link先を確認
Brielen Madureira, David Schlangen, (参考訳) 人間は言語を漸進的に処理するが、現在NLPで使われている最高の言語エンコーダはそうではない。 双方向LSTMとトランスフォーマーの両方は、エンコードされるシーケンスが完全に利用可能であり、フォワードとバックワード(BiLSTM)または全体(トランスフォーマー)として処理されると仮定している。 対話型システムで発生する可能性のある部分的な入力に基づいて、部分的な出力を提供する必要がある場合、インクリメンタルインタフェースの下でどのように振る舞うかを検討する。 様々なNLUデータセット上で5つのモデルをテストし、3つのインクリメンタル評価指標を用いて性能を比較した。 その結果,非インクリメンタルな品質を維持しつつ,双方向エンコーダをインクリメンタルモードで使用することが可能になった。 非インクリメンタルなパフォーマンスを向上する"全方向"BERTモデルは、インクリメンタルアクセスによってより影響を受けます。 これは、トレーニング体制(トランクされたトレーニング)やテスト手順を適用することで緩和され、ある適切なコンテキストが利用可能になるまで出力を遅らせたり、GPT-2のような言語モデルによって生成された仮説的な適切なコンテキストを組み込むことによって緩和される。

While humans process language incrementally, the best language encoders currently used in NLP do not. Both bidirectional LSTMs and Transformers assume that the sequence that is to be encoded is available in full, to be processed either forwards and backwards (BiLSTMs) or as a whole (Transformers). We investigate how they behave under incremental interfaces, when partial output must be provided based on partial input seen up to a certain time step, which may happen in interactive systems. We test five models on various NLU datasets and compare their performance using three incremental evaluation metrics. The results support the possibility of using bidirectional encoders in incremental mode while retaining most of their non-incremental quality. The "omni-directional" BERT model, which achieves better non-incremental performance, is impacted more by the incremental access. This can be alleviated by adapting the training regime (truncated training), or the testing procedure, by delaying the output until some right context is available or by incorporating hypothetical right contexts generated by a language model like GPT-2.
翻訳日:2024-03-29 22:28:24 公開日:2024-03-28
# 3次元空間と好ましい基底は、量子構造から一意に現われることができない

3D-Space and the preferred basis cannot uniquely emerge from the quantum structure ( http://arxiv.org/abs/2102.08620v9 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica, (参考訳) ヒルベルト空間基本主義 (Hilbert-Space Fundamentalism, HSF) は、基本構造は量子状態ベクトルとハミルトニアンのみであり、そこからは3次元空間、好ましい基底、ヒルベルト空間の好因数分解など他の全てが一意に現れる。 この記事では、そのような構造がハミルトニアンと状態ベクトルのみから現れるとき、それが物理的に関係があるならば、それは一意ではないことを示す。 さらに、HSFはヒルベルト空間の受動的変換によって単に実現された、時間的および代替現実における「受動的」旅行のような奇妙な効果をもたらす。 この記事では、分岐や状態ベクトルの減少を仮定する理論(特にキャロルとシンによって作られたエヴァレットの解釈のバージョン)、デコヒーレンスに基づく様々な提案、量子構造だけで全てを記述することを目的とした提案、重力の純粋に量子論から時空が現れるという提案など、HSFに固執するすべての理論に影響を及ぼす。

Hilbert-Space Fundamentalism (HSF) states that the only fundamental structures are the quantum state vector and the Hamiltonian, and from them everything else emerge uniquely, including the 3D-space, a preferred basis, and a preferred factorization of the Hilbert space. In this article it is shown that whenever such a structure emerges from the Hamiltonian and the state vector alone, if it is physically relevant, it is not unique. Moreover, HSF leads to strange effects like "passive" travel in time and in alternative realities, realized simply by passive transformations of the Hilbert space. The results from this article affect all theories that adhere to HSF, whether they assume branching or state vector reduction (in particular the version of Everett's Interpretation coined by Carroll and Singh "Mad-dog Everettianism"), various proposals based on decoherence, proposals that aim to describe everything by the quantum structure alone, and proposals that spacetime emerges from a purely quantum theory of gravity.
翻訳日:2024-03-29 22:28:24 公開日:2024-03-28
# スマートフォン上でのバイタルサインの効率的な深層学習に基づく推定

Efficient Deep Learning-based Estimation of the Vital Signs on Smartphones ( http://arxiv.org/abs/2204.08989v3 )

ライセンス: Link先を確認
Taha Samavati, Mahdi Farvardin, Aboozar Ghaffari, (参考訳) 日々の生活でスマートフォンが使われるようになると、これらのデバイスは多くの複雑なタスクをこなせるようになった。 特に高齢者や特定の病気の患者に対しては, スマートフォンによるバイタルサインの連続的なモニタリングの必要性について, スマートフォンを用いたバイタルサインを推定するアルゴリズムの開発が世界中の研究者を惹きつけている。 特に研究者は、スマートフォン上で動作可能なアルゴリズムを用いて、心拍数、酸素飽和度、呼吸速度などの重要な兆候を推定する方法を模索している。 しかし、これらのアルゴリズムの多くは複数の前処理ステップを必要としており、いくつかの実装のオーバーヘッドを発生させたり、最適な結果を得るためにいくつかの手作りのステージの設計を必要としている。 この問題に対処するため,本研究では,事前処理の必要性を排除したディープラーニングを用いたモバイルベースのバイタルサイン推定のための,新しいエンドツーエンドソリューションを提案する。 完全畳み込み型アーキテクチャを用いることで、予測ヘッドとして完全に接続されたレイヤを使用するアーキテクチャと比較して、提案モデルはパラメータが少なく、計算量も少ない。 これにより、過度に適合するリスクも軽減される。 さらに、35人の男性と27人の女性から収集された62の動画を含む、バイタルサイン推定のためのパブリックデータセットも提供される。 全体として、提案するエンドツーエンドアプローチは、容易に利用可能な家電製品上でのデバイス上での健康モニタリングの効率と性能を大幅に向上させる。

With the increasing use of smartphones in our daily lives, these devices have become capable of performing many complex tasks. Concerning the need for continuous monitoring of vital signs, especially for the elderly or those with certain types of diseases, the development of algorithms that can estimate vital signs using smartphones has attracted researchers worldwide. In particular, researchers have been exploring ways to estimate vital signs, such as heart rate, oxygen saturation levels, and respiratory rate, using algorithms that can be run on smartphones. However, many of these algorithms require multiple pre-processing steps that might introduce some implementation overheads or require the design of a couple of hand-crafted stages to obtain an optimal result. To address this issue, this research proposes a novel end-to-end solution to mobile-based vital sign estimation using deep learning that eliminates the need for pre-processing. By using a fully convolutional architecture, the proposed model has much fewer parameters and less computational complexity compared to the architectures that use fully-connected layers as the prediction heads. This also reduces the risk of overfitting. Additionally, a public dataset for vital sign estimation, which includes 62 videos collected from 35 men and 27 women, is provided. Overall, the proposed end-to-end approach promises significantly improved efficiency and performance for on-device health monitoring on readily available consumer electronics.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 2段階パラダイムにおけるコード検索の再検討

Revisiting Code Search in a Two-Stage Paradigm ( http://arxiv.org/abs/2208.11274v3 )

ライセンス: Link先を確認
Fan Hu, Yanlin Wang, Lun Du, Xirong Li, Hongyu Zhang, Shi Han, Dongmei Zhang, (参考訳) 優れたコード検索エンジンによって、開発者は既存のコードスニペットを再利用し、ソフトウェア開発プロセスを加速することができる。 現在のコード検索方法は、従来の情報検索(IR)とディープラーニング(DL)の2つのカテゴリに分けられる。 DLベースのアプローチには、クロスエンコーダパラダイムとバイエンコーダパラダイムがある。 しかし、どちらのアプローチにも一定の制限がある。 IRベースのモデルとバイエンコーダモデルの推論は高速であるが、精度は十分ではない。 本研究では,異なるコード検索手法の利点を組み合わせた2段階の融合コード検索フレームワークであるTOSSを提案する。 TOSSはまずIRベースとバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールし、さらに粒度の細かいクロスエンコーダを使用してランク付けを行う。 さらに、TOSSの有効性を検証するために、異なるコード候補ボリュームと複数のプログラミング言語について広範な実験を行う。 また、TOSSを6つのデータ融合法と比較する。 実験結果から, TOSSは効率性だけでなく, CodeSearchNetベンチマークの0.713と比較すると, MRRスコア0.763で最先端の精度を実現していることがわかった。 ソースコードと実験データは、https://github.com/fly-dragon211/TOSS.comで公開されています。

With a good code search engine, developers can reuse existing code snippets and accelerate software development process. Current code search methods can be divided into two categories: traditional information retrieval (IR) based and deep learning (DL) based approaches. DL-based approaches include the cross-encoder paradigm and the bi-encoder paradigm. However, both approaches have certain limitations. The inference of IR-based and bi-encoder models are fast, however, they are not accurate enough; while cross-encoder models can achieve higher search accuracy but consume more time. In this work, we propose TOSS, a two-stage fusion code search framework that can combine the advantages of different code search methods. TOSS first uses IR-based and bi-encoder models to efficiently recall a small number of top-k code candidates, and then uses fine-grained cross-encoders for finer ranking. Furthermore, we conduct extensive experiments on different code candidate volumes and multiple programming languages to verify the effectiveness of TOSS. We also compare TOSS with six data fusion methods. Experimental results show that TOSS is not only efficient, but also achieves state-of-the-art accuracy with an overall mean reciprocal ranking (MRR) score of 0.763, compared to the best baseline result on the CodeSearchNet benchmark of 0.713. Our source code and experimental data are available at: https://github.com/fly-dragon211/TOSS.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 確率的クラギングを用いた二目的ランク付けと選択

Bi-objective Ranking and Selection Using Stochastic Kriging ( http://arxiv.org/abs/2209.03919v3 )

ライセンス: Link先を確認
Sebastian Rojas Gonzalez, Juergen Branke, Inneke van Nieuwenhuyse, (参考訳) 両目的のランク付けと選択の問題を考えると、目的の2つの結果が不確実性(例えば、多目的確率シミュレーションの手順を実行した後)で観測された有限個の候補のうち、パレート最適解を正しく同定することが目的である。 真にパレート最適である解は誤って支配的とみなすことができ、真に支配的である解は誤ってパレート最適とみなすことができる。 提案手法は, 最適性能で解を識別する際の誤分類誤差を低減するため, 競合する解に対して逐次, 余分なサンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。 このアプローチでは、確率的クリグを使用して、客観的な結果の信頼性の高い予測分布を構築し、この情報を利用して再サンプリングの方法を決定する。 実験の結果,提案手法は標準割当法よりも優れており,また最先端のアルゴリズムとしてよく知られている。 さらに,他の競合アルゴリズムは,確率的クリグ情報の利用によるメリットも示しているが,提案手法は依然として優れている。

We consider bi-objective ranking and selection problems, where the goal is to correctly identify the Pareto optimal solutions among a finite set of candidates for which the two objective outcomes have been observed with uncertainty (e.g., after running a multiobjective stochastic simulation optimization procedure). When identifying these solutions, the noise perturbing the observed performance may lead to two types of errors: solutions that are truly Pareto-optimal can be wrongly considered dominated, and solutions that are truly dominated can be wrongly considered Pareto-optimal. We propose a novel Bayesian bi-objective ranking and selection method that sequentially allocates extra samples to competitive solutions, in view of reducing the misclassification errors when identifying the solutions with the best expected performance. The approach uses stochastic kriging to build reliable predictive distributions of the objective outcomes, and exploits this information to decide how to resample. Experimental results show that the proposed method outperforms the standard allocation method, as well as a well-known the state-of-the-art algorithm. Moreover, we show that the other competing algorithms also benefit from the use of stochastic kriging information; yet, the proposed method remains superior.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 敵対的攻撃に対するブラックボックスモデルのデータフリー防御

Data-free Defense of Black Box Models Against Adversarial Attacks ( http://arxiv.org/abs/2211.01579v3 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Inder Khatri, Ruchit Rawal, Anirban Chakraborty, (参考訳) いくつかの企業は、APIを通じてブラックボックスとしてのみ公開することによって、トレーニングされた深層モデル(アーキテクチャの詳細、学習重量、トレーニング詳細など)をサードパーティのユーザから保護することが多い。 さらに、プロプライエタリな理由やセンシティブな懸念から、トレーニングデータへのアクセスも提供されない可能性がある。 そこで本研究では,データフリーセットアップにおける敵攻撃に対するブラックボックスモデルに対する新しい防御機構を提案する。 生成モデルを用いて合成データを構築し, モデルステルス手法を用いてサロゲートネットワークを訓練する。 本稿では,入力画像上で離散ウェーブレット分解を行う「ウェーブレットノイズ除去器」(WNR)を提案し,我々の「ウェーブレット係数選択モジュール」(WCSM)によって決定されるいくつかの重要な係数のみを慎重に選択する。 WNRによるノイズ除去後の画像の高周波コンテンツを復元するため,再構成した画像がサロゲートモデル上で元の予測に類似した係数が得られるように,さらに「再生器」ネットワークを訓練する。 テスト時には、トレーニングされた再生器ネットワークと組み合わせたWNRがブラックボックスネットワークにプリプションされ、敵の精度が向上する。 本手法は,攻撃者がブラックボックスアーキテクチャ(Alexnet)に類似したサロゲートアーキテクチャ(Alexnet-half,Alexnet)をディフェンダーと同じモデルステーリング戦略で使用しても,ベースラインと比較してCIFAR-10の対角精度を38.98%,32.01%向上させる。 コードはhttps://github.com/vcl-iisc/data-free-black-box-defenseで公開されている。

Several companies often safeguard their trained deep models (i.e., details of architecture, learnt weights, training details etc.) from third-party users by exposing them only as black boxes through APIs. Moreover, they may not even provide access to the training data due to proprietary reasons or sensitivity concerns. In this work, we propose a novel defense mechanism for black box models against adversarial attacks in a data-free set up. We construct synthetic data via generative model and train surrogate network using model stealing techniques. To minimize adversarial contamination on perturbed samples, we propose 'wavelet noise remover' (WNR) that performs discrete wavelet decomposition on input images and carefully select only a few important coefficients determined by our 'wavelet coefficient selection module' (WCSM). To recover the high-frequency content of the image after noise removal via WNR, we further train a 'regenerator' network with an objective to retrieve the coefficients such that the reconstructed image yields similar to original predictions on the surrogate model. At test time, WNR combined with trained regenerator network is prepended to the black box network, resulting in a high boost in adversarial accuracy. Our method improves the adversarial accuracy on CIFAR-10 by 38.98% and 32.01% on state-of-the-art Auto Attack compared to baseline, even when the attacker uses surrogate architecture (Alexnet-half and Alexnet) similar to the black box architecture (Alexnet) with same model stealing strategy as defender. The code is available at https://github.com/vcl-iisc/data-free-black-box-defense
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# SOLD: Sinhala攻撃的な言語データセット

SOLD: Sinhala Offensive Language Dataset ( http://arxiv.org/abs/2212.00851v2 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Isuri Anuradha, Damith Premasiri, Kanishka Silva, Hansi Hettiarachchi, Lasitha Uyangodage, Marcos Zampieri, (参考訳) ヘイトスピーチやサイバーいじめなど、ネット上の攻撃的なコンテンツの拡散は、世界的な現象である。 これは人工知能(AI)と自然言語処理(NLP)コミュニティへの関心を喚起し、潜在的に有害なコンテンツを自動的に検出する訓練された様々なシステムの開発を動機付けている。 これらのシステムは、機械学習(ML)モデルをトレーニングするために注釈付きデータセットを必要とする。 しかしながら、いくつかの注目すべき例外を除いて、このトピックのほとんどのデータセットは、英語や他のいくつかの高リソース言語を扱っています。 その結果、攻撃的言語識別の研究はこれらの言語に限られている。 本稿は、スリランカで1700万人以上の人々が話していた低リソースのインド・アーリア語であるシンハラで、攻撃的な言語識別に取り組むことで、このギャップに対処する。 我々は,Sinhala Offensive Language Dataset (SOLD)を導入し,このデータセットについて複数の実験を行った。 SOLDは手動でアノテートされたデータセットで、Twitterから1万のポストがアノテートされ、文レベルとトークンレベルの両方で攻撃的ではない。 SOLDは、Sinhala用にコンパイルされた最初の大規模な公開言語データセットである。 また,145,000以上のSinhalaツイートを含む大規模データセットであるSemiSOLDについても紹介する。

The widespread of offensive content online, such as hate speech and cyber-bullying, is a global phenomenon. This has sparked interest in the artificial intelligence (AI) and natural language processing (NLP) communities, motivating the development of various systems trained to detect potentially harmful content automatically. These systems require annotated datasets to train the machine learning (ML) models. However, with a few notable exceptions, most datasets on this topic have dealt with English and a few other high-resource languages. As a result, the research in offensive language identification has been limited to these languages. This paper addresses this gap by tackling offensive language identification in Sinhala, a low-resource Indo-Aryan language spoken by over 17 million people in Sri Lanka. We introduce the Sinhala Offensive Language Dataset (SOLD) and present multiple experiments on this dataset. SOLD is a manually annotated dataset containing 10,000 posts from Twitter annotated as offensive and not offensive at both sentence-level and token-level, improving the explainability of the ML models. SOLD is the first large publicly available offensive language dataset compiled for Sinhala. We also introduce SemiSOLD, a larger dataset containing more than 145,000 Sinhala tweets, annotated following a semi-supervised approach.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# ゼロショットオープンドメインQAのための自己プロンピング大言語モデル

Self-Prompting Large Language Models for Zero-Shot Open-Domain QA ( http://arxiv.org/abs/2212.08635v3 )

ライセンス: Link先を確認
Junlong Li, Jinyuan Wang, Zhuosheng Zhang, Hai Zhao, (参考訳) Open-Domain Question Answering (ODQA)は、特定の背景文書を明示的に提供せずに質問に答えることを目的としている。 このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。 GPT-3のような最近のLarge Language Models (LLM) は、直接的プロンプト法を用いてゼロショットODQAでの有効性を実証しているが、これらの手法は暗黙的に呼び出されたときのLLMの可能性を完全に活用するには至っていない。 本稿では,LLMのパラメータに符号化された膨大な知識と,その強力な命令理解能力を明確に活用するセルフプロンプトフレームワークを提案する。 具体的には,複数の擬似QAペアを生成し,背景文と説明文を完全にスクラッチから生成する。 これらの生成した要素は、インコンテキスト学習に使用される。 実験結果から,本手法は3つの広く使用されているODQAデータセットに対して,従来のゼロショット法を大幅に上回り,フルトレーニングデータに対して,様々なカスタマイズされた微調整モデルを用いて同等の性能を達成できることが示唆された。 私たちのコードはhttps://github.com/lockon-n/self-prompting.comで利用可能です。

Open-Domain Question Answering (ODQA) aims to answer questions without explicitly providing specific background documents. This task becomes notably challenging in a zero-shot setting where no data is available to train tailored retrieval-reader models. While recent Large Language Models (LLMs) like GPT-3 have demonstrated their effectiveness in zero-shot ODQA using direct prompting methods, these methods still fall short of fully harnessing the potential of LLMs when implicitly invoked. In this paper, we propose a Self-Prompting framework to explicitly utilize the massive knowledge encoded in the parameters of LLMs and their strong instruction understanding abilities. Concretely, we prompt LLMs step by step to generate multiple pseudo QA pairs with background passages and explanations entirely from scratch. These generated elements are then utilized for in-context learning. Experimental results show that our method significantly surpasses previous state-of-the-art zero-shot methods on three widely-used ODQA datasets and even achieves comparable performance with various customized fine-tuned models on full training data. Our code is available at https://github.com/lockon-n/self-prompting.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 記号的検証によるステップバイステップ推論の評価

Evaluating Step-by-Step Reasoning through Symbolic Verification ( http://arxiv.org/abs/2212.08686v2 )

ライセンス: Link先を確認
Yi-Fan Zhang, Hanlin Zhang, Li Erran Li, Eric Xing, (参考訳) 事前学習された言語モデル(LM)は、文脈内学習のための説明や思考の連鎖(CoT)を用いて、顕著な推論性能を示した。 一方、これらの推論タスクは通常、シンボリックプログラミングにもっと近づきやすいと仮定される。 LMの推論のメカニズムを理解するため,記号的な例が一階述語論理規則を含み,非パラメトリックな知識ベース(KB)から述語されるような,等価な(自然な,象徴的な)データペアを含む合成データセットをキュレートし,中間推論結果の自動検証を支援する。 そこで,我々はニューロシンボリックアプローチを再検討し,論理規則とそれに対応する例を含む実演からKBに対する反復的推論を学習し,Prologの後方連鎖アルゴリズムを復元し,LMの出力の自動検証を支援することを提案する。 モデルサイズが小さい場合においても, LMLPがCoTよりも25\%以上高い精度で, LMLPとCoTを体系的に比較するための総合的な実験を含む。

Pre-trained language models (LMs) have shown remarkable reasoning performance using explanations or chain-of-thoughts (CoT)) for in-context learning. On the other hand, these reasoning tasks are usually presumed to be more approachable for symbolic programming. To understand the mechanism of reasoning of LMs, we curate synthetic datasets containing equivalent (natural, symbolic) data pairs, where symbolic examples contain first-order logic rules and predicates from non-parametric knowledge bases (KBs), supporting automated verification of intermediate reasoning results. Then we revisit neuro-symbolic approaches and propose to learn from demonstrations containing logic rules and corresponding examples to iteratively reason over KBs, recovering Prolog's backward chaining algorithm and supporting automated verification of LMs' outputs. Comprehensive experiments are included to systematically compare LMLP with CoT in deductive reasoning settings, showing that LMLP enjoys more than $25\%$ higher accuracy than CoT on length generalization benchmarks even with smaller model sizes.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# ロバスト性保証を用いた安全強化学習のための最適輸送摂動

Optimal Transport Perturbations for Safe Reinforcement Learning with Robustness Guarantees ( http://arxiv.org/abs/2301.13375v2 )

ライセンス: Link先を確認
James Queeney, Erhan Can Ozcan, Ioannis Ch. Paschalidis, Christos G. Cassandras, (参考訳) 深い強化学習の信頼できる展開には、ロバストさと安全性が不可欠である。 実世界の意思決定アプリケーションは、トレーニング中のデータ収集プロセスに限定的な仮定をしながら、一般的な環境障害の存在下で堅牢なパフォーマンスと安全性を保証するアルゴリズムを必要とする。 この目的を達成するために、最適な輸送コストの不確実性セットを用いてロバストネスを組み込んだ安全な強化学習フレームワークを導入する。 トレーニング中のデータ収集に影響を与えず,詳細なシミュレータアクセスを必要としない,最悪の仮想状態遷移を構築するための最適輸送摂動の適用に基づく効率的な実装を提供する。 安全制約のある継続的制御タスクの実験では,本手法は,標準的な安全強化学習と比較して,配置時の安全性を著しく向上させながら,堅牢な性能を示す。

Robustness and safety are critical for the trustworthy deployment of deep reinforcement learning. Real-world decision making applications require algorithms that can guarantee robust performance and safety in the presence of general environment disturbances, while making limited assumptions on the data collection process during training. In order to accomplish this goal, we introduce a safe reinforcement learning framework that incorporates robustness through the use of an optimal transport cost uncertainty set. We provide an efficient implementation based on applying Optimal Transport Perturbations to construct worst-case virtual state transitions, which does not impact data collection during training and does not require detailed simulator access. In experiments on continuous control tasks with safety constraints, our approach demonstrates robust performance while significantly improving safety at deployment time compared to standard safe reinforcement learning.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 時系列コントラスト学習の促進に向けて:動的に悪いペアマイニングアプローチ

Towards Enhancing Time Series Contrastive Learning: A Dynamic Bad Pair Mining Approach ( http://arxiv.org/abs/2302.03357v3 )

ライセンス: Link先を確認
Xiang Lan, Hanshu Yan, Shenda Hong, Mengling Feng, (参考訳) すべての正のペアが時系列の対照的な学習に有益であるとは限らない。 本稿では,逆学習によって学習される時系列表現の質を損なう2種類の悪い正の対,雑音の正の対と不良の正の対について検討する。 ノイズ正ペアの存在下では、モデルは単にノイズのパターンを学習する傾向がある(ノイズアライメント)。 一方、欠陥のある正のペアが発生すると、モデルは非表現的パターン(フォーティアライメント)を整列させるのにかなりの労力を浪費する。 この問題に対処するために、時系列のコントラスト学習において、悪い正のペアを確実に識別し、抑制する動的バッドペアマイニング(DBPM)アルゴリズムを提案する。 具体的には、メモリモジュールを使用して、トレーニングプロセスに沿って各正のペアのトレーニング動作を動的に追跡する。 これにより、過去のトレーニング行動に基づいて、各エポックにおける潜在的な悪い正のペアを特定できる。 識別された悪いペアはその後、変換モジュールを通じて低重み付けされ、それによって表現学習プロセスに対する負の影響を軽減します。 DBPMは、既存の最先端手法の性能を高めるために、学習可能なパラメータなしで軽量なプラグインとして設計された単純なアルゴリズムである。 4つの大規模な実世界の時系列データセットで実施された広範な実験を通して、悪い正のペアの悪影響を緩和するDBPMの有効性を実証する。

Not all positive pairs are beneficial to time series contrastive learning. In this paper, we study two types of bad positive pairs that can impair the quality of time series representation learned through contrastive learning: the noisy positive pair and the faulty positive pair. We observe that, with the presence of noisy positive pairs, the model tends to simply learn the pattern of noise (Noisy Alignment). Meanwhile, when faulty positive pairs arise, the model wastes considerable amount of effort aligning non-representative patterns (Faulty Alignment). To address this problem, we propose a Dynamic Bad Pair Mining (DBPM) algorithm, which reliably identifies and suppresses bad positive pairs in time series contrastive learning. Specifically, DBPM utilizes a memory module to dynamically track the training behavior of each positive pair along training process. This allows us to identify potential bad positive pairs at each epoch based on their historical training behaviors. The identified bad pairs are subsequently down-weighted through a transformation module, thereby mitigating their negative impact on the representation learning process. DBPM is a simple algorithm designed as a lightweight plug-in without learnable parameters to enhance the performance of existing state-of-the-art methods. Through extensive experiments conducted on four large-scale, real-world time series datasets, we demonstrate DBPM's efficacy in mitigating the adverse effects of bad positive pairs.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 事前学習型GANとVAEの特徴学習

Feature Unlearning for Pre-trained GANs and VAEs ( http://arxiv.org/abs/2303.05699v4 )

ライセンス: Link先を確認
Saemi Moon, Seunghyuk Cho, Dongwoo Kim, (参考訳) 我々は,事前学習された画像生成モデルであるGANとVAEから特徴非学習の問題に取り組む。 学習対象がトレーニングセットのサブセットである一般的な未学習タスクとは異なり、訓練前の生成モデルから、顔画像のヘアスタイルのような特定の特徴を解き放つことを目指している。 対象特徴が画像の局所領域にのみ表示されるため、事前学習されたモデルから全体像を学習すると、画像の残りの領域で他の詳細が失われる可能性がある。 学習すべき特徴を特定するために,対象特徴を含むランダムに生成した画像を収集する。 次に、対象の特徴に対応する潜在表現を特定し、その表現を使用して事前訓練されたモデルを微調整する。 MNIST, CelebA, FFHQのデータセットを用いた実験により, 元のモデルの忠実さを維持しながら, ターゲット特徴の除去に成功した。 敵対的攻撃によるさらなる実験は、悪意ある当事者の存在下では、未学習のモデルはより堅牢であることを示している。

We tackle the problem of feature unlearning from a pre-trained image generative model: GANs and VAEs. Unlike a common unlearning task where an unlearning target is a subset of the training set, we aim to unlearn a specific feature, such as hairstyle from facial images, from the pre-trained generative models. As the target feature is only presented in a local region of an image, unlearning the entire image from the pre-trained model may result in losing other details in the remaining region of the image. To specify which features to unlearn, we collect randomly generated images that contain the target features. We then identify a latent representation corresponding to the target feature and then use the representation to fine-tune the pre-trained model. Through experiments on MNIST, CelebA, and FFHQ datasets, we show that target features are successfully removed while keeping the fidelity of the original models. Further experiments with an adversarial attack show that the unlearned model is more robust under the presence of malicious parties.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# ウォームスタートと量子コンピューティング:システムマッピング研究

Warm-Starting and Quantum Computing: A Systematic Mapping Study ( http://arxiv.org/abs/2303.06133v3 )

ライセンス: Link先を確認
Felix Truger, Johanna Barzen, Marvin Bechtold, Martin Beisel, Frank Leymann, Alexander Mandl, Vladimir Yussupov, (参考訳) 量子ビットの数が少なかったことと、そのエラー確率のため、ノイズ中間スケール量子(NISQ)コンピュータは、正常に実行可能な量子アルゴリズムのサイズに制約を課す。 最先端の研究は、既知のあるいは安価に生成された近似、ソリューション、またはモデルを利用して、スクラッチから始めるのではなく、タスクにアプローチするための出発点として、これらの制限に対処する様々な技術を導入している。 いわゆるウォームスタート技術は、量子リソース消費を減らすことを目的としており、NISQコンピュータの能力に合ったアルゴリズムの設計を容易にする。 本研究では,量子コンピューティング領域におけるウォームスタート技術に関する科学文献の収集と分析を行う。 特に私達は 一 系統地図研究の確立されたガイドラインを用いて、ウォームスタート技術に関する最先端研究の体系地図を作成すること。 二 当該技法の関連性を識別し、 (iii)これらの特性に基づき、拡張可能な分類方式で文献で特定された技法を分類する。 この結果は,研究分野の知見を提供し,量子ソフトウェア技術者がウォームスタートテクニックを分類し,実際に適用することを支援することを目的としている。 さらに,本研究は,既存の研究の概要を提供し,研究ギャップの特定を容易にするため,温暖化に関するさらなる研究の出発点となる可能性がある。

Due to low numbers of qubits and their error-proneness, Noisy Intermediate-Scale Quantum (NISQ) computers impose constraints on the size of quantum algorithms they can successfully execute. State-of-the-art research introduces various techniques addressing these limitations by utilizing known or inexpensively generated approximations, solutions, or models as a starting point to approach a task instead of starting from scratch. These so-called warm-starting techniques aim to reduce quantum resource consumption, thus facilitating the design of algorithms suiting the capabilities of NISQ computers. In this work, we collect and analyze scientific literature on warm-starting techniques in the quantum computing domain. In particular, we (i) create a systematic map of state-of-the-art research on warm-starting techniques using established guidelines for systematic mapping studies, (ii) identify relevant properties of such techniques, and (iii) based on these properties classify the techniques identified in the literature in an extensible classification scheme. Our results provide insights into the research field and aim to help quantum software engineers to categorize warm-starting techniques and apply them in practice. Moreover, our contributions may serve as a starting point for further research on the warm-starting topic since they provide an overview of existing work and facilitate the identification of research gaps.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 大規模オープンチャレンジにおけるジェスチャー生成の評価: GENEA Challenge 2022

Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022 ( http://arxiv.org/abs/2303.08737v2 )

ライセンス: Link先を確認
Taras Kucherenko, Pieter Wolfert, Youngwoo Yoon, Carla Viegas, Teodor Nikolov, Mihail Tsakov, Gustav Eje Henter, (参考訳) 本稿では,データ駆動型自動音声ジェスチャー生成のための第2回GENEAチャレンジについて報告する。 参加チームは、ジェスチャー生成システムを構築するために、同じスピーチとモーションデータセットを使用した。 これらのシステムによって生成された動きは、標準化されたヴィジュアライゼーションパイプラインを使用してビデオにレンダリングされ、クラウドソーシングされた大規模ユーザ研究で評価された。 異なる研究論文を比較する場合とは異なり、結果の違いは、方法の違いによってのみ発生し、システム間の直接比較を可能にする。 データセットは、ディヤドの会話に参加している異なる人の指を含む18時間のフルボディモーションキャプチャに基づいていた。 10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。 各階層において、ジェスチャー動作の人間的類似度と、特定の音声信号に対する適切性の両方を評価した。 本評価では, ジェスチャーの適切性から人的類似性を分離し, この分野では困難な問題となっている。 以上の結果から, 合成ジェスチャー条件は3次元モーションキャプチャよりも, はるかに人間らしく評価されていることがわかった。 私たちの知る限りでは、これは以前にも実証されていない。 一方、すべての合成動作は、元のモーションキャプチャー記録よりも音声に非常に適していないことが判明した。 また、従来の客観的指標は、この大評価において主観的人間性評価とよく相関しないことがわかった。 例外はFr'echet ジェスチャー距離 (FGD) であり、Kendall の Tau ランクの相関はおよそ 0.5$ である。 課題の結果に基づいて,システム構築と評価のための多数の推奨事項を定式化する。

This paper reports on the second GENEA Challenge to benchmark data-driven automatic co-speech gesture generation. Participating teams used the same speech and motion dataset to build gesture-generation systems. Motion generated by all these systems was rendered to video using a standardised visualisation pipeline and evaluated in several large, crowdsourced user studies. Unlike when comparing different research papers, differences in results are here only due to differences between methods, enabling direct comparison between systems. The dataset was based on 18 hours of full-body motion capture, including fingers, of different persons engaging in a dyadic conversation. Ten teams participated in the challenge across two tiers: full-body and upper-body gesticulation. For each tier, we evaluated both the human-likeness of the gesture motion and its appropriateness for the specific speech signal. Our evaluations decouple human-likeness from gesture appropriateness, which has been a difficult problem in the field. The evaluation results show some synthetic gesture conditions being rated as significantly more human-like than 3D human motion capture. To the best of our knowledge, this has not been demonstrated before. On the other hand, all synthetic motion is found to be vastly less appropriate for the speech than the original motion-capture recordings. We also find that conventional objective metrics do not correlate well with subjective human-likeness ratings in this large evaluation. The one exception is the Fr\'echet gesture distance (FGD), which achieves a Kendall's tau rank correlation of around $-0.5$. Based on the challenge results we formulate numerous recommendations for system building and evaluation.
翻訳日:2024-03-29 22:22:33 公開日:2024-03-28
# 超軽量タッチによる量子因果推論

Quantum Causal Inference with Extremely Light Touch ( http://arxiv.org/abs/2303.10544v3 )

ライセンス: Link先を確認
Xiangjing Liu, Yixian Qiu, Oscar Dahlsten, Vlatko Vedral, (参考訳) 事象間の因果関係を推定する量子バージョンを考える。 必要な最小限の介入と観察を特定するための最近の進歩がある。 ここでは,2つの測定値を持つ二部量子系の場合のみに量子観測を用いた明示的な量子因果推論スキームを提案する。 このシナリオでは、時間的相関と空間的相関が組み合わせられる。 空間時間擬似密度行列の閉形式表現を複数時間およびキュービットに関連付ける。 この行列は粗粒の量子観測だけで決定でき、このプロトコルは極端に軽い触覚である。 2つのサブシステム間にシグナルが存在しない場合、擬密度行列の関連する還元状態が初期空間相関の有無にかかわらず負性を持つことができないことが証明される。 さらに擬似密度行列の時間非対称性を利用して事象の時間次数を決定する。 負性および時間非対称性は、因果影響の方向と初期相関の有無によって区別される5つの因果構造との整合性を決定するために用いられる。 このプロトコルは、完全にデコヒーリングされたチャネルのコヒーレンスを持つ状態に成功し、チャネル内のコヒーレンスが観測のみによる因果推論の量子的優位性には必要ないことを示した。

We consider the quantum version of inferring the causal relation between events. There has been recent progress towards identifying minimal interventions and observations needed. We here give an explicit quantum causal inference scheme using quantum observations alone for the case of a bipartite quantum system with measurements at two times. In this scenario there may be combinations of temporal and spatial correlations. We derive a closed-form expression for the space-time pseudo-density matrix associated with many times and qubits. This matrix can be determined by coarse-grained quantum observations alone and the protocol is in that sense extremely light touch. We prove that if there is no signalling between two subsystems, the associated reduced state of the pseudo-density matrix cannot have negativity, regardless of the possible presence of initial spatial correlations. We further exploit the time asymmetry of the pseudo-density matrix to determine the temporal order of events. The negativity and time asymmetry are used to determine compatibility with 5 causal structures distinguished by the direction of causal influence and whether there are initial correlations or not. The protocol succeeds for a state with coherence undergoing a fully decohering channel, showing that coherence in the channel is not necessary for the quantum advantage of causal inference from observations alone.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# 重み付き持続バーコードに対する安定性定理

A stability theorem for bigraded persistence barcodes ( http://arxiv.org/abs/2303.14694v2 )

ライセンス: Link先を確認
Anthony Bahri, Ivan Limonchenko, Taras Panov, Jongbaek Song, Donald Stanley, (参考訳) 我々は、X のビエトリス・リップス濾過に付随するモーメント・アングル複ホモロジーの正規および二重ホモロジーを用いて、有限擬距離空間 X のビッグラッド持続ホモロジー加群と大デレートバーコードを定義し、大デレート持続二重ホモロジー加群とバーコードに対する安定性定理を証明した。

We define bigraded persistent homology modules and bigraded barcodes of a finite pseudo-metric space X using the ordinary and double homology of the moment-angle complex associated with the Vietoris-Rips filtration of X. We prove a stability theorem for the bigraded persistent double homology modules and barcodes.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# フラクトン自己統計

Fracton Self-Statistics ( http://arxiv.org/abs/2304.00028v2 )

ライセンス: Link先を確認
Hao Song, Nathanan Tantivasadakarn, Wilbur Shirley, Michael Hermele, (参考訳) フラクトン秩序(フラクトンりょう、英: Fracton order)は、移動が制限された準粒子をホストする物質の新しい量子相を記述し、したがって、トポロジカル秩序の既存のパラダイムを越えている。 特に、複数の励起を作らなければ動けない励起はフラクトンと呼ばれる。 ここでは、基本的なオープンな問題に対処する -- 自己交換統計学の概念はフラクトンに対して自然に定義できるのか。 驚いたことに、フラクトンがどのように交換されるかを示し、それらの自己統計がフラクトンオーダーのキャラクタリゼーションの重要な部分であることを示す。 我々は、アベリアのフラクトンオーダーの大規模なクラスにおいて、フラクトン自己統計学によって満たされる一般的な制約を導出する。 最後に、チェッカーボードモデルとハアの符号のねじれた変種に非自明なフラクトン自己統計が存在することを示し、これらのモデルが従兄弟と比べて異なる量子相にあることを証明した。

Fracton order describes novel quantum phases of matter that host quasiparticles with restricted mobility, and thus lies beyond the existing paradigm of topological order. In particular, excitations that cannot move without creating multiple excitations are called fractons. Here we address a fundamental open question -- can the notion of self-exchange statistics be naturally defined for fractons, given their complete immobility as isolated excitations? Surprisingly, we demonstrate how fractons can be exchanged, and show that their self-statistics is a key part of the characterization of fracton orders. We derive general constraints satisfied by the fracton self-statistics in a large class of Abelian fracton orders. Finally, we show the existence of nontrivial fracton self-statistics in some twisted variants of the checkerboard model and Haah's code, establishing that these models are in distinct quantum phases as compared to their untwisted cousins.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# RFAConv:空間アテンションの革新と標準畳み込み運用

RFAConv: Innovating Spatial Attention and Standard Convolutional Operation ( http://arxiv.org/abs/2304.03198v6 )

ライセンス: Link先を確認
Xin Zhang, Chen Liu, Degang Yang, Tingting Song, Yichen Ye, Ke Li, Yingze Song, (参考訳) 空間的注意は畳み込みニューラルネットワークの性能向上に広く利用されている。 しかし、一定の制限がある。 本稿では、空間的注意力のメカニズムが、畳み込みカーネルパラメータ共有の問題を本質的に解決する、空間的注意力の有効性に関する新しい視点を提案する。 しかし、空間的注意によって生成された注目マップに含まれる情報は、大規模な畳み込みカーネルでは不十分である。 そこで本研究では,RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。 Convolutional Block Attention Module (CBAM) や Coordinated Attention (CA) のような既存の空間的注意は、畳み込みカーネルパラメータ共有の問題を完全に解決しない空間的特徴のみに焦点を当てている。 対照的に、RFAは受容場空間の特徴に焦点をあてるだけでなく、大きな畳み込みカーネルに対して効果的な注意重みを与える。 RFA が開発した Receptive-Field Attention Convolutional Operation (RFAConv) は、標準の畳み込み操作を置き換える新しいアプローチである。 計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。 我々は、ImageNet-1k、COCO、VOCデータセット上で一連の実験を行い、我々のアプローチの優位性を実証した。 特に重要なことは、現在の空間的注意機構において、焦点を空間的特徴から受容的空間的特徴にシフトする時が来たと信じている。 このようにして、ネットワーク性能をさらに改善し、さらに優れた結果を得ることができる。 関連するタスクのコードと事前訓練されたモデルは、https://github.com/Liuchen 1997/RFAConv.comで見ることができる。

Spatial attention has been widely used to improve the performance of convolutional neural networks. However, it has certain limitations. In this paper, we propose a new perspective on the effectiveness of spatial attention, which is that the spatial attention mechanism essentially solves the problem of convolutional kernel parameter sharing. However, the information contained in the attention map generated by spatial attention is not sufficient for large-size convolutional kernels. Therefore, we propose a novel attention mechanism called Receptive-Field Attention (RFA). Existing spatial attention, such as Convolutional Block Attention Module (CBAM) and Coordinated Attention (CA) focus only on spatial features, which does not fully address the problem of convolutional kernel parameter sharing. In contrast, RFA not only focuses on the receptive-field spatial feature but also provides effective attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv), developed by RFA, represents a new approach to replace the standard convolution operation. It offers nearly negligible increment of computational cost and parameters, while significantly improving network performance. We conducted a series of experiments on ImageNet-1k, COCO, and VOC datasets to demonstrate the superiority of our approach. Of particular importance, we believe that it is time to shift focus from spatial features to receptive-field spatial features for current spatial attention mechanisms. In this way, we can further improve network performance and achieve even better results. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# InterGen:複雑な相互作用下での拡散に基づくマルチヒューマンモーション生成

InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions ( http://arxiv.org/abs/2304.05684v3 )

ライセンス: Link先を確認
Han Liang, Wenqian Zhang, Wenxuan Li, Jingyi Yu, Lan Xu, (参考訳) 私たちは最近、現実的な人間の動きを生み出すための拡散の進歩を目の当たりにしています。 しかし、それらは多人の相互作用をほとんど無視している。 本稿では,人間同士のインタラクションを移動拡散プロセスに組み込んだ効果的な拡散に基づくアプローチであるInterGenを提案する。 まず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。 様々な2人インタラクションのための約107万フレームで構成され、正確な骨格運動と23,337の自然言語記述がある。 アルゴリズム側では、動作拡散モデルと2人のインタラクション設定を慎重に調整する。 相互作用中の人間のアイデンティティの対称性を扱うために,重みを明示的に共有する2つの共用変圧器と,これら2つの重み付けプロセスをさらに接続するための相互注意機構を提案する。 そこで我々は,この相互作用拡散モデルにおいて,世界フレームにおける2人のパフォーマーのグローバルな関係を明示的に定式化した動き入力の表現を提案する。 さらに、相互作用拡散モデルのトレーニング中に対応する減衰方式を備えた空間関係を符号化する2つの新しい正規化項を導入する。 大規模な実験はInterGenの有効性と一般化性を検証する。 特に、従来の方法よりも多様で説得力のある2人の動作を生成し、人間のインタラクションに様々な下流の応用を可能にする。

We have recently seen tremendous progress in diffusion advances for generating realistic human motions. Yet, they largely disregard the multi-human interactions. In this paper, we present InterGen, an effective diffusion-based approach that incorporates human-to-human interactions into the motion diffusion process, which enables layman users to customize high-quality two-person interaction motions, with only text guidance. We first contribute a multimodal dataset, named InterHuman. It consists of about 107M frames for diverse two-person interactions, with accurate skeletal motions and 23,337 natural language descriptions. For the algorithm side, we carefully tailor the motion diffusion model to our two-person interaction setting. To handle the symmetry of human identities during interactions, we propose two cooperative transformer-based denoisers that explicitly share weights, with a mutual attention mechanism to further connect the two denoising processes. Then, we propose a novel representation for motion input in our interaction diffusion model, which explicitly formulates the global relations between the two performers in the world frame. We further introduce two novel regularization terms to encode spatial relations, equipped with a corresponding damping scheme during the training of our interaction diffusion model. Extensive experiments validate the effectiveness and generalizability of InterGen. Notably, it can generate more diverse and compelling two-person motions than previous methods and enables various downstream applications for human interactions.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# グラフコード構築のためのZX-Calculusアプローチ

A ZX-Calculus Approach for the Construction of Graph Codes ( http://arxiv.org/abs/2304.08363v3 )

ライセンス: Link先を確認
Zipeng Wu, Song Cheng, Bei Zeng, (参考訳) QECC(Quantum Error-Correcting Codes)は、量子コンピューティングと通信システムの堅牢性を高める上で重要な役割を果たす。 QECCの領域内では、安定化符号、特にグラフ符号は、それぞれの異なる特性と量子技術における有望な有用性で際立っている。 本研究は,グラフ符号のエンコーダを効果的に表現するために,拡張性のあるQECCを考案することの重要性を浮き彫りにして,ZX-calculusを量子計算推論に精通したグラフィカル言語として採用する。 そこで我々は,ZX計算と確立されたエンコーダフレームワークの統合を通じて,このグラフィカル表現を活用して大規模QECCの構築を容易にするニュアンスなアプローチを提案する。 本手法は,連結グラフ符号の複雑化とホログラフィック符号の開発に厳密に応用し,複雑な量子誤り訂正問題に対処するためのグラフィカルアプローチの実践性を実証する。 本研究は、量子誤り訂正の理論的理解に寄与し、その応用に実用的なツールを提供し、量子コンピューティングの分野における客観的な進歩を提供する。

Quantum Error-Correcting Codes (QECCs) play a crucial role in enhancing the robustness of quantum computing and communication systems against errors. Within the realm of QECCs, stabilizer codes, and specifically graph codes, stand out for their distinct attributes and promising utility in quantum technologies. This study underscores the significance of devising expansive QECCs and adopts the ZX-calculus a graphical language adept at quantum computational reasoning-to depict the encoders of graph codes effectively. Through the integration of ZX-calculus with established encoder frameworks, we present a nuanced approach that leverages this graphical representation to facilitate the construction of large-scale QECCs. Our methodology is rigorously applied to examine the intricacies of concatenated graph codes and the development of holographic codes, thus demonstrating the practicality of our graphical approach in addressing complex quantum error correction challenges. This research contributes to the theoretical understanding of quantum error correction and offers practical tools for its application, providing objective advancements in the field of quantum computing.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# 画像分類のための量子機械学習

Quantum machine learning for image classification ( http://arxiv.org/abs/2304.09224v2 )

ライセンス: Link先を確認
Arsenii Senokosov, Alexandr Sedykh, Asel Sagingalieva, Basil Kyriacou, Alexey Melnikov, (参考訳) 複数の産業において重要な課題である画像分類は、膨大な量のビジュアルデータによって計算上の課題に直面している。 本研究では、量子力学の原理を有効計算に活用する2つの量子機械学習モデルを導入することにより、これらの課題に対処する。 我々の最初のモデルは、並列量子回路を持つハイブリッド量子ニューラルネットワークであり、多くの量子ビットを持つ回路が現在実現不可能な、ノイズの多い中間スケール量子時代においても、計算の実行を可能にする。 このモデルは、MNISTの全データセットで99.21%という記録破りの分類精度を示し、既知の量子古典モデルの性能を上回った。 また、このハイブリッドモデルをメディカルMNIST(分類精度99%以上)およびCIFAR-10(分類精度82%以上)でテストした結果、モデルの一般化可能性の証拠となり、入力データの共通の特徴を識別する量子層の効率性を強調している。 2つ目のモデルでは、畳み込み処理による画像の解像度を低減し、四畳み込み層を持つハイブリッド量子ニューラルネットワークを導入している。 このモデルは、トレーニング可能なパラメータが4倍少なく、同じ重量パラメータを持つ古典的なモデルよりも優れている。 これらのモデルは、量子機械学習研究の進歩を表し、より正確な画像分類システムへの道を示す。

Image classification, a pivotal task in multiple industries, faces computational challenges due to the burgeoning volume of visual data. This research addresses these challenges by introducing two quantum machine learning models that leverage the principles of quantum mechanics for effective computations. Our first model, a hybrid quantum neural network with parallel quantum circuits, enables the execution of computations even in the noisy intermediate-scale quantum era, where circuits with a large number of qubits are currently infeasible. This model demonstrated a record-breaking classification accuracy of 99.21% on the full MNIST dataset, surpassing the performance of known quantum-classical models, while having eight times fewer parameters than its classical counterpart. Also, the results of testing this hybrid model on a Medical MNIST (classification accuracy over 99%), and on CIFAR-10 (classification accuracy over 82%), can serve as evidence of the generalizability of the model and highlights the efficiency of quantum layers in distinguishing common features of input data. Our second model introduces a hybrid quantum neural network with a Quanvolutional layer, reducing image resolution via a convolution process. The model matches the performance of its classical counterpart, having four times fewer trainable parameters, and outperforms a classical model with equal weight parameters. These models represent advancements in quantum machine learning research and illuminate the path towards more accurate image classification systems.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# アース・パーサー:空中スキャンで3Dプロトタイプを発見

Learnable Earth Parser: Discovering 3D Prototypes in Aerial Scans ( http://arxiv.org/abs/2304.09704v2 )

ライセンス: Link先を確認
Romain Loiseau, Elliot Vincent, Mathieu Aubry, Loic Landrieu, (参考訳) そこで本研究では,現実のシーンの大規模な3次元スキャンを,容易に解釈可能な形状で解析するための教師なし手法を提案する。 本研究の目的は,ユーザアノテーションを必要とせずに,航空測量・地図の文脈で3Dシーンを解析する実用的なツールを提供することである。 提案手法は,入力された3次元点群を学習された3次元形状の小さな集合に分解する確率的再構成モデルに基づく。 結果として得られる再構成は視覚的に解釈可能であり、複雑なシーンの教師なしインスタンスとローショットセマンティックセマンティックセグメンテーションの実行に使用できる。 実世界の様々なシナリオから得られた7つの大型LiDARスキャンのデータセット上で,本モデルの有用性を実証する。 本手法は、視覚的に解釈可能なままの分解精度において、最先端の教師なし手法よりも優れる。 私たちのコードとデータセットはhttps://romainloiseau.fr/learnable-earth-parser/で公開されています。

We propose an unsupervised method for parsing large 3D scans of real-world scenes with easily-interpretable shapes. This work aims to provide a practical tool for analyzing 3D scenes in the context of aerial surveying and mapping, without the need for user annotations. Our approach is based on a probabilistic reconstruction model that decomposes an input 3D point cloud into a small set of learned prototypical 3D shapes. The resulting reconstruction is visually interpretable and can be used to perform unsupervised instance and low-shot semantic segmentation of complex scenes. We demonstrate the usefulness of our model on a novel dataset of seven large aerial LiDAR scans from diverse real-world scenarios. Our approach outperforms state-of-the-art unsupervised methods in terms of decomposition accuracy while remaining visually interpretable. Our code and dataset are available at https://romainloiseau.fr/learnable-earth-parser/
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# NaviNeRF:潜時セマンティックナビゲーションによるNeRFに基づく3次元表現の絡み合い

NaviNeRF: NeRF-based 3D Representation Disentanglement by Latent Semantic Navigation ( http://arxiv.org/abs/2304.11342v2 )

ライセンス: Link先を確認
Baao Xie, Bohan Li, Zequn Zhang, Junting Dong, Xin Jin, Jingyu Yang, Wenjun Zeng, (参考訳) 3D表現のゆがみは、3Dデータの基本的な説明的要素を特定し、分解し、操作することを目的としており、AIが我々の3D世界を根本的に理解するのに役立つ。 このタスクは現在調査中であり、大きな課題を提起しています。 (i)3次元表現は複雑で、一般に2次元画像よりもはるかに多くの情報を含む。 (ii)多くの3次元表現は勾配に基づく最適化には適していない。 これらの課題に対処するために、NeRFを識別可能な3次元表現として使用し、潜在空間における解釈可能な意味方向を特定するための自己教師付きナビゲーションを導入する。 我々の知る限り、NaviNeRFと呼ばれるこの新しい手法は、先行や監督なしに細粒度の3Dディスタングルを達成した最初の試みである。 具体的には、NaviNeRFは生成するNeRFパイプライン上に構築されており、アウターナビゲーションブランチとインナーリファインメントブランチを備えている。 それらは補完的なものであり、外界のナビゲーションはグローバルなビューの意味的な方向を識別することであり、内部の洗練はきめ細かい属性に捧げられている。 相乗的損失はさらに2つの枝を調整するために考案される。 大規模な実験により、NaviNeRFは従来の3D認識モデルよりもきめ細かい3Dディスタングル能力を有することが示された。 その性能は、セマンティックや幾何の先行に依存する編集指向モデルに匹敵する。

3D representation disentanglement aims to identify, decompose, and manipulate the underlying explanatory factors of 3D data, which helps AI fundamentally understand our 3D world. This task is currently under-explored and poses great challenges: (i) the 3D representations are complex and in general contains much more information than 2D image; (ii) many 3D representations are not well suited for gradient-based optimization, let alone disentanglement. To address these challenges, we use NeRF as a differentiable 3D representation, and introduce a self-supervised Navigation to identify interpretable semantic directions in the latent space. To our best knowledge, this novel method, dubbed NaviNeRF, is the first work to achieve fine-grained 3D disentanglement without any priors or supervisions. Specifically, NaviNeRF is built upon the generative NeRF pipeline, and equipped with an Outer Navigation Branch and an Inner Refinement Branch. They are complementary -- the outer navigation is to identify global-view semantic directions, and the inner refinement dedicates to fine-grained attributes. A synergistic loss is further devised to coordinate two branches. Extensive experiments demonstrate that NaviNeRF has a superior fine-grained 3D disentanglement ability than the previous 3D-aware models. Its performance is also comparable to editing-oriented models relying on semantic or geometry priors.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# 複素量子系における最適化に対する熱力学的アプローチ

A thermodynamic approach to optimization in complex quantum systems ( http://arxiv.org/abs/2305.06008v2 )

ライセンス: Link先を確認
Alberto Imparato, Nicholas Chancellor, Gabriele De Chiara, (参考訳) 複素量子ハミルトニアンのエネルギー最小値を求める問題は、低エネルギー状態で調製された非マルコフ浴を用いることによって解決される。 これにより、エネルギー最小化問題は熱力学的冷却プロトコルに変換され、より低温の補助システムとの接触に関心を持つシステムが繰り返し配置される。 浴の内部パラメータを調整することにより, 熱力学限界における量子相転移を示す状態において, 最適冷却が得られることを示す。 この結果は、熱力学デバイスにおける集団効果の重要性を強調している。 さらに,浴槽との相互作用をエネルギーの指標と組み合わせた2段階のプロトコルを導入する。 このプロトコルは利害関係におけるコヒーレンスを損なうものではないが, 冷却効果をさらに高めることができることを示す。

We consider the problem of finding the energy minimum of a complex quantum Hamiltonian by employing a non-Markovian bath prepared in a low energy state. The energy minimization problem is thus turned into a thermodynamic cooling protocol in which we repeatedly put the system of interest in contact with a colder auxiliary system. By tuning the internal parameters of the bath, we show that the optimal cooling is obtained in a regime where the bath exhibits a quantum phase transition in the thermodynamic limit. This result highlights the importance of collective effects in thermodynamic devices. We furthermore introduce a two-step protocol that combines the interaction with the bath with a measure of its energy. While this protocol does not destroy coherence in the system of interest, we show that it can further enhance the cooling effect.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# リンダ、何が問題なのか? フェアネス問題としての接続不良

What's the Problem, Linda? The Conjunction Fallacy as a Fairness Problem ( http://arxiv.org/abs/2305.09535v3 )

ライセンス: Link先を確認
Jose Alvarez Colmenares, (参考訳) 人工知能(AI)の分野は、人間のような知性に可能な限り近づいた自動意思決定(ADM)システムを作ることに重点を置いている。 この取り組みにより、AI研究者は心理学のような認知分野を探求した。 ダニエル・カーネマン(Daniel Kahneman)とアモス・トヴェルスキー(Amos Tversky)の研究は、共同誤認の研究を含む偏見のある人間の意思決定に関するものである。 合理化の失敗の下では、人間の意思決定者は基本的確率法に反し、その部分の1つよりも協力的になる可能性が高い。 リンダ問題(英語版)の一連の実験を通じて、最も有名なものであることが証明されている。 この学際的な取り組みは歓迎されるが、AI研究者はリンダ問題(英語版)によって捉えられた連帯の誤りの背後にある推進力を無視している:リンダが女性としてステレオタイプで表現されなければならないという事実を恐れている。 本稿では,リンダ問題を再検討し,公平性問題として定式化する。 そこで我々は、構造的因果認識の枠組みを通じて、関心のパラメータとして知覚を導入する。 具体的意思決定の例を用いて、提案する概念的枠組みと、公正なADMシステムの開発に対する潜在的影響を示す。

The field of Artificial Intelligence (AI) is focusing on creating automated decision-making (ADM) systems that operate as close as possible to human-like intelligence. This effort has pushed AI researchers into exploring cognitive fields like psychology. The work of Daniel Kahneman and the late Amos Tversky on biased human decision-making, including the study of the conjunction fallacy, has experienced a second revival because of this. Under the conjunction fallacy a human decision-maker will go against basic probability laws and rank as more likely a conjunction over one of its parts. It has been proven overtime through a set of experiments with the Linda Problem being the most famous one. Although this interdisciplinary effort is welcomed, we fear that AI researchers ignore the driving force behind the conjunction fallacy as captured by the Linda Problem: the fact that Linda must be stereotypically described as a woman. In this paper we revisit the Linda Problem and formulate it as a fairness problem. In doing so we introduce perception as a parameter of interest through the structural causal perception framework. Using an illustrative decision-making example, we showcase the proposed conceptual framework and its potential impact for developing fair ADM systems.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# PrOnto:859言語に対する言語モデル評価

PrOnto: Language Model Evaluations for 859 Languages ( http://arxiv.org/abs/2305.12612v2 )

ライセンス: Link先を確認
Luke Gessler, (参考訳) 評価データセットは、事前訓練された言語モデルの品質を測定するための重要なリソースである。 しかし、データセットアノテーションのコストが高いため、これらのリソースは英語以外のほとんどの言語では不十分であり、言語モデルの品質を評価することは困難である。 本研究では,新約聖書翻訳を施した言語に対して,事前学習した言語モデル評価に適した評価データセット群を受信できる新しい評価データセット構築手法を提案する。 この手法は、英語OntoNotesのNew Testament部分にあるものと詩を一致させ、手動の注釈を必要とせず、英語からターゲット言語にアノテーションを投影する。 859年の新約聖書翻訳1051件に適用し公開する。 さらに,言語モデルの品質を評価できる評価タスクを作成するための手法の有効性を実証する実験を行った。

Evaluation datasets are critical resources for measuring the quality of pretrained language models. However, due to the high cost of dataset annotation, these resources are scarce for most languages other than English, making it difficult to assess the quality of language models. In this work, we present a new method for evaluation dataset construction which enables any language with a New Testament translation to receive a suite of evaluation datasets suitable for pretrained language model evaluation. The method critically involves aligning verses with those in the New Testament portion of English OntoNotes, and then projecting annotations from English to the target language, with no manual annotation required. We apply this method to 1051 New Testament translations in 859 and make them publicly available. Additionally, we conduct experiments which demonstrate the efficacy of our method for creating evaluation tasks which can assess language model quality.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# 英語ニュース記事における文レベル主観性検出コーパス

A Corpus for Sentence-level Subjectivity Detection on English News Articles ( http://arxiv.org/abs/2305.18034v2 )

ライセンス: Link先を確認
Francesco Antici, Andrea Galassi, Federico Ruggeri, Katerina Korre, Arianna Muti, Alessandra Bardi, Alice Fedotova, Alberto Barrón-Cedeño, (参考訳) 我々は,言語固有の手がかりに限らず,文レベルの主観性検出のための新しいガイドラインを開発した。 我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。 我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語や他の言語で主観的検出を行う方法を舗装している。 単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語 この目的のために、既存のイタリアのコーパスを再注釈する。 マルチ言語設定で訓練されたモデルがタスク上で最高のパフォーマンスを達成するのを観察する。

We develop novel annotation guidelines for sentence-level subjectivity detection, which are not limited to language-specific cues. We use our guidelines to collect NewsSD-ENG, a corpus of 638 objective and 411 subjective sentences extracted from English news articles on controversial topics. Our corpus paves the way for subjectivity detection in English and across other languages without relying on language-specific tools, such as lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task in mono-, multi-, and cross-language settings. For this purpose, we re-annotate an existing Italian corpus. We observe that models trained in the multilingual setting achieve the best performance on the task.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# リモートセンシング画像生成のためのManifold Constraint Regularization

Manifold Constraint Regularization for Remote Sensing Image Generation ( http://arxiv.org/abs/2305.19507v3 )

ライセンス: Link先を確認
Xingzhe Su, Changwen Zheng, Wenwen Qiang, Fengge Wu, Junsuo Zhao, Fuchun Sun, Hui Xiong, (参考訳) GAN(Generative Adversarial Networks)は、リモートセンシング領域における顕著な成果を示している。 しかし,本論文は,自然画像による印象的な結果と比較して,リモートセンシング画像の性能が低下していることを明らかにする。 本研究は, リモートセンシング画像に対するGANのオーバーフィットに対する感受性を高めることを目的として, リモートセンシング画像の特徴を分析し, リモートセンシング画像に対するGANのオーバーフィットに初めて取り組む新しいアプローチである, 多様体制約正規化を提案する。 本手法は,データ多様体の構造を評価するための新しい尺度を含む。 この尺度を活用することで、過剰適合問題を緩和するだけでなく、生成したデータ多様体と実データ多様体のアライメントを促進する多様体制約正規化項が提案され、生成した画像の品質が向上する。 本手法の有効性と汎用性は,様々なリモートセンシングデータセットやGANモデルに対する広範囲な検証を通じて裏付けられている。 提案手法は,Frechet Inception Distance(FID)スコアの3.13\%向上に反映された生成画像の品質向上だけでなく,分類精度の3.76\%向上が証明された下流タスクにおけるGANの性能向上にも寄与する。

Generative Adversarial Networks (GANs) have shown notable accomplishments in remote sensing domain. However, this paper reveals that their performance on remote sensing images falls short when compared to their impressive results with natural images. This study identifies a previously overlooked issue: GANs exhibit a heightened susceptibility to overfitting on remote sensing images.To address this challenge, this paper analyzes the characteristics of remote sensing images and proposes manifold constraint regularization, a novel approach that tackles overfitting of GANs on remote sensing images for the first time. Our method includes a new measure for evaluating the structure of the data manifold. Leveraging this measure, we propose the manifold constraint regularization term, which not only alleviates the overfitting problem, but also promotes alignment between the generated and real data manifolds, leading to enhanced quality in the generated images. The effectiveness and versatility of this method have been corroborated through extensive validation on various remote sensing datasets and GAN models. The proposed method not only enhances the quality of the generated images, reflected in a 3.13\% improvement in Frechet Inception Distance (FID) score, but also boosts the performance of the GANs on downstream tasks, evidenced by a 3.76\% increase in classification accuracy.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# ProTeCt: 分類学的オープンセット分類のためのプロンプトチューニング

ProTeCt: Prompt Tuning for Taxonomic Open Set Classification ( http://arxiv.org/abs/2306.02240v2 )

ライセンス: Link先を確認
Tz-Ying Wu, Chih-Hui Ho, Nuno Vasconcelos, (参考訳) CLIPのようなビジュアル言語基盤モデルは、ゼロショットのオープンセットの分類を可能にする一般化された表現を学ぶ。 プロンプトチューニングに基づいて、ダウンストリームデータセットのパフォーマンスをさらに向上するために、いくつかのショット適応手法が示されている。 しかし、これらの手法は分類的オープンセット(TOS)の設定ではうまくいきません。 しばしば、葉のレベル(元のクラスラベル)の推測が正しい場合でも、粗い分類学的階級レベルで誤ったラベルを推測する。 この問題に対処するために,モデル予測の階層的一貫性を校正するプロンプトチューニング手法を提案する。 階層的一貫性(hierarchical Consistent Accuracy, HCA)と平均木切り精度(Mean Treecut Accuracy, MTA)という一連の指標が最初に提案され、TOSモデルの性能を評価する。 次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。 その結果,ProTeCtを既存のプロンプトチューニング手法と組み合わせることで,葉レベル分類性能を低下させることなく,TOS分類を大幅に改善できることがわかった。

Visual-language foundation models, like CLIP, learn generalized representations that enable zero-shot open-set classification. Few-shot adaptation methods, based on prompt tuning, have been shown to further improve performance on downstream datasets. However, these methods do not fare well in the taxonomic open set (TOS) setting, where the classifier is asked to make predictions from label sets across different levels of semantic granularity. Frequently, they infer incorrect labels at coarser taxonomic class levels, even when the inference at the leaf level (original class labels) is correct. To address this problem, we propose a prompt tuning technique that calibrates the hierarchical consistency of model predictions. A set of metrics of hierarchical consistency, the Hierarchical Consistent Accuracy (HCA) and the Mean Treecut Accuracy (MTA), are first proposed to evaluate TOS model performance. A new Prompt Tuning for Hierarchical Consistency (ProTeCt) technique is then proposed to calibrate classification across label set granularities. Results show that ProTeCt can be combined with existing prompt tuning methods to significantly improve TOS classification without degrading the leaf level classification performance.
翻訳日:2024-03-29 22:12:46 公開日:2024-03-28
# 大規模言語モデルを用いたファウショット推論成功のプロンプト空間最適化

Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models ( http://arxiv.org/abs/2306.03799v2 )

ライセンス: Link先を確認
Fobo Shi, Peijun Qing, Dong Yang, Nan Wang, Youbo Lei, Haonan Lu, Xiaodong Lin, Duantengchuan Li, (参考訳) プロンプトエンジニアリングは、明示的で具体的な命令を提供することで、大規模言語モデル(LLM)の能力を高めるための重要な技術である。 LLMは算術的推論、質問応答、要約、関係抽出、機械翻訳、感情分析など、様々なタスクに優れる。 研究者は、Chain of Thought(CoT)、Zero-CoT、In-context Learningなど、さまざまな迅速なエンジニアリング戦略を積極的に検討している。 しかし、未解決の問題は、現在のアプローチが最適なプロンプトを決定するための堅固な数学的解決策を欠いているという事実から生じる。 本稿では,この問題を解決するために,プロンプト空間(Prompt Space)と呼ばれる新しい効果的手法を提案する。 本手法では,テキスト埋め込みを用いて行列分解による基底ベクトルを取得し,すべてのプロンプトを表す空間を構築する。 Prompt Spaceは、10の公開推論ベンチマークで最先端のプロンプトパラダイムを大幅に上回っている。 特に、CoT法と"Let's Think by Step"の助けなしに、Prompt Spaceは、数ショット法よりも優れたパフォーマンスを示している。 全体として、本手法は単純かつ効果的なプロンプトを選択するための堅牢で効果的な数学的枠組みを提供する。 この進歩は、LLMにおける幅広い応用のために、迅速なエンジニアリングを改善するための重要なステップとなる。 私たちのコードは、 \textcolor{blue}{\url{https://github.com/YouBLEI/Prompt-Space}}で公開されています。

Prompt engineering is an essential technique for enhancing the abilities of large language models (LLMs) by providing explicit and specific instructions. It enables LLMs to excel in various tasks, such as arithmetic reasoning, question answering, summarization, relation extraction, machine translation, and sentiment analysis. Researchers have been actively exploring different prompt engineering strategies, such as Chain of Thought (CoT), Zero-CoT, and In-context learning. However, an unresolved problem arises from the fact that current approaches lack a solid mathematical solution for determining optimal prompts. To address this issue in prompt engineering, we propose a new and effective approach called Prompt Space. Our methodology utilizes text embeddings to obtain basis vectors by matrix decomposition, and then constructs a space for representing all prompts. Prompt Space significantly outperforms state-of-the-art prompt paradigms on ten public reasoning benchmarks. Notably, without the help of the CoT method and the prompt "Let's think step by step", Prompt Space shows superior performance over the few-shot method. Overall, our approach provides a robust and effective mathematical framework for selecting simple and effective prompts. This advancement marks a significant step towards improving prompt engineering for a wide variety of applications in LLMs. Our code is publicly available at \textcolor{blue}{\url{https://github.com/YouBLEI/Prompt-Space}}
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# 光学共振器を用いたマジックアングルから離れたツイスト二層グラフェンの工学的平坦バンド

Engineering flat bands in twisted-bilayer graphene away from the magic angle with chiral optical cavities ( http://arxiv.org/abs/2306.05149v2 )

ライセンス: Link先を確認
Cunyuan Jiang, Matteo Baggioli, Qing-Dong Jiang, (参考訳) ツイスト型二層グラフェン(TBG)は、最近発見された2次元超格子構造であり、奇妙な金属の挙動や非伝統的な超伝導を含む強い相関の量子多体物理学を示す。 TBGのエキゾチックな性質の大部分は、いわゆるマジックアングル($\theta \approx 1.05^{\circ}$)で孤立したトポロジカルな電子バンドの出現に結びついている。 本研究は,光学共振器を用いて,約0.8^{\circ}<\theta<1.3^{\circ}$の間隔で,トポロジカルフラットバンドをマジックアングルから遠ざけることを示す。 単純化された理論モデルによって強調されるように、時間反転対称性の破れ(TRSB)は、空洞のキラルな性質によって誘導され、孤立したバンドを平坦化し、スペクトルの残りの部分を切り離すのに基本的な役割を果たす。 さらに、TRSBはベリー曲率を抑え、位相相転移を誘導し、ギャップを$$Gamma$ポイントで閉じ、チャーン数が$0$に等しい2つの孤立平坦なバンドを持つバンド構造へと導く。 キャビティの効率は、ツイスト角、光-マッター結合、光共振器特性周波数の関数として論じる。 以上の結果から,光デバイスを用いたTBGの工学的フラットバンドの可能性を示し,モワール超格子における強相関トポロジカル電子相の出現をより広い角度まで拡大した。

Twisted bilayer graphene (TBG) is a recently discovered two-dimensional superlattice structure which exhibits strongly-correlated quantum many-body physics, including strange metallic behavior and unconventional superconductivity. Most of TBG exotic properties are connected to the emergence of a pair of isolated and topological flat electronic bands at the so-called magic angle, $\theta \approx 1.05^{\circ}$, which are nevertheless very fragile. In this work, we show that, by employing chiral optical cavities, the topological flat bands can be stabilized away from the magic angle in an interval of approximately $0.8^{\circ}<\theta<1.3^{\circ}$. As highlighted by a simplified theoretical model, time reversal symmetry breaking (TRSB), induced by the chiral nature of the cavity, plays a fundamental role in flattening the isolated bands and gapping out the rest of the spectrum. Additionally, TRSB suppresses the Berry curvature and induces a topological phase transition, with a gap closing at the $\Gamma$ point, towards a band structure with two isolated flat bands with Chern number equal to $0$. The efficiency of the cavity is discussed as a function of the twisting angle, the light-matter coupling and the optical cavity characteristic frequency. Our results demonstrate the possibility of engineering flat bands in TBG using optical devices, extending the onset of strongly-correlated topological electronic phases in moir\'e superlattices to a wider range in the twisting angle.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# 拡張カルマンフィルタを用いた量子ゲートセットトモグラフィ

Streaming quantum gate set tomography using the extended Kalman filter ( http://arxiv.org/abs/2306.15116v3 )

ライセンス: Link先を確認
J. P. Marceaux, Kevin Young, (参考訳) 量子プロセッサのリアルタイム校正のためのクローズドループ制御アルゴリズムは、測定された量子回路結果のストリームに基づいて物理誤差パラメータを推定できる効率的なフィルタを必要とする。 このようなフィルタの開発は、観測された回路結果と初等誤差の大きさとの間の非常に非線形な関係によって複雑になる。 本研究では,拡張カルマンフィルタを量子ゲートセットトモグラフィーのデータに適用し,システムエラーモデルと不確実性の両方をストリーミング推定する。 我々の数値的な例では、拡張カルマンフィルタは最大推定値と同等の性能を達成できるが、計算コストは劇的に低下する。 提案手法により,標準ラップトップは1ビットと2ビットの回路結果を処理することができ,ゲートセットエラーモデルを現在の実験実行に匹敵する速度で更新することができる。

Closed-loop control algorithms for real-time calibration of quantum processors require efficient filters that can estimate physical error parameters based on streams of measured quantum circuit outcomes. Development of such filters is complicated by the highly nonlinear relationship relationship between observed circuit outcomes and the magnitudes of elementary errors. In this work, we apply the extended Kalman filter to data from quantum gate set tomography to provide a streaming estimator of the both the system error model and its uncertainties. Our numerical examples indicate extended Kalman filtering can achieve similar performance to maximum likelihood estimation, but with dramatically lower computational cost. With our method, a standard laptop can process one- and two-qubit circuit outcomes and update gate set error model at rates comparable with current experimental execution.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# 個人別分散推定と学習

Differentially Private Distributed Estimation and Learning ( http://arxiv.org/abs/2306.15865v5 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian, (参考訳) エージェントが未知の確率変数の統計的特性をプライベートに観測したサンプルから推定するために情報を交換するネットワーク環境において,分散推定と学習の問題について検討する。 エージェントは、プライベートな観察に関する情報を交換することで、その未知の量を総合的に見積もることができるが、プライバシー上のリスクにも直面する。 提案アルゴリズムは,既存の分散推定文献を拡張し,オフラインあるいはオンラインで取得したプライベート信号から十分な統計量を推定し,それらの信号やネットワーク近傍のプライバシーを維持する。 これは、オフラインとオンラインの両方の方法で、差分プライバシー(DP)制約の下で交換された推定値にノイズを加える調整されたランダム化スキームによる線形アグリゲーションスキームによって達成される。 収束速度解析と厳密な有限時間収束境界を提供する。 最良推定値に対する収束時間を最小化するノイズは、各エージェントの信号やネットワーク特性に対する感度に対応するパラメータを持つラプラスノイズであることを示す。 私たちのアルゴリズムは、動的なトポロジや、プライバシと精度のトレードオフのバランスに適しています。 最後に、我々の理論結果を補完し、検証するために、米国電力グリッドネットワークとドイツ家庭の電力消費データを用いて、すべてのプライバシー体制下での電力ステーションや家庭の平均消費電力を推定し、我々の手法が既存の一階、プライバシーに配慮した分散最適化手法より優れていることを示す。

We study distributed estimation and learning problems in a networked environment where agents exchange information to estimate unknown statistical properties of random variables from their privately observed samples. The agents can collectively estimate the unknown quantities by exchanging information about their private observations, but they also face privacy risks. Our novel algorithms extend the existing distributed estimation literature and enable the participating agents to estimate a complete sufficient statistic from private signals acquired offline or online over time and to preserve the privacy of their signals and network neighborhoods. This is achieved through linear aggregation schemes with adjusted randomization schemes that add noise to the exchanged estimates subject to differential privacy (DP) constraints, both in an offline and online manner. We provide convergence rate analysis and tight finite-time convergence bounds. We show that the noise that minimizes the convergence time to the best estimates is the Laplace noise, with parameters corresponding to each agent's sensitivity to their signal and network characteristics. Our algorithms are amenable to dynamic topologies and balancing privacy and accuracy trade-offs. Finally, to supplement and validate our theoretical results, we run experiments on real-world data from the US Power Grid Network and electric consumption data from German Households to estimate the average power consumption of power stations and households under all privacy regimes and show that our method outperforms existing first-order, privacy-aware, distributed optimization methods.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# DoseDiff:放射線治療における線量予測のための距離認識拡散モデル

DoseDiff: Distance-aware Diffusion Model for Dose Prediction in Radiotherapy ( http://arxiv.org/abs/2306.16324v2 )

ライセンス: Link先を確認
Yiwen Zhang, Chuanpu Li, Liming Zhong, Zeli Chen, Wei Yang, Xuetao Wang, (参考訳) 放射線治療ワークフローの重要な要素である治療計画は、一般的に医療物理学者が時間を要する試行錯誤の方法で実施する。 これまでの研究では、医師が治療計画の効率化を支援するために、線量分布マップを予測するための知識に基づく、あるいは深層学習に基づく手法が提案されている。 しかしながら、これらの線量予測法は通常、周囲の組織と標的または臓器間の距離情報(OAR)を効果的に利用できない。 さらに,線量分布図における線経路の分布特性の維持に乏しいため,貴重な情報が失われる。 本稿では,線量分布を正確に予測するための距離認識拡散モデル(DoseDiff)を提案する。 本研究では,線量予測をデノナイジングステップのシーケンスとして定義し,CT画像と署名された距離マップ(SDM)の条件で線量分布マップを生成する。 SDMは、目標またはOARのマスクからの距離変換により取得され、画像の各画素から目標またはOARのアウトラインまでの距離を提供する。 さらに,マルチエンコーダとマルチスケールフュージョンネットワーク(MMFNet)を提案し,マルチスケールおよびトランスフォーマーベースのフュージョンモジュールを組み込んで,機能レベルでのCT画像とSDM間の情報フュージョンを強化する。 2つの社内データセットと1つの公開データセットでモデルを評価した。 その結果,ドセディフ法は定量的性能と視覚的品質の両方の観点から,最先端の線量予測法よりも優れていた。

Treatment planning, which is a critical component of the radiotherapy workflow, is typically carried out by a medical physicist in a time-consuming trial-and-error manner. Previous studies have proposed knowledge-based or deep-learning-based methods for predicting dose distribution maps to assist medical physicists in improving the efficiency of treatment planning. However, these dose prediction methods usually fail to effectively utilize distance information between surrounding tissues and targets or organs-at-risk (OARs). Moreover, they are poor at maintaining the distribution characteristics of ray paths in the predicted dose distribution maps, resulting in a loss of valuable information. In this paper, we propose a distance-aware diffusion model (DoseDiff) for precise prediction of dose distribution. We define dose prediction as a sequence of denoising steps, wherein the predicted dose distribution map is generated with the conditions of the computed tomography (CT) image and signed distance maps (SDMs). The SDMs are obtained by distance transformation from the masks of targets or OARs, which provide the distance from each pixel in the image to the outline of the targets or OARs. We further propose a multi-encoder and multi-scale fusion network (MMFNet) that incorporates multi-scale and transformer-based fusion modules to enhance information fusion between the CT image and SDMs at the feature level. We evaluate our model on two in-house datasets and a public dataset, respectively. The results demonstrate that our DoseDiff method outperforms state-of-the-art dose prediction methods in terms of both quantitative performance and visual quality.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# RowPress:現代のDRAMチップの読み出し障害を増幅する

RowPress: Amplifying Read Disturbance in Modern DRAM Chips ( http://arxiv.org/abs/2306.17061v5 )

ライセンス: Link先を確認
Haocong Luo, Ataberk Olgun, A. Giray Yağlıkçı, Yahya Can Tuğrul, Steve Rhyner, Meryem Banu Cavlak, Joël Lindegger, Mohammad Sadrosadati, Onur Mutlu, (参考訳) メモリアイソレーションはシステムの信頼性、セキュリティ、安全性に重要である。 残念なことに、現在のDRAMチップでは、読み取り障害がメモリアイソレーションを損なう可能性がある。 例えば、RowHammerはよく研究された読解障害現象であり、DRAM行を何度も開けたり閉じたり(ハンマーを打ったり)、物理的に近くの行でビットフリップを発生させる。 本稿では,DDR4 DRAMチップにおいて,さらに広範な読解障害現象であるRowPressを実験的に実証し,解析する。 RowPressは、DRAM行を長時間開いておくことでメモリアイソレーションを損なう。 RowPressは、現実的な条件下で1~2桁のビットフリップを誘導するために必要な行アクティベーション数を著しく削減し、DRAMの読解障害に対する脆弱性を増幅することを示した。 極端な場合、RowPressは隣接する行が一度だけアクティベートされたときにDRAM行のビットフリップを誘導する。 164個の実DDR4 DRAMチップの詳細な特徴は、RowPressであることが分かる。 1)DRAMの主要3メーカーのチップに影響を及ぼす。 2) DRAM技術がより小さなノードサイズにスケールダウンし、さらに悪化する。 3)RowHammerとは異なるDRAMセルの集合に影響し、温度とアクセスパターンの変化としてRowHammerとは異なる振る舞いをする。 我々は、RowHammer保護を備えた実DDR4ベースのシステムで実演する。 1) ユーザレベルのプログラムは、従来のRowHammerではできないが、RowPressを利用してビットフリップを誘導する。 2) DRAM 行をアクセスパターンに基づいて長時間オープンに保つメモリコントローラは,RowPress ベースの攻撃を容易にする。 RowPressによるビットフリップを防止するため,既存のRowHammer緩和技術を適用した新たな手法を記述し,評価した。 我々は、RowPressに関する将来の研究を促進するために、すべてのコードとデータをオープンソースにしています。

Memory isolation is critical for system reliability, security, and safety. Unfortunately, read disturbance can break memory isolation in modern DRAM chips. For example, RowHammer is a well-studied read-disturb phenomenon where repeatedly opening and closing (i.e., hammering) a DRAM row many times causes bitflips in physically nearby rows. This paper experimentally demonstrates and analyzes another widespread read-disturb phenomenon, RowPress, in real DDR4 DRAM chips. RowPress breaks memory isolation by keeping a DRAM row open for a long period of time, which disturbs physically nearby rows enough to cause bitflips. We show that RowPress amplifies DRAM's vulnerability to read-disturb attacks by significantly reducing the number of row activations needed to induce a bitflip by one to two orders of magnitude under realistic conditions. In extreme cases, RowPress induces bitflips in a DRAM row when an adjacent row is activated only once. Our detailed characterization of 164 real DDR4 DRAM chips shows that RowPress 1) affects chips from all three major DRAM manufacturers, 2) gets worse as DRAM technology scales down to smaller node sizes, and 3) affects a different set of DRAM cells from RowHammer and behaves differently from RowHammer as temperature and access pattern changes. We demonstrate in a real DDR4-based system with RowHammer protection that 1) a user-level program induces bitflips by leveraging RowPress while conventional RowHammer cannot do so, and 2) a memory controller that adaptively keeps the DRAM row open for a longer period of time based on access pattern can facilitate RowPress-based attacks. To prevent bitflips due to RowPress, we describe and evaluate a new methodology that adapts existing RowHammer mitigation techniques to also mitigate RowPress with low additional performance overhead. We open source all our code and data to facilitate future research on RowPress.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# RAPGen: ゼロショットにおけるコードの非効率性を修正するためのアプローチ

RAPGen: An Approach for Fixing Code Inefficiencies in Zero-Shot ( http://arxiv.org/abs/2306.17077v2 )

ライセンス: Link先を確認
Spandan Garg, Roshanak Zilouchian Moghaddam, Neel Sundaresan, (参考訳) パフォーマンスのバグは機能しないバグで、十分にテストされた商用製品に現れます。 これらのパフォーマンスバグを修正することは重要な問題ですが、難しい問題です。 本稿では,この課題に対処し,RAPGen(Retrieval-Augmented Prompt Generation)と呼ばれる新しいアプローチを提案する。 パフォーマンス問題のあるコードスニペットが与えられた後、RAPGenは最初に、以前のパフォーマンスバグ修正の事前構築された知識ベースからプロンプト命令を取得し、その後、検索された命令を使用してプロンプトを生成する。 次に、このプロンプトをゼロショットのLarge Language Model(Codexなど)で使用して修正を生成する。 提案手法を,パフォーマンスバグ修正作業における各種の急激な変化と最先端の手法と比較した。 我々の評価によると、RAPGenは、C#開発者が過去のパフォーマンス変更を専門家が検証したデータセットで、約60%のケースで開発者よりも同等かそれ以上のパフォーマンス改善提案を生成できる。

Performance bugs are non-functional bugs that can even manifest in well-tested commercial products. Fixing these performance bugs is an important yet challenging problem. In this work, we address this challenge and present a new approach called Retrieval-Augmented Prompt Generation (RAPGen). Given a code snippet with a performance issue, RAPGen first retrieves a prompt instruction from a pre-constructed knowledge-base of previous performance bug fixes and then generates a prompt using the retrieved instruction. It then uses this prompt on a Large Language Model (such as Codex) in zero-shot to generate a fix. We compare our approach with the various prompt variations and state of the art methods in the task of performance bug fixing. Our evaluation shows that RAPGen can generate performance improvement suggestions equivalent or better than a developer in ~60% of the cases, getting ~42% of them verbatim, in an expert-verified dataset of past performance changes made by C# developers.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# 大きな言語モデルとペアワイズ・ランクング・プロンプティングによる効果的なテキスト・ランク付け

Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting ( http://arxiv.org/abs/2306.17563v2 )

ライセンス: Link先を確認
Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Le Yan, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky, (参考訳) クエリと候補文書を直接プロンプトに入力することで、LLM(Large Language Models)を使用して文書をランク付けすることは、興味深い、実用的な問題である。 しかし、研究者らは、ベンチマークデータセット上で微調整されたベースラインランクを上回ることは難しいと結論付けている。 既存の手法で用いられるポイントワイドおよびリストワイドランキングのプロンプトを分析し,既成のLCMがこれらの難解なランキングの定式化を十分に理解していないことを論じる。 本稿では,Pairwise Ranking Prompting (PRP) と呼ばれる新しい手法を用いて,LLMの負担を軽減することを提案する。 本研究は,中等級のオープンソースLCMを用いて,標準ベンチマークにおける最先端のランク付け性能を達成した文献としては,今回が初めてである。 TREC-DL 2019&2020において、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、50倍(推定)モデルサイズを持つブラックボックス商用GPT-4をベースとした文献において、これまでのベストアプローチと好意的に機能する一方で、175Bパラメータを持つインストラクトGPTなど、他のLCMベースのソリューションよりも10%以上パフォーマンスが高い。 7つのBEIRタスクで同じプロンプトテンプレートを使用することで、PRPは教師付きベースラインを上回り、ブラックボックスの商用ChatGPTソリューションを4.2%上回り、ポイントワイドのLCMベースのソリューションを平均NDCG@10で10%以上上回ります。 さらに, PRPのいくつかの変種を提案し, 線形複雑度を伴っても競合する結果が得られることを示した。

Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these challenging ranking formulations. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL 2019&2020, PRP based on the Flan-UL2 model with 20B parameters performs favorably with the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, while outperforming other LLM-based solutions, such as InstructGPT which has 175B parameters, by over 10% for all ranking metrics. By using the same prompt template on seven BEIR tasks, PRP outperforms supervised baselines and outperforms the blackbox commercial ChatGPT solution by 4.2% and pointwise LLM-based solutions by more than 10% on average NDCG@10. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# ロバストポイントクラウド登録のための直接スーパーポイントマッチング

Direct Superpoints Matching for Robust Point Cloud Registration ( http://arxiv.org/abs/2307.01362v3 )

ライセンス: Link先を確認
Aniket Gupta, Yiming Xie, Hanumant Singh, Huaizu Jiang, (参考訳) ディープニューラルネットワークは、高度に識別可能な特徴表現で、サンプリングされたスーパーポイントを許容する。 以前の支配的なクラウド登録アプローチは、Sinkhornアルゴリズムを使用した最初のステップとして、これらの特徴表現と一致している。 その後、RANSACライクな手法が後処理の改良として採用され、オプティラをフィルタする。 その他の支配的な方法は、学習したMLP層を用いてスーパーポイントマッチングを直接予測することである。 RANSACベースのメソッドは計算集約的で、予測ベースのメソッドは、ポイントクラウド内の既存のポイントを出力するのに苦しむ。 本稿では,グローバルなマッチング方式でスーパーポイントの対応を見つけるための,単純で効果的なベースラインを提案する。 正規化マッチングスコアを各対応の重みとして使用し、不規則なRANSACを使わずに変換行列を適合させる際には、アウトレーヤを拒否し、残りのインレーヤを重み付けすることができる。 さらに、モデル全体がエンドツーエンドでトレーニングできるため、精度が向上する。 我々の単純で効果的なベースラインは、ModelNet、3DMatch、KITTIを含む3つのデータセットの最先端メソッドと同等あるいはそれ以上の結果を示している。 私たちは、ポイントクラウド登録のためのemph{the}ソリューションへのアプローチを提唱しませんが、ポイントクラウド登録のためのマッチング戦略の役割を強調するために結果を使用します。 コードとモデルはhttps://github.com/neu-vi/Superpoints_Registrationで公開されている。

Deep neural networks endow the downsampled superpoints with highly discriminative feature representations. Previous dominant point cloud registration approaches match these feature representations as the first step, e.g., using the Sinkhorn algorithm. A RANSAC-like method is then usually adopted as a post-processing refinement to filter the outliers. Other dominant method is to directly predict the superpoint matchings using learned MLP layers. Both of them have drawbacks: RANSAC-based methods are computationally intensive and prediction-based methods suffer from outputing non-existing points in the point cloud. In this paper, we propose a straightforward and effective baseline to find correspondences of superpoints in a global matching manner. We employ the normalized matching scores as weights for each correspondence, allowing us to reject the outliers and further weigh the rest inliers when fitting the transformation matrix without relying on the cumbersome RANSAC. Moreover, the entire model can be trained in an end-to-end fashion, leading to better accuracy. Our simple yet effective baseline shows comparable or even better results than state-of-the-art methods on three datasets including ModelNet, 3DMatch, and KITTI. We do not advocate our approach to be \emph{the} solution for point cloud registration but use the results to emphasize the role of matching strategy for point cloud registration. The code and models are available at https://github.com/neu-vi/Superpoints_Registration.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# Followへの道:Ethereum上の現実世界の非現実的なトークンフィッシング攻撃の測定

With Trail to Follow: Measurements of Real-world Non-fungible Token Phishing Attacks on Ethereum ( http://arxiv.org/abs/2307.01579v2 )

ライセンス: Link先を確認
Jingjing Yang, Jieli Liu, Jiajing Wu, (参考訳) NFT(Non-Fungible Tokens)の人気により、NFTはフィッシング攻撃の新たな標的となり、NFTのトレーディングエコシステムに重大な脅威をもたらしている。 NFTフィッシング攻撃の新たな手段がEthereumエコシステムに現れたという逸話が増えている。 既存の研究の大部分は、ブロックチェーン上のネイティブ暗号通貨のフィッシング詐欺アカウントの検出に重点を置いているが、新興NFTのフィッシング攻撃の分野では研究の欠如がある。 NFTフィッシング攻撃の分析と検出に焦点をあてる研究が最近始まったが、NFTフィッシング攻撃手段は多種多様であり、これらの種類のNFTフィッシング攻撃を理解するためにはほとんど行われていない。 我々の知る限り、我々はEthereumに対する実世界の歴史的NFTフィッシング攻撃の事例振り返り分析と測定を行った最初の人物である。 Chainabuseが報告した既存の詐欺を手動で解析することにより、NFTフィッシング攻撃を4つのパターンに分類する。 各パターンについて,そのトリックや動作原理をさらに調査する。 2022年10月までに複数のチャンネルから収集された 469 NFT フィッシングアカウントに基づいて,NFT フィッシング詐欺のモダス・オペランディと嗜好を解析し,NFT フィッシング詐欺を識別する,Etherscan からクロールしたオンチェーン取引データの測定を行った。 NFTフィッシングトランザクションをログ解析とトランザクションレコード解析によって4つのパターンの1つに分類する。 これらのフィッシングアカウントは、合計利益8,858.431 ETH(約18.57億ドル)で19,514 NFTを盗んだ。 また,過去2年間,詐欺師は活発に活動し,ギャング盗難の兆候を伴い,特定のカテゴリーや一連のNFTを好んだ。

With the popularity of Non-Fungible Tokens (NFTs), NFTs have become a new target of phishing attacks, posing a significant threat to the NFT trading ecosystem. There has been growing anecdotal evidence that new means of NFT phishing attacks have emerged in Ethereum ecosystem. Most of the existing research focus on detecting phishing scam accounts for native cryptocurrency on the blockchain, but there is a lack of research in the area of phishing attacks of emerging NFTs. Although a few studies have recently started to focus on the analysis and detection of NFT phishing attacks, NFT phishing attack means are diverse and little has been done to understand these various types of NFT phishing attacks. To the best of our knowledge, we are the first to conduct case retrospective analysis and measurement study of real-world historical NFT phishing attacks on Ethereum. By manually analyzing the existing scams reported by Chainabuse, we classify NFT phishing attacks into four patterns. For each pattern, we further investigate the tricks and working principles of them. Based on 469 NFT phishing accounts collected up until October 2022 from multiple channels, we perform a measurement study of on-chain transaction data crawled from Etherscan to characterizing NFT phishing scams by analyzing the modus operandi and preferences of NFT phishing scammers, as well as economic impacts and whereabouts of stolen NFTs. We classify NFT phishing transactions into one of the four patterns by log parsing and transaction record parsing. We find these phishing accounts stole 19,514 NFTs for a total profit of 8,858.431 ETH (around 18.57 million dollars). We also observe that scammers remain highly active in the last two years and favor certain categories and series of NFTs, accompanied with signs of gang theft.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# FormAIデータセット: 形式検証のレンズによるソフトウェアセキュリティにおける生成AI

The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification ( http://arxiv.org/abs/2307.02192v3 )

ライセンス: Link先を確認
Norbert Tihanyi, Tamas Bisztray, Ridhi Jain, Mohamed Amine Ferrag, Lucas C. Cordeiro, Vasileios Mavroeidis, (参考訳) 本稿では、脆弱性分類付き112,000のAI生成可能な独立したCプログラムの大規模なコレクションであるFormAIデータセットを提案する。 本稿では,Large Language Models (LLM) を利用した多様なプログラムを生成するために構築された動的ゼロショットプロンプト技術を紹介する。 データセットはGPT-3.5-turboによって生成され、様々なレベルの複雑さを持つプログラムから構成される。 ネットワーク管理やテーブルゲーム、暗号化といった複雑なタスクを扱うプログラムもあれば、文字列操作のような単純なタスクを扱うプログラムもある。 すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。 この手法は, モデルチェック, 抽象解釈, 制約プログラミング, 満足度モジュロ理論を用いて, プログラムの安全性・セキュリティ特性を推論する, 効率的なSMTベース境界モデルチェッカー (ESBMC) を用いた形式的検証手法を用いて実現されている。 このアプローチは、脆弱性を確定的に検出し、反例として知られる形式的なモデルを提供し、偽陽性のレポートを生成する可能性を排除している。 特定された脆弱性を、CWE(Common Weakness Enumeration)番号に関連付けました。 我々は112,000のプログラムでソースコードを公開し、各プログラムで検出された脆弱性を含む別のファイルとともに、データセットをLLMと機械学習アルゴリズムのトレーニングに最適にする。 ESBMCによると、GPT-3.5で生成されたプログラムの51.24%が脆弱性を含んでおり、ソフトウェア安全性とセキュリティにかなりのリスクが生じる。

This paper presents the FormAI dataset, a large collection of 112, 000 AI-generated compilable and independent C programs with vulnerability classification. We introduce a dynamic zero-shot prompting technique constructed to spawn diverse programs utilizing Large Language Models (LLMs). The dataset is generated by GPT-3.5-turbo and comprises programs with varying levels of complexity. Some programs handle complicated tasks like network management, table games, or encryption, while others deal with simpler tasks like string manipulation. Every program is labeled with the vulnerabilities found within the source code, indicating the type, line number, and vulnerable function name. This is accomplished by employing a formal verification method using the Efficient SMT-based Bounded Model Checker (ESBMC), which uses model checking, abstract interpretation, constraint programming, and satisfiability modulo theories to reason over safety/security properties in programs. This approach definitively detects vulnerabilities and offers a formal model known as a counterexample, thus eliminating the possibility of generating false positive reports. We have associated the identified vulnerabilities with Common Weakness Enumeration (CWE) numbers. We make the source code available for the 112, 000 programs, accompanied by a separate file containing the vulnerabilities detected in each program, making the dataset ideal for training LLMs and machine learning algorithms. Our study unveiled that according to ESBMC, 51.24% of the programs generated by GPT-3.5 contained vulnerabilities, thereby presenting considerable risks to software safety and security.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# Invertible Neural Networks and Error Diffusion を用いた導電性マップによる気泡分布の再構築

Learning to reconstruct the bubble distribution with conductivity maps using Invertible Neural Networks and Error Diffusion ( http://arxiv.org/abs/2307.02496v3 )

ライセンス: Link先を確認
Nishant Kumar, Lukas Krause, Thomas Wondrak, Sven Eckert, Kerstin Eckert, Stefan Gumhold, (参考訳) 電解はエコフレンドリーな水素生産には不可欠であるが、反応の妨げとなり、セル効率が低下し、エネルギー消費が増加する。 さらに、これらのガス気泡は細胞内部の伝導度の変化を引き起こし、細胞周囲の誘導磁場に対応する変化をもたらす。 したがって, 外部磁場センサを用いてこれらのガス気泡誘起磁場変動を測定し, 逆問題であるバイオサバルト法を解くことにより, セル内の伝導度を推定し, 気泡の大きさと位置を推定することができる。 しかし、少数の誘導磁場測定から高分解能導電率マップを決定することは、逆問題である。 これを解決するために,Invertible Neural Networks (INNs) を用いて導電性フィールドを再構築する。 INNはTikhonov正則化よりもはるかに優れた性能を示した。

Electrolysis is crucial for eco-friendly hydrogen production, but gas bubbles generated during the process hinder reactions, reduce cell efficiency, and increase energy consumption. Additionally, these gas bubbles cause changes in the conductivity inside the cell, resulting in corresponding variations in the induced magnetic field around the cell. Therefore, measuring these gas bubble-induced magnetic field fluctuations using external magnetic sensors and solving the inverse problem of Biot-Savart Law allows for estimating the conductivity in the cell and, thus, bubble size and location. However, determining high-resolution conductivity maps from only a few induced magnetic field measurements is an ill-posed inverse problem. To overcome this, we exploit Invertible Neural Networks (INNs) to reconstruct the conductivity field. Our qualitative results and quantitative evaluation using random error diffusion show that INN achieves far superior performance compared to Tikhonov regularization.
翻訳日:2024-03-29 22:02:51 公開日:2024-03-28
# パラメータ化MMSE推定のための変分オートエンコーダの活用

Leveraging Variational Autoencoders for Parameterized MMSE Estimation ( http://arxiv.org/abs/2307.05352v2 )

ライセンス: Link先を確認
Michael Baur, Benedikt Fesl, Wolfgang Utschick, (参考訳) 本稿では,条件付き線形平均二乗誤差推定器のパラメータ化のために,変分オートエンコーダに基づくフレームワークを提案する。 変分オートエンコーダは、基礎となる未知のデータ分布を条件付きガウスとしてモデル化し、雑音の観測により、推定値の第1モーメントと第2モーメントを生成する。 導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。 そこで本研究では,トレーニングおよび推定フェーズにおいて,地下構造データへのアクセスに異なる3つの推定器変種を提案する。 ノイズの観測のみに基づいて訓練された推定器の変種は、特に、訓練や推定中に地平線データにアクセスする必要がなくなるため、注目すべきである。 提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行い,学習目標と得られた推定性能を接続する。 さらに,提案した推定器にはバイアス分散トレードオフが伴っており,推定文献でよく知られている。 例として、チャネル推定を記述し、構造化された共分散行列のパラメータ化と低複雑さの実装を可能にする。 しかし,提案手法はチャネル推定に限らず,広い範囲の推定問題に適用可能である。 大規模数値シミュレーションは,提案した変分オートエンコーダに基づく推定器の理論解析をまず検証し,関連する古典的および機械学習に基づく推定器と比較して優れた推定性能を示す。

In this manuscript, we propose to use a variational autoencoder-based framework for parameterizing a conditional linear minimum mean squared error estimator. The variational autoencoder models the underlying unknown data distribution as conditionally Gaussian, yielding the conditional first and second moments of the estimand, given a noisy observation. The derived estimator is shown to approximate the minimum mean squared error estimator by utilizing the variational autoencoder as a generative prior for the estimation problem. We propose three estimator variants that differ in their access to ground-truth data during the training and estimation phases. The proposed estimator variant trained solely on noisy observations is particularly noteworthy as it does not require access to ground-truth data during training or estimation. We conduct a rigorous analysis by bounding the difference between the proposed and the minimum mean squared error estimator, connecting the training objective and the resulting estimation performance. Furthermore, the resulting bound reveals that the proposed estimator entails a bias-variance tradeoff, which is well-known in the estimation literature. As an example application, we portray channel estimation, allowing for a structured covariance matrix parameterization and low-complexity implementation. Nevertheless, the proposed framework is not limited to channel estimation but can be applied to a broad class of estimation problems. Extensive numerical simulations first validate the theoretical analysis of the proposed variational autoencoder-based estimators and then demonstrate excellent estimation performance compared to related classical and machine learning-based state-of-the-art estimators.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# 点雲表現を用いた固有画像分解

Intrinsic Image Decomposition Using Point Cloud Representation ( http://arxiv.org/abs/2307.10924v2 )

ライセンス: Link先を確認
Xiaoyan Xing, Konrad Groh, Sezer Karaoglu, Theo Gevers, (参考訳) 内在分解の目的は、画像をそのアルベド(反射特性)とシェーディング成分(発光特性)に分離することである。 これは不適切な問題なので難しいです。 従来のアプローチは主に2D画像に集中しており、3Dデータ表現の能力を十分に活用できない。 3Dポイントクラウドは、幾何学的情報とカラー情報を効果的に組み合わせることで、シーンを表現するためのより包括的なフォーマットを提供する。 そこで本論文では,3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を提案する。 PoInt-Netの利点は以下の点である。 まず、モデルは効率的で、小規模のポイントクラウドでのみ必要なトレーニングで、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。 PoInt-Netは、個々のオブジェクトからなるデータセットにのみ訓練されたとしても、目に見えないオブジェクトやシーンに対して強力な一般化を示す。 第3に、従来の2Dアプローチよりも優れた精度を提供し、さまざまなデータセット上のさまざまなメトリクスのパフォーマンスを向上する。 (コード公開)

The purpose of intrinsic decomposition is to separate an image into its albedo (reflective properties) and shading components (illumination properties). This is challenging because it's an ill-posed problem. Conventional approaches primarily concentrate on 2D imagery and fail to fully exploit the capabilities of 3D data representation. 3D point clouds offer a more comprehensive format for representing scenes, as they combine geometric and color information effectively. To this end, in this paper, we introduce Point Intrinsic Net (PoInt-Net), which leverages 3D point cloud data to concurrently estimate albedo and shading maps. The merits of PoInt-Net include the following aspects. First, the model is efficient, achieving consistent performance across point clouds of any size with training only required on small-scale point clouds. Second, it exhibits remarkable robustness; even when trained exclusively on datasets comprising individual objects, PoInt-Net demonstrates strong generalization to unseen objects and scenes. Third, it delivers superior accuracy over conventional 2D approaches, demonstrating enhanced performance across various metrics on different datasets. (Code Released)
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# 非標準ハバードモデルと2電子対

Non-standard Hubbard model and two-electron pairing ( http://arxiv.org/abs/2307.16737v2 )

ライセンス: Link先を確認
M. Zendra, F. Borgonovi, G. L. Celardo, S. Gurvitz, (参考訳) 任意の単一粒子ポテンシャルプロファイルと粒子間相互作用に適用可能な非標準ハバードモデルを提案する。 我々の手法は、従来の方法のあいまいさから解放され、周期性制約のない有限系に適用可能な、ワニエ関数の新しい処理を含む。 ワニエ関数の一貫した評価を保証するため,バリア浸透係数を摂動パラメータとして用いた摂動アプローチを開発した。 新たに定義されたワニエ函数を基底として、ハバード・ハミルトニアン(英語版)を導出し、標準貢献とともに密度誘起トンネル項とペアトンネル項の出現を明らかにする。 我々の研究は、長距離粒子間相互作用が、反発性粒子対の新たなメカニズムを誘導できることを実証している。 この機構は密度誘起トンネルによる単一粒子トンネルの効果的抑制に依存している。 標準的なハバードモデルに基づく期待とは対照的に、粒子間相互作用の増加は絶縁状態に繋がらない。 その代わり、提案したメカニズムは相関電子対のコヒーレントな運動を示唆しており、これは多井戸系の境界状態と似ており、単一電子トンネル遷移による崩壊に耐性がある。 これらの発見は、平らなバンドの形成、二層グラフェンの超伝導の出現、新しい金属絶縁体転移の可能性など、様々な現象に重要な意味を持つ。

We present a non-standard Hubbard model applicable to arbitrary single-particle potential profiles and inter-particle interactions. Our approach involves a novel treatment of Wannier functions, free from the ambiguities of conventional methods and applicable to finite systems without periodicity constraints. To ensure the consistent evaluation of Wannier functions, we develop a perturbative approach, utilizing the barrier penetration coefficient as a perturbation parameter. With the newly defined Wannier functions as a basis, we derive the Hubbard Hamiltonian, revealing the emergence of density-induced and pair tunneling terms alongside standard contributions. Our investigation demonstrates that long-range inter-particle interactions can induce a novel mechanism for repulsive particle pairing. This mechanism relies on the effective suppression of single-particle tunneling due to density-induced tunneling. Contrary to expectations based on the standard Hubbard model, an increase in inter-particle interaction does not lead to an insulating state. Instead, our proposed mechanism implies the coherent motion of correlated electron pairs, similar to bound states within a multi-well system, resistant to decay from single-electron tunneling transitions. These findings carry significant implications for various phenomena, including the formation of flat bands, the emergence of superconductivity in twisted bilayer graphene, and the possibility of a novel metal-insulator transition.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# 機械学習を利用したコンビニアルクロックオークション

Machine Learning-Powered Combinatorial Clock Auction ( http://arxiv.org/abs/2308.10226v2 )

ライセンス: Link先を確認
Ermis Soumalias, Jakob Weissteiner, Jakob Heiss, Sven Seuken, (参考訳) 本稿では,イテレーティブ・コンビナトリ・オークション (ICA) の設計について検討する。 この領域の主な課題は、バンドル空間がアイテム数で指数関数的に増加することである。 これを解決するために、いくつかの論文が最近、入札者から最も重要な情報のみを引き出すことを目的とした機械学習(ML)ベースの選好推論アルゴリズムを提案している。 しかし、実際的な見地からすると、この前の作業の主な欠点は、これらの設計が値クエリ(つまり、バンドル $\{A,B\}$?'' に対して ``What is your value for the bundle $\{A,B\}$?'' )を介して入札者の好みを引き出すことである。 ほとんどの現実世界のICAドメインでは、価値クエリは非現実的なものであり、入札者に非現実的に高い認知的負担を課しているため、実際は使われていない。 本稿では,ML を利用したコンビナタリアルクロックオークションを設計し,需要クエリのみを通じて入札者から情報を取得することで,この欠点に対処する(‘At price $p$, your most preferred bundle of items?’)。 まず、要求クエリに基づいてMLモデルをトレーニングするための新しい手法を提案する。 第2に、これらの訓練されたMLモデルに基づいて、要求クエリを最も高いクリア化ポテンシャルで決定する効率的な方法を導入し、理論的基盤も提供する。 いくつかのスペクトルオークションドメインでMLベースの要求クエリメカニズムを実験的に評価し、最も確立された実世界のICAである組合せクロックオークション(CCA)と比較した。 本機構は全領域においてCCAの効率を著しく上回り, ラウンド数を大幅に削減し, 線形価格を用いれば, 極めて高いクリア化ポテンシャルを示す。 そこで本稿では,研究と実践のギャップを埋めるとともに,MLを活用した最初の実用的なICAを提案する。

We study the design of iterative combinatorial auctions (ICAs). The main challenge in this domain is that the bundle space grows exponentially in the number of items. To address this, several papers have recently proposed machine learning (ML)-based preference elicitation algorithms that aim to elicit only the most important information from bidders. However, from a practical point of view, the main shortcoming of this prior work is that those designs elicit bidders' preferences via value queries (i.e., ``What is your value for the bundle $\{A,B\}$?''). In most real-world ICA domains, value queries are considered impractical, since they impose an unrealistically high cognitive burden on bidders, which is why they are not used in practice. In this paper, we address this shortcoming by designing an ML-powered combinatorial clock auction that elicits information from the bidders only via demand queries (i.e., ``At prices $p$, what is your most preferred bundle of items?''). We make two key technical contributions: First, we present a novel method for training an ML model on demand queries. Second, based on those trained ML models, we introduce an efficient method for determining the demand query with the highest clearing potential, for which we also provide a theoretical foundation. We experimentally evaluate our ML-based demand query mechanism in several spectrum auction domains and compare it against the most established real-world ICA: the combinatorial clock auction (CCA). Our mechanism significantly outperforms the CCA in terms of efficiency in all domains, it achieves higher efficiency in a significantly reduced number of rounds, and, using linear prices, it exhibits vastly higher clearing potential. Thus, with this paper we bridge the gap between research and practice and propose the first practical ML-powered ICA.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# 誰と話しているのか? 解答者推定能力を持つ社会ロボットの深層学習モデル

To Whom are You Talking? A Deep Learning Model to Endow Social Robots with Addressee Estimation Skills ( http://arxiv.org/abs/2308.10757v2 )

ライセンス: Link先を確認
Carlo Mazzola, Marta Romeo, Francesco Rea, Alessandra Sciutti, Angelo Cangelosi, (参考訳) コミュニケーションは私たちの社会的な言葉を形作る。 ロボットが社会的に考慮され、社会的環境に統合されるためには、人間と人間のコミュニケーションを支配するダイナミクスを理解することが不可欠である。 本研究では, 話者からの非言語的身体的手がかりを解釈し, 活用することにより, 発話者の相手を理解する能力であるアドレス推定の問題に取り組む。 本研究では,話者の顔と身体姿勢の2次元ベクトルを表現した入力画像として,畳み込み層とLSTMセルからなるハイブリッドディープラーニングモデルを実装する。 我々の実施選択は、社会ロボットに展開し、生態学的シナリオにおいて効率的なモデルを開発することを目的として導かれた。 我々は,ロボットの自我中心の視点から,空間におけるアドレスの局所化の観点から,我々のモデルがアドレス推定問題を解くことができることを示した。

Communicating shapes our social word. For a robot to be considered social and being consequently integrated in our social environment it is fundamental to understand some of the dynamics that rule human-human communication. In this work, we tackle the problem of Addressee Estimation, the ability to understand an utterance's addressee, by interpreting and exploiting non-verbal bodily cues from the speaker. We do so by implementing an hybrid deep learning model composed of convolutional layers and LSTM cells taking as input images portraying the face of the speaker and 2D vectors of the speaker's body posture. Our implementation choices were guided by the aim to develop a model that could be deployed on social robots and be efficient in ecological scenarios. We demonstrate that our model is able to solve the Addressee Estimation problem in terms of addressee localisation in space, from a robot ego-centric point of view.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# FedSOL:フェデレートラーニングにおける近位制限付き直交学習の安定化

FedSOL: Stabilized Orthogonal Learning with Proximal Restrictions in Federated Learning ( http://arxiv.org/abs/2308.12532v6 )

ライセンス: Link先を確認
Gihun Lee, Minchan Jeong, Sangmook Kim, Jaehoon Oh, Se-Young Yun, (参考訳) フェデレートラーニング(FL)は、個々のクライアントからローカルに訓練されたモデルを集約し、グローバルモデルを構築する。 FLはデータのプライバシを持つモデルを学ぶことができるが、クライアントが不均一なデータ分散を持つ場合、大きなパフォーマンス劣化に悩まされることが多い。 このデータの不均一性により、モデルは、ローカルデータセットでトレーニングされた後に、以前にサンプリングされたクライアントから取得したグローバルな知識を忘れることになる。 局所的な更新における近位目的の導入は、グローバルな知識の保存に役立つが、局所的な目的に干渉することで、局所的な学習を妨げることもある。 この問題に対処するため,両目的のバランスをとるために直交学習戦略を採用するフェデレート安定化直交学習(FedSOL)を提案する。 FedSOLは、近位目的に影響を及ぼす方向に対して本質的に直交する局所目的の勾配を特定するように設計されている。 特に、FedSOLは、局所的な目的についての学習が近量摂動の影響を最小限に抑えるパラメータ領域をターゲットにしている。 実験の結果,FedSOLは様々なシナリオで常に最先端のパフォーマンスを実現していることがわかった。

Federated Learning (FL) aggregates locally trained models from individual clients to construct a global model. While FL enables learning a model with data privacy, it often suffers from significant performance degradation when clients have heterogeneous data distributions. This data heterogeneity causes the model to forget the global knowledge acquired from previously sampled clients after being trained on local datasets. Although the introduction of proximal objectives in local updates helps to preserve global knowledge, it can also hinder local learning by interfering with local objectives. To address this problem, we propose a novel method, Federated Stabilized Orthogonal Learning (FedSOL), which adopts an orthogonal learning strategy to balance the two conflicting objectives. FedSOL is designed to identify gradients of local objectives that are inherently orthogonal to directions affecting the proximal objective. Specifically, FedSOL targets parameter regions where learning on the local objective is minimally influenced by proximal weight perturbations. Our experiments demonstrate that FedSOL consistently achieves state-of-the-art performance across various scenarios.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# DiffusionPoser: 自己回帰拡散を用いた任意スパースセンサからのリアルタイム人体運動再構成

DiffusionPoser: Real-time Human Motion Reconstruction From Arbitrary Sparse Sensors Using Autoregressive Diffusion ( http://arxiv.org/abs/2308.16682v2 )

ライセンス: Link先を確認
Tom Van Wouwe, Seunghwan Lee, Antoine Falisse, Scott Delp, C. Karen Liu, (参考訳) 慣性測定ユニット(IMU)や圧力インソールなど、限られた数のボディウーンセンサーからのモーションキャプチャは、健康、人的パフォーマンス、エンターテイメントに重要な応用がある。 最近の研究は、6つのIMUを用いて、特定のセンサー構成から全身の動きを正確に再構築することに焦点を当てている。 アプリケーション間で共通のゴールは、必要な精度を達成するために最小限のセンサーを使用することだが、センサの最適配置はアプリケーションからアプリケーションへ異なるかもしれない。 特定の位置に配置されたIMUを含むセンサの任意の組み合わせから人体の動きをリアルタイムに再構成する単一拡散モデルDiffusionPoserを提案する。 既存の手法とは異なり、我々のモデルはユーザーが興味のある特定の活動に合わせたセンサーの数と配置を、再訓練を必要とせずに決定できる柔軟性を与える。 新たな自己回帰推論方式により、計測されたセンサ信号と密接に一致したリアルタイムな動き再構成が保証される。 DiffusionPoserの生成的性質は、直接測定されない自由度であっても、現実的な振る舞いを保証する。 質的な結果は、私たちのWebサイト(https://diffusionposer.github.io/)で確認できます。

Motion capture from a limited number of body-worn sensors, such as inertial measurement units (IMUs) and pressure insoles, has important applications in health, human performance, and entertainment. Recent work has focused on accurately reconstructing whole-body motion from a specific sensor configuration using six IMUs. While a common goal across applications is to use the minimal number of sensors to achieve required accuracy, the optimal arrangement of the sensors might differ from application to application. We propose a single diffusion model, DiffusionPoser, which reconstructs human motion in real-time from an arbitrary combination of sensors, including IMUs placed at specified locations, and, pressure insoles. Unlike existing methods, our model grants users the flexibility to determine the number and arrangement of sensors tailored to the specific activity of interest, without the need for retraining. A novel autoregressive inferencing scheme ensures real-time motion reconstruction that closely aligns with measured sensor signals. The generative nature of DiffusionPoser ensures realistic behavior, even for degrees-of-freedom not directly measured. Qualitative results can be found on our website: https://diffusionposer.github.io/.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# Bi$_2$Se$_3$ナノシートのトポロジー

Topology of Bi$_2$Se$_3$ nanosheets ( http://arxiv.org/abs/2309.02792v5 )

ライセンス: Link先を確認
Lucas Maisel Licerán, Sebastiaan Koerhuis, Daniel Vanmaekelbergh, Henk Stoof, (参考訳) 近年, トポロジカル絶縁体Bi$_2$Se$_3$の2次元コロイドナノ結晶の量子スピンホールエッジチャネルが直接観測されている。 本研究は, 従来, 薄いナノシートを記述するために用いられてきた4バンド有効モデルを再考する。 3次元の $\boldsymbol{k} \boldsymbol{k} \boldsymbol{p}$ モデルから派生したもので、物質が小さな厚さのために隙間となる$\Gamma$ 点における上下電子状態を記述する。 しかし、3次元理論から直接導かれる表面状態の4バンドモデルだけでは、いくつかの4重層からなる薄膜の記述には不適切であり、また、かなりの範囲の厚さで不正確な位相不変量が得られることも判明した。 この制限に対処するために、曲面状態に加えて、フェルミ準位に最も近いバルク状態の集合も組み込む8バンドモデルを提案する。 8バンドモデルは実験結果のほとんどを捉えるだけでなく、厚さの異なる薄膜における$\mathbb{Z}_{2}$不変の以前の第一原理計算とも一致している。 曲面のようなバンドに位相を与える$\Gamma$点のまわりのバンド反転は、有効ハミルトニアンの再パラメータ化を必要とせず、追加のバルク状の状態の存在によって有効であることが示されている。

Recently, the quantum spin-Hall edge channels of two-dimensional colloidal nanocrystals of the topological insulator Bi$_2$Se$_3$ were observed directly. Motivated by this development, we reconsider the four-band effective model which has been traditionally employed in the past to describe thin nanosheets of this material. Derived from a three-dimensional $\boldsymbol{k} \boldsymbol{\cdot} \boldsymbol{p}$ model, it physically describes the top and bottom electronic surface states at the $\Gamma$ point that become gapped due to the material's small thickness. However, we find that the four-band model for the surface states alone, as derived directly from the three-dimensional theory, is inadequate for the description of thin films of a few quintuple layers and even yields an incorrect topological invariant within a significant range of thicknesses. To address this limitation we propose an eight-band model which, in addition to the surface states, also incorporates the set of bulk states closest to the Fermi level. We find that the eight-band model not only captures most of the experimental observations, but also agrees with previous first-principles calculations of the $\mathbb{Z}_{2}$ invariant in thin films of varying thickness. The band inversion around the $\Gamma$ point, which endows the surface-like bands with topology, is shown to be enabled by the presence of the additional bulk-like states without requiring any reparametrization of the resulting effective Hamiltonian.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# 物体中心光サンプリングによるスパース3次元再構成

Sparse 3D Reconstruction via Object-Centric Ray Sampling ( http://arxiv.org/abs/2309.03008v2 )

ライセンス: Link先を確認
Llukman Cerkezi, Paolo Favaro, (参考訳) 本研究では,360度キャリブレーションカメラリグから取得したスパースビューから3次元オブジェクトを復元する新しい手法を提案する。 MLPに基づくニューラル表現とトライアングルメッシュの両方を用いたハイブリッドモデルを用いて物体表面を表現する。 私たちの研究における重要な貢献は、すべてのビューで光が共有される、神経表現のオブジェクト中心サンプリングスキームである。 これにより、各イテレーションでニューラルモデルを更新するのに使用されるサンプルの数を効率よく集中し、削減できる。 このサンプリングスキームはメッシュ表現に依存しており、サンプルが正常に沿って適切に分散されていることも保証している。 そして、このレンダリングを微分可能なレンダラーで効率的に行う。 このサンプリング方式により、より効果的な神経表現のトレーニングが実現し、セグメンテーションマスクの監視を必要とせず、最先端の3D再構成を実現し、GoogleのScanned Objects, Tank and TemplesおよびMVMC Carデータセットのスパースなビューで動作することを示す。 https://github.com/llukmancerkezi/ROSTER

We propose a novel method for 3D object reconstruction from a sparse set of views captured from a 360-degree calibrated camera rig. We represent the object surface through a hybrid model that uses both an MLP-based neural representation and a triangle mesh. A key contribution in our work is a novel object-centric sampling scheme of the neural representation, where rays are shared among all views. This efficiently concentrates and reduces the number of samples used to update the neural model at each iteration. This sampling scheme relies on the mesh representation to ensure also that samples are well-distributed along its normals. The rendering is then performed efficiently by a differentiable renderer. We demonstrate that this sampling scheme results in a more effective training of the neural representation, does not require the additional supervision of segmentation masks, yields state of the art 3D reconstructions, and works with sparse views on the Google's Scanned Objects, Tank and Temples and MVMC Car datasets. Code available at: https://github.com/llukmancerkezi/ROSTER
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# ガウス過程によるスパース・ノイズデータのシンボリック回帰

Symbolic Regression on Sparse and Noisy Data with Gaussian Processes ( http://arxiv.org/abs/2309.11076v2 )

ライセンス: Link先を確認
Junette Hsin, Shubhankar Agarwal, Adam Thorpe, Luis Sentis, David Fridovich-Keil, (参考訳) 本稿では,スパースデータとノイズデータから動的モデルを導出することの課題に対処する。 高品質なデータは、シンボリック回帰アルゴリズムにとって不可欠である。 これを解決するために、ガウス過程の回帰と非線形力学(SINDy)法のスパース同定を組み合わせ、データをノイズ化し、非線形力学方程式を同定する。 我々の単純なアプローチは、SINDy単独と比較して、スパースでノイズの多いデータによる堅牢性の向上を提供します。 シミュレーションにおける一サイクルの動的モデルであるLotka-VolterraモデルとNVIDIA JetRacerシステムからのハードウェアデータに対して,その有効性を示す。 本研究では,SINDyよりも20.78%,SSRより61.92%向上した。

In this paper, we address the challenge of deriving dynamical models from sparse and noisy data. High-quality data is crucial for symbolic regression algorithms; limited and noisy data can present modeling challenges. To overcome this, we combine Gaussian process regression with a sparse identification of nonlinear dynamics (SINDy) method to denoise the data and identify nonlinear dynamical equations. Our simple approach offers improved robustness with sparse, noisy data compared to SINDy alone. We demonstrate its effectiveness on a Lotka-Volterra model, a unicycle dynamic model in simulation, and hardware data from an NVIDIA JetRacer system. We show superior performance over baselines including 20.78% improvement over SINDy and 61.92% improvement over SSR in predicting future trajectories from discovered dynamics.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# 凝縮間双極子-双極子相互作用による密度工学

Density engineering via inter-condensate dipole-dipole interactions ( http://arxiv.org/abs/2309.13000v2 )

ライセンス: Link先を確認
Pranay Nayak, Ratheejit Ghosh, Rejish Nath, (参考訳) 物理的に不連結な単一種であるボース=アインシュタイン凝縮体からなる集合体における縮合ダイポール-双極子間相互作用の効果について検討した。 特に, 双極子-双極子相互作用の長距離および異方性特性を利用して, 双極子対のボース-アインシュタイン凝縮体の密度を軸的に閉じ込め, 密閉した双極子対の凝縮体を用いて設計できることが示されている。 制御凝縮体の数が増加すると、周期パターンを含むエキゾチックな基底状態構造が生じる。 後者は、制御凝縮体間の分離によって制御されるピーク間のコヒーレンスを持つ単一および二重ピーク構造からなるため、超固体構造と密度ピークの非コヒーレント配列の両方にアクセスすることができる。

We study the effect of inter-condensate dipole-dipole interactions in a setup consisting of physically disconnected single-species dipolar Bose-Einstein condensates. In particular, making use of the long-range and anisotropic nature of dipole-dipole interactions, we show that the density of a {\em target} dipolar Bose-Einstein condensate can be axially confined and engineered using a trapped {\em control} dipolar condensate. Increasing the number of control condensates leads to exotic ground state structures, including periodic patterns. The latter consists of single and double-peaked structures with coherence between the peaks controlled via the separation between the control condensates, thereby accessing both supersolid-like structures and incoherent arrays of density peaks.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# スパイクニューラルネットワークにおけるロッキーティケット探索によるスパースリワード獲得

Gaining the Sparse Rewards by Exploring Lottery Tickets in Spiking Neural Network ( http://arxiv.org/abs/2309.13302v3 )

ライセンス: Link先を確認
Hao Cheng, Jiahang Cao, Erjia Xiao, Mengshu Sun, Renjing Xu, (参考訳) ロボットのような計算能力に制限されたデバイスにエネルギー効率の高いディープラーニングアルゴリズムをデプロイすることは、現実世界のアプリケーションにとって依然として重要な問題である。 新しい脳にインスパイアされたアルゴリズムであるSpking Neural Networks(SNN)は、従来のニューラルネットワーク(ANN)よりも低レイテンシで低エネルギーな性質のため、有望なソリューションを提供する。 これらの利点にもかかわらず、深いSNNの高密度構造は依然として余分なエネルギー消費をもたらす。 Lottery Ticket hypothesis (LTH) は、高密度ニューラルネットワークには、勝利したLottery Tickets(LT)、すなわちサブネットワークが存在し、性能を損なうことなく得られることを仮定している。 そこで本論文は, スパイク系LT (SLT) に着想を得て, それらの特性と極端な効率性の可能性について検討した。 次に, 様々な密度構造を横断するSLTの包括的探索と精巧な実験により, 2つの重要なスパースが得られた。 さらに,マルチレベルスパシティ(MultiSp)を実現するために,畳み込み操作をPatch Embedding Projection(ConvPEP)モジュールに組み込んだスパークスアルゴリズムが提案されている。 MultiSp は(1) パッチ数間隔、(2) ConvPEP はスパーシリティとバイナライゼーションを重み付け、(3) ConvPEP 活性化層バイナライゼーションを指す。 大規模な実験により,本手法は性能をわずかに低下させることで,ロボット工学などにおけるエネルギー効率のよいニューラルネットワークの展開方法の確立を図っている。

Deploying energy-efficient deep learning algorithms on computational-limited devices, such as robots, is still a pressing issue for real-world applications. Spiking Neural Networks (SNNs), a novel brain-inspired algorithm, offer a promising solution due to their low-latency and low-energy properties over traditional Artificial Neural Networks (ANNs). Despite their advantages, the dense structure of deep SNNs can still result in extra energy consumption. The Lottery Ticket Hypothesis (LTH) posits that within dense neural networks, there exist winning Lottery Tickets (LTs), namely sub-networks, that can be obtained without compromising performance. Inspired by this, this paper delves into the spiking-based LTs (SLTs), examining their unique properties and potential for extreme efficiency. Then, two significant sparse \textbf{\textit{Rewards}} are gained through comprehensive explorations and meticulous experiments on SLTs across various dense structures. Moreover, a sparse algorithm tailored for spiking transformer structure, which incorporates convolution operations into the Patch Embedding Projection (ConvPEP) module, has been proposed to achieve Multi-level Sparsity (MultiSp). MultiSp refers to (1) Patch number sparsity; (2) ConvPEP weights sparsity and binarization; and (3) ConvPEP activation layer binarization. Extensive experiments demonstrate that our method achieves extreme sparsity with only a slight performance decrease, paving the way for deploying energy-efficient neural networks in robotics and beyond.
翻訳日:2024-03-29 21:53:04 公開日:2024-03-28
# VisionKG:知識グラフによるビジュアルデータセットのパワーの解放

VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph ( http://arxiv.org/abs/2309.13610v2 )

ライセンス: Link先を確認
Jicheng Yuan, Anh Le-Tuan, Manh Nguyen-Duc, Trung-Kien Tran, Manfred Hauswirth, Danh Le-Phuoc, (参考訳) 不均一な特徴を持つ膨大なビジュアルデータの可用性は、新しいコンピュータビジョン(CV)アルゴリズムとアーキテクチャの開発、テスト、ベンチマークにおいて重要な要素である。 ほとんどのビジュアルデータセットは、特定のタスクのために、あるいは非常に特定の状況のために限られた画像データ分布で作成、キュレーションされ、様々なソース、タスク、分類学にまたがってそれらを管理、アクセスするための統一されたアプローチは存在しない。 これにより、堅牢な視覚認識システムを構築する際に不要なオーバーヘッドが発生するだけでなく、学習システムにバイアスを導入し、データ中心AIの能力を制限します。 これらの問題に対処するために、知識グラフとセマンティックWeb技術を介して視覚データセットをインターリンクし、整理し、管理する新しいリソースVisionKG(VisionKG)を提案する。 異質なフォーマットや分類によらず、最先端のビジュアルデータセットの単純なアクセスとクエリを容易にする統一されたフレームワークとして機能する。 アプローチと既存のメソッドの主な違いの1つは、メタデータベースではなく知識ベースであることです。 これは、イメージレベルとインスタンスレベルのセマンティクスの強化を強化し、SPARQLを介してさまざまなデータ検索と探索サービスを提供する。 VisionKGには519万のRDFトリプルがあり、約4000万のエンティティを記述しており、https://vision.semkg.orgおよびAPIを通じてアクセス可能である。 30のデータセットと4つの一般的なCVタスクを統合することで、CVパイプラインで作業する場合に、さまざまなシナリオでその有用性を示すことができる。

The availability of vast amounts of visual data with heterogeneous features is a key factor for developing, testing, and benchmarking of new computer vision (CV) algorithms and architectures. Most visual datasets are created and curated for specific tasks or with limited image data distribution for very specific situations, and there is no unified approach to manage and access them across diverse sources, tasks, and taxonomies. This not only creates unnecessary overheads when building robust visual recognition systems, but also introduces biases into learning systems and limits the capabilities of data-centric AI. To address these problems, we propose the Vision Knowledge Graph (VisionKG), a novel resource that interlinks, organizes and manages visual datasets via knowledge graphs and Semantic Web technologies. It can serve as a unified framework facilitating simple access and querying of state-of-the-art visual datasets, regardless of their heterogeneous formats and taxonomies. One of the key differences between our approach and existing methods is that ours is knowledge-based rather than metadatabased. It enhances the enrichment of the semantics at both image and instance levels and offers various data retrieval and exploratory services via SPARQL. VisionKG currently contains 519 million RDF triples that describe approximately 40 million entities, and are accessible at https://vision.semkg.org and through APIs. With the integration of 30 datasets and four popular CV tasks, we demonstrate its usefulness across various scenarios when working with CV pipelines.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# グラフモチーフパラメータに対するWeisfeiler-Lemanテストのパワーについて

On the Power of the Weisfeiler-Leman Test for Graph Motif Parameters ( http://arxiv.org/abs/2309.17053v3 )

ライセンス: Link先を確認
Matthias Lanzinger, Pablo Barceló, (参考訳) グラフニューラルネットワーク(GNN)の分野におけるセミナル研究は、GNNの表現能力と、グラフ同型を検証する広く認められた方法である$k$-dimensional Weisfeiler-Leman(k$WL)テストとの直接的な対応を明らかにした。 この接続は、$k$WL テストによって事実上識別可能な特定のグラフ特性を解釈することに関心を再燃させた。 この分野での研究の中心は、最小次元$k$を決定することであり、$k$WLはパターングラフ$P$の異なる回数のグラフを識別することができる。 我々は、このパターンカウント問題のWL次元として、少なくとも$k$を参照する。 この調査は伝統的に、サブグラフカウントとインダクションされたサブグラフカウントというパターンに関連する2つの異なるカウント問題に分類する。 興味深いことに、一見異なるアプローチで別の課題として最初に現れたにもかかわらず、これらの問題はどちらもより包括的な問題のコンポーネントであるグラフモチーフパラメータ(graph motif parameters)の相互接続である。 本稿では,ラベル付きグラフモチーフパラメータのWL次元を正確に評価する。 この結果の具体例として、各ラベル付きパターンに対して、サブグラフカウントのWL次元と誘導サブグラフカウントの問題を特徴づける。 さらに、$k$WLテストがパターン$P$の異なるグラフを区別する場合、対応するGNNの最後のレイヤのローカル情報のみを用いて、$P$の正確な回数を計算可能であることを示す。 最終的に、様々なグラフパラメータのWL次元を認識するという課題を掘り下げる。 与えられたパターン$P$に対する部分グラフカウント問題のWL次元を決定する多項式時間アルゴリズムを,以前の研究からオープンな質問に答える。

Seminal research in the field of graph neural networks (GNNs) has revealed a direct correspondence between the expressive capabilities of GNNs and the $k$-dimensional Weisfeiler-Leman ($k$WL) test, a widely-recognized method for verifying graph isomorphism. This connection has reignited interest in comprehending the specific graph properties effectively distinguishable by the $k$WL test. A central focus of research in this field revolves around determining the least dimensionality $k$, for which $k$WL can discern graphs with different number of occurrences of a pattern graph $P$. We refer to such a least $k$ as the WL-dimension of this pattern counting problem. This inquiry traditionally delves into two distinct counting problems related to patterns: subgraph counting and induced subgraph counting. Intriguingly, despite their initial appearance as separate challenges with seemingly divergent approaches, both of these problems are interconnected components of a more comprehensive problem: "graph motif parameters". In this paper, we provide a precise characterization of the WL-dimension of labeled graph motif parameters. As specific instances of this result, we obtain characterizations of the WL-dimension of the subgraph counting and induced subgraph counting problem for every labeled pattern $P$. We additionally demonstrate that in cases where the $k$WL test distinguishes between graphs with varying occurrences of a pattern $P$, the exact number of occurrences of $P$ can be computed uniformly using only local information of the last layer of a corresponding GNN. We finally delve into the challenge of recognizing the WL-dimension of various graph parameters. We give a polynomial time algorithm for determining the WL-dimension of the subgraph counting problem for given pattern $P$, answering an open question from previous work.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# トランスモン量子ビット設計パラメータの電荷-パリティ切替効果と最適化

Charge-parity switching effects and optimisation of transmon-qubit design parameters ( http://arxiv.org/abs/2309.17168v3 )

ライセンス: Link先を確認
Miha Papič, Jani Tuorila, Adrian Auer, Inés de Vega, Amin Hosseinkhani, (参考訳) ノイズの多い量子プロセッサの性能向上には、エラーメカニズムの理解と克服方法の改善が必要です。 本研究では,包括的雑音モデルに基づく量子ビット設計パラメータの最適範囲を同定する。 この目的のために、準粒子による電荷パリティスイッチによる2量子ゲートの摂動が可能な、未探索の誤差機構も分析する。 電荷分散が著しく大きいトランスモンの高レベルの利用により、電荷パリティスイッチは2量子ゲートの条件相に影響を与える。 我々は、ダイアバティック制御Zゲートの不完全性の解析式を導出し、調整可能なカプラ構造における断熱制御相ゲートにおける同様の大きさの影響を見いだす。 さらに、電荷パリティスイッチの効果が、2量子ゲートの準粒子関連誤差源となることを示す。 また、チャージパリティスイッチは、チューナブルカップラー回路におけるキュービット間の残留長手相互作用を誘導することを示した。 本稿では, 量子回路実行のための性能指標として, アルゴリズムにおける単一および2量子ゲートの忠実度と個数, および状態準備忠実度について述べる。 この包括的メトリックと詳細なノイズモデルを組み合わせることで、量子ビット設計パラメーターの最適範囲を決定することができる。正確な数値シミュレーションにより、この最適パラメーター範囲内で量子チップを作製することは、性能指標を増大させるだけでなく、個々の量子ビットコヒーレンス特性の向上とともに、その継続的な改善を確実にする。 我々の系統分析は洞察を与え、次世代のトランスモンベースの量子プロセッサの開発のための指針となる。

Enhancing the performance of noisy quantum processors requires improving our understanding of error mechanisms and the ways to overcome them. In this study, we identify optimal ranges for qubit design parameters, grounded in comprehensive noise modeling. To this end, we also analyze a previously unexplored error mechanism that can perturb two-qubit gates due to charge-parity switches caused by quasiparticles. Due to the utilization of the higher levels of a transmon, where the charge dispersion is significantly larger, a charge-parity switch will affect the conditional phase of the two-qubit gate. We derive an analytical expression for the infidelity of a diabatic controlled-Z gate and see effects of similar magnitude in adiabatic controlled phase gates in the tunable coupler architecture. Moreover, we show that the effect of a charge-parity switch can be the dominant quasiparticle-related error source of a two-qubit gate. We also demonstrate that charge-parity switches induce a residual longitudinal interaction between qubits in a tunable-coupler circuit. We present a performance metric for quantum circuit execution, encompassing the fidelity and number of single and two-qubit gates in an algorithm, as well as the state preparation fidelity. This comprehensive metric, coupled with a detailed noise model, empowers us to determine an optimal range for the qubit design parameters Substantiating our findings through exact numerical simulations, we establish that fabricating quantum chips within this optimal parameter range not only augments the performance metric but also ensures its continued improvement with the enhancement of individual qubit coherence properties. Our systematic analysis offers insights and serves as a guiding framework for the development of the next generation of transmon-based quantum processors.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# SWoTTeD : テンソル分解の時間的変化

SWoTTeD: An Extension of Tensor Decomposition to Temporal Phenotyping ( http://arxiv.org/abs/2310.01201v3 )

ライセンス: Link先を確認
Hana Sebia, Thomas Guyet, Etienne Audureau, (参考訳) 最近、Electronic Health Records(EHR)のような個々のトレースの分析のために、機械学習コミュニティでテンソルの分解が注目されている。 しかし、データが複雑な時間パターンに従うと、このタスクは大幅に困難になる。 本稿では,時間的特徴の配置としての時間的表現型の概念を導入し,時間的パターンを隠蔽する新しい方法であるSWoTTeD(Sliding Window for Temporal Tensor Decomposition)を提案する。 SWoTTeDは、抽出された表現型の解釈可能性を高めるために、いくつかの制約と規則化を統合している。 我々は, 合成と実世界の両方のデータセットを用いて提案手法を検証し, パリ大病院のデータを用いた独自のユースケースを提案する。 その結果, SWoTTeDは最近のテンソル分解モデルと同等の精度で再現でき, 臨床医にとって有意義な時間的表現型を抽出できることがわかった。

Tensor decomposition has recently been gaining attention in the machine learning community for the analysis of individual traces, such as Electronic Health Records (EHR). However, this task becomes significantly more difficult when the data follows complex temporal patterns. This paper introduces the notion of a temporal phenotype as an arrangement of features over time and it proposes SWoTTeD (Sliding Window for Temporal Tensor Decomposition), a novel method to discover hidden temporal patterns. SWoTTeD integrates several constraints and regularizations to enhance the interpretability of the extracted phenotypes. We validate our proposal using both synthetic and real-world datasets, and we present an original usecase using data from the Greater Paris University Hospital. The results show that SWoTTeD achieves at least as accurate reconstruction as recent state-of-the-art tensor decomposition models, and extracts temporal phenotypes that are meaningful for clinicians.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# グラフレベルの異常検出のためのレイリー負グラフニューラルネットワーク

Rayleigh Quotient Graph Neural Networks for Graph-level Anomaly Detection ( http://arxiv.org/abs/2310.02861v4 )

ライセンス: Link先を確認
Xiangyu Dong, Xingyi Zhang, Sibo Wang, (参考訳) グラフレベルの異常検出は、がん診断や酵素予測など、さまざまな領域で応用されているため、注目されている。 しかし、既存の手法はグラフ異常のスペクトル特性を捉えず、説明不能なフレームワーク設計と不満足な性能をもたらす。 本稿では,異常グラフと正規グラフのスペクトル差を再検討する。 本研究の主観測は, この2つのクラス間で蓄積されたスペクトルエネルギーに有意差が認められた。 さらに、グラフ信号の蓄積したスペクトルエネルギーがレイリー・クオシエントによって表現できることを証明し、レイリー・クオシエントがグラフの異常な性質の背後にある駆動因子であることを示す。 グラフレベルの異常検出のための異常グラフのスペクトル特性を探索する最初のスペクトルGNNであるRayleigh Quotient Graph Neural Network (RQGNN)を提案する。 具体的には、Rayleigh Quotient Learning component (RQL)とChebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ)の2つのコンポーネントからなる新しいフレームワークを紹介する。 RQLはグラフのRayleigh Quotientを明示的にキャプチャし、CWGNN-RQはグラフのスペクトル空間を暗黙的に探索する。 10の実世界のデータセットに対する大規模な実験により、RQGNNはMacro-F1スコアの6.74%、AUCの1.44%で最高のライバルを上回っ、我々のフレームワークの有効性を実証した。 私たちのコードはhttps://github.com/xydong127/RQGNNで公開されています。

Graph-level anomaly detection has gained significant attention as it finds applications in various domains, such as cancer diagnosis and enzyme prediction. However, existing methods fail to capture the spectral properties of graph anomalies, resulting in unexplainable framework design and unsatisfying performance. In this paper, we re-investigate the spectral differences between anomalous and normal graphs. Our main observation shows a significant disparity in the accumulated spectral energy between these two classes. Moreover, we prove that the accumulated spectral energy of the graph signal can be represented by its Rayleigh Quotient, indicating that the Rayleigh Quotient is a driving factor behind the anomalous properties of graphs. Motivated by this, we propose Rayleigh Quotient Graph Neural Network (RQGNN), the first spectral GNN that explores the inherent spectral features of anomalous graphs for graph-level anomaly detection. Specifically, we introduce a novel framework with two components: the Rayleigh Quotient learning component (RQL) and Chebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ). RQL explicitly captures the Rayleigh Quotient of graphs and CWGNN-RQ implicitly explores the spectral space of graphs. Extensive experiments on 10 real-world datasets show that RQGNN outperforms the best rival by 6.74% in Macro-F1 score and 1.44% in AUC, demonstrating the effectiveness of our framework. Our code is available at https://github.com/xydong127/RQGNN.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# グラフニューラルネットワークにおける冗長性の両面について

On the Two Sides of Redundancy in Graph Neural Networks ( http://arxiv.org/abs/2310.04190v2 )

ライセンス: Link先を確認
Franka Bause, Samir Moustafa, Johannes Langguth, Wilfried N. Gansterer, Nils M. Kriege, (参考訳) メッセージパッシングニューラルネットワークは、近隣ノードからの情報を集約することで、ノード埋め込みを反復的に生成する。 深度が増すにつれて、より遠方のノードからの情報は含まれる。 しかし、ノード埋め込みは成長するノード近傍を正確に表現することができず、遠くのノードの影響が消える可能性がある。 メッセージパッシングにおける情報冗長性、すなわち、同一情報の繰り返し交換と符号化は、過度な監視を増幅する。 本研究では,標準的なメッセージパッシングを基礎とした展開木の冗長な枝を刈り取ることで冗長性を制御できる,近傍木に基づく新しいアグリゲーション手法を開発した。 展開木の正規構造は、中間結果を直接的に再利用することを可能にするが、近傍木の使用は計算上の問題を引き起こす。 近傍木をコンパクトに表現し,それらをマージし,同型部分木を同定して計算冗長性を利用する。 このことから、ノードとグラフの埋め込みは、ツリーのカノン化技術にインスパイアされたニューラルネットワークによって計算される。 提案手法は従来のメッセージパッシングニューラルネットワークよりも過度に扱いにくいため,広く使用されているベンチマークデータセットの精度を向上させることができる。

Message passing neural networks iteratively generate node embeddings by aggregating information from neighboring nodes. With increasing depth, information from more distant nodes is included. However, node embeddings may be unable to represent the growing node neighborhoods accurately and the influence of distant nodes may vanish, a problem referred to as oversquashing. Information redundancy in message passing, i.e., the repetitive exchange and encoding of identical information amplifies oversquashing. We develop a novel aggregation scheme based on neighborhood trees, which allows for controlling redundancy by pruning redundant branches of unfolding trees underlying standard message passing. While the regular structure of unfolding trees allows the reuse of intermediate results in a straightforward way, the use of neighborhood trees poses computational challenges. We propose compact representations of neighborhood trees and merge them, exploiting computational redundancy by identifying isomorphic subtrees. From this, node and graph embeddings are computed via a neural architecture inspired by tree canonization techniques. Our method is less susceptible to oversquashing than traditional message passing neural networks and can improve the accuracy on widely used benchmark datasets.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# 断熱超電導体論理を用いた超低消費電力マイクロ波多重量子ビットコントローラ

Ultra-low-power, microwave-multiplexed qubit controller using adiabatic superconductor logic ( http://arxiv.org/abs/2310.06544v2 )

ライセンス: Link先を確認
Naoki Takeuchi, Taiki Yamae, Taro Yamashita, Tsuyoshi Yamamoto, Nobuyuki Yoshikawa, (参考訳) 低温量子ビットコントローラ(QC)は、大規模超伝導量子プロセッサを構築する鍵である。 しかし、拡張性のあるQCの開発は、希釈冷凍機の冷却力が小さすぎる(約10$\mu$W at ~10 mK)ため、補体金属酸化物-半導体論理や超伝導単流体-量子論理などの従来の論理ファミリを操作するのが困難である。 本稿では,超低消費電力超伝導体論理系,すなわちAQFP論理を用いたスケーラブルQCについて報告する。 AQFPベースのQCは、AQFP-multiplexed QC (AQFP-mux QC) と呼ばれ、量子ビット制御のためのマルチトンマイクロ波信号を生成する。 さらに、AQFP-mux QCはマイクロ波多重化を採用し、システム全体を操作するための同軸ケーブルの数を減らす。 概念実証として、マイクロ波多重化と非多重化による2つの出力ポートでマイクロ波信号を生成するAQFP-mux QCチップを実証する。 実験の結果、出力電力は約$-80 dBm、オン/オフ比は各出力ポートで約40 dBであった。 また、サイドバンド信号の観測により、基本的な混合動作が示される。

Cryogenic qubit controllers (QCs) are the key to build large-scale superconducting quantum processors. However, developing scalable QCs is challenging because the cooling power of a dilution refrigerator is too small (~10 $\mu$W at ~10 mK) to operate conventional logic families, such as complementary metal-oxide-semiconductor logic and superconducting single-flux-quantum logic, near qubits. Here we report on a scalable QC using an ultra-low-power superconductor logic family, namely adiabatic quantum-flux-parametron (AQFP) logic. The AQFP-based QC, referred to as the AQFP-multiplexed QC (AQFP-mux QC), produces multi-tone microwave signals for qubit control with an extremely small power dissipation of 81.8 pW per qubit. Furthermore, the AQFP-mux QC adopts microwave multiplexing to reduce the number of coaxial cables for operating the entire system. As a proof of concept, we demonstrate an AQFP-mux QC chip that produces microwave signals at two output ports through microwave multiplexing and demultiplexing. Experimental results show an output power of approximately $-$80 dBm and on/off ratio of ~40 dB at each output port. Basic mixing operation is also demonstrated by observing sideband signals.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# RT-SRTS : 単一X線プロジェクションからの3次元同時再建と腫瘍切離

RT-SRTS: Angle-Agnostic Real-Time Simultaneous 3D Reconstruction and Tumor Segmentation from Single X-Ray Projection ( http://arxiv.org/abs/2310.08080v2 )

ライセンス: Link先を確認
Miao Zhu, Qiming Fu, Bo Liu, Mengxi Zhang, Bojian Li, Xiaoyan Luo, Fugen Zhou, (参考訳) 放射線療法は腫瘍の主要な治療法の1つであるが、呼吸による臓器の運動は精度を制限している。 近年,一本のX線投影による3Dイメージングが,この問題に対処するための有望なアプローチとして広く注目されている。 しかし、現在の方法では腫瘍を直接位置決めすることなく3D画像の再構成が可能であり、固定角画像のみの検証が可能であり、放射線治療における運動制御の要件を完全に満たすことができない。 本研究では,マルチタスク学習(MTL)に基づく1つのネットワークに3次元イメージングと腫瘍のセグメンテーションを統合し,任意の角度で1つのX線投影からリアルタイムに3次元再構成と腫瘍のセグメンテーションを実現する新しいイメージング手法RT-SRTSを提案する。 さらに,特徴抽出を支援し,セグメンテーション精度を向上させるために,アテンション強化キャリブレータ (AEC) と不確実領域エラボレーション (URE) モジュールが提案されている。 提案法は15例を対象に評価し, 最先端の3例と比較した。 より優れた3D再構成を行うだけでなく,腫瘍の分節化が期待できる。 同時再建と分節を約70ミリ秒で完了させることができ、リアルタイム腫瘍追跡に必要な時間しきい値よりもはるかに高速である。 AECとUREの併用効果もアブレーション研究で検証されている。 作業のコードはhttps://github.com/ZywooSimple/RT-SRTS.comで公開されている。

Radiotherapy is one of the primary treatment methods for tumors, but the organ movement caused by respiration limits its accuracy. Recently, 3D imaging from a single X-ray projection has received extensive attention as a promising approach to address this issue. However, current methods can only reconstruct 3D images without directly locating the tumor and are only validated for fixed-angle imaging, which fails to fully meet the requirements of motion control in radiotherapy. In this study, a novel imaging method RT-SRTS is proposed which integrates 3D imaging and tumor segmentation into one network based on multi-task learning (MTL) and achieves real-time simultaneous 3D reconstruction and tumor segmentation from a single X-ray projection at any angle. Furthermore, the attention enhanced calibrator (AEC) and uncertain-region elaboration (URE) modules have been proposed to aid feature extraction and improve segmentation accuracy. The proposed method was evaluated on fifteen patient cases and compared with three state-of-the-art methods. It not only delivers superior 3D reconstruction but also demonstrates commendable tumor segmentation results. Simultaneous reconstruction and segmentation can be completed in approximately 70 ms, significantly faster than the required time threshold for real-time tumor tracking. The efficacies of both AEC and URE have also been validated in ablation studies. The code of work is available at https://github.com/ZywooSimple/RT-SRTS.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# WinSyn: 合成データのための高解像度テストベッド

WinSyn: A High Resolution Testbed for Synthetic Data ( http://arxiv.org/abs/2310.08471v2 )

ライセンス: Link先を確認
Tom Kelly, John Femiani, Peter Wonka, (参考訳) 我々は、手続き的モデリング技術を用いて高品質な合成データを作成するためのユニークなデータセットとテストベッドであるWinSynを紹介する。 このデータセットには、世界中の場所から選抜された高解像度の窓の写真が含まれており、89,318の個々の窓作物は、多様な幾何学的特徴と材料的特性を示している。 合成画像と実画像の両方で意味的セグメンテーションネットワークを訓練し、実画像の共有テストセットでそれらの性能を比較することによって、手続きモデルを評価する。 具体的には、平均対合(mIoU)の差を測定し、合成データのトレーニング性能に適合する実画像の有効数を決定する。 ベースラインプロシージャモデルをベンチマークとして設計し,21,290個の合成画像を提供する。 手続きモデルを調整することで、実世界のシナリオを再現する際のモデルの忠実性に大きな影響を及ぼす重要な要素が特定される。 重要なことは、特に実世界のシナリオの空間的意味論を再現する能力において、現状の技術を用いた手続き的モデリングの課題を強調している。 この洞察は、奥行き、反射率、材料特性、照明条件といった隠れた風景面にブリッジする手続きモデルの可能性から重要である。

We present WinSyn, a unique dataset and testbed for creating high-quality synthetic data with procedural modeling techniques. The dataset contains high-resolution photographs of windows, selected from locations around the world, with 89,318 individual window crops showcasing diverse geometric and material characteristics. We evaluate a procedural model by training semantic segmentation networks on both synthetic and real images and then comparing their performances on a shared test set of real images. Specifically, we measure the difference in mean Intersection over Union (mIoU) and determine the effective number of real images to match synthetic data's training performance. We design a baseline procedural model as a benchmark and provide 21,290 synthetically generated images. By tuning the procedural model, key factors are identified which significantly influence the model's fidelity in replicating real-world scenarios. Importantly, we highlight the challenge of procedural modeling using current techniques, especially in their ability to replicate the spatial semantics of real-world scenarios. This insight is critical because of the potential of procedural models to bridge to hidden scene aspects such as depth, reflectivity, material properties, and lighting conditions.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# トレンド追従戦略のための金融時系列学習パターン

Few-Shot Learning Patterns in Financial Time-Series for Trend-Following Strategies ( http://arxiv.org/abs/2310.10500v2 )

ライセンス: Link先を確認
Kieran Wood, Samuel Kessler, Stephen J. Roberts, Stefan Zohren, (参考訳) 2020年の新型コロナウイルス(COVID-19)パンデミックの出現で見られたように、金融市場の状況が急速に変化しても、体系的な貿易戦略の予測モデルは急速に適応せず、多くの予測モデルが損失を生んでいる。 このような状況に対処するため、我々は、新しい市場状況に迅速に適応できる、新しい時系列トレンド追従予測器を提案する。 私たちは、ディープラーニングコミュニティからの最近の開発を活用し、ほとんどショットラーニングを使用します。 我々は、金融時系列体制のコンテキストセットに参画するクロス・アテンティブ・時系列トレンド・ネットワーク(X-Trend)を提案する。 X-Trendは、予測するために設定されたコンテキスト内の類似パターンからトレンドを転送し、その後、新しい異なるターゲットレジームのポジションを取る。 新たな金融体制に迅速に適応することで、2018年から2023年までの混乱期における従来の時系列モメンタム戦略よりも、ニューラル予測器よりもシャープ比が18.9%上昇し、10倍上昇する。 われわれの戦略は、ニューラル・フォカスターの2倍の速さで回復する。 また、X-Trendは5倍のシャープ比を、同じ期間にニューラルな時系列トレンド予測器から得ることで、新規の目に見えない金融資産のゼロショットポジションを取ることもできる。 さらに、クロスアテンション機構により、コンテキストセット内の予測とパターンの関係を解釈することができる。

Forecasting models for systematic trading strategies do not adapt quickly when financial market conditions rapidly change, as was seen in the advent of the COVID-19 pandemic in 2020, causing many forecasting models to take loss-making positions. To deal with such situations, we propose a novel time-series trend-following forecaster that can quickly adapt to new market conditions, referred to as regimes. We leverage recent developments from the deep learning community and use few-shot learning. We propose the Cross Attentive Time-Series Trend Network -- X-Trend -- which takes positions attending over a context set of financial time-series regimes. X-Trend transfers trends from similar patterns in the context set to make forecasts, then subsequently takes positions for a new distinct target regime. By quickly adapting to new financial regimes, X-Trend increases Sharpe ratio by 18.9% over a neural forecaster and 10-fold over a conventional Time-series Momentum strategy during the turbulent market period from 2018 to 2023. Our strategy recovers twice as quickly from the COVID-19 drawdown compared to the neural-forecaster. X-Trend can also take zero-shot positions on novel unseen financial assets obtaining a 5-fold Sharpe ratio increase versus a neural time-series trend forecaster over the same period. Furthermore, the cross-attention mechanism allows us to interpret the relationship between forecasts and patterns in the context set.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# 変圧器を用いた気候センサ配置最適化の学習

Learning to Optimise Climate Sensor Placement using a Transformer ( http://arxiv.org/abs/2310.12387v2 )

ライセンス: Link先を確認
Chen Wang, Victoria Huang, Gang Chen, Hui Ma, Bryce Chen, Jochen Schmidt, (参考訳) 環境モニタリングと災害管理のためのセンサの最適配置は、NPハードの性質のため難しい問題である。 センサ配置の伝統的な方法には、正確な、近似、あるいはヒューリスティックなアプローチがあり、後者が最も広く使われている。 しかし、ヒューリスティックな手法は専門家の直観と経験によって制限される。 ディープラーニング(DL)はヒューリスティックアルゴリズムを自動生成するための有望なアプローチとして登場した。 本稿では, 深部強化学習(RL)手法を用いた学習改善ヒューリスティックスに着目した新しいセンサ配置手法を提案する。 提案手法は,政策ネットワークをトレーニングするためのアクター・クリティカル・アルゴリズムによって駆動される学習改善ヒューリスティックスのためのRL定式化を利用する。 提案手法を, 総合的な実験を行い, 提案手法の有効性と優位性を実証し, 高品質なソリューションを創出することによる, 最先端の手法との比較を行った。 本研究は,気候センサ配置問題に対する高度DLおよびRL技術の適用に向けた有望な方向性を示す。

The optimal placement of sensors for environmental monitoring and disaster management is a challenging problem due to its NP-hard nature. Traditional methods for sensor placement involve exact, approximation, or heuristic approaches, with the latter being the most widely used. However, heuristic methods are limited by expert intuition and experience. Deep learning (DL) has emerged as a promising approach for generating heuristic algorithms automatically. In this paper, we introduce a novel sensor placement approach focused on learning improvement heuristics using deep reinforcement learning (RL) methods. Our approach leverages an RL formulation for learning improvement heuristics, driven by an actor-critic algorithm for training the policy network. We compare our method with several state-of-the-art approaches by conducting comprehensive experiments, demonstrating the effectiveness and superiority of our proposed approach in producing high-quality solutions. Our work presents a promising direction for applying advanced DL and RL techniques to challenging climate sensor placement problems.
翻訳日:2024-03-29 21:43:17 公開日:2024-03-28
# 空洞リセットと冷却のためのオンデマンド駆動型消散

On-demand driven dissipation for cavity reset and cooling ( http://arxiv.org/abs/2310.16785v4 )

ライセンス: Link先を確認
Vivek Maurya, Haimeng Zhang, Daria Kowsari, Andre Kuo, Darian M. Hartsell, Clark Miyamoto, Jocelyn Liu, Sadman Shanto, Evangelos Vlachos, Azarin Zarassi, Kater W. Murch, Eli M. Levenson-Falk, (参考訳) 電磁界の目標モード上で能動的かつオンデマンドで調整可能な消散を提供する超伝導回路装置を提案する。 私たちのデバイスは、ブロードバンドフィルタモードと共振するように調整可能な「消毒器」をベースとしています。 パラメトリックに駆動すると、この散逸器は駆動周波数に等しいエネルギーデチューニングと結合した任意のモードの損失を誘導する。 この装置を用いて超伝導量子ビットの読み出し空洞を測定後にリセットし,50\\\mu\mathrm{s}^{-1}$以上の特性を有する光子を除去した。 また, 消散を連続的に駆動し, キャビティを同時に減衰・冷却し, 熱光子変動を関連する脱コヒーレンスチャネルとして効果的に除去することを示した。 本研究は,回路QEDにおける環境工学およびエントロピー除去のためのモジュールツールとしての有用性を実証するものである。

We present a superconducting circuit device that provides active, on-demand, tunable dissipation on a target mode of the electromagnetic field. Our device is based on a tunable "dissipator" that can be made lossy when tuned into resonance with a broadband filter mode. When driven parametrically, this dissipator induces loss on any mode coupled to it with energy detuning equal to the drive frequency. We demonstrate the use of this device to reset a superconducting qubit's readout cavity after a measurement, removing photons with a characteristic rate above $50\ \mu\mathrm{s}^{-1}$. We also demonstrate that the dissipation can be driven constantly to simultaneously damp and cool the cavity, effectively eliminating thermal photon fluctuations as a relevant decoherence channel. Our results demonstrate the utility of our device as a modular tool for environmental engineering and entropy removal in circuit QED.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# MILL: ゼロショットクエリ拡張のための大規模言語モデルによる相互検証

MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion ( http://arxiv.org/abs/2310.19056v3 )

ライセンス: Link先を確認
Pengyue Jia, Yiding Liu, Xiangyu Zhao, Xiaopeng Li, Changying Hao, Shuaiqiang Wang, Dawei Yin, (参考訳) クエリ拡張は、検索エンジンにおいて重要なものであり、追加用語でユーザ情報の表現を強化する。 既存の手法は検索あるいは生成されたコンテキスト文書を使ってクエリを拡張するが、それぞれのアプローチには顕著な制限がある。 検索に基づく手法は、検索意図を正確に捉えるのに失敗することが多い。 大規模言語モデル(LLM)を利用するジェネレーションベースの手法は、一般にコーパス固有の知識がなく、高い微調整コストを必要とする。 これらのギャップに対処するために,LLMを用いた新たなゼロショットクエリ拡張フレームワークを提案する。 具体的には、まずLLMのゼロショット推論機能を利用して、多様なサブクエリと対応するドキュメントを生成するクエリクエリ文書生成手法を設計する。 そして、相互検証処理は、生成および検索された文書を最適な拡張のために相乗化する。 提案手法は完全にゼロショットであり,既存の手法に対する有効性を示すために,3つの公開ベンチマークデータセットに関する広範な実験を行った。 私たちのコードは、再現を容易にするためにhttps://github.com/Applied-Machine-Learning-Lab/MILLでオンラインで公開されています。

Query expansion, pivotal in search engines, enhances the representation of user information needs with additional terms. While existing methods expand queries using retrieved or generated contextual documents, each approach has notable limitations. Retrieval-based methods often fail to accurately capture search intent, particularly with brief or ambiguous queries. Generation-based methods, utilizing large language models (LLMs), generally lack corpus-specific knowledge and entail high fine-tuning costs. To address these gaps, we propose a novel zero-shot query expansion framework utilizing LLMs for mutual verification. Specifically, we first design a query-query-document generation method, leveraging LLMs' zero-shot reasoning ability to produce diverse sub-queries and corresponding documents. Then, a mutual verification process synergizes generated and retrieved documents for optimal expansion. Our proposed method is fully zero-shot, and extensive experiments on three public benchmark datasets are conducted to demonstrate its effectiveness over existing methods. Our code is available online at https://github.com/Applied-Machine-Learning-Lab/MILL to ease reproduction.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# MCAD:効率的な画像テキスト検索のためのマルチ教師クロスモーダルアライメント蒸留

MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval ( http://arxiv.org/abs/2310.19654v2 )

ライセンス: Link先を確認
Youbo Lei, Feifei He, Chen Chen, Yingbin Mo, Si Jia Li, Defeng Xie, Haonan Lu, (参考訳) 大規模ビジュアル言語事前学習(VLP)モデルの成功と,産業領域における画像テキスト検索の普及により,モデルサイズを削減し,モバイルデバイス展開を合理化することが重要になった。 シングルストリームモデルとデュアルストリームモデル構造は、テキストと視覚のセマンティックギャップを埋めることを目的として、画像テキスト検索で一般的に使用される。 シングルストリームモデルは、より正確なクロスモデルアライメントを実現するために、深い特徴融合を用いるが、デュアルストリームモデルはオフラインインデックス化と高速推論に優れており、シングルストリームモデルとデュアルストリームモデルの利点を統合するために、マルチTeacher Cross-modality Alignment Distillation (MCAD)技術を提案する。 両ストリームモデルのイメージとテキストの特徴に融合した単一ストリーム特徴を組み込むことで,教師の類似度分布と特徴を新たに定義する。 そして,学生の2重ストリームモデルの性能向上を図るため,分布と特徴蒸留を併用し,推論複雑性を増大させることなく高い検索性能を実現し,画像テキスト検索タスクにおけるMCADの顕著な性能と高い効率を実証する実験を行った。 さらに、Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し、動作メモリが$\sim$100M、検索遅延が$\sim$8.0msで、VLPモデルのモバイルデバイスアプリケーションを実現する。

Due to the success of large-scale visual-language pretraining (VLP) models and the widespread use of image-text retrieval in industry areas, it is now critically necessary to reduce the model size and streamline their mobile-device deployment. Single- and dual-stream model structures are commonly used in image-text retrieval with the goal of closing the semantic gap between textual and visual modalities. While single-stream models use deep feature fusion to achieve more accurate cross-model alignment, dual-stream models are better at offline indexing and fast inference.We propose a Multi-teacher Cross-modality Alignment Distillation (MCAD) technique to integrate the advantages of single- and dual-stream models. By incorporating the fused single-stream features into the image and text features of the dual-stream model, we formulate new modified teacher similarity distributions and features. Then, we conduct both distribution and feature distillation to boost the capability of the student dual-stream model, achieving high retrieval performance without increasing inference complexity.Extensive experiments demonstrate the remarkable performance and high efficiency of MCAD on image-text retrieval tasks. Furthermore, we implement a lightweight CLIP model on Snapdragon/Dimensity chips with only $\sim$100M running memory and $\sim$8.0ms search latency, achieving the mobile-device application of VLP models.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# スマートブロックチェーンネットワーク - Web 3.0における寄付追跡の革新

Smart Blockchain Networks: Revolutionizing Donation Tracking in the Web 3.0 ( http://arxiv.org/abs/2311.03573v3 )

ライセンス: Link先を確認
Chaimaa Nairi, Murtaza Cicioglu, Ali Calhan, (参考訳) スマートコントラクトとブロックチェーン技術を活用した寄付追跡システムは、特にWeb 3.0のコンテキストにおいて、慈善提供の状況を変えるための変革的な可能性を秘めている。 本稿では、スマートコントラクトとブロックチェーンを使用して、慈善寄付を追跡するための透明でセキュアな台帳を作成する方法について検討する。 従来の寄付システムの限界と、ブロックチェーンベースのシステムがこれらの課題を克服するのにどう役立つかを強調します。 寄付追跡におけるスマートコントラクトの機能、自動化、トランザクション手数料の削減、説明責任の向上といったメリットが解明されている。 ブロックチェーン技術の分散化と改ざん防止は、透明性の向上と不正防止のために強調されている。 メリットを解明しつつ、技術的な専門知識やセキュリティ上の配慮など、このようなシステムを実装する上での課題にも対処する。 信頼と説明責任を育むことによって、スマートブロックチェーンネットワークによって強化されたWeb 3.0の寄付追跡システムは、慈善活動の領域における大きなポジティブな影響を触媒することを目指している。

A donation-tracking system leveraging smart contracts and blockchain technology holds transformative potential for reshaping the landscape of charitable giving, especially within the context of Web 3.0. This paper explores how smart contracts and blockchain can be used to create a transparent and secure ledger for tracking charitable donations. We highlight the limitations of traditional donation systems and how a blockchain-based system can help overcome these challenges. The functionality of smart contracts in donation tracking, offering advantages such as automation, reduced transaction fees, and enhanced accountability, is elucidated. The decentralized and tamper-proof nature of blockchain technology is emphasized for increased transparency and fraud prevention. While elucidating the benefits, we also address challenges in implementing such a system, including the need for technical expertise and security considerations. By fostering trust and accountability, a donation-tracking system in Web 3.0, empowered by smart blockchain networks, aims to catalyze a profound positive impact in the realm of philanthropy.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# 実時間繰り返し強化学習

Real-Time Recurrent Reinforcement Learning ( http://arxiv.org/abs/2311.04830v2 )

ライセンス: Link先を確認
Julian Lemmel, Radu Grosu, (参考訳) 本稿では,部分観測可能なマルコフ決定プロセス(POMDP)における離散的かつ連続的な制御課題を解決するための生物学的に妥当なアプローチであるリアルタイムリカレント強化学習(RTRRL)を提案する。 RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティック・アルゴリズム,(2)メタRLネットワークのトレーニングに時間差学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ランダムフィードバックローカルオンライン学習(RFLO)学習,ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズム,の3つの部分から構成される。 RTRRLは、基底神経節の報酬経路を模倣し、生物学的ニューラルネットワークにおける学習のモデルとして機能する。

In this paper we propose real-time recurrent reinforcement learning (RTRRL), a biologically plausible approach to solving discrete and continuous control tasks in partially-observable markov decision processes (POMDPs). RTRRL consists of three parts: (1) a Meta-RL RNN architecture, implementing on its own an actor-critic algorithm; (2) an outer reinforcement learning algorithm, exploiting temporal difference learning and dutch eligibility traces to train the Meta-RL network; and (3) random-feedback local-online (RFLO) learning, an online automatic differentiation algorithm for computing the gradients with respect to parameters of the network.Our experimental results show that by replacing the optimization algorithm in RTRRL with the biologically implausible back propagation through time (BPTT), or real-time recurrent learning (RTRL), one does not improve returns, while matching the computational complexity for BPTT, and even increasing complexity for RTRL. RTRRL thus serves as a model of learning in biological neural networks, mimicking reward pathways in the basal ganglia.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# 条件付き時空間正規化流による確率的天気予報に向けて

Towards probabilistic Weather Forecasting with Conditioned Spatio-Temporal Normalizing Flows ( http://arxiv.org/abs/2311.06958v2 )

ライセンス: Link先を確認
Christina Winkler, (参考訳) 生成的正規化フローはマルチモーダルな空間分布をモデル化することができ、時間的相関もうまくモデル化できることが示されている。 これらのモデルは、トレーニングの安定性、可逆性、サンプリングと推論の効率性のために、他の種類の生成モデルよりもいくつかの利点を提供する。 これは、地球科学、天体物理学、分子科学など、多くの科学分野において一様である確率的時空間予測問題に適している。 本稿では,確率的時空間モデリングのための条件付き正規化フローを提案する。 本手法は,ERA5データセットからの日中温度と時空間地図予測のタスクに基づいて評価する。 実験により,本手法は時空間相関を捉えることができ,トレーニング中に使用する時間的地平線をはるかに越えることができることがわかった。

Generative normalizing flows are able to model multimodal spatial distributions, and they have been shown to model temporal correlations successfully as well. These models provide several benefits over other types of generative models due to their training stability, invertibility and efficiency in sampling and inference. This makes them a suitable candidate for stochastic spatio-temporal prediction problems, which are omnipresent in many fields of sciences, such as earth sciences, astrophysics or molecular sciences. In this paper, we present conditional normalizing flows for stochastic spatio-temporal modelling. The method is evaluated on the task of daily temperature and hourly geopotential map prediction from ERA5 datasets. Experiments show that our method is able to capture spatio-temporal correlations and extrapolates well beyond the time horizon used during training.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# ガウス性を超えた測定誘起遷移--単一粒子による記述

Measurement-induced transitions beyond Gaussianity: a single particle description ( http://arxiv.org/abs/2311.09043v2 )

ライセンス: Link先を確認
Luca Lumia, Emanuele Tirrito, Rosario Fazio, Mario Collura, (参考訳) 繰り返し測定することで量子系の力学における絡み合い相転移を誘導することができる。 相互作用モデル(カオス的かつ可積分的)は、一般に、低測定速度で安定な体積則の絡み合った位相を示し、自由なガウスフェルミオンで消失する。 相互作用は、そのユニタリ部分における力学写像のガウス性を破るが、非ガウス性は測定によっても導入できる。 異なるプロトコルの絡み合いと非ガウス性構造を比較することにより、測定誘起相転移の新しい単一粒子指標を提案し、非ガウス性が純粋に測定によって提供されるときの遷移の安定性を議論するためにそれを用いる。

Repeated measurements can induce entanglement phase transitions in the dynamics of quantum systems. Interacting models, both chaotic and integrable, generically show a stable volume-law entangled phase at low measurement rates which disappears for free, Gaussian fermions. Interactions break the Gaussianity of a dynamical map in its unitary part, but non-Gaussianity can be introduced through measurements as well. By comparing the entanglement and non-Gaussianity structure of different protocols, we propose a new single-particle indicator of the measurement-induced phase transition and we use it to argue in favour of the stability of the transition when non-Gaussianity is purely provided by measurements
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# LLMRefine: ファイングラインド・アクション可能なフィードバックによる大規模言語モデルのピンポインティングと精細化

LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback ( http://arxiv.org/abs/2311.09336v2 )

ライセンス: Link先を確認
Wenda Xu, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Biao Zhang, Zhongtao Liu, William Yang Wang, Lei Li, Markus Freitag, (参考訳) 最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 しかし、人間からのフィードバックは、特に推論時に得られるのに費用がかかる。 本研究では,LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。 中心となる考え方は、学習したきめ細かいフィードバックモデルを使用して欠陥を特定し、LCMを反復的に洗練させることです。 オリジナルのLLMを編集の提案として使用し、LLMRefineはシミュレートされたアニーリングを通じて欠陥のないテキストを検索し、探索とエクスプロイトをトレードオフした。 機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。

Recent large language models (LLM) are leveraging human feedback to improve their generation quality. However, human feedback is costly to obtain, especially during inference. In this work, we propose LLMRefine, an inference time optimization method to refine LLM's output. The core idea is to use a learned fine-grained feedback model to pinpoint defects and guide LLM to refine them iteratively. Using original LLM as a proposal of edits, LLMRefine searches for defect-less text via simulated annealing, trading off the exploration and exploitation. We conduct experiments on three text generation tasks, including machine translation, long-form question answering (QA), and topical summarization. LLMRefine consistently outperforms all baseline approaches, achieving improvements up to 1.7 MetricX points on translation tasks, 8.1 ROUGE-L on ASQA, 2.2 ROUGE-L on topical summarization.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# ASR基礎モデルの創発的音声分類能力の検討

Investigating the Emergent Audio Classification Ability of ASR Foundation Models ( http://arxiv.org/abs/2311.09363v2 )

ライセンス: Link先を確認
Rao Ma, Adian Liusie, Mark J. F. Gales, Kate M. Knill, (参考訳) テキストとビジョンファウンデーションモデルはゼロショット設定で多くのタスクを実行できる。 しかし、ASRファウンデーションモデルのゼロショット能力に関する作業は、通常、特定のタスクに微調整されるか、トレーニング基準とデータアノテーションに適合するアプリケーションに制限される。 本研究では,主に音声認識のために訓練されたASR基盤モデルであるWhisperとMMSを用いて,ゼロショット音声分類を行う能力について検討する。 我々は、デコーダで単純なテンプレートベースのテキストプロンプトを使用し、結果として生じるデコード確率を用いてゼロショット予測を生成する。 余分なデータでモデルをトレーニングしたり、新しいパラメータを追加したりすることなく、Whisperは8つのオーディオ分類データセットに対して有望なゼロショット分類性能を示し、既存の最先端ゼロショットベースラインの精度を平均9%向上させることを示した。 創発的能力を解き放つための重要なステップはデバイアス(debiasing)であり、クラス確率の単純な教師なし再重み付け法が一貫したパフォーマンス向上をもたらす。 さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされるにつれて、ゼロショット性能が向上する可能性が示唆された。

Text and vision foundation models can perform many tasks in a zero-shot setting, a desirable property that enables these systems to be applied in general and low-resource settings. There has been far less work, however, on the zero-shot abilities of ASR foundation models, with these systems typically fine-tuned to specific tasks or constrained to applications that match their training criterion and data annotation. In this work we investigate the ability of Whisper and MMS, ASR foundation models trained primarily for speech recognition, to perform zero-shot audio classification. We use simple template-based text prompts at the decoder and use the resulting decoding probabilities to generate zero-shot predictions. Without training the model on extra data or adding any new parameters, we demonstrate that Whisper shows promising zero-shot classification performance on a range of 8 audio-classification datasets, outperforming the accuracy of existing state-of-the-art zero-shot baselines by an average of 9%. One important step to unlock the emergent ability is debiasing, where a simple unsupervised reweighting method of the class probabilities yields consistent significant performance gains. We further show that performance increases with model size, implying that as ASR foundation models scale up, they may exhibit improved zero-shot performance.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# 自己二重フラクトンスピンモデルのエキゾチック対称性破壊特性

Exotic Symmetry Breaking Properties of Self-Dual Fracton Spin Models ( http://arxiv.org/abs/2311.11066v2 )

ライセンス: Link先を確認
Giovanni Canossa, Lode Pollet, Miguel A. Martin-Delgado, Hao Song, Ke Liu, (参考訳) フラクトン符号は、伝統的なトポロジ的な物質状態を持ち、その大きな符号化空間とデコヒーレンスやノイズに対する強い耐性のため、フォールトトレラントな量子計算を約束している。 本研究では,2種類の原型自己双対フラクトンスピンモデル(四面体イジングモデルとフラクタルイジングモデル)の基底状態特性と相転移について検討する。 それらは、大域対称性の自発的な破れやゲージ理論の分解遷移と鋭く対照的な、エキゾチック対称性を破る性質を与えられた。 サブ次元対称性に関連付けられたこれらの非従来的挙動を示すため、両モデルに対して順序パラメータ、相関子、対称性生成体を構築し、解析する。 特に、四面体イジングモデルは拡張半局所順序モーメントを取得し、フラクタルイジングモデルは多項式環表現に適合し、フラクタル秩序パラメータにつながる。 解析ツールと組み合わせた数値実験により、どちらのモデルも、後者のフラクタル対称性にもかかわらず、異常な$L^{-(D-1)}$スケーリングで強い1次相転移を経験していることが示された。 我々の研究は、サブ次元対称性の破れについての新しい理解を提供し、チェッカーボードとハアの符号の量子エラー補正特性を研究するための重要なステップとなる。

Fracton codes host unconventional topological states of matter and are promising for fault-tolerant quantum computation due to their large coding space and strong resilience against decoherence and noise. In this work, we investigate the ground-state properties and phase transitions of two prototypical self-dual fracton spin models -- the tetrahedral Ising model and the fractal Ising model -- which correspond to error-correction procedures for the representative fracton codes of type-I and type-II, the checkerboard code and the Haah's code, respectively, in the error-free limit. They are endowed with exotic symmetry-breaking properties that contrast sharply with the spontaneous breaking of global symmetries and deconfinement transition of gauge theories. To show these unconventional behaviors, which are associated with sub-dimensional symmetries, we construct and analyze the order parameters, correlators, and symmetry generators for both models. Notably, the tetrahedral Ising model acquires an extended semi-local ordering moment, while the fractal Ising model fits into a polynomial ring representation and leads to a fractal order parameter. Numerical studies combined with analytical tools show that both models experience a strong first-order phase transition with an anomalous $L^{-(D-1)}$ scaling, despite the fractal symmetry of the latter. Our work provides new understanding of sub-dimensional symmetry breaking and makes an important step for studying quantum-error-correction properties of the checkerboard and Haah's codes.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# 一般化可能なディープフェイク検出のための潜時空間拡張による超越フォージェリー特異性

Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection ( http://arxiv.org/abs/2311.11278v2 )

ライセンス: Link先を確認
Zhiyuan Yan, Yuhao Luo, Siwei Lyu, Qingshan Liu, Baoyuan Wu, (参考訳) Deepfake検出は、トレーニングとテストデータの分布にミスマッチがある場合のパフォーマンスが低下する、重要な一般化ハードルに直面している。 広く受け入れられた説明は、これらの検出器は様々な偽造品に広く適用される特徴を学習するよりも、偽造特有の人工物に過度に適合する傾向にある。 この問題に対処するために、我々はLSDA (\underline{L}atent \underline{S}pace \underline{D}ata \underline{A}ugmentation) と呼ばれる単純で効果的な検出器を提案する。 このアイデアに従えば、潜在空間における偽空間内および偽空間間のバリエーションを構築し、シミュレーションすることにより、偽空間を拡大することを提案する。 このアプローチは、リッチでドメイン固有の特徴の獲得と、異なるフォージェリータイプ間のスムーズな移行の促進を含み、ドメインギャップを効果的に埋める。 提案手法は, 改良された特徴から蒸留された知識を生かし, 一般化可能なディープフェイク検出器の開発に有効である。 包括的実験により,提案手法は驚くほど有効であり,多くの広く使用されているベンチマークで最先端の検出器を超越していることがわかった。

Deepfake detection faces a critical generalization hurdle, with performance deteriorating when there is a mismatch between the distributions of training and testing data. A broadly received explanation is the tendency of these detectors to be overfitted to forgery-specific artifacts, rather than learning features that are widely applicable across various forgeries. To address this issue, we propose a simple yet effective detector called LSDA (\underline{L}atent \underline{S}pace \underline{D}ata \underline{A}ugmentation), which is based on a heuristic idea: representations with a wider variety of forgeries should be able to learn a more generalizable decision boundary, thereby mitigating the overfitting of method-specific features (see Fig.~\ref{fig:toy}). Following this idea, we propose to enlarge the forgery space by constructing and simulating variations within and across forgery features in the latent space. This approach encompasses the acquisition of enriched, domain-specific features and the facilitation of smoother transitions between different forgery types, effectively bridging domain gaps. Our approach culminates in refining a binary classifier that leverages the distilled knowledge from the enhanced features, striving for a generalizable deepfake detector. Comprehensive experiments show that our proposed method is surprisingly effective and transcends state-of-the-art detectors across several widely used benchmarks.
翻訳日:2024-03-29 21:33:29 公開日:2024-03-28
# 継続的な学習 - 応用と道のり

Continual Learning: Applications and the Road Forward ( http://arxiv.org/abs/2311.11908v3 )

ライセンス: Link先を確認
Eli Verwimp, Rahaf Aljundi, Shai Ben-David, Matthias Bethge, Andrea Cossu, Alexander Gepperth, Tyler L. Hayes, Eyke Hüllermeier, Christopher Kanan, Dhireesha Kudithipudi, Christoph H. Lampert, Martin Mundt, Razvan Pascanu, Adrian Popescu, Andreas S. Tolias, Joost van de Weijer, Bing Liu, Vincenzo Lomonaco, Tinne Tuytelaars, Gido M. van de Ven, (参考訳) 機械学習は機械学習のサブフィールドであり、過去の学習を忘れずに知識を蓄積することで、機械学習モデルが新しいデータを継続的に学習できるようにすることを目的としている。 この作業では、一歩後退して、"そもそも何故継続的な学習を気にすべきなのか"と尋ねます。 我々は,4つの主要な機械学習カンファレンスで発行された最近の連続的な学習論文を検証し,記憶に制約のある設定がこの分野を支配していることを示す。 そして、機械学習における5つのオープンな問題について議論し、それらは一見して連続的な学習とは無関係に思えるかもしれないが、連続的な学習が必然的に彼らのソリューションの一部であることを示す。 これらの問題は、モデル編集、パーソナライゼーションと特殊化、デバイス上での学習、高速(再)トレーニング、強化学習である。 最後に、これらの未解決問題と継続学習における現在の仮定とを比較して、継続学習研究の4つの方向性を強調し、議論する。 この研究は、その潜在的な価値と、それを成功させるために追求しなければならないパスを示しながら、継続的な学習の将来に関する興味深い視点を提供することを期待しています。 この研究は、2023年3月のDagtuhl Seminar on Deep Continual Learningで著者らが行った多くの議論の結果である。

Continual learning is a subfield of machine learning, which aims to allow machine learning models to continuously learn on new data, by accumulating knowledge without forgetting what was learned in the past. In this work, we take a step back, and ask: "Why should one care about continual learning in the first place?". We set the stage by examining recent continual learning papers published at four major machine learning conferences, and show that memory-constrained settings dominate the field. Then, we discuss five open problems in machine learning, and even though they might seem unrelated to continual learning at first sight, we show that continual learning will inevitably be part of their solution. These problems are model editing, personalization and specialization, on-device learning, faster (re-)training and reinforcement learning. Finally, by comparing the desiderata from these unsolved problems and the current assumptions in continual learning, we highlight and discuss four future directions for continual learning research. We hope that this work offers an interesting perspective on the future of continual learning, while displaying its potential value and the paths we have to pursue in order to make it successful. This work is the result of the many discussions the authors had at the Dagstuhl seminar on Deep Continual Learning, in March 2023.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# マルチモーダル・インコンテキスト・ラーニングによるエゴ進化型シーンテキスト認識

Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer ( http://arxiv.org/abs/2311.13120v3 )

ライセンス: Link先を確認
Zhen Zhao, Jingqun Tang, Chunhui Lin, Binghong Wu, Can Huang, Hao Liu, Xin Tan, Zhizhong Zhang, Yuan Xie, (参考訳) 野生のシーンテキスト認識(STR)は、ドメインのバリエーション、フォントの多様性、形状の変形などに対処する際の課題に頻繁に遭遇する。 直感的な解決策は、特定のシナリオに合わせて微調整されたモデルを実行することだが、計算集約であり、様々なシナリオに対して複数のモデルコピーを必要とする。 近年の研究では、大規模言語モデル(LLM)が、訓練のない方法でいくつかの実演例から学習できることが示されている。 それでも、LLMをテキスト認識器として適用することは許容できないリソース消費である。 さらに,本実験の結果から,ILCがSTRで失敗するのは,学習段階における多様なサンプルからの文脈情報の組み入れが不十分であったためと考えられる。 そこで本稿では,コンテキストに富んだシーンテキストシーケンスをトレーニングしたSTRモデルであるE$^2$STRを紹介し,提案したコンテキスト内トレーニング戦略を用いてシーケンスを生成する。 E$^2$STR は、STR において有効な ICL 機能を達成するのに、正規サイズのモデルで十分であることを示す。 大規模な実験により、E$^2$STRは、様々なシナリオにおいて顕著なトレーニングなし適応を示し、公開ベンチマークにおける微調整された最先端アプローチよりも優れていた。 コードはhttps://github.com/bytedance/E2STR で公開されている。

Scene text recognition (STR) in the wild frequently encounters challenges when coping with domain variations, font diversity, shape deformations, etc. A straightforward solution is performing model fine-tuning tailored to a specific scenario, but it is computationally intensive and requires multiple model copies for various scenarios. Recent studies indicate that large language models (LLMs) can learn from a few demonstration examples in a training-free manner, termed "In-Context Learning" (ICL). Nevertheless, applying LLMs as a text recognizer is unacceptably resource-consuming. Moreover, our pilot experiments on LLMs show that ICL fails in STR, mainly attributed to the insufficient incorporation of contextual information from diverse samples in the training stage. To this end, we introduce E$^2$STR, a STR model trained with context-rich scene text sequences, where the sequences are generated via our proposed in-context training strategy. E$^2$STR demonstrates that a regular-sized model is sufficient to achieve effective ICL capabilities in STR. Extensive experiments show that E$^2$STR exhibits remarkable training-free adaptation in various scenarios and outperforms even the fine-tuned state-of-the-art approaches on public benchmarks. The code is released at https://github.com/bytedance/E2STR .
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# ACT拡散(ACT-Diffusion): 1段階拡散モデルの効率よい対向整合性トレーニング

ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models ( http://arxiv.org/abs/2311.14097v3 )

ライセンス: Link先を確認
Fei Kong, Jinhao Duan, Lichao Sun, Hao Cheng, Renjing Xu, Hengtao Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu, (参考訳) 拡散モデルは画像生成において優れているが、ステップバイステップのデノゲーションは生成速度を遅くする。 一貫性トレーニングは、単一ステップサンプリングでこの問題に対処するが、しばしば低品質世代を生成し、高いトレーニングコストを必要とする。 本稿では,一致度トレーニング損失の最適化が,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 タイムステップが増加すると、上限は以前の一貫性トレーニング損失を蓄積する。 したがって、現在の損失と累積損失の両方を減らすために、より大きなバッチサイズが必要である。 本稿では,判別器を用いて,各時刻における分布間のJensen-Shannon(JS)ばらつきを極力最小化するAdversarial Consistency Training(ACT)を提案する。 理論的には、ACTは生成品質と収束を高める。 CIFAR10 と ImageNet 64$\times$64 および LSUN Cat 256$\times$256 データセットに対する FID スコアの改善を実現し、ゼロショット画像の描画能力を維持し、元のバッチサイズの1/6 ドル未満、ベースライン法と比較して1/2 ドル未満のモデルパラメータとトレーニングステップを使用することにより、リソース消費を大幅に削減する。 私たちのコードは:https://github.com/kong13661/ACT

Though diffusion models excel in image generation, their step-by-step denoising leads to slow generation speeds. Consistency training addresses this issue with single-step sampling but often produces lower-quality generations and requires high training costs. In this paper, we show that optimizing consistency training loss minimizes the Wasserstein distance between target and generated distributions. As timestep increases, the upper bound accumulates previous consistency training losses. Therefore, larger batch sizes are needed to reduce both current and accumulated losses. We propose Adversarial Consistency Training (ACT), which directly minimizes the Jensen-Shannon (JS) divergence between distributions at each timestep using a discriminator. Theoretically, ACT enhances generation quality, and convergence. By incorporating a discriminator into the consistency training framework, our method achieves improved FID scores on CIFAR10 and ImageNet 64$\times$64 and LSUN Cat 256$\times$256 datasets, retains zero-shot image inpainting capabilities, and uses less than $1/6$ of the original batch size and fewer than $1/2$ of the model parameters and training steps compared to the baseline method, this leads to a substantial reduction in resource consumption. Our code is available:https://github.com/kong13661/ACT
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# EgoThink: ビジョンランゲージモデルの能力を考慮した初対人視点の評価

EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models ( http://arxiv.org/abs/2311.15596v2 )

ライセンス: Link先を確認
Sijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li, Huaping Liu, Yang Liu, (参考訳) 視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。 評価研究は、その能力を評価するために現れており、大多数は第三者の視点に焦点を合わせており、一人の視点から特定のタスクに取り組むのはごくわずかである。 しかしながら、自律エージェントやロボット工学を進歩させる上で重要な要素である、一人称視点から「考える」VLMの能力は、いまだに未解明のままである。 この研究ギャップを埋めるために、12の詳細な次元を持つ6つのコア機能を含む新しい視覚的質問答えベンチマークであるEgoThinkを紹介します。 このベンチマークは、エゴセントリックなビデオから選択したクリップを使用して構築され、一人称情報を含む手動で注釈付き質問応答ペアが使用される。 VLMを総合的に評価するために、EgoThink上で18の人気のあるVLMを評価した。 さらに,解答のオープンな形式を考えると,GPT-4を自動判断器として用いて1問の解答を計算している。 実験結果から, GPT-4Vは多数の次元をリードするが, 評価されたVLMはいずれも一対一の視点タスクの改善に有意な可能性を秘めていることがわかった。 一方、トレーニング可能なパラメータの数を増やすことは、EgoThinkのモデルパフォーマンスに最も大きな影響を与えます。 結論として、EgoThinkは、VLMの既存の評価ベンチマークに価値ある追加として機能し、組み込み人工知能とロボティクスの領域における将来の研究に欠かせないリソースを提供する。

Vision-language models (VLMs) have recently shown promising results in traditional downstream tasks. Evaluation studies have emerged to assess their abilities, with the majority focusing on the third-person perspective, and only a few addressing specific tasks from the first-person perspective. However, the capability of VLMs to "think" from a first-person perspective, a crucial attribute for advancing autonomous agents and robotics, remains largely unexplored. To bridge this research gap, we introduce EgoThink, a novel visual question-answering benchmark that encompasses six core capabilities with twelve detailed dimensions. The benchmark is constructed using selected clips from egocentric videos, with manually annotated question-answer pairs containing first-person information. To comprehensively assess VLMs, we evaluate eighteen popular VLMs on EgoThink. Moreover, given the open-ended format of the answers, we use GPT-4 as the automatic judge to compute single-answer grading. Experimental results indicate that although GPT-4V leads in numerous dimensions, all evaluated VLMs still possess considerable potential for improvement in first-person perspective tasks. Meanwhile, enlarging the number of trainable parameters has the most significant impact on model performance on EgoThink. In conclusion, EgoThink serves as a valuable addition to existing evaluation benchmarks for VLMs, providing an indispensable resource for future research in the realm of embodied artificial intelligence and robotics.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# Text2Loc: 自然言語からの3Dポイントクラウドローカライゼーション

Text2Loc: 3D Point Cloud Localization from Natural Language ( http://arxiv.org/abs/2311.15977v2 )

ライセンス: Link先を確認
Yan Xia, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers, (参考訳) 我々は,いくつかの自然言語記述に基づく3Dポイントクラウドローカライゼーションの問題に取り組み,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークであるText2Locを導入する。 Text2Locは、粗大なローカライゼーションパイプラインに従っている。 グローバルな位置認識では、各テキストヒント間の関係ダイナミクスを最大プーリング(HTM)付き階層変換器でキャプチャする一方、正対と負対のバランスはテキストサブマップコントラスト学習を用いて維持する。 さらに,より複雑なテキストインスタンスマッチングの必要性を完全に排除し,従来手法よりも軽量で高速かつ高精度な位置推定法を提案する。 大規模な実験により、Text2LocはKITTI360Poseデータセットの最先端技術よりも、最大2\times$のローカライズ精度を向上している。 私たちのプロジェクトページは、 \url{https://yan-xia.github.io/projects/text2loc/}で公開されています。

We tackle the problem of 3D point cloud localization based on a few natural linguistic descriptions and introduce a novel neural network, Text2Loc, that fully interprets the semantic relationship between points and text. Text2Loc follows a coarse-to-fine localization pipeline: text-submap global place recognition, followed by fine localization. In global place recognition, relational dynamics among each textual hint are captured in a hierarchical transformer with max-pooling (HTM), whereas a balance between positive and negative pairs is maintained using text-submap contrastive learning. Moreover, we propose a novel matching-free fine localization method to further refine the location predictions, which completely removes the need for complicated text-instance matching and is lighter, faster, and more accurate than previous methods. Extensive experiments show that Text2Loc improves the localization accuracy by up to $2\times$ over the state-of-the-art on the KITTI360Pose dataset. Our project page is publicly available at \url{https://yan-xia.github.io/projects/text2loc/}.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# GS-IR:逆レンダリングのための3次元ガウススティング

GS-IR: 3D Gaussian Splatting for Inverse Rendering ( http://arxiv.org/abs/2311.16473v3 )

ライセンス: Link先を確認
Zhihao Liang, Qi Zhang, Ying Feng, Ying Shan, Kui Jia, (参考訳) 本稿では,3次元ガウススプラッティング(GS)に基づく新しい逆レンダリング手法であるGS-IRを提案する。 暗黙的なニューラル表現とボリュームレンダリング(eg NeRF)を低表現力と高い計算複雑性で用いた従来の研究とは異なり、GSは、未知の照明条件下で撮影されたマルチビュー画像からシーン形状、表面物質、環境照明を推定するために、新しいビュー合成のための最高性能の表現であるGSを拡張している。 逆レンダリングにGSを導入する場合、主な問題は2つある。 1)GSは,本質的に可塑性な正常生産をサポートしない。 2)前方マッピング(例:ラスタ化,スプラッティング)は,後方マッピング(例:レイトレーシング)のようなオクルージョンを追跡できない。 これらの課題に対処するため、GS-IRは、正規推定のための深度微分に基づく正規化と間接照明をモデル化するためのベーキングに基づく隠蔽を組み込んだ効率的な最適化手法を提案する。 フレキシブルかつ表現力のあるGS表現は、高速かつコンパクトな幾何再構成、フォトリアリスティックな新規ビュー合成、有効物理ベースレンダリングを実現する。 本手法は,様々な挑戦シーンの質的,定量的な評価を通じて,ベースライン法よりも優れていることを示す。

We propose GS-IR, a novel inverse rendering approach based on 3D Gaussian Splatting (GS) that leverages forward mapping volume rendering to achieve photorealistic novel view synthesis and relighting results. Unlike previous works that use implicit neural representations and volume rendering (e.g. NeRF), which suffer from low expressive power and high computational complexity, we extend GS, a top-performance representation for novel view synthesis, to estimate scene geometry, surface material, and environment illumination from multi-view images captured under unknown lighting conditions. There are two main problems when introducing GS to inverse rendering: 1) GS does not support producing plausible normal natively; 2) forward mapping (e.g. rasterization and splatting) cannot trace the occlusion like backward mapping (e.g. ray tracing). To address these challenges, our GS-IR proposes an efficient optimization scheme that incorporates a depth-derivation-based regularization for normal estimation and a baking-based occlusion to model indirect lighting. The flexible and expressive GS representation allows us to achieve fast and compact geometry reconstruction, photorealistic novel view synthesis, and effective physically-based rendering. We demonstrate the superiority of our method over baseline methods through qualitative and quantitative evaluations on various challenging scenes.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# Segment Every Out-of-Distribution Object

Segment Every Out-of-Distribution Object ( http://arxiv.org/abs/2311.16516v4 )

ライセンス: Link先を確認
Wenjie Zhao, Jia Li, Xin Dong, Yu Xiang, Yunhui Guo, (参考訳) セマンティックセグメンテーションモデル(Semantic segmentation model)は、非分配カテゴリに有効であるが、OoD(out-of-distriion)オブジェクトに遭遇するため、現実世界のデプロイメントにおいて課題に直面している。 これらのOoDオブジェクトの検出は、安全クリティカルなアプリケーションに不可欠である。 既存の方法は異常スコアに頼っているが、マスクを生成するのに適したしきい値を選択することは困難であり、断片化や不正確化につながる可能性がある。 本稿では,意味的セグメンテーションにおけるOoD検出の簡易かつ効果的なフレームワークであるS2Mと呼ばれる,異常な \textbf{S}core \textbf{T}o セグメンテーションを変換する手法を提案する。 異常スコアをピクセルに割り当てるのとは異なり、S2MはOoDオブジェクト全体を直接セグメントする。 異常スコアをプロンプト可能なセグメンテーションモデルへのプロンプトに変換することで、S2Mはしきい値の選択を不要にする。 大規模な実験により、S2MはIoUで約20%、平均F1スコアで40%、フィッシュスケープ、Segment-Me-If-You-Can、RoadAnomalyデータセットなど、さまざまなベンチマークでパフォーマンスが向上した。

Semantic segmentation models, while effective for in-distribution categories, face challenges in real-world deployment due to encountering out-of-distribution (OoD) objects. Detecting these OoD objects is crucial for safety-critical applications. Existing methods rely on anomaly scores, but choosing a suitable threshold for generating masks presents difficulties and can lead to fragmentation and inaccuracy. This paper introduces a method to convert anomaly \textbf{S}core \textbf{T}o segmentation \textbf{M}ask, called S2M, a simple and effective framework for OoD detection in semantic segmentation. Unlike assigning anomaly scores to pixels, S2M directly segments the entire OoD object. By transforming anomaly scores into prompts for a promptable segmentation model, S2M eliminates the need for threshold selection. Extensive experiments demonstrate that S2M outperforms the state-of-the-art by approximately 20% in IoU and 40% in mean F1 score, on average, across various benchmarks including Fishyscapes, Segment-Me-If-You-Can, and RoadAnomaly datasets.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# 画像とキャプションの構造的類似によるゼロショット参照表現の理解

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions ( http://arxiv.org/abs/2311.17048v2 )

ライセンス: Link先を確認
Zeyu Han, Fangrui Zhu, Qianru Lao, Huaizu Jiang, (参考訳) Zero-shot Reference Expression comprehensionは、提供されるテキストプロンプトに対応するイメージ内のバウンディングボックスをローカライズすることを目的としている。 一 複雑な視覚的場面及びテクスト的文脈のきめ細かいゆがみ 二 異端者間の関係を理解する能力 残念ながら、既存の大規模視覚言語アライメント(VLA)モデル、例えばCLIPは、両方の側面で苦労しているため、このタスクに直接使用することはできない。 このギャップを緩和するために、我々は大きな基礎モデルを活用し、画像とテキストを三つ子(オブジェクト、述語、オブジェクト)に切り離す。 その後、VLAモデルを用いて視覚的三重項とテキスト的三重項の構造的類似性行列を計算し、次いでインスタンスレベルの類似性行列に伝播する。 さらに,VLAモデルに関係理解能力を持たせるために,豊富なエンティティ関係を含むキュレートデータセットの集合上で,VLAモデルを微調整する3重マッチング目標を設計する。 実験により、RefCOCO/+/g上のSOTAゼロショットモデルよりも、視覚的接地性能が19.5%向上したことが示された。 より困難なWho's Waldoデータセットでは、ゼロショットアプローチが完全に教師付きモデルに匹敵する精度を実現しています。 コードはhttps://github.com/Show-han/Zeroshot_REC.comで公開されている。

Zero-shot referring expression comprehension aims at localizing bounding boxes in an image corresponding to provided textual prompts, which requires: (i) a fine-grained disentanglement of complex visual scene and textual context, and (ii) a capacity to understand relationships among disentangled entities. Unfortunately, existing large vision-language alignment (VLA) models, e.g., CLIP, struggle with both aspects so cannot be directly used for this task. To mitigate this gap, we leverage large foundation models to disentangle both images and texts into triplets in the format of (subject, predicate, object). After that, grounding is accomplished by calculating the structural similarity matrix between visual and textual triplets with a VLA model, and subsequently propagate it to an instance-level similarity matrix. Furthermore, to equip VLA models with the ability of relationship understanding, we design a triplet-matching objective to fine-tune the VLA models on a collection of curated dataset containing abundant entity relationships. Experiments demonstrate that our visual grounding performance increase of up to 19.5% over the SOTA zero-shot model on RefCOCO/+/g. On the more challenging Who's Waldo dataset, our zero-shot approach achieves comparable accuracy to the fully supervised model. Code is available at https://github.com/Show-han/Zeroshot_REC.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# セグメンテーションモデルのためのクロスブロックオーケストレーションによるパラメータ効率的な微調整

Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model ( http://arxiv.org/abs/2311.17112v2 )

ライセンス: Link先を確認
Zelin Peng, Zhengqin Xu, Zhilin Zeng, Lingxi Xie, Qi Tian, Wei Shen, (参考訳) パラメータ効率のよい微調整(PEFT)は、限られたトレーニングデータを持つ新しいシナリオにおいて、大きな基礎モデルの可能性を解き放つ効果的な手法である。 コンピュータビジョンのコミュニティでは、PEFTは画像分類において有効性を示しているが、画像分割の能力についてはほとんど研究されていない。 微調整セグメンテーションモデルは通常、新しいシナリオのためにパラメータ空間の適切な射影方向を調整するためにパラメータのより重い調整を必要とする。 これは既存のPEFTアルゴリズムに挑戦し、各ブロックに限られた数の個々のパラメータを注入することで、ブロックに沿った隠れマルコフ連鎖の制限によるパラメータ空間の射影方向の相当な調整を防止する。 本稿では,PEFTにクロスブロックオーケストレーション機構を組み,Segment Anything Model(SAM)の下流シナリオへの適応を可能にする。 本稿では,各PEFTブロックのパラメータ空間の係数集合間の通信を容易にするために,学習可能な関係行列を統合したブロック間通信モジュールを提案する。 さらに,超複素層から重みが生じる線形射影ヘッドを導入し,パラメータ空間全体に対する射影方向の調整の影響をさらに高めるブロック内拡張モジュールを提案する。 多様なベンチマーク実験により,提案手法は,約1K以上のパラメータを持つ新規シナリオにおいて,セグメンテーション性能を大幅に向上することを示した。

Parameter-efficient fine-tuning (PEFT) is an effective methodology to unleash the potential of large foundation models in novel scenarios with limited training data. In the computer vision community, PEFT has shown effectiveness in image classification, but little research has studied its ability for image segmentation. Fine-tuning segmentation models usually require a heavier adjustment of parameters to align the proper projection directions in the parameter space for new scenarios. This raises a challenge to existing PEFT algorithms, as they often inject a limited number of individual parameters into each block, which prevents substantial adjustment of the projection direction of the parameter space due to the limitation of Hidden Markov Chain along blocks. In this paper, we equip PEFT with a cross-block orchestration mechanism to enable the adaptation of the Segment Anything Model (SAM) to various downstream scenarios. We introduce a novel inter-block communication module, which integrates a learnable relation matrix to facilitate communication among different coefficient sets of each PEFT block's parameter space. Moreover, we propose an intra-block enhancement module, which introduces a linear projection head whose weights are generated from a hyper-complex layer, further enhancing the impact of the adjustment of projection directions on the entire parameter space. Extensive experiments on diverse benchmarks demonstrate that our proposed approach consistently improves the segmentation performance significantly on novel scenarios with only around 1K additional parameters.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# 人間のガウススティング:アニマタブルアバターのリアルタイムレンダリング

Human Gaussian Splatting: Real-time Rendering of Animatable Avatars ( http://arxiv.org/abs/2311.17113v2 )

ライセンス: Link先を確認
Arthur Moreau, Jifei Song, Helisa Dhamo, Richard Shaw, Yiren Zhou, Eduardo Pérez-Pellitero, (参考訳) この研究は、マルチビュービデオから得られたフォトリアリスティックな人体アバターのリアルタイムレンダリングの問題に対処する。 仮想人間をモデル化しレンダリングするための古典的なアプローチは、一般的にテクスチャ化されたメッシュを使用するが、最近の研究では、印象的な視覚的品質を実現する神経体表現が開発された。 しかし、これらのモデルはリアルタイムにレンダリングすることは困難であり、キャラクターが体でアニメーションされたときの品質はトレーニングの観察と異なる。 本稿では,3次元ガウススプラッティングに基づくアニマタブルな人体モデルを提案する。 体は、前方のスキンニングと局所的な非剛性精製を組み合わせた粗い微細なアプローチで変形する正準空間のガウス原始体によって表現される。 我々は,多視点観察から,我々のHuGS(HuGS)モデルをエンド・ツー・エンドで学習する方法を述べる。 提案手法は,THuman4データセット上での最先端のPSNRよりも1.5dBのPSNR向上を実現し,リアルタイムにレンダリングできる(512x512の80fps)。

This work addresses the problem of real-time rendering of photorealistic human body avatars learned from multi-view videos. While the classical approaches to model and render virtual humans generally use a textured mesh, recent research has developed neural body representations that achieve impressive visual quality. However, these models are difficult to render in real-time and their quality degrades when the character is animated with body poses different than the training observations. We propose an animatable human model based on 3D Gaussian Splatting, that has recently emerged as a very efficient alternative to neural radiance fields. The body is represented by a set of gaussian primitives in a canonical space which is deformed with a coarse to fine approach that combines forward skinning and local non-rigid refinement. We describe how to learn our Human Gaussian Splatting (HuGS) model in an end-to-end fashion from multi-view observations, and evaluate it against the state-of-the-art approaches for novel pose synthesis of clothed body. Our method achieves 1.5 dB PSNR improvement over the state-of-the-art on THuman4 dataset while being able to render in real-time (80 fps for 512x512 resolution).
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# 応答性テキスト・画像生成のための自己発見型解釈可能な拡散遅延方向

Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation ( http://arxiv.org/abs/2311.17216v2 )

ライセンス: Link先を確認
Hang Li, Chengzhi Shen, Philip Torr, Volker Tresp, Jindong Gu, (参考訳) 拡散に基づくモデルは、例外的な画像生成能力のため、テキスト・画像生成において大きな人気を集めている。 これらのモデルによるリスクは、バイアスや有害な画像などの不適切なコンテンツの潜在的な生成である。 しかし、拡散モデルの内部表現の観点から、そのような望ましくないコンテンツを生成する根本的な理由は不明である。 これまでの研究は、拡散モデルの解釈可能な潜在空間におけるベクトルを意味論的概念として解釈する。 しかし、既存のアプローチでは、不適切な概念に関連するような任意の概念の方向を見つけることはできない。 本研究では,ある概念に対する解釈可能な潜在方向を見つけるための,新しい自己教師型アプローチを提案する。 発見されたベクトルを用いて、不適切な生成を緩和するための簡単なアプローチを提案する。 公正な生成、安全な生成、責任あるテキストエンハンシング生成において、我々の緩和アプローチの有効性を検証するために、広範囲な実験が実施されている。 プロジェクトページ: \url{https://interpretdiffusion.github.io}。

Diffusion-based models have gained significant popularity for text-to-image generation due to their exceptional image-generation capabilities. A risk with these models is the potential generation of inappropriate content, such as biased or harmful images. However, the underlying reasons for generating such undesired content from the perspective of the diffusion model's internal representation remain unclear. Previous work interprets vectors in an interpretable latent space of diffusion models as semantic concepts. However, existing approaches cannot discover directions for arbitrary concepts, such as those related to inappropriate concepts. In this work, we propose a novel self-supervised approach to find interpretable latent directions for a given concept. With the discovered vectors, we further propose a simple approach to mitigate inappropriate generation. Extensive experiments have been conducted to verify the effectiveness of our mitigation approach, namely, for fair generation, safe generation, and responsible text-enhancing generation. Project page: \url{https://interpretdiffusion.github.io}.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# MRFP: Multi-Resolution Feature Perturbation を用いた Sim-2-Real からの一般化可能なセマンティックセグメンテーションの学習

MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation ( http://arxiv.org/abs/2311.18331v2 )

ライセンス: Link先を確認
Sumanth Udupa, Prajwal Gurunath, Aniruddh Sikdar, Suresh Sundaram, (参考訳) 深層ニューラルネットワークは、ソースドメイン上のセマンティックシーン理解タスクにおいて、模範的なパフォーマンスを示しているが、トレーニング中にスタイルの多様性が欠如しているため、単一のソースドメインデータのみを使用して、目に見えないターゲットドメインのパフォーマンスを向上させることは、依然として難しい課題である。 シミュレーションデータの生成は、複雑で予算集約的なプロセスであるため、大規模なスタイルのさまざまな実世界のデータセットを取得するための、実現可能な代替手段である。 しかし、シミュレーションデータと実世界のデータ間の大きなドメイン固有不整合は、セマンティックセグメンテーションにおいて大きな一般化課題をもたらす。 本研究では,この問題を軽減するために,ドメイン固有の細粒度特徴と粗い特徴の摂動スタイルをランダム化するMRFP(Multi Resolution Feature Perturbation)技術を提案する。 都市・シーンのセグメンテーションデータセットにおける実験結果から, セグメンテーションモデルにおいて, スタイル情報の摂動とともに, 微細成分の摂動はドメイン不変で頑健な特徴写像を学習する上で最重要であることが明らかとなった。 MRFPは、学習可能なパラメータや目的関数を付加しない、単純で計算効率のよい、転送可能なモジュールで、最先端のディープニューラルネットワークがシミュレーションから現実のセマンティックセグメンテーションのための堅牢なドメイン不変機能を学ぶのに役立つ。

Deep neural networks have shown exemplary performance on semantic scene understanding tasks on source domains, but due to the absence of style diversity during training, enhancing performance on unseen target domains using only single source domain data remains a challenging task. Generation of simulated data is a feasible alternative to retrieving large style-diverse real-world datasets as it is a cumbersome and budget-intensive process. However, the large domain-specfic inconsistencies between simulated and real-world data pose a significant generalization challenge in semantic segmentation. In this work, to alleviate this problem, we propose a novel MultiResolution Feature Perturbation (MRFP) technique to randomize domain-specific fine-grained features and perturb style of coarse features. Our experimental results on various urban-scene segmentation datasets clearly indicate that, along with the perturbation of style-information, perturbation of fine-feature components is paramount to learn domain invariant robust feature maps for semantic segmentation models. MRFP is a simple and computationally efficient, transferable module with no additional learnable parameters or objective functions, that helps state-of-the-art deep neural networks to learn robust domain invariant features for simulation-to-real semantic segmentation.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# OST:汎用ビデオ認識のための最適時空間記述子によるテキスト知識の精製

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition ( http://arxiv.org/abs/2312.00096v2 )

ライセンス: Link先を確認
Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun, Chen Chen, (参考訳) 映像データ上に視覚言語モデルを訓練するリソース集約的な性質のため、多くの研究は、事前学習された画像言語モデルをビデオ領域に適応させることに重点を置いている。 支配的なパイプラインは、Webスケールの記述的物語や簡潔なアクションカテゴリ名に対する実質的な相違を克服しつつ、追加の時間的学習者による視覚的相違に対処することを提案し、意味的空間と潜在的なパフォーマンス制限を減らした。 本研究では,テキスト知識の洗練を優先して,一般化可能なビデオ認識を容易にする。 カテゴリー名の区別の少ない意味空間の制限に対処するため,大言語モデル(LLM)に,文の相違をブリッジし,一般認識のための知識基盤として機能する時空間記述子にアクションクラス名を拡張させるよう促す。 さらに,ビデオインスタンスに最適な記述子を割り当てるために,最適な記述子ソルバーを提案し,フレームレベルの表現と記述子間の最適なマッチングフローの解決として,ビデオ認識問題を形成する。 ゼロショット,少数ショット,完全教師付きビデオ認識における包括的評価は,我々のアプローチの有効性を浮き彫りにする。 我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。

Due to the resource-intensive nature of training vision-language models on expansive video data, a majority of studies have centered on adapting pre-trained image-language models to the video domain. Dominant pipelines propose to tackle the visual discrepancies with additional temporal learners while overlooking the substantial discrepancy for web-scaled descriptive narratives and concise action category names, leading to less distinct semantic space and potential performance limitations. In this work, we prioritize the refinement of text knowledge to facilitate generalizable video recognition. To address the limitations of the less distinct semantic space of category names, we prompt a large language model (LLM) to augment action class names into Spatio-Temporal Descriptors thus bridging the textual discrepancy and serving as a knowledge base for general recognition. Moreover, to assign the best descriptors with different video instances, we propose Optimal Descriptor Solver, forming the video recognition problem as solving the optimal matching flow across frame-level representations and descriptors. Comprehensive evaluations in zero-shot, few-shot, and fully supervised video recognition highlight the effectiveness of our approach. Our best model achieves a state-of-the-art zero-shot accuracy of 75.1% on Kinetics-600.
翻訳日:2024-03-29 21:22:07 公開日:2024-03-28
# 2つの絡み合った光子の波動特性と粒子特性の分離

Separating the wave and particle attributes of two entangled photons ( http://arxiv.org/abs/2312.01316v3 )

ライセンス: Link先を確認
Yusuf Turek, Yi-Fang Ren, (参考訳) 波動粒子の双対性は量子論において最も興味深い反現実的概念の1つである。 我々の常識では、量子オブジェクトの波動と粒子の性質は分離できない。 しかし、最近の量子チェシャー・キャット現象に基づく研究では、2状態ベクトル形式によって記述された顕微鏡システムにおいて、波動や粒子の属性を含む量子物体の物理的性質をそれ自体から分離することが可能であることが示されている。 本研究では,2つの絡み合った光子の波動特性と粒子特性を,経路状態の事前選択と後選択を適切に選択して空間的に分離する手法を提案する。 我々のスキームはまた、2つの絡み合った光子の波動特性と粒子特性の観測がボーアの相補性原理に従うことを保証している。

Wave-particle duality is one of the most intriguing counterfactual concepts in quantum theory. In our common sense, the wave and particle properties of a quantum object are inseparable. However, the recent studies based on Quantum Cheshire Cat phenomena showed that separating the physical properties of a quantum object including wave and particle attributes from itself are possible in microscopic system described by two-state vector formalism. In this study, we put forward a feasible scheme to spatially separate the wave and particle attributes of two entangled photons by properly choosing the pre- and post-selection of path states. Our scheme also guarantees that the observation of wave and particle properties of the two entangled photons always obey the Bohr's complementarity principle.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# TimeChat: 長時間ビデオ理解のための時間依存型マルチモーダル大言語モデル

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding ( http://arxiv.org/abs/2312.02051v2 )

ライセンス: Link先を確認
Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, Lu Hou, (参考訳) この研究は、時間に敏感なマルチモーダルな大規模言語モデルであるTimeChatを提案する。 本モデルは,(1) フレームのタイムスタンプに視覚的コンテンツをバインドするタイムスタンプ対応フレームエンコーダ,(2) 長さの異なるビデオトークンシーケンスを生成するスライドビデオQ-Formerの2つの重要なアーキテクチャ的コントリビューションを含む。 さらに,6つのタスクと125Kインスタンスを含む命令調整データセットを構築し,TimeChatの命令追従性能をさらに向上させる。 濃密なキャプション、時間的接地、ハイライト検出など、さまざまなビデオ理解タスクの実験結果は、TimeChatの強いゼロショット時間的ローカライゼーションと推論能力を示している。 例えば、YouCook2の +9.2 F1 スコアと +2.8 CIDEr、QVHighlightsの +5.8 HIT@1、Charades-STAの +27.5 R@1 (IoU=0.5) を、最先端のビデオ大言語モデルと比較すると達成している。

This work proposes TimeChat, a time-sensitive multimodal large language model specifically designed for long video understanding. Our model incorporates two key architectural contributions: (1) a timestamp-aware frame encoder that binds visual content with the timestamp of each frame, and (2) a sliding video Q-Former that produces a video token sequence of varying lengths to accommodate videos of various durations. Additionally, we construct an instruction-tuning dataset, encompassing 6 tasks and a total of 125K instances, to further enhance TimeChat's instruction-following performance. Experiment results across various video understanding tasks, such as dense captioning, temporal grounding, and highlight detection, demonstrate TimeChat's strong zero-shot temporal localization and reasoning capabilities. For example, it achieves +9.2 F1 score and +2.8 CIDEr on YouCook2, +5.8 HIT@1 on QVHighlights, and +27.5 R@1 (IoU=0.5) on Charades-STA, compared to state-of-the-art video large language models, holding the potential to serve as a versatile video assistant for long-form video comprehension tasks and satisfy realistic user requirements.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# ガウシアン・アバター(Gaussian Avatars)

GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians ( http://arxiv.org/abs/2312.02069v2 )

ライセンス: Link先を確認
Shenhan Qian, Tobias Kirschstein, Liam Schoneveld, Davide Davoli, Simon Giebenhain, Matthias Nießner, (参考訳) ガウシアン・アバター(Gaussian Avatars)は、表現、ポーズ、視点の点で完全に制御可能なフォトリアリスティックヘッドアバターを作成する新しい方法である。 中心となる考え方は、3次元ガウススプレートに基づく動的3次元表現であり、パラメトリックな形態素面モデルに結びついている。 この組み合わせは、例えば運転シーケンスからの式転送や、手動で変形可能なモデルパラメータを変更することで、基礎となるパラメトリックモデルによる正確なアニメーション制御を可能にしながら、フォトリアリスティックなレンダリングを容易にする。 三角形の局所座標フレームで各スプレートをパラメータ化し、明示的な変位オフセットを最適化し、より正確な幾何学的表現を得る。 アバター再構成では, 変形可能なモデルパラメータとガウススプラットパラメータを, エンドツーエンドで共同で最適化する。 我々は、いくつかの挑戦的なシナリオにおいて、フォトリアリスティックアバターのアニメーション能力を実演する。 例えば、ドライビングビデオの再演では、我々の手法が既存の作品よりもかなりの差で優れています。

We introduce GaussianAvatars, a new method to create photorealistic head avatars that are fully controllable in terms of expression, pose, and viewpoint. The core idea is a dynamic 3D representation based on 3D Gaussian splats that are rigged to a parametric morphable face model. This combination facilitates photorealistic rendering while allowing for precise animation control via the underlying parametric model, e.g., through expression transfer from a driving sequence or by manually changing the morphable model parameters. We parameterize each splat by a local coordinate frame of a triangle and optimize for explicit displacement offset to obtain a more accurate geometric representation. During avatar reconstruction, we jointly optimize for the morphable model parameters and Gaussian splat parameters in an end-to-end fashion. We demonstrate the animation capabilities of our photorealistic avatar in several challenging scenarios. For instance, we show reenactments from a driving video, where our method outperforms existing works by a significant margin.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# manus:Articulated 3D Gaussianを用いたマーカーレスグラフキャプチャ

MANUS: Markerless Grasp Capture using Articulated 3D Gaussians ( http://arxiv.org/abs/2312.02137v2 )

ライセンス: Link先を確認
Chandradeep Pokhariya, Ishaan N Shah, Angela Xing, Zekun Li, Kefan Chen, Avinash Sharma, Srinath Sridhar, (参考訳) 私たちの手で物体を把握する方法を理解することは、ロボット工学や混合現実のような分野に重要な応用をもたらす。 しかし、この困難な問題には、手と物体の接触を正確にモデル化する必要がある。 把握を得るためには、既存の方法では、手の形を正確に表現しない骨格、メッシュ、パラメトリックモデルを使用しており、不正確な接触をもたらす。 我々はArticulated 3D Gaussian を用いたマーカレスハンドオブジェクトグラフキャプチャー法 MANUS を提案する。 我々は,手話の高忠実度表現のために3次元ガウススプラッティングを拡張する3次元ガウス表現を新たに構築する。 我々の表現はガウス的プリミティブを使用するので、手と物体の間の接触を効率的に正確に推定することができる。 最も正確な結果を得るためには、現在のデータセットが提供していない何万ものカメラビューが必要である。 そこで、manus-Graspsという新しいデータセットを構築しました。これは、30以上のシーン、3つの被写体、そして700万フレーム以上からなる50以上のカメラから見るハンドオブジェクトのグリップを含む、新しいデータセットです。 また, 対象物から手への塗料の転写を利用した定量的接触評価法において, 本手法が他者より優れていることを示す。

Understanding how we grasp objects with our hands has important applications in areas like robotics and mixed reality. However, this challenging problem requires accurate modeling of the contact between hands and objects. To capture grasps, existing methods use skeletons, meshes, or parametric models that does not represent hand shape accurately resulting in inaccurate contacts. We present MANUS, a method for Markerless Hand-Object Grasp Capture using Articulated 3D Gaussians. We build a novel articulated 3D Gaussians representation that extends 3D Gaussian splatting for high-fidelity representation of articulating hands. Since our representation uses Gaussian primitives, it enables us to efficiently and accurately estimate contacts between the hand and the object. For the most accurate results, our method requires tens of camera views that current datasets do not provide. We therefore build MANUS-Grasps, a new dataset that contains hand-object grasps viewed from 50+ cameras across 30+ scenes, 3 subjects, and comprising over 7M frames. In addition to extensive qualitative results, we also show that our method outperforms others on a quantitative contact evaluation method that uses paint transfer from the object to the hand.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# UFineBench:超微細粒度テキスト検索を目指して

UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity ( http://arxiv.org/abs/2312.03441v4 )

ライセンス: Link先を確認
Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao, (参考訳) 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。 これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。 この問題に対処するため,超微細粒度テキストに基づく人物検索のための新しいベンチマーク「textbf{UFineBench}」を提案する。 まず、UFine6926という新しい \textbf{dataset} を構築する。 我々は、多数の人物画像を収集し、各画像に2つの詳細なテキスト記述を手動で注釈付けし、それぞれ80.8語を平均化する。 平均単語数は、前のデータセットの3倍から4倍である。 ドメイン内での標準的な評価に加えて、実際のシナリオをより多く表現する特別な \textbf{evaluation paradigm} も提案する。 クロスドメイン、クロステキストグラニュリティ、クロステキストスタイルを備えた新しい評価セット、UFine3C、平均類似度分布(mSD)と呼ばれる検索能力を正確に測定するための新しい評価指標を含む。 さらに,超きめ細かなテキストを用いたテキストベースの人物検索のために設計した,より効率的な‘textbf{algorithm’であるCFAMを提案する。 共有モードの粒度デコーダとハード負のマッチング機構を採用することにより、微細な粒度マイニングを実現する。 標準のドメイン内評価により、CFAMは様々なデータセット、特に超微細なUFine6926上での競合性能を確立します。 さらに、UFine3Cを評価することにより、UFine6926のトレーニングが、他の粗粒度データセットと比較して、実際のシナリオへの一般化を著しく改善することを示した。 データセットとコードは、 \url{https://github.com/Zplusdragon/UFineBench}で公開される。

Existing text-based person retrieval datasets often have relatively coarse-grained text annotations. This hinders the model to comprehend the fine-grained semantics of query texts in real scenarios. To address this problem, we contribute a new benchmark named \textbf{UFineBench} for text-based person retrieval with ultra-fine granularity. Firstly, we construct a new \textbf{dataset} named UFine6926. We collect a large number of person images and manually annotate each image with two detailed textual descriptions, averaging 80.8 words each. The average word count is three to four times that of the previous datasets. In addition of standard in-domain evaluation, we also propose a special \textbf{evaluation paradigm} more representative of real scenarios. It contains a new evaluation set with cross domains, cross textual granularity and cross textual styles, named UFine3C, and a new evaluation metric for accurately measuring retrieval ability, named mean Similarity Distribution (mSD). Moreover, we propose CFAM, a more efficient \textbf{algorithm} especially designed for text-based person retrieval with ultra fine-grained texts. It achieves fine granularity mining by adopting a shared cross-modal granularity decoder and hard negative match mechanism. With standard in-domain evaluation, CFAM establishes competitive performance across various datasets, especially on our ultra fine-grained UFine6926. Furthermore, by evaluating on UFine3C, we demonstrate that training on our UFine6926 significantly improves generalization to real scenarios compared with other coarse-grained datasets. The dataset and code will be made publicly available at \url{https://github.com/Zplusdragon/UFineBench}.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# MMM:ジェネレーティブ・マスケッド・モーション・モデル

MMM: Generative Masked Motion Model ( http://arxiv.org/abs/2312.03596v2 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Pu Wang, Minwoo Lee, Chen Chen, (参考訳) 拡散モデルと自己回帰モデルを用いたテキスト・トゥ・モーション生成の最近の進歩は有望な結果を示している。 しかしながら、これらのモデルは、リアルタイムのパフォーマンス、高い忠実度、モーション編集性の間のトレードオフに悩まされることが多い。 このギャップに対処するために,Masked Motion Modelをベースとした新しい動作生成パラダイムであるMMMを導入する。 MMMは,(1)3次元人間の動きを潜在空間内の離散トークンの列に変換するモーショントークンライザ,(2)予め計算されたテキストトークンに条件付けされたランダムなマスク付きモーショントークンの予測を学習する条件付きマスク付きモーショントランスフォーマーの2つの重要な構成要素から構成される。 あらゆる方向に動きやテキストトークンに出席することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係を明示的にキャプチャする。 推論中は、複数の動きトークンの並列かつ反復的な復号化が可能で、微細なテキスト記述と高度に一致しているため、高忠実かつ高速な動き生成を実現することができる。 さらに、MMMは自然に動きの編集性を持つ。 マスクトークンを編集が必要な場所に配置するだけで、MMMは自動的にギャップを埋めると同時に、編集部と非編集部のスムーズな遷移を保証する。 HumanML3D と KIT-ML データセットの大規模な実験により、MMM は高品質な動作(FID スコアが 0.08 と 0.429 より優れていると推定される)の生成において、現在の先行する手法を超越し、ボディ部分修正、モーション・イン・ベントワイニング、ロングモーション・シーケンスの合成などの高度な編集機能を提供することが示されている。 さらに、MMMは編集可能な運動拡散モデルよりも1つの中距離GPUで2桁高速である。 プロジェクトページは \url{https://exitudio.github.io/MMM-page} で公開されている。

Recent advances in text-to-motion generation using diffusion and autoregressive models have shown promising results. However, these models often suffer from a trade-off between real-time performance, high fidelity, and motion editability. To address this gap, we introduce MMM, a novel yet simple motion generation paradigm based on Masked Motion Model. MMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into a sequence of discrete tokens in latent space, and (2) a conditional masked motion transformer that learns to predict randomly masked motion tokens, conditioned on the pre-computed text tokens. By attending to motion and text tokens in all directions, MMM explicitly captures inherent dependency among motion tokens and semantic mapping between motion and text tokens. During inference, this allows parallel and iterative decoding of multiple motion tokens that are highly consistent with fine-grained text descriptions, therefore simultaneously achieving high-fidelity and high-speed motion generation. In addition, MMM has innate motion editability. By simply placing mask tokens in the place that needs editing, MMM automatically fills the gaps while guaranteeing smooth transitions between editing and non-editing parts. Extensive experiments on the HumanML3D and KIT-ML datasets demonstrate that MMM surpasses current leading methods in generating high-quality motion (evidenced by superior FID scores of 0.08 and 0.429), while offering advanced editing features such as body-part modification, motion in-betweening, and the synthesis of long motion sequences. In addition, MMM is two orders of magnitude faster on a single mid-range GPU than editable motion diffusion models. Our project page is available at \url{https://exitudio.github.io/MMM-page}.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation ( http://arxiv.org/abs/2312.03795v3 )

ライセンス: Link先を確認
Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun, Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He, (参考訳) 3D生成の進歩はシーケンシャルな3Dモデル生成を促進する(つまり4D生成)が、大きな動きを持つアニマタブル物体への応用は依然として少ない。 本研究は,モノクロビデオから抽出した骨格上の非剛体物体の多様なカテゴリを生成可能なテキストから4D生成フレームワークであるAnimatableDreamerを提案する。 AnimatableDreamerは、CSD(Canonical Score Distillation)と呼ばれる新しい最適化設計を備えています。 CSDはスコア勾配の観点から設計され、異なる調節をまたいだワープ・ロバスト性を持つ標準モデルを生成する。 特に、拡散モデルから誘導的前駆体を統合することにより、骨と皮膚の信頼性を高める。 さらに, マルチビュー蒸留では, CSDは見えない領域を推測し, 単分子非剛体再構築の忠実度を向上する。 モノクロビデオから高柔軟性テキスト誘導型3Dモデルを生成する上で,本手法が有効であることを示すとともに,既存の非剛性再建法よりも再現性が向上したことを示す。

Advances in 3D generation have facilitated sequential 3D model generation (a.k.a 4D generation), yet its application for animatable objects with large motion remains scarce. Our work proposes AnimatableDreamer, a text-to-4D generation framework capable of generating diverse categories of non-rigid objects on skeletons extracted from a monocular video. At its core, AnimatableDreamer is equipped with our novel optimization design dubbed Canonical Score Distillation (CSD), which lifts 2D diffusion for temporal consistent 4D generation. CSD, designed from a score gradient perspective, generates a canonical model with warp-robustness across different articulations. Notably, it also enhances the authenticity of bones and skinning by integrating inductive priors from a diffusion model. Furthermore, with multi-view distillation, CSD infers invisible regions, thereby improving the fidelity of monocular non-rigid reconstruction. Extensive experiments demonstrate the capability of our method in generating high-flexibility text-guided 3D models from the monocular video, while also showing improved reconstruction performance over existing non-rigid reconstruction methods.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# インコンテキスト学習の校正に関する研究

A Study on the Calibration of In-context Learning ( http://arxiv.org/abs/2312.04021v4 )

ライセンス: Link先を確認
Hanlin Zhang, Yi-Fan Zhang, Yaodong Yu, Dhruv Madeka, Dean Foster, Eric Xing, Himabindu Lakkaraju, Sham Kakade, (参考訳) 機械学習モデルの安全な展開には、正確な不確実性定量化が不可欠であり、以前の研究では、現代の言語モデル(LM)のキャリブレーションの改善が示されている。 In-context Learning (ICL) は、静的なLMを調整されたプロンプトで適応するための一般的な手法であり、自然言語理解と推論タスクの幅広い範囲にわたる性能とキャリブレーションのバランスについて検討する。 総合的な実験を通して、ICLの例が増加するにつれて、まず、キャリブレーションが向上する前に誤校正が増加し、低ショット設定で誤校正が生じる傾向にあることが観察された。 さらに, ファインチューニングやチェーン・オブ・シント(CoT)の促進など, ユーザビリティ向上を目的とした手法が, 誤校正や信頼性の低い自然言語の説明につながることが判明した。 さらに,再校正手法について検討し,スケーリング結合キャリブレータが一貫した校正誤差を低減できることを見出した。

Accurate uncertainty quantification is crucial for the safe deployment of machine learning models, and prior research has demonstrated improvements in the calibration of modern language models (LMs). We study in-context learning (ICL), a prevalent method for adapting static LMs through tailored prompts, and examine the balance between performance and calibration across a broad spectrum of natural language understanding and reasoning tasks. Through comprehensive experiments, we observe that, with an increasing number of ICL examples, models initially exhibit increased miscalibration before achieving better calibration and miscalibration tends to arise in low-shot settings. Moreover, we find that methods aimed at improving usability, such as fine-tuning and chain-of-thought (CoT) prompting, can lead to miscalibration and unreliable natural language explanations. Furthermore, we explore recalibration techniques and find that a scaling-binning calibrator can reduce calibration errors consistently.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# Open Datasheets: オープンデータセットと責任のあるAIアセスメントのためのマシン可読ドキュメンテーション

Open Datasheets: Machine-readable Documentation for Open Datasets and Responsible AI Assessments ( http://arxiv.org/abs/2312.06153v2 )

ライセンス: Link先を確認
Anthony Cintron Roman, Jennifer Wortman Vaughan, Valerie See, Steph Ballard, Jehu Torres, Caleb Robinson, Juan M. Lavista Ferres, (参考訳) 本稿では、オープンデータセットのためのノーコードで機械可読なドキュメンテーションフレームワークを紹介し、責任あるAI(RAI)の考察に焦点をあてる。 このフレームワークは、オープンデータセットの理解性とユーザビリティの向上、発見と使用の容易化、コンテンツとコンテキストの理解の向上、データセットの品質と正確性の評価を目的としている。 提案されたフレームワークは、データセットの評価を合理化して、研究者やデータサイエンティスト、その他のオープンデータユーザが、ニーズや組織方針や規制を満たすデータセットを素早く特定するのに役立つように設計されている。 フレームワークの実装についても論じ、その可能性の最大化を推奨する。 このフレームワークは、研究や意思決定に使用されるデータの品質と信頼性を高め、より責任と信頼性の高いAIシステムの開発を促進することが期待されている。

This paper introduces a no-code, machine-readable documentation framework for open datasets, with a focus on responsible AI (RAI) considerations. The framework aims to improve comprehensibility, and usability of open datasets, facilitating easier discovery and use, better understanding of content and context, and evaluation of dataset quality and accuracy. The proposed framework is designed to streamline the evaluation of datasets, helping researchers, data scientists, and other open data users quickly identify datasets that meet their needs and organizational policies or regulations. The paper also discusses the implementation of the framework and provides recommendations to maximize its potential. The framework is expected to enhance the quality and reliability of data used in research and decision-making, fostering the development of more responsible and trustworthy AI systems.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# 大規模画像生成のための学習表現誘導拡散モデル

Learned representation-guided diffusion models for large-image generation ( http://arxiv.org/abs/2312.07330v2 )

ライセンス: Link先を確認
Alexandros Graikos, Srikar Yellapragada, Minh-Quan Le, Saarthak Kapse, Prateek Prasanna, Joel Saltz, Dimitris Samaras, (参考訳) 高忠実度サンプルを合成するためには、拡散モデルは通常、生成プロセスを導くのに補助的なデータを必要とする。 しかし、病理学や衛星画像などの専門領域で必要とされるパッチレベルのアノテーションの手間を省くことは不可能であり、しばしばドメインの専門家によって行われ、何億ものパッチが伴う。 現代の自己教師型学習(SSL)は、豊かな意味情報と視覚情報をエンコードする。 本稿では,このような表現が,人間の詳細なラベルのプロキシとして機能するほど表現力が高いことを示唆する。 SSLからの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。 我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。 さらに,SSLの埋め込みから推定される空間的に一貫したパッチを組み立て,長距離依存関係を保存することにより,より大きな画像を構築する。 実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流分類精度が向上する。 私たちのモデルは、トレーニング中に遭遇しないデータセットでも有効であり、その堅牢性と一般化性を示している。 学習した埋め込み画像から画像を生成することは、埋め込みの源泉とは無関係である。 大きな画像を生成するために使われるSSL埋め込みは、参照画像から抽出するか、関連する任意のモダリティ(例えば、クラスラベル、テキスト、ゲノムデータ)で条件付けられた補助モデルからサンプリングすることができる。 概念実証として,テキスト記述から大規模病理と衛星画像の合成に成功したテキスト・ツー・大規模画像合成パラダイムを導入する。

To synthesize high-fidelity samples, diffusion models typically require auxiliary data to guide the generation process. However, it is impractical to procure the painstaking patch-level annotation effort required in specialized domains like histopathology and satellite imagery; it is often performed by domain experts and involves hundreds of millions of patches. Modern-day self-supervised learning (SSL) representations encode rich semantic and visual information. In this paper, we posit that such representations are expressive enough to act as proxies to fine-grained human labels. We introduce a novel approach that trains diffusion models conditioned on embeddings from SSL. Our diffusion models successfully project these features back to high-quality histopathology and remote sensing images. In addition, we construct larger images by assembling spatially consistent patches inferred from SSL embeddings, preserving long-range dependencies. Augmenting real data by generating variations of real images improves downstream classifier accuracy for patch-level and larger, image-scale classification tasks. Our models are effective even on datasets not encountered during training, demonstrating their robustness and generalizability. Generating images from learned embeddings is agnostic to the source of the embeddings. The SSL embeddings used to generate a large image can either be extracted from a reference image, or sampled from an auxiliary model conditioned on any related modality (e.g. class labels, text, genomic data). As proof of concept, we introduce the text-to-large image synthesis paradigm where we successfully synthesize large pathology and satellite images out of text descriptions.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# フローマッチングによる潜時拡散の促進

Boosting Latent Diffusion with Flow Matching ( http://arxiv.org/abs/2312.07360v2 )

ライセンス: Link先を確認
Johannes S. Fischer, Ming Gui, Pingchuan Ma, Nick Stracke, Stefan A. Baumann, Björn Ommer, (参考訳) 近年、視覚合成とその基盤となる生成モデルが著しく進歩している。 ここでは拡散モデル(DM)が特に際立っているが、最近はフローマッチング(FM)も注目されている。 DMは多様な画像を提供するのに優れていますが、長いトレーニングと遅い生成に悩まされています。 潜伏拡散では、これらの問題は部分的に緩和されるのみである。 逆に、FMはより高速なトレーニングと推論を提供するが、合成の多様性は低い。 拡散モデルと畳み込みデコーダの間にFMを導入することで,計算コストとモデルサイズを低減した高分解能画像合成が実現できることを示す。 拡散は、必要な生成の多様性を効率的に提供することができる。 FMは低分解能を補正し、小さな潜伏空間を高次元空間にマッピングする。 その後、LDMの畳み込みデコーダは、これらの潜伏剤を高解像度の画像にマッピングする。 DMの多様性,FMの効率,畳み込みデコーダの有効性を組み合わせることで,1024^2$の最先端高解像度画像合成を最小計算コストで実現する。 重要な点として,本手法は近年のDMの近似と高速化戦略と直交しており,様々なDMフレームワークに容易に統合可能である。

Recently, there has been tremendous progress in visual synthesis and the underlying generative models. Here, diffusion models (DMs) stand out particularly, but lately, flow matching (FM) has also garnered considerable interest. While DMs excel in providing diverse images, they suffer from long training and slow generation. With latent diffusion, these issues are only partially alleviated. Conversely, FM offers faster training and inference but exhibits less diversity in synthesis. We demonstrate that introducing FM between the Diffusion model and the convolutional decoder offers high-resolution image synthesis with reduced computational cost and model size. Diffusion can then efficiently provide the necessary generation diversity. FM compensates for the lower resolution, mapping the small latent space to a high-dimensional one. Subsequently, the convolutional decoder of the LDM maps these latents to high-resolution images. By combining the diversity of DMs, the efficiency of FMs, and the effectiveness of convolutional decoders, we achieve state-of-the-art high-resolution image synthesis at $1024^2$ with minimal computational cost. Importantly, our approach is orthogonal to recent approximation and speed-up strategies for the underlying DMs, making it easily integrable into various DM frameworks.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# ねじれた原子の理論的考察

Theoretical consideration of a twisted atom ( http://arxiv.org/abs/2312.09182v2 )

ライセンス: Link先を確認
P. K. Maslennikov, A. V. Volotka, S. S. Baturin, (参考訳) 我々は、原子のねじれ状態とそのような状態が、その原子の電子遷移の結果放出される光子の特性に与える影響について検討する。 まず、ツイスト原子状態を記述するための枠組みを提案し、次いで、ツイスト原子の核反動効果と平面波原子の核反動効果の相違について検討する。 初期原子状態がねじれた場合、光子分布は変化すると結論付ける。 我々は、ある観測スキームにおいて、出力された光子の分布におけるこのツイストの特徴を、m/M$のゼロオーダーでも検出できることを指摘する。

We investigate the twisted state of an atom and the possible effect of such a state on the properties of the photons emitted as a result of an electron transition in that atom. We first propose a framework for describing the twisted atomic state, and then explore possible differences in the nuclear recoil effects in the twisted atom compared to those in the plane-wave atom. We conclude that if the initial atomic state is twisted, then the photon distribution is altered. We point out that in a certain observation scheme, one can detect a feature of this twist in the distribution of the emitted photons, even in zero order in $m/M$.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# 散逸性多モード相転移における動的ヒステリシス

Dynamic Hysteresis Across a Dissipative Multi-Mode Phase Transition ( http://arxiv.org/abs/2312.09848v2 )

ライセンス: Link先を確認
Marvin Röhrle, Jens Benary, Erik Bernhart, Herwig Ott, (参考訳) 散逸相転移はオープン量子系の特性である。 重要なシグネチャは、相転移の近傍にある異なる状態とヒステリシスの出現の間の動的切替である。 そこで本研究では,多モード駆動散逸系における第1次散逸相転移のダイナミックスイープを実験的に検討する。 従来の研究とは対照的に, 駆動強度ではなく, 消散強度のスイープを行う。 本研究では, ヒステリシス領域のスイープ時間に依存するスケーリングの指数を抽出し, 非自明な挙動を示す$g^{(2)}(0)$相関について検討する。 システムの温度を変化させることにより, システムのコヒーレントポンプ化の重要性について検討する。 この結果と, 単一モードのシステムに対して行った数値計算を比較し, 驚くほど良い一致を得た。 さらに, 消散強度の走査と駆動強度の走査との差を同定し, 議論する。

Dissipative phase transitions are characteristic features in open quantum systems. Key signatures are the dynamical switching between different states in the vicinity of the phase transition and the appearance of hysteresis. Here, we experimentally study dynamic sweeps across a first order dissipative phase transition in a multi-mode driven-dissipative system. In contrast to previous studies, we perform sweeps of the dissipation strength instead of the driving strength. We extract exponents for the scaling of the hysteresis area in dependence of the sweep time and study the $g^{(2)}(0)$ correlations, which show non-trivial behavior. By changing the temperature of the system we investigate the importance of coherently pumping the system. We compare our results to numerical calculations done for a single mode variant of the system, and find surprisingly good agreement. Furthermore, we identify and discuss the differences between a scan of the dissipation strength and a scan of the driving strength.
翻訳日:2024-03-29 21:12:21 公開日:2024-03-28
# 類似のエンティティは類似の埋め込みを持つか?

Do Similar Entities have Similar Embeddings? ( http://arxiv.org/abs/2312.10370v2 )

ライセンス: Link先を確認
Nicolas Hubert, Heiko Paulheim, Armelle Brun, Davy Monticolo, (参考訳) 知識グラフ埋め込みモデル(KGEMs)は、知識グラフ内のエンティティのベクトル表現を学習する。 一般的な暗黙の仮定は、KGEエンティティ類似性仮定(英語版)であり、これらの KGEM はグラフの構造を埋め込み空間内に保持し、グラフ内の類似した実体を互いに近接して配置する。 この望ましい性質により、KGEMはレコメンデーターシステムや薬物再資源化といった下流のタスクで広く使用される。 しかし、埋め込み空間における実体の類似性と類似性の関係は、公式に評価されることはめったにない。 通常、KGEMはHits@KやMean Rankといったランキングベースのメトリクスを使用して、その唯一のリンク予測機能に基づいて評価される。 本稿では、グラフにおけるエンティティの類似性が本質的に埋め込み空間に反映されているという一般的な仮定に挑戦する。 そこで我々は,KGEMsが類似したエンティティをクラスタリングする能力を測定するための広範な実験を行い,その基礎となる要因について検討する。 さらに、異なるKGEMが類似性の異なる概念を露呈するかどうかを考察する。 データセット、事前トレーニングされた埋め込み、コードは、https://github.com/nicolas-hbt/similar-embeddings/.comで入手できる。

Knowledge graph embedding models (KGEMs) developed for link prediction learn vector representations for entities in a knowledge graph, known as embeddings. A common tacit assumption is the KGE entity similarity assumption, which states that these KGEMs retain the graph's structure within their embedding space, \textit{i.e.}, position similar entities within the graph close to one another. This desirable property make KGEMs widely used in downstream tasks such as recommender systems or drug repurposing. Yet, the relation of entity similarity and similarity in the embedding space has rarely been formally evaluated. Typically, KGEMs are assessed based on their sole link prediction capabilities, using ranked-based metrics such as Hits@K or Mean Rank. This paper challenges the prevailing assumption that entity similarity in the graph is inherently mirrored in the embedding space. Therefore, we conduct extensive experiments to measure the capability of KGEMs to cluster similar entities together, and investigate the nature of the underlying factors. Moreover, we study if different KGEMs expose a different notion of similarity. Datasets, pre-trained embeddings and code are available at: https://github.com/nicolas-hbt/similar-embeddings/.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# 上訴: 部分的なラベル学習において, 修正すべき文字を誤記したサンプルを付与する

Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning ( http://arxiv.org/abs/2312.11034v3 )

ライセンス: Link先を確認
Chongjie Si, Xuehui Wang, Yan Wang, Xiaokang Yang, Wei Shen, (参考訳) 部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。 既存の研究の大部分は、正しいラベルを識別するために、候補ラベルのラベル付け信頼度を推定するために、堅牢な分類器を構築することに焦点を当てている。 しかしながら、これらの手法は、通常、誤ってラベル付けされたサンプルを特定し、修正するのに苦労する。 そこで本論文では,これらの誤記されたサンプルを自身で「適用」し,既存のPLLメソッドが誤記されたサンプルを識別・修正するのを助けるために,最初の魅力に基づくPLLフレームワークを提案する。 具体的には、新規なパートナー分類器を導入し、サンプルの非候補ラベルを割り当てるべきではないという暗黙の事実に基づいてインスタンス化する。 さらに、ベース分類器とパートナー分類器を結びつけるために、新しい協調用語が定式化される。 相互監督の各段階において、双方の分類器は、特定のラベルの過信を防ぐために、曖昧なメカニズムを通じてお互いの予測を曖昧にする。 広汎な実験により、この学習パラダイムと組み合わせることで、確立されたスタンドアローンおよび深層学習に基づくPLLアプローチの魅力と曖昧さを著しく改善できることが示されている。

In partial label learning (PLL), each instance is associated with a set of candidate labels among which only one is ground-truth. The majority of the existing works focuses on constructing robust classifiers to estimate the labeling confidence of candidate labels in order to identify the correct one. However, these methods usually struggle to identify and rectify mislabeled samples. To help these mislabeled samples "appeal" for themselves and help existing PLL methods identify and rectify mislabeled samples, in this paper, we propose the first appeal-based PLL framework. Specifically, we introduce a novel partner classifier and instantiate it predicated on the implicit fact that non-candidate labels of a sample should not be assigned to it, which is inherently accurate and has not been fully investigated in PLL. Furthermore, a novel collaborative term is formulated to link the base classifier and the partner one. During each stage of mutual supervision, both classifiers will blur each other's predictions through a blurring mechanism to prevent overconfidence in a specific label. Extensive experiments demonstrate that the appeal and disambiguation ability of several well-established stand-alone and deep-learning based PLL approaches can be significantly improved by coupling with this learning paradigm.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# SkillDiffuser: 拡散に基づくタスク実行におけるスキル抽象化による階層的計画の解釈

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution ( http://arxiv.org/abs/2312.11598v3 )

ライセンス: Link先を確認
Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo, (参考訳) 拡散モデルは、ロボット軌道計画の強力な可能性を示している。 しかし、特に複数のシーケンシャルスキルを必要とする長距離構成タスクにおいて、ハイレベルな指示からコヒーレントな軌道を生成することは依然として困難である。 この問題を解決するために,解釈可能なスキル学習と条件付き拡散計画を統合したエンドツーエンドの階層的計画フレームワークであるSkillDiffuserを提案する。 より高いレベルでは、スキル抽象化モジュールは、視覚的な観察と言語指示から、独立した人間の理解可能なスキル表現を学習する。 これらの学習されたスキル埋め込みは、拡散モデルを条件づけて、スキルに合わせてカスタマイズされた潜在軌道を生成する。 これにより、学習可能なスキルに準拠した多様な状態軌跡を生成することができる。 スキル学習と条件付き軌道生成を統合することで、SkillDiffuserはさまざまなタスクにまたがる抽象的な指示に従ってコヒーレントな振る舞いを生成する。 Meta-WorldやLOReLのようなマルチタスクロボット操作ベンチマークの実験では、SkillDiffuserによる最先端のパフォーマンスと人間の解釈可能なスキル表現が実証されている。 より多くの視覚化結果と情報は、私たちのWebサイトにある。

Diffusion models have demonstrated strong potential for robotic trajectory planning. However, generating coherent trajectories from high-level instructions remains challenging, especially for long-range composition tasks requiring multiple sequential skills. We propose SkillDiffuser, an end-to-end hierarchical planning framework integrating interpretable skill learning with conditional diffusion planning to address this problem. At the higher level, the skill abstraction module learns discrete, human-understandable skill representations from visual observations and language instructions. These learned skill embeddings are then used to condition the diffusion model to generate customized latent trajectories aligned with the skills. This allows generating diverse state trajectories that adhere to the learnable skills. By integrating skill learning with conditional trajectory generation, SkillDiffuser produces coherent behavior following abstract instructions across diverse tasks. Experiments on multi-task robotic manipulation benchmarks like Meta-World and LOReL demonstrate state-of-the-art performance and human-interpretable skill representations from SkillDiffuser. More visualization results and information could be found on our website.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# SpecNeRF: スペクトル反射のガウス方向符号化

SpecNeRF: Gaussian Directional Encoding for Specular Reflections ( http://arxiv.org/abs/2312.13102v2 )

ライセンス: Link先を確認
Li Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollhöfer, Christian Richardt, (参考訳) ニューラルレイディアンス場は、3Dシーンの外観をモデル化する際、顕著な性能を達成している。 しかし、既存のアプローチは、特に屋内環境の複雑な照明の下で、光沢のある表面の視界依存的な外観に苦慮している。 環境マップのように遠方からの光を仮定する既存の方法とは異なり、近場照明条件下でのビュー依存効果をより良くモデル化するための学習可能なガウス方向符号化を提案する。 重要なことは、我々の新しい指向性符号化は、近接場照明の空間的に変化する性質を捉え、事前フィルタされた環境マップの挙動をエミュレートする。 その結果, 粗さ係数の異なる任意の3次元位置において, 先行したスペクトル色を効率よく評価することが可能となった。 さらに、リフレクションモデリングにおける形状放射のあいまいさを軽減するために、データ駆動幾何を導入する。 我々のガウス方向符号化と幾何は、より物理的に意味のある構成要素に外見を分解するのに役立つ神経放射場における難解なスペクトル反射のモデリングを大幅に改善することを示します。

Neural radiance fields have achieved remarkable performance in modeling the appearance of 3D scenes. However, existing approaches still struggle with the view-dependent appearance of glossy surfaces, especially under complex lighting of indoor environments. Unlike existing methods, which typically assume distant lighting like an environment map, we propose a learnable Gaussian directional encoding to better model the view-dependent effects under near-field lighting conditions. Importantly, our new directional encoding captures the spatially-varying nature of near-field lighting and emulates the behavior of prefiltered environment maps. As a result, it enables the efficient evaluation of preconvolved specular color at any 3D location with varying roughness coefficients. We further introduce a data-driven geometry prior that helps alleviate the shape radiance ambiguity in reflection modeling. We show that our Gaussian directional encoding and geometry prior significantly improve the modeling of challenging specular reflections in neural radiance fields, which helps decompose appearance into more physically meaningful components.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# HQ-VAE:変動ベイを用いた階層型離散表現学習

HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes ( http://arxiv.org/abs/2401.00365v2 )

ライセンス: Link先を確認
Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh-Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei-Hsiang Liao, Yuki Mitsufuji, (参考訳) ベクトル量子化(VQ)は、離散的なコードブック表現で特徴を決定論的に学習する技法である。 変分自動符号化モデルであるVQ-VAEを用いて、高忠実度再構成のために階層構造にさらに拡張することができる。 しかしながら、VQ-VAEのこのような階層的な拡張は、しばしばコードブック/層崩壊の問題に悩まされる。 この問題を緩和するために,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる変分ベイズフレームワークに基づいて,階層的離散表現を確率的に学習する新しい統一フレームワークを提案する。 HQ-VAEは、VQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化し、ベイズ的な訓練スキームを提供する。 画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。 また、音声データセットによる異なるモダリティの適用性の観点からHQ-VAEを検証した。

Vector quantization (VQ) is a technique to deterministically learn features with discrete codebook representations. It is commonly performed with a variational autoencoding model, VQ-VAE, which can be further extended to hierarchical structures for making high-fidelity reconstructions. However, such hierarchical extensions of VQ-VAE often suffer from the codebook/layer collapse issue, where the codebook is not efficiently used to express the data, and hence degrades reconstruction accuracy. To mitigate this problem, we propose a novel unified framework to stochastically learn hierarchical discrete representation on the basis of the variational Bayes framework, called hierarchically quantized variational autoencoder (HQ-VAE). HQ-VAE naturally generalizes the hierarchical variants of VQ-VAE, such as VQ-VAE-2 and residual-quantized VAE (RQ-VAE), and provides them with a Bayesian training scheme. Our comprehensive experiments on image datasets show that HQ-VAE enhances codebook usage and improves reconstruction performance. We also validated HQ-VAE in terms of its applicability to a different modality with an audio dataset.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# 大規模言語モデルの知識編集に関する総合的研究

A Comprehensive Study of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2401.01286v4 )

ライセンス: Link先を確認
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen, (参考訳) 大きな言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。 しかし、第一の制限は、その広範なパラメータ化から生じる、トレーニング中の重要な計算要求にある。 この課題は、世界のダイナミックな性質によってさらに強化され、古い情報を修正したり、新しい知識を統合するために、LSMの頻繁な更新が必要となり、それによってそれらの関連性が保証される。 多くのアプリケーションは、欠陥や望ましくない振る舞いに対処するために、トレーニング後の継続的なモデル調整を要求している。 オンザフライモデル修正のための効率的で軽量な手法への関心が高まっている。 この目的のために, 近年, LLM の知識編集技術が盛んになり, 様々な入力の全体的な性能を保ちながら, 特定の領域内での LLM の振る舞いを効率的に修正することを目指している。 本稿ではまず,知識編集の問題を定義し,最先端アプローチの総合的なレビューを行う。 教育・認知研究理論からインスピレーションを得て、知識編集手法を3つのグループに分類する統合分類基準を提案し、外部知識に頼り、知識をモデルにマージし、本質的な知識を編集する。 さらに,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを導入する。 さらに,LLMに内在する知識構造をより深く理解することのできる,知識位置の詳細な分析を行う。 最後に、知識編集の潜在的な応用について論じ、その広範かつ影響の大きい意味を概説する。

Large Language Models (LLMs) have shown extraordinary capabilities in understanding and generating text that closely mirrors human communication. However, a primary limitation lies in the significant computational demands during training, arising from their extensive parameterization. This challenge is further intensified by the dynamic nature of the world, necessitating frequent updates to LLMs to correct outdated information or integrate new knowledge, thereby ensuring their continued relevance. Note that many applications demand continual model adjustments post-training to address deficiencies or undesirable behaviors. There is an increasing interest in efficient, lightweight methods for on-the-fly model modifications. To this end, recent years have seen a burgeoning in the techniques of knowledge editing for LLMs, which aim to efficiently modify LLMs' behaviors within specific domains while preserving overall performance across various inputs. In this paper, we first define the knowledge editing problem and then provide a comprehensive review of cutting-edge approaches. Drawing inspiration from educational and cognitive research theories, we propose a unified categorization criterion that classifies knowledge editing methods into three groups: resorting to external knowledge, merging knowledge into the model, and editing intrinsic knowledge. Furthermore, we introduce a new benchmark, KnowEdit, for a comprehensive empirical evaluation of representative knowledge editing approaches. Additionally, we provide an in-depth analysis of knowledge location, which can give a deeper understanding of the knowledge structures inherent within LLMs. Finally, we discuss several potential applications of knowledge editing, outlining its broad and impactful implications.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring

FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring ( http://arxiv.org/abs/2401.03707v2 )

ライセンス: Link先を確認
Geunhyuk Youk, Jihyong Oh, Munchurl Kim, (参考訳) 本稿では,高分解能ビデオと高分解能ビデオとの連成学習手法であるVSRDBを,ぼやけた低分解能ビデオから復元する手法を提案する。 この共同修復問題は、単一修復問題に比べてはるかに少ない注意を惹きつけている。 本稿では,フロー誘導動的フィルタリング(FGDF)とマルチアテンション(FRMA)を用いた反復的特徴改善(FRMA)を提案する。 具体的には、FGDFは、高精巧な動き表現学習により、運動軌跡を認識する時空間変動劣化と復元カーネルの両方を正確に推定することができる。 従来の動的フィルタリングと比較して、FGDFはFMA-NetがVSRDBへの大きな動きを効果的に処理できるようにする。 さらに、新しい時間的アンカー(TA)損失で訓練されたFRMAブロックは、時間的アンカーを固定し、特徴を鋭くし、反復的な更新によって細かな特徴を洗練します。 拡張実験は、定量および定性的品質の両方の観点から、最先端の手法よりも提案されたFMA-Netの方が優れていることを示す。 コードと事前訓練されたモデルは以下の通りである。

We present a joint learning scheme of video super-resolution and deblurring, called VSRDB, to restore clean high-resolution (HR) videos from blurry low-resolution (LR) ones. This joint restoration problem has drawn much less attention compared to single restoration problems. In this paper, we propose a novel flow-guided dynamic filtering (FGDF) and iterative feature refinement with multi-attention (FRMA), which constitutes our VSRDB framework, denoted as FMA-Net. Specifically, our proposed FGDF enables precise estimation of both spatio-temporally-variant degradation and restoration kernels that are aware of motion trajectories through sophisticated motion representation learning. Compared to conventional dynamic filtering, the FGDF enables the FMA-Net to effectively handle large motions into the VSRDB. Additionally, the stacked FRMA blocks trained with our novel temporal anchor (TA) loss, which temporally anchors and sharpens features, refine features in a course-to-fine manner through iterative updates. Extensive experiments demonstrate the superiority of the proposed FMA-Net over state-of-the-art methods in terms of both quantitative and qualitative quality. Codes and pre-trained models are available at: https://kaist-viclab.github.io/fmanet-site
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# 急速に予測される構造:推論の返却

Promptly Predicting Structures: The Return of Inference ( http://arxiv.org/abs/2401.06877v2 )

ライセンス: Link先を確認
Maitrey Mehta, Valentina Pyatkin, Vivek Srikumar, (参考訳) プロンプトベースの手法は、ゼロショットと少数ショットのラベル予測器を構築するために、NLP全体で広く使われている。 多くのNLPタスクは自然に構造化されており、その出力は互いに制約する複数のラベルで構成されている。 このようなタスクにデータをアノテートするのは面倒です。 プロンプトベースのパラダイムの約束はそのような構造化出力に拡張できるだろうか? 本稿では,ゼロショットと少数ショットの言語構造予測器を構築するためのフレームワークを提案する。 私たちのキーとなる洞察は、構造的制約 -- およびそれらから派生した組合せ推論 -- を使用して、大きな言語モデルによって予測される一貫性のない構造をフィルタリングできるということです。 2つの構造化予測タスクと5つのデータセットに基づいて、このフレームワークをインスタンス化した。 いずれの場合も、一貫性の強制は構造的に有効な出力を構成するだけでなく、制約のない変種よりも性能も向上することを示す。

Prompt-based methods have been used extensively across NLP to build zero- and few-shot label predictors. Many NLP tasks are naturally structured: that is, their outputs consist of multiple labels which constrain each other. Annotating data for such tasks can be cumbersome. Can the promise of the prompt-based paradigm be extended to such structured outputs? In this paper, we present a framework for constructing zero- and few-shot linguistic structure predictors. Our key insight is that we can use structural constraints -- and combinatorial inference derived from them -- to filter out inconsistent structures predicted by large language models. We instantiated this framework on two structured prediction tasks, and five datasets. Across all cases, our results show that enforcing consistency not only constructs structurally valid outputs, but also improves performance over the unconstrained variants.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# ヴィーガニズムに関するYouTubeの談話における集団行動の物語

Narratives of Collective Action in YouTube's Discourse on Veganism ( http://arxiv.org/abs/2401.09210v2 )

ライセンス: Link先を確認
Arianna Pera, Luca Maria Aiello, (参考訳) ナラティブは、気候変動のような社会的問題を推し進めるための強力なツールとなり得る。 社会科学理論は、集団運動の中で起こる物語を理解するための枠組みを提供するが、これらは、世論の形成や集団行動の動員に重要な役割を果たすソーシャルメディアプラットフォームから得られる膨大なデータに適用されることは滅多にない。 オンライン物語の実証的評価におけるこのギャップは、公衆の反応との関係についての理解を制限します。 本研究では,植物性食生活を環境保護活動の一形態として重視し,植物運動に特有の道徳的物語の理論的枠組みを運用するために自然言語処理を利用する。 この枠組みを、Veganuary、Meatless March、No Meat Mayといった環境イニシアチブを促進するYouTubeビデオで見られる物語に適用する。 分析の結果,理論によって定義された複数の物語型がデータ中に経験的に存在することが明らかとなった。 肯定的な公的なエンゲージメントを引き出す可能性のある物語を識別するために、テキスト処理を用いて、物語のタイプ間での集団行動を支持するコメントの割合を推定した。 社会的戦いを主張するビデオ物語は、抗議や、他人を原因に転換しようとする努力によっても、それぞれのコメントの中でより強い集団行動の感覚に結びついている。 これらの物語型はまた、メッセージと公開応答のセマンティック・コヒーレンスとアライメントの増加を示す。 我々の研究は、集団行動の出現に影響を与える複雑な要因に関する新たな洞察を与え、それによって社会運動における効果的なコミュニケーション戦略の発展を知らせる。

Narratives can be powerful tools for inspiring action on pressing societal issues such as climate change. While social science theories offer frameworks for understanding the narratives that arise within collective movements, these are rarely applied to the vast data available from social media platforms, which play a significant role in shaping public opinion and mobilizing collective action. This gap in the empirical evaluation of online narratives limits our understanding of their relationship with public response. In this study, we focus on plant-based diets as a form of pro-environmental action and employ natural language processing to operationalize a theoretical framework of moral narratives specific to the vegan movement. We apply this framework to narratives found in YouTube videos promoting environmental initiatives such as Veganuary, Meatless March, and No Meat May. Our analysis reveals that several narrative types, as defined by the theory, are empirically present in the data. To identify narratives with the potential to elicit positive public engagement, we used text processing to estimate the proportion of comments supporting collective action across narrative types. Video narratives advocating social fight, whether through protest or through efforts to convert others to the cause, are associated with a stronger sense of collective action in the respective comments. These narrative types also demonstrate increased semantic coherence and alignment between the message and public response, markers typically associated with successful collective action. Our work offers new insights into the complex factors that influence the emergence of collective action, thereby informing the development of effective communication strategies within social movements.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# Detect-Order-Construct:階層型文書構造解析のための木構築に基づくアプローチ

Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis ( http://arxiv.org/abs/2401.11874v2 )

ライセンス: Link先を確認
Jiawei Wang, Kai Hu, Zhuoyao Zhong, Lei Sun, Qiang Huo, (参考訳) 文書構造解析(いわゆる文書レイアウト解析)は,文書の物理的レイアウトや論理構造を理解する上で重要であり,情報検索,文書要約,知識抽出などにも応用されている。 本稿では,階層型文書構造解析(HDSA)に集中して,LaTeX,Microsoft Word,HTMLなどの階層型スキーマを用いたオーサリングソフトウェアを用いて作成した構造化文書内の階層的関係を探索する。 階層的な文書構造を包括的に解析するために,ページオブジェクト検出(Detect),識別されたオブジェクトの順序予測(Order),意図された階層構造の構築(Construct)など,複数のサブタスクを同時に処理する木構築ベースアプローチを提案する。 このフレームワークに基づく効果的なエンドツーエンドソリューションを提案し,その性能を実証する。 提案手法を評価するために,上述のサブタスクを同時に評価するComp-HRDocという総合ベンチマークを開発した。 我々のエンドツーエンドシステムは,2つの大規模文書レイアウト解析データセット(PubLayNetとDocLayNet),高品質な階層的文書構造再構築データセット(HRDoc),およびComp-HRDocベンチマークに対して,最先端のパフォーマンスを実現する。 Comp-HRDocベンチマークは、この分野のさらなる研究を促進するためにリリースされる予定である。

Document structure analysis (aka document layout analysis) is crucial for understanding the physical layout and logical structure of documents, with applications in information retrieval, document summarization, knowledge extraction, etc. In this paper, we concentrate on Hierarchical Document Structure Analysis (HDSA) to explore hierarchical relationships within structured documents created using authoring software employing hierarchical schemas, such as LaTeX, Microsoft Word, and HTML. To comprehensively analyze hierarchical document structures, we propose a tree construction based approach that addresses multiple subtasks concurrently, including page object detection (Detect), reading order prediction of identified objects (Order), and the construction of intended hierarchical structure (Construct). We present an effective end-to-end solution based on this framework to demonstrate its performance. To assess our approach, we develop a comprehensive benchmark called Comp-HRDoc, which evaluates the above subtasks simultaneously. Our end-to-end system achieves state-of-the-art performance on two large-scale document layout analysis datasets (PubLayNet and DocLayNet), a high-quality hierarchical document structure reconstruction dataset (HRDoc), and our Comp-HRDoc benchmark. The Comp-HRDoc benchmark will be released to facilitate further research in this field.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# 無限距離ペンソン-コルブ対化機構としてのBardeen-Cooper-Schrieffer相互作用

Bardeen-Cooper-Schrieffer interaction as an infinite-range Penson-Kolb pairing mechanism ( http://arxiv.org/abs/2401.16877v2 )

ライセンス: Link先を確認
Francesco Romeo, Alfonso Maiellaro, (参考訳) 実空間で考えると、よく知られた$(k\uparrow, -k\downarrow)$ Bardeen-Cooper-Schrieffer相互作用は、魅力的なハバード項と共存する無限範囲のペンソン=コルブペアリング機構と等価であることを示す。 この発見と導電特性の探索を目的として, リング状格子に閉じ込められたフェルミオン粒子の力学について検討した。 フェミオンはペアリング相互作用とアハロノフ・ボーム電磁相の影響を同時に受けており、これは非自明な方法でモデルに組み込まれていると仮定する。 上記のモデルは、印加された磁束 $\Phi/\Phi_0$ の整数値と半整数値の両方に対するリチャードソン積分性を示し、真の多体問題の正確な解を可能にする。 本研究では, 2粒子系および多粒子系の基底状態特性について考察し, 魅力的なハバードモデルとの比較を行った。 提案手法は, 正対角化, 密度行列再正規化群法, リチャードソン方程式の数値解を組み合わせたものである。 この包括的分析により、相互作用強度の関数としてのシステムの伝導率など、様々な重要な指標を研究することができる。 このようにして、BCS-BEC遷移は連続的に研究され、超伝導ペアリングの基本的な側面に光を放つことができる。 以上の知見は, 凝縮物質文脈, あるいは, より高い制御レベルにおいて, 原子線プラットフォームを用いて実験的に検証することができる。

We demonstrate that the well-known $(k\uparrow, -k\downarrow)$ Bardeen-Cooper-Schrieffer interaction, when considered in real space, is equivalent to an infinite-range Penson-Kolb pairing mechanism coexisting with an attractive Hubbard term. Driven by this discovery and aiming at exploring the conduction properties, we investigate the dynamics of fermionic particles confined in a ring-shaped lattice. We assume that fermions are simultaneously influenced by the pairing interaction and by an Aharonov-Bohm electromagnetic phase, which is incorporated into the model in a highly non-trivial manner. Remarkably, the aforementioned model shows Richardson integrability for both integer and half-integer values of the applied magnetic flux $\Phi/\Phi_0$, thus permitting the exact solution of a genuine many-body problem. We discuss the ground state properties of both two-particle and many-particle systems, drawing comparisons with results from the attractive Hubbard model. Our approach combines exact diagonalization, density matrix renormalization group techniques, and numerical solution of the Richardson equations. This comprehensive analysis allows us to study various key metrics, including the system's conductivity as a function of the interaction strength. In this way, the BCS-BEC transition is investigated in a continuous manner, thus permitting to shed light on fundamental aspects of superconducting pairing. Our findings can be experimentally tested in a condensed matter context or, with greater level of control, using atomtronics platforms.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# 非エルミート量子イジング鎖における磁気ブロッホ振動

Magnetic Bloch oscillations in a non-Hermitian quantum Ising chain ( http://arxiv.org/abs/2401.17586v2 )

ライセンス: Link先を確認
K. L. Zhang, Z. Song, (参考訳) 量子イジング鎖における磁区壁のダイナミックスに及ぼす横磁場の影響について検討する。 虚場は、低層ワニエ・スターク・はしごを形成する際に、実際の横場と同じような役割を果たすことを示す。 しかし、両方の系における時間進化の解析的および数値計算により、対応するブロッホ振動は同じ初期状態に対して全く異なるパターンを示すことが示されている。 これらの結果から、非ハーミティシティの量子スピンダイナミクスに対する非自明な効果が明らかとなった。

We investigate the impacts of an imaginary transverse field on the dynamics of magnetic domain walls in a quantum Ising chain. We show that an imaginary field plays a similar role as a real transverse field in forming a low-lying Wannier-Stark ladder. However, analytical and numerical calculations of the time evolutions in both systems show that the corresponding Bloch oscillations exhibit totally different patterns for the same initial states. These findings reveal the nontrivial effect of non-Hermiticity on quantum spin dynamics.
翻訳日:2024-03-29 21:02:36 公開日:2024-03-28
# COA-GPT:軍事活動における行動発達の加速のための生成事前訓練型変圧器

COA-GPT: Generative Pre-trained Transformers for Accelerated Course of Action Development in Military Operations ( http://arxiv.org/abs/2402.01786v2 )

ライセンス: Link先を確認
Vinicius G. Goecks, Nicholas Waytowich, (参考訳) 軍事作戦における行動コース(COA)の開発は、伝統的に時間を要する複雑なプロセスである。 この課題に対処するために,大規模言語モデル(LLM)を用いたCOA-GPTを導入し,有効なCOAを迅速かつ効率的に生成する手法を提案する。 COA-GPTはLLMに軍事的教義とドメインの専門知識を取り入れ、指揮官がミッション情報(テキストと画像の両方)を入力し、レビューと承認のために戦略的に整列したCOAを受け取ることができる。 COA-GPTはCOA開発を加速し、数秒でCOAを発生させるだけでなく、指揮官のフィードバックに基づいてリアルタイムにCOAを改良する。 この研究は、StarCraft IIの軍用バージョンにおける軍事関連シナリオにおけるCOA-GPTを評価し、その性能を最先端の強化学習アルゴリズムと比較した。 以上の結果から,COA-GPTはより迅速かつ戦略的にCOAを生成でき,適応性の向上と指揮官の意図との整合性がもたらされた。 COA-GPTのミッション中にCOAを迅速に適応・更新する能力は、軍事計画、特に計画上の不一致に対処し、創発的な機会の窓に乗じることにおいて、変革的な可能性を示す。

The development of Courses of Action (COAs) in military operations is traditionally a time-consuming and intricate process. Addressing this challenge, this study introduces COA-GPT, a novel algorithm employing Large Language Models (LLMs) for rapid and efficient generation of valid COAs. COA-GPT incorporates military doctrine and domain expertise to LLMs through in-context learning, allowing commanders to input mission information - in both text and image formats - and receive strategically aligned COAs for review and approval. Uniquely, COA-GPT not only accelerates COA development, producing initial COAs within seconds, but also facilitates real-time refinement based on commander feedback. This work evaluates COA-GPT in a military-relevant scenario within a militarized version of the StarCraft II game, comparing its performance against state-of-the-art reinforcement learning algorithms. Our results demonstrate COA-GPT's superiority in generating strategically sound COAs more swiftly, with added benefits of enhanced adaptability and alignment with commander intentions. COA-GPT's capability to rapidly adapt and update COAs during missions presents a transformative potential for military planning, particularly in addressing planning discrepancies and capitalizing on emergent windows of opportunities.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# テキスト内学習のためのデータポジショニング

Data Poisoning for In-context Learning ( http://arxiv.org/abs/2402.02160v2 )

ライセンス: Link先を確認
Pengfei He, Han Xu, Yue Xing, Hui Liu, Makoto Yamada, Jiliang Tang, (参考訳) 大規模言語モデル(LLM)の分野では、インコンテキスト学習(ICL)が新しいタスクに適応する革新的な能力があることが認識されている。 本論文は、ICLによるデータ中毒攻撃に対する感受性の重大な問題について論じる。 ICLは、モデル性能を劣化させるために、サンプルデータを操作できる敵がいて、脆弱性があるのかどうか疑問である。 そこで本研究では,ICLの学習機構を活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。 ICLプロセス中にLSMの隠れ状態に戦略的に影響を与えるために、個別のテキスト摂動を用いる。 フレームワーク上で攻撃を実行するための3つの代表的な戦略を概説し、それぞれが様々なモデルやタスクに対して厳格に評価する。 高度なGPT-4モデルの試行を含む包括的テストは、ICLの性能が我々のフレームワークで著しく損なわれていることを示す。 これらの暴露は、文脈内学習に依存したアプリケーションにおいて、LLMの完全性と信頼性を保護するための防御機構の強化が緊急に必要であることを示している。

In the domain of large language models (LLMs), in-context learning (ICL) has been recognized for its innovative ability to adapt to new tasks, relying on examples rather than retraining or fine-tuning. This paper delves into the critical issue of ICL's susceptibility to data poisoning attacks, an area not yet fully explored. We wonder whether ICL is vulnerable, with adversaries capable of manipulating example data to degrade model performance. To address this, we introduce ICLPoison, a specialized attacking framework conceived to exploit the learning mechanisms of ICL. Our approach uniquely employs discrete text perturbations to strategically influence the hidden states of LLMs during the ICL process. We outline three representative strategies to implement attacks under our framework, each rigorously evaluated across a variety of models and tasks. Our comprehensive tests, including trials on the sophisticated GPT-4 model, demonstrate that ICL's performance is significantly compromised under our framework. These revelations indicate an urgent need for enhanced defense mechanisms to safeguard the integrity and reliability of LLMs in applications relying on in-context learning.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 状態空間バックボーンを持つスケーラブル拡散モデル

Scalable Diffusion Models with State Space Backbone ( http://arxiv.org/abs/2402.05608v3 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang, (参考訳) 本稿では,状態空間アーキテクチャ上に構築された拡散モデルのカテゴリを新たに検討する。 従来のU-Netバックボーンは、状態空間のバックボーンに取って代わられ、生のパッチや潜伏空間で機能する。 Diffusion State Space Models (DiS) は、長距離依存の調節における顕著な有効性を考えると、時間、条件、ノイズの多い画像パッチを含む全ての入力をトークンとして扱うことで区別される。 我々の評価では,非条件画像生成シナリオとクラス条件画像生成シナリオの両方を包含し,DiSがCNNベースやTransformerベースのコンメンシュレートサイズのU-Netアーキテクチャに匹敵する性能を示した。 さらに、Gflopsで定量化されるフォワードパス複雑性によって測定されたDiSのスケーラビリティを解析する。 入力トークンの深さ/幅の増大や増大によって達成される高いGflopsを持つDiSモデルは、一貫して低いFIDを示す。 遅延空間におけるDIS-H/2モデルは、圧縮可能なスケーラビリティ特性を示すことに加えて、256$\times$256および512$\times$512の解像度で、クラス条件のImageNetベンチマークの事前拡散モデルと同様のパフォーマンスレベルを達成する。 コードとモデルについては、https://github.com/feizc/DiS.comで公開されている。

This paper presents a new exploration into a category of diffusion models built upon state space architecture. We endeavor to train diffusion models for image data, wherein the traditional U-Net backbone is supplanted by a state space backbone, functioning on raw patches or latent space. Given its notable efficacy in accommodating long-range dependencies, Diffusion State Space Models (DiS) are distinguished by treating all inputs including time, condition, and noisy image patches as tokens. Our assessment of DiS encompasses both unconditional and class-conditional image generation scenarios, revealing that DiS exhibits comparable, if not superior, performance to CNN-based or Transformer-based U-Net architectures of commensurate size. Furthermore, we analyze the scalability of DiS, gauged by the forward pass complexity quantified in Gflops. DiS models with higher Gflops, achieved through augmentation of depth/width or augmentation of input tokens, consistently demonstrate lower FID. In addition to demonstrating commendable scalability characteristics, DiS-H/2 models in latent space achieve performance levels akin to prior diffusion models on class-conditional ImageNet benchmarks at the resolution of 256$\times$256 and 512$\times$512, while significantly reducing the computational burden. The code and models are available at: https://github.com/feizc/DiS.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 準閉鎖空洞におけるレベルアトラクション

Level attraction in a quasi-closed cavity ( http://arxiv.org/abs/2402.06258v2 )

ライセンス: Link先を確認
Guillaume Bourcin, Alan Gardin, Jeremy Bourhill, Vincent Vlaminck, Vincent Castel, (参考訳) 準閉鎖フォトニックキャビティと強磁性材料からなるハイブリッドシステムにおいて, 抗共鳴に付随する有効結合を包括的に解析した。 オープンキャビティ内の共振器間のいわゆるレベルアトラクションはよく理解されているが、準閉鎖キャビティ内のこの現象の物理的基盤はいまだ解明されていない。 インプット・アウトプット理論を利用して、この結合の反発的側面と魅力的な側面を区別することに成功した。 提案モデルにより, 共振器における位相ジャンプと反共振の研究から, 共振器内のフェライトの所定の位置に対する反共振器の有効結合の性質を予測できることを示した。

We provide a comprehensive analytical description of the effective coupling associated with an antiresonance within a hybrid system comprised of a quasi-closed photonic cavity and a ferrimagnetic material. Whilst so-called level attraction between a resonant system inside an open cavity is well understood, the physical underpinnings of this phenomena within quasi-closed cavities have remained elusive. Leveraging the input-output theory, we successfully differentiate between the repulsive and attractive aspects of this coupling. Our proposed model demonstrates that by understanding the phase-jump at the resonances and the studied antiresonance, we can predict the nature of the effective coupling of the antiresonance for a given position of the ferrimagnet in the cavity.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 将来のコマンドと制御のためのスケーラブルな対話型機械学習

Scalable Interactive Machine Learning for Future Command and Control ( http://arxiv.org/abs/2402.06501v2 )

ライセンス: Link先を確認
Anna Madison, Ellen Novoseller, Vinicius G. Goecks, Benjamin T. Files, Nicholas Waytowich, Alfred Yu, Vernon J. Lawhern, Steven Thurman, Christopher Kelshaw, Kaleb McDowell, (参考訳) 将来の戦争では、コマンド・アンド・コントロール(C2)の要員が、複雑で潜在的に未定義の状況において、時間スケールを縮小する決定を下す必要がある。 堅牢な意思決定プロセスと意思決定支援ツールの必要性を考えると、人工知能と人工知能の統合は、急速に変化する運用環境における適応性と効率を確保するために、C2オペレーションプロセスに革命をもたらす可能性を秘めている。 我々は、人間が機械学習アルゴリズムと協調して機械学習アルゴリズムの動作をガイドできる、インタラクティブな機械学習における最近の有望なブレークスルーを活用することを提案する。 本稿では、これらのアプローチを複雑なC2コンテキストで機能させるために、今後の研究が取り組むべき最先端の科学と技術のギャップについて述べる。 特に,スケーラブルな対話型機械学習(SIML)の実現を目的とした3つの研究分野について述べる。 1)複雑な動的状況下での計画を可能にする人間-AIインタラクションアルゴリズムの開発 2 役割、構成、信頼を最適化し、レジリエントな人間-AIチームを育成すること。 3) アルゴリズムと人間-AIチームの柔軟性を、潜在的な状況や状況にわたって拡張する。

Future warfare will require Command and Control (C2) personnel to make decisions at shrinking timescales in complex and potentially ill-defined situations. Given the need for robust decision-making processes and decision-support tools, integration of artificial and human intelligence holds the potential to revolutionize the C2 operations process to ensure adaptability and efficiency in rapidly changing operational environments. We propose to leverage recent promising breakthroughs in interactive machine learning, in which humans can cooperate with machine learning algorithms to guide machine learning algorithm behavior. This paper identifies several gaps in state-of-the-art science and technology that future work should address to extend these approaches to function in complex C2 contexts. In particular, we describe three research focus areas that together, aim to enable scalable interactive machine learning (SIML): 1) developing human-AI interaction algorithms to enable planning in complex, dynamic situations; 2) fostering resilient human-AI teams through optimizing roles, configurations, and trust; and 3) scaling algorithms and human-AI teams for flexibility across a range of potential contexts and situations.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 指揮統制の再検討

Re-Envisioning Command and Control ( http://arxiv.org/abs/2402.07946v2 )

ライセンス: Link先を確認
Kaleb McDowell, Ellen Novoseller, Anna Madison, Vinicius G. Goecks, Christopher Kelshaw, (参考訳) 将来の戦争では、コマンド・アンド・コントロール(C2)による決定は、より複雑で、高速で、非構造的で、要求の厳しい状況で行われなければならない。 C2は、Denied、Degraded、Intermittent、Limittent (DDIL) 通信のような運用上の課題や、複数の操作領域にまたがる多くのデータストリームを考慮する必要性により、さらに複雑になる。 しかし、現在のC2プラクティスは、新興のインテリジェンス時代ではなく、産業時代に由来するもので、線形で時間を要する。 批判的に、これらのアプローチは将来の戦場での敵に対する過密を維持するのに失敗する可能性がある。 これらの課題に対処するために、人間と人工知能(AI)システムとの堅牢な連携に基づく将来のC2のビジョンを提案する。 この将来のビジョンは、C2オペレーションプロセスの合理化、作業の統一の維持、適応的な集団知識システムの開発という3つの運用上のインパクトにカプセル化されている。 本稿では、今後のC2の能力について述べ、それらを形作る仮定を論じ、今後の戦争でC2をどう変えるかを説明する。

Future warfare will require Command and Control (C2) decision-making to occur in more complex, fast-paced, ill-structured, and demanding conditions. C2 will be further complicated by operational challenges such as Denied, Degraded, Intermittent, and Limited (DDIL) communications and the need to account for many data streams, potentially across multiple domains of operation. Yet, current C2 practices -- which stem from the industrial era rather than the emerging intelligence era -- are linear and time-consuming. Critically, these approaches may fail to maintain overmatch against adversaries on the future battlefield. To address these challenges, we propose a vision for future C2 based on robust partnerships between humans and artificial intelligence (AI) systems. This future vision is encapsulated in three operational impacts: streamlining the C2 operations process, maintaining unity of effort, and developing adaptive collective knowledge systems. This paper illustrates the envisaged future C2 capabilities, discusses the assumptions that shaped them, and describes how the proposed developments could transform C2 in future warfare.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# LLMとヒューマン・コンディション

LLMs and the Human Condition ( http://arxiv.org/abs/2402.08403v3 )

ライセンス: Link先を確認
Peter Wallis, (参考訳) 理論に基づくAI研究は最近難しかったが、この研究の目的は、LLMが言語スキルを印象づけるときに実際に何をしているのかをモデルにすることである。 このモデルは、哲学、社会学、コンピュータ科学から、人間の意思決定に関する確立した3つの理論を統合する。 この論文は、AI研究の初期からの推論の集合的理解から始まります。 その後、多くの哲学者や、多くの現代のAI研究者によって取られた位置である「反応性システム」として一般的に考えられているものについて記述する。 提案モデルの第3の構成要素は社会学からであり、現代のエゴに不平を言ってはいないが、長年にわたって会話型ユーザインタフェースに取り組んでいる私たちを占有してきたというパズルを解き明かしている。

Theory based AI research has had a hard time recently and the aim here is to propose a model of what LLMs are actually doing when they impress us with their language skills. The model integrates three established theories of human decision-making from philosophy, sociology, and computer science. The paper starts with the collective understanding of reasoning from the early days of AI research - primarily because that model is how we humans think we think, and is the most accessible. It then describes what is commonly thought of as "reactive systems" which is the position taken by many philosophers and indeed many contemporary AI researchers. The third component to the proposed model is from sociology and, although not flattering to our modern ego, provides an explanation to a puzzle that for many years has occupied those of us working on conversational user interfaces.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# Brant-2:脳信号の基礎モデル

Brant-2: Foundation Model for Brain Signals ( http://arxiv.org/abs/2402.10251v4 )

ライセンス: Link先を確認
Zhizhang Yuan, Daoze Zhang, Junru Chen, Gefei Gu, Yang Yang, (参考訳) 基礎モデルは、大量のラベル付きデータに対する事前トレーニングの恩恵を受け、少量のラベル付きデータを持つ幅広いアプリケーションにおいて、強力なパフォーマンスを実現する。 このようなモデルは、多数のアプリケーションシナリオを含むため、脳信号の分析に特に効果的であり、大規模なアノテーションを実行するのに費用がかかる。 本研究では,脳信号の基盤モデルであるBrant-2について述べる。 頭蓋内神経信号用に設計された基礎モデルであるBrantと比較して、Brant-2はデータのバリエーションやモデリングスケールに対して堅牢性を示すだけでなく、幅広い脳神経データにも適用することができる。 広範囲なタスクを実験することにより、Brant-2が脳信号の様々な応用シナリオに適応可能であることを示す。 さらに分析した結果、Brant-2のスケーラビリティを明らかにし、各コンポーネントの有効性を検証し、ラベルの少ないシナリオでパフォーマンスを維持するモデルの能力を示す。

Foundational models benefit from pre-training on large amounts of unlabeled data and enable strong performance in a wide variety of applications with a small amount of labeled data. Such models can be particularly effective in analyzing brain signals, as this field encompasses numerous application scenarios, and it is costly to perform large-scale annotation. In this work, we present the largest foundation model in brain signals, Brant-2. Compared to Brant, a foundation model designed for intracranial neural signals, Brant-2 not only exhibits robustness towards data variations and modeling scales but also can be applied to a broader range of brain neural data. By experimenting on an extensive range of tasks, we demonstrate that Brant-2 is adaptive to various application scenarios in brain signals. Further analyses reveal the scalability of the Brant-2, validate each component's effectiveness, and showcase our model's ability to maintain performance in scenarios with scarce labels.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 英語とドイツ語の統語的言語変化:計量, パーサー, 収束

Syntactic Language Change in English and German: Metrics, Parsers, and Convergences ( http://arxiv.org/abs/2402.11549v2 )

ライセンス: Link先を確認
Yanran Chen, Wei Zhao, Anne Breitbarth, Manuel Stoeckel, Alexander Mehler, Steffen Eger, (参考訳) 多くの研究で、人間の言語は複雑さの低減と通信効率の向上のために最適化される傾向があることが示されている。 依存語間の線形距離を測定する構文依存距離は、言語処理の難易度や作業記憶負荷の指標となることが多い。 本論文は,前回のC言語論争のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。 160年。 私たちは、広く使われているStanford CoreNLPと4つの新しい代替品を含む5つの依存性パーサをベースとしています。 構文言語の変化の分析は, 線形依存性距離を超えるもので, 依存性距離最小化(DDM)および/または木の高さや次数分散といった木グラフ特性に基づく15の指標を探索する。 最近の木バンクで訓練されたパーサーは,スペル変化やOCRエラーなどのデータ「ノイズ」の影響を受けない証拠があるが,構文言語変化の結果は関連するパーサーに敏感であり,構文言語変化を評価するために単一のパーサーを使用することに注意が必要である。 また、調査期間中の構文言語の変化は、調査対象の異なる指標について、英語とドイツ語で大きく類似していることも示している。 また,文長分布の尾部では,構文的尺度の変化が頻繁であることが示唆された。 我々の知る限りでは、近年の英語とドイツ語のコーパスにおける近代的NLP技術を用いた構文言語変化の包括的分析が最も重要である。

Many studies have shown that human languages tend to optimize for lower complexity and increased communication efficiency. Syntactic dependency distance, which measures the linear distance between dependent words, is often considered a key indicator of language processing difficulty and working memory load. The current paper looks at diachronic trends in syntactic language change in both English and German, using corpora of parliamentary debates from the last c. 160 years. We base our observations on five dependency parsers, including the widely used Stanford CoreNLP as well as 4 newer alternatives. Our analysis of syntactic language change goes beyond linear dependency distance and explores 15 metrics relevant to dependency distance minimization (DDM) and/or based on tree graph properties, such as the tree height and degree variance. Even though we have evidence that recent parsers trained on modern treebanks are not heavily affected by data 'noise' such as spelling changes and OCR errors in our historic data, we find that results of syntactic language change are sensitive to the parsers involved, which is a caution against using a single parser for evaluating syntactic language change as done in previous work. We also show that syntactic language change over the time period investigated is largely similar between English and German for the different metrics explored: only 4% of cases we examine yield opposite conclusions regarding upwards and downtrends of syntactic metrics across German and English. We also show that changes in syntactic measures seem to be more frequent at the tails of sentence length distributions. To our best knowledge, ours is the most comprehensive analysis of syntactic language change using modern NLP technology in recent corpora of English and German.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 単一コピーレベルでのマルチパラメータ量子推定におけるクラム・ラオ境界の飽和度

Saturability of the Quantum Cramér-Rao Bound in Multiparameter Quantum Estimation at the Single-Copy Level ( http://arxiv.org/abs/2402.11567v3 )

ライセンス: Link先を確認
Hendra I. Nurdin, (参考訳) 量子パラメータ推定における精度の究極的下界としての量子Cram\'{e}r-Rao界(QCRB)は、特別な場合やパラメータに関連付けられた対称対数微分(SLD)の完全あるいは平均可換性のような条件下では、マルチパラメータ設定においてのみ飽和することが知られている。 さらに、一般的な混合状態の場合、量子状態の無限に多くの同一のコピーに対する集合的な測定は、一般にQCRBに到達するために必要である。 重要かつ実験的に関連する単一コピーシナリオでは、一般混合状態のマルチパラメータ設定においてQCRBを飽和させるために必要な条件は、SLDにおけるいわゆる部分可換性条件である。 しかし、この条件が十分かどうかは不明である。 本稿では,一組の射影SLDの可換性と非線形偏微分方程式系に対するユニタリ解の存在という観点から,単写体におけるマルチパラメータQCRBの飽和性に関する必要十分条件を確立する。 部分可換性を暗示する新たな必要条件も得られ、他の条件とともに十分となる。 また、十分な条件が満たされると、QCRBが飽和した最適な測定値が射影的かつ明確に特徴づけられるように選択できる。 例として、この条件が満たされ、明確に検証できるマルチパラメータ量子状態の例を示す。

The quantum Cram\'{e}r-Rao bound (QCRB) as the ultimate lower bound for precision in quantum parameter estimation is only known to be saturable in the multiparameter setting in special cases and under conditions such as full or average commutavity of the symmetric logarithmic derivatives (SLDs) associated with the parameters. Moreover, for general mixed states, collective measurements over infinitely many identical copies of the quantum state are generally required to attain the QCRB. In the important and experimentally relevant single-copy scenario, a necessary condition for saturating the QCRB in the multiparameter setting for general mixed states is the so-called partial commutativity condition on the SLDs. However, it is not known if this condition is also sufficient. This paper establishes necessary and sufficient conditions for saturability of the multiparameter QCRB in the single-copy setting in terms of the commutativity of a set of projected SLDs and the existence of a unitary solution to a system of nonlinear partial differential equations. New necessary conditions that imply partial commutativity are also obtained, which together with another condition become sufficient. Moreover, when the sufficient conditions are satisfied an optimal measurement saturating the QCRB can be chosen to be projective and explicitly characterized. An example is developed to illustrate the case of a multiparameter quantum state where the conditions derived herein are satisfied and can be explicitly verified.
翻訳日:2024-03-29 20:52:50 公開日:2024-03-28
# 2光子系の多重コンプトン散乱の運動学

The kinematics of multiple Compton scattering of two-photon systems ( http://arxiv.org/abs/2402.12972v2 )

ライセンス: Link先を確認
Peter Caradonna, (参考訳) 任意の2光子系のコンプトン多重散乱に伴う断面を計算するStokes-Mueller法を提案する。 この方法は、最大絡み合った消滅光子の一方が中間コンプトン散乱の後にコンプトン偏光度計を用いて両光子の検出を行うシナリオにおける断面を計算するために用いられる。 この方法はコンプトン散乱による潜在的な量子デコヒーレンス効果を説明できる。 場の量子論に基礎を置いているにもかかわらず、この方法は典型的に複雑な前提条件の深い理解を必要としない。 結果として、この方法はより広範な物理学者のコミュニティにアクセスできることが期待され、モンテカルロシミュレーションにも容易に適用できる。

We present a Stokes-Mueller method to calculate the cross sections associated with multiple Compton scattering of an arbitrary two-photon system. This method is used to calculate the cross section in the scenario in which one of the maximally entangled annihilation photons undergoes intermediate Compton scattering followed by the detection of both photons using a pair of Compton polarimeters. The method accounts for potential quantum-decoherence effects caused by Compton scattering. Despite being grounded in quantum field theory, the method does not require an in-depth understanding of its typically intricate prerequisites. As a result, this method is anticipated to be accessible to a broader community of physicists and is readily applicable in Monte Carlo simulations.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# 平衡K平均を用いた不均衡データクラスタリング

Imbalanced Data Clustering using Equilibrium K-Means ( http://arxiv.org/abs/2402.14490v2 )

ライセンス: Link先を確認
Yudong He, (参考訳) ハードK平均(HKM、ロイドのアルゴリズム)やファジィK平均(FKM、ベズデックのアルゴリズム)のような伝統的なセントロイドベースのクラスタリングアルゴリズムは、真の基礎となるデータ群が様々なサイズ(すなわち不均衡なデータ)を持つ場合、劣化した性能を示す。 本稿では,不均衡データに対するロバスト性を有する新しいファジィクラスタリングアルゴリズムである平衡K平均(EKM)を提案する。 EKMは単純で、高速で、FKMと同じ時間と空間の複雑さを持つ。 我々は、HKM、FKM、最大エントロピーファジィクラスタリング(MEFC)、不均衡データ用に設計された2つのFKM変種、ガウス混合モデルなど、他のセントロイドベースのアルゴリズムと比較し、EKMの性能を評価した。 その結果、EKMはバランスの取れたデータで競合的に動作し、不均衡なデータでは他のアルゴリズムよりも大幅に優れていた。 MNISTデータセットの深層クラスタリング実験では、不均衡なデータを扱う場合、表現がEKMフレンドリな構造を持つことの重要性が示されている。 さらに、HKM, FKM, MEFC, EKM を一般勾配降下法で再構成し、ベズデックの手法よりもファジィ性を導入し、一般形式がKMアルゴリズムの一様研究をいかに促進するかを実証する。

Traditional centroid-based clustering algorithms, such as hard K-means (HKM, or Lloyd's algorithm) and fuzzy K-means (FKM, or Bezdek's algorithm), display degraded performance when true underlying groups of data have varying sizes (i.e., imbalanced data). This paper introduces equilibrium K-means (EKM), a novel fuzzy clustering algorithm that has the robustness to imbalanced data by preventing centroids from crowding together in the center of large clusters. EKM is simple, alternating between two steps; fast, with the same time and space complexity as FKM; and scalable to large datasets. We evaluate the performance of EKM on two synthetic and ten real datasets, comparing it to other centroid-based algorithms, including HKM, FKM, maximum-entropy fuzzy clustering (MEFC), two FKM variations designed for imbalanced data, and the Gaussian mixture model. The results show that EKM performs competitively on balanced data and significantly outperforms other algorithms on imbalanced data. Deep clustering experiments on the MNIST dataset demonstrate the significance of making representation have an EKM-friendly structure when dealing with imbalanced data; In comparison to deep clustering with HKM, deep clustering with EKM obtains a more discriminative representation and a 35% improvement in clustering accuracy. Additionally, we reformulate HKM, FKM, MEFC, and EKM in a general form of gradient descent, where fuzziness is introduced differently and more simply than in Bezdek's work, and demonstrate how the general form facilitates a uniform study of KM algorithms.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# インフォームドメタラーニング

Informed Meta-Learning ( http://arxiv.org/abs/2402.16105v2 )

ライセンス: Link先を確認
Katarzyna Kobalczyk, Mihaela van der Schaar, (参考訳) 現実のアプリケーションで一般的なノイズや低データのレシエーションでは、機械学習の際立った課題は、データ効率と堅牢性を促進する帰納的バイアスを効果的に取り入れることである。 メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。 前者は純粋にデータ駆動の事前情報源に依存しているが、後者は専門知識の形式的な表現によって導かれる。 本稿では,人間と機械のクロスタスク知識共有における相補性を求める,情報メタラーニングという新たなハイブリッドパラダイムを提案する。 我々は,情報メタ学習の基礎的構成要素を確立し,この枠組みの具体的インスタンス化、すなわちインフォームド・ニューラル・プロセスを示す。 本研究は,一連の実測的および大規模実験を通じて,観測騒音,タスク分布シフト,不均一性に対するデータ効率とロバスト性を改善する上で,情報メタラーニングの潜在的メリットを実証する。

In noisy and low-data regimes prevalent in real-world applications, an outstanding challenge of machine learning lies in effectively incorporating inductive biases that promote data efficiency and robustness. Meta-learning and informed ML stand out as two approaches for incorporating prior knowledge into the ML pipeline. While the former relies on a purely data-driven source of priors, the latter is guided by a formal representation of expert knowledge. This paper introduces a novel hybrid paradigm, informed meta-learning, seeking complementarity in cross-task knowledge sharing of humans and machines. We establish the foundational components of informed meta-learning and present a concrete instantiation of this framework--the Informed Neural Process. Through a series of illustrative and larger-scale experiments, we demonstrate the potential benefits of informed meta-learning in improving data efficiency and robustness to observational noise, task distribution shifts, and heterogeneity.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# MemoNav: ビジュアルナビゲーションのためのワーキングメモリモデル

MemoNav: Working Memory Model for Visual Navigation ( http://arxiv.org/abs/2402.19161v2 )

ライセンス: Link先を確認
Hongxin Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang, (参考訳) イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。 多様なシーン記憶を利用する既存の方法は、ゴール関連率を考慮せずに、すべての歴史的観察を意思決定に利用するため、非効率な探索に苦しむ。 この制限に対処するために,動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,画像ゴールナビゲーションの新しいメモリモデルであるMemoNavを提案する。 具体的には,ナビゲーションメモリを3種類採用する。 マップ上のノード機能は、これらの機能が動的に更新されるため、短期記憶(STM)に格納される。 忘れるモジュールは、効率を上げるために情報的STM分数を保持する。 また,STMの特徴を段階的に集約することで,グローバルなシーン表現を学習するための長期記憶(LTM)も導入する。 その後、グラフアテンションモジュールは、保持されたSTMとLTMを符号化して、効率的なナビゲーションに必要なシーン特徴を含むワーキングメモリ(WM)を生成する。 これら3つのメモリタイプ間の相乗効果により、トポロジマップ内の目標関連シーンの特徴を学習し活用することにより、ナビゲーション性能が向上する。 マルチゴールタスクの評価は、GibsonとMatterport3Dの両方の難易度において、MemoNavが従来の手法よりも大幅に優れていたことを示す。 質的な結果は、MemoNavがより効率的なルートを計画していることを示している。

Image-goal navigation is a challenging task that requires an agent to navigate to a goal indicated by an image in unfamiliar environments. Existing methods utilizing diverse scene memories suffer from inefficient exploration since they use all historical observations for decision-making without considering the goal-relevant fraction. To address this limitation, we present MemoNav, a novel memory model for image-goal navigation, which utilizes a working memory-inspired pipeline to improve navigation performance. Specifically, we employ three types of navigation memory. The node features on a map are stored in the short-term memory (STM), as these features are dynamically updated. A forgetting module then retains the informative STM fraction to increase efficiency. We also introduce long-term memory (LTM) to learn global scene representations by progressively aggregating STM features. Subsequently, a graph attention module encodes the retained STM and the LTM to generate working memory (WM) which contains the scene features essential for efficient navigation. The synergy among these three memory types boosts navigation performance by enabling the agent to learn and leverage goal-relevant scene features within a topological map. Our evaluation on multi-goal tasks demonstrates that MemoNav significantly outperforms previous methods across all difficulty levels in both Gibson and Matterport3D scenes. Qualitative results further illustrate that MemoNav plans more efficient routes.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# 深層強化学習 : 凸最適化アプローチ

Deep Reinforcement Learning: A Convex Optimization Approach ( http://arxiv.org/abs/2402.19212v4 )

ライセンス: Link先を確認
Ather Gattami, (参考訳) 本稿では,連続状態と動作空間を有する非線形システムの強化学習について考察する。 本稿では,各エピソード毎に凸最適化を用いて,最適な$Q$関数の2層ニューラルネットワーク近似を求める。 凸最適化手法は、与えられたサンプル状態と現在のエピソードの動作に関して、各エピソードで計算された重みが最適であることを保証する。 安定な非線形系に対しては、アルゴリズムが収束し、トレーニングされたニューラルネットワークの収束パラメータを最適なニューラルネットワークパラメータに任意に近づけることができることを示す。 特に、正規化パラメータが$\rho$で時間地平線が$T$であれば、トレーニングされたニューラルネットワークのパラメータは$w$に収束し、最適なパラメータ$w^\star$から$w$までの距離は$\mathcal{O}(\rho T^{-1})$に制限される。 すなわち、エピソード数が無限大となると、[\|w-w^\star\| \le C\cdot\frac{\rho}{T} となるような一定の$C$が存在する。 特に,時間的地平線の増加や正規化パラメータの減少に伴い,我々のアルゴリズムは最適なニューラルネットワークパラメータに任意に収束する。

In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use convex optimization to find a two-layer neural network approximation of the optimal $Q$-function. The convex optimization approach guarantees that the weights calculated at each episode are optimal, with respect to the given sampled states and actions of the current episode. For stable nonlinear systems, we show that the algorithm converges and that the converging parameters of the trained neural network can be made arbitrarily close to the optimal neural network parameters. In particular, if the regularization parameter is $\rho$ and the time horizon is $T$, then the parameters of the trained neural network converge to $w$, where the distance between $w$ from the optimal parameters $w^\star$ is bounded by $\mathcal{O}(\rho T^{-1})$. That is, when the number of episodes goes to infinity, there exists a constant $C$ such that \[\|w-w^\star\| \le C\cdot\frac{\rho}{T}.\] In particular, our algorithm converges arbitrarily close to the optimal neural network parameters as the time horizon increases or as the regularization parameter decreases.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# 一般化可能な腫瘍合成を目指して

Towards Generalizable Tumor Synthesis ( http://arxiv.org/abs/2402.19470v2 )

ライセンス: Link先を確認
Qi Chen, Xiaoxi Chen, Haorui Song, Zhiwei Xiong, Alan Yuille, Chen Wei, Zongwei Zhou, (参考訳) 腫瘍合成は、医用画像における人工腫瘍の作成を可能にし、腫瘍の検出とセグメンテーションのためのAIモデルのトレーニングを容易にする。 しかし、腫瘍合成の成功は、複数の臓器にまたがって一般化可能な視覚的に現実的な腫瘍を作成すること、さらに、異なるドメイン(例えば病院)から生成された画像中の実際の腫瘍を検出できるAIモデルが成功している。 肝・膵・腎臓に起源を呈する早期腫瘍 (2cm) はCT(Computed tomography) に類似した画像像を呈する傾向がみられた。 生成型AIモデルである拡散モデル(Diffusion Models)が、単一の臓器から限られた数の腫瘍例を訓練しても、様々な臓器に一般化された現実的な腫瘍を生成できることが確認された。 さらに、これらの合成腫瘍で訓練されたAIモデルを一般化して、CTボリュームから実際の腫瘍を検出し、セグメント化できることが示されている。

Tumor synthesis enables the creation of artificial tumors in medical images, facilitating the training of AI models for tumor detection and segmentation. However, success in tumor synthesis hinges on creating visually realistic tumors that are generalizable across multiple organs and, furthermore, the resulting AI models being capable of detecting real tumors in images sourced from different domains (e.g., hospitals). This paper made a progressive stride toward generalizable tumor synthesis by leveraging a critical observation: early-stage tumors (< 2cm) tend to have similar imaging characteristics in computed tomography (CT), whether they originate in the liver, pancreas, or kidneys. We have ascertained that generative AI models, e.g., Diffusion Models, can create realistic tumors generalized to a range of organs even when trained on a limited number of tumor examples from only one organ. Moreover, we have shown that AI models trained on these synthetic tumors can be generalized to detect and segment real tumors from CT volumes, encompassing a broad spectrum of patient demographics, imaging protocols, and healthcare facilities.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# 最大スライスワッサーシュタイン距離に対するシャープ境界

Sharp bounds for max-sliced Wasserstein distances ( http://arxiv.org/abs/2403.00666v3 )

ライセンス: Link先を確認
March T. Boedihardjo, (参考訳) 我々は本質的に、分離可能なヒルベルト空間上の確率測度と$n$サンプルからの経験的分布の間の予想最大スライクな1-ワッサーシュタイン距離に対する上界と下界をマッチングする。 この結果のバナッハ空間バージョンを証明することにより、ユークリッド空間上の対称確率測度$\mu$と、共分散行列の作用素ノルムと$\mu$とのサポートの直径との予想最大スライクな2-ワッサーシュタイン距離に対して、対数係数まで鋭い上限も得られる。

We obtain essentially matching upper and lower bounds for the expected max-sliced 1-Wasserstein distance between a probability measure on a separable Hilbert space and its empirical distribution from $n$ samples. By proving a Banach space version of this result, we also obtain an upper bound, that is sharp up to a log factor, for the expected max-sliced 2-Wasserstein distance between a symmetric probability measure $\mu$ on a Euclidean space and its symmetrized empirical distribution in terms of the operator norm of the covariance matrix of $\mu$ and the diameter of the support of $\mu$.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# OpenGraph: Open Graph Foundationモデルに向けて

OpenGraph: Towards Open Graph Foundation Models ( http://arxiv.org/abs/2403.01121v2 )

ライセンス: Link先を確認
Lianghao Xia, Ben Kao, Chao Huang, (参考訳) グラフ学習は、レコメンデーションシステムからソーシャルネットワーク分析まで、さまざまな分野における関係データの解釈と活用に欠かせないものとなっている。 この文脈では、グラフの構造情報を符号化するための有望な手法として様々なGNNが出現している。 グラフの基盤構造を効果的に把握することにより、これらのGNNは、リンク予測やノード分類といったグラフ学習タスクのパフォーマンスを高める大きな可能性を示している。 これらの高度な手法は、トレーニングインスタンスと大きく異なる未確認のグラフデータに一般化する上で、しばしば困難に直面します。 本研究の目的は,一般的なグラフ基盤モデルを開発することにより,グラフ学習パラダイムを進化させることである。 このモデルは、多様なグラフデータに存在する複雑なトポロジパターンを理解するために設計されており、異なる下流データセットをまたいだゼロショットグラフ学習タスクを最適化することができる。 この目標を達成するために、OpenGraphモデルのいくつかの重要な技術的課題に対処します。 まず,未確認グラフデータにグラフモデルを適用し,基礎となるグラフ特性が訓練中に遭遇したグラフと大きく異なる場合であっても,グラフモデルを適切に一般化するための統一グラフトークン化手法を提案する。 第2に,グローバルトポロジカルコンテキスト内のノード依存性を効果的にキャプチャする基盤エンコーダとして,スケーラブルなグラフトランスフォーマを開発する。 第3に,LLMによって強化されたデータ拡張機構を導入し,実世界のシナリオにおけるデータ不足の限界を緩和する。 大規模な実験により、我々のフレームワークの有効性が検証された。 我々はOpenGraphを新しいグラフ特性に適用し、多様なグラフのニュアンスを理解することにより、様々な設定や領域にわたって優れたゼロショットグラフ学習性能を実現する。

Graph learning has become indispensable for interpreting and harnessing relational data in diverse fields, ranging from recommendation systems to social network analysis. In this context, a variety of GNNs have emerged as promising methodologies for encoding the structural information of graphs. By effectively capturing the graph's underlying structure, these GNNs have shown great potential in enhancing performance in graph learning tasks, such as link prediction and node classification. However, despite their successes, a significant challenge persists: these advanced methods often face difficulties in generalizing to unseen graph data that significantly differs from the training instances. In this work, our aim is to advance the graph learning paradigm by developing a general graph foundation model. This model is designed to understand the complex topological patterns present in diverse graph data, enabling it to excel in zero-shot graph learning tasks across different downstream datasets. To achieve this goal, we address several key technical challenges in our OpenGraph model. Firstly, we propose a unified graph tokenizer to adapt our graph model to generalize well on unseen graph data, even when the underlying graph properties differ significantly from those encountered during training. Secondly, we develop a scalable graph transformer as the foundational encoder, which effectively captures node-wise dependencies within the global topological context. Thirdly, we introduce a data augmentation mechanism enhanced by a LLM to alleviate the limitations of data scarcity in real-world scenarios. Extensive experiments validate the effectiveness of our framework. By adapting our OpenGraph to new graph characteristics and comprehending the nuances of diverse graphs, our approach achieves remarkable zero-shot graph learning performance across various settings and domains.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# 小言語モデルはシークエンシャルレコメンデーションに役立つか?

Can Small Language Models be Good Reasoners for Sequential Recommendation? ( http://arxiv.org/abs/2403.04260v2 )

ライセンス: Link先を確認
Yuling Wang, Changxin Tian, Binbin Hu, Yanhua Yu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, Liang Pang, Xiao Wang, (参考訳) 大きな言語モデル(LLM)は、目立った言語理解と生成能力のために、シーケンシャルなレコメンデーションのための新しい地平を開く。 しかし、LLMによって強化されたシーケンシャルなレコメンデーションをうまく実装するには、まだ多くの課題が解決されるべきである。 第一に、ユーザ行動パターンはしばしば複雑で、LCMからのワンステップ推論のみに依存すると、誤った、あるいはタスク非関連な応答につながる可能性がある。 第2に、LLM(例えばChatGPT-175B)の違法なリソース要件は、真のシーケンシャルなレコメンデーションシステムにとって圧倒的に高く、実用的ではない。 本稿では,レコメンデーションのためのステップ・バイ・ステップのnowLedge dIstillation fraMework(SLIM)を提案する。 より大規模な教師モデルのためのユーザ行動系列に基づくCoTプロンプトを導入する。 そして、教師モデルによって生成される理論的根拠をラベルとして利用して、下流のより小さな学生モデル(例えば、LLaMA2-7B)を蒸留する。 このようにして、学生モデルはレコメンデーションタスクにおけるステップバイステップ推論能力を取得する。 学生モデルから生成した有理を高密度ベクトルにエンコードし、IDベースおよびID非依存のシナリオで推奨する。 SLIMが最先端のベースラインに対する効果を示し、さらに分析することで、安価なコストで有意義なレコメンデーション推論を生成する能力を示している。

Large language models (LLMs) open up new horizons for sequential recommendations, owing to their remarkable language comprehension and generation capabilities. However, there are still numerous challenges that should be addressed to successfully implement sequential recommendations empowered by LLMs. Firstly, user behavior patterns are often complex, and relying solely on one-step reasoning from LLMs may lead to incorrect or task-irrelevant responses. Secondly, the prohibitively resource requirements of LLM (e.g., ChatGPT-175B) are overwhelmingly high and impractical for real sequential recommender systems. In this paper, we propose a novel Step-by-step knowLedge dIstillation fraMework for recommendation (SLIM), paving a promising path for sequential recommenders to enjoy the exceptional reasoning capabilities of LLMs in a "slim" (i.e., resource-efficient) manner. We introduce CoT prompting based on user behavior sequences for the larger teacher model. The rationales generated by the teacher model are then utilized as labels to distill the downstream smaller student model (e.g., LLaMA2-7B). In this way, the student model acquires the step-by-step reasoning capabilities in recommendation tasks. We encode the generated rationales from the student model into a dense vector, which empowers recommendation in both ID-based and ID-agnostic scenarios. Extensive experiments demonstrate the effectiveness of SLIM over state-of-the-art baselines, and further analysis showcasing its ability to generate meaningful recommendation reasoning at affordable costs.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# セマンティックセグメンテーションのための周波数適応型拡張畳み込み

Frequency-Adaptive Dilated Convolution for Semantic Segmentation ( http://arxiv.org/abs/2403.05369v4 )

ライセンス: Link先を確認
Linwei Chen, Lin Gu, Ying Fu, (参考訳) 連続する要素間のギャップを挿入することによって受容場を広げる拡張畳み込みは、コンピュータビジョンにおいて広く用いられている。 本研究では,スペクトル分析の観点から,拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。 グローバルディレーションレートをハイパーパラメータとして固定する従来の慣行とは別に,局所周波数成分に基づいて動的にディレーションレートを調整する周波数適応型ディレイト・コンボリューション(FADC)を導入する。 その後、有効帯域幅と受容フィールドサイズを直接拡張する2つのプラグインモジュールを設計する。 Adaptive Kernel (AdaKern) モジュールは、畳み込み重みを低周波成分と高周波成分に分解し、チャネル単位でこれらの成分間の比を動的に調整する。 畳み込み重みの高周波部分を増やすことで、AdaKernはより多くの高周波成分を捕捉し、有効帯域幅を改善する。 周波数選択(FreqSelect)モジュールは、空間的に不変な再重み付けによって特徴表現における高周波数成分と低周波数成分を最適にバランスさせる。 背景の高周波数を抑え、FADCにより大きな拡張学習を奨励し、拡張されたスコープに対する受容野を増大させる。 セグメンテーションと物体検出に関する広範囲な実験は、我々のアプローチの有効性を一貫して検証している。 コードは \url{https://github.com/Linwei-Chen/FADC} で公開されている。

Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at \url{https://github.com/Linwei-Chen/FADC}.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# リカレントニューラルネットワークによる3次元点雲中の物体の分類:GRU LSTMハイブリッドアプローチ

Classifying Objects in 3D Point Clouds Using Recurrent Neural Network: A GRU LSTM Hybrid Approach ( http://arxiv.org/abs/2403.05950v2 )

ライセンス: Link先を確認
Ramin Mousa, Mitra Khezli, Mohamadreza Azadi, Vahid Nikoofard, Saba Hesaraki, (参考訳) 3Dポイントクラウドにおけるオブジェクトの正確な分類は、自律的なナビゲーションや拡張現実/仮想現実シナリオなど、いくつかのアプリケーションにおいて重要な問題であり、研究のホットスポットとなっている。 本稿では,拡張現実における3次元オブジェクト分類のためのディープラーニング戦略を提案する。 提案手法はGRUとLSTMの組み合わせである。 LSTMネットワークは、より長い依存性をよく学習するが、ゲートの数が多いため、トレーニングに時間がかかり、一方、GRUネットワークはLSTMよりも性能が低いが、GRUよりもトレーニング速度が高い。 提案手法は、これらの2つのネットワークの速度と精度の組み合わせを用いた。 提案手法は4,499,0641点のデータセットで0.99の精度を達成し、8つのクラス(ラベルなし、人為的地形、自然地形、高植生、低植生、建物、ハードスケープ、スキャニングアーティファクト、車)を含む。 一方、従来の機械学習アプローチでは、ベストケースでは最大精度が0.9489に達する可能性がある。 キーワード:ポイントクラウド分類、バーチャルリアリティ、ハイブリッドモデル、GRULSTM、GRU、LSTM

Accurate classification of objects in 3D point clouds is a significant problem in several applications, such as autonomous navigation and augmented/virtual reality scenarios, which has become a research hot spot. In this paper, we presented a deep learning strategy for 3D object classification in augmented reality. The proposed approach is a combination of the GRU and LSTM. LSTM networks learn longer dependencies well, but due to the number of gates, it takes longer to train; on the other hand, GRU networks have a weaker performance than LSTM, but their training speed is much higher than GRU, which is The speed is due to its fewer gates. The proposed approach used the combination of speed and accuracy of these two networks. The proposed approach achieved an accuracy of 0.99 in the 4,499,0641 points dataset, which includes eight classes (unlabeled, man-made terrain, natural terrain, high vegetation, low vegetation, buildings, hardscape, scanning artifacts, cars). Meanwhile, the traditional machine learning approaches could achieve a maximum accuracy of 0.9489 in the best case. Keywords: Point Cloud Classification, Virtual Reality, Hybrid Model, GRULSTM, GRU, LSTM
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# CAP:FCR制御を用いたオンライン選択等角予測アルゴリズム

CAP: A General Algorithm for Online Selective Conformal Prediction with FCR Control ( http://arxiv.org/abs/2403.07728v2 )

ライセンス: Link先を確認
Yajie Bao, Yuyang Huo, Haojie Ren, Changliang Zou, (参考訳) 選択後予測推論の問題について,オンライン手法を用いて検討する。 重要でない単位へのリソースの流出を避けるため、オンライン予測タスクでは、予測間隔を報告する前に現在の個人を予備選択することが一般的で有意義である。 オンライン選択は、選択した予測間隔に時間的多重性を引き起こすため、全体の誤発見レベルを測定するリアルタイム偽カバレッジステートメントレート(FCR)を制御することが重要である。 本研究では,従来のデータに対して適応的なピックルールを実行するCAP(Calibration after Adaptive Pick)と呼ばれる一般的なフレームワークを開発し,現在の個人が選択された場合のキャリブレーションセットを構築し,未観測ラベルに対して共形予測間隔を出力する。 我々は、人気のあるオンライン選択ルールの校正セットを構築するための抽出可能な手順を提供する。 我々は,CAPが有限サンプルおよび分布自由状態において,厳密な選択条件のカバレッジ保証を達成できることを証明した。 オンラインデータの分布変化を考慮し,最近の動的共形予測アルゴリズムにCAPを組み込んで,提案手法が長期FCR制御を実現することを示す。 合成データと実データの両方に関する数値的な結果から、CAPはターゲットレベルのFCRを効果的に制御し、様々な設定で既存のベースラインよりもより狭い予測間隔を得ることができる。

We study the problem of post-selection predictive inference in an online fashion. To avoid devoting resources to unimportant units, a preliminary selection of the current individual before reporting its prediction interval is common and meaningful in online predictive tasks. Since the online selection causes a temporal multiplicity in the selected prediction intervals, it is important to control the real-time false coverage-statement rate (FCR) which measures the overall miscoverage level. We develop a general framework named CAP (Calibration after Adaptive Pick) that performs an adaptive pick rule on historical data to construct a calibration set if the current individual is selected and then outputs a conformal prediction interval for the unobserved label. We provide tractable procedures for constructing the calibration set for popular online selection rules. We proved that CAP can achieve an exact selection-conditional coverage guarantee in the finite-sample and distribution-free regimes. To account for the distribution shift in online data, we also embed CAP into some recent dynamic conformal prediction algorithms and show that the proposed method can deliver long-run FCR control. Numerical results on both synthetic and real data corroborate that CAP can effectively control FCR around the target level and yield more narrowed prediction intervals over existing baselines across various settings.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# メッセージ復元を伴う特定検証器シグナチャスキームのバリアント

The Variant of Designated Verifier Signature Scheme with Message Recovery ( http://arxiv.org/abs/2403.07820v2 )

ライセンス: Link先を確認
Hong-Sheng Huang, Yu-Lei Fu, Han-Yu Lin, (参考訳) 本稿では,UDVS(Universal Designated Verifier Signature)の概念にインスパイアされたメッセージ回復機構を組み込んだ,強力なDesignated Verifier Signature(DVS)方式を提案する。 セドニアの強い指定証書署名スキームは署名のプライバシーを保証せず、医療記録証明書や投票システムのような特定の用途には適さないことに注意する必要がある。 この制限を克服するため、Leeの強い指定検証シグネチャをメッセージ回復スキームで拡張し、普遍的な指定検証シグネチャスキームを開発する。 この普遍的指定検証方式は、署名保持者のプライバシーを保護し、指定された認証者だけが真の署名者を認証し、メッセージを回復できるように構成されている。

In this work, we introduce a strong Designated Verifier Signature (DVS) scheme that incorporates a message recovery mechanism inspired by the concept of the Universal Designated Verifier Signature (UDVS) scheme. It is worth noting that Saeednia's strong designated verifier signature scheme fails to guarantee the privacy of the signature, making it unsuitable for certain applications such as medical record certificates or voting systems. To overcome this limitation, we extend Lee's strong designated verifier signature with a message recovery scheme to develop a universal designated verifier signature scheme. This universal designated verifier scheme is crafted to safeguard the privacy of signature holders, ensuring that only designated verifiers can authenticate the true signer and recover the messages.
翻訳日:2024-03-29 20:43:01 公開日:2024-03-28
# FluoroSAM: X線画像分割のための言語対応基盤モデル

FluoroSAM: A Language-aligned Foundation Model for X-ray Image Segmentation ( http://arxiv.org/abs/2403.08059v2 )

ライセンス: Link先を確認
Benjamin D. Killeen, Liam J. Wang, Han Zhang, Mehran Armand, Russell H. Taylor, Dave Dreizin, Greg Osgood, Mathias Unberath, (参考訳) 自動X線画像分割は、診断および介入精度医学の研究と開発を加速する。 それまでの取り組みは、特定の画像分析問題を解決するタスク固有のモデルに貢献してきたが、これらのモデルの実用性は特定のタスク領域に限定されており、より広範囲に使用するためには、追加のデータ、ラベル、再訓練が必要である。 近年、大量の高可変データに基づいてトレーニングされた機械学習モデルであるファンデーションモデル(FM)が、自動画像解析のための有望なツールとして登場した。 医用画像解析のための既存のFMは、内視鏡における外科的ツールセグメンテーションのような視覚的に明らかな境界によって、オブジェクトが明確に定義されるシナリオとモダリティに焦点を当てている。 対照的に、X線イメージングは一般的にそのような明確な境界線や構造を提示しない。 X線画像形成において、複雑な3D構造が撮像面に投影され、不透明度と形状の重なり合いが生じる。 任意の医療用X線画像の包括的かつ自動解析を行うためのFMへの道を開くために,1.6Mの合成X線画像に対してゼロから訓練したセグメント・アニーシング・モデルの言語対応版であるFluoroSAMを開発した。 FluoroSAMは128種類の臓器と464の非解剖学的物体(ツールやインプラントなど)のマスクを含むデータに基づいて訓練されている。 実際のカダベリック標本のX線画像では、FluoroSAMはテキストのみのプロンプトで0.51と0.79のDICEで、全ての構造に対して競合するSAM変異よりも優れている。 FluoroSAMはまた、言語アライメントのおかげでトレーニングセット以外のセグメンテーションクラスへのゼロショットの一般化も可能であり、実際の胸部X線で肺の完全なセグメンテーションを実証する。

Automated X-ray image segmentation would accelerate research and development in diagnostic and interventional precision medicine. Prior efforts have contributed task-specific models capable of solving specific image analysis problems, but the utility of these models is restricted to their particular task domain, and expanding to broader use requires additional data, labels, and retraining efforts. Recently, foundation models (FMs) -- machine learning models trained on large amounts of highly variable data thus enabling broad applicability -- have emerged as promising tools for automated image analysis. Existing FMs for medical image analysis focus on scenarios and modalities where objects are clearly defined by visually apparent boundaries, such as surgical tool segmentation in endoscopy. X-ray imaging, by contrast, does not generally offer such clearly delineated boundaries or structure priors. During X-ray image formation, complex 3D structures are projected in transmission onto the imaging plane, resulting in overlapping features of varying opacity and shape. To pave the way toward an FM for comprehensive and automated analysis of arbitrary medical X-ray images, we develop FluoroSAM, a language-aligned variant of the Segment-Anything Model, trained from scratch on 1.6M synthetic X-ray images. FluoroSAM is trained on data including masks for 128 organ types and 464 non-anatomical objects, such as tools and implants. In real X-ray images of cadaveric specimens, FluoroSAM is able to segment bony anatomical structures based on text-only prompting with 0.51 and 0.79 DICE with point-based refinement, outperforming competing SAM variants for all structures. FluoroSAM is also capable of zero-shot generalization to segmenting classes beyond the training set thanks to its language alignment, which we demonstrate for full lung segmentation on real chest X-rays.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# 動的物質を含む2+1Dゲージ理論における量子多体スキャリング

Quantum Many-Body Scarring in $2+1$D Gauge Theories with Dynamical Matter ( http://arxiv.org/abs/2403.08858v2 )

ライセンス: Link先を確認
Jesse Osborne, Ian P. McCulloch, Jad C. Halimeh, (参考訳) 量子多体散乱(QMBS)は、非可積分量子多体モデル、特に1+1$時空次元の格子ゲージ理論(LGT)における弱いエルゴディディディティ破壊の興味深いパラダイムとして登場した。 しかし、QMBS が動的物質を持つ高次元 LGT に存在しているかどうかには疑問がある。 空間次元 $d{=}1$ の非エルゴード力学が $d{>}1$ で消える傾向があることを考えれば、この問題を調査することが重要である。 有限系および無限系の行列積状態技術を用いて、QMBSは局所可観測体の持続的コヒーレント振動(英語版)において証明された2${+}1$D $\mathrm{U}(1)$量子リンクモデル(QLM)で発生することを示す。 興味深いことに、QMBSはフェルミオンよりも自由度がボソニックであるときにより堅牢である。 この結果より, ゲージ不変量とQMBSの密接な関係に光を当て, より高次元のスカーリングの持続性を強調した。 本研究は, 近距離アナログおよびディジタル量子シミュレータで行うことができ, 最近提案された冷原子アナログ量子シミュレータのアクセシビリティを実証する。

Quantum many-body scarring (QMBS) has emerged as an intriguing paradigm of weak ergodicity breaking in nonintegrable quantum many-body models, particularly lattice gauge theories (LGTs) in $1+1$ spacetime dimensions. However, an open question is whether QMBS exists in higher-dimensional LGTs with dynamical matter. Given that nonergodic dynamics in $d{=}1$ spatial dimension tend to vanish in $d{>}1$, it is important to probe this question. Using matrix product state techniques for both finite and infinite systems, we show that QMBS occurs in the $2{+}1$D $\mathrm{U}(1)$ quantum link model (QLM), as evidenced in persistent coherent oscillations in local observables, a marked slowdown in the growth of the bipartite entanglement entropy, and revivals in the fidelity. Interestingly, we see that QMBS is more robust when the matter degrees of freedom are bosonic rather than fermionic. Our results further shed light on the intimate connection between gauge invariance and QMBS, and highlight the persistence of scarring in higher spatial dimensions. Our findings can be tested in near-term analog and digital quantum simulators, and we demonstrate their accessibility on a recently proposed cold-atom analog quantum simulator.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# 2+1Dアベリアゲージ理論における任意整数スピンの量子多体スカー

Quantum Many-Body Scars for Arbitrary Integer Spin in $2+1$D Abelian Gauge Theories ( http://arxiv.org/abs/2403.08892v2 )

ライセンス: Link先を確認
Thea Budde, Marina Krstić Marinković, Joao C. Pinto Barros, (参考訳) 量子多体スカー(Quantum Many-Body Scars)の存在は、スピン-1/2量子リンクモデルを含む様々な量子多体系にまたがって確立されている。 任意に大きい整数スピンを$S$$$$$$$$$$$$$$で、具体的には、スピンに代えて電場が切り替わるTruncated Link Modelsに対して、純粋ゲージ理論のスカーを体系的に同定する。 明示的な分析構築を通して、傷跡の存在が広範囲に分布していることが示される。 これらの結果は,小回転スピンと$S=1$量子リンクモデルに対して数値的に確認する。 提案した解析構造は,既存の数値解析手法で探究できる体積やスピンをはるかに超える傷跡の存在を確立するものである。

The existence of Quantum Many-Body Scars has been established across different quantum many-body systems, including spin-1/2 Quantum Link Models. We systematically identify scars for pure gauge theories with arbitrarily large integer spin $S$ in $2+1$D, concretely for Truncated Link Models, where the electric field is truncated rather than replaced by spins. Through an explicit analytic construction, we show that the presence of scars is widespread. We confirm these findings numerically for small truncated spin and $S=1$ Quantum Link Models. The proposed analytic construction establishes the presence of scars far beyond volumes and spins that can be probed with existing numerical methods.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# OpenGraph: 大規模屋外環境におけるオープン語彙階層型3Dグラフ表現

OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments ( http://arxiv.org/abs/2403.09412v2 )

ライセンス: Link先を確認
Yinan Deng, Jiahui Wang, Jingyu Zhao, Xinyu Tian, Guangyan Chen, Yi Yang, Yufeng Yue, (参考訳) 高度なセマンティクスを具備した環境表現は、ロボットと人間のシームレスな相互作用を促進するために重要であり、様々なタスクを効果的に実行することができる。 オープンボキャブラリマップはVisual-Language Model (VLM)を利用しており、ゼロショット学習やオープンセットクラスのサポートなど、固有のアドバンテージを持っている。 しかしながら、既存のオープン語彙マップは、主にデスクトップや部屋などの小規模環境向けに設計されており、通常、ロボット室内ナビゲーションや屋内操作を含む限られた領域のタスクを対象としている。 彼らは、理解レベルと地図構造の両方の制限により、多くの対象と複雑なタスクによって特徴づけられる屋外環境への直接的一般化の課題に直面している。 本研究では,大規模屋外環境向けに設計された最初のオープン語彙階層グラフであるOpenGraphを提案する。 OpenGraphは最初、画像からインスタンスとキャプションを抽出し、それらをエンコードすることでテキスト推論を強化する。 その後、LiDARポイントクラウドに画像を投影することで、機能埋め込みによる3Dインクリメンタルなオブジェクト中心マッピングを実現している。 最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。 公開データセットのSemanticKITTIによる検証結果は、OpenGraphが最も高いセグメンテーションとクエリの精度を達成したことを示している。 OpenGraphのソースコードはhttps://github.com/BIT-DYN/OpenGraphで公開されている。

Environment representations endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including zero-shot learning and support for open-set classes. However, existing open-vocabulary maps are primarily designed for small-scale environments, such as desktops or rooms, and are typically geared towards limited-area tasks involving robotic indoor navigation or in-place manipulation. They face challenges in direct generalization to outdoor environments characterized by numerous objects and complex tasks, owing to limitations in both understanding level and map structure. In this work, we propose OpenGraph, the first open-vocabulary hierarchical graph representation designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images, enhancing textual reasoning by encoding them. Subsequently, it achieves 3D incremental object-centric mapping with feature embedding by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from public dataset SemanticKITTI demonstrate that OpenGraph achieves the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# 2つのコミュニティの物語:スタックオーバーフローの学術的参照を探る

A Tale of Two Communities: Exploring Academic References on Stack Overflow ( http://arxiv.org/abs/2403.09856v2 )

ライセンス: Link先を確認
Run Huang, Souti Chattopadhyay, (参考訳) Stack Overflowは、技術的問題に対処し、実用的なソリューションを共有するためのリソースとして、ソフトウェア実践者によって広く認識されている。 一般的には学術的なフォーラムとは見なされないが、Stack Overflowのユーザは議論の中で一般的に学術的な情報源を参照している。 しかしながら、これらの学術的成果や、Stack Overflowコミュニティのニーズと関心をどう解釈するかについては、ほとんど分かっていない。 このギャップを埋めるため,Stack Overflowにおける学術文献のランドスケープに関する大規模な調査を行った。 この結果から,関心領域の異なるStack Overflowコミュニティが,様々な頻度と速度で学術文献に関わっていることが明らかとなった。 矛盾するパターンは、一部の規律が、その利益と開発軌道を、対応する実践者コミュニティから逸脱した可能性があることを示唆している。 最後に,Stack Overflowが学術研究の現実的関連性を高めている可能性について論じる。

Stack Overflow is widely recognized by software practitioners as the go-to resource for addressing technical issues and sharing practical solutions. While not typically seen as a scholarly forum, users on Stack Overflow commonly refer to academic sources in their discussions. Yet, little is known about these referenced academic works and how they intersect the needs and interests of the Stack Overflow community. To bridge this gap, we conducted an exploratory large-scale study on the landscape of academic references in Stack Overflow. Our findings reveal that Stack Overflow communities with different domains of interest engage with academic literature at varying frequencies and speeds. The contradicting patterns suggest that some disciplines may have diverged in their interests and development trajectories from the corresponding practitioner community. Finally, we discuss the potential of Stack Overflow in gauging the real-world relevance of academic research.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# Dual-Channel Multiplex Graph Neural Networks for Recommendation

Dual-Channel Multiplex Graph Neural Networks for Recommendation ( http://arxiv.org/abs/2403.11624v2 )

ライセンス: Link先を確認
Xiang Li, Chaofan Fu, Zhongying Zhao, Guanjie Zheng, Chao Huang, Junyu Dong, Yanwei Yu, (参考訳) 効率的なレコメンデータシステムは、個人の好みを反映したユーザ属性とアイテム属性を正確にキャプチャする上で重要な役割を果たす。 既存のレコメンデーション技術は、クリック、お気に入りのマーク付け、オンラインショッピングプラットフォームでの購入など、現実のレコメンデーションシナリオにおけるユーザとアイテム間のさまざまなタイプのインタラクション関係のモデリングに焦点を移し始めている。 しかし,これらの手法は,(1)ユーザとアイテム間の多重関係が表現学習に与える影響のモデルと活用の不十分さ,(2)レコメンダシステムシナリオにおける対象関係に対する行動パターンの異なる関係の影響を無視すること,の2つの重大な欠点を伴っている。 本研究では,上記の課題に対処する新しい推薦フレームワークであるDual-Channel Multiplex Graph Neural Network (DCMGNN)を紹介する。 マルチプレックスユーザ・イテム相互作用関係からなる行動パターンを抽出する明示的な行動パターン表現学習装置を内蔵し、関係連鎖表現学習と関係連鎖認識エンコーダを備え、対象関係、異なる関係間の依存関係、行動パターンにおける適切な関係順序のマイニングを行う。 3つの実世界のデータセットに対する大規模な実験により、我々の \model は様々な最先端のレコメンデーション手法を超越していることが示された。 R@10とN@10では、全データセットの平均で10.06\%と12.15\%で最高のベースラインを上回っている。

Efficient recommender systems play a crucial role in accurately capturing user and item attributes that mirror individual preferences. Some existing recommendation techniques have started to shift their focus towards modeling various types of interaction relations between users and items in real-world recommendation scenarios, such as clicks, marking favorites, and purchases on online shopping platforms. Nevertheless, these approaches still grapple with two significant shortcomings: (1) Insufficient modeling and exploitation of the impact of various behavior patterns formed by multiplex relations between users and items on representation learning, and (2) ignoring the effect of different relations in the behavior patterns on the target relation in recommender system scenarios. In this study, we introduce a novel recommendation framework, Dual-Channel Multiplex Graph Neural Network (DCMGNN), which addresses the aforementioned challenges. It incorporates an explicit behavior pattern representation learner to capture the behavior patterns composed of multiplex user-item interaction relations, and includes a relation chain representation learning and a relation chain-aware encoder to discover the impact of various auxiliary relations on the target relation, the dependencies between different relations, and mine the appropriate order of relations in a behavior pattern. Extensive experiments on three real-world datasets demonstrate that our \model surpasses various state-of-the-art recommendation methods. It outperforms the best baselines by 10.06\% and 12.15\% on average across all datasets in terms of R@10 and N@10 respectively.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# 非滑らかなインシシデント差:決定論的および確率的収束率

Nonsmooth Implicit Differentiation: Deterministic and Stochastic Convergence Rates ( http://arxiv.org/abs/2403.11687v2 )

ライセンス: Link先を確認
Riccardo Grazzi, Massimiliano Pontil, Saverio Salzo, (参考訳) パラメトリックな非微分可縮写像の固定点の微分を効率よく計算する問題について検討する。 この問題は、ハイパーパラメータ最適化、メタラーニング、データ中毒攻撃など、機械学習に広く応用されている。 我々は,反復的分化 (ITD) と近似的暗黙的分化 (AID) の2つの一般的なアプローチを分析した。 非滑らかな設定の鍵となる課題は、チェーンルールがもはや保たないことだ。 微分不能ITDの線形収束を証明したBolte et al (2022) による最近の研究に基づいて、ITDの線形収束率の改善と、AIDのわずかに良いレートを提供する。 さらに,確率的不偏推定器を通してのみアクセス可能な外部マップと内マップの合成として固定点が定義される場合に,暗黙的微分を計算する新しい確率的手法NSIDを導入する。 我々はNSIDの収束率を確立し、スムーズな環境での最良の利用率を含む。 本報告では,本分析の実証実験について述べる。

We study the problem of efficiently computing the derivative of the fixed-point of a parametric nondifferentiable contraction map. This problem has wide applications in machine learning, including hyperparameter optimization, meta-learning and data poisoning attacks. We analyze two popular approaches: iterative differentiation (ITD) and approximate implicit differentiation (AID). A key challenge behind the nonsmooth setting is that the chain rule does not hold anymore. Building upon the recent work by Bolte et al. (2022), who proved linear convergence of nondifferentiable ITD, we provide an improved linear rate for ITD and a slightly better rate for AID, both in the deterministic case. We further introduce NSID, a new stochastic method to compute the implicit derivative when the fixed point is defined as the composition of an outer map and an inner map which is accessible only through a stochastic unbiased estimator. We establish rates for the convergence of NSID, encompassing the best available rates in the smooth setting. We present illustrative experiments confirming our analysis.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# テキスト・ビデオ品質評価のための主観的アライメント・データセットとメトリクス

Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment ( http://arxiv.org/abs/2403.11956v3 )

ライセンス: Link先を確認
Tengchuan Kou, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, Ning Liu, (参考訳) 生成モデルの急速な発展に伴い、AIGC(Artificial Intelligence-Generated Contents)は、日常生活において指数関数的に増加している。 このうち、テキスト・トゥ・ビデオ(T2V)世代は広く注目を集めている。 高い知覚品質のビデオを生成するための多くのT2Vモデルがリリースされているが、これらのビデオの品質を定量的に評価する方法がまだ存在しない。 この問題を解決するため,これまでで最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築した。 データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。 また、各ビデオの対応する平均意見スコアを得るための主観的研究を行う。 本稿では,T2VQA-DBに基づくテキスト・ツー・ビデオ品質評価(T2VQA)のためのトランスフォーマーモデルを提案する。 このモデルはテキスト・ビデオのアライメントとビデオの忠実度の観点から特徴を抽出し,大言語モデルの能力を活用して予測スコアを与える。 実験の結果,T2VQAは既存のT2VメトリクスとSOTAビデオ品質評価モデルより優れていた。 定量的分析により、T2VQAは主観的適応予測を行い、その効果を検証できることが示された。 データセットとコードはhttps://github.com/QMME/T2VQAで公開される。

With the rapid development of generative models, Artificial Intelligence-Generated Contents (AIGC) have exponentially increased in daily lives. Among them, Text-to-Video (T2V) generation has received widespread attention. Though many T2V models have been released for generating high perceptual quality videos, there is still lack of a method to evaluate the quality of these videos quantitatively. To solve this issue, we establish the largest-scale Text-to-Video Quality Assessment DataBase (T2VQA-DB) to date. The dataset is composed of 10,000 videos generated by 9 different T2V models. We also conduct a subjective study to obtain each video's corresponding mean opinion score. Based on T2VQA-DB, we propose a novel transformer-based model for subjective-aligned Text-to-Video Quality Assessment (T2VQA). The model extracts features from text-video alignment and video fidelity perspectives, then it leverages the ability of a large language model to give the prediction score. Experimental results show that T2VQA outperforms existing T2V metrics and SOTA video quality assessment models. Quantitative analysis indicates that T2VQA is capable of giving subjective-align predictions, validating its effectiveness. The dataset and code will be released at https://github.com/QMME/T2VQA.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# RouterBench: マルチLLMルーティングシステムのベンチマーク

RouterBench: A Benchmark for Multi-LLM Routing System ( http://arxiv.org/abs/2403.12031v2 )

ライセンス: Link先を確認
Qitian Jason Hu, Jacob Bieker, Xiuyu Li, Nan Jiang, Benjamin Keigwin, Gaurav Ranganath, Kurt Keutzer, Shriyash Kaustubh Upadhyay, (参考訳) 大規模言語モデル(LLM)のアプリケーションの範囲が拡大し続けており、効果的なサービスソリューションの需要がますます重要になっている。 LLMの汎用性にもかかわらず、特にパフォーマンスとコストのバランスをとる場合、すべてのタスクやアプリケーションに最適なモデルが存在しない。 この制限により、個々のLSMの制約を克服するために、様々なモデルの強みを組み合わせたLSMルーティングシステムの開発に繋がった。 しかし,LLMルータの性能評価のための標準ベンチマークが欠如していることは,この分野の進歩を妨げている。 このギャップを埋めるため、LuterBenchは、LLMルーティングシステムの有効性を体系的に評価する新しい評価フレームワークである。 さらに, LLMルーティングの理論的枠組みを提案し, RouterBench による様々なルーティング手法の比較分析を行い, 評価フレームワークにおけるその可能性と限界を強調した。 この作業は、LLMルーティングシステムの開発を形式化し、前進させるだけでなく、その評価基準を設定し、よりアクセスしやすく、経済的に実行可能なLLMデプロイメントの道を開く。 コードとデータはhttps://github.com/withmartian/routerbench.comで公開されている。

As the range of applications for Large Language Models (LLMs) continues to grow, the demand for effective serving solutions becomes increasingly critical. Despite the versatility of LLMs, no single model can optimally address all tasks and applications, particularly when balancing performance with cost. This limitation has led to the development of LLM routing systems, which combine the strengths of various models to overcome the constraints of individual LLMs. Yet, the absence of a standardized benchmark for evaluating the performance of LLM routers hinders progress in this area. To bridge this gap, we present RouterBench, a novel evaluation framework designed to systematically assess the efficacy of LLM routing systems, along with a comprehensive dataset comprising over 405k inference outcomes from representative LLMs to support the development of routing strategies. We further propose a theoretical framework for LLM routing, and deliver a comparative analysis of various routing approaches through RouterBench, highlighting their potentials and limitations within our evaluation framework. This work not only formalizes and advances the development of LLM routing systems but also sets a standard for their assessment, paving the way for more accessible and economically viable LLM deployments. The code and data are available at https://github.com/withmartian/routerbench.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# アルミニウム交換ゼオライトの二酸化炭素吸着予測のためのグラフニューラルネットワーク

Graph Neural Networks for Carbon Dioxide Adsorption Prediction in Aluminium-Exchanged Zeolites ( http://arxiv.org/abs/2403.12659v2 )

ライセンス: Link先を確認
Marko Petković, José Manuel Vicent-Luna, Vlado Menkovski, Sofía Calero, (参考訳) ゼオライトの吸着特性を効率的に予測する能力は、新規材料の設計プロセスの促進に大きな利益をもたらす可能性がある。 これらの材料に対する既存の構成空間は広く、既存の分子シミュレーション手法は計算コストが高い。 本研究では,分子シミュレーションと比較して吸着特性が4~5桁高速なモデルを提案する。 モデルを検証するため,MOR,MFI,RHOおよびITWゼオライトのアルミニウム組成と吸着熱,およびモンテカルロシミュレーションから得られたCO$_2$のヘンリー係数を含むデータセットを作成した。 機械学習モデルから得られた予測はモンテカルロシミュレーションから得られた値と一致し、そのモデルが特性予測に利用できることを確認する。 さらに, 本モデルを用いて吸着部位の同定を行った。 最後に、遺伝的アルゴリズムと組み合わせて新しいゼオライト構成を生成するためのモデルの有効性を評価する。

The ability to efficiently predict adsorption properties of zeolites can be of large benefit in accelerating the design process of novel materials. The existing configuration space for these materials is wide, while existing molecular simulation methods are computationally expensive. In this work, we propose a model which is 4 to 5 orders of magnitude faster at adsorption properties compared to molecular simulations. To validate the model, we generated datasets containing various aluminium configurations for the MOR, MFI, RHO and ITW zeolites along with their heat of adsorptions and Henry coefficients for CO$_2$, obtained from Monte Carlo simulations. The predictions obtained from the Machine Learning model are in agreement with the values obtained from the Monte Carlo simulations, confirming that the model can be used for property prediction. Furthermore, we show that the model can be used for identifying adsorption sites. Finally, we evaluate the capability of our model for generating novel zeolite configurations by using it in combination with a genetic algorithm.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# 安全強化学習における政策分岐

Policy Bifurcation in Safe Reinforcement Learning ( http://arxiv.org/abs/2403.12847v3 )

ライセンス: Link先を確認
Wenjun Zou, Yao Lyu, Jie Li, Yujie Yang, Shengbo Eben Li, Jingliang Duan, Xianyuan Zhan, Jingjing Liu, Yaqin Zhang, Keqiang Li, (参考訳) 安全な強化学習(RL)は制約付き最適制御問題に対する高度な解決策を提供する。 安全RLの既存の研究は、政策関数の連続性を暗黙的に前提としており、政策はスムーズで不断な方法で行動に反応するが、いくつかのシナリオでは、実現可能な政策は不連続または多値であり、不連続な局所的オプティマ間の補間は必然的に制約違反につながる。 我々は,このような現象の発生機構を最初に同定し,リーチ可能なタプルの収縮性に対応する安全なRLにおける政策分岐の存在を厳密に証明するためにトポロジカル解析を用いる。 我々の定理は、障害物のない状態空間が非単純連結である場合、実現可能なポリシーは分岐する必要があることを明らかにする。 このような分岐ポリシーを訓練するために,ガウス混合分布をポリシ出力として利用するMultimodal Policy Optimization (MUPO)と呼ばれる安全なRLアルゴリズムを提案する。 この分岐挙動は、最も高い混合係数を持つガウス成分を選択することで達成できる。 さらに、MUPOはスペクトル正規化と前方KL分岐を統合し、異なるモードを探索するポリシーの能力を高める。 車両制御タスクを用いた実験では,我々のアルゴリズムは分岐したポリシーをうまく学習し,安全性を確実に確保する一方で,連続的なポリシーは避けられない制約違反に悩まされている。

Safe reinforcement learning (RL) offers advanced solutions to constrained optimal control problems. Existing studies in safe RL implicitly assume continuity in policy functions, where policies map states to actions in a smooth, uninterrupted manner; however, our research finds that in some scenarios, the feasible policy should be discontinuous or multi-valued, interpolating between discontinuous local optima can inevitably lead to constraint violations. We are the first to identify the generating mechanism of such a phenomenon, and employ topological analysis to rigorously prove the existence of policy bifurcation in safe RL, which corresponds to the contractibility of the reachable tuple. Our theorem reveals that in scenarios where the obstacle-free state space is non-simply connected, a feasible policy is required to be bifurcated, meaning its output action needs to change abruptly in response to the varying state. To train such a bifurcated policy, we propose a safe RL algorithm called multimodal policy optimization (MUPO), which utilizes a Gaussian mixture distribution as the policy output. The bifurcated behavior can be achieved by selecting the Gaussian component with the highest mixing coefficient. Besides, MUPO also integrates spectral normalization and forward KL divergence to enhance the policy's capability of exploring different modes. Experiments with vehicle control tasks show that our algorithm successfully learns the bifurcated policy and ensures satisfying safety, while a continuous policy suffers from inevitable constraint violations.
翻訳日:2024-03-29 20:33:12 公開日:2024-03-28
# カゴメ格子$\mathbb{Z}_2$スピン液体中のバイソン凝縮とスピノン凝縮:量子二量体モデルの数値的研究

Vison condensation and spinon confinement in a kagome lattice $\mathbb{Z}_2$ spin liquid: A numerical study of a quantum dimer model ( http://arxiv.org/abs/2403.13154v2 )

ライセンス: Link先を確認
Kyusung Hwang, (参考訳) 量子スピン液体(quantum spin liquids)は、長距離の絡み合いと分数的な正準粒子を特徴とする、エキゾチックな多体状態である。 スピン液体の量子相転移は、特にエノン凝縮とエノン凝縮の新しい現象に関連する興味深い問題である。 本稿では,カゴメ格子上のスピン液体(\mathbb{Z}_2$SL)と価結合固体(VBS)の遷移を実装する量子二量体モデルについて検討する。 この遷移は、$\mathbb{Z}_2$ スピン液体のビソン励起の凝縮によって引き起こされ、特にスピノン励起の閉じ込めにつながる他のエノン励起に影響を及ぼす。 ダイマーモデルの数値的対角化により、バイソン弦演算子を用いてビソン凝縮を直接測定し、VBS状態のスピノン励起に作用する精細ポテンシャルを明示的にチェックする。 スピン液体状態のトポロジカル縮退は、ビソン凝縮と相まって持ち上げられることが観察された。 VBS状態の二量体秩序パターンを、二量体構造因子を調べることにより同定する。 さらに、スピン液体とVBSの特徴を同時に示す興味深い状態が見つかる。 本稿では,混合挙動の起源と熱力学的限界で期待されるシナリオについて論じる。 この研究は、ダイマーモデルであるPhysに関する以前の分析研究を補完する。 B87号、104408号(2013年)、Phys号。 B92, 205131 (2015) は、$\mathbb{Z}_2$SL-to-VBS遷移におけるバイソン凝縮とスピノン凝縮に関する数値的な証拠を提供する。

Quantum spin liquids are exotic many-body states featured with long-range entanglement and fractional anyon quasiparticles. Quantum phase transitions of spin liquids are particularly interesting problems related with novel phenomena of anyon condensation and anyon confinement. Here we study a quantum dimer model which implements a transition between a $\mathbb{Z}_2$ spin liquid ($\mathbb{Z}_2$SL) and a valence bond solid (VBS) on the kagome lattice. The transition is driven by the condensation of vison excitation of the $\mathbb{Z}_2$ spin liquid, which impacts on other anyon excitations especially leading to the confinement of spinon excitations. By numerical exact diagonalization of the dimer model, we directly measure the vison condensation using vison string operators, and explicitly check a confining potential acting on spinon excitations in the VBS state. It is observed that topological degeneracy of the spin liquid state is lifted concomitantly with the vison condensation. The dimer ordering pattern of the VBS state is identified by investigating dimer structure factor. Furthermore, we find an interesting state that exhibits features of spin liquid and VBS simultaneously. We discuss the origin of the mixed behaviors and possible scenarios expected in thermodynamic limit. This work complements the previous analytical studies on the dimer model, Phys. Rev. B 87, 104408 (2013) and Phys. Rev. B 92, 205131 (2015), by providing numerical evidences on the vison condensation and the spinon confinement in the $\mathbb{Z}_2$SL-to-VBS transition.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# Spiking Resformer:スパイクニューラルネットワークにおけるブリッジ型ResNetとVision Transformer

SpikingResformer: Bridging ResNet and Vision Transformer in Spiking Neural Networks ( http://arxiv.org/abs/2403.14302v2 )

ライセンス: Link先を確認
Xinyu Shi, Zecheng Hao, Zhaofei Yu, (参考訳) 人工ニューラルネットワーク(ANN)におけるビジョントランスフォーマー(Vision Transformers)の成功により、自己認識機構とトランスフォーマーベースのアーキテクチャをスパイキングニューラルネットワーク(SNN)に組み込むことへの関心が高まっている。 既存の手法ではSNNと互換性のある自己注意機構が提案されているが、適切なスケーリング手法が欠如しており、これらの手法によって提案される全体的なアーキテクチャは、局所的な特徴を効果的に抽出するボトルネックに悩まされている。 これらの課題に対処するため、我々はDual Spike Self-Attention (DSSA) という新しい自己注意機構を合理的なスケーリング手法で提案する。 DSSAに基づいて,ResNetベースのマルチステージアーキテクチャとDSSAを組み合わせた新しいスパイキングビジョントランスフォーマアーキテクチャを提案する。 実験結果から,SpkingResformerは,他のスパイキングビジョントランスよりも少ないパラメータと少ないエネルギー消費で高い精度を達成できることがわかった。 特に、私たちのSpkingResformer-Lは、4つのタイムステップを持つImageNet上で79.40%のトップ-1の精度を実現しています。

The remarkable success of Vision Transformers in Artificial Neural Networks (ANNs) has led to a growing interest in incorporating the self-attention mechanism and transformer-based architecture into Spiking Neural Networks (SNNs). While existing methods propose spiking self-attention mechanisms that are compatible with SNNs, they lack reasonable scaling methods, and the overall architectures proposed by these methods suffer from a bottleneck in effectively extracting local features. To address these challenges, we propose a novel spiking self-attention mechanism named Dual Spike Self-Attention (DSSA) with a reasonable scaling method. Based on DSSA, we propose a novel spiking Vision Transformer architecture called SpikingResformer, which combines the ResNet-based multi-stage architecture with our proposed DSSA to improve both performance and energy efficiency while reducing parameters. Experimental results show that SpikingResformer achieves higher accuracy with fewer parameters and lower energy consumption than other spiking Vision Transformer counterparts. Notably, our SpikingResformer-L achieves 79.40% top-1 accuracy on ImageNet with 4 time-steps, which is the state-of-the-art result in the SNN field.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# Adaptive-RAG:質問複雑度による検索型大規模言語モデルへの適応学習

Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity ( http://arxiv.org/abs/2403.14403v2 )

ライセンス: Link先を確認
Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park, (参考訳) 外部知識ベースからの非パラメトリック知識をLLMに組み込んだ検索型大規模言語モデル (LLM) は,質問回答 (QA) などのタスクにおいて,応答精度を高めるための有望なアプローチとして登場した。 しかし、異なる複雑さのクエリを扱う様々なアプローチがあるにもかかわらず、不要な計算オーバーヘッドを伴う単純なクエリを扱うか、複雑なマルチステップクエリに適切に対処できないかのいずれかである。 本稿では,クエリの複雑さに基づいて,最も単純なものから最も洗練されたものまで,最も適切な(検索可能な)LLM戦略を動的に選択できる,適応型QAフレームワークを提案する。 また、この選択プロセスは、データセットの実際の予測結果と固有の帰納バイアスから得られる、自動収集されたラベルによる入ってくるクエリの複雑さレベルを予測するために訓練された、より小さなLMの分類器で操作される。 このアプローチは、一連のクエリの複雑さに対応するため、反復的および単一ステップの検索拡張LDMと非検索的手法をシームレスに適応するバランスのとれた戦略を提供する。 我々は,複数のクエリの複雑さを網羅したオープンドメインQAデータセットの集合上でモデルを検証し,適応的検索手法を含む関連するベースラインと比較して,QAシステムの全体的な効率性と精度を向上させることを示す。 コードは、https://github.com/starsuzi/Adaptive-RAG.comで入手できる。

Retrieval-Augmented Large Language Models (LLMs), which incorporate the non-parametric knowledge from external knowledge bases into LLMs, have emerged as a promising approach to enhancing response accuracy in several tasks, such as Question-Answering (QA). However, even though there are various approaches dealing with queries of different complexities, they either handle simple queries with unnecessary computational overhead or fail to adequately address complex multi-step queries; yet, not all user requests fall into only one of the simple or complex categories. In this work, we propose a novel adaptive QA framework, that can dynamically select the most suitable strategy for (retrieval-augmented) LLMs from the simplest to the most sophisticated ones based on the query complexity. Also, this selection process is operationalized with a classifier, which is a smaller LM trained to predict the complexity level of incoming queries with automatically collected labels, obtained from actual predicted outcomes of models and inherent inductive biases in datasets. This approach offers a balanced strategy, seamlessly adapting between the iterative and single-step retrieval-augmented LLMs, as well as the no-retrieval methods, in response to a range of query complexities. We validate our model on a set of open-domain QA datasets, covering multiple query complexities, and show that ours enhances the overall efficiency and accuracy of QA systems, compared to relevant baselines including the adaptive retrieval approaches. Code is available at: https://github.com/starsuzi/Adaptive-RAG.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# 知識編集による大規模言語モデルのデトックス化

Detoxifying Large Language Models via Knowledge Editing ( http://arxiv.org/abs/2403.14472v2 )

ライセンス: Link先を確認
Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng, Yunzhi Yao, Qishen Zhang, Linyi Yang, Jindong Wang, Huajun Chen, (参考訳) 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。 我々は、安全でない9つのカテゴリを様々な強力なアタックプロンプトでカバーし、体系的な評価のために総合的なメトリクスを装備するベンチマーク、SafeEditを構築した。 いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを効率よく解毒する可能性を示唆した。 そこで我々は,DINM(Detoxifying with intraoperative Neural Monitoring)と呼ばれるシンプルなベースラインを提案する。 さらに, 従来のSFT法やDPO法は毒性パラメータの活性化を抑制できるが, DINM法は毒性パラメータの毒性をある程度軽減し, 恒久的な調整を行うことを実証した。 これらの知見が,LSMの非毒性化アプローチと基盤となる知識メカニズムの今後の研究に光を当てることが期待できる。 コードとベンチマークはhttps://github.com/zjunlp/EasyEdit.comで公開されている。

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments with several knowledge editing approaches, indicating that knowledge editing has the potential to efficiently detoxify LLMs with limited impact on general performance. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxify approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# AIにおける信頼 - 進歩、挑戦、今後の方向性

Trust in AI: Progress, Challenges, and Future Directions ( http://arxiv.org/abs/2403.14680v2 )

ライセンス: Link先を確認
Saleh Afroogh, Ali Akbari, Evan Malone, Mohammadali Kargar, Hananeh Alambeigi, (参考訳) さまざまなアプリケーション、サービス、製品を通じて、私たちの日常生活における人工知能(AI)システムの利用の増加は、ユーザの視点からAIにおける信頼と不信の重要性を説明してくれます。 AI駆動システム(他の技術とは対照的に)は、人間のエージェントが使用する有益なツールとしてだけでなく、私たちの代理として、人間の思考、決定、エージェンシーに影響を及ぼす操作的マインドとして、私たちの生活に広く浸透しています。 AIにおける信頼/不信は規制官の役割を担い、信頼が増加し、不信がAIの採用率を低下させるため、この拡散のレベルを著しく制御することができる。 近年、さまざまな研究がAIにおける信頼/不信の異次元とその関連する考察に注意を払っている。 この体系的な文献レビューでは、現在のAI文献レビューにおける信頼の概念化の後、異なるタイプの人間と機械の相互作用に対する信頼と、その異なるドメインにおける技術受容への影響について検討する。 さらに, 技術的(安全性, 正確性, 堅牢性)と非技術的公理的(倫理的, 法的, 混合的)の分類法を提案し, 信頼性の測定を行った。 さらに、AI(例えば、自律性と尊厳の脅威)における主要な信頼の破滅者や信頼者について検討し、信頼に値するAIへの移行に向けた今後の方向性と潜在的な解決策を提案する。

The increasing use of artificial intelligence (AI) systems in our daily life through various applications, services, and products explains the significance of trust/distrust in AI from a user perspective. AI-driven systems (as opposed to other technologies) have ubiquitously diffused in our life not only as some beneficial tools to be used by human agents but also are going to be substitutive agents on our behalf, or manipulative minds that would influence human thought, decision, and agency. Trust/distrust in AI plays the role of a regulator and could significantly control the level of this diffusion, as trust can increase, and distrust may reduce the rate of adoption of AI. Recently, varieties of studies have paid attention to the variant dimension of trust/distrust in AI, and its relevant considerations. In this systematic literature review, after conceptualization of trust in the current AI literature review, we will investigate trust in different types of human-Machine interaction, and its impact on technology acceptance in different domains. In addition to that, we propose a taxonomy of technical (i.e., safety, accuracy, robustness) and non-technical axiological (i.e., ethical, legal, and mixed) trustworthiness metrics, and some trustworthy measurements. Moreover, we examine some major trust-breakers in AI (e.g., autonomy and dignity threat), and trust makers; and propose some future directions and probable solutions for the transition to a trustworthy AI.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# 3次元視覚言語モデルは自然言語を真に理解できるか?

Can 3D Vision-Language Models Truly Understand Natural Language? ( http://arxiv.org/abs/2403.14760v2 )

ライセンス: Link先を確認
Weipeng Deng, Runyu Ding, Jihan Yang, Jiahui Liu, Yijiang Li, Xiaojuan Qi, Edith Ngai, (参考訳) 3次元視覚言語(3D-VL)タスクの急速な進歩は、人間が自然言語を使ってエンボディエージェントやロボットと対話するための新たな道を開いた。 既存の3D-VLモデルは、言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。 3Dビジョン言語モデルは、自然言語を本当に理解できますか? 3D-VLモデルの言語理解性をテストするために,まず,様々なタスクにまたがって3D-VLモデルを体系的に評価する言語頑健性タスクを提案する。 重要なことに、これらの変種は、人間の言語の多様性と予測不可能さを考慮して、人間との直接の相互作用を必要とするアプリケーションでよく見られる。 本研究では,ロバストネスの体系的な研究を容易にするために,人間の言語の特徴に基づく3次元言語ロバストネスデータセットを提案する。 包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。 最先端の3D-LLMでさえ、同じ文の変種を理解することができない。 さらに詳細な分析では、既存のモデルには、既存のデータセットの多様性が低いことから生じる、脆弱でバイアスの多い融合モジュールがあることが示唆されている。 最後に,LLMにより駆動される学習自由モジュールを提案する。 データセットとコードはgithub.comで入手できる。

Rapid advancements in 3D vision-language (3D-VL) tasks have opened up new avenues for human interaction with embodied agents or robots using natural language. Despite this progress, we find a notable limitation: existing 3D-VL models exhibit sensitivity to the styles of language input, struggling to understand sentences with the same semantic meaning but written in different variants. This observation raises a critical question: Can 3D vision-language models truly understand natural language? To test the language understandability of 3D-VL models, we first propose a language robustness task for systematically assessing 3D-VL models across various tasks, benchmarking their performance when presented with different language style variants. Importantly, these variants are commonly encountered in applications requiring direct interaction with humans, such as embodied robotics, given the diversity and unpredictability of human language. We propose a 3D Language Robustness Dataset, designed based on the characteristics of human language, to facilitate the systematic study of robustness. Our comprehensive evaluation uncovers a significant drop in the performance of all existing models across various 3D-VL tasks. Even the state-of-the-art 3D-LLM fails to understand some variants of the same sentences. Further in-depth analysis suggests that the existing models have a fragile and biased fusion module, which stems from the low diversity of the existing dataset. Finally, we propose a training-free module driven by LLM, which improves language robustness. Datasets and code will be available at github.
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# WoLF: CXR理解のための大規模言語モデルフレームワーク

WoLF: Large Language Model Framework for CXR Understanding ( http://arxiv.org/abs/2403.15456v2 )

ライセンス: Link先を確認
Seil Kang, Donghyun Kim, Junhyeok Kim, Hyo Kyung Lee, Seong Jae Hwang, (参考訳) 最新の視覚言語モデル(VLM)による胸部X線(CXR)の理解に向けた重要な手法が開発され、視覚質問応答(VQA)とCXRレポート生成能力が目覚ましい。 しかし、既存のCXR理解フレームワークには、手続き上の注意事項がいくつか残っている。 1) 総合的視覚質問応答 (VQA) には不十分なCXRレポートのみを使用する従来手法では, 薬物歴や先行診断などの健康関連データが必要であった。 2) 従来の手法では生のCXRレポートを使用しており, 任意に構造化されることが多い。 現代の言語モデルは、様々なテキスト形式を理解できるが、より明確で組織化された解剖学的情報のためのレポートの再構築は、それらの有用性を高めることができる。 3) CXR-VQAの現在の評価手法は, 主に言語的正当性を重視しており, 生成した回答の微妙な評価を行う能力は欠如している。 本稿では,CXR理解のための広スコープ大言語モデルフレームワークであるWoLFを紹介する。 1) 実際の臨床シナリオにおいて, 正確な診断に利用される多面的な患者の記録を収集する。 具体的には、電子健康記録(EHR)を用いて、CXR理解に適した指示追従データを生成する。 2)CXRレポートでは,注意ステップ内においても注意を隠蔽して,解剖学的構造に基づく知識の疎結合化によるレポート生成性能の向上が図られている。 (3)に対処するため,LLMの性能評価に最適化されたAI評価プロトコルを提案する。 大規模な実験的検証を通じて、WoLFはVQA(平均スコア+9.47%まで)とレポート生成(+7.3%p BLEU-1まで)に関するAI評価領域におけるMIMIC-CXRの他のモデルよりも優れた性能を示す。

Significant methodological strides have been made toward Chest X-ray (CXR) understanding via modern vision-language models (VLMs), demonstrating impressive Visual Question Answering (VQA) and CXR report generation abilities. However, existing CXR understanding frameworks still possess several procedural caveats. (1) Previous methods solely use CXR reports, which are insufficient for comprehensive Visual Question Answering (VQA), especially when additional health-related data like medication history and prior diagnoses are needed. (2) Previous methods use raw CXR reports, which are often arbitrarily structured. While modern language models can understand various text formats, restructuring reports for clearer, organized anatomy-based information could enhance their usefulness. (3) Current evaluation methods for CXR-VQA primarily emphasize linguistic correctness, lacking the capability to offer nuanced assessments of the generated answers. In this work, to address the aforementioned caveats, we introduce WoLF, a Wide-scope Large Language Model Framework for CXR understanding. To resolve (1), we capture multi-faceted records of patients, which are utilized for accurate diagnoses in real-world clinical scenarios. Specifically, we adopt the Electronic Health Records (EHR) to generate instruction-following data suited for CXR understanding. Regarding (2), we enhance report generation performance by decoupling knowledge in CXR reports based on anatomical structure even within the attention step via masked attention. To address (3), we introduce an AI-evaluation protocol optimized for assessing the capabilities of LLM. Through extensive experimental validations, WoLF demonstrates superior performance over other models on MIMIC-CXR in the AI-evaluation arena about VQA (up to +9.47%p mean score) and by metrics about report generation (+7.3%p BLEU-1).
翻訳日:2024-03-29 20:23:28 公開日:2024-03-28
# 生成量子カラーイメージング

Generative Quanta Color Imaging ( http://arxiv.org/abs/2403.19066v1 )

ライセンス: Link先を確認
Vishal Purohit, Junjie Luo, Yiheng Chi, Qi Guo, Stanley H. Chan, Qiang Qiu, (参考訳) 単光子カメラが驚くべき発展を遂げたことは、科学と産業のイメージにとって前例のない機会となった。 しかし、これらの1ビットセンサによって生成される高いデータスループットは、低消費電力アプリケーションに重大なボトルネックをもたらす。 本稿では,単光子カメラの単一バイナリフレームからカラー画像を生成する可能性について検討する。 暴露の程度がかなり異なるため,カラー化手法の標準化が特に困難であることは明らかである。 本論文の中核的な革新は、ニューラル常微分方程式(Neural ODE)の下でフレーム化された露光合成モデルであり、単一の観測から露光の連続体を生成することができる。 このイノベーションは、着色剤が取り掛かるバイナリイメージに一貫した露光を保証し、着色性が顕著に向上する。 単画像およびバーストカラー化における本手法の適用を実証し,ベースラインよりも優れた生成性能を示す。 プロジェクトのWebサイトはhttps://vishal-s-p.github.io/projects/2023/generative_quanta_color.htmlにある。

The astonishing development of single-photon cameras has created an unprecedented opportunity for scientific and industrial imaging. However, the high data throughput generated by these 1-bit sensors creates a significant bottleneck for low-power applications. In this paper, we explore the possibility of generating a color image from a single binary frame of a single-photon camera. We evidently find this problem being particularly difficult to standard colorization approaches due to the substantial degree of exposure variation. The core innovation of our paper is an exposure synthesis model framed under a neural ordinary differential equation (Neural ODE) that allows us to generate a continuum of exposures from a single observation. This innovation ensures consistent exposure in binary images that colorizers take on, resulting in notably enhanced colorization. We demonstrate applications of the method in single-image and burst colorization and show superior generative performance over baselines. Project website can be found at https://vishal-s-p.github.io/projects/2023/generative_quanta_color.html.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# 低ランクリスケール・ビジョントランスファインチューニング : 残留設計アプローチ

Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach ( http://arxiv.org/abs/2403.19067v1 )

ライセンス: Link先を確認
Wei Dong, Xing Zhang, Bihui Chen, Dawei Yan, Zhijun Lin, Qingsen Yan, Peng Wang, Yang Yang, (参考訳) 事前学習されたビジョン変換器のパラメータ効率の良い微調整は、事前学習されたパラメータの凍結した多数を保ちながら、最小限の新しい適応パラメータを学習することで、下流タスクにモデルを適切に調整することを目的としている。 事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは、重要な課題である。 現在、この繊細なトレードオフを導くことに焦点が当てられていない。 本研究では,事前学習されたパラメータ行列の特異値分解(SVD)の観点からこの問題にアプローチし,既存の手法のチューニング力学について考察する。 この理解に基づいて,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。 この戦略はパラメータチューニングの柔軟性を高めるだけでなく、新しいパラメータが残留設計を通じて事前訓練されたモデルから過度に逸脱しないことを保証する。 大規模な実験により,本手法は様々な下流画像分類タスクにおいて,比較可能な新しいパラメータを維持しながら,競合性能を達成できることが示されている。 この作業は、既存の方法を解釈するための統一的な視点を提供することに一歩前進し、上述した重要なトレードオフを効果的に考慮する新たなアプローチの開発のモチベーションとして役立ちます。 我々のコードは \href{https://github.com/zstarN70/RLRR.git}{https://github.com/zstarN70/RLRR.git} で入手できる。

Parameter-efficient fine-tuning for pre-trained Vision Transformers aims to adeptly tailor a model to downstream tasks by learning a minimal set of new adaptation parameters while preserving the frozen majority of pre-trained parameters. Striking a balance between retaining the generalizable representation capacity of the pre-trained model and acquiring task-specific features poses a key challenge. Currently, there is a lack of focus on guiding this delicate trade-off. In this study, we approach the problem from the perspective of Singular Value Decomposition (SVD) of pre-trained parameter matrices, providing insights into the tuning dynamics of existing methods. Building upon this understanding, we propose a Residual-based Low-Rank Rescaling (RLRR) fine-tuning strategy. This strategy not only enhances flexibility in parameter tuning but also ensures that new parameters do not deviate excessively from the pre-trained model through a residual design. Extensive experiments demonstrate that our method achieves competitive performance across various downstream image classification tasks, all while maintaining comparable new parameters. We believe this work takes a step forward in offering a unified perspective for interpreting existing methods and serves as motivation for the development of new approaches that move closer to effectively considering the crucial trade-off mentioned above. Our code is available at \href{https://github.com/zstarN70/RLRR.git}{https://github.com/zstarN70/RLRR.git}.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# 一次元ギャップ位相の融合とその領域壁

Fusion of one-dimensional gapped phases and their domain walls ( http://arxiv.org/abs/2403.19068v1 )

ライセンス: Link先を確認
David T. Stephen, Xie Chen, (参考訳) 有限深度量子回路は、ギャップ位相間の等価関係を提供する。 さらに、同じギャップ位相内か異なるギャップ位相の間にある非自明な領域壁が存在し、その同値関係は1つの下次元の有限深さ量子回路によって与えられる。 本稿では、そのようなユニタリ同値関係を用いて、1次元ギャップ位相の融合を研究する。 特に,二相相を融合する有限深さ回路,二相相を融合する局所ユニタリ,両相を融合させる領域壁を融合させる。 これは、高次元の自明な隔壁状態におけるギャップ付き欠陥の 'higher-category' 構造のいくつかの単純な側面の具体的な図示を提供する。

Finite depth quantum circuits provide an equivalence relation between gapped phases. Moreover, there can be nontrivial domain walls either within the same gapped phase or between different gapped phases, whose equivalence relations are given by finite depth quantum circuits in one lower dimension. In this paper, we use such unitary equivalence relations to study the fusion of one-dimensional gapped phases. In particular, we use finite depth circuits to fuse two gapped phases, local unitaries to fuse two domain walls, and a combination of both to fuse gapped phases with domain walls. This provides a concrete illustration of some simple aspects of the `higher-category' structure of gapped defects in a higher-dimensional trivial gapped bulk state.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# AssetHarvester: ソフトウェアアーチファクト内のシークレットによって保護されるアセットを検出する静的解析ツール

AssetHarvester: A Static Analysis Tool for Detecting Assets Protected by Secrets in Software Artifacts ( http://arxiv.org/abs/2403.19072v1 )

ライセンス: Link先を確認
Setu Kumar Basak, K. Virgil English, Ken Ogura, Vitesh Kambara, Bradley Reaves, Laurie Williams, (参考訳) GitGuardianは、公開GitHubリポジトリのシークレットの公開を監視し、開発者が2023年に1200万以上のシークレット(データベースやその他の認証情報)をリークしたことを報告した。 シークレット検出ツールが利用可能であるにもかかわらず、開発者は偽陽性(25%-99%)のため、ツールの報告された警告を無視している。 しかし、それぞれのシークレットは、アセット識別子(DNS名とパブリックまたはプライベートIPアドレス)を通じてアクセス可能な異なる値のアセットを保護する。 シークレットの資産情報は、開発者が偽陽性をフィルタリングし、ソースコードからシークレット削除を優先順位付けするのに役立ちます。 しかし、既存のシークレット検出ツールは資産情報を提供していないため、開発者はシークレットの値を見たり、報告されたシークレットごとに手動でアセットを見つけるだけで、シークレットをフィルタリングするのは難しい。 本研究の目的は,新たな静的解析ツールを通じて,秘密によって保護された資産情報を提供することにより,ソフトウェア実践者が秘密の除去を優先する支援を行うことである。 AssetHarvesterは、リポジトリ内のシークレットとアセスメントのペアを検出する静的解析ツールです。 資産の位置は秘密が定義されている場所から遠ざかる可能性があるため,秘密・秘密のコロケーションパターンを調査し,4つのパターンを見出した。 パターンマッチング,データフロー解析,高速近似ヒューリスティックスという3つの手法を用いた。 我々は、AssetHarvesterのパフォーマンスを評価するために、188のGitHubリポジトリから抽出された4種類のデータベースの1,791のシークレットアセスメントペアのベンチマークをキュレートした。 AssetHarvesterは、シークレットとアセットのペアを検出する際の精度(97%)、リコール(90%)、F1スコア(94%)を示す。 以上の結果から,AssetHarvesterにおけるデータフロー解析は,0%の偽陽性を有するシークレット・アセスメント・ペアを検出し,シークレット検出ツールのリコールの改善に有効であることが示唆された。

GitGuardian monitored secrets exposure in public GitHub repositories and reported developers leaked over 12 million secrets (database and other credentials) in 2023, indicating a 113% surge from 2021. Despite the availability of secret detection tools, developers ignore the tools' reported warnings because of false positives (25%-99%). However, each secret protects assets of different values accessible through asset identifiers (a DNS name and a public or private IP address). The asset information for a secret can aid developers in filtering false positives and prioritizing secret removal from the source code. However, existing secret detection tools do not provide the asset information, thus presenting difficulty to developers in filtering secrets only by looking at the secret value or finding the assets manually for each reported secret. The goal of our study is to aid software practitioners in prioritizing secrets removal by providing the assets information protected by the secrets through our novel static analysis tool. We present AssetHarvester, a static analysis tool to detect secret-asset pairs in a repository. Since the location of the asset can be distant from where the secret is defined, we investigated secret-asset co-location patterns and found four patterns. To identify the secret-asset pairs of the four patterns, we utilized three approaches (pattern matching, data flow analysis, and fast-approximation heuristics). We curated a benchmark of 1,791 secret-asset pairs of four database types extracted from 188 public GitHub repositories to evaluate the performance of AssetHarvester. AssetHarvester demonstrates precision of (97%), recall (90%), and F1-score (94%) in detecting secret-asset pairs. Our findings indicate that data flow analysis employed in AssetHarvester detects secret-asset pairs with 0% false positives and aids in improving the recall of secret detection tools.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# ディープラーニングワークロードのためのデータフロー対応PIM対応マルチコアアーキテクチャ

Dataflow-Aware PIM-Enabled Manycore Architecture for Deep Learning Workloads ( http://arxiv.org/abs/2403.19073v1 )

ライセンス: Link先を確認
Harsh Sharma, Gaurav Narang, Janardhan Rao Doppa, Umit Ogras, Partha Pratim Pande, (参考訳) PIM(Processing-in-Memory)は、ディープラーニング(DL)ワークロードのエネルギー効率と高性能アクセラレーションの実現手段として登場した。 抵抗型ランダムアクセスメモリ(ReRAM)は、PIMを実装する上で最も有望な技術の一つである。 しかし、ディープ畳み込みニューラルネットワーク(DNN)の複雑さが増大するにつれて、単一のチップ上に複数のReRAMベースの処理要素(PE)を持つマルチコアアーキテクチャを設計する必要がある。 既存のPIMベースのアーキテクチャは、主に通信の役割を無視しながら計算に焦点を当てている。 ReRAMベースのマルチコアアーキテクチャは、多くの処理要素(PE)を伴い、効率的なオンチップ通信インフラを介して相互接続する必要がある。 単により多くのリソース(ReRAM)を割り当てて計算をスピードアップするだけでは、通信インフラがそれに追いついていなければ効果がない。 本稿では,各種DLワークロードに適したデータフロー対応PIM対応マルチコアプラットフォームの設計原理について述べる。 2.5Dインターポーザと3D統合可能なアーキテクチャの設計課題について考察する。

Processing-in-memory (PIM) has emerged as an enabler for the energy-efficient and high-performance acceleration of deep learning (DL) workloads. Resistive random-access memory (ReRAM) is one of the most promising technologies to implement PIM. However, as the complexity of Deep convolutional neural networks (DNNs) grows, we need to design a manycore architecture with multiple ReRAM-based processing elements (PEs) on a single chip. Existing PIM-based architectures mostly focus on computation while ignoring the role of communication. ReRAM-based tiled manycore architectures often involve many Processing Elements (PEs), which need to be interconnected via an efficient on-chip communication infrastructure. Simply allocating more resources (ReRAMs) to speed up only computation is ineffective if the communication infrastructure cannot keep up with it. In this paper, we highlight the design principles of a dataflow-aware PIM-enabled manycore platform tailor-made for various types of DL workloads. We consider the design challenges with both 2.5D interposer- and 3D integration-enabled architectures.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# Tiny Machine Learning: 進歩と未来

Tiny Machine Learning: Progress and Futures ( http://arxiv.org/abs/2403.19076v1 )

ライセンス: Link先を確認
Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Song Han, (参考訳) Tiny Machine Learning (TinyML)は、機械学習の新しいフロンティアである。 ディープラーニングモデルを何十億ものIoTデバイスやマイクロコントローラ(MCU)に絞ることで、AIアプリケーションの範囲を広げ、ユビキタスなインテリジェンスを可能にします。 しかし、TinyMLはハードウェアの制約のために難しい。小さなメモリリソースは、クラウドやモバイルプラットフォーム用に設計されたディープラーニングモデルを保持するのを難しくする。 また、ベアメタルデバイスに対するコンパイラと推論エンジンのサポートも限定されている。 そのため,TinyMLを実現するためにアルゴリズムとシステムスタックを共同設計する必要がある。 本稿では、まずTinyMLの定義、課題、応用について論じる。 その後、TinyMLの最近の進歩と深層学習をMCUで調査する。 次に、MCUNetを紹介し、システム指向の共同設計でIoTデバイス上でImageNetスケールのAIアプリケーションを実現する方法について説明する。 推論からトレーニングまで、ソリューションをさらに拡張し、デバイス上での小さなトレーニング技術を導入します。 最後に、この領域における今後の方向性を示す。 今日の大きなモデルは明日の小さなモデルかもしれません。 TinyMLのスコープは、時間とともに進化し、適応しなければなりません。

Tiny Machine Learning (TinyML) is a new frontier of machine learning. By squeezing deep learning models into billions of IoT devices and microcontrollers (MCUs), we expand the scope of AI applications and enable ubiquitous intelligence. However, TinyML is challenging due to hardware constraints: the tiny memory resource makes it difficult to hold deep learning models designed for cloud and mobile platforms. There is also limited compiler and inference engine support for bare-metal devices. Therefore, we need to co-design the algorithm and system stack to enable TinyML. In this review, we will first discuss the definition, challenges, and applications of TinyML. We then survey the recent progress in TinyML and deep learning on MCUs. Next, we will introduce MCUNet, showing how we can achieve ImageNet-scale AI applications on IoT devices with system-algorithm co-design. We will further extend the solution from inference to training and introduce tiny on-device training techniques. Finally, we present future directions in this area. Today's large model might be tomorrow's tiny model. The scope of TinyML should evolve and adapt over time.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# MVEB:マルチビュー・エントロピー・ボトルネックによる自己監督型学習

MVEB: Self-Supervised Learning with Multi-View Entropy Bottleneck ( http://arxiv.org/abs/2403.19078v1 )

ライセンス: Link先を確認
Liangjian Wen, Xiasi Wang, Jianzhuang Liu, Zenglin Xu, (参考訳) 自己教師付き学習は、下流のタスクに効果的に一般化できる表現を学習することを目的としている。 多くの自己監督的アプローチは、画像の2つのビューを入力と自己監督的信号の両方とみなし、どちらのビューも同一のタスク関連情報を含み、共有情報は下流タスクを予測するのに十分な(およそ)ものであると仮定する。 近年の研究では、ビュー間で共有されていない過剰な情報を捨てることにより、一般化が促進されることが示されている。 したがって、理想表現は下流のタスクには十分であり、最小限の過剰な情報を含み、最小限の十分表現と呼ばれる。 この表現は、過剰な情報を排除しつつ、表現と教師付きビューの相互情報を最大化することで学習することができる。 それでも、相互情報の計算は、非常に難解である。 本研究では,最小限の表現を効果的に学習する目的の多視点エントロピーボトルネック(MVEB)を提案する。 MVEBは2つのビューの埋め込みと埋め込み分布の微分エントロピーの一致を最大化するために、最小限の十分な学習を単純化する。 実験の結果,MVEBは性能が著しく向上することが確認された。 例えば、リニア評価においてバニラResNet-50バックボーンでImageNetで76.9\%のトップ1の精度を達成する。 私たちの知る限りでは、これはResNet-50による新しい最先端の結果です。

Self-supervised learning aims to learn representation that can be effectively generalized to downstream tasks. Many self-supervised approaches regard two views of an image as both the input and the self-supervised signals, assuming that either view contains the same task-relevant information and the shared information is (approximately) sufficient for predicting downstream tasks. Recent studies show that discarding superfluous information not shared between the views can improve generalization. Hence, the ideal representation is sufficient for downstream tasks and contains minimal superfluous information, termed minimal sufficient representation. One can learn this representation by maximizing the mutual information between the representation and the supervised view while eliminating superfluous information. Nevertheless, the computation of mutual information is notoriously intractable. In this work, we propose an objective termed multi-view entropy bottleneck (MVEB) to learn minimal sufficient representation effectively. MVEB simplifies the minimal sufficient learning to maximizing both the agreement between the embeddings of two views and the differential entropy of the embedding distribution. Our experiments confirm that MVEB significantly improves performance. For example, it achieves top-1 accuracy of 76.9\% on ImageNet with a vanilla ResNet-50 backbone on linear evaluation. To the best of our knowledge, this is the new state-of-the-art result with ResNet-50.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# 画像強調によるドメイン適応型水中物体検出のためのリアルタイムフレームワーク

A Real-Time Framework for Domain-Adaptive Underwater Object Detection with Image Enhancement ( http://arxiv.org/abs/2403.19079v1 )

ライセンス: Link先を確認
Junjie Wen, Jinqiang Cui, Benyun Zhao, Bingxin Han, Xuchen Liu, Zhi Gao, Ben M. Chen, (参考訳) 近年,水中画像強調(UIE)分野において大きな進展が見られた。 しかし、自律水中車両(AUV)における水中物体検出(UOD)のような高レベル視覚タスクの実用性は、いまだに明らかにされていない。 1) 既存のメソッドは通常、前処理のステップとしてUIEを使用し、必然的にかなりの計算オーバーヘッドとレイテンシをもたらす。 2) 物体検出装置の訓練に先立って画像の強調を行うプロセスは, 必ずしも性能改善をもたらすとは限らない。 3) 複雑な水中環境は異なるシナリオ間で大きなドメインシフトを引き起こし, UOD性能を著しく低下させる。 これらの課題に対処するため,ドメイン適応機能を備えたUIEとUODを同時に行うように設計されたリアルタイムフレームワークであるEnYOLOを紹介した。 特にUIEとUODのタスクヘッドは同じネットワークバックボーンを共有し、軽量な設計を採用している。 さらに,両タスクのバランスの取れたトレーニングを確保するために,各タスクのパフォーマンスを継続的に向上することを目的としたマルチステージトレーニング戦略を提案する。 さらに,多様な水中環境から派生した特徴埋め込みを整列させる新しいドメイン適応手法を提案する。 総合的な実験により、我々のフレームワークはUIEタスクとUDDタスクの両方でSOTA(State-of-the-art)性能を達成するだけでなく、異なる水中シナリオに適用した場合にも優れた適応性を示す。 当社の効率分析では、オンボードデプロイメントにおけるフレームワークの実質的な可能性をさらに強調しています。

In recent years, significant progress has been made in the field of underwater image enhancement (UIE). However, its practical utility for high-level vision tasks, such as underwater object detection (UOD) in Autonomous Underwater Vehicles (AUVs), remains relatively unexplored. It may be attributed to several factors: (1) Existing methods typically employ UIE as a pre-processing step, which inevitably introduces considerable computational overhead and latency. (2) The process of enhancing images prior to training object detectors may not necessarily yield performance improvements. (3) The complex underwater environments can induce significant domain shifts across different scenarios, seriously deteriorating the UOD performance. To address these challenges, we introduce EnYOLO, an integrated real-time framework designed for simultaneous UIE and UOD with domain-adaptation capability. Specifically, both the UIE and UOD task heads share the same network backbone and utilize a lightweight design. Furthermore, to ensure balanced training for both tasks, we present a multi-stage training strategy aimed at consistently enhancing their performance. Additionally, we propose a novel domain-adaptation strategy to align feature embeddings originating from diverse underwater environments. Comprehensive experiments demonstrate that our framework not only achieves state-of-the-art (SOTA) performance in both UIE and UOD tasks, but also shows superior adaptability when applied to different underwater scenarios. Our efficiency analysis further highlights the substantial potential of our framework for onboard deployment.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# MMCert:マルチモーダルモデルに対する敵対的攻撃に対する防御の可能性

MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models ( http://arxiv.org/abs/2403.19080v1 )

ライセンス: Link先を確認
Yanting Wang, Hongye Fu, Wei Zou, Jinyuan Jia, (参考訳) 単一のモダリティから入力されるユニモーダルモデルとは異なり、マルチモーダルモデルの入力(マルチモーダル入力と呼ばれる)は、画像、3Dポイント、オーディオ、テキストなどの複数のモダリティからである。 ユニモーダルモデルと同様に、多くの既存研究では、攻撃者がマルチモーダルモデルが誤った予測を行うように、マルチモーダル入力のすべてのモダリティに小さな摂動を加えることができるような、敵の摂動にも弱いことが示されている。 既存の認証された防御は, 実験結果に示すようなマルチモーダルモデルに拡張した場合に, 準最適認証された堅牢性を保証するために設計されている。 本研究は,マルチモーダルモデルに対する敵攻撃に対する最初の認証された防御であるMCCertを提案する。 両モードに有界な摂動を持つ任意対向攻撃(例えば、自動運転の文脈では、RGB画像と深度画像の両方において変化画素の数)下でのMMCertの性能の低下を導出する。 我々は,マルチモーダル道路セグメンテーションタスクとマルチモーダル道路セグメンテーションタスクと,マルチモーダル感情認識タスクの2つのベンチマークデータセットを用いて,MCCertを評価した。 さらに,MMCertを,一様モデルから拡張した最先端の防御技術と比較した。 実験の結果,MMCertはベースラインよりも優れていた。

Different from a unimodal model whose input is from a single modality, the input (called multi-modal input) of a multi-modal model is from multiple modalities such as image, 3D points, audio, text, etc. Similar to unimodal models, many existing studies show that a multi-modal model is also vulnerable to adversarial perturbation, where an attacker could add small perturbation to all modalities of a multi-modal input such that the multi-modal model makes incorrect predictions for it. Existing certified defenses are mostly designed for unimodal models, which achieve sub-optimal certified robustness guarantees when extended to multi-modal models as shown in our experimental results. In our work, we propose MMCert, the first certified defense against adversarial attacks to a multi-modal model. We derive a lower bound on the performance of our MMCert under arbitrary adversarial attacks with bounded perturbations to both modalities (e.g., in the context of auto-driving, we bound the number of changed pixels in both RGB image and depth image). We evaluate our MMCert using two benchmark datasets: one for the multi-modal road segmentation task and the other for the multi-modal emotion recognition task. Moreover, we compare our MMCert with a state-of-the-art certified defense extended from unimodal models. Our experimental results show that our MMCert outperforms the baseline.
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# E-Test Statistics を用いたコンフォーマル予測の強化

Enhancing Conformal Prediction Using E-Test Statistics ( http://arxiv.org/abs/2403.19082v1 )

ライセンス: Link先を確認
A. A. Balinsky, A. D. Balinsky, (参考訳) Conformal Prediction (CP) は、機械学習(ML)モデルによる予測の不確実性を定量化する、堅牢なフレームワークとして機能する。 従来の点予測器とは異なり、CPはデータ交換可能性の仮定に基づいて統計的に有効な予測領域(予測間隔とも呼ばれる)を生成する。 典型的には、p-値に基づいて共形予測を構成する。 しかし,本論文では,e-test統計の力を利用して,BB予測器(下記の予測器から有界)を導入し,共形予測の有効性を高める方法を提案する。

Conformal Prediction (CP) serves as a robust framework that quantifies uncertainty in predictions made by Machine Learning (ML) models. Unlike traditional point predictors, CP generates statistically valid prediction regions, also known as prediction intervals, based on the assumption of data exchangeability. Typically, the construction of conformal predictions hinges on p-values. This paper, however, ventures down an alternative path, harnessing the power of e-test statistics to augment the efficacy of conformal predictions by introducing a BB-predictor (bounded from the below predictor).
翻訳日:2024-03-29 17:42:20 公開日:2024-03-28
# ベイジアンネットワークによる癌画像診断の改善とディープラーニング:ベイジアンディープラーニングアプローチ

Improving Cancer Imaging Diagnosis with Bayesian Networks and Deep Learning: A Bayesian Deep Learning Approach ( http://arxiv.org/abs/2403.19083v1 )

ライセンス: Link先を確認
Pei Xi, Lin, (参考訳) 機械学習における理論とアルゴリズムを用いた人工知能アプリケーション開発の最近の進歩により、与えられたデータセットをトレーニングし予測するために、多くの正確なモデルを作成することができる。 本稿では,癌診断における画像解釈の重要性を実現するとともに,Deep LearningとBayesian Network予測モデルの背後にある理論について検討する。 各モデルの利点と欠点に基づいて、弱さを最小化しながら強みを組み合わせたベイズ深層学習モデルを構築するために異なるアプローチが使用される。 最後に、画像の分類における健康産業におけるベイズ深層学習のアプローチの適用と精度について分析する。

With recent advancements in the development of artificial intelligence applications using theories and algorithms in machine learning, many accurate models can be created to train and predict on given datasets. With the realization of the importance of imaging interpretation in cancer diagnosis, this article aims to investigate the theory behind Deep Learning and Bayesian Network prediction models. Based on the advantages and drawbacks of each model, different approaches will be used to construct a Bayesian Deep Learning Model, combining the strengths while minimizing the weaknesses. Finally, the applications and accuracy of the resulting Bayesian Deep Learning approach in the health industry in classifying images will be analyzed.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# 自転車の安全性と緊急応答を高めるリアルタイム事故検出と生理信号モニタリング

Real-time accident detection and physiological signal monitoring to enhance motorbike safety and emergency response ( http://arxiv.org/abs/2403.19085v1 )

ライセンス: Link先を確認
S. M. Kayser Mehbub Siam, Khadiza Islam Sumaiya, Md Rakib Al-Amin, Tamim Hasan Turjo, Ahsanul Islam, A. H. M. A. Rahim, Md Rakibul Hasan, (参考訳) 都市化の迅速化と生活水準の向上により、道路上の車両の数が大幅に増加し、事故の発生頻度が増加した。 これらの事故の中で、バイク事故は特にリスクが高く、しばしば重傷や重傷を負う。 これらの死亡例のかなりの数は、遅れた、あるいは不十分な医学的注意によるものである。 そこで本研究では,バイク事故に特化して設計された新しい自動検知・通知システムを提案する。 提案システムは,検出システムと生理信号監視システムという2つの重要なコンポーネントから構成される。 検出システムはヘルメットに統合され、マイクロコントローラ、加速度計、GPS、GSM、Wi-Fiモジュールで構成される。 物理モニタリングシステムはパルスレートとSpO$_{2}$飽和をモニタリングするセンサーを内蔵している。 収集されたデータはLCDディスプレイ上に表示され、生理信号監視システムのマイクロコントローラを介して検出システムに無線で送信される。 加速度計の読み取りが、広範囲の実験によって決定された特定のしきい値から一貫してずれている場合、システムは事故を識別し、被害者の情報(GPSの位置、脈拍、SpO$_{2}$飽和率など)を指定された緊急連絡先に送信する。 予備的な結果から,バイク事故を正確に検出し,緊急連絡先を迅速に警告するシステムの有効性が示された。 提案システムは,自動車事故のリスクを著しく軽減し,命を救える可能性があると強く信じている。

Rapid urbanization and improved living standards have led to a substantial increase in the number of vehicles on the road, consequently resulting in a rise in the frequency of accidents. Among these accidents, motorbike accidents pose a particularly high risk, often resulting in serious injuries or deaths. A significant number of these fatalities occur due to delayed or inadequate medical attention. To this end, we propose a novel automatic detection and notification system specifically designed for motorbike accidents. The proposed system comprises two key components: a detection system and a physiological signal monitoring system. The detection system is integrated into the helmet and consists of a microcontroller, accelerometer, GPS, GSM, and Wi-Fi modules. The physio-monitoring system incorporates a sensor for monitoring pulse rate and SpO$_{2}$ saturation. All collected data are presented on an LCD display and wirelessly transmitted to the detection system through the microcontroller of the physiological signal monitoring system. If the accelerometer readings consistently deviate from the specified threshold decided through extensive experimentation, the system identifies the event as an accident and transmits the victim's information -- including the GPS location, pulse rate, and SpO$_{2}$ saturation rate -- to the designated emergency contacts. Preliminary results demonstrate the efficacy of the proposed system in accurately detecting motorbike accidents and promptly alerting emergency contacts. We firmly believe that the proposed system has the potential to significantly mitigate the risks associated with motorbike accidents and save lives.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# Task2Morph: 接触認識ロボット設計のための微分可能なタスクインスパイアされたフレームワーク

Task2Morph: Differentiable Task-inspired Framework for Contact-Aware Robot Design ( http://arxiv.org/abs/2403.19093v1 )

ライセンス: Link先を確認
Yishuai Cai, Shaowu Yang, Minglong Li, Xinglin Chen, Yunxin Mao, Xiaodong Yi, Wenjing Yang, (参考訳) 様々なタスクに適応する形態やコントローラを最適化することは、ロボットデザインの分野において重要な問題である。 インテリジェンスを具現化した 従来の研究は通常、共同最適化問題としてモデル化し、探索に基づく手法を用いて形態空間の最適解を求める。 しかし、ロボット設計を直接刺激できるタスク・ツー・モルフォロジーマッピングの暗黙の知識を無視する。 例えば、重い箱をひっくり返すには、より多くの筋肉のロボットアームが必要になる。 本稿では,タスク2Morphと呼ばれる接触認識ロボット設計のための,新規で汎用的なタスクインスパイア可能なフレームワークを提案する。 タスク性能に高い関連性を持つタスク機能を抽象化し,タスク・ツー・モルフォロジー・マッピングの構築に使用する。 さらに,このマッピングをロボット設計プロセスに組み込むことで,地図学習と全最適化の両方に勾配情報を活用する。 実験は3つのシナリオで実施され,Task2MorphがDiffHandより優れていることが確認された。

Optimizing the morphologies and the controllers that adapt to various tasks is a critical issue in the field of robot design, aka. embodied intelligence. Previous works typically model it as a joint optimization problem and use search-based methods to find the optimal solution in the morphology space. However, they ignore the implicit knowledge of task-to-morphology mapping which can directly inspire robot design. For example, flipping heavier boxes tends to require more muscular robot arms. This paper proposes a novel and general differentiable task-inspired framework for contact-aware robot design called Task2Morph. We abstract task features highly related to task performance and use them to build a task-to-morphology mapping. Further, we embed the mapping into a differentiable robot design process, where the gradient information is leveraged for both the mapping learning and the whole optimization. The experiments are conducted on three scenarios, and the results validate that Task2Morph outperforms DiffHand, which lacks a task-inspired morphology module, in terms of efficiency and effectiveness.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# プロンプトなしの正確性から学ぶと、LLM効率の良い共振器になる

Learning From Correctness Without Prompting Makes LLM Efficient Reasoner ( http://arxiv.org/abs/2403.19094v1 )

ライセンス: Link先を確認
Yuxuan Yao, Han Wu, Zhijiang Guo, Biyan Zhou, Jiahui Gao, Sichun Luo, Hanxu Hou, Xiaojin Fu, Linqi Song, (参考訳) 大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。 これらの問題を緩和するための潜在的アプローチの1つは、人間または外部からのフィードバック(例えばツール)から学ぶことである。 本稿では,人間のフィードバックや外部ツール,手工芸のプロンプトを不要にするための,本質的な自己修正推論フレームワークについて紹介する。 提案フレームワークは,多段階推論パラダイムである \textbf{Co}rrectness (\textsc{LeCo}) をベースとして,誤りから学ぶことなく推論性能を向上させる。 このパラダイムは、正しい推論ステップからの学習を優先し、生成ロジットに基づいて各推論ステップに対する信頼度を測定するユニークな方法である。 各種多段階推論タスクに対する実験結果から,トークン使用量削減による推論性能向上におけるフレームワークの有効性が示された。

Large language models (LLMs) have demonstrated outstanding performance across various tasks, yet they still exhibit limitations such as hallucination, unfaithful reasoning, and toxic content. One potential approach to mitigate these issues is learning from human or external feedback (e.g. tools). In this paper, we introduce an intrinsic self-correct reasoning framework for LLMs that eliminates the need for human feedback, external tools, and handcraft prompts. The proposed framework, based on a multi-step reasoning paradigm \textbf{Le}arning from \textbf{Co}rrectness (\textsc{LeCo}), improves reasoning performance without needing to learn from errors. This paradigm prioritizes learning from correct reasoning steps, and a unique method to measure confidence for each reasoning step based on generation logits. Experimental results across various multi-step reasoning tasks demonstrate the effectiveness of the framework in improving reasoning performance with reduced token consumption.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# 汎用リミックスと生成AI:マルチモーダル合成におけるデザイナ音声の構成

Purposeful remixing with generative AI: Constructing designer voice in multimodal composing ( http://arxiv.org/abs/2403.19095v1 )

ライセンス: Link先を確認
Xiao Tan, Wei Xu, Chaoran Wang, (参考訳) 著者のアイデンティティの非帰的な構成である音声は、作曲研究において広く研究され、理論化されている。 マルチモーダル・ライティングでは、学生は言語資源と非言語資源の両方を動員して、実または想像上のアイデンティティを表現することができる。 しかし同時に、学生が利用可能なオンラインリソースからしか選択できない場合、著者の意図と既存の資料との相容れないため、彼らの声は損なわれる可能性がある。 そこで本研究では,生成型AIツールの使用が,複数モーダル執筆においてより一貫した音声構築に役立つかどうかを考察した。 本研究では,学生が写真エッセイの形式でストーリーを再現し,AI画像生成ツールを用いてストーリーテリングのための写真作成を行う写真エッセイ課題を設計した。 7名の被験者からインタビューデータ、リフレクション、注釈、マルチモーダル・プロダクトを抽出し、2つのリミックス・プラクティスを特定し、学生が文章における一貫性と独特な声の確立を試みた。 この研究は、技術的柔軟性によって得られる、AIによるマルチモーダル書記の意図的かつ非帰的な性質に光を当て、同時に、学生が不十分な急進的かつマルチモーダル識字性と、AIシステムの自然的限界に起因する、実践的で倫理的な課題を強調した。 本研究は,マルチモーダル書記タスクの設計において,AIツールを組み込む上で重要な意味を持つ。

Voice, the discursive construction of the writer's identity, has been extensively studied and theorized in composition studies. In multimodal writing, students are able to mobilize both linguistic and non linguistic resources to express their real or imagined identities. But at the same time, when students are limited to choose from available online resources, their voices might be compromised due to the incompatibility between their authorial intentions and the existing materials. This study, therefore, investigates whether the use of generative AI tools could help student authors construct a more consistent voice in multimodal writing. In this study, we have designed a photo essay assignment where students recount a story in the form of photo essays and prompt AI image generating tools to create photos for their storytelling. Drawing on interview data, written reflection, written annotation, and multimodal products from seven focal participants, we have identified two remixing practices, through which students attempted to establish a coherent and unique voice in writing. The study sheds light on the intentional and discursive nature of multimodal writing with AI as afforded by the technological flexibility, while also highlighting the practical and ethical challenges that could be attributed to students insufficient prompt and multimodal literacy and the innate limitations of AI systems. This study provides important implications for incorporating AI tools in designing multimodal writing tasks.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# SCALE: ソフトウェア脆弱性検出のための構造化自然言語コメントツリーの構築

SCALE: Constructing Structured Natural Language Comment Trees for Software Vulnerability Detection ( http://arxiv.org/abs/2403.19096v1 )

ライセンス: Link先を確認
Xin-Cheng Wen, Cuiyun Gao, Shuzheng Gao, Yang Xiao, Michael R. Lyu, (参考訳) 近年,ソフトウェアの自動脆弱性検出への関心が高まっている。 事前訓練されたモデルベースアプローチは、脆弱性の検出において他のディープラーニング(DL)ベースのアプローチよりも優れたパフォーマンスを示している。 しかし、既存のトレーニング済みモデルベースのアプローチでは、一般的に予測時にコードシーケンスを入力として使用し、以下の2つの側面に反映される脆弱性に関連する構造情報を無視する可能性がある。 まず、複数の演算子やポインタを含むような複雑なロジックでコード文のセマンティクスを推論するのに失敗する傾向があります。 第二に、さまざまなコード実行シーケンスを理解することは困難であり、これは正確な脆弱性検出に不可欠である。 課題を軽減するために,SCALE という事前学習モデルに基づく構造化自然言語コメント木に基づくvulnerAbiLity dEtection フレームワークを提案する。 提案したStructured Natural Language Comment Tree (SCT)は、コードステートメントのセマンティクスと、抽象構文木(AST)に基づいたコード実行シーケンスを統合する。 SCALEは、(1)コメント生成用にLLM(Large Language Models)を最初に組み込んだ後、ASTにコメントノードを追加することで、モデルがコードステートメントの意味を推論する能力を高めることを目的としたコメントツリー構築(コメントツリー構築)という3つの主要なモジュールで構成されています。 2) コード構文テンプレートとコメントツリーを組み合わせることで,コード実行シーケンスを明示的に含意することを目的とした構造化自然言語コメントツリー構築。 (3) SCT-Enhanced Representationは、最終的に構築されたSCTを組み込んで脆弱性パターンをうまく捉えている。

Recently, there has been a growing interest in automatic software vulnerability detection. Pre-trained model-based approaches have demonstrated superior performance than other Deep Learning (DL)-based approaches in detecting vulnerabilities. However, the existing pre-trained model-based approaches generally employ code sequences as input during prediction, and may ignore vulnerability-related structural information, as reflected in the following two aspects. First, they tend to fail to infer the semantics of the code statements with complex logic such as those containing multiple operators and pointers. Second, they are hard to comprehend various code execution sequences, which is essential for precise vulnerability detection. To mitigate the challenges, we propose a Structured Natural Language Comment tree-based vulnerAbiLity dEtection framework based on the pre-trained models, named SCALE. The proposed Structured Natural Language Comment Tree (SCT) integrates the semantics of code statements with code execution sequences based on the Abstract Syntax Trees (ASTs). Specifically, SCALE comprises three main modules: (1) Comment Tree Construction, which aims at enhancing the model's ability to infer the semantics of code statements by first incorporating Large Language Models (LLMs) for comment generation and then adding the comment node to ASTs. (2) Structured Natural Language Comment Tree Construction}, which aims at explicitly involving code execution sequence by combining the code syntax templates with the comment tree. (3) SCT-Enhanced Representation, which finally incorporates the constructed SCTs for well capturing vulnerability patterns.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# GraphAD: エンドツーエンドの自動運転のためのインタラクションシーングラフ

GraphAD: Interaction Scene Graph for End-to-end Autonomous Driving ( http://arxiv.org/abs/2403.19098v1 )

ライセンス: Link先を確認
Yunpeng Zhang, Deheng Qian, Ding Li, Yifeng Pan, Yong Chen, Zhenbao Liang, Zhiyao Zhang, Shurui Zhang, Hongxu Li, Maolei Fu, Yun Ye, Zhujin Liang, Yi Shan, Dalong Du, (参考訳) エゴ車、道路エージェント、地図要素間の複雑な相互作用をモデル化することは、安全クリティカルな自動運転にとって重要な要素である。 エンド・ツー・エンドの自動運転に関するこれまでの研究は、異種相互作用を扱うための注意機構に依存しており、これは幾何学的先行を捉えることができず、計算的にも集中的である。 本稿では,エゴ車両,道路エージェント,地図要素間の相互作用をモデル化するための統合手法として,インタラクションシーングラフ(ISG)を提案する。 ISGの表現により、駆動エージェントは、衝突の可能性のある道路エージェントや従うべき地図要素など、最も影響力のある要素から重要な情報を収集する。 大量の不要なインタラクションが省略されるため、より効率的なシーングラフベースのフレームワークは、必須のコネクションに集中することができ、パフォーマンスが向上する。 提案手法をnuScenesデータセット上で評価した。 強いベースラインと比較して,本手法は認識,予測,計画などのフルスタック駆動タスクにおいて有意に優れていた。 コードはhttps://github.com/zhangyp15/GraphADでリリースされる。

Modeling complicated interactions among the ego-vehicle, road agents, and map elements has been a crucial part for safety-critical autonomous driving. Previous works on end-to-end autonomous driving rely on the attention mechanism for handling heterogeneous interactions, which fails to capture the geometric priors and is also computationally intensive. In this paper, we propose the Interaction Scene Graph (ISG) as a unified method to model the interactions among the ego-vehicle, road agents, and map elements. With the representation of the ISG, the driving agents aggregate essential information from the most influential elements, including the road agents with potential collisions and the map elements to follow. Since a mass of unnecessary interactions are omitted, the more efficient scene-graph-based framework is able to focus on indispensable connections and leads to better performance. We evaluate the proposed method for end-to-end autonomous driving on the nuScenes dataset. Compared with strong baselines, our method significantly outperforms in the full-stack driving tasks, including perception, prediction, and planning. Code will be released at https://github.com/zhangyp15/GraphAD.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# 任意データ次元に対する量子畳み込みニューラルネットワークアーキテクチャの最適化

Optimizing Quantum Convolutional Neural Network Architectures for Arbitrary Data Dimension ( http://arxiv.org/abs/2403.19099v1 )

ライセンス: Link先を確認
Changwon Lee, Israel F. Araujo, Dongha Kim, Junghan Lee, Siheon Park, Ju-Young Ryu, Daniel K. Park, (参考訳) 量子畳み込みニューラルネットワーク(QCNN)は、量子機械学習において有望なアプローチであり、量子データ分析と古典データ分析の両方に新たな方向を示す。 このアプローチは、量子ニューラルネットワーク(QNN)のトレーニングにおける根本的な課題であるバレンプラトー問題の欠如と、その実現可能性のために、特に魅力的である。 しかし、古典的なデータにQCNNを適用する際に制限が発生する。 入力量子ビットの数が2の電力である場合、ネットワークアーキテクチャは最も自然であり、この数は各プーリング層において2の係数で減少する。 入力キュービットの数は、処理できる入力データの次元(つまり特徴の数)を決定し、QCNNアルゴリズムを実世界のデータに適用することを制限する。 そこで本研究では,任意の入力データ次元を扱えるQCNNアーキテクチャを提案し,アシラリー量子ビットや量子ゲートなどの量子リソースの割り当てを最適化する。 この最適化は、計算資源の最小化だけでなく、ノイズの多い中間規模量子(NISQ)計算において必要不可欠なものでもある。 数値シミュレーションにより,MNISTおよび乳がんデータセットの任意の入力データ次元を扱う際に,様々なQCNNアーキテクチャの分類性能をベンチマークした。 提案したQCNNアーキテクチャは,信頼性の高い量子計算がノイズや不完全性によって制約される場合の最適解として,最小限のリソースオーバーヘッドを生かしながら,優れた分類性能を実現する。

Quantum convolutional neural networks (QCNNs) represent a promising approach in quantum machine learning, paving new directions for both quantum and classical data analysis. This approach is particularly attractive due to the absence of the barren plateau problem, a fundamental challenge in training quantum neural networks (QNNs), and its feasibility. However, a limitation arises when applying QCNNs to classical data. The network architecture is most natural when the number of input qubits is a power of two, as this number is reduced by a factor of two in each pooling layer. The number of input qubits determines the dimensions (i.e. the number of features) of the input data that can be processed, restricting the applicability of QCNN algorithms to real-world data. To address this issue, we propose a QCNN architecture capable of handling arbitrary input data dimensions while optimizing the allocation of quantum resources such as ancillary qubits and quantum gates. This optimization is not only important for minimizing computational resources, but also essential in noisy intermediate-scale quantum (NISQ) computing, as the size of the quantum circuits that can be executed reliably is limited. Through numerical simulations, we benchmarked the classification performance of various QCNN architectures when handling arbitrary input data dimensions on the MNIST and Breast Cancer datasets. The results validate that the proposed QCNN architecture achieves excellent classification performance while utilizing a minimal resource overhead, providing an optimal solution when reliable quantum computation is constrained by noise and imperfections.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# AAPMT: PromptとMetric TransformerによるAGIアセスメント

AAPMT: AGI Assessment Through Prompt and Metric Transformer ( http://arxiv.org/abs/2403.19101v1 )

ライセンス: Link先を確認
Benhao Huang, (参考訳) テキスト・ツー・イメージ・モデルの出現は、AI生成画像(AGI)の進化における重要なマイルストーンであり、デザインやエンターテイメントなど、さまざまな領域での利用を拡大している。 これらのブレークスルーにもかかわらず、AGIの品質は、しばしば準最適であり、効果的な評価方法の必要性を強調している。 これらの手法は, 画像の質をテキストによる記述と比較して評価するために重要であり, 人間の知覚を正確に反映する必要がある。 この領域では、BLIPやDBCNNといった革新的な技術によって、実質的な進歩が達成されている。 しかし、AGIQA-3Kを含む最近の研究は、現在の方法とSOTA(State-of-the-art)標準との顕著な相違を明らかにしている。 このギャップは、より高度で正確な評価基準の必要性を強調する。 本研究の目的は, 知覚品質, 信頼度, テキストと画像の対応など, 人間の知覚とより密接に一致したパラメータに焦点をあてた, メトリクスのレーティングを評価できるモデルを開発することである。 本稿では,プロンプト設計やMetric Transformerなど,様々な効果的な手法を紹介する。 Metric Transformerは、様々なAGI品質指標の複雑な相互関係にインスパイアされた、新しい構造である。 コードはhttps://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1で公開されている。

The emergence of text-to-image models marks a significant milestone in the evolution of AI-generated images (AGIs), expanding their use in diverse domains like design, entertainment, and more. Despite these breakthroughs, the quality of AGIs often remains suboptimal, highlighting the need for effective evaluation methods. These methods are crucial for assessing the quality of images relative to their textual descriptions, and they must accurately mirror human perception. Substantial progress has been achieved in this domain, with innovative techniques such as BLIP and DBCNN contributing significantly. However, recent studies, including AGIQA-3K, reveal a notable discrepancy between current methods and state-of-the-art (SOTA) standards. This gap emphasizes the necessity for a more sophisticated and precise evaluation metric. In response, our objective is to develop a model that could give ratings for metrics, which focuses on parameters like perceptual quality, authenticity, and the correspondence between text and image, that more closely aligns with human perception. In our paper, we introduce a range of effective methods, including prompt designs and the Metric Transformer. The Metric Transformer is a novel structure inspired by the complex interrelationships among various AGI quality metrics. The code is available at https://github.com/huskydoge/CS3324-Digital-Image-Processing/tree/main/Assignment1
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# パーソナライズされたテキスト・ツー・イメージ生成のための自動ブラックボックスプロンプトエンジニアリング

Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2403.19103v1 )

ライセンス: Link先を確認
Yutong He, Alexander Robey, Naoki Murata, Yiding Jiang, Joshua Williams, George J. Pappas, Hamed Hassani, Yuki Mitsufuji, Ruslan Salakhutdinov, J. Zico Kolter, (参考訳) プロンプトエンジニアリングは、テキスト・ツー・イメージ(T2I)生成モデルの出力を制御するのに有効であるが、手作業によるプロンプトの必要性から、注意を要する。 この課題は、自動プロンプト生成のためのアルゴリズムの開発を加速させた。 しかしながら、これらの手法はT2Iモデル間の転送可能性に悩まされ、基盤となるモデルへのホワイトボックスアクセスを必要とし、直観的でないプロンプトを生成する。 本研究では,T2Iモデルへのブラックボックスアクセスのみを前提として,人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムであるPRISMを紹介する。 大規模言語モデル(LLM)のジェイルブレイクにインスパイアされたPRISMは、LLMのコンテキスト内学習能力を活用して、所定の参照画像に対するプロンプト分布を反復的に洗練する。 本実験は, 安定拡散, DALL-E, Midjourneyを含む複数のT2Iモデルに対して, オブジェクト, スタイル, 画像の正確なプロンプトを生成する上で, PRISMの有効性と有効性を示すものである。

Prompt engineering is effective for controlling the output of text-to-image (T2I) generative models, but it is also laborious due to the need for manually crafted prompts. This challenge has spurred the development of algorithms for automated prompt generation. However, these methods often struggle with transferability across T2I models, require white-box access to the underlying model, and produce non-intuitive prompts. In this work, we introduce PRISM, an algorithm that automatically identifies human-interpretable and transferable prompts that can effectively generate desired concepts given only black-box access to T2I models. Inspired by large language model (LLM) jailbreaking, PRISM leverages the in-context learning ability of LLMs to iteratively refine the candidate prompts distribution for given reference images. Our experiments demonstrate the versatility and effectiveness of PRISM in generating accurate prompts for objects, styles and images across multiple T2I models, including Stable Diffusion, DALL-E, and Midjourney.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# CRKD:クロスモーダル知識蒸留によるカメラレーダー物体検出

CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation ( http://arxiv.org/abs/2403.19104v1 )

ライセンス: Link先を確認
Lingjun Zhao, Jingyu Song, Katherine A. Skinner, (参考訳) 自律走行のための3Dオブジェクト検出の分野では、LiDAR-Camera (LC) 融合が最も優れたセンサー構成である。 それでもLiDARは比較的高価であり、消費者自動車にこの技術を採用するのを妨げている。 あるいは、カメラとレーダーは、現在既に道路上の車両に配備されているが、カメラレーダー(CR)フュージョンの性能はLCフュージョンより遅れている。 本研究では,LC検出器とCR検出器間の性能ギャップを,新しいクロスモダリティKDフレームワークで橋渡しするカメラレーダー知識蒸留(CRKD)を提案する。 本研究では,Bird's-Eye-View (BEV) 表現を共有特徴空間として使用し,効果的な知識蒸留を実現する。 そこで本研究では,教師モデルから重要な特徴を学習するための蒸留損失を4つ提案する。 提案するCRKDフレームワークの有効性を示すため,nuScenesデータセットについて広範囲な評価を行った。 CRKDのプロジェクトページはhttps://song-jingyu.github.io/CRKDである。

In the field of 3D object detection for autonomous driving, LiDAR-Camera (LC) fusion is the top-performing sensor configuration. Still, LiDAR is relatively high cost, which hinders adoption of this technology for consumer automobiles. Alternatively, camera and radar are commonly deployed on vehicles already on the road today, but performance of Camera-Radar (CR) fusion falls behind LC fusion. In this work, we propose Camera-Radar Knowledge Distillation (CRKD) to bridge the performance gap between LC and CR detectors with a novel cross-modality KD framework. We use the Bird's-Eye-View (BEV) representation as the shared feature space to enable effective knowledge distillation. To accommodate the unique cross-modality KD path, we propose four distillation losses to help the student learn crucial features from the teacher model. We present extensive evaluations on the nuScenes dataset to demonstrate the effectiveness of the proposed CRKD framework. The project page for CRKD is https://song-jingyu.github.io/CRKD.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# 合成医用医用画像生成装置の開発

Synthetic Medical Imaging Generation with Generative Adversarial Networks For Plain Radiographs ( http://arxiv.org/abs/2403.19107v1 )

ライセンス: Link先を確認
John R. McNulty, Lee Kho, Alexandria L. Case, Charlie Fornaca, Drew Johnston, David Slater, Joshua M. Abzug, Sybil A. Russell, (参考訳) 医用画像では、患者のプライバシの制限や、まれな疾患の場合の十分なデータ取得が困難である問題により、データへのアクセスが制限されることが一般的である。 本研究の目的は、再利用可能なオープンソースの合成画像生成パイプラインであるGAN画像合成ツール(GIST)を開発することである。 このパイプラインは、特定の患者に関連付けられていない高品質な合成画像データを生成することによって、デジタルヘルス空間におけるAIアルゴリズムの改善と標準化を支援する。 画像生成機能には、低頻度で病気や怪我の画像を生成する機能が含まれる。 このデジタルヘルスAIアルゴリズムの改善は、診断精度の向上、患者のケア支援、医薬品請求の低減、そして最終的に医療全体のコスト削減につながる。 パイプラインは既存のGAN(Generative Adversarial Networks)アルゴリズムに基づいて構築されており、完全性のために前処理と評価のステップが含まれていた。 本研究は,人工膝と肘X線画像に焦点をあてて,パイプラインがX線撮影をサポートすることに焦点を当てた。 パイプラインの設計において、我々は現在のGANアーキテクチャの性能を評価し、利用可能なX線データの性能について検討した。 本研究では,Fr'echet Inception Distance(FID)測定値に基づいて,高品質で臨床的に関係のある画像を生成することができることを示す。

In medical imaging, access to data is commonly limited due to patient privacy restrictions and the issue that it can be difficult to acquire enough data in the case of rare diseases.[1] The purpose of this investigation was to develop a reusable open-source synthetic image generation pipeline, the GAN Image Synthesis Tool (GIST), that is easy to use as well as easy to deploy. The pipeline helps to improve and standardize AI algorithms in the digital health space by generating high quality synthetic image data that is not linked to specific patients. Its image generation capabilities include the ability to generate imaging of pathologies or injuries with low incidence rates. This improvement of digital health AI algorithms could improve diagnostic accuracy, aid in patient care, decrease medicolegal claims, and ultimately decrease the overall cost of healthcare. The pipeline builds on existing Generative Adversarial Networks (GANs) algorithms, and preprocessing and evaluation steps were included for completeness. For this work, we focused on ensuring the pipeline supports radiography, with a focus on synthetic knee and elbow x-ray images. In designing the pipeline, we evaluated the performance of current GAN architectures, studying the performance on available x-ray data. We show that the pipeline is capable of generating high quality and clinically relevant images based on a lay person's evaluation and the Fr\'echet Inception Distance (FID) metric.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# ビデオ異常検出のためのパッチ時空間関係予測

Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection ( http://arxiv.org/abs/2403.19111v1 )

ライセンス: Link先を確認
Hao Shen, Lu Shi, Wanru Xu, Yigang Cen, Linna Zhang, Gaoyun An, (参考訳) ビデオ異常検出(VAD)は、特定のコンテキストや時間枠内の異常を識別することを目的としており、インテリジェントなビデオ監視システムにとって不可欠である。 近年の深層学習に基づくVADモデルは高解像度のフレームを生成することによって有望な結果を示したが、ビデオフレームにおける詳細な空間的・時間的コヒーレンスを保存する能力に欠けることが多い。 この問題に対処するために,我々は,パッチ間関係予測タスクを通じて,VADのための自己教師付き学習手法を提案する。 具体的には、映像フレームの深い視覚的特徴を捉え、外観と動きのパターンをモデル化する空間的次元と時間的次元に対処する2分岐型視覚トランスフォーマーネットワークを提案する。 各次元におけるパッチ間関係は、パッチ間の類似性と各パッチの順序情報とに分離される。 メモリ消費を軽減するため、注文情報予測タスクを多ラベル学習問題に変換し、パッチ間類似性予測タスクを距離行列回帰問題に変換する。 総合的な実験により,3つの公開ベンチマークにおいて,画素生成法をはるかに上回り,本手法の有効性を実証した。 さらに,本手法は,他の自己教師型学習手法よりも優れている。

Video Anomaly Detection (VAD), aiming to identify abnormalities within a specific context and timeframe, is crucial for intelligent Video Surveillance Systems. While recent deep learning-based VAD models have shown promising results by generating high-resolution frames, they often lack competence in preserving detailed spatial and temporal coherence in video frames. To tackle this issue, we propose a self-supervised learning approach for VAD through an inter-patch relationship prediction task. Specifically, we introduce a two-branch vision transformer network designed to capture deep visual features of video frames, addressing spatial and temporal dimensions responsible for modeling appearance and motion patterns, respectively. The inter-patch relationship in each dimension is decoupled into inter-patch similarity and the order information of each patch. To mitigate memory consumption, we convert the order information prediction task into a multi-label learning problem, and the inter-patch similarity prediction task into a distance matrix regression problem. Comprehensive experiments demonstrate the effectiveness of our method, surpassing pixel-generation-based methods by a significant margin across three public benchmarks. Additionally, our approach outperforms other self-supervised learning-based methods.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# 予防攻撃の発見:アタッカー契約の特定による爆発的リテナント脆弱性の検出

Uncover the Premeditated Attacks: Detecting Exploitable Reentrancy Vulnerabilities by Identifying Attacker Contracts ( http://arxiv.org/abs/2403.19112v1 )

ライセンス: Link先を確認
Shuo Yang, Jiachi Chen, Mingyuan Huang, Zibin Zheng, Yuan Huang, (参考訳) スマートコントラクトにおける悪名高い脆弱性であるReentrancyは、数百万ドルの損失をもたらしている。 しかし、現在のスマートコントラクトの脆弱性検出ツールは、ルテンシ脆弱性のあるコントラクトを特定する上で、高い偽陽性率に悩まされている。 さらに、検出された再試行契約のごく一部だけが実際にハッカーによって悪用されるため、これらのツールはEthereumエコシステムの現実的な安全性の確保に効果が低い。 本稿では,攻撃者の契約を識別し,永続性の脆弱性を検出するツールであるBlockWatchdogを提案する。 これらの攻撃的契約はハッカーによって展開され、脆弱性のある契約を自動的に悪用する。 攻撃者のコントラクトに注目することで、BlockWatchdogは、再試行的なコールフローを識別することによって、真に悪用可能な再試行脆弱性を効果的に検出する。 さらにBlockWatchdogは、ECCトークンやユーザ定義インターフェースを使用する場合、設計が貧弱なため、現在のルールベースのツールでは検出できない、新たなタイプのレジリエンス脆弱性を検出することができる。 我々は,281件の攻撃インシデントから攻撃契約を分析する実証的研究から得られた攻撃ロジックに基づいて,クロスコントラクションな静的データフロー技術を用いてBlockWatchdogを実装した。 BlockWatchdogは421,889のEthereumコントラクトバイトコードで評価され、159の被害者契約をターゲットとする113のアタッカー契約を特定し、Etherの盗難と約908.6百万USDのトークンに繋がった。 特に159件の被害者契約のうち18件のみが、現在の再侵入検知ツールによって報告できる。

Reentrancy, a notorious vulnerability in smart contracts, has led to millions of dollars in financial loss. However, current smart contract vulnerability detection tools suffer from a high false positive rate in identifying contracts with reentrancy vulnerabilities. Moreover, only a small portion of the detected reentrant contracts can actually be exploited by hackers, making these tools less effective in securing the Ethereum ecosystem in practice. In this paper, we propose BlockWatchdog, a tool that focuses on detecting reentrancy vulnerabilities by identifying attacker contracts. These attacker contracts are deployed by hackers to exploit vulnerable contracts automatically. By focusing on attacker contracts, BlockWatchdog effectively detects truly exploitable reentrancy vulnerabilities by identifying reentrant call flow. Additionally, BlockWatchdog is capable of detecting new types of reentrancy vulnerabilities caused by poor designs when using ERC tokens or user-defined interfaces, which cannot be detected by current rule-based tools. We implement BlockWatchdog using cross-contract static dataflow techniques based on attack logic obtained from an empirical study that analyzes attacker contracts from 281 attack incidents. BlockWatchdog is evaluated on 421,889 Ethereum contract bytecodes and identifies 113 attacker contracts that target 159 victim contracts, leading to the theft of Ether and tokens valued at approximately 908.6 million USD. Notably, only 18 of the identified 159 victim contracts can be reported by current reentrancy detection tools.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# FACTOID:FACtual entailment fOr Hallucination Detection

FACTOID: FACtual enTailment fOr hallucInation Detection ( http://arxiv.org/abs/2403.19113v1 )

ライセンス: Link先を確認
Vipula Rawte, S. M Towhidul Islam Tonmoy, Krishnav Rajbangshi, Shravani Nag, Aman Chadha, Amit P. Sheth, Amitava Das, (参考訳) LLM(Large Language Models)の普及により、多くのメリットがもたらされた。 しかし、幻覚は重要な懸念事項である。 これに対し、レトリーバル拡張生成(RAG)は、実情報に基づいてLLM出力を改善するための、非常に有望なパラダイムとして登場した。 RAGは、検索された文書と比較して、LLMが生成したテキストがサポートされているか、矛盾しているかを確認するために、TE(textual Entailment)または類似の手法に依存している。 本稿では,従来のTE法は,LLMが生成した内容の幻覚の発見に不適切である,と論じる。 例えば、「ウクライナ戦争に対する米国の姿勢」について、一言のプロンプトを考えてみましょう。 バラク・オバマ米大統領は、「米国はウクライナに軍隊を配置しない」と述べたが、戦争中はジョー・バイデン米大統領が事実上の現実と矛盾している。 さらに、現在のTEシステムは、与えられたテキストを正確にアノテートし、矛盾している正確な部分を特定することができない。 これを解決するために、 ``Factual Entailment (FE) と呼ばれる新しいタイプのTEを紹介した。 LLMが生成したコンテンツの事実的不正確性を検出すると同時に、現実に反する特定のテキストセグメントを強調することを目的としている。 FEのベンチマークデータセットであるFACTOID(Factual enTAILment for Hallucination Detection)を提案する。 GPT-3, SpanBERT, RoFormerとともに, e5-mistral-7b-instructsのような最先端(SoTA)のテキスト埋め込みを組み込んだマルチタスク学習(MTL)フレームワークを提案する。 FE のための MTL アーキテクチャは avg を達成する。 FACTOIDの精度はSoTA TE法と比較して40%向上した。 FEは幻覚を自動的に検出するので、15個の近代LCMを評価、提案したオート幻覚脆弱性指数(HVI_auto)を用いて評価した。 この指標は、その幻覚に応じてLSMを評価し、ランク付けするための比較尺度を定量化し、提供する。

The widespread adoption of Large Language Models (LLMs) has facilitated numerous benefits. However, hallucination is a significant concern. In response, Retrieval Augmented Generation (RAG) has emerged as a highly promising paradigm to improve LLM outputs by grounding them in factual information. RAG relies on textual entailment (TE) or similar methods to check if the text produced by LLMs is supported or contradicted, compared to retrieved documents. This paper argues that conventional TE methods are inadequate for spotting hallucinations in content generated by LLMs. For instance, consider a prompt about the 'USA's stance on the Ukraine war''. The AI-generated text states, ...U.S. President Barack Obama says the U.S. will not put troops in Ukraine...'' However, during the war the U.S. president is Joe Biden which contradicts factual reality. Moreover, current TE systems are unable to accurately annotate the given text and identify the exact portion that is contradicted. To address this, we introduces a new type of TE called ``Factual Entailment (FE).'', aims to detect factual inaccuracies in content generated by LLMs while also highlighting the specific text segment that contradicts reality. We present FACTOID (FACTual enTAILment for hallucInation Detection), a benchmark dataset for FE. We propose a multi-task learning (MTL) framework for FE, incorporating state-of-the-art (SoTA) long text embeddings such as e5-mistral-7b-instruct, along with GPT-3, SpanBERT, and RoFormer. The proposed MTL architecture for FE achieves an avg. 40\% improvement in accuracy on the FACTOID benchmark compared to SoTA TE methods. As FE automatically detects hallucinations, we assessed 15 modern LLMs and ranked them using our proposed Auto Hallucination Vulnerability Index (HVI_auto). This index quantifies and offers a comparative scale to evaluate and rank LLMs according to their hallucinations.
翻訳日:2024-03-29 17:32:29 公開日:2024-03-28
# トップリーダーシップランキング = 最高コーディング能力、常に? EvoEval: LLMによるコーディングベンチマークの進化

Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM ( http://arxiv.org/abs/2403.19114v1 )

ライセンス: Link先を確認
Chunqiu Steven Xia, Yinlin Deng, Lingming Zhang, (参考訳) LLMは、コード生成に特化したLLMのトレーニング、開発、使用を指数関数的に増加させ、コード生成タスクの選択肢となりました。 コード上でのLLMの能力を評価するために、学術と産業の両方の実践者は、人気のある手作りベンチマークに依存している。 しかし、以前のベンチマークでは、量と多様性の両方において、非常に限られた問題しか含まない。 さらに、人気と年齢のため、多くのベンチマークはデータ漏洩を起こしやすい。 既存のベンチマークにおけるリーダーボードのパフォーマンスは、LCMのプログラム合成能力を測定するのに十分な信頼性と包括性を持っていますか? この問題を解決するために,既存のベンチマークを異なる対象領域に進化させたプログラム合成ベンチマークスイートであるEvoEvalを導入し,LLM符号化能力を総合的に評価する。 我々は,HumanEvalなどの標準ベンチマークで得られた51 LLMに対して,EvoEvalを用いた場合,性能が著しく低下している(平均39.4%)ことを示す。 加えて、性能の低下は19.6%から47.7%にまで変化し、LCMの大幅なランキング変更と既存のベンチマークの過度な適合を示す結果となった。 さらに、リワードや微妙な変化に遭遇する際の指示追従モデルの脆さや、学習問題の構成と分解の重要性など、様々な知見を提示する。 EvoEvalは包括的なベンチマークを提供するだけでなく、任意の問題を進化させ、コードに対するLLMの進歩と変化し続ける状況に追従するためにも利用できる。 私たちはベンチマーク、ツール、そして完全なLCM世代をhttps://github.com/evo-eval/evoevalでオープンソース化しました。

LLMs have become the go-to choice for code generation tasks, with an exponential increase in the training, development, and usage of LLMs specifically for code generation. To evaluate the ability of LLMs on code, both academic and industry practitioners rely on popular handcrafted benchmarks. However, prior benchmarks contain only a very limited set of problems, both in quantity and variety. Further, due to popularity and age, many benchmarks are prone to data leakage where example solutions can be readily found on the web and thus potentially in training data. Such limitations inevitably lead us to inquire: Is the leaderboard performance on existing benchmarks reliable and comprehensive enough to measure the program synthesis ability of LLMs? To address this, we introduce EvoEval -- a program synthesis benchmark suite created by evolving existing benchmarks into different targeted domains for a comprehensive evaluation of LLM coding abilities. Our study on 51 LLMs shows that compared to the high performance obtained on standard benchmarks like HumanEval, there is a significant drop in performance (on average 39.4%) when using EvoEval. Additionally, the decrease in performance can range from 19.6% to 47.7%, leading to drastic ranking changes amongst LLMs and showing potential overfitting of existing benchmarks. Furthermore, we showcase various insights, including the brittleness of instruction-following models when encountering rewording or subtle changes as well as the importance of learning problem composition and decomposition. EvoEval not only provides comprehensive benchmarks, but can be used to further evolve arbitrary problems to keep up with advances and the ever-changing landscape of LLMs for code. We have open-sourced our benchmarks, tools, and complete LLM generations at https://github.com/evo-eval/evoeval
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# HiRoPE: コードモデルの長さ外挿

HiRoPE: Length Extrapolation for Code Models ( http://arxiv.org/abs/2403.19115v1 )

ライセンス: Link先を確認
Kechi Zhang, Ge Li, Huangzhao Zhang, Zhi Jin, (参考訳) コード関連タスクの大規模言語モデルにおける文脈長の制限に対処することが,本論文の主要な焦点である。 既存のLLMは、事前訓練されたコンテキスト長によって制約され、長い複雑なコードシーケンスを扱う際のパフォーマンス上の問題を引き起こす。 人間のプログラマがどのようにコードをナビゲートするかに触発されて、階層的なロータリー位置埋め込み(HiRoPE)を導入します。 HiRoPEは、追加のトレーニングコストなしで既存のLLMに簡単に統合できる。 提案手法は様々なLLMを用いて広範囲に評価され,言語モデリングや長いコード補完といったタスクにおいて安定した性能を示す。 我々はまた、このコード関連分野におけるさらなる開発を促進するために、現実世界のコードプロジェクトに対して、新しい長いコード理解タスクを導入します。 理論的および実験的に、HiRoPEは位置符号化における分布外問題にも対処する。 我々のHiRoPEは、LLMの文脈長能力を著しく拡張し、トレーニング長よりも指数関数的に大きい長さでの推論を可能にします。

Addressing the limitation of context length in large language models for code-related tasks is the primary focus of this paper. Existing LLMs are constrained by their pre-trained context lengths, leading to performance issues in handling long complex code sequences. Inspired by how human programmers navigate code, we introduce Hierarchical Rotary Position Embedding (HiRoPE), a novel approach that enhances the traditional rotary position embedding into a hierarchical format based on the hierarchical structure of source code. HiRoPE offers easy integration into existing LLMs without extra training costs. Our method is extensively evaluated with various LLMs, demonstrating stable performance in tasks such as language modeling and long code completion. We also introduce a new long code understanding task with real-world code projects, in hopes of promoting further development in this code-related field. Theoretically and experimentally, we find that HiRoPE also addresses the out-of-distribution issue in position encoding. Our HiRoPE significantly expands the context length capabilities of LLMs, enabling inference at lengths exponentially greater than the training length.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# MFORT-QA:マルチホップFew-shot Open Rich Table Question Answering

MFORT-QA: Multi-hop Few-shot Open Rich Table Question Answering ( http://arxiv.org/abs/2403.19116v1 )

ライセンス: Link先を確認
Che Guan, Mengyu Huang, Peng Zhang, (参考訳) 今日の急成長する業界では、専門家は大量の文書を要約し、毎日重要な情報を抽出するという課題に直面している。 これらのメトリクスは、しばしばテーブルやネストしたハイパーリンクに隠されます。 この課題に対処するために、テーブル質問回答(QA)のアプローチを開発し、関連する情報を抽出した。 しかし、質問に対するゴールドセル座標からテーブルと回答を提供する従来のテーブルQAトレーニングタスクは、必ずしも正確な回答を抽出することを保証するとは限らない。 近年のLarge Language Models (LLMs) の進歩により,プロンプトを用いて表データから情報を取り出す新たな可能性が高まっている。 本稿では,MFORT-QA(Multi-hop Few-shot Open Rich Table QA)アプローチを紹介する。 最初のステップはFew-Shot Learning (FSL)で、関連するテーブルとハイパーリンクの関連コンテキストが与えられた質問に基づいて検索される。 検索されたコンテンツは、ChatGPTなどのLLMへの入力として、数発のプロンプトを構築するために使用される。 複雑な質問に答える課題に取り組むために、第2のステップは、複雑な質問を逐次的な質問の連鎖に分解し、マルチホップで思考を推論するように促す、Chain-of-Thought(CoT)を活用する。 Retrieval-Augmented Generation (RAG)は、結果の推論思考や疑問に関連するハイパーリンクの関連テーブルとコンテキストを取得することで、このプロセスを強化する。 これらの追加の文脈は、最初のステップで使われるプロンプトを補うために使用され、その結果 LLM のより正確な答えが得られる。 OTT-QAによる実験結果から,抽出テーブルQA法の精度が大幅に向上することが示唆された。

In today's fast-paced industry, professionals face the challenge of summarizing a large number of documents and extracting vital information from them on a daily basis. These metrics are frequently hidden away in tables and/or their nested hyperlinks. To address this challenge, the approach of Table Question Answering (QA) has been developed to extract the relevant information. However, traditional Table QA training tasks that provide a table and an answer(s) from a gold cell coordinate(s) for a question may not always ensure extracting the accurate answer(s). Recent advancements in Large Language Models (LLMs) have opened up new possibilities for extracting information from tabular data using prompts. In this paper, we introduce the Multi-hop Few-shot Open Rich Table QA (MFORT-QA) approach, which consists of two major steps. The first step involves Few-Shot Learning (FSL), where relevant tables and associated contexts of hyperlinks are retrieved based on a given question. The retrieved content is then used to construct few-shot prompts as inputs to an LLM, such as ChatGPT. To tackle the challenge of answering complex questions, the second step leverages Chain-of-thought (CoT) prompting to decompose the complex question into a sequential chain of questions and reasoning thoughts in a multi-hop manner. Retrieval-Augmented Generation (RAG) enhances this process by retrieving relevant tables and contexts of hyperlinks that are relevant to the resulting reasoning thoughts and questions. These additional contexts are then used to supplement the prompt used in the first step, resulting in more accurate answers from an LLM. Empirical results from OTT-QA demonstrate that our abstractive QA approach significantly improves the accuracy of extractive Table QA methods.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# 非アベリア観測可能幾何位相とリーマン零点

Non-Abelian observable-geometric phases and the Riemann zeros ( http://arxiv.org/abs/2403.19118v1 )

ライセンス: Link先を確認
Zeqian Chen, (参考訳) Hilbert-P\'{o}lya の予想は、リーマンゼータ函数(リーマン零点)の非自明な零点の虚部は自己随伴作用素(物理的意味では量子力学ハミルトニアン)の固有値であると主張する。 通称「SH 2011」。 固有値の代わりに、この論文では観測可能幾何位相を周期的に駆動される量子系におけるリーマン零点の実現とみなす。 この目的のために、リーマン零点を研究する物理系を見つけるためのアプローチを与える非アベリア可観測幾何位相の概念をさらに導入する。 観測可能な幾何学的位相はハイゼンベルク方程式の進化に従って観測可能な空間の幾何学と結びついているので、リーマン予想の研究に光を当てる。

The Hilbert-P\'{o}lya conjecture asserts that the imaginary parts of the nontrivial zeros of the Riemann zeta function (the Riemann zeros) are the eigenvalues of a self-adjoint operator (a quantum mechanical Hamiltonian, in the physical sense), as a promising approach to prove the Riemann hypothesis (cf.\cite{SH2011}). Instead of the eigenvalues, in this paper we consider observable-geometric phases as the realization of the Riemann zeros in a periodically driven quantum system, which were introduced in \cite{Chen2020} for the study of geometric quantum computation. To this end, we further introduce the notion of non-Abelian observable-geometric phases, involving which we give an approach to finding a physical system to study the Riemann zeros. Since the observable-geometric phases are connected with the geometry of the observable space according to the evolution of the Heisenberg equation, this sheds some light on the investigation of the Riemann hypothesis.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# コード大言語モデルのコード比較チューニング

Code Comparison Tuning for Code Large Language Models ( http://arxiv.org/abs/2403.19121v1 )

ライセンス: Link先を確認
Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu, (参考訳) コード比較チューニング(Code Comparison Tuning, CCT)は,コード大言語モデル(Code LLM)の簡易かつ効果的なチューニング手法である。 具体的には、トークンレベルとシーケンスレベルの両方において、比較の概念をインストラクションチューニングに統合し、コード内のわずかなずれでもモデルを識別できるようにする。 元のコードと手動で追加したコードエラーを含む誤ったバージョンを比較するために、トークンレベルの詳細な比較にトークンレベルの優先度損失を用いる。 さらに、コードセグメントを組み合わせて、シーケンスレベルの比較のための新しいインストラクションチューニングサンプルを作成し、モデルのバグ修正機能を強化します。 HumanEvalFix ベンチマークによる実験結果から,CCT はパス@1 スコアの命令チューニングを,多種多様なコード LLM で最大 4 ポイント超えた結果が得られた。

We present Code Comparison Tuning (CCT), a simple and effective tuning method for code large language models (Code LLMs) to better handle subtle code errors. Specifically, we integrate the concept of comparison into instruction tuning, both at the token and sequence levels, enabling the model to discern even the slightest deviations in code. To compare the original code with an erroneous version containing manually added code errors, we use token-level preference loss for detailed token-level comparisons. Additionally, we combine code segments to create a new instruction tuning sample for sequence-level comparisons, enhancing the model's bug-fixing capability. Experimental results on the HumanEvalFix benchmark show that CCT surpasses instruction tuning in pass@1 scores by up to 4 points across diverse code LLMs, and extensive analysis demonstrates the effectiveness of our method.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# PoCo:眼科疾患診断のための極性変換に基づく進行性コントラスト学習による自己監督的アプローチ

PoCo: A Self-Supervised Approach via Polar Transformation Based Progressive Contrastive Learning for Ophthalmic Disease Diagnosis ( http://arxiv.org/abs/2403.19124v1 )

ライセンス: Link先を確認
Jinhong Wang, Tingting Chen, Jintai Chen, Yixuan Wu, Yuyang Xu, Danny Chen, Haochao Ying, Jian Wu, (参考訳) 臨床では眼底画像の自動診断が重要である。 しかし, 複雑な基礎テクスチャと限られた注釈付きデータにより, この問題に対する効果的な自動手法の開発はいまだに困難である。 本稿では,眼科疾患診断のための極変法に基づくプログレッシブコントラスト学習(PoCo)による自己指導手法を提案する。 具体的には、新たに極変換を対照的な学習に注入する。 1) コントラスト学習の事前学習をより速く、より安定させる。 2) 作業自由・回転関連テクスチャを自然に捉え, 根底画像における疾患認識の洞察を提供する。 利点として、変換された画像上の単純な通常の翻訳不変の畳み込みは、原画像上の複雑な回転不変とセクター畳み込みを同等に置き換えることができる。 その後、大規模な無注釈画像を効率的に活用するプログレッシブ・コントラスト学習法と、新しいプログレッシブ・ハード・ネガティブ・サンプリング・スキームを開発し、より効率的なトレーニングと性能向上のために、負のサンプル数を徐々に削減する。 3つのパブリックな眼科疾患データセットに対する広範囲な実験により、PoCoは高度な一般化能力を持つ最先端のパフォーマンスを達成し、アノテーションの労力を減らし、信頼性の高い診断を可能にすることが確認された。 コードは \url{https://github.com/wjh892521292/PoCo} で公開されている。

Automatic ophthalmic disease diagnosis on fundus images is important in clinical practice. However, due to complex fundus textures and limited annotated data, developing an effective automatic method for this problem is still challenging. In this paper, we present a self-supervised method via polar transformation based progressive contrastive learning, called PoCo, for ophthalmic disease diagnosis. Specifically, we novelly inject the polar transformation into contrastive learning to 1) promote contrastive learning pre-training to be faster and more stable and 2) naturally capture task-free and rotation-related textures, which provides insights into disease recognition on fundus images. Beneficially, simple normal translation-invariant convolution on transformed images can equivalently replace the complex rotation-invariant and sector convolution on raw images. After that, we develop a progressive contrastive learning method to efficiently utilize large unannotated images and a novel progressive hard negative sampling scheme to gradually reduce the negative sample number for efficient training and performance enhancement. Extensive experiments on three public ophthalmic disease datasets show that our PoCo achieves state-of-the-art performance with good generalization ability, validating that our method can reduce annotation efforts and provide reliable diagnosis. Codes are available at \url{https://github.com/wjh892521292/PoCo}.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# OmniParser: テキストスポッティング、キー情報抽出、テーブル認識のための統一フレームワーク

OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition ( http://arxiv.org/abs/2403.19128v1 )

ライセンス: Link先を確認
Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang, (参考訳) 近年、自動文書理解の需要が高まり、文書ベースの質問を処理できるジェネレーティブ・大規模言語モデル(LLM)が出現するなど、視覚的なテキスト解析(VsTP)が顕著な進歩を遂げている。 VsTPの課題に対処する様々な手法が提案されている。 しかしながら、多種多様なターゲットと異種スキーマのため、従来の作業は通常、タスク固有のアーキテクチャと個々のタスクの目的を設計します。 本稿では,多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。 具体的には、テキストスポッティング、キー情報抽出、テーブル認識という3つの典型的な視覚的なテキスト解析タスクを同時に処理できるOmniParserと呼ばれるユニバーサルモデルを考案する。 OmniParserでは、全てのタスクが統一エンコーダ-デコーダアーキテクチャ、統一目的:ポイント条件付きテキスト生成、統一インプット/出力表現:プロンプト&構造化シーケンスを共有している。 大規模な実験により、提案されたOmniParserは、統一された簡潔な設計にもかかわらず、3つの視覚的なテキスト解析タスクに対して、7つのデータセットの最先端(SOTA)または高い競争性能を達成することが示された。 コードはhttps://github.com/AlibabaResearch/AdvancedLiterateMachineryで公開されている。

Recently, visually-situated text parsing (VsTP) has experienced notable advancements, driven by the increasing demand for automated document understanding and the emergence of Generative Large Language Models (LLMs) capable of processing document-based questions. Various methods have been proposed to address the challenging problem of VsTP. However, due to the diversified targets and heterogeneous schemas, previous works usually design task-specific architectures and objectives for individual tasks, which inadvertently leads to modal isolation and complex workflow. In this paper, we propose a unified paradigm for parsing visually-situated text across diverse scenarios. Specifically, we devise a universal model, called OmniParser, which can simultaneously handle three typical visually-situated text parsing tasks: text spotting, key information extraction, and table recognition. In OmniParser, all tasks share the unified encoder-decoder architecture, the unified objective: point-conditioned text generation, and the unified input & output representation: prompt & structured sequences. Extensive experiments demonstrate that the proposed OmniParser achieves state-of-the-art (SOTA) or highly competitive performances on 7 datasets for the three visually-situated text parsing tasks, despite its unified, concise design. The code is available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# 統一層を合理化して大言語モデルを圧縮する

Compressing Large Language Models by Streamlining the Unimportant Layer ( http://arxiv.org/abs/2403.19135v1 )

ライセンス: Link先を確認
Xiaodong Chen, Yuxuan Hu, Jing Zhang, (参考訳) 大規模言語モデル(LLM)は様々な自然言語タスクやドメインに広く適用されてきたが、それらの適用性はモデルの多くのパラメータによって制約されている。 その結果、高性能を示すコンパクトモデルに重点が置かれている。 本研究では,LLMの異なる層が隠れた状態に対して摂動の程度が異なることを観察し,より重要でない層を同定する。 そこで,本研究では, 対象の空間に応じて, モデルに最も重要度の高い連続層群を除去する層プルーニングと, プルーニングによる性能劣化を軽減するために軽量モデルを訓練する層置換という2つの部分からなるLCM-Streamlineを提案する。 実験では,マルチ層パーセプトロン (MLP) やトランスフォーマー層などの構造を軽量モデルとして利用し,最終的に単一のMLPが破砕層に効果的に適合できることを実証した。 総合実験により,提案手法のLLM-Streamlineは,従来のSOTAモデルプルーニング法よりも優れた性能を示した。

Large language models (LLM) have been extensively applied in various natural language tasks and domains, but their applicability is constrained by the large number of parameters of the models. Consequently, there is an increasing emphasis on compact models that exhibit high performance. In this study, we observe that different layers in LLM have varying degrees of perturbation on the hidden states, which allows us to identify less important layers. Based on this phenomenon, we propose LLM-Streamline, which consists of two parts: layer pruning, where we remove a set of consecutive layers with the lowest importance in the model according to the target sparsity; and layer replacement, where we train a lightweight model to substitute the pruned layers, thereby mitigating the performance degradation caused by pruning. In our experiments, we utilize structures such as a multi-layer perceptron (MLP) and a transformer layer as lightweight models and ultimately demonstrate that a single MLP can effectively fit the pruned layers. Comprehensive experiments show that our proposed method, LLM-Streamline, outperforms previous state-of-the-art (SOTA) model pruning methods.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# CLAP4CLIP:視覚言語モデルのための確率的微調整による連続学習

CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models ( http://arxiv.org/abs/2403.19137v1 )

ライセンス: Link先を確認
Saurav Jha, Dong Gong, Lina Yao, (参考訳) 継続学習(CL)は、深層ニューラルネットワークが学習内容を保持しながら新しい知識を学ぶのを支援することを目的としている。 近年、CLIPのような強力な一般化能力を持つ事前学習型視覚言語モデルが、実用的なCL候補として注目を集めている。 しかし、事前トレーニングと下流CLタスク間のドメインミスマッチは、後者のCLIPの微調整を要求する。 既存の微調整法の決定論的性質は、モダリティ間の多くの相互作用を見逃し、信頼性の高い不確実性推定を必要とする高リスクCLタスクには安全でないとみなす。 このような問題に対処するため,我々はCLAP(Continuous LeArning with Probabilistic Finetuning)を提案する。 CLAPは、視覚誘導型テキスト機能を備えたタスク固有モジュール上での確率的モデリングを開発し、CLでより信頼性の高い微調整を提供する。 タスク固有のモジュールの重み付け初期化と分散正規化のために、CLIPの豊富な事前訓練された知識を活用することで、忘れを緩和する。 CLAPは、既存のプロンプトメソッドの多様な範囲と連携して、CLとCLIPの主な決定論的微調整アプローチを克服することができる。 最後に,CLAPの精度の高い不確実性推定能力について検討した。 私たちのコードは \url{https://github.com/srvCodes/clap4clip} で利用可能です。

Continual learning (CL) aims to help deep neural networks to learn new knowledge while retaining what has been learned. Recently, pre-trained vision-language models such as CLIP, with powerful generalization ability, have been gaining traction as practical CL candidates. However, the domain mismatch between the pre-training and the downstream CL tasks calls for finetuning of the CLIP on the latter. The deterministic nature of the existing finetuning methods makes them overlook the many possible interactions across the modalities and deems them unsafe for high-risk CL tasks requiring reliable uncertainty estimation. To address these, our work proposes Continual LeArning with Probabilistic finetuning (CLAP). CLAP develops probabilistic modeling over task-specific modules with visual-guided text features, providing more reliable fine-tuning in CL. It further alleviates forgetting by exploiting the rich pre-trained knowledge of CLIP for weight initialization and distribution regularization of task-specific modules. Cooperating with the diverse range of existing prompting methods, CLAP can surpass the predominant deterministic finetuning approaches for CL with CLIP. Lastly, we study the superior uncertainty estimation abilities of CLAP for novel data detection and exemplar selection within CL setups. Our code is available at \url{https://github.com/srvCodes/clap4clip}.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# QNCD:拡散モデルにおける量子化ノイズ補正

QNCD: Quantization Noise Correction for Diffusion Models ( http://arxiv.org/abs/2403.19140v1 )

ライセンス: Link先を確認
Huanpeng Chu, Wei Wu, Chengjie Zang, Kun Yuan, (参考訳) 拡散モデルは画像合成に革命をもたらし、品質と創造性の新しいベンチマークを設定した。 しかし、それらの普及は反復的復調過程において必要となる集中的な計算によって妨げられる。 ポストトレーニング量子化(PTQ)は、サンプリングを加速するソリューションを提供する。 そこで本研究では,サンプリングプロセス中における量子化ノイズの最小化を目的とした量子化ノイズ補正方式(QNCD)を提案する。 我々は、イントラ量子化ノイズとイントラ量子化ノイズの2つの主要な量子化課題を同定する。 イントラ量子化ノイズ(Intra Quantization noise)は、主にresblockモジュールへの埋め込みによって悪化し、アクティベーション量子化範囲を拡張し、各ステップの障害を増大させる。 さらに、量子化間ノイズは、デノナイジングプロセス全体にわたる累積量子化偏差から生じ、データ分布を段階的に変化させる。 QNCDは、量子化ノイズを除去するための埋め込み型特徴平滑化と、量子化ノイズを動的にフィルタリングする効果的な実行時雑音推定モジュールによってこれらに対処する。 本手法は拡散モデルの従来の量子化手法よりも優れており,画像Net(LDM-4)上のW4A8およびW8A8量子化設定において損失のない結果が得られる。 コードは、https://github.com/huanpengchu/QNCDで入手できる。

Diffusion models have revolutionized image synthesis, setting new benchmarks in quality and creativity. However, their widespread adoption is hindered by the intensive computation required during the iterative denoising process. Post-training quantization (PTQ) presents a solution to accelerate sampling, aibeit at the expense of sample quality, extremely in low-bit settings. Addressing this, our study introduces a unified Quantization Noise Correction Scheme (QNCD), aimed at minishing quantization noise throughout the sampling process. We identify two primary quantization challenges: intra and inter quantization noise. Intra quantization noise, mainly exacerbated by embeddings in the resblock module, extends activation quantization ranges, increasing disturbances in each single denosing step. Besides, inter quantization noise stems from cumulative quantization deviations across the entire denoising process, altering data distributions step-by-step. QNCD combats these through embedding-derived feature smoothing for eliminating intra quantization noise and an effective runtime noise estimatiation module for dynamicly filtering inter quantization noise. Extensive experiments demonstrate that our method outperforms previous quantization methods for diffusion models, achieving lossless results in W4A8 and W8A8 quantization settings on ImageNet (LDM-4). Code is available at: https://github.com/huanpengchu/QNCD
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# 機械翻訳のためのトゥル資源

A Tulu Resource for Machine Translation ( http://arxiv.org/abs/2403.19142v1 )

ライセンス: Link先を確認
Manu Narayanan, Noëmi Aepli, (参考訳) 英語・トゥルー語翻訳のための最初の並列データセットを提案する。 トゥル語は南ドラヴィダ語族に分類され、インド南西部の約250万人が話している。 本データセットは,多言語機械翻訳資源FLORES-200に人間の翻訳を統合することで構築される。 さらに,このデータセットを英語-トゥルー語機械翻訳モデルの開発に利用した。 モデルのトレーニングには、関連するSouth Dravidian言語で利用可能なリソースを活用します。 我々は、高リソース言語と低リソース言語との類似性を生かしたトランスファーラーニングアプローチを採用する。 この方法では、ソースとターゲット言語間の並列データがない場合でも機械翻訳システムの訓練が可能であり、低リソース言語における機械翻訳開発において大きな障害を克服することができる。 パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイント(2023年9月)で上回っている。 データセットとコードは、https://github.com/manunarayanan/Tulu-NMT.com/で入手できる。

We present the first parallel dataset for English-Tulu translation. Tulu, classified within the South Dravidian linguistic family branch, is predominantly spoken by approximately 2.5 million individuals in southwestern India. Our dataset is constructed by integrating human translations into the multilingual machine translation resource FLORES-200. Furthermore, we use this dataset for evaluation purposes in developing our English-Tulu machine translation model. For the model's training, we leverage resources available for related South Dravidian languages. We adopt a transfer learning approach that exploits similarities between high-resource and low-resource languages. This method enables the training of a machine translation system even in the absence of parallel data between the source and target language, thereby overcoming a significant obstacle in machine translation development for low-resource languages. Our English-Tulu system, trained without using parallel English-Tulu data, outperforms Google Translate by 19 BLEU points (in September 2023). The dataset and code are available here: https://github.com/manunarayanan/Tulu-NMT.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# 無線資源管理のためのTiny Graph Neural Networks

Tiny Graph Neural Networks for Radio Resource Management ( http://arxiv.org/abs/2403.19143v1 )

ライセンス: Link先を確認
Ahmad Ghasemi, Hossein Pishro-Nik, (参考訳) 効率的な無線資源管理への需要の高まりは、洗練されたコンパクトなニューラルネットワークアーキテクチャの開発を必要としている。 本稿では,Low Rank Message Passing Graph Neural Network (LR-MPGNN) という,無線リソース管理に適した新しい手法を提案する。 LR-MPGNNの基盤は、従来の線形層を低ランク層に置き換える低ランク近似手法の実装である。 この革新的な設計は、モデルのサイズとパラメータの数を大幅に削減する。 提案したLR-MPGNNモデルの性能は, モデルサイズ, パラメータ数, 通信システムの重み付け総和率, 重み行列の固有値分布など, 主要な指標に基づいて評価する。 その結果,LR-MPGNNモデルではモデルサイズが6倍に減少し,モデルパラメータの数を最大98%削減できることがわかった。 性能面では、LR-MPGNNは、元のMPGNNモデルと比較して、正規化された重み付け和率におけるベストケースのシナリオを2%減らし、ロバスト性を示す。 さらに、LR-MPGNNモデルにおける重み行列の固有値の分布はより均一であり、より広い範囲にわたっており、重みの戦略的再分配が示唆されている。

The surge in demand for efficient radio resource management has necessitated the development of sophisticated yet compact neural network architectures. In this paper, we introduce a novel approach to Graph Neural Networks (GNNs) tailored for radio resource management by presenting a new architecture: the Low Rank Message Passing Graph Neural Network (LR-MPGNN). The cornerstone of LR-MPGNN is the implementation of a low-rank approximation technique that substitutes the conventional linear layers with their low-rank counterparts. This innovative design significantly reduces the model size and the number of parameters. We evaluate the performance of the proposed LR-MPGNN model based on several key metrics: model size, number of parameters, weighted sum rate of the communication system, and the distribution of eigenvalues of weight matrices. Our extensive evaluations demonstrate that the LR-MPGNN model achieves a sixtyfold decrease in model size, and the number of model parameters can be reduced by up to 98%. Performance-wise, the LR-MPGNN demonstrates robustness with a marginal 2% reduction in the best-case scenario in the normalized weighted sum rate compared to the original MPGNN model. Additionally, the distribution of eigenvalues of the weight matrices in the LR-MPGNN model is more uniform and spans a wider range, suggesting a strategic redistribution of weights.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# MoDiTalker:高密度トーキングヘッド生成のための運動距離拡散モデル

MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation ( http://arxiv.org/abs/2403.19144v1 )

ライセンス: Link先を確認
Seyeon Kim, Siyoon Jin, Jihye Park, Kihong Kim, Jiyoung Kim, Jisu Nam, Seungryong Kim, (参考訳) 従来のGANベースの音声ヘッド生成モデルは、限られた品質と不安定なトレーニングに悩まされることが多い。 拡散モデルに基づく最近のアプローチは、これらの制限に対処し、忠実性を改善することを目的としている。 しかし、拡散モデルの確率性が高いため、大規模なサンプリング時間や時間的一貫性維持の難しさなど、依然として課題に直面している。 これらの課題を克服するために,MoDiTalker と呼ばれる高品質な音声ヘッド生成のための動き距離拡散モデルを提案する。 本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。 AToMは、オーディオアテンション機構を活用して、微妙な唇の動きを捉えている。 さらに、MToVは効率的な三面体表現を活用することで時間的整合性を高める。 標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。 また,包括的アブレーション研究やユーザスタディの結果も提供する。

Conventional GAN-based models for talking head generation often suffer from limited quality and unstable training. Recent approaches based on diffusion models aimed to address these limitations and improve fidelity. However, they still face challenges, including extensive sampling times and difficulties in maintaining temporal consistency due to the high stochasticity of diffusion models. To overcome these challenges, we propose a novel motion-disentangled diffusion model for high-quality talking head generation, dubbed MoDiTalker. We introduce the two modules: audio-to-motion (AToM), designed to generate a synchronized lip motion from audio, and motion-to-video (MToV), designed to produce high-quality head video following the generated motion. AToM excels in capturing subtle lip movements by leveraging an audio attention mechanism. In addition, MToV enhances temporal consistency by leveraging an efficient tri-plane representation. Our experiments conducted on standard benchmarks demonstrate that our model achieves superior performance compared to existing models. We also provide comprehensive ablation studies and user study results.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# 高等教育におけるゲンAI検出ツール, 副次的手法, インクルーシティの意義

GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education ( http://arxiv.org/abs/2403.19148v1 )

ライセンス: Link先を確認
Mike Perkins, Jasper Roe, Binh H. Vu, Darius Postma, Don Hickerson, James McGaughran, Huy Q. Khuat, (参考訳) 本研究は,これらのツールによる検出を回避した手法を用いて,機械生成コンテンツに対向する6つの主要生成AI(GenAI)テキスト検出器の有効性について検討する(n=805)。 その結果、検知器の既に低い精度(39.5%)は、操作されたコンテンツに直面すると大きな精度(17.4%)の低下を示し、検出を回避するために他の方法よりも効果的であることが証明された。 正確さの限界と偽の告発の可能性は、これらのツールが現在、学術的完全性の違反が発生したかどうかを判断するために推奨できないことを示し、教育者が包括的かつ公正な評価のプラクティスを維持する上で直面する課題を浮き彫りにしている。 しかし, 生徒の学習支援や, 学力の維持に果たす役割を担っていると考えられる。 これらの結果は、これらの新興技術の責任的かつ公平な利用を促進するために、学術におけるGenAIの課題に対処するための統合的なアプローチの必要性を浮き彫りにしている。 この研究は、AIテキスト検出器の現在の制限は、HEにおけるあらゆる実装に批判的なアプローチを必要とし、AIアセスメント戦略の代替となる可能性を強調している、と結論付けている。

This study investigates the efficacy of six major Generative AI (GenAI) text detectors when confronted with machine-generated content that has been modified using techniques designed to evade detection by these tools (n=805). The results demonstrate that the detectors' already low accuracy rates (39.5%) show major reductions in accuracy (17.4%) when faced with manipulated content, with some techniques proving more effective than others in evading detection. The accuracy limitations and the potential for false accusations demonstrate that these tools cannot currently be recommended for determining whether violations of academic integrity have occurred, underscoring the challenges educators face in maintaining inclusive and fair assessment practices. However, they may have a role in supporting student learning and maintaining academic integrity when used in a non-punitive manner. These results underscore the need for a combined approach to addressing the challenges posed by GenAI in academia to promote the responsible and equitable use of these emerging technologies. The study concludes that the current limitations of AI text detectors require a critical approach for any possible implementation in HE and highlight possible alternatives to AI assessment strategies.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# 脳機能結合のためのトポロジカルサイクルグラフ注意ネットワーク

Topological Cycle Graph Attention Network for Brain Functional Connectivity ( http://arxiv.org/abs/2403.19149v1 )

ライセンス: Link先を確認
Jinghan Huang, Nanguang Chen, Anqi Qiu, (参考訳) 本研究は,脳機能グラフ内の機能的バックボーンを記述するための新しいトポロジカルサイクルグラフ注意ネットワーク(CycGAT)を提案する。 まず、グラフ内に独立したサイクルベースを確立し、エッジとの関係をマッピングするサイクルインシデント行列を導入する。 本稿では,サイクル発生行列から導出されるサイクル隣接行列を利用して,サイクル領域内のエッジ信号を具体的にフィルタするサイクルグラフ畳み込みを提案する。 さらに,CycGATのトポロジ的認識を高めるために,エッジ位置エンコーディングの導入によってさらに強化されるアテンション機構を追加することで,サイクルグラフ畳み込みの表現力を強化する。 ABCDのfMRIデータ(n=8765)において,シミュレーションによるCycGATの局所化とその有効性を示し,ベースラインモデルと比較した。 CycGATはこれらのモデルより優れており、一般的な知性に関連する神経回路を理解するのに不可欠である、非常に少ないサイクルを持つ機能的バックボーンを識別する。 私たちのコードは一旦受け入れられるでしょう。

This study, we introduce a novel Topological Cycle Graph Attention Network (CycGAT), designed to delineate a functional backbone within brain functional graph--key pathways essential for signal transmissio--from non-essential, redundant connections that form cycles around this core structure. We first introduce a cycle incidence matrix that establishes an independent cycle basis within a graph, mapping its relationship with edges. We propose a cycle graph convolution that leverages a cycle adjacency matrix, derived from the cycle incidence matrix, to specifically filter edge signals in a domain of cycles. Additionally, we strengthen the representation power of the cycle graph convolution by adding an attention mechanism, which is further augmented by the introduction of edge positional encodings in cycles, to enhance the topological awareness of CycGAT. We demonstrate CycGAT's localization through simulation and its efficacy on an ABCD study's fMRI data (n=8765), comparing it with baseline models. CycGAT outperforms these models, identifying a functional backbone with significantly fewer cycles, crucial for understanding neural circuits related to general intelligence. Our code will be released once accepted.
翻訳日:2024-03-29 17:22:41 公開日:2024-03-28
# ハイブリッド教育における双対BNの理解に向けて

Towards Understanding Dual BN In Hybrid Adversarial Training ( http://arxiv.org/abs/2403.19150v1 )

ライセンス: Link先を確認
Chenshuang Zhang, Chaoning Zhang, Kang Zhang, Axi Niu, Junmo Kim, In So Kweon, (参考訳) バッチ正規化(BN)を相手のトレーニング(AT)に適用すること,特にモデルが敵のサンプルとクリーンなサンプル(ハイブリッド-AT)の両方でトレーニングされている場合,懸念が高まっている。 逆検体とクリーン検体が2つの異なる領域から来ていると仮定すると、先行研究において、BN と BN をそれぞれ逆検体とクリーン検体に使用する Dual BN を採用するのが一般的である。 デュアルBNを動機づけるための一般的な信念は、この混合分布の正規化統計量の推定が困難であり、正規化のためにそれをアンタングすることは強い強靭性を達成するということである。 この信念とは対照的に、モデルトレーニングにおけるアフィンパラメータの解離よりも、解離統計が低い役割を担っていることを明らかにする。 この発見は, 先行研究(Rebuffi et al , 2023)と一致し, さらなる調査に向けた研究が進められている。 逆方向とクリーンなサンプル間の領域ギャップはそれほど大きくなく, モデル精度に対する逆方向の摂動の影響を考えると直感に反する。 さらに,ハイブリッドAT改善のための実証的基礎と統一的な枠組みとして機能する2タスク仮説を提案する。 また,テスト時間におけるDual BNについて検討し,アフィンパラメータが推論時のロバスト性を特徴付けることを明らかにした。 全体として、我々の研究は、Hybrid-ATにおけるDual BNのメカニズムとその基盤となる正当化の理解に新たな光を当てています。

There is a growing concern about applying batch normalization (BN) in adversarial training (AT), especially when the model is trained on both adversarial samples and clean samples (termed Hybrid-AT). With the assumption that adversarial and clean samples are from two different domains, a common practice in prior works is to adopt Dual BN, where BN and BN are used for adversarial and clean branches, respectively. A popular belief for motivating Dual BN is that estimating normalization statistics of this mixture distribution is challenging and thus disentangling it for normalization achieves stronger robustness. In contrast to this belief, we reveal that disentangling statistics plays a less role than disentangling affine parameters in model training. This finding aligns with prior work (Rebuffi et al., 2023), and we build upon their research for further investigations. We demonstrate that the domain gap between adversarial and clean samples is not very large, which is counter-intuitive considering the significant influence of adversarial perturbation on the model accuracy. We further propose a two-task hypothesis which serves as the empirical foundation and a unified framework for Hybrid-AT improvement. We also investigate Dual BN in test-time and reveal that affine parameters characterize the robustness during inference. Overall, our work sheds new light on understanding the mechanism of Dual BN in Hybrid-AT and its underlying justification.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# STaR-GATE: 言語モデルによる質問の明確化

STaR-GATE: Teaching Language Models to Ask Clarifying Questions ( http://arxiv.org/abs/2403.19154v1 )

ライセンス: Link先を確認
Chinmaya Andukuri, Jan-Philipp Fränken, Tobias Gerstenberg, Noah D. Goodman, (参考訳) 言語モデルにタスクを完了するよう促すと、ユーザーはしばしば重要な側面を残します。 質問は、この曖昧さを解決できるが、モデルはしばしば良い質問をするのに苦労する。 我々は、有用な質問を生成するためにモデルに報酬を与えることで、言語モデルの自己改善能力を探る。 25,500のユニークなペルソナタスクからなる合成データセットを生成し、事前訓練された言語モデル -- \texttt{Questioner} と \texttt{Questioner} との会話をシミュレートする。 質問することで、 \texttt{Questioner} は \texttt{Roleplayer} から好みを導き出す。 \texttt{Questioner} は、タスクに対する高品質なレスポンスの確率を増加させる質問に対して反復的に微調整される。 2回の自己改善の後、 \texttt{Questioner} はより良い質問をすることで、タスクの \highlightpink{\textbf{72\%}} の初期モデルからの応答よりも好まれる応答を生成することができる。 以上の結果から,より良い質問をするために言語モデルを教えることで,よりパーソナライズされた回答が得られることが示唆された。

When prompting language models to complete a task, users often leave important aspects unsaid. While asking questions could resolve this ambiguity \citep[GATE;][]{li2023eliciting}, models often struggle to ask good questions. We explore a language model's ability to self-improve \citep[STaR;][]{zelikman2022star} by rewarding the model for generating useful questions -- a simple method we dub STaR-GATE. We generate a synthetic dataset of 25,500 unique persona-task prompts to simulate conversations between a pretrained language model -- the \texttt{Questioner} -- and a \texttt{Roleplayer} whose preferences are unknown to the \texttt{Questioner}. By asking questions, the \texttt{Questioner} elicits preferences from the \texttt{Roleplayer}. The \texttt{Questioner} is iteratively finetuned on questions that increase the probability of high-quality responses to the task, which are generated by an \texttt{Oracle} with access to the \texttt{Roleplayer}'s latent preferences. After two iterations of self-improvement, the \texttt{Questioner} asks better questions, allowing it to generate responses that are preferred over responses from the initial model on \highlightpink{\textbf{72\%}} of tasks. Our results indicate that teaching a language model to ask better questions leads to better personalized responses.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 双方向QKDにおける情報外乱トレードオフ

Information Disturbance Tradeoff in Bidirectional QKD ( http://arxiv.org/abs/2403.19156v1 )

ライセンス: Link先を確認
Nur Rahimah Sakinah Abdul Salam, Jesni Shamsul Shaari, Stefano Mancini, (参考訳) Quantum Networkformism of \textit{Phys。 A,} \textbf{82} (2010) 062305 では、有限結果を持つ量子ネットワークについて、より具体的には、演算子に対して与えられた基底において特定のユニタリ作用素のみを区別できるようなケースを提示する。 その単純さにもかかわらず、私たちは \textit{Phys.} の最適戦略から導かれたネットワークを構築します。 A,} \textbf{82} (2010) 062305 そして、互いに偏りのないユニタリベースから選択された2つのキュービット上の演算子を区別する情報分散トレードオフが、ハール測度に基づいてSU($2$)の集合からランダムに選択された演算子を推定する場合と等しいことを示す。 これは、相互に偏った作用素を区別するそのような戦略は、無限集合から導かれる作用素を推定するよりも容易ではないことを示唆している。 次に、このネットワークが双方向量子暗号プロトコルに対する自然な攻撃戦略としてどのように使用できるかを示す。

Making use of the Quantum Network formalism of \textit{Phys. Rev. A,} \textbf{82} (2010) 062305, we present the case for quantum networks with finite outcomes, more specifically one which could distinguish only between specific unitary operators in a given basis for operators. Despite its simplicity, we proceed to build a network derived from the optimal strategy in \textit{Phys. Rev. A,} \textbf{82} (2010) 062305 and show that the information-disturbance tradeoff in distinguishing between two operators acting on qubits, selected from mutually unbiased unitary bases is equal to the case of estimating an operator selected randomly from the set of SU($2$) based on the Haar measure. This suggests that such strategies in distinguishing between mutually unbiased operators is not any easier than estimating an operator derived from an infinite set. We then show how this network can be used as a natural attack strategy against a bidirectional quantum cryptographic protocol.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# アンサンブルによる不確かさを意識したディープビデオ圧縮

Uncertainty-Aware Deep Video Compression with Ensembles ( http://arxiv.org/abs/2403.19158v1 )

ライセンス: Link先を確認
Wufei Ma, Jiahao Li, Bin Li, Yan Lu, (参考訳) ディープラーニングベースのビデオ圧縮は難しい課題であり、従来の最先端の学習ベースのビデオコーデックの多くは、連続するフレーム間の時間的相関を利用して、残差を圧縮するために光フローを使用している。 これらの2段階モデルはエンドツーエンドに最適化されているが、運動推定におけるエピステマティックな不確かさと量子化操作からのアレタリックな不確かさは、中間表現の誤りを招き、再構成されたフレームにアーティファクトを導入する。 この固有の欠陥は、より高いビットレートの節約の可能性を制限する。 この問題に対処するために,深いアンサンブルで予測不確実性を効果的に把握できる不確実性対応ビデオ圧縮モデルを提案する。 さらに,アンサンブル・アウェア・ロスを導入し,アンサンブル・メンバ間の多様性を促進するとともに,映像圧縮作業に対人訓練を取り入れることのメリットを検討する。 1080pでの実験結果から,本モデルはDVC Proと比較して20%以上効率良くビットを節約できることがわかった。

Deep learning-based video compression is a challenging task, and many previous state-of-the-art learning-based video codecs use optical flows to exploit the temporal correlation between successive frames and then compress the residual error. Although these two-stage models are end-to-end optimized, the epistemic uncertainty in the motion estimation and the aleatoric uncertainty from the quantization operation lead to errors in the intermediate representations and introduce artifacts in the reconstructed frames. This inherent flaw limits the potential for higher bit rate savings. To address this issue, we propose an uncertainty-aware video compression model that can effectively capture the predictive uncertainty with deep ensembles. Additionally, we introduce an ensemble-aware loss to encourage the diversity among ensemble members and investigate the benefits of incorporating adversarial training in the video compression task. Experimental results on 1080p sequences show that our model can effectively save bits by more than 20% compared to DVC Pro.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 直接選好最適化における品質から遠ざかる長さ

Disentangling Length from Quality in Direct Preference Optimization ( http://arxiv.org/abs/2403.19159v1 )

ライセンス: Link先を確認
Ryan Park, Rafael Rafailov, Stefano Ermon, Chelsea Finn, (参考訳) RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。 しかしながら、RLHFは、冗長性のような人間の嗜好のバイアスを悪用することが知られている。 十分に構造化され、雄弁な答えは、ユーザによってより高く評価されることが多い。 古典的RLHF文学におけるこれらのバイアスを制御するために、いくつかのアプローチが開発されているが、直接選好最適化(DPO)のような直列アライメントアルゴリズムでは、この問題は比較的未検討のままである。 古典的なRLHFとは異なり、DPOは個別の報酬モデルや強化学習を直接訓練しないため、冗長性を制御するために開発された従来のアプローチは、この設定に直接適用できない。 私たちの仕事はいくつかの貢献をしている。 筆者らはDPO設定における長さ問題について初めて検討し,DPOの大幅な活用とアウト・オブ・ディストリビューション・ブートストラップの関連性を示した。 次に、モデル品質の改善を維持しながら、長さの悪用を防ぐ、原則的だが単純な正規化戦略を開発する。 GPT4審査員のよく知られた冗長性バイアスにも拘わらず、これらの効果が要約と対話におけるデータセット間で示され、長さ制御時の勝利率を最大20倍向上させる。

Reinforcement Learning from Human Feedback (RLHF) has been a crucial component in the recent success of Large Language Models. However, RLHF is know to exploit biases in human preferences, such as verbosity. A well-formatted and eloquent answer is often more highly rated by users, even when it is less helpful and objective. A number of approaches have been developed to control those biases in the classical RLHF literature, but the problem remains relatively under-explored for Direct Alignment Algorithms such as Direct Preference Optimization (DPO). Unlike classical RLHF, DPO does not train a separate reward model or use reinforcement learning directly, so previous approaches developed to control verbosity cannot be directly applied to this setting. Our work makes several contributions. For the first time, we study the length problem in the DPO setting, showing significant exploitation in DPO and linking it to out-of-distribution bootstrapping. We then develop a principled but simple regularization strategy that prevents length exploitation, while still maintaining improvements in model quality. We demonstrate these effects across datasets on summarization and dialogue, where we achieve up to 20\% improvement in win rates when controlling for length, despite the GPT4 judge's well-known verbosity bias.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 動的コンテキスト内:詩列を用いた慣性認識型3次元人体モデリング

Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence ( http://arxiv.org/abs/2403.19160v1 )

ライセンス: Link先を確認
Yutong Chen, Yifan Zhan, Zhihang Zhong, Wei Wang, Xiao Sun, Yu Qiao, Yinqiang Zheng, (参考訳) ニューラルレンダリング技術は、3次元の人体モデリングを著しく進歩させた。 しかし、従来のアプローチでは、運動慣性などの要因によって引き起こされるダイナミクスを見落とし、回転後の突然停止のようなシナリオでは、ポーズが変化しながら静止している。 この制限は、1つのポーズを条件入力として依存することから生じ、1つのポーズを複数の外観にマッピングするあいまいさをもたらす。 本研究では、現在のフレームのポーズ状態だけでなく、過去のポーズ状態にも人間の外観の変化が依存していることを明らかにする。 そこで本稿では,非剛性変形と標準空間にデルタポーズシーケンス表現を応用し,時間変動を効果的にモデル化するDycoを提案する。 新たなポーズに対するモデルの一般化能力の低下を防止するため、不要なボディ間の依存関係を減らすための低次元グローバルコンテキストと、モデルによるデルタポーズシーケンスのオーバーフィッティングを軽減するための量子化操作を提案する。 I3D-Human という新しいデータセットを収集し,衣服の外観の時間的変化を近似的なポーズで捉えた。 I3D-Humanおよび既存のデータセットに関する広範な実験を通じて,本手法は質的かつ定量的な性能を示す。 さらに, 慣性を考慮した3次元人間の手法は, 異なる速度での慣性による外観変化を前例なくシミュレートすることができる。

Neural rendering techniques have significantly advanced 3D human body modeling. However, previous approaches often overlook dynamics induced by factors such as motion inertia, leading to challenges in scenarios like abrupt stops after rotation, where the pose remains static while the appearance changes. This limitation arises from reliance on a single pose as conditional input, resulting in ambiguity in mapping one pose to multiple appearances. In this study, we elucidate that variations in human appearance depend not only on the current frame's pose condition but also on past pose states. Therefore, we introduce Dyco, a novel method utilizing the delta pose sequence representation for non-rigid deformations and canonical space to effectively model temporal appearance variations. To prevent a decrease in the model's generalization ability to novel poses, we further propose low-dimensional global context to reduce unnecessary inter-body part dependencies and a quantization operation to mitigate overfitting of the delta pose sequence by the model. To validate the effectiveness of our approach, we collected a novel dataset named I3D-Human, with a focus on capturing temporal changes in clothing appearance under approximate poses. Through extensive experiments on both I3D-Human and existing datasets, our approach demonstrates superior qualitative and quantitative performance. In addition, our inertia-aware 3D human method can unprecedentedly simulate appearance changes caused by inertia at different velocities.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# ベトナム語・英語医療機械翻訳の改善

Improving Vietnamese-English Medical Machine Translation ( http://arxiv.org/abs/2403.19161v1 )

ライセンス: Link先を確認
Nhu Vo, Dat Quoc Nguyen, Dung D. Le, Massimo Piccardi, Wray Buntine, (参考訳) 医学領域におけるベトナム語英語の機械翻訳は、まだ探索されていない研究領域である。 本稿では,約360Kの文対からなる医用領域に特化して構築された,高品質なベトナム語並列データセットであるMedEVを紹介する。 我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。 実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。 さらなる研究を促進するために、データセットを公開しています。

Machine translation for Vietnamese-English in the medical domain is still an under-explored research area. In this paper, we introduce MedEV -- a high-quality Vietnamese-English parallel dataset constructed specifically for the medical domain, comprising approximately 360K sentence pairs. We conduct extensive experiments comparing Google Translate, ChatGPT (gpt-3.5-turbo), state-of-the-art Vietnamese-English neural machine translation models and pre-trained bilingual/multilingual sequence-to-sequence models on our new MedEV dataset. Experimental results show that the best performance is achieved by fine-tuning "vinai-translate" for each translation direction. We publicly release our dataset to promote further research.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# D'OH: 暗黙のニューラル表現のためのデコーダ専用ランダムハイパーネット

D'OH: Decoder-Only random Hypernetworks for Implicit Neural Representations ( http://arxiv.org/abs/2403.19163v1 )

ライセンス: Link先を確認
Cameron Gordon, Lachlan Ewen MacDonald, Hemanth Saratchandran, Simon Lucey, (参考訳) 深い暗黙の関数は、自然信号のあらゆる種類を効率的に符号化する有効なツールであることがわかった。 その魅力は、オフラインのトレーニングデータをほとんど、あるいは全く持たずに、コンパクトに信号を表現できる能力に起因している。 その代わりに、ディープネットワークの暗黙のバイアスを利用して、信号内に隠された冗長性を分離する。 本稿では,層間に存在する冗長性を活用することにより,付加的な圧縮を実現することができるという仮説を考察する。 我々は、この層間パラメータ冗長性をモデル化するために、新しい実行時デコーダのみのハイパーネットワーク - オフライントレーニングデータを使用しない - を使うことを提案する。 深い暗黙の関数を持つハイパーネットワークのこれまでの応用は、トレーニングされた信号以外に一般化しない大規模なオフラインデータセットに依存するフィードフォワードエンコーダ/デコーダフレームワークを適用している。 代わりに、Decoder-Only randomly Projected Hypernetwork (D'OH) を用いて、単一インスタンス信号に対する実行時の深い暗黙関数の初期化戦略を示す。 潜在符号の次元を直接変更して対象の暗黙的ニューラルアーキテクチャを近似することにより、代替の低レート構造の空間上でのニューラルアーキテクチャ探索を犠牲にすることなく、ニューラル表現のメモリフットプリントを変更する自然な方法を提供する。

Deep implicit functions have been found to be an effective tool for efficiently encoding all manner of natural signals. Their attractiveness stems from their ability to compactly represent signals with little to no off-line training data. Instead, they leverage the implicit bias of deep networks to decouple hidden redundancies within the signal. In this paper, we explore the hypothesis that additional compression can be achieved by leveraging the redundancies that exist between layers. We propose to use a novel run-time decoder-only hypernetwork - that uses no offline training data - to better model this cross-layer parameter redundancy. Previous applications of hyper-networks with deep implicit functions have applied feed-forward encoder/decoder frameworks that rely on large offline datasets that do not generalize beyond the signals they were trained on. We instead present a strategy for the initialization of run-time deep implicit functions for single-instance signals through a Decoder-Only randomly projected Hypernetwork (D'OH). By directly changing the dimension of a latent code to approximate a target implicit neural architecture, we provide a natural way to vary the memory footprint of neural representations without the costly need for neural architecture search on a space of alternative low-rate structures.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# RecDiffusion:拡散モデルによる画像ストッチングのための矩形化

RecDiffusion: Rectangling for Image Stitching with Diffusion Models ( http://arxiv.org/abs/2403.19164v1 )

ライセンス: Link先を確認
Tianhao Zhou, Haipeng Li, Ziyi Wang, Ao Luo, Chen-Lin Zhang, Jiajun Li, Bing Zeng, Shuaicheng Liu, (参考訳) 異なるキャプチャーから画像を縫い合わせると、しばしば正方でない境界線が生じる。 非矩形境界を解決するために、現在のソリューションは、画像内容を捨てる収穫法、無関係なコンテンツを導入できる塗装法、非直線的特徴を歪ませ、アーティファクトを導入することのできるワープを含む。 これらの課題を克服するために、画像縫合整形のための新しい拡散学習フレームワークである \textbf{RecDiffusion} を導入する。 このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。 画像詳細精細化のためのコンテンツ拡散モデル(CDM)による追従。 特に,本プロセスでは重み付きマップを用いて,CDMの各イテレーションで補正が必要な領域を特定する。 我々のRecDiffusionは幾何的精度と全体的な視覚的魅力を保証し、公的なベンチマークで評価した場合の量的および質的な測定において、過去のすべての手法を上回ります。 コードはhttps://github.com/lhaippp/RecDiffusion.comで公開されている。

Image stitching from different captures often results in non-rectangular boundaries, which is often considered unappealing. To solve non-rectangular boundaries, current solutions involve cropping, which discards image content, inpainting, which can introduce unrelated content, or warping, which can distort non-linear features and introduce artifacts. To overcome these issues, we introduce a novel diffusion-based learning framework, \textbf{RecDiffusion}, for image stitching rectangling. This framework combines Motion Diffusion Models (MDM) to generate motion fields, effectively transitioning from the stitched image's irregular borders to a geometrically corrected intermediary. Followed by Content Diffusion Models (CDM) for image detail refinement. Notably, our sampling process utilizes a weighted map to identify regions needing correction during each iteration of CDM. Our RecDiffusion ensures geometric accuracy and overall visual appeal, surpassing all previous methods in both quantitative and qualitative measures when evaluated on public benchmarks. Code is released at https://github.com/lhaippp/RecDiffusion.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 医療のための機械学習における公平な特徴選択の評価

Evaluating Fair Feature Selection in Machine Learning for Healthcare ( http://arxiv.org/abs/2403.19165v1 )

ライセンス: Link先を確認
Md Rahat Shahriar Zawad, Peter Washington, (参考訳) 医療における機械学習の普遍的な採用により、社会的偏見の自動化が健康格差をさらに悪化させる可能性は大きなリスクをもたらす。 特徴選択の観点からアルゴリズム的公正性を探究する。 従来の特徴選択手法は、リソース集約的、相関的、あるいは非関連的な特徴を除去することで、より良い意思決定のための特徴を特定するが、これらの要因がサブグループ間でどのように異なるかを見落としている。 これらの問題に対処するために、全ての人口集団に等しく重要と考えられる公平な特徴選択法を評価する。 我々は, 偏差と大域的分類誤差の最小化のバランスを確保するため, 特徴選択プロセスにおける公平度測定と誤差測定を共同で検討した。 当社のアプローチを、公開可能な3つの医療データセットでテストしました。 これら3つのデータセットにおいて,バランスの取れた精度の最小化とともに,公平度指標の改善が観察された。 本手法は、公正な機械学習コンテキストにおける分配性と手続き的公正性の両方に対処する。

With the universal adoption of machine learning in healthcare, the potential for the automation of societal biases to further exacerbate health disparities poses a significant risk. We explore algorithmic fairness from the perspective of feature selection. Traditional feature selection methods identify features for better decision making by removing resource-intensive, correlated, or non-relevant features but overlook how these factors may differ across subgroups. To counter these issues, we evaluate a fair feature selection method that considers equal importance to all demographic groups. We jointly considered a fairness metric and an error metric within the feature selection process to ensure a balance between minimizing both bias and global classification error. We tested our approach on three publicly available healthcare datasets. On all three datasets, we observed improvements in fairness metrics coupled with a minimal degradation of balanced accuracy. Our approach addresses both distributive and procedural fairness within the fair machine learning context.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 選択フィルタリングによるミスリーディング・チェーン・オブ・サート推論の軽減

Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering ( http://arxiv.org/abs/2403.19167v1 )

ライセンス: Link先を確認
Yexin Wu, Zhuosheng Zhang, Hai Zhao, (参考訳) 大規模言語モデルは、ステップバイステップの推論チェーンを通じて複雑な質問を解決するために、チェーン・オブ・シント(CoT)推論技術を活用することで、目覚ましい能力を示した。 その成功にもかかわらず、このような推論の有効性は本質的にCoTの品質に依存している。 しかし、CoT推論の欠陥は、分解不能な質問の存在と、特に小規模言語モデルの場合、誤った推論チェーンの可能性のために保証できない。 この課題に対処するために,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。 次に、推論チェーンが信頼を示すとき、CoT推論を進めます。 SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。 コードは \texttt{https://github.com/LibroWu/SelF-Reasoner} で入手できる。

Large language models have manifested remarkable capabilities by leveraging chain-of-thought (CoT) reasoning techniques to solve intricate questions through step-by-step reasoning chains. Despite its success, the efficacy of such reasoning is inherently contingent upon the quality of CoT. However, flawless CoT reasoning cannot be guaranteed due to the presence of indecomposable questions and the potential for erroneous reasoning chains, particularly in the case of small-scale language models. To tackle this challenge, we propose a novel approach called the selective filtering reasoner (SelF-Reasoner) that assesses the entailment relationship between the question and the candidate reasoning chain. Then, we proceed with CoT reasoning when the reasoning chain demonstrates confidence; otherwise, we opt to predict the answer directly. SelF-Reasoner improves the fine-tuned T5 baseline consistently over the ScienceQA, ECQA, and LastLetter tasks. Code is available at \texttt{https://github.com/LibroWu/SelF-Reasoner}.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# マルチフォールトプログラムのためのマイニングバグリポジトリ

Mining Bug Repositories for Multi-Fault Programs ( http://arxiv.org/abs/2403.19171v1 )

ライセンス: Link先を確認
Dylan Callaghan, Bernd Fischer, (参考訳) Defects4JやBugsInPyのような実際のソフトウェアプロジェクトのバグを含むデータセットは、自動デバッグツールの現実的な評価に必要である。 実際のソフトウェアプロジェクト(Defects4JやBugsInPyで使用されているものを含む)には、通常は複数のバグが同時に含まれている。 この制限を解除し、個々のエントリで複数のバグが識別されるデータセットの拡張を記述します。 テストケースの移植とフォールトロケーションの翻訳をそれぞれ使用して,バグの公開と発見を行います。 これにより、実際のソフトウェアプロジェクトにおいて、元のデータセットの特性とユーザビリティを維持するために、真のマルチフォールトバージョンのデータセットを提供する。

Datasets such as Defects4J and BugsInPy that contain bugs from real-world software projects are necessary for a realistic evaluation of automated debugging tools. However these datasets largely identify only a single bug in each entry, while real-world software projects (including those used in Defects4J and BugsInPy) typically contain multiple bugs at the same time. We lift this limitation and describe an extension to these datasets in which multiple bugs are identified in individual entries. We use test case transplantation and fault location translation, in order to expose and locate the bugs, respectively. We thus provide datasets of true multi-fault versions within real-world software projects, which maintain the properties and usability of the original datasets.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 任意の純および混合量子状態の混合と調製のための量子回路設計

Quantum circuit design for mixture and preparation of arbitrary pure and mixed quantum states ( http://arxiv.org/abs/2403.19172v1 )

ライセンス: Link先を確認
Bo-Hung Chen, Dah-Wei Chiou, Jie-Hong Roland Jiang, (参考訳) 本稿では、純状態と比較して広く研究されていない領域である任意の混合量子状態を作成することの課題に対処する。 2つの回路設計法が提示され、1つは純状態の混合によるものであり、もう1つは精製によるものである。 コレスキー分解を利用した新しい手法が提案され、前処理時の計算効率と回路効率を両立させ、特にターゲット密度行列が低ランクまたはスパースである場合に顕著な利点をもたらす。 また, 不完全コレスキー分解としきい値降下を利用して, ターゲット密度行列の高忠実度近似を生成することにより, 軽度忠実度損失のコストに対して, 実質的な効率向上を実現する方法を提案する。 さらに、密接に関連する問題として、「超越定理」(no-superposing theorem) を証明している: ある任意の未知の純粋状態が入力として与えられたとき、ある係数を除くすべての係数が消えない限り、入力状態の重ね合わせとして出力状態を生成する演算を考案することは不可能である。

This paper addresses the challenge of preparing arbitrary mixed quantum states, an area that has not been extensively studied compared to pure states. Two circuit design methods are presented: one via a mixture of pure states and the other via purification. A novel strategy utilizing the Cholesky decomposition is proposed to improve both computational efficiency during preprocessing and circuit efficiency in the resulting circuits, offering significant advantages, especially when the targeted density matrix is low-ranked or sparse. By leveraging the incomplete Cholesky decomposition with threshold dropping, we also propose an appealing strategy for generating a high-fidelity approximation of the targeted density matrix, enabling substantial efficiency enhancement at the cost of mild fidelity loss. Additionally, as a closely related issue, we prove the "no-superposing theorem": given a certain number of arbitrary unknown pure states as input, it is impossible to devise an operation that produces an output state as the superposition of the input states with predefined coefficients unless all but one of the coefficients vanish.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 物体検出を用いたアート探索のアルゴリズム

Algorithmic Ways of Seeing: Using Object Detection to Facilitate Art Exploration ( http://arxiv.org/abs/2403.19174v1 )

ライセンス: Link先を確認
Louie Søs Meyer, Johanne Engel Aaen, Anitamalina Regitse Tranberg, Peter Kun, Matthias Freiberger, Sebastian Risi, Anders Sundnes Løvlie, (参考訳) この論文は、オブジェクト検出が大規模なデジタル美術館コレクションにどのように適用され、アートに遭遇し、経験する新しい方法を促進するかを研究する。 SMKExploreと呼ばれるインタラクティブなアプリケーションの設計と評価を行い、画像から検出されたオブジェクトを閲覧することで美術館のデジタル絵画コレクションを探索することを可能にする。 コントリビューションは3つです。 まず,物体検出パイプラインを視覚探索のための設計プロセスに統合する方法を示す。 第2に,美術館のコレクションを探索するアプリの設計と開発について述べる。 第3に,博物館やHCI研究者がオブジェクト検出技術を博物館のデジタル化に取り入れる可能性について考察する。

This Research through Design paper explores how object detection may be applied to a large digital art museum collection to facilitate new ways of encountering and experiencing art. We present the design and evaluation of an interactive application called SMKExplore, which allows users to explore a museum's digital collection of paintings by browsing through objects detected in the images, as a novel form of open-ended exploration. We provide three contributions. First, we show how an object detection pipeline can be integrated into a design process for visual exploration. Second, we present the design and development of an app that enables exploration of an art museum's collection. Third, we offer reflections on future possibilities for museums and HCI researchers to incorporate object detection techniques into the digitalization of museums.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 各種ターゲットを用いた医用画像分割における情報損失の再考

Rethinking Information Loss in Medical Image Segmentation with Various-sized Targets ( http://arxiv.org/abs/2403.19177v1 )

ライセンス: Link先を確認
Tianyi Liu, Zhaorui Tan, Kaizhu Huang, Haochuan Jiang, (参考訳) 医用画像のセグメンテーションは、様々な大きさのターゲットをセグメンテーションすることの難しさを示し、ローカル情報とグローバル情報の両方を効果的に捉えるようモデルに要求する。 近年、CNNやViTを使ってさまざまなスケールのアノテーションを予測しているが、これらのアプローチは、さまざまなサイズのターゲットの検出を効果的にバランスをとるのに苦労することが多い。 CNNからのローカル情報とViTからのグローバルな関係を、潜在特徴分布の潜在的なばらつきを考慮せずに簡単に利用すれば、かなりの情報損失をもたらす可能性がある。 この問題に対処するため,本稿では,新しいStagger Network(SNet)を導入し,CNNとViT間の遅延特徴分布の分散を緩和し,情報損失を低減できる,と論じる。 具体的には、グローバルな依存関係とローカルなフォーカスの両方を強調するために、セマンティックギャップを埋めるパラレルモジュールを設計します。 一方、よりセマンティックに類似した選択された機能を融合させようとするStagger Moduleを提案する。 さらに、補完的な情報をネットワークに戻すために、情報回復モジュールが採用されている。 重要な貢献として,提案手法が情報損失を減らし,SNetの論理的根拠を証明できることを理論的に分析した。 実験の結果,提案したSNetは,ターゲットが多種多様であるSynapseデータセットのセグメント化において,最近のSOTAと比較的に優れていることがわかった。 さらに、ターゲットがより一貫した次元を持つACDCとMoNuSegデータセットの優位性も示している。

Medical image segmentation presents the challenge of segmenting various-size targets, demanding the model to effectively capture both local and global information. Despite recent efforts using CNNs and ViTs to predict annotations of different scales, these approaches often struggle to effectively balance the detection of targets across varying sizes. Simply utilizing local information from CNNs and global relationships from ViTs without considering potential significant divergence in latent feature distributions may result in substantial information loss. To address this issue, in this paper, we will introduce a novel Stagger Network (SNet) and argues that a well-designed fusion structure can mitigate the divergence in latent feature distributions between CNNs and ViTs, thereby reducing information loss. Specifically, to emphasize both global dependencies and local focus, we design a Parallel Module to bridge the semantic gap. Meanwhile, we propose the Stagger Module, trying to fuse the selected features that are more semantically similar. An Information Recovery Module is further adopted to recover complementary information back to the network. As a key contribution, we theoretically analyze that the proposed parallel and stagger strategies would lead to less information loss, thus certifying the SNet's rationale. Experimental results clearly proved that the proposed SNet excels comparisons with recent SOTAs in segmenting on the Synapse dataset where targets are in various sizes. Besides, it also demonstrates superiority on the ACDC and the MoNuSeg datasets where targets are with more consistent dimensions.
翻訳日:2024-03-29 17:12:54 公開日:2024-03-28
# 分散ネットワークにおける信頼とプライバシの強化 - ブロックチェーンベースのフェデレーション学習に関する包括的調査

Enhancing Trust and Privacy in Distributed Networks: A Comprehensive Survey on Blockchain-based Federated Learning ( http://arxiv.org/abs/2403.19178v1 )

ライセンス: Link先を確認
Ji Liu, Chunlu Chen, Yu Li, Lin Sun, Yulun Song, Jingbo Zhou, Bo Jing, Dejing Dou, (参考訳) 集中型サーバは単一障害点となるリスクがあるが、ブロックチェーンのような分散化されたアプローチは、複数のエンティティ間でコンセンサスメカニズムを実装することで、魅力的なソリューションを提供する。 分散コンピューティングと暗号技術を組み合わせることで、分散技術は新たなコンピューティングパラダイムを導入する。 ブロックチェーンは、ネットワークノード間のコンセンサスによるトランザクションの検証と記録によって、セキュアで透明で、不正なデータ管理を保証する。 分散機械学習フレームワークであるフェデレートラーニング(FL)は、参加者が直接の生データ交換を避けてデータのプライバシを保護しながら、協力的にモデルをトレーニングすることを可能にする。 分散化手法への関心は高まっているが、FLでの応用はいまだに未定である。 本稿では、ブロックチェーンのセキュリティ機能とFLのプライバシ保護モデルトレーニング機能との相乗効果に注目し、ブロックチェーンベースのFL(BCFL)を徹底的に調査する。 まず、分散化されたネットワークと評価に基づくアーキテクチャの3つの側面からBCFLの分類について述べる。 次に、BCFLシステムの一般的なアーキテクチャを要約し、ブロックチェーンによって通知されるFLアーキテクチャに関する包括的な視点を提供する。 その後、医療、IoT、その他のプライバシーに敏感な分野におけるBCFLの応用を分析します。 最後に,BCFLの今後の研究方向性を明らかにする。

While centralized servers pose a risk of being a single point of failure, decentralized approaches like blockchain offer a compelling solution by implementing a consensus mechanism among multiple entities. Merging distributed computing with cryptographic techniques, decentralized technologies introduce a novel computing paradigm. Blockchain ensures secure, transparent, and tamper-proof data management by validating and recording transactions via consensus across network nodes. Federated Learning (FL), as a distributed machine learning framework, enables participants to collaboratively train models while safeguarding data privacy by avoiding direct raw data exchange. Despite the growing interest in decentralized methods, their application in FL remains underexplored. This paper presents a thorough investigation into Blockchain-based FL (BCFL), spotlighting the synergy between blockchain's security features and FL's privacy-preserving model training capabilities. First, we present the taxonomy of BCFL from three aspects, including decentralized, separate networks, and reputation-based architectures. Then, we summarize the general architecture of BCFL systems, providing a comprehensive perspective on FL architectures informed by blockchain. Afterward, we analyze the application of BCFL in healthcare, IoT, and other privacy-sensitive areas. Finally, we identify future research directions of BCFL.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 大きな言語モデルをより良いランク付けに

Make Large Language Model a Better Ranker ( http://arxiv.org/abs/2403.19181v1 )

ライセンス: Link先を確認
Wenshuo Chao, Zhi Zheng, Hengshu Zhu, Hao Liu, (参考訳) LLM(Large Language Models)の進化は、様々な分野にわたって大幅に拡張され、Recommender Systems(RS)の概念化と発展のパラダイムシフトにつながった。 しかし、既存の研究は主にポイントワイドとペアワイドのレコメンデーションパラダイムに焦点を当てている。 これらのアプローチは、大規模言語モデルを利用する計算コストが高いため、LLMベースのレコメンデータでは非効率であることが証明されている。 リストワイドなアプローチを探求する研究もあるが、ランキングタスクでは不足している。 この欠点は、ランク付けの目的と言語生成の相違によるものである。 そこで本稿では,Aligned Listwise Ranking Objectives (ALRO) を用いた言語モデルフレームワークを提案する。 ALROは、LLMの能力とレコメンダシステム内のランキングタスクの微妙な要求とのギャップを埋めるように設計されている。 ALROの重要な特徴は、言語生成タスクに適したラムダ損失の適応である、ソフトラムダ損失の導入である。 さらに、ALROには、位置バイアスに対処する置換感受性学習機構が組み込まれている。 評価研究により,ALROは既存の組込み型レコメンデーション法と既存のLCMベースのレコメンデーションベースラインを上回り,その有効性を強調した。

The evolution of Large Language Models (LLMs) has significantly enhanced capabilities across various fields, leading to a paradigm shift in how Recommender Systems (RSs) are conceptualized and developed. However, existing research primarily focuses on point-wise and pair-wise recommendation paradigms. These approaches prove inefficient in LLM-based recommenders due to the high computational cost of utilizing Large Language Models. While some studies have delved into list-wise approaches, they fall short in ranking tasks. This shortfall is attributed to the misalignment between the objectives of ranking and language generation. To this end, this paper introduces the Language Model Framework with Aligned Listwise Ranking Objectives (ALRO). ALRO is designed to bridge the gap between the capabilities of LLMs and the nuanced requirements of ranking tasks within recommender systems. A key feature of ALRO is the introduction of soft lambda loss, an adaptation of lambda loss tailored to suit language generation tasks. Additionally, ALRO incorporates a permutation-sensitive learning mechanism that addresses position bias, a prevalent issue in generative models, without imposing additional computational burdens during inference. Our evaluative studies reveal that ALRO outperforms existing embedding-based recommendation methods and the existing LLM-based recommendation baselines, highlighting its efficacy.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 教師なしUniversal Dependency Parse Tree Aggregationの実証解析

Empirical Analysis for Unsupervised Universal Dependency Parse Tree Aggregation ( http://arxiv.org/abs/2403.19183v1 )

ライセンス: Link先を確認
Adithya Kulkarni, Oliver Eulenstein, Qi Li, (参考訳) 依存性解析はNLPにおいて必須のタスクであり、多くの下流タスクでは依存性解析の質が不可欠である。 パーサーの品質はドメインや関連する言語によって異なります。 したがって、安定した性能を達成するためには、様々な品質の問題に対処することが不可欠である。 様々なNLPタスクにおいて、アグリゲーション法は後処理のアグリゲーションに使われ、様々な品質の問題に対処することが示されている。 しかし, 処理後アグリゲーションのためのアグリゲーション手法は, 依存解析タスクにおいて十分に研究されていない。 広範にわたる実証研究において、教師なし後処理集約法を比較し、最も適した依存木構造集約法を同定する。

Dependency parsing is an essential task in NLP, and the quality of dependency parsers is crucial for many downstream tasks. Parsers' quality often varies depending on the domain and the language involved. Therefore, it is essential to combat the issue of varying quality to achieve stable performance. In various NLP tasks, aggregation methods are used for post-processing aggregation and have been shown to combat the issue of varying quality. However, aggregation methods for post-processing aggregation have not been sufficiently studied in dependency parsing tasks. In an extensive empirical study, we compare different unsupervised post-processing aggregation methods to identify the most suitable dependency tree structure aggregation method.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 量子電流レギュレータを用いた超流動振動子回路

Superfluid Oscillator Circuit with Quantum Current Regulator ( http://arxiv.org/abs/2403.19191v1 )

ライセンス: Link先を確認
Xue Yang, Wenkai Bai, Chen Jiao, Wu-Ming Liu, Jun-Hui Zheng, Tao Yang, (参考訳) ボース・アインシュタイン凝縮体の2つの貯留層を接続するメソスコピックチャネルからなる超流動振動回路における原子電流の特性について検討した。 流路内における臨界電流の存在について検討し, 2つの貯水池間の数不均衡における振動の振幅が, 系のパラメータによってどう変化するかを検討した。 発散抵抗は渦対の形成に起因していることに加えて、これらの渦対が量子電流レギュレータとしての役割も説明する。 散逸強度は、系の渦対の出現に対応する数不均衡に基づいて離散的である。 その結果,回路は電圧制限機構と電流制限機構の両方の特徴を示すことがわかった。 原子超流動回路の減衰挙動をモデル化するため,量子電流レギュレータを用いた等価LC発振回路を開発した。

We examine the properties of atomic current in a superfluid oscillating circuit consisting of a mesoscopic channel that connects two reservoirs of a Bose-Einstein condensate. We investigate the presence of a critical current in the channel and examine how the amplitude of the oscillations in the number imbalance between the two reservoirs varies with system parameters. In addition to highlighting that the dissipative resistance stems from the formation of vortex pairs, we also illustrate the role of these vortex pairs as a quantum current regulator. The dissipation strength is discrete based on the number imbalance, which corresponds to the emergence of vortex pairs in the system. Our findings indicate that the circuit demonstrates characteristics of both voltage-limiting and current-limiting mechanisms. To model the damping behavior of the atomic superfluid circuit, we develop an equivalent LC oscillator circuit with a quantum current regulator.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 対話型プロンプトによるテキストデータ中心画像のキャプション

Text Data-Centric Image Captioning with Interactive Prompts ( http://arxiv.org/abs/2403.19193v1 )

ライセンス: Link先を確認
Yiyu Wang, Hao Luo, Jungang Xu, Yingfei Sun, Fan Wang, (参考訳) 画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。 近年,大規模視覚・言語モデル(例えば,CLIP)や大規模生成言語モデル(例えば,GPT-2)は,様々なタスクにおいて高いパフォーマンスを示し,Webペアデータや未ペアデータ,さらにはテキストのみのデータを用いた画像キャプションの新たなソリューションも提供している。 その中でも主要な解決策は、CLIPモデルからイメージテキストペア間の一貫した表現の助けを借りて、テキスト埋め込みスペースにイメージ埋め込みを投影することである。 しかし、現在の手法は、統一されたソリューションにおけるデータ構成の多様性に適応し、画像テキストの埋め込みバイアスを正確に推定し、推論段階における不満足な予測結果を補正する上で、いくつかの課題に直面している。 本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。 1) ペアデータへの依存を徐々に減少させる4つの異なる設定について検討する。 2) 多変量ガウス分布によって駆動される写像モジュールを構築し,上記の4つの異なる設定に適用可能なモダリティギャップを緩和する。 3)キャプションを生成する前に任意のプロンプト情報を組み込むプロンプト・インタラクション・モジュールを提案する。 大規模な実験により、我々のTIPCapは、他の弱いまたは教師なしの画像キャプション手法よりも優れており、広く使われている2つのデータセット(MS-COCOとFlickr30K)上で、新しい最先端のパフォーマンスを達成することが示された。

Supervised image captioning approaches have made great progress, but it is challenging to collect high-quality human-annotated image-text data. Recently, large-scale vision and language models (e.g., CLIP) and large-scale generative language models (e.g., GPT-2) have shown strong performances in various tasks, which also provide some new solutions for image captioning with web paired data, unpaired data or even text-only data. Among them, the mainstream solution is to project image embeddings into the text embedding space with the assistance of consistent representations between image-text pairs from the CLIP model. However, the current methods still face several challenges in adapting to the diversity of data configurations in a unified solution, accurately estimating image-text embedding bias, and correcting unsatisfactory prediction results in the inference stage. This paper proposes a new Text data-centric approach with Interactive Prompts for image Captioning, named TIPCap. 1) We consider four different settings which gradually reduce the dependence on paired data. 2) We construct a mapping module driven by multivariate Gaussian distribution to mitigate the modality gap, which is applicable to the above four different settings. 3) We propose a prompt interaction module that can incorporate optional prompt information before generating captions. Extensive experiments show that our TIPCap outperforms other weakly or unsupervised image captioning methods and achieves a new state-of-the-art performance on two widely used datasets, i.e., MS-COCO and Flickr30K.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# アーカイブの理解:文書の意味的アノテーションに基づく新しい研究インターフェースを目指して

Understanding Archives: Towards New Research Interfaces Relying on the Semantic Annotation of Documents ( http://arxiv.org/abs/2403.19201v1 )

ライセンス: Link先を確認
Nicolas Gutehrlé, Iana Atanassova, (参考訳) 近年の図書館や文書館によるデジタル化キャンペーンは、蔵書の文書へのアクセスを促進している。 しかし、これらの文書の発掘・活用は、相談用資料が多すぎるため、依然として困難な作業である。 本稿では,古文書のコーパスのテクスト内容のセマンティックアノテーションが,その活用と評価を容易にする方法を示す。 まず,テキストのセマンティクスに基づく新しいインタフェース構築のための方法論的枠組みを提案し,その上で,現在の技術的障害とその潜在的な解決策に対処する。 我々は、このフレームワークの適用の実践事例を提示することで結論付ける。

The digitisation campaigns carried out by libraries and archives in recent years have facilitated access to documents in their collections. However, exploring and exploiting these documents remain difficult tasks due to the sheer quantity of documents available for consultation. In this article, we show how the semantic annotation of the textual content of study corpora of archival documents allow to facilitate their exploitation and valorisation. First, we present a methodological framework for the construction of new interfaces based on textual semantics, then address the current technological obstacles and their potential solutions. We conclude by presenting a practical case of the application of this framework.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# パラメータ効率のよいマルチモードイメージング皮膚病変分類のための先行インスパイアされた損失を持つシングルシェアネットワーク

Single-Shared Network with Prior-Inspired Loss for Parameter-Efficient Multi-Modal Imaging Skin Lesion Classification ( http://arxiv.org/abs/2403.19203v1 )

ライセンス: Link先を確認
Peng Tang, Tobias Lasser, (参考訳) 本研究では,マルチモーダルアプローチを導入し,マルチスケールな臨床・皮膚内視鏡的特徴を1つのネットワークに効率的に統合し,モデルパラメータを大幅に削減する。 提案手法は3つの新しい融合方式を含む。 まず,通常2つの個別モデルを用いた臨床・皮膚内視鏡検査法と異なり,エンコーダのパラメータを共有することで,個別のモード固有分類器を残しながらマルチモーダル特徴を学習できることを検証した。 第二に、共有のクロスアテンションモジュールは個々のモジュールを置き換えることができ、複数のレイヤで2つのモダリティ間で効率的に相互作用する。 第3に, 皮膚内視鏡画像が臨床像よりも重要な役割を担っているという先行知識に触発されて, 同様に皮膚内視鏡と臨床枝を最適化する現在の方法とは違って, 新たなバイアスド・ロスを提案する。 この損失は、単一共有ネットワークを誘導し、臨床情報よりも皮膚科情報を優先し、モダル特異的タスクのためのより良い関節特徴表現を暗黙的に学習する。 良く認識されたセブンポイントチェックリスト(SPC)データセットと収集されたデータセットに対する広範囲な実験により,CNNとトランスフォーマーの両方構造に対する本手法の有効性が示された。 さらに,本手法は,現在進行している手法と比較して,精度とモデルパラメータの両面で優れていることを示す。

In this study, we introduce a multi-modal approach that efficiently integrates multi-scale clinical and dermoscopy features within a single network, thereby substantially reducing model parameters. The proposed method includes three novel fusion schemes. Firstly, unlike current methods that usually employ two individual models for for clinical and dermoscopy modalities, we verified that multimodal feature can be learned by sharing the parameters of encoder while leaving the individual modal-specific classifiers. Secondly, the shared cross-attention module can replace the individual one to efficiently interact between two modalities at multiple layers. Thirdly, different from current methods that equally optimize dermoscopy and clinical branches, inspired by prior knowledge that dermoscopy images play a more significant role than clinical images, we propose a novel biased loss. This loss guides the single-shared network to prioritize dermoscopy information over clinical information, implicitly learning a better joint feature representation for the modal-specific task. Extensive experiments on a well-recognized Seven-Point Checklist (SPC) dataset and a collected dataset demonstrate the effectiveness of our method on both CNN and Transformer structures. Furthermore, our method exhibits superiority in both accuracy and model parameters compared to currently advanced methods.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 活性化から初期化: ニューラルネットワークの最適化のためのスケーリング指標

From Activation to Initialization: Scaling Insights for Optimizing Neural Fields ( http://arxiv.org/abs/2403.19205v1 )

ライセンス: Link先を確認
Hemanth Saratchandran, Sameera Ramasinghe, Simon Lucey, (参考訳) コンピュータビジョンの領域では、ニューラルフィールドは信号表現にニューラルネットワークを利用する現代のツールとして注目されている。 様々な問題を解決するためにこれらのネットワークを適用することの顕著な進歩にもかかわらず、この分野には包括的な理論的枠組みが欠けている。 本稿では、初期化とアクティベーションの複雑な相互作用を掘り下げ、ニューラルネットワークの堅牢な最適化の基礎となることによって、このギャップに対処することを目的とする。 ネットワークの初期化, アーキテクチャの選択, 最適化プロセスの深い関係を理論的考察により明らかにし, 最先端のニューラルフィールドの設計において, 全体的アプローチの必要性を強調した。

In the realm of computer vision, Neural Fields have gained prominence as a contemporary tool harnessing neural networks for signal representation. Despite the remarkable progress in adapting these networks to solve a variety of problems, the field still lacks a comprehensive theoretical framework. This article aims to address this gap by delving into the intricate interplay between initialization and activation, providing a foundational basis for the robust optimization of Neural Fields. Our theoretical insights reveal a deep-seated connection among network initialization, architectural choices, and the optimization process, emphasizing the need for a holistic approach when designing cutting-edge Neural Fields.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# フェデレーションモデルのためのデュアルパーソナライズアダプタ

Dual-Personalizing Adapter for Federated Foundation Models ( http://arxiv.org/abs/2403.19211v1 )

ライセンス: Link先を確認
Yiyuan Yang, Guodong Long, Tao Shen, Jing Jiang, Michael Blumenstein, (参考訳) 近年,基礎モデル,特に大規模言語モデル (LLM) は,大量の命令データを微調整することで,様々なタスクに適応できることが実証されている。 特に、フェデレーションベースモデルは、非IIDデータによる多くの分散データセットを活用することにより、フェデレーションラーニング(FL)設定下で協調的にモデルを微調整するプライバシー保護手法として出現する。 コミュニケーションと計算のオーバーヘッドを軽減するために, パラメータ効率の手法を導入し, ユーザ嗜好の整合性を高めるために, ファウンデーションモデルに適応したパーソナライズ手法を提案する。 しかし、既存の研究における重要なギャップは、実世界のアプリケーションにおけるテスト時間分布シフトの無視である。 そこで我々は,このギャップを埋めるため,テストタイムパーソナライゼーションと呼ばれる新たな設定を提案する。 この新たな環境での課題に対処するため、包括的基礎モデルを学ぶためのシンプルだが効果的なソリューションを探究する。 具体的には、グローバルアダプタと、テスト時間分布シフトとパーソナライズに対処するローカルアダプタからなる、二重対人アダプタアーキテクチャ(FedDPA)を提案する。 さらに,グローバルアダプタとローカルアダプタのバランスを最適化し,全体的な性能を向上させるために,インスタンス単位の動的重み付け機構を導入する。 提案手法の有効性を,異なるNLPタスクのベンチマークデータセットを用いて評価した。

Recently, foundation models, particularly large language models (LLMs), have demonstrated an impressive ability to adapt to various tasks by fine-tuning large amounts of instruction data. Notably, federated foundation models emerge as a privacy preservation method to fine-tune models collaboratively under federated learning (FL) settings by leveraging many distributed datasets with non-IID data. To alleviate communication and computation overhead, parameter-efficient methods are introduced for efficiency, and some research adapted personalization methods to federated foundation models for better user preferences alignment. However, a critical gap in existing research is the neglect of test-time distribution shifts in real-world applications. Therefore, to bridge this gap, we propose a new setting, termed test-time personalization, which not only concentrates on the targeted local task but also extends to other tasks that exhibit test-time distribution shifts. To address challenges in this new setting, we explore a simple yet effective solution to learn a comprehensive foundation model. Specifically, a dual-personalizing adapter architecture (FedDPA) is proposed, comprising a global adapter and a local adapter for addressing test-time distribution shifts and personalization, respectively. Additionally, we introduce an instance-wise dynamic weighting mechanism to optimize the balance between the global and local adapters, enhancing overall performance. The effectiveness of the proposed method has been evaluated on benchmark datasets across different NLP tasks.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# マスクガイドマッティングにおける不整合誘導詳細正規化による複数表現の学習

Learning Multiple Representations with Inconsistency-Guided Detail Regularization for Mask-Guided Matting ( http://arxiv.org/abs/2403.19213v1 )

ライセンス: Link先を確認
Weihao Jiang, Zhaozhi Xie, Yuxiang Lu, Longjie Qi, Jingyong Cai, Hiroyuki Uchiyama, Bin Chen, Yue Ding, Hongtao Lu, (参考訳) マスク誘導マッティングネットワークは,近年,実用化に大きな可能性を秘めている。 しかし、これらの手法は、合成的および実世界の多様性の欠如からマット表現を学習するだけで、誤った領域における低レベルの詳細を過度に適合させ、複雑な構造を持つ物体や影のような現実世界のシーンへの一般化を欠き、背景線やテクスチャの干渉に悩まされる傾向にある。 これらの課題に対処するため,本稿では,意味的セグメンテーション,エッジ検出,背景線検出という3つの補助的タスクを組込み,異なるタイプのデータやアノテーションから異なる効果的な表現を学習する,マスク誘導マッチングモデルのための新しい補助的学習フレームワークを提案する。 筆者らのフレームワークとモデルは, 現実世界のシーン下で, 多様な複雑な構造を持つオブジェクトに対して, 現実の適応的意味表現を学習するために, セグメンテーションアノテーションを用いて, より多様な実世界のデータに対して, 付加的なセグメンテーションとエッジ検出タスクを導入する。 さらに, 複雑な構造上の整合性を評価するため, 高品質な整合性ベンチマークであるPlant-Matを提案する。 広範に定量的かつ定性的な結果は、我々のアプローチが最先端のマスク誘導法より優れていることを示している。

Mask-guided matting networks have achieved significant improvements and have shown great potential in practical applications in recent years. However, simply learning matting representation from synthetic and lack-of-real-world-diversity matting data, these approaches tend to overfit low-level details in wrong regions, lack generalization to objects with complex structures and real-world scenes such as shadows, as well as suffer from interference of background lines or textures. To address these challenges, in this paper, we propose a novel auxiliary learning framework for mask-guided matting models, incorporating three auxiliary tasks: semantic segmentation, edge detection, and background line detection besides matting, to learn different and effective representations from different types of data and annotations. Our framework and model introduce the following key aspects: (1) to learn real-world adaptive semantic representation for objects with diverse and complex structures under real-world scenes, we introduce extra semantic segmentation and edge detection tasks on more diverse real-world data with segmentation annotations; (2) to avoid overfitting on low-level details, we propose a module to utilize the inconsistency between learned segmentation and matting representations to regularize detail refinement; (3) we propose a novel background line detection task into our auxiliary learning framework, to suppress interference of background lines or textures. In addition, we propose a high-quality matting benchmark, Plant-Mat, to evaluate matting methods on complex structures. Extensively quantitative and qualitative results show that our approach outperforms state-of-the-art mask-guided methods.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 低リソーススタンス検出のための協調的知識注入

Collaborative Knowledge Infusion for Low-resource Stance Detection ( http://arxiv.org/abs/2403.19219v1 )

ライセンス: Link先を確認
Ming Yan, Joey Tianyi Zhou, Ivor W. Tsang, (参考訳) スタンス検出は、指定されたコンテキスト(\textit{e g } ツイート、商用レビュー)によって特定のターゲットに対するビューである。 ターゲット関連知識は、標的をよく理解し、検出を正しく行うために、姿勢検出モデルを支援するためにしばしば必要とされる。 しかし、知識を注入した姿勢検出のための一般的な研究は、限られたドメイン知識における知識検証が欠如している特定の情報源からの目標知識を主に取り入れている。 低リソースのトレーニングデータにより、このタスクにおけるデータ駆動型大規模モデルの課題はさらに増大する。 これらの課題に対処するため,我々は,協調的な知識向上と効率的なパラメータ学習技術を組み合わせた,低リソースな姿勢検出タスクのための協調的知識注入手法を提案する。 特に,我々のスタンス検出手法は,異なる知識ソースからの目標背景知識を協調的に活用し,知識アライメントの助けとなる。 さらに,ネットワーク構造と学習の観点からの低リソース姿勢検出タスクに関わる課題を協調的に解決する,段階最適化アルゴリズムを用いたパラメータ効率協調型適応器についても紹介する。 提案手法の有効性を評価するため,低リソース・クロスターゲット設定を含む3つの公開姿勢検出データセットについて広範な実験を行った。 その結果,既存の姿勢検出手法と比較して,大幅な性能向上が得られた。

Stance detection is the view towards a specific target by a given context (\textit{e.g.} tweets, commercial reviews). Target-related knowledge is often needed to assist stance detection models in understanding the target well and making detection correctly. However, prevailing works for knowledge-infused stance detection predominantly incorporate target knowledge from a singular source that lacks knowledge verification in limited domain knowledge. The low-resource training data further increases the challenge for the data-driven large models in this task. To address those challenges, we propose a collaborative knowledge infusion approach for low-resource stance detection tasks, employing a combination of aligned knowledge enhancement and efficient parameter learning techniques. Specifically, our stance detection approach leverages target background knowledge collaboratively from different knowledge sources with the help of knowledge alignment. Additionally, we also introduce the parameter-efficient collaborative adaptor with a staged optimization algorithm, which collaboratively addresses the challenges associated with low-resource stance detection tasks from both network structure and learning perspectives. To assess the effectiveness of our method, we conduct extensive experiments on three public stance detection datasets, including low-resource and cross-target settings. The results demonstrate significant performance improvements compared to the existing stance detection approaches.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# GeoAuxNet:マルチセンサポイントクラウドのためのユニバーサル3D表現学習を目指して

GeoAuxNet: Towards Universal 3D Representation Learning for Multi-sensor Point Clouds ( http://arxiv.org/abs/2403.19220v1 )

ライセンス: Link先を確認
Shengjun Zhang, Xin Fei, Yueqi Duan, (参考訳) RGB-DカメラやLiDARのような異なるセンサーが捉えた点雲は、無視できない領域ギャップを持つ。 既存のほとんどの手法は異なるネットワークアーキテクチャを設計し、様々なセンサーから点雲で個別に訓練する。 通常、点ベース法は、RGB-Dカメラから均等に分散した高密度点雲に対して優れた性能を達成するが、voxel-based法は大規模スパースLiDAR点雲に対してより効率的である。 本稿では,複数センサ点雲の解釈を付加したボクセルベースバックボーンの一般化を支援するために,ボクセル表現がポイントレベルの幾何情報にアクセスできるような幾何-ボクセル補助学習を提案する。 具体的には、ボクセル誘導動的点ネットワークによって生成される階層的な幾何学プールを構築し、ボクセル特徴の異なる段階に適応した補助的な微細な幾何学情報を効率的に提供する。 我々はGeoAuxNetの有効性を実証するために,共同マルチセンサデータセットの実験を行った。 精巧な幾何学的情報を楽しみながら、本手法は、マルチセンサーデータセットで総合的に訓練された他のモデルよりも優れており、各データセットの最先端の専門家と競合する結果が得られる。

Point clouds captured by different sensors such as RGB-D cameras and LiDAR possess non-negligible domain gaps. Most existing methods design different network architectures and train separately on point clouds from various sensors. Typically, point-based methods achieve outstanding performances on even-distributed dense point clouds from RGB-D cameras, while voxel-based methods are more efficient for large-range sparse LiDAR point clouds. In this paper, we propose geometry-to-voxel auxiliary learning to enable voxel representations to access point-level geometric information, which supports better generalisation of the voxel-based backbone with additional interpretations of multi-sensor point clouds. Specifically, we construct hierarchical geometry pools generated by a voxel-guided dynamic point network, which efficiently provide auxiliary fine-grained geometric information adapted to different stages of voxel features. We conduct experiments on joint multi-sensor datasets to demonstrate the effectiveness of GeoAuxNet. Enjoying elaborate geometric information, our method outperforms other models collectively trained on multi-sensor datasets, and achieve competitive results with the-state-of-art experts on each single dataset.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# モダリティの欠如に頑健なマルチモーダルビデオパラグラフキャプションモデルに向けて

Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality ( http://arxiv.org/abs/2403.19221v1 )

ライセンス: Link先を確認
Sishuo Chen, Lei Li, Shuhuai Ren, Rundong Gao, Yuanxin Liu, Xiaohan Bi, Xu Sun, Lu Hou, (参考訳) ビデオキャプション(VPC)は、音声やイベント境界といった支援的なモダリティを利用して、長いビデオのための詳細な物語を生成する。 しかし、既存のモデルは、現実のシナリオの多様性と予測不可能な性質を考えると、現実的ではない単一の補助モダリティの定常的な可用性の仮定によって制約される。 そこで本研究では、利用可能な全ての補助入力を効果的に活用し、一定のモダリティがなくてもレジリエンスを維持できるMissing-ResistantフレームワークMR-VPCを提案する。 本フレームワークでは,ビデオ,音声,イベント境界入力を統一的に統合し,様々な補助入力を処理するマルチモーダルVPC(MVPC)アーキテクチャを提案する。 さらに、不完全データに対するモデル強化のため、DropAMを導入し、補助入力をランダムに省略するデータ強化戦略、DistillAMと組み合わせて、モダリティ完全データに基づいて訓練された教師モデルから知識を抽出し、モダリティ欠損環境における効率的な学習を可能にする正規化ターゲットを提案する。 YouCook2とActivityNet Captionsの徹底的な実験を通じて、MR-VPCは、モダリティ完全およびモダリティ欠落テストデータに対して優れた性能を発揮することが証明された。 この研究は、弾力性のあるVPCモデルを開発することの重要性を強調し、より適応的で堅牢なマルチモーダルビデオ理解の道を開く。

Video paragraph captioning (VPC) involves generating detailed narratives for long videos, utilizing supportive modalities such as speech and event boundaries. However, the existing models are constrained by the assumption of constant availability of a single auxiliary modality, which is impractical given the diversity and unpredictable nature of real-world scenarios. To this end, we propose a Missing-Resistant framework MR-VPC that effectively harnesses all available auxiliary inputs and maintains resilience even in the absence of certain modalities. Under this framework, we propose the Multimodal VPC (MVPC) architecture integrating video, speech, and event boundary inputs in a unified manner to process various auxiliary inputs. Moreover, to fortify the model against incomplete data, we introduce DropAM, a data augmentation strategy that randomly omits auxiliary inputs, paired with DistillAM, a regularization target that distills knowledge from teacher models trained on modality-complete data, enabling efficient learning in modality-deficient environments. Through exhaustive experimentation on YouCook2 and ActivityNet Captions, MR-VPC has proven to deliver superior performance on modality-complete and modality-missing test data. This work highlights the significance of developing resilient VPC models and paves the way for more adaptive, robust multimodal video understanding.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# 動作-遷移-認識境界アライメントによる効果的かつ効果的に改善されたアクションセグメンテーション

Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment ( http://arxiv.org/abs/2403.19225v1 )

ライセンス: Link先を確認
Angchi Xu, Wei-Shi Zheng, (参考訳) 弱い監督されたアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習のタスクである。 既存の手法の多くは、トレーニング中に並列化が困難で時間を要するすべてのフレームと書き起こしのシリアルアライメントによって、トレーニングのために擬似セグメンテーションを推論する必要がある。 本研究では、この非効率なフレームとのアライメントを回避し、代わりに擬セグメント生成のためのいくつかのアクション遷移を直接ローカライズすることを目的としている。 そこで本研究では, ノイズ境界を効果的かつ効果的に除去し, 遷移を検出するための, アクション・トランジション・アウェア境界アライメント (ATBA) フレームワークを提案する。 さらに,疑似セグメンテーションにノイズが必然的に存在する場合のセグメンテーション学習を促進するために,信頼度の高い映像レベルの監視を活用するために,映像レベルの損失も導入する。 大規模な実験は、我々のアプローチが性能とトレーニング速度の両方に有効であることを示す。

Weakly-supervised action segmentation is a task of learning to partition a long video into several action segments, where training videos are only accompanied by transcripts (ordered list of actions). Most of existing methods need to infer pseudo segmentation for training by serial alignment between all frames and the transcript, which is time-consuming and hard to be parallelized while training. In this work, we aim to escape from this inefficient alignment with massive but redundant frames, and instead to directly localize a few action transitions for pseudo segmentation generation, where a transition refers to the change from an action segment to its next adjacent one in the transcript. As the true transitions are submerged in noisy boundaries due to intra-segment visual variation, we propose a novel Action-Transition-Aware Boundary Alignment (ATBA) framework to efficiently and effectively filter out noisy boundaries and detect transitions. In addition, to boost the semantic learning in the case that noise is inevitably present in the pseudo segmentation, we also introduce video-level losses to utilize the trusted video-level supervision. Extensive experiments show the effectiveness of our approach on both performance and training speed.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# AZ-NAS:ネットワークアーキテクチャ検索のためのゼロコストプロキシを組み立てる

AZ-NAS: Assembling Zero-Cost Proxies for Network Architecture Search ( http://arxiv.org/abs/2403.19232v1 )

ライセンス: Link先を確認
Junghyup Lee, Bumsub Ham, (参考訳) トレーニングフリーネットワークアーキテクチャサーチ(NAS)は、ゼロコストプロキシによる高性能ネットワークの探索を目標とし、最終性能に関連するネットワーク特性をキャプチャする。 しかし、従来のトレーニング不要NAS法で推定されたネットワークランキングは、性能と弱い相関関係を示している。 この問題に対処するために,ネットワークの予測ランキングと地上の真実との相関性を高めるために,さまざまなゼロコストプロキシのアンサンブルを利用する新しいアプローチであるAZ-NASを提案する。 そこで本研究では, 表現性, 進行性, 訓練性, 複雑さの観点から, アーキテクチャの異なる特徴を解析し, 相補的なゼロコストプロキシを4つ導入する。 プロキシスコアは、単一の前方及び後方パス内で同時に取得可能であり、全体的なNASプロセスが極めて効率的である。 本稿では,プロキシによって予測されるランキングを効果的に統合するために,すべてのプロキシに一貫したランク付けされたネットワークを強調表示する非線形ランキングアグリゲーション手法を提案する。 AZ-NASの有効性と効率を実証し、標準ベンチマークにおける最先端の手法よりも優れた性能を示しながら、合理的な実行コストを維持した。

Training-free network architecture search (NAS) aims to discover high-performing networks with zero-cost proxies, capturing network characteristics related to the final performance. However, network rankings estimated by previous training-free NAS methods have shown weak correlations with the performance. To address this issue, we propose AZ-NAS, a novel approach that leverages the ensemble of various zero-cost proxies to enhance the correlation between a predicted ranking of networks and the ground truth substantially in terms of the performance. To achieve this, we introduce four novel zero-cost proxies that are complementary to each other, analyzing distinct traits of architectures in the views of expressivity, progressivity, trainability, and complexity. The proxy scores can be obtained simultaneously within a single forward and backward pass, making an overall NAS process highly efficient. In order to integrate the rankings predicted by our proxies effectively, we introduce a non-linear ranking aggregation method that highlights the networks highly-ranked consistently across all the proxies. Experimental results conclusively demonstrate the efficacy and efficiency of AZ-NAS, outperforming state-of-the-art methods on standard benchmarks, all while maintaining a reasonable runtime cost.
翻訳日:2024-03-29 17:03:08 公開日:2024-03-28
# DreamSalon: 編集可能な顔生成におけるアイデンティティコンテキストを保存するための段階的拡散フレームワーク

DreamSalon: A Staged Diffusion Framework for Preserving Identity-Context in Editable Face Generation ( http://arxiv.org/abs/2403.19235v1 )

ライセンス: Link先を確認
Haonan Lin, Mengmeng Wang, Yan Chen, Wenbin An, Yuzhe Yao, Guang Dai, Qianying Wang, Yong Liu, Jingdong Wang, (参考訳) 大規模な事前訓練されたテキスト・ツー・イメージモデルでは、多彩で高品質な人間中心の画像を合成することができるが、新しい課題は、その固有のアイデンティティとコンテキストを維持しながら、対象の特定の特徴を正確に修正する"アイデンティティ・ファイン・編集"というニュアンスなタスクによって生じる。 既存のパーソナライズ手法では、時間を要する最適化か、追加のエンコーダを学習する必要がある。 しかし、人間の顔編集のような細密で繊細なタスクに苦しむことが多い。 これらの課題に対処するため,我々はDreamSalonを紹介した。 予測されたノイズの周波数と勾配による編集およびブーストステージの識別により、DreamSalonはまず編集ステージの特定の特徴を詳細に操作し、高周波情報でガイドし、その後、ブーストステージで確率的デノイングを使用して画質を向上させる。 より正確な編集のために、DreamSalonはソースとターゲットのテキストのプロンプトをセマンティックに混ぜ、埋め込みの共分散の違いをガイドし、特定の操作領域にモデルを集中させる。 我々の実験は、DreamSalonが人間の顔の細部を効率よく忠実に編集し、定性的かつ定量的に既存の方法より優れていることを示した。

While large-scale pre-trained text-to-image models can synthesize diverse and high-quality human-centered images, novel challenges arise with a nuanced task of "identity fine editing": precisely modifying specific features of a subject while maintaining its inherent identity and context. Existing personalization methods either require time-consuming optimization or learning additional encoders, adept in "identity re-contextualization". However, they often struggle with detailed and sensitive tasks like human face editing. To address these challenges, we introduce DreamSalon, a noise-guided, staged-editing framework, uniquely focusing on detailed image manipulations and identity-context preservation. By discerning editing and boosting stages via the frequency and gradient of predicted noises, DreamSalon first performs detailed manipulations on specific features in the editing stage, guided by high-frequency information, and then employs stochastic denoising in the boosting stage to improve image quality. For more precise editing, DreamSalon semantically mixes source and target textual prompts, guided by differences in their embedding covariances, to direct the model's focus on specific manipulation areas. Our experiments demonstrate DreamSalon's ability to efficiently and faithfully edit fine details on human faces, outperforming existing methods both qualitatively and quantitatively.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# 効率的な画像リタッチのためのルックアップテーブルのモデリング

Taming Lookup Tables for Efficient Image Retouching ( http://arxiv.org/abs/2403.19238v1 )

ライセンス: Link先を確認
Sidi Yang, Binxiao Huang, Mingdeng Cao, Yatai Ji, Hanzhong Guo, Ngai Wong, Yujiu Yang, (参考訳) エンドユーザーカメラ、スマートフォン、テレビなどのエッジデバイスにおける高解像度スクリーンの普及は、画像の強化に対する大きな需要を喚起している。 既存の拡張モデルは、ハードウェアの推論時間と消費電力を減らし、特に制約のあるコンピューティングとストレージリソースを持つエッジデバイスでは、高いパフォーマンスのために最適化されることが多い。 この目的のために、畳み込みニューラルネットワーク(CNN)を使わずに、極めて効率的なエッジ推論にLUTを採用する画像色強調ルックアップテーブル(ICELUT)を提案する。 トレーニング中は、ポイントワイズ(1x1)の畳み込みを利用して色情報を抽出し、大域情報を包含する完全連結層を分割する。 両方のコンポーネントは、ハードウェアに依存しないデプロイメントのために、シームレスにLUTに変換される。 ICELUTは最先端の性能と極めて低消費電力を実現している。 ネットワーク構造が頑健な拡張性を示し,32×32入力画像の高解像度化においても性能を向上することが観察された。 これにより、最初のLUTベースのイメージエンハンサーであるICELUTは、GPUでは0.4ms、CPUでは7msという前例のない速度に達し、CNNソリューションよりも少なくとも1桁高速になる。 コードはhttps://github.com/Stephen0808/ICELUT.comで公開されている。

The widespread use of high-definition screens in edge devices, such as end-user cameras, smartphones, and televisions, is spurring a significant demand for image enhancement. Existing enhancement models often optimize for high performance while falling short of reducing hardware inference time and power consumption, especially on edge devices with constrained computing and storage resources. To this end, we propose Image Color Enhancement Lookup Table (ICELUT) that adopts LUTs for extremely efficient edge inference, without any convolutional neural network (CNN). During training, we leverage pointwise (1x1) convolution to extract color information, alongside a split fully connected layer to incorporate global information. Both components are then seamlessly converted into LUTs for hardware-agnostic deployment. ICELUT achieves near-state-of-the-art performance and remarkably low power consumption. We observe that the pointwise network structure exhibits robust scalability, upkeeping the performance even with a heavily downsampled 32x32 input image. These enable ICELUT, the first-ever purely LUT-based image enhancer, to reach an unprecedented speed of 0.4ms on GPU and 7ms on CPU, at least one order faster than any CNN solution. Codes are available at https://github.com/Stephen0808/ICELUT.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# RTracker: PNツリー構造化メモリによるリカバリ可能なトラッキング

RTracker: Recoverable Tracking via PN Tree Structured Memory ( http://arxiv.org/abs/2403.19242v1 )

ライセンス: Link先を確認
Yuqing Huang, Xin Li, Zikun Zhou, Yaowei Wang, Zhenyu He, Ming-Hsuan Yang, (参考訳) 既存の追跡手法は主に、より優れた目標表現の学習や、追跡性能を改善するためのより堅牢な予測モデルの開発に重点を置いている。 トラッキング性能は大幅に改善されているが、目標の損失問題は、障害の追跡、完全な閉塞、あるいは外見の状況によって頻繁に発生する。 しかし、追跡手法の自己回復問題にはかなり注意が払われず、これは実用上重要な問題である。 この目的のために,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復機能を実現するRTrackerを提案する。 具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。 PNツリーメモリでは、目標の状態を決定するための対応する歩行ルールを開発し、トラッカーと検出器を異なるトラッキングシナリオで統一する制御フローのセットを定義する。 我々の中核となる考え方は、正と負の目標カテゴリの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。 多くの挑戦的なベンチマークにおいて、最先端の手法と比較して好適な性能は、提案アルゴリズムの有効性を示している。

Existing tracking methods mainly focus on learning better target representation or developing more robust prediction models to improve tracking performance. While tracking performance has significantly improved, the target loss issue occurs frequently due to tracking failures, complete occlusion, or out-of-view situations. However, considerably less attention is paid to the self-recovery issue of tracking methods, which is crucial for practical applications. To this end, we propose a recoverable tracking framework, RTracker, that uses a tree-structured memory to dynamically associate a tracker and a detector to enable self-recovery ability. Specifically, we propose a Positive-Negative Tree-structured memory to chronologically store and maintain positive and negative target samples. Upon the PN tree memory, we develop corresponding walking rules for determining the state of the target and define a set of control flows to unite the tracker and the detector in different tracking scenarios. Our core idea is to use the support samples of positive and negative target categories to establish a relative distance-based criterion for a reliable assessment of target loss. The favorable performance in comparison against the state-of-the-art methods on numerous challenging benchmarks demonstrates the effectiveness of the proposed algorithm.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# パラメータ学習のためのSine Activated Low-Rank Matrices

Sine Activated Low-Rank Matrices for Parameter Efficient Learning ( http://arxiv.org/abs/2403.19243v1 )

ライセンス: Link先を確認
Yiping Ji, Hemanth Saratchandran, Cameron Gordon, Zeyu Zhang, Simon Lucey, (参考訳) 低ランクの分解は、ニューラルネットワークアーキテクチャにおけるパラメータ効率を高める重要なツールとして登場し、機械学習の様々なアプリケーションで注目を集めている。 これらの手法はパラメータの数を著しく減らし、コンパクト性と性能のバランスを崩した。 しかし、パラメータ効率とモデルの精度の妥協は共通の課題であり、パラメータの削減はフルランクのモデルに比べて精度の低下につながることが多い。 本研究では,低ランク分解過程に正弦波関数を統合する理論的枠組みを提案する。 このアプローチは、低ランク手法のパラメータ効率特性の利点を保存するだけでなく、分解のランクを高め、モデル精度を高める。 提案手法は,視覚変換器(ViT),Large Language Models(LLM),NeRF(Neural Radiance Fields),および3次元形状モデリング(3D shape modeling)において,既存の低ランクモデルの適応性向上を証明している。 このことは,提案手法の幅広い可能性と効率性を示すものである。

Low-rank decomposition has emerged as a vital tool for enhancing parameter efficiency in neural network architectures, gaining traction across diverse applications in machine learning. These techniques significantly lower the number of parameters, striking a balance between compactness and performance. However, a common challenge has been the compromise between parameter efficiency and the accuracy of the model, where reduced parameters often lead to diminished accuracy compared to their full-rank counterparts. In this work, we propose a novel theoretical framework that integrates a sinusoidal function within the low-rank decomposition process. This approach not only preserves the benefits of the parameter efficiency characteristic of low-rank methods but also increases the decomposition's rank, thereby enhancing model accuracy. Our method proves to be an adaptable enhancement for existing low-rank models, as evidenced by its successful application in Vision Transformers (ViT), Large Language Models (LLMs), Neural Radiance Fields (NeRF), and 3D shape modeling. This demonstrates the wide-ranging potential and efficiency of our proposed technique.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# 高等教育におけるChatGPTの利用--長所と短所

The use of ChatGPT in higher education: The advantages and disadvantages ( http://arxiv.org/abs/2403.19245v1 )

ライセンス: Link先を確認
Joshua Ebere Chukwuere, (参考訳) 高等教育学者は、OpenAIが開発したChatGPTと呼ばれる人工知能(AI)技術に興味を持っている。 ChatGPTが学習を改善するかどうかはまだ専門家の間で議論の的となっている。 本論文の簡潔な概要は、ChatGPTを高等教育に応用し、ハイレベルな教示を理解・生成する方法について考察する。 本研究の目的は,ChatGPTを高等教育現場で活用することのメリットとデメリットを徹底的に評価することにある。 しかし、肯定的な要素と否定的な要素の両方を考慮することが重要です。 この素早いレビューのために、研究者は2023年1月から2023年7月までにGoogle Scholar、Scopusらを検索し、様々な出版物から先行調査を行った。 これらの研究は調査された。 この研究は、ChatGPTを高等教育に活用することは、いくつかの理由から有益であることが判明した。 個別の指導を提供し、フィードバックを促し、学習へのアクセスを促進し、学生の交流を促進することができる。 これらの利点は、学習環境を改善し、学者や学生にとってより楽しいものにします。 ChatGPTの凹凸は等しく存在する。 これらの問題には、感情を理解する能力の欠如、社会的交流の機会の欠如、技術的な制限、高等教育におけるChatGPTの過剰な依存の危険性などが含まれる。 高等教育は、ChatGPTと他の教育技術を組み合わせて、生徒や講師に総合的な教育を提供するべきである。 しかし, 教室でChatGPTを採用する前に, 肯定的, 否定的, 道徳的問題を考えることが重要である。

Higher education scholars are interested in an artificial intelligence (AI) technology called ChatGPT, which was developed by OpenAI. Whether ChatGPT can improve learning is still a topic of debate among experts. This concise overview of the literature examines the application of ChatGPT in higher education to comprehend and produce high-level instruction. By examining the essential literature, this study seeks to provide a thorough assessment of the advantages and disadvantages of utilizing ChatGPT in higher education settings. But it's crucial to consider both the positive and negative elements. For this rapid review, the researcher searched Google Scholar, Scopus, and others between January 2023 and July 2023 for prior research from various publications. These studies were examined. The study found that employing ChatGPT in higher education is beneficial for a number of reasons. It can provide individualized instruction, and prompt feedback, facilitate access to learning, and promote student interaction. These benefits could improve the learning environment and make it more fun for academics and students. The cons of ChatGPT are equally present. These problems include the inability to comprehend emotions, the lack of social interaction chances, technological limitations, and the dangers of depending too much on ChatGPT for higher education. Higher education should combine ChatGPT with other teaching techniques to provide students and lecturers with a comprehensive education. However, it is crucial to consider the positives, negatives, and moral issues before adopting ChatGPT in the classroom.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# MPXGAT:多重グラフ埋め込みのための注意に基づくディープラーニングモデル

MPXGAT: An Attention based Deep Learning Model for Multiplex Graphs Embedding ( http://arxiv.org/abs/2403.19246v1 )

ライセンス: Link先を確認
Marco Bongiovanni, Luca Gallo, Roberto Grasso, Alfredo Pulvirenti, (参考訳) グラフ表現学習は、研究の重要分野として急速に発展してきた。 人気が高まっているにもかかわらず、研究の大半は単層グラフの埋め込みに限られており、多面関係を持つ複雑なシステムでは不足している。 このギャップを埋めるために、多重グラフ埋め込みに適した、革新的な注意に基づくディープラーニングモデルMPXGATを導入する。 グラフ注意ネットワーク(GAT)の堅牢性を活用して、MPXGATは層内接続と層間接続の両方を利用して多重ネットワークの構造をキャプチャする。 この利用により、ネットワークの複数の層内および横断する正確なリンク予測が容易になる。 様々なベンチマークデータセットを用いて実施した総合的な実験的評価により,MPXGATが最先端の競合アルゴリズムより一貫して優れていることを確認した。

Graph representation learning has rapidly emerged as a pivotal field of study. Despite its growing popularity, the majority of research has been confined to embedding single-layer graphs, which fall short in representing complex systems with multifaceted relationships. To bridge this gap, we introduce MPXGAT, an innovative attention-based deep learning model tailored to multiplex graph embedding. Leveraging the robustness of Graph Attention Networks (GATs), MPXGAT captures the structure of multiplex networks by harnessing both intra-layer and inter-layer connections. This exploitation facilitates accurate link prediction within and across the network's multiple layers. Our comprehensive experimental evaluation, conducted on various benchmark datasets, confirms that MPXGAT consistently outperforms state-of-the-art competing algorithms.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# コヒーレンス発生装置の騒音シミュレーション

Dephasing Noise Simulation for Coherence-Generating Devices ( http://arxiv.org/abs/2403.19247v1 )

ライセンス: Link先を確認
Roberto Salazar, Fereshte Shahbeigi, (参考訳) 量子技術の発展は、オペレーションが量子リソースを生成し、ノイズに反応する方法の詳細な調査を必要とする。 鍵は量子コヒーレンスを発生させるゲートであり、ノイズを緩和するゲートである。 正確には、量子ゲートのコヒーレンス発生力、そのシミュレーション、および臨界要因を低減させるデフォーカスノイズについて検討する。 私たちの主な貢献は、任意の事前定義された操作セットによるシミュレーションに適応可能なゲート内のデファスングノイズの完全なセットを特徴づける定理にある。 特に,この結果を用いて,強調ノイズの発生に必要なメモリ適応性の定量化を行う。 さらに、量子ビット系に作用するゲートの定量化器を解析的に計算し、このシナリオを完全に特徴づける。 次に、この結果から、クビットゲートに影響を及ぼす非自明なデフォーカスノイズの構造を明らかにし、それを実験データに適用し、入力または出力状態のデフォーカスが不可能なゲートのデフォーカスノイズの存在を確定的に示す。 最後に、コヒーレンス生成の資源理論において、オープンな疑問に対処するために、我々の研究がどのように貢献しているかを示す。

Advancing quantum technologies necessitates an in-depth exploration of how operations generate quantum resources and respond to noise. Crucial are gates generating quantum coherence and the challenge of mitigating gate dephasing noise. Precisely, we study the dephasing noise that reduces the coherence-generating power of quantum gates, its simulation, and critical factors. Our primary contribution lies in a theorem characterizing the full set of dephasing noises in gates, adaptable to the simulation by any predefined operation set. In particular, we apply our result to quantify the memory adaptability required for a dephasing noise to arise. Furthermore, we analytically calculate the quantifier for gates acting on qubit systems, thereby fully characterizing this scenario. Next, we show how our results reveal the structure of non-trivial dephasing noise affecting qubit gates and apply them to experimental data, conclusively demonstrating the existence of a gate's dephasing noise, which is irreducible to dephasing of either input or output states. Finally, we show how our study contributes to addressing an open question in the resource theory of coherence generation.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# Genos: ルール抽出による一般ネットワークにおける教師なし侵入検出

Genos: General In-Network Unsupervised Intrusion Detection by Rule Extraction ( http://arxiv.org/abs/2403.19248v1 )

ライセンス: Link先を確認
Ruoyu Li, Qing Li, Yu Zhang, Dan Zhao, Xi Xiao, Yong Jiang, (参考訳) 異常に基づくネットワーク侵入検知システム(A-NIDS)は、教師なしモデルを用いて予期せぬ攻撃を検出する。 しかし、既存のA-NIDSソリューションは、低スループット、解釈可能性の欠如、高いメンテナンスコストに悩まされている。 最近のインネットワークインテリジェンス(INI)は、プログラム可能なスイッチを利用してNIDSのラインレート展開を提供する。 しかしながら、現在のネットワーク内NIDSはモデル固有か、あるいは教師付きモデルにのみ適用される。 本稿では、モデルコンパイラ、モデルインタプリタ、モデルデバッガで構成されるルール抽出による教師なしA-NIDSのための一般的なネットワーク内フレームワークであるGenosを提案する。 具体的には、良性データはマルチモーダルであり、通常、特徴空間内の複数の部分空間に位置する。 モデルコンパイラでは,まず特徴空間を部分空間に分割する木に基づくクラスタリングアルゴリズムを提案し,各部分空間のソースモデルを近似する決定境界推定機構を設計する。 Model Interpreterは、重要な属性によって予測を解釈し、ネットワークオペレーターが予測を理解するのを助ける。 Model Debuggerは、影響を受けるサブスペースの細かい調整ルールだけでエラーの修正をインクリメンタルに行い、メンテナンスコストを削減します。 物理ハードウェアを用いたプロトタイプを実装し,100Gbpsのスループット,高い解釈性,過度なオーバヘッドの更新など,優れた性能を示す実験を行った。

Anomaly-based network intrusion detection systems (A-NIDS) use unsupervised models to detect unforeseen attacks. However, existing A-NIDS solutions suffer from low throughput, lack of interpretability, and high maintenance costs. Recent in-network intelligence (INI) exploits programmable switches to offer line-rate deployment of NIDS. Nevertheless, current in-network NIDS are either model-specific or only apply to supervised models. In this paper, we propose Genos, a general in-network framework for unsupervised A-NIDS by rule extraction, which consists of a Model Compiler, a Model Interpreter, and a Model Debugger. Specifically, observing benign data are multimodal and usually located in multiple subspaces in the feature space, we utilize a divide-and-conquer approach for model-agnostic rule extraction. In the Model Compiler, we first propose a tree-based clustering algorithm to partition the feature space into subspaces, then design a decision boundary estimation mechanism to approximate the source model in each subspace. The Model Interpreter interprets predictions by important attributes to aid network operators in understanding the predictions. The Model Debugger conducts incremental updating to rectify errors by only fine-tuning rules on affected subspaces, thus reducing maintenance costs. We implement a prototype using physical hardware, and experiments demonstrate its superior performance of 100 Gbps throughput, great interpretability, and trivial updating overhead.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# スイッチング制御に基づくオープンビットシステムの任意状態遷移

Arbitrary State Transition of Open Qubit System Based on Switching Control ( http://arxiv.org/abs/2403.19251v1 )

ライセンス: Link先を確認
Guangpu Wu, Shibei Xue, Shan Ma, Sen Kuang, Daoyi Dong, Ian R. Petersen, (参考訳) 開キュービット系における任意の状態遷移に対するリアプノフ制御に基づくスイッチング制御戦略を提案する。 コヒーレントベクトル表現を用いて、量子ビットの状態が不変集合や特異値集合に入るのを防止し、最終的にシステムを十分に小さなターゲット状態の近傍に駆動する切換制御戦略を提案する。 既存の作業と比較して、この制御戦略は、特定の目標状態によって課されるシステムモデルに対する厳密な制約を緩和する。 さらに,開キュービット系が有限時間安定 (FTS) と有限時間収縮安定性 (FTCS) を達成する条件をそれぞれ同定する。 これは、特に任意の標的状態の漸近安定性がオープン量子系では達成できないことを考えると、量子状態遷移における重要な改善である。 提案手法の有効性は, 振幅, 強調, 偏光デコヒーレンスなど, 様々な種類のデコヒーレンスの影響を受け, 量子ビットシステムに適用することによって実証された。

We present a switching control strategy based on Lyapunov control for arbitrary state transitions in open qubit systems. With coherent vector representation, we propose a switching control strategy, which can prevent the state of the qubit from entering invariant sets and singular value sets, effectively driving the system ultimately to a sufficiently small neighborhood of target states. In comparison to existing works, this control strategy relaxes the strict constraints on system models imposed by special target states. Furthermore, we identify conditions under which the open qubit system achieves finite-time stability (FTS) and finite-time contractive stability (FTCS), respectively. This represents a critical improvement in quantum state transitions, especially considering the asymptotic stability of arbitrary target states is unattainable in open quantum systems. The effectiveness of our proposed method is convincingly demonstrated through its application in a qubit system affected by various types of decoherence, including amplitude, dephasing and polarization decoherence.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# マルチエージェント強化学習のための潜時時間スパース座標グラフの推定

Inferring Latent Temporal Sparse Coordination Graph for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.19253v1 )

ライセンス: Link先を確認
Wei Duan, Jie Lu, Junyu Xuan, (参考訳) 協調型マルチエージェント強化学習(MARL)において,効果的なエージェント調整が重要である。 エージェント協調はグラフ構造で表すことができるが、MARLにおける一般的なグラフ学習手法は限られている。 それらは一段階の観察にのみ依存し、重要な歴史的経験を無視し、冗長または有害な情報交換を後押しする不十分なグラフに繋がる。 さらに、高密度グラフにおけるアクションペア計算に対する高い計算要求はスケーラビリティを阻害する。 これらの課題に対処するため、MARLのための遅延時間スパース座標グラフ(LTS-CG)を提案する。 LTS-CGはエージェントの履歴観測を利用してエージェントペア確率行列を計算し、エージェント間の知識交換にスパースグラフをサンプリングし、エージェント依存性と関係の不確かさを同時にキャプチャする。 この手順の計算複雑性は、エージェントの数にのみ関係している。 このグラフ学習プロセスは、エージェントが今後の観測を予測できる予測・フューチャー(Predict-Future)と、限られたデータから環境コンテキストを徹底的に把握するInfer-Present(Infer-Present)という、2つの革新的な特徴によってさらに強化されている。 これらの特徴によりLTS-CGは、歴史的およびリアルタイムの情報から時間グラフを構築することができ、政策学習と効果的な協調の際の知識交換を促進することができる。 グラフ学習とエージェントトレーニングは、エンドツーエンドで同時に行われる。 StarCraft IIベンチマークの結果はLTS-CGの優れた性能を裏付けるものだった。

Effective agent coordination is crucial in cooperative Multi-Agent Reinforcement Learning (MARL). While agent cooperation can be represented by graph structures, prevailing graph learning methods in MARL are limited. They rely solely on one-step observations, neglecting crucial historical experiences, leading to deficient graphs that foster redundant or detrimental information exchanges. Additionally, high computational demands for action-pair calculations in dense graphs impede scalability. To address these challenges, we propose inferring a Latent Temporal Sparse Coordination Graph (LTS-CG) for MARL. The LTS-CG leverages agents' historical observations to calculate an agent-pair probability matrix, where a sparse graph is sampled from and used for knowledge exchange between agents, thereby simultaneously capturing agent dependencies and relation uncertainty. The computational complexity of this procedure is only related to the number of agents. This graph learning process is further augmented by two innovative characteristics: Predict-Future, which enables agents to foresee upcoming observations, and Infer-Present, ensuring a thorough grasp of the environmental context from limited data. These features allow LTS-CG to construct temporal graphs from historical and real-time information, promoting knowledge exchange during policy learning and effective collaboration. Graph learning and agent training occur simultaneously in an end-to-end manner. Our demonstrated results on the StarCraft II benchmark underscore LTS-CG's superior performance.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# 拡散モデルからのスタイル模倣に対する知覚不能な防御

Imperceptible Protection against Style Imitation from Diffusion Models ( http://arxiv.org/abs/2403.19254v1 )

ライセンス: Link先を確認
Namhyuk Ahn, Wonhyuk Ahn, KiYoon Yoo, Daesik Kim, Seung-Hun Nam, (参考訳) 拡散モデルの最近の進歩は、画像生成の忠実性を大幅に向上させた。 しかし、これは著作権侵害の懸念を引き起こしている。 それまでの手法では、スタイルの模倣を防ぐために対向的摂動を導入してきたが、そのほとんどは、美術品の視覚的品質の低下に伴うものである。 これを維持することの重要性を認識し、我々はその保護能力を保ちながら視覚的に改善された保護方法を開発した。 この目的のために、人間の目に最も敏感な領域を特定する知覚マップを作成する。 次に、インスタンス認識の精細化によって導かれる保護強度を調整する。 また、知覚的制約銀行を統合して、認識不能性をさらに改善します。 その結果,保護効果を損なうことなく,保護画像の品質を著しく向上させることがわかった。

Recent progress in diffusion models has profoundly enhanced the fidelity of image generation. However, this has raised concerns about copyright infringements. While prior methods have introduced adversarial perturbations to prevent style imitation, most are accompanied by the degradation of artworks' visual quality. Recognizing the importance of maintaining this, we develop a visually improved protection method that preserves its protection capability. To this end, we create a perceptual map to identify areas most sensitive to human eyes. We then adjust the protection intensity guided by an instance-aware refinement. We also integrate a perceptual constraints bank to further improve the imperceptibility. Results show that our method substantially elevates the quality of the protected image without compromising on protection efficacy.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# J-CRe3 - 実世界の参照解決のための日本語会話データセット

J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution ( http://arxiv.org/abs/2403.19259v1 )

ライセンス: Link先を確認
Nobuhiro Ueda, Hideko Habe, Yoko Matsui, Akishige Yuguchi, Seiya Kawano, Yasutomo Kawanishi, Sadao Kurohashi, Koichiro Yoshino, (参考訳) 物理的な世界を指す表現を理解することは、現実世界の人間支援システムにとって、ユーザーが期待する行動を実行するロボットとして不可欠である。 実世界の参照解決において、システムは、エゴセントリックな視点で観察される視覚情報とユーザインタラクションに現れる言語情報を接地しなければならない。 そこで本研究では,マルチモーダル参照解決タスクを提案し,実世界参照解決のための日本語会話データセット(J-CRe3)を構築した。 我々のデータセットには、実世界の会話のエゴセントリックなビデオと対話音声が含まれています。 データセットは、発話中のフレーズとビデオフレーム内のオブジェクト境界ボックスの間のクロスモーダルタグで注釈付けされる。 これらのタグには、述語引数構造やブリッジ参照のような間接参照関係と直接参照関係が含まれる。 また、実験モデルを構築し、マルチモーダル参照解決タスクの課題を明らかにした。

Understanding expressions that refer to the physical world is crucial for such human-assisting systems in the real world, as robots that must perform actions that are expected by users. In real-world reference resolution, a system must ground the verbal information that appears in user interactions to the visual information observed in egocentric views. To this end, we propose a multimodal reference resolution task and construct a Japanese Conversation dataset for Real-world Reference Resolution (J-CRe3). Our dataset contains egocentric video and dialogue audio of real-world conversations between two people acting as a master and an assistant robot at home. The dataset is annotated with crossmodal tags between phrases in the utterances and the object bounding boxes in the video frames. These tags include indirect reference relations, such as predicate-argument structures and bridging references as well as direct reference relations. We also constructed an experimental model and clarified the challenges in multimodal reference resolution tasks.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# NaijaHate: ナイジェリアのTwitter上でのヘイトスピーチ検出を代表データで評価

NaijaHate: Evaluating Hate Speech Detection on Nigerian Twitter Using Representative Data ( http://arxiv.org/abs/2403.19260v1 )

ライセンス: Link先を確認
Manuel Tonneau, Pedro Vitor Quinta de Castro, Karim Lasri, Ibrahim Farouq, Lakshminarayanan Subramanian, Victor Orozco-Olvera, Samuel Fraiberger, (参考訳) オンラインプラットフォームで増加するヘイトフルコンテンツの世界的問題に対処するため、ヘイトスピーチ検出(HSD)モデルは一般的に米国内で収集されたデータセット上で開発され、主要世界の英語方言への一般化に失敗する。 さらに、HSDモデルは、しばしばキュレートされたサンプルで評価され、実環境におけるモデル性能の過大評価に関する懸念が提起される。 本研究では,ナイジェリアのつぶやきの代表的なサンプルを含むHSDにアノテートされた最初のデータセットであるNaijaHateを紹介する。 文献で伝統的に用いられてきたバイアス付きデータセットで評価されたHSDは、代表データに基づいて実世界のパフォーマンスを過大評価している。 また,ナイジェリアのTwitterコンテキストに合わせた事前学習モデルであるNaijaXLM-Tを提案し,HSD性能の最大化において,ドメイン適応型事前学習と微調整が果たす重要な役割を確立する。 最後に、この文脈では、人間がヘイトフルであると宣言されたナイジェリアのツイートの1%を人間がレビューすることで、すべてのヘイトフルコンテンツの60%を中途半端にすることができることを示します。 これらの結果は、堅牢なHSDシステムへの道を歩み、低リソース環境でのヘイトフルコンテンツからソーシャルメディアユーザーを保護している。

To address the global issue of hateful content proliferating in online platforms, hate speech detection (HSD) models are typically developed on datasets collected in the United States, thereby failing to generalize to English dialects from the Majority World. Furthermore, HSD models are often evaluated on curated samples, raising concerns about overestimating model performance in real-world settings. In this work, we introduce NaijaHate, the first dataset annotated for HSD which contains a representative sample of Nigerian tweets. We demonstrate that HSD evaluated on biased datasets traditionally used in the literature largely overestimates real-world performance on representative data. We also propose NaijaXLM-T, a pretrained model tailored to the Nigerian Twitter context, and establish the key role played by domain-adaptive pretraining and finetuning in maximizing HSD performance. Finally, we show that in this context, a human-in-the-loop approach to content moderation where humans review 1% of Nigerian tweets flagged as hateful would enable to moderate 60% of all hateful content. Taken together, these results pave the way towards robust HSD systems and a better protection of social media users from hateful content in low-resource settings.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# 地中真理UWBデータ収集の必要性の除去:深部強化学習を用いた自己教師付きレンジ誤差補正

Removing the need for ground truth UWB data collection: self-supervised ranging error correction using deep reinforcement learning ( http://arxiv.org/abs/2403.19262v1 )

ライセンス: Link先を確認
Dieter Coppens, Ben Van Herbruggen, Adnan Shahid, Eli De Poorter, (参考訳) UWB技術を用いた屋内位置決めは, 精度が1cm程度であることから注目されている。 しかし、マルチパス効果と非視界条件は、アンカーとタグの間の範囲エラーを引き起こす。 これらの範囲のエラーを軽減するための既存のアプローチは、大規模なラベル付きデータセットの収集に依存しており、現実のデプロイメントでは実用的ではない。 本稿では,ラベル付き真実データを必要としない自己教師付き深層強化学習手法を提案する。 強化学習エージェントは、チャネルインパルス応答を状態として、補正を予測し、補正された範囲と推定された範囲の誤差を最小化する。 本発明のエージェントは、軌跡の予測可能性とフィルタリングと平滑化とを組み合わせて発生する補正を反復的に改善することにより、自制的に学習する。 実世界のUWB測定実験は、最先端の教師付き手法と同等の性能を示し、データの依存性を克服し、一般化可能性の制限を欠いている。 これにより、自己教師付き深層強化学習は、実用的でスケーラブルなUWB配列誤り訂正のための有望なソリューションとなる。

Indoor positioning using UWB technology has gained interest due to its centimeter-level accuracy potential. However, multipath effects and non-line-of-sight conditions cause ranging errors between anchors and tags. Existing approaches for mitigating these ranging errors rely on collecting large labeled datasets, making them impractical for real-world deployments. This paper proposes a novel self-supervised deep reinforcement learning approach that does not require labeled ground truth data. A reinforcement learning agent uses the channel impulse response as a state and predicts corrections to minimize the error between corrected and estimated ranges. The agent learns, self-supervised, by iteratively improving corrections that are generated by combining the predictability of trajectories with filtering and smoothening. Experiments on real-world UWB measurements demonstrate comparable performance to state-of-the-art supervised methods, overcoming data dependency and lack of generalizability limitations. This makes self-supervised deep reinforcement learning a promising solution for practical and scalable UWB-ranging error correction.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# 単眼視下ビデオクリップにおける解剖・手術器具の3次元追跡のためのニューラルネットワーク

Neural Fields for 3D Tracking of Anatomy and Surgical Instruments in Monocular Laparoscopic Video Clips ( http://arxiv.org/abs/2403.19265v1 )

ライセンス: Link先を確認
Beerend G. A. Gerats, Jelmer M. Wolterink, Seb P. Mol, Ivo A. M. J. Broeders, (参考訳) 腹腔鏡画像追跡は主に手術器具と解剖学の2つのターゲットタイプに焦点を当てている。 前者はスキルアセスメントに、後者は仮想オーバーレイの投影に必要である。 計器と解剖学的追跡は2つの異なる問題とみなされてきたが, 本稿では, 全構造物の同時追跡手法を提案する。 単一の2次元ビデオクリップに基づいて、我々は、少なくとも1つのフレームで見えるすべての表面の3Dトラックを作成するために、連続的な時空間シーンを表現するために、ニューラルネットワークを訓練する。 装置のサイズが小さいため、画像のごく一部しかカバーしていないため、追跡精度が低下する。 そこで本稿では,楽器のトラック改善のために,クラス重み付けの強化を提案する。 腹腔鏡下胆嚢摘出術におけるビデオクリップの追跡について検討し, 解剖学的構造は92.4%, 機器は87.4%であった。 さらに,本手法のシーン再構成から得られた深度マップの品質を評価する。 これらの擬似深度は、最先端の訓練済み深度推定器に匹敵する品質を有することを示す。 SCAREDデータセットの腹腔鏡ビデオでは、2.9mmのMAEと9.2%の相対誤差で深さを予測する。 以上の結果から,腹腔鏡下シーンの単眼3次元再構成における神経場の有用性が示唆された。

Laparoscopic video tracking primarily focuses on two target types: surgical instruments and anatomy. The former could be used for skill assessment, while the latter is necessary for the projection of virtual overlays. Where instrument and anatomy tracking have often been considered two separate problems, in this paper, we propose a method for joint tracking of all structures simultaneously. Based on a single 2D monocular video clip, we train a neural field to represent a continuous spatiotemporal scene, used to create 3D tracks of all surfaces visible in at least one frame. Due to the small size of instruments, they generally cover a small part of the image only, resulting in decreased tracking accuracy. Therefore, we propose enhanced class weighting to improve the instrument tracks. We evaluate tracking on video clips from laparoscopic cholecystectomies, where we find mean tracking accuracies of 92.4% for anatomical structures and 87.4% for instruments. Additionally, we assess the quality of depth maps obtained from the method's scene reconstructions. We show that these pseudo-depths have comparable quality to a state-of-the-art pre-trained depth estimator. On laparoscopic videos in the SCARED dataset, the method predicts depth with an MAE of 2.9 mm and a relative error of 9.2%. These results show the feasibility of using neural fields for monocular 3D reconstruction of laparoscopic scenes.
翻訳日:2024-03-29 16:53:18 公開日:2024-03-28
# MineLand: 限られたマルチモーダルセンサと物理的ニーズによる大規模マルチエージェントインタラクションのシミュレーション

MineLand: Simulating Large-Scale Multi-Agent Interactions with Limited Multimodal Senses and Physical Needs ( http://arxiv.org/abs/2403.19267v1 )

ライセンス: Link先を確認
Xianhao Yu, Jiaqi Fu, Renjia Deng, Wenjuan Han, (参考訳) 従来のマルチエージェントシミュレータは、完全な情報と限界のない能力を前提としており、社会的相互作用の生態学的妥当性を妨げている。 我々は,限られたマルチモーダル感覚と物理的ニーズを導入することで,このギャップを埋めるマルチエージェントMinecraftシミュレータMineLandを提案する。 我々のシミュレーターは、最大48のエージェントをサポートし、視覚的、聴覚的、環境的な認識が限られており、食物や資源といった物理的なニーズを満たすために、積極的にコミュニケーションし、協力することを余儀なくされます。 これは動的かつ有効なマルチエージェント相互作用を促進する。 さらに、マルチタスク理論にインスパイアされたAIエージェントフレームワークAlexを導入し、エージェントが複雑な調整とスケジューリングを処理できるようにする。 実験により,シミュレータ,対応するベンチマーク,およびAIエージェントフレームワークが,より生態学的・ニュアンスな集団行動に寄与することが示された。 MineLandとAlexのソースコードはhttps://github.com/cocacola-lab/MineLandで公開されている。

Conventional multi-agent simulators often assume perfect information and limitless capabilities, hindering the ecological validity of social interactions. We propose a multi-agent Minecraft simulator, MineLand, that bridges this gap by introducing limited multimodal senses and physical needs. Our simulator supports up to 48 agents with limited visual, auditory, and environmental awareness, forcing them to actively communicate and collaborate to fulfill physical needs like food and resources. This fosters dynamic and valid multi-agent interactions. We further introduce an AI agent framework, Alex, inspired by multitasking theory, enabling agents to handle intricate coordination and scheduling. Our experiments demonstrate that the simulator, the corresponding benchmark, and the AI agent framework contribute to more ecological and nuanced collective behavior. The source code of MineLand and Alex is openly available at https://github.com/cocacola-lab/MineLand.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# sDPO: データを一度に使用してはいけない

sDPO: Don't Use Your Data All at Once ( http://arxiv.org/abs/2403.19270v1 )

ライセンス: Link先を確認
Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim, Sanghoon Kim, Chanjun Park, (参考訳) 大規模言語モデル(LLM)の開発が進むにつれて、人間の好みに合わせることがますます重要になっている。 本稿では、アライメントチューニングのためのDPO(DPO)の拡張であるステップワイズDPO(SDPO)を提案する。 このアプローチでは、利用可能な選好データセットを分割して、すべてを一度に使用するのではなく、段階的に活用する。 本手法は, DPOトレーニングフレームワーク内で, より正確に整列された参照モデルの使用を容易にすることを実証する。 さらに、sDPOは最終モデルをより高性能に訓練し、より多くのパラメータを持つ他の人気のあるLCMよりも優れています。

As development of large language models (LLM) progresses, aligning them with human preferences has become increasingly important. We propose stepwise DPO (sDPO), an extension of the recently popularized direct preference optimization (DPO) for alignment tuning. This approach involves dividing the available preference datasets and utilizing them in a stepwise manner, rather than employing it all at once. We demonstrate that this method facilitates the use of more precisely aligned reference models within the DPO training framework. Furthermore, sDPO trains the final model to be more performant, even outperforming other popular LLMs with more parameters.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# DeepSample: DNNサンプリングによる運用精度評価

DeepSample: DNN sampling-based testing for operational accuracy assessment ( http://arxiv.org/abs/2403.19271v1 )

ライセンス: Link先を確認
Antonio Guerriero, Roberto Pietrantuono, Stefano Russo, (参考訳) ディープニューラルネットワーク(Deep Neural Networks, DNN)は、多くのソフトウェアシステムの分類および回帰タスクのコアコンポーネントである。 企業は、手動でラベル付けする必要があるため、DNNを運用中の入力を表すデータセットでテストする上で、高いコストが発生する。 課題は、ラベル付けコストを削減するために、できるだけ小さなテスト入力の代表的なセットを選択することであり、予測されたDNN精度の、バイアスのない高信頼度推定値を得るのに十分である。 同時に、テスタは、DNNを改善するために可能な限り多くのDNNの誤予測を公開することに興味を持ち、最終的には、小さなデータセットサイズ、信頼できる見積、誤予測露出という3つの目的を追求するテクニックの必要性に終止符を打った。 本研究では,確率的サンプリングに基づく費用対効果評価のためのDNN試験手法のファミリーであるDeepSampleを提案する。 本研究は,どの程度,どの条件下で,確率的サンプリングが課題の解決に有効かを検討する。 我々は,5つの新しいサンプリングベーステスト手法を実装し,これらの手法を総合的に比較し,DNN分類および回帰タスクの3つの最新技術について述べる。 その結果,DNNの精度を高信頼かつ高信頼に評価するためのサンプリングベース試験を低コストで実施するためのガイダンスが得られた。

Deep Neural Networks (DNN) are core components for classification and regression tasks of many software systems. Companies incur in high costs for testing DNN with datasets representative of the inputs expected in operation, as these need to be manually labelled. The challenge is to select a representative set of test inputs as small as possible to reduce the labelling cost, while sufficing to yield unbiased high-confidence estimates of the expected DNN accuracy. At the same time, testers are interested in exposing as many DNN mispredictions as possible to improve the DNN, ending up in the need for techniques pursuing a threefold aim: small dataset size, trustworthy estimates, mispredictions exposure. This study presents DeepSample, a family of DNN testing techniques for cost-effective accuracy assessment based on probabilistic sampling. We investigate whether, to what extent, and under which conditions probabilistic sampling can help to tackle the outlined challenge. We implement five new sampling-based testing techniques, and perform a comprehensive comparison of such techniques and of three further state-of-the-art techniques for both DNN classification and regression tasks. Results serve as guidance for best use of sampling-based testing for faithful and high-confidence estimates of DNN accuracy in operation at low cost.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 土壌栄養と気象因子を統合した作物収量・病気予測のための機械学習手法

A Machine Learning Approach for Crop Yield and Disease Prediction Integrating Soil Nutrition and Weather Factors ( http://arxiv.org/abs/2403.19273v1 )

ライセンス: Link先を確認
Forkan Uddin Ahmed, Annesha Das, Md Zubair, (参考訳) バングラデシュにおける作物選択・病気予測のための知的農業意思決定支援システムの開発が主な目的である。 国の経済は農業に大きく依存している。 しかし、より生産率の高い作物を選択し、作物病を効果的にコントロールすることは、農家が直面する障害である。 これらの課題は、機械学習手法と実世界のデータセットを利用することによって解決される。 推奨されるアプローチは、作物の生産、土壌条件、農業・気象地域、作物病、気象要因に関する様々なデータセットを使用する。 これらのデータセットは、病気の傾向、作物の土壌栄養需要、農業生産の歴史に関する洞察に富んだ情報を提供する。 この知識を取り入れたモデルでは、まず、特定のユーザ位置の土壌栄養に基づいて、主に選択された作物のリストを推奨する。 次に、SARIMAXモデルを用いて、気温、降雨、湿度などの気象変数の予測を行う。 これらの天気予報は、支援ベクトル分類器を用いて、一次作物リストの病気の可能性を予測するために使用される。 最後に, 決定木回帰モデルを用いて作物の収量予測を行い, 関連する病気予測とともに最終作物リストを提供する。 モデルの結果を利用して、農家は最適な生産作物を選択し、作物病を予防し、予防措置をとることで生産損失を減らすことができる。 その結果、計画と意思決定のプロセスが支持され、農家は収穫の可能性を予測できる。 総じて、作物の選択と病気予測のための詳細な意思決定支援システムを提供することで、バングラデシュにおける農業の実践を促進する上で重要な役割を担っている。

The development of an intelligent agricultural decision-supporting system for crop selection and disease forecasting in Bangladesh is the main objective of this work. The economy of the nation depends heavily on agriculture. However, choosing crops with better production rates and efficiently controlling crop disease are obstacles that farmers have to face. These issues are addressed in this research by utilizing machine learning methods and real-world datasets. The recommended approach uses a variety of datasets on the production of crops, soil conditions, agro-meteorological regions, crop disease, and meteorological factors. These datasets offer insightful information on disease trends, soil nutrition demand of crops, and agricultural production history. By incorporating this knowledge, the model first recommends the list of primarily selected crops based on the soil nutrition of a particular user location. Then the predictions of meteorological variables like temperature, rainfall, and humidity are made using SARIMAX models. These weather predictions are then used to forecast the possibilities of diseases for the primary crops list by utilizing the support vector classifier. Finally, the developed model makes use of the decision tree regression model to forecast crop yield and provides a final crop list along with associated possible disease forecast. Utilizing the outcome of the model, farmers may choose the best productive crops as well as prevent crop diseases and reduce output losses by taking preventive actions. Consequently, planning and decision-making processes are supported and farmers can predict possible crop yields. Overall, by offering a detailed decision support system for crop selection and disease prediction, this work can play a vital role in advancing agricultural practices in Bangladesh.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# より良いソーシャルメディアエージェントとしての知識境界とペルソナの動的形状

Knowledge Boundary and Persona Dynamic Shape A Better Social Media Agent ( http://arxiv.org/abs/2403.19275v1 )

ライセンス: Link先を確認
Junkai Zhou, Liang Pang, Ya Jing, Jia Gu, Huawei Shen, Xueqi Cheng, (参考訳) パーソナライズされた人為的エージェントの構築は、ソーシャルネットワークのシミュレーションにおいて重要な意味を持つ。 エージェントは、そのペルソナに属さない世界知識を持ち、現在の行動における多様なペルソナ情報の干渉を排除できないため、エージェントのパーソナライズと人格化を減少させる。 上記の問題を解決するために,パーソナライズされた知識と動的ペルソナ情報に基づくソーシャルメディアエージェントを構築した。 パーソナライズされた知識に対して、外部知識ソースを追加し、エージェントのペルソナ情報とマッチングすることにより、エージェントにパーソナライズされた世界知識を与える。 動的ペルソナ情報については、現在の行動情報を用いてエージェントのペルソナ情報を内部的に検索し、現在の行動に対する多様なペルソナ情報の干渉を低減する。 このエージェントをソーシャルメディアに適したものにするために,ペルソナ,計画,行動,記憶,リフレクションの5つの基本モジュールを設計する。 エージェントのインタラクションと検証環境を実現するため,ソーシャルメディアシミュレーションサンドボックスを構築した。 実験による検証では, 自動評価と人的評価により, 構築したエージェントの有効性が示された。

Constructing personalized and anthropomorphic agents holds significant importance in the simulation of social networks. However, there are still two key problems in existing works: the agent possesses world knowledge that does not belong to its personas, and it cannot eliminate the interference of diverse persona information on current actions, which reduces the personalization and anthropomorphism of the agent. To solve the above problems, we construct the social media agent based on personalized knowledge and dynamic persona information. For personalized knowledge, we add external knowledge sources and match them with the persona information of agents, thereby giving the agent personalized world knowledge. For dynamic persona information, we use current action information to internally retrieve the persona information of the agent, thereby reducing the interference of diverse persona information on the current action. To make the agent suitable for social media, we design five basic modules for it: persona, planning, action, memory and reflection. To provide an interaction and verification environment for the agent, we build a social media simulation sandbox. In the experimental verification, automatic and human evaluations demonstrated the effectiveness of the agent we constructed.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 絶縁体-金属界面の異常がスピン輸送に及ぼす影響

Influence of disorder at Insulator-Metal interface on spin transport ( http://arxiv.org/abs/2403.19277v1 )

ライセンス: Link先を確認
Mahsa Seyed Heydari, Wolfgang Belzig, Niklas Rohling, (参考訳) 本研究は、イットリウム鉄ガーネットとプラチナの薄い反強磁性絶縁体によるスピン輸送の促進を示す実験により、非磁性金属と補償反強磁性絶縁体との界面によるスピン輸送を考察し、界面自体の重要性に焦点を当てる。 スピン輸送は金属中のスピン偏極電子と絶縁体中のマグノンによって輸送される。 我々は,金属中のスピン蓄積の存在,スピンホール効果に起因するスピン電流,界面障害の存在下でのフェルミのゴールデン・ルールを用いた熱勾配を計算した。 完全にクリーンな界面では、面内運動量は、界面を通してスピン輸送を管理する電子-マグノン散乱事象によって保存される。 平面内運動量に対する散乱行列要素の乱れによる拡張がスピン電流に与える影響を計算した。 その結果、多くの実験装置、特に高温の場合、測定されたスピン電流に対する界面障害の影響は比較的小さいが、低温の場合、スピン電流の増加に伴う顕著な減少が期待できることがわかった。

Motivated by experimental work showing enhancement of spin transport between Yttrium Iron Garnet and Platinum by a thin antiferromagnetic insulator between them, we consider spin transport through the interface of a non-magnetic metal and compensated antiferromagnetically ordered insulator and focus on the significance of the interface itself. The spin transport is carried by spin-polarized electrons in the metal and by magnons in the insulator. We compute the spin current in the presence of a spin accumulation in the metal, cause by the spin Hall effect, and a thermal gradient using Fermi's Golden Rule in the presence of interfacial disorder. For a perfectly clean interface, the in-plane momentum is conserved by the electron-magnon scattering events that govern the spin transport through the interface. We calculate how disorder-induced broadening of scattering matrix elements with respect to the in-plane momentum influences the spin current. As a general result, we observe that for many experimental setups, specifically for high temperatures, one should expect a rather small effect of interface disorder on the measured spin current, while for small temperatures there is a significant reduction of a spin current with increasing disorder.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# CAT: ドメイン適応オブジェクト検出のためのクラス間ダイナミクスの爆発

CAT: Exploiting Inter-Class Dynamics for Domain Adaptive Object Detection ( http://arxiv.org/abs/2403.19278v1 )

ライセンス: Link先を確認
Mikhail Kennerley, Jian-Gang Wang, Bharadwaj Veeravalli, Robby T. Tan, (参考訳) ドメイン適応オブジェクト検出は、アノテーション付きデータが利用できないドメインに検出モデルを適用することを目的としている。 半教師型学習者フレームワークを用いて,領域ギャップに対処するための既存手法が提案されている。 しかしながら、基本的な問題は、ラベル付きトレーニングセットのクラス不均衡から生じ、それが偽ラベルの不正確な結果をもたらす可能性がある。 クラス間の関係、特に一方のクラスが多数派であり、他方の少数派である場合、クラスバイアスに大きな影響を及ぼす。 ドメイン適応設定におけるクラスバイアス問題に対処するクラス意識教師(CAT)を提案する。 我々の研究では、クラス間関係モジュール(ICRm)とのクラス関係を近似し、モデル内のバイアスを減らすためにそれを利用する。 このようにして、ドメイン間およびドメイン内の両方の高関連クラスに拡張を適用することで、マイノリティクラスのパフォーマンスを向上すると同時に、多数派クラスに最小限の影響を与えることができます。 分類損失に対するクラス関連重みを実装することにより、バイアスをさらに軽減する。 各種データセットおよびアブレーション実験により,本手法はドメイン適応設定におけるクラスバイアスに対処可能であることが示された。 Cityscapes to Foggy Cityscapesデータセットでは、52.5mAPに達しました。

Domain adaptive object detection aims to adapt detection models to domains where annotated data is unavailable. Existing methods have been proposed to address the domain gap using the semi-supervised student-teacher framework. However, a fundamental issue arises from the class imbalance in the labelled training set, which can result in inaccurate pseudo-labels. The relationship between classes, especially where one class is a majority and the other minority, has a large impact on class bias. We propose Class-Aware Teacher (CAT) to address the class bias issue in the domain adaptation setting. In our work, we approximate the class relationships with our Inter-Class Relation module (ICRm) and exploit it to reduce the bias within the model. In this way, we are able to apply augmentations to highly related classes, both inter- and intra-domain, to boost the performance of minority classes while having minimal impact on majority classes. We further reduce the bias by implementing a class-relation weight to our classification loss. Experiments conducted on various datasets and ablation studies show that our method is able to address the class bias in the domain adaptation setting. On the Cityscapes to Foggy Cityscapes dataset, we attained a 52.5 mAP, a substantial improvement over the 51.2 mAP achieved by the state-of-the-art method.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 政策学習を考慮した微調整言語モデル

Fine-Tuning Language Models with Reward Learning on Policy ( http://arxiv.org/abs/2403.19279v1 )

ライセンス: Link先を確認
Hao Lang, Fei Huang, Yongbin Li, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。 RLHFには、人間の嗜好収集、報酬学習、政策最適化という3つのステップが含まれており、通常は連続して実行される。 しかし、その人気にもかかわらず(固定された)報酬モデルでは、ポリシー最適化がLLMのデータ分散を継続的にシフトするため、不正確なオフディストリビューションに悩まされる可能性がある。 最新のLCMから新たな選好データを繰り返し収集することでこの問題が軽減される可能性があるため、残念ながら、システムはより複雑で最適化が難しい。 本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、ポリシーに関する報酬学習(RLP)を提案する。 具体的には、ポリシーサンプルの堅牢な表現を学習するために、教師なしの多視点学習法を導入する。 一方、ポリシー出力で高品質な嗜好データをシミュレートする合成選好生成手法が開発されている。 3つのベンチマークデータセットに対する大規模な実験は、RLPが一貫して最先端よりも優れていることを示している。 私たちのコードは、 \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp}で利用可能です。

Reinforcement learning from human feedback (RLHF) has emerged as an effective approach to aligning large language models (LLMs) to human preferences. RLHF contains three steps, i.e., human preference collecting, reward learning, and policy optimization, which are usually performed serially. Despite its popularity, however, (fixed) reward models may suffer from inaccurate off-distribution, since policy optimization continuously shifts LLMs' data distribution. Repeatedly collecting new preference data from the latest LLMs may alleviate this issue, which unfortunately makes the resulting system more complicated and difficult to optimize. In this paper, we propose reward learning on policy (RLP), an unsupervised framework that refines a reward model using policy samples to keep it on-distribution. Specifically, an unsupervised multi-view learning method is introduced to learn robust representations of policy samples. Meanwhile, a synthetic preference generation approach is developed to simulate high-quality preference data with policy outputs. Extensive experiments on three benchmark datasets show that RLP consistently outperforms the state-of-the-art. Our code is available at \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp}.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 連続熱機械における量子熱力学的拡張はエネルギーコヒーレンスを必要とする

Quantum-thermodynamic enhancements in continuous thermal machines require energetic coherence ( http://arxiv.org/abs/2403.19280v1 )

ライセンス: Link先を確認
José A. Almanza-Marrero, Gonzalo Manzano, (参考訳) 量子コヒーレンス(英語版)は、熱力学的タスクを実行する量子システムの運用能力に重大な影響を与えることが示されているが、真のコヒーレンス強化熱力学操作の可能性はまだ不明である。 ここでは、定常量子熱機械におけるエネルギーコヒーレンス(異なるエネルギーのレベル間のコヒーレンス)の存在だけが、真の熱力学的優位性をもたらすことを示す。 一方、縮退レベル間のコヒーレンスを示すエンジンやノイズ誘起コヒーレンスを受けるエンジンは、全く同じ(非コヒーレントな)資源を用いて古典的確率的エンジンによって体系的に性能が向上することが示されている。 本稿では, 熱機関と冷凍機の3種類の原型モデルを用いて, 熱力学的不確実性関係と関連する量子エネルギー状態の特徴付けに多目的最適化手法を用いた。

Quantum coherence has been shown to impact the operational capabilities of quantum systems performing thermodynamic tasks in a significant way, and yet the possibility of genuine coherence-enhanced thermodynamic operation remains unclear. Here we show that only the presence of energetic coherence -- coherence between levels with different energies -- in steady-state quantum thermal machines can lead to genuine thermodynamic advantage. On the other hand, engines showing coherence between degenerate levels, or subjected to noise-induced coherence, are shown to be systematically outperformed by classical stochastic engines using exactly the same set of (incoherent) resources. We illustrate our results with three prototypical models of heat engines and refrigerators and employ multi-objective optimization techniques to characterize quantum-enhanced regimes in connection with the thermodynamic uncertainty relation.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 文法的誤り訂正のための非文法的シンタクスに基づくインコンテキスト例選択

Ungrammatical-syntax-based In-context Example Selection for Grammatical Error Correction ( http://arxiv.org/abs/2403.19283v1 )

ライセンス: Link先を確認
Chenming Tang, Fanyi Qu, Yunfang Wu, (参考訳) 大規模言語モデル (LLM) の時代において、インコンテキスト学習 (ICL) は様々なタスクにおけるLLMの有効性を探究する効果的な促進戦略として際立っている。 しかし,LLMを文法的誤り訂正(GEC)に適用することは依然として難しい課題である。 本稿では,GECのための非文法的シンタクスに基づく文内サンプル選択手法を提案する。 具体的には,多種多様なアルゴリズムを用いた構文構造に基づいて文の類似度を測定し,テスト入力に最もよく似た不規則な構文を共有する最適なICL例を同定する。 さらに,選択結果の質をさらに向上する2段階のプロセスも実施する。 英語のGECデータセットのベンチマークでは,提案した非文法的構文に基づく戦略が,複数のLLMを用いた単語マッチングやセマンティクスに基づく手法よりも優れていることが示された。 これは、GECのような構文指向のタスクでは、構文情報にもっと注意を払うことで、LLMのパフォーマンスを効果的に向上させることができることを示している。 この論文の公表後、私たちのコードは公開されます。

In the era of large language models (LLMs), in-context learning (ICL) stands out as an effective prompting strategy that explores LLMs' potency across various tasks. However, applying LLMs to grammatical error correction (GEC) is still a challenging task. In this paper, we propose a novel ungrammatical-syntax-based in-context example selection strategy for GEC. Specifically, we measure similarity of sentences based on their syntactic structures with diverse algorithms, and identify optimal ICL examples sharing the most similar ill-formed syntax to the test input. Additionally, we carry out a two-stage process to further improve the quality of selection results. On benchmark English GEC datasets, empirical results show that our proposed ungrammatical-syntax-based strategies outperform commonly-used word-matching or semantics-based methods with multiple LLMs. This indicates that for a syntax-oriented task like GEC, paying more attention to syntactic information can effectively boost LLMs' performance. Our code will be publicly available after the publication of this paper.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 単語マッチングを超える: 構文が機械翻訳における文脈内例選択を改善した

Going Beyond Word Matching: Syntax Improves In-context Example Selection for Machine Translation ( http://arxiv.org/abs/2403.19285v1 )

ライセンス: Link先を確認
Chenming Tang, Zhixiang Wang, Yunfang Wu, (参考訳) In-context Learning (ICL) は、大規模言語モデル (LLM) の時代において、あるタスクに対して LLM のパワーを誘発するいくつかの例が示される、流行の促進戦略である。 情報のある例をどうやって選ぶかは、未解決の問題である。 機械翻訳(MT)のテキスト内サンプル選択は、構文レベルの深い知識を無視しつつ、表面的な単語レベルの特徴に重点を置いている。 本稿では,ポリノミアル距離を用いた依存関係木間の構文的類似性を計算し,構文に基づくMTの例選択手法を提案する。 さらに,単語レベルと構文レベルの両方の基準で選択された例を組み合わせたアンサンブル戦略を提案する。 英語と6の共通言語による実験結果から,文法はMTのICLを効果的に向上し,12の翻訳方向のうち11のCOMETスコアが最も高い。

In-context learning (ICL) is the trending prompting strategy in the era of large language models (LLMs), where a few examples are demonstrated to evoke LLMs' power for a given task. How to select informative examples remains an open issue. Previous works on in-context example selection for machine translation (MT) focus on superficial word-level features while ignoring deep syntax-level knowledge. In this paper, we propose a syntax-based in-context example selection method for MT, by computing the syntactic similarity between dependency trees using Polynomial Distance. In addition, we propose an ensemble strategy combining examples selected by both word-level and syntax-level criteria. Experimental results between English and 6 common languages indicate that syntax can effectively enhancing ICL for MT, obtaining the highest COMET scores on 11 out of 12 translation directions.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# CoderUJB: 実用的なプログラミングシナリオのための実行可能で統一されたJavaベンチマーク

CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios ( http://arxiv.org/abs/2403.19287v1 )

ライセンス: Link先を確認
Zhengran Zeng, Yidong Wang, Rui Xie, Wei Ye, Shikun Zhang, (参考訳) ソフトウェアエンジニアリングに適した大規模言語モデル(LLM)の進化途上において、現実世界の開発シナリオを正確に反映したベンチマークの必要性が最重要である。 現在のベンチマークは単純すぎるか、ソフトウェア開発のマルチタスクの性質を捉えられないかのどちらかです。 これを解決するために、我々は、実際の開発シナリオを反映して実行可能で多様なJavaプログラミングタスクにまたがるLLMを評価するために設計された新しいベンチマークであるCoderUJBを紹介します。 CoderUJBは17のオープンソースのJavaプロジェクトから派生した2,239のプログラミング質問で構成されており、5つの実用的なプログラミングタスクにまたがっている。 本ベンチマークでは, 各種オープンソースおよびクローズドソース LLM の符号化能力について検討し, 特定のプログラミング言語における事前学習の継続と, 微調整が性能に与える影響について検討した。 この結果は、LSMは強力な可能性を示すが、特に非機能コード生成(例えば、テスト生成と欠陥検出)では課題が残ることを示している。 重要なことは、これらの技術が特定のタスクにおけるモデル性能を阻害し、よりニュアンスな戦略の必要性が示唆されるため、特定のプログラミング言語の事前学習と微調整が継続されている点に注意が必要である。 CoderUJB は LLM におけるプログラミング能力のより現実的な評価に向けて大きな一歩を踏み出し,ソフトウェア工学におけるこれらのモデルの今後の発展に対する貴重な洞察を提供する。

In the evolving landscape of large language models (LLMs) tailored for software engineering, the need for benchmarks that accurately reflect real-world development scenarios is paramount. Current benchmarks are either too simplistic or fail to capture the multi-tasking nature of software development. To address this, we introduce CoderUJB, a new benchmark designed to evaluate LLMs across diverse Java programming tasks that are executable and reflective of actual development scenarios, acknowledging Java's prevalence in real-world software production. CoderUJB comprises 2,239 programming questions derived from 17 real open-source Java projects and spans five practical programming tasks. Our empirical study on this benchmark investigates the coding abilities of various open-source and closed-source LLMs, examining the effects of continued pre-training in specific programming languages code and instruction fine-tuning on their performance. The findings indicate that while LLMs exhibit strong potential, challenges remain, particularly in non-functional code generation (e.g., test generation and defect detection). Importantly, our results advise caution in the specific programming languages continued pre-training and instruction fine-tuning, as these techniques could hinder model performance on certain tasks, suggesting the need for more nuanced strategies. CoderUJB thus marks a significant step towards more realistic evaluations of programming capabilities in LLMs, and our study provides valuable insights for the future development of these models in software engineering.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# 治療効果予測のためのグラフニューラルネットワーク

Graph Neural Networks for Treatment Effect Prediction ( http://arxiv.org/abs/2403.19289v1 )

ライセンス: Link先を確認
George Panagopoulos, Daniele Malitesta, Fragkiskos D. Malliaros, Jun Pang, (参考訳) 電子商取引における因果効果の推定には、大規模な環境では実用的でないような費用がかかる傾向がある。 このような治療効果を実際の介入なしに予測するために機械学習を活用することは、リスクを減らすための標準的なプラクティスである。 しかし、既存の治療効果予測法は、実際の実験から構築され、本質的にはリスクが伴う、相当な大きさの訓練セットに依存する傾向にある。 本研究では,電子商取引データに共通するグラフに依存して,必要なトレーニングセットのサイズを小さくするグラフニューラルネットワークを提案する。 具体的には、ラベル付きインスタンスが制限されたノード回帰として問題を認識し、従来の因果効果推定器に似た2モデルニューラルアーキテクチャを開発し、符号化のための様々なメッセージパス層をテストする。 さらに、追加的なステップとして、モデルと取得関数を組み合わせることで、極めて低い実験予算で設定したトレーニングセットの作成をガイドする。 各ステップは他のモデルやポリシーと別々に使用できるので、フレームワークは柔軟です。 実大規模ネットワークにおける実験は、実験リスクを減らすために限定ラベル付きサンプルで一般化できるモデルの必要性を、しばしばランダムに裏付ける、最先端技術に対する我々の方法論の明確な優位性を示している。

Estimating causal effects in e-commerce tends to involve costly treatment assignments which can be impractical in large-scale settings. Leveraging machine learning to predict such treatment effects without actual intervention is a standard practice to diminish the risk. However, existing methods for treatment effect prediction tend to rely on training sets of substantial size, which are built from real experiments and are thus inherently risky to create. In this work we propose a graph neural network to diminish the required training set size, relying on graphs that are common in e-commerce data. Specifically, we view the problem as node regression with a restricted number of labeled instances, develop a two-model neural architecture akin to previous causal effect estimators, and test varying message-passing layers for encoding. Furthermore, as an extra step, we combine the model with an acquisition function to guide the creation of the training set in settings with extremely low experimental budget. The framework is flexible since each step can be used separately with other models or policies. The experiments on real large-scale networks indicate a clear advantage of our methodology over the state of the art, which in many cases performs close to random underlining the need for models that can generalize with limited labeled samples to reduce experimental risks.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# FlowDepth: 自己監督型単眼深度推定のための光フローの分離

FlowDepth: Decoupling Optical Flow for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2403.19294v1 )

ライセンス: Link先を確認
Yiyang Sun, Zhiyuan Xu, Xiaonian Wang, Jing Yao, (参考訳) 自己教師型マルチフレーム法は,現在,深度推定において有望な成果を上げている。 しかし、これらの手法は、静的な仮定を破る移動物体によってしばしばミスマッチ問題に悩まされる。 さらに、画像の高周波数領域や低テクスチャ領域における測光誤差を計算する際に不公平が発生することがある。 これらの問題に対処するため、既存のアプローチでは、移動しているオブジェクトを分離し、損失レベルでのみモデルを改善するために、追加のセマンティックプリオリブラックボックスネットワークを使用している。 そこで本研究では,ダイナミックモーションフローモジュール(DMFM)が機構ベースのアプローチで光フローを分離し,動的領域をワープしてミスマッチ問題を解決するフローDepthを提案する。 高フレック領域と低テクスチャ領域による光度誤差の不公平性については,入力と損失レベルでそれぞれDepth-Cue-Aware Blur(DCABlur)とCost-Volumeの空間損失を用いて解決する。 KITTIとCityscapesのデータセットによる実験結果から,本手法は最先端の手法よりも優れていることがわかった。

Self-supervised multi-frame methods have currently achieved promising results in depth estimation. However, these methods often suffer from mismatch problems due to the moving objects, which break the static assumption. Additionally, unfairness can occur when calculating photometric errors in high-freq or low-texture regions of the images. To address these issues, existing approaches use additional semantic priori black-box networks to separate moving objects and improve the model only at the loss level. Therefore, we propose FlowDepth, where a Dynamic Motion Flow Module (DMFM) decouples the optical flow by a mechanism-based approach and warps the dynamic regions thus solving the mismatch problem. For the unfairness of photometric errors caused by high-freq and low-texture regions, we use Depth-Cue-Aware Blur (DCABlur) and Cost-Volume sparsity loss respectively at the input and the loss level to solve the problem. Experimental results on the KITTI and Cityscapes datasets show that our method outperforms the state-of-the-art methods.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# クープマン作用素から見た量子振動系の量子漸近振幅

Quantum asymptotic amplitude for quantum oscillatory systems from the Koopman operator viewpoint ( http://arxiv.org/abs/2403.19297v1 )

ライセンス: Link先を確認
Yuzuru Kato, (参考訳) 我々は最近、量子非線形発振器の漸近位相の完全な量子力学的定義を提案し、これは強い量子状態にも適用できる(加藤と中尾2022カオス32063133]。 本研究では,古典的非線形発振器の漸近振幅の定義をクープマン作用素理論に基づいて自然に拡張する量子発振系に対する量子漸近振幅の定義を提案する。 量子振動系に対する漸近振幅は、最大の非ゼロ実固有値に付随する後向きのリウヴィル作用素の固有値を用いて導入する。 量子カー効果を持つ量子ファンデルポル発振器の例を用いて、量子極限サイクル発振を示す量子ファンデルポルモデルと、非線形減衰を持つ量子スクイーズおよび縮退パラメトリック発振器を用いた量子ファンデルポルモデルを用いて、提案した量子漸近振幅が、一定速度で指数関数的に減衰する等安定振幅値を適切に得ることを示す。

We have recently proposed a fully quantum-mechanical definition of the asymptotic phase for quantum nonlinear oscillators, which is also applicable in the strong quantum regime [Kato and Nakao 2022 Chaos 32 063133]. In this study, we propose a definition of the quantum asymptotic amplitude for quantum oscillatory systems, which extends naturally the definition of the asymptotic amplitude for classical nonlinear oscillators on the basis of the Koopman operator theory. We introduce the asymptotic amplitude for quantum oscillatory systems by using the eigenoperator of the backward Liouville operator associated with the largest non-zero real eigenvalue. Using examples of the quantum van der Pol oscillator with the quantum Kerr effect, exhibiting quantum limit-cycle oscillations, and the quantum van der Pol model with the quantum squeezing and degenerate parametric oscillator with nonlinear damping, exhibiting quantum noise-induced oscillations, we illustrate that the proposed quantum asymptotic amplitude appropriately yields isostable amplitude values that decay exponentially with a constant rate.
翻訳日:2024-03-29 16:43:33 公開日:2024-03-28
# ポスト量子暗号と古典暗号との比較

Post Quantum Cryptography & its Comparison with Classical Cryptography ( http://arxiv.org/abs/2403.19299v1 )

ライセンス: Link先を確認
Tanmay Tripathi, Abhinav Awasthi, Shaurya Pratap Singh, Atul Chaturvedi, (参考訳) 暗号は機密情報の保護とセキュアなコミュニケーションの促進に重要な役割を果たしている。 古典暗号は数学的計算に依存するが、量子暗号は量子力学の原理に基づいており、安全な通信において新たなフロンティアを提供する。 量子暗号システムはセキュリティに新しい次元を導入し、盗聴を検知し阻止する。 量子暗号と古典的暗号とは対照的に、量子力学がセキュアな通信の風景にどのように革命をもたらすかが明らかになる。

Cryptography plays a pivotal role in safeguarding sensitive information and facilitating secure communication. Classical cryptography relies on mathematical computations, whereas quantum cryptography operates on the principles of quantum mechanics, offering a new frontier in secure communication. Quantum cryptographic systems introduce novel dimensions to security, capable of detecting and thwarting eavesdropping attempts. By contrasting quantum cryptography with its classical counterpart, it becomes evident how quantum mechanics revolutionizes the landscape of secure communication.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# 高等教育のための生成型AIチャットボットの概念フレームワークの開発

Developing generative AI chatbots conceptual framework for higher education ( http://arxiv.org/abs/2403.19303v1 )

ライセンス: Link先を確認
Joshua Ebere Chukwuere, (参考訳) 本研究は、高等教育における生成人工知能(GAI)チャットボットの急速な変化を探求するものである。 ChatGPT、HuggingChat、Google BardといったAIチャットボットは、教育を含むさまざまな分野において、ますます一般的なものになりつつある。 彼らの受け入れはまだ初期段階にあり、様々な可能性と障害がある。 しかし、高等教育におけるその潜在能力は特に注目され、教師や学生に安価で個人化された支援を提供する。 高等教育機関(HEI)における生成AIチャットボットの利用を支援する包括的なフレームワークの作成が、このプロジェクトの目的である。 Chukwuere Generative AI Chatbots Acceptance Model(CGAICAM)は、TAM、UTAUT2、TBBなどの有名なフレームワークから要素を、楽観主義、革新性、不快感、不安感などの変数とともに合成した結果である。 この研究は、IEEE、ACM、ScienceDirect、Google Scholarなどのデータベースから、既存の文献を包括的に分析する研究手法を用いて、AIチャットボットが高等教育に与える影響を理解し、その効果的な実装のために重要な要素を特定することを目的としている。 高等教育におけるAIチャットボットの利用に焦点を当てた、2020年から2023年の間に出版されたピアレビュー英語の出版物が、検索基準の主な焦点となった。 結果は、AIチャットボットが学生のエンゲージメントを改善し、教育プロセスを合理化し、管理と研究の業務をサポートするためにどれだけのことができるかを実証する。 しかし、不愉快な学生の感情、AIが生み出す素材の正確性への疑念、新しい技術への不安と神経質さなど、明らかな困難もある。

This research explores the quickly changing field of generative artificial intelligence (GAI) chatbots in higher education, an industry that is undergoing major technological changes. AI chatbots, such as ChatGPT, HuggingChat, and Google Bard, are becoming more and more common in a variety of sectors, including education. Their acceptance is still in its early phases, with a variety of prospects and obstacles. However, their potential in higher education is particularly noteworthy, providing lecturers and students with affordable, individualized support. Creating a comprehensive framework to aid the usage of generative AI chatbots in higher education institutions (HEIs) is the aim of this project. The Chukwuere Generative AI Chatbots Acceptance Model (CGAICAM) is the result of this study's synthesis of elements from well-known frameworks, including the TAM, UTAUT2, TPB, and others along with variables like optimism, innovativeness, discomfort, insecurity, and others. Using a research method that encompasses a comprehensive analysis of extant literature from databases such as IEEE, ACM, ScienceDirect, and Google Scholar, the study aims to comprehend the implications of AI Chatbots on higher education and pinpoint critical elements for their efficacious implementation. Peer-reviewed English-language publications published between 2020 and 2023 with a focus on the use of AI chatbots in higher education were the main focus of the search criteria. The results demonstrate how much AI chatbots can do to improve student engagement, streamline the educational process, and support administrative and research duties. But there are also clear difficulties, such as unfavorable student sentiments, doubts about the veracity of material produced by AI, and unease and nervousness with new technologies.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# MATEval: オープンなテキスト評価を改善するためのマルチエージェントの議論フレームワーク

MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation ( http://arxiv.org/abs/2403.19305v1 )

ライセンス: Link先を確認
Yu Li, Shenyu Zhang, Rui Wu, Xiutian Huang, Yongrui Chen, Wenhao Xu, Guilin Qi, Dehai Min, (参考訳) ジェネレーティブ・Large Language Models(LLM)の最近の進歩は目覚ましいが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 これらのモデルによって生成されるテキストの品質を評価することは、特にオープンエンドテキストにおいて、一貫して重要な課題を提示してきた。 この問題に対処するため、近年の研究では、LCMを評価対象として活用する可能性について検討している。 単一のLCMを評価剤として使用するとポテンシャルを示すが、かなりの不確実性と不安定性に満ちている。 GPT-4 のような LLM によって全てのエージェントを再生する "マルチエージェントテキスト評価フレームワーク" を提案する。 MATEvalフレームワークは、複数のエージェントのインタラクションを統合してオープンなテキストを評価する、人間の協調的な議論手法をエミュレートする。 本フレームワークは,自己回帰とCoT(Chain-of-Thought)戦略,フィードバック機構,評価プロセスの深度と広さの向上,コンセンサスに向けた議論の導出,エラーローカライゼーションやエラータイプ,スコアリングなどの総合的な評価レポートを生成する。 実験結果から,本フレームワークは既存のオープンエンドテキスト評価手法よりも優れており,LLMのテキスト評価における不確実性や不安定性に対処する上で,人間の評価と高い相関性が得られることが明らかとなった。 さらに,本フレームワークは,産業シナリオにおけるテキスト評価とモデル反復の効率を大幅に向上させる。

Recent advancements in generative Large Language Models(LLMs) have been remarkable, however, the quality of the text generated by these models often reveals persistent issues. Evaluating the quality of text generated by these models, especially in open-ended text, has consistently presented a significant challenge. Addressing this, recent work has explored the possibility of using LLMs as evaluators. While using a single LLM as an evaluation agent shows potential, it is filled with significant uncertainty and instability. To address these issues, we propose the MATEval: A "Multi-Agent Text Evaluation framework" where all agents are played by LLMs like GPT-4. The MATEval framework emulates human collaborative discussion methods, integrating multiple agents' interactions to evaluate open-ended text. Our framework incorporates self-reflection and Chain-of-Thought (CoT) strategies, along with feedback mechanisms, enhancing the depth and breadth of the evaluation process and guiding discussions towards consensus, while the framework generates comprehensive evaluation reports, including error localization, error types and scoring. Experimental results show that our framework outperforms existing open-ended text evaluation methods and achieves the highest correlation with human evaluation, which confirms the effectiveness and advancement of our framework in addressing the uncertainties and instabilities in evaluating LLMs-generated text. Furthermore, our framework significantly improves the efficiency of text evaluation and model iteration in industrial scenarios.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# スパース・ジェネレーション:プシュード・ラベル・スパースをポイントで弱体化させる

Sparse Generation: Making Pseudo Labels Sparse for weakly supervision with points ( http://arxiv.org/abs/2403.19306v1 )

ライセンス: Link先を確認
Tian Ma, Chuyang Shang, Wanzhu Ren, Yuancheng Li, Jiiayi Yang, Jiali Qian, (参考訳) 近年,コンピュータビジョン分野におけるPWSOD法の研究が注目されている。 しかし、既存の擬似ラベル生成手法は、少量の教師付きアノテーションデータと高密度オブジェクト検出タスクにおいて、不十分に機能する。 モデルのスパース出力の結果,弱い教師付き擬似ラベルの生成を考慮し,スパース生成と呼ばれる手法を提案する。 データと検出器モデルの関係を通して密度テンソルを構築し、その3つのパラメータを最適化し、座標計算によりスパーステンソルを取得し、より高品質な擬似ラベルを間接的に取得し、少量の教師付きアノテーションデータしか使用できない状況下でモデルの密度問題を解く。 広く使われている2つのオープンソースデータセット(RSOD, SIMD)と自己構築データセット(Bullet-Hole)について, 実験結果から, 提案手法は, その最先端手法と比較して, 全体的な性能指標において有意な優位性を示した。

In recent years, research on point weakly supervised object detection (PWSOD) methods in the field of computer vision has attracted people's attention. However, existing pseudo labels generation methods perform poorly in a small amount of supervised annotation data and dense object detection tasks. We consider the generation of weakly supervised pseudo labels as the result of model's sparse output, and propose a method called Sparse Generation to make pseudo labels sparse. It constructs dense tensors through the relationship between data and detector model, optimizes three of its parameters, and obtains a sparse tensor via coordinated calculation, thereby indirectly obtaining higher quality pseudo labels, and solving the model's density problem in the situation of only a small amount of supervised annotation data can be used. On two broadly used open-source datasets (RSOD, SIMD) and a self-built dataset (Bullet-Hole), the experimental results showed that the proposed method has a significant advantage in terms of overall performance metrics, comparing to that state-of-the-art method.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# ミニマルインタラクションによる3次元シーン再構成

Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction ( http://arxiv.org/abs/2403.19314v1 )

ライセンス: Link先を確認
Xiaoyang Lyu, Chirui Chang, Peng Dai, Yang-tian Sun, Xiaojuang Qi, (参考訳) 多視点画像からのシーン再構成は、コンピュータビジョンとグラフィックスの基本的な問題である。 最近のニューラル暗黙的表面再構成法は高品質な結果を得たが、自然分解物や複雑な対象/背景の合成が存在しないため、再構成されたシーンの3次元形状の編集と操作は難しいままである。 本稿では,人間同士の相互作用を最小限に抑えた3次元再構成手法であるTotal-Decomを提案する。 提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。 トータルデコムは、分解の粒度と品質をリアルタイムに制御しながら、最小限の人間のアノテーションを必要とする。 提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。 コードは \href{https://github.com/CVMI-Lab/Total-Decom.git}{https://github.com/CVMI-Lab/Total-Decom.git} で公開されている。

Scene reconstruction from multi-view images is a fundamental problem in computer vision and graphics. Recent neural implicit surface reconstruction methods have achieved high-quality results; however, editing and manipulating the 3D geometry of reconstructed scenes remains challenging due to the absence of naturally decomposed object entities and complex object/background compositions. In this paper, we present Total-Decom, a novel method for decomposed 3D reconstruction with minimal human interaction. Our approach seamlessly integrates the Segment Anything Model (SAM) with hybrid implicit-explicit neural surface representations and a mesh-based region-growing technique for accurate 3D object decomposition. Total-Decom requires minimal human annotations while providing users with real-time control over the granularity and quality of decomposition. We extensively evaluate our method on benchmark datasets and demonstrate its potential for downstream applications, such as animation and scene editing. The code is available at \href{https://github.com/CVMI-Lab/Total-Decom.git}{https://github.com/CVMI-Lab/Total-Decom.git}.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# イベントカメラを用いたハイパーグラフに基づく多視点行動認識

Hypergraph-based Multi-View Action Recognition using Event Cameras ( http://arxiv.org/abs/2403.19316v1 )

ライセンス: Link先を確認
Yue Gao, Jiaxuan Lu, Siqi Li, Yipeng Li, Shaoyi Du, (参考訳) ビデオデータからのアクション認識は、幅広い応用の基盤となる。 シングルビューアクション認識は、単一の視点に依存するため、制限に直面します。 対照的に、マルチビューアプローチは、様々な視点から補完情報をキャプチャし、精度を向上する。 近年、イベントカメラは革新的なバイオインスパイアされたセンサーとして登場し、イベントベースの行動認識の進歩につながっている。 しかし、既存の作業は主にシングルビューのシナリオに焦点を当てており、特に情報不足やセマンティックなミスアライメントといった課題において、マルチビューのイベントデータエクスプロイトのギャップを残している。 このギャップを埋めるために、マルチビューイベントベースのアクション認識フレームワークHyperMVを導入する。 HyperMVは離散イベントデータをフレームのような表現に変換し、共有畳み込みネットワークを用いてビュー関連の特徴を抽出する。 セグメントを頂点として扱い、ルールベースとKNNベースの戦略を用いてハイパーエッジを構築することにより、視点と時間的特徴間の関係をキャプチャするマルチビューハイパーグラフニューラルネットワークを確立する。 頂点アテンションハイパーグラフの伝播も、機能融合の強化のために導入されている。 この領域での研究を促進するために、最大規模のマルチビューイベントベースのアクションデータセットである$\text{THU}^{\text{MV-EACT}}\text{-50}$を示し、既存のデータセットを10倍以上上回る6つの視点からの50のアクションを含む。 実験結果から,HyperMVはクロスオブジェクトとクロスビューの両方のシナリオにおいてベースラインを著しく上回り,フレームベースマルチビュー動作認識の最先端性を上回ることがわかった。

Action recognition from video data forms a cornerstone with wide-ranging applications. Single-view action recognition faces limitations due to its reliance on a single viewpoint. In contrast, multi-view approaches capture complementary information from various viewpoints for improved accuracy. Recently, event cameras have emerged as innovative bio-inspired sensors, leading to advancements in event-based action recognition. However, existing works predominantly focus on single-view scenarios, leaving a gap in multi-view event data exploitation, particularly in challenges like information deficit and semantic misalignment. To bridge this gap, we introduce HyperMV, a multi-view event-based action recognition framework. HyperMV converts discrete event data into frame-like representations and extracts view-related features using a shared convolutional network. By treating segments as vertices and constructing hyperedges using rule-based and KNN-based strategies, a multi-view hypergraph neural network that captures relationships across viewpoint and temporal features is established. The vertex attention hypergraph propagation is also introduced for enhanced feature fusion. To prompt research in this area, we present the largest multi-view event-based action dataset $\text{THU}^{\text{MV-EACT}}\text{-50}$, comprising 50 actions from 6 viewpoints, which surpasses existing datasets by over tenfold. Experimental results show that HyperMV significantly outperforms baselines in both cross-subject and cross-view scenarios, and also exceeds the state-of-the-arts in frame-based multi-view action recognition.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# 国境を越えて - 判例要約におけるクロス・ジャッジ・トランスファーの考察-

Beyond Borders: Investigating Cross-Jurisdiction Transfer in Legal Case Summarization ( http://arxiv.org/abs/2403.19317v1 )

ライセンス: Link先を確認
T. Y. S. S Santosh, Vatsal Venkatkrishna, Saptarshi Ghosh, Matthias Grabmair, (参考訳) 法律専門家は、膨大な数の長い判決を管理するという課題に直面しており、自動化された訴訟の要約が不可欠である。 しかし、以前のアプローチは、主に同じ管轄区域内でこれらのモデルを訓練し評価することに焦点を当てていた。 本研究は, 判例要約モデルの断続的一般化性について検討し, 特に, 参照要約ができない対象区域の訴訟を効果的に要約する方法を考察する。 特に,対象データに対する教師なしアルゴリズムから得られたラベル付き対象管轄権コーパスと抽出銀サマリーの補足モデルが転送性能を向上させるかを検討する。 異なる地区の3つのデータセットに関する包括的な研究は、転送性能の向上における事前学習の役割を強調している。 我々は、効率的な転送のために最適なソースデータセットを選択する際に、管轄的類似性の重要さに光を当てた。 さらに, 実験結果から, 未ラベル対象データの導入により, 一般的な事前学習モデルの改善が得られ, 銀サマリーの導入により, さらなるゲインがもたらされることが示唆された。 この拡張は、ソースとターゲットの管轄区域間の限定的なアライメントを含む抽出データセットやシナリオを扱う場合に特に有用である。 本研究は, 管轄区域を超越した, 適応可能な判例要約システムを開発する上で重要な知見を提供する。

Legal professionals face the challenge of managing an overwhelming volume of lengthy judgments, making automated legal case summarization crucial. However, prior approaches mainly focused on training and evaluating these models within the same jurisdiction. In this study, we explore the cross-jurisdictional generalizability of legal case summarization models.Specifically, we explore how to effectively summarize legal cases of a target jurisdiction where reference summaries are not available. In particular, we investigate whether supplementing models with unlabeled target jurisdiction corpus and extractive silver summaries obtained from unsupervised algorithms on target data enhances transfer performance. Our comprehensive study on three datasets from different jurisdictions highlights the role of pre-training in improving transfer performance. We shed light on the pivotal influence of jurisdictional similarity in selecting optimal source datasets for effective transfer. Furthermore, our findings underscore that incorporating unlabeled target data yields improvements in general pre-trained models, with additional gains when silver summaries are introduced. This augmentation is especially valuable when dealing with extractive datasets and scenarios featuring limited alignment between source and target jurisdictions. Our study provides key insights for developing adaptable legal case summarization systems, transcending jurisdictional boundaries.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# TableLLM: 実際のオフィス利用シナリオにおけるLLMによる語彙データ操作の実現

TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios ( http://arxiv.org/abs/2403.19318v1 )

ライセンス: Link先を確認
Xiaokang Zhang, Jing Zhang, Zeyao Ma, Yang Li, Bohan Zhang, Guanlin Li, Zijun Yao, Kangli Xu, Jinchang Zhou, Daniel Zhang-Li, Jifan Yu, Shu Zhao, Juanzi Li, Jie Tang, (参考訳) 文書やスプレッドシートに埋め込まれていても、実際のオフィスシナリオに対応できるような、表形式のデータ操作タスクを巧みに処理するための、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)であるTableLLMを紹介します。 本稿では, 推論プロセス拡張戦略を取り入れた遠隔指導手法を提案し, 推論パターンのより効率的な理解を支援するとともに, 自動生成データの品質確保を図る。 TableLLMの性能を評価するため,文書フォーマットとスプレッドシートフォーマットの両方に対処するためのベンチマークを作成し,両方のシナリオを処理可能な十分に構成された評価パイプラインを構築した。 より詳細な評価は、既存の汎用および表型データ中心のLLMと比較して、TableLLMの利点を裏付けるものである。 我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションを公開した。

We introduce TableLLM, a robust large language model (LLM) with 13 billion parameters, purpose-built for proficiently handling tabular data manipulation tasks, whether they are embedded within documents or spreadsheets, catering to real-world office scenarios. We propose a distant supervision method for training, which comprises a reasoning process extension strategy, aiding in training LLMs to understand reasoning patterns more effectively as well as a cross-way validation strategy, ensuring the quality of the automatically generated data. To evaluate the performance of TableLLM, we have crafted a benchmark tailored to address both document and spreadsheet formats as well as constructed a well-organized evaluation pipeline capable of handling both scenarios. Thorough evaluations underscore the advantages of TableLLM when compared to various existing general-purpose and tabular data-focused LLMs. We have publicly released the model checkpoint, source code, benchmarks, and a web application for user interaction.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# Mesh2NeRF: ニューラルラジアンスフィールド表現と生成のためのダイレクトメッシュスーパービジョン

Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation ( http://arxiv.org/abs/2403.19319v1 )

ライセンス: Link先を確認
Yujin Chen, Yinyu Nie, Benjamin Ummenhofer, Reiner Birkl, Michael Paulitsch, Matthias Müller, Matthias Nießner, (参考訳) 本稿では,3次元生成タスクのためのテクスチャメッシュから地中構造放射場を導出するMesh2NeRFを提案する。 多くの3D生成アプローチは3Dシーンをトレーニングのための放射場として表現している。 それらの地平線放射場は、通常、大規模な合成3Dデータセットからのマルチビューレンダリングが組み込まれており、多くの場合、閉塞や不適合の問題によるアーティファクトが生じる。 そこで,Mesh2NeRFでは,3次元メッシュから地中構造ラジアンス場を直接取得する解析解を提案し,表面の厚みを規定した占有関数で密度場を特徴付けるとともに,メッシュと環境光の両方を考慮した反射関数によるビュー依存色を決定する。 Mesh2NeRFは、生成型NeRFと単一シーン表現のトレーニングのための直接監督を提供する正確な放射場を抽出する。 各種タスクにおけるMesh2NeRFの有効性を検証し,ABOデータセット上での単一シーン表現におけるPSNRの3.12dB向上,ShapeNetカーの単一条件生成における0.69 PSNR向上,およびObjaverse Mugsの非条件生成におけるNeRFからのメッシュ抽出の改善など,PSNRの注目すべき3.12dB向上を実現した。

We present Mesh2NeRF, an approach to derive ground-truth radiance fields from textured meshes for 3D generation tasks. Many 3D generative approaches represent 3D scenes as radiance fields for training. Their ground-truth radiance fields are usually fitted from multi-view renderings from a large-scale synthetic 3D dataset, which often results in artifacts due to occlusions or under-fitting issues. In Mesh2NeRF, we propose an analytic solution to directly obtain ground-truth radiance fields from 3D meshes, characterizing the density field with an occupancy function featuring a defined surface thickness, and determining view-dependent color through a reflection function considering both the mesh and environment lighting. Mesh2NeRF extracts accurate radiance fields which provides direct supervision for training generative NeRFs and single scene representation. We validate the effectiveness of Mesh2NeRF across various tasks, achieving a noteworthy 3.12dB improvement in PSNR for view synthesis in single scene representation on the ABO dataset, a 0.69 PSNR enhancement in the single-view conditional generation of ShapeNet Cars, and notably improved mesh extraction from NeRF in the unconditional generation of Objaverse Mugs.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# マルチモーダル大言語モデルにおける推論のプラグ・アンド・プレイグラウンド化

Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models ( http://arxiv.org/abs/2403.19322v1 )

ライセンス: Link先を確認
Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Ziyong Feng, Yongle Zhao, Yin Xie, (参考訳) マルチモーダル大規模言語モデル(MLLM)の急増は、命令の追従と推論において顕著な創発的な能力から、視覚的推論の分野を大きく前進させてきた。 しかし、非ロスレスな画像トークン化によって制約されたほとんどのMLLMは、特に高解像度画像において、テキストやオブジェクトの詳細を包括的にキャプチャすることができない。 そこで本稿では,MLLMにおける推論のプラグ・アンド・プレイグラウンド化のための新しいフレームワークであるP2Gを提案する。 具体的には、P2GはMLLMのツール使用の可能性を利用して、画像の重要な視覚的およびテキスト的オブジェクトへのオンザフライグラウンド化を達成するために専門家エージェントを雇い、マルチモーダルプロンプトによる意図的な推論を実現する。 我々はさらに、高解像度画像に挑戦する際のオブジェクト間の関係やテキストを理解するMLLMの能力を評価するためのベンチマークであるP2GBを作成する。 視覚的推論タスクに関する総合的な実験は、P2Gの優位性を示している。 注目すべきは、P2Gは7Bのバックボーンを持つP2GBでGPT-4Vと同等の性能を達成したことである。 私たちの研究は、推論のプラグ&プレイグラウンド化の可能性を強調し、モデルスケーリング以外の有望な選択肢を開放します。

The surge of Multimodal Large Language Models (MLLMs), given their prominent emergent capabilities in instruction following and reasoning, has greatly advanced the field of visual reasoning. However, constrained by their non-lossless image tokenization, most MLLMs fall short of comprehensively capturing details of text and objects, especially in high-resolution images. To address this, we propose P2G, a novel framework for plug-and-play grounding of reasoning in MLLMs. Specifically, P2G exploits the tool-usage potential of MLLMs to employ expert agents to achieve on-the-fly grounding to critical visual and textual objects of image, thus achieving deliberate reasoning via multimodal prompting. We further create P2GB, a benchmark aimed at assessing MLLMs' ability to understand inter-object relationships and text in challenging high-resolution images. Comprehensive experiments on visual reasoning tasks demonstrate the superiority of P2G. Noteworthy, P2G achieved comparable performance with GPT-4V on P2GB, with a 7B backbone. Our work highlights the potential of plug-and-play grounding of reasoning and opens up a promising alternative beyond model scaling.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# MedBN: 悪意のあるテストサンプルに対するロバストなテスト時間適応

MedBN: Robust Test-Time Adaptation against Malicious Test Samples ( http://arxiv.org/abs/2403.19326v1 )

ライセンス: Link先を確認
Hyejin Park, Jeongyeon Hwang, Sunung Mun, Sangdon Park, Jungseul Ok, (参考訳) テスト時間適応(TTA)は、トレーニングデータとテストデータの間の予期せぬ分散シフトによるパフォーマンス劣化に対処する、有望なソリューションとして登場した。 最近のTTAメソッドはデータバリエーションのテストに適応する上で優れているが、そのような適応性は悪意のある例に対する脆弱性モデルを公開する。 以前の研究では、テストバッチのごく一部が不正に操作された場合でも、TTA内のセキュリティ脆弱性が明らかになった。 そこで本研究では, バッチ正規化層内におけるテスト時間推論における統計評価において, 中央値のロバスト性を利用する中央値バッチ正規化(MedBN)を提案する。 提案手法はアルゴリズムに依存しないため,既存のTTAフレームワークとのシームレスな統合が可能となる。 CIFAR10-C、CIFAR100-C、ImageNet-Cなどのベンチマークデータセットに対する実験結果から、MedBNは、インスタントおよび累積攻撃の両方を含む、異なる攻撃シナリオにおける堅牢なパフォーマンスを維持する上で、既存のアプローチよりも優れていることが一貫して示されている。 大規模な実験を通じて,攻撃のない場合でも,我々のアプローチが性能を維持することを示し,ロバスト性と性能の両立を実現している。

Test-time adaptation (TTA) has emerged as a promising solution to address performance decay due to unforeseen distribution shifts between training and test data. While recent TTA methods excel in adapting to test data variations, such adaptability exposes a model to vulnerability against malicious examples, an aspect that has received limited attention. Previous studies have uncovered security vulnerabilities within TTA even when a small proportion of the test batch is maliciously manipulated. In response to the emerging threat, we propose median batch normalization (MedBN), leveraging the robustness of the median for statistics estimation within the batch normalization layer during test-time inference. Our method is algorithm-agnostic, thus allowing seamless integration with existing TTA frameworks. Our experimental results on benchmark datasets, including CIFAR10-C, CIFAR100-C and ImageNet-C, consistently demonstrate that MedBN outperforms existing approaches in maintaining robust performance across different attack scenarios, encompassing both instant and cumulative attacks. Through extensive experiments, we show that our approach sustains the performance even in the absence of attacks, achieving a practical balance between robustness and performance.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# フェース・アンチ・スプーフィングのためのテスト時間領域の一般化

Test-Time Domain Generalization for Face Anti-Spoofing ( http://arxiv.org/abs/2403.19334v1 )

ライセンス: Link先を確認
Qianyu Zhou, Ke-Yue Zhang, Taiping Yao, Xuequan Lu, Shouhong Ding, Lizhuang Ma, (参考訳) Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。 ドメイン一般化(DG)法はFAS性能を向上させるために開発されているが、主に訓練中のドメイン不変の特徴の学習に焦点が当てられている。 我々の洞察では、DG FASの単なる評価以上の一般化性を高めるために、データをテストすることは貴重なリソースとなる。 本稿では,FASのための新しいテスト時間領域一般化(TTDG)フレームワークを提案する。 テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。 特に,テスト分布の任意の未確認サンプルのスタイルをトレーニング分布の既知のソース空間に投影するために,革新的なTTSPを導入する。 次に,学習可能なスタイルベースを用いて多種多様なスタイルシフトを合成する効率的なDSSSを設計し,超球面特徴空間において2つの特異的な損失を発生させる。 本手法では,テスト時のモデル更新の必要性を排除し,CNNだけでなくViTバックボーンにもシームレスに統合することができる。 広範に使われているクロスドメインFASベンチマークに関する総合的な実験は、我々の手法の最先端性能と有効性を示している。

Face Anti-Spoofing (FAS) is pivotal in safeguarding facial recognition systems against presentation attacks. While domain generalization (DG) methods have been developed to enhance FAS performance, they predominantly focus on learning domain-invariant features during training, which may not guarantee generalizability to unseen data that differs largely from the source distributions. Our insight is that testing data can serve as a valuable resource to enhance the generalizability beyond mere evaluation for DG FAS. In this paper, we introduce a novel Test-Time Domain Generalization (TTDG) framework for FAS, which leverages the testing data to boost the model's generalizability. Our method, consisting of Test-Time Style Projection (TTSP) and Diverse Style Shifts Simulation (DSSS), effectively projects the unseen data to the seen domain space. In particular, we first introduce the innovative TTSP to project the styles of the arbitrarily unseen samples of the testing distribution to the known source space of the training distributions. We then design the efficient DSSS to synthesize diverse style shifts via learnable style bases with two specifically designed losses in a hyperspherical feature space. Our method eliminates the need for model updates at the test time and can be seamlessly integrated into not only the CNN but also ViT backbones. Comprehensive experiments on widely used cross-domain FAS benchmarks demonstrate our method's state-of-the-art performance and effectiveness.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# KazSAnDRA: Kazakh Sentiment Analysis Dataset of Reviews and Attitudes

KazSAnDRA: Kazakh Sentiment Analysis Dataset of Reviews and Attitudes ( http://arxiv.org/abs/2403.19335v1 )

ライセンス: Link先を確認
Rustem Yeshpanov, Huseyin Atakan Varol, (参考訳) 本稿では,カザフスタンの感情分析のためのデータセットであるKazSAnDRAについて述べる。 KazSAnDRAは、様々な情報源から得られた180,064のレビューを幅広く収集し、顧客態度の定量的表現を提供する1から5までの数値評価を含む。 この研究は、極性分類とスコア分類の両方のために訓練された4つの機械学習モデルの開発と評価を通じて、カザフ語感情分類の自動化も追求した。 実験分析では,バランスの取れたシナリオと不均衡なシナリオの両方を考慮した結果の評価を行った。 最も成功したモデルは極性分類のF1スコア0.81、試験セットのスコア0.39である。 データセットと微調整されたモデルはオープンアクセス可能で、GitHubリポジトリを通じてCreative Commons Attribution 4.0 International License (CC BY 4.0)の下でダウンロードできます。

This paper presents KazSAnDRA, a dataset developed for Kazakh sentiment analysis that is the first and largest publicly available dataset of its kind. KazSAnDRA comprises an extensive collection of 180,064 reviews obtained from various sources and includes numerical ratings ranging from 1 to 5, providing a quantitative representation of customer attitudes. The study also pursued the automation of Kazakh sentiment classification through the development and evaluation of four machine learning models trained for both polarity classification and score classification. Experimental analysis included evaluation of the results considering both balanced and imbalanced scenarios. The most successful model attained an F1-score of 0.81 for polarity classification and 0.39 for score classification on the test sets. The dataset and fine-tuned models are open access and available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# IVLMap: 消費者向けロボットナビゲーションのためのインスタンス対応ビジュアル言語グラウンド

IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation ( http://arxiv.org/abs/2403.19336v1 )

ライセンス: Link先を確認
Jiacui Huang, Hongtao Zhang, Mingbo Zhao, Zhou Wu, (参考訳) VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境をナビゲートするロボットを必要とする課題である。 近年の研究では、環境の意味空間地図表現を構築し、大規模言語モデルにおける推論能力を活用して、ロボットナビゲーションを導くコードの一般化を図っている。 しかし、これらのメソッドは、同一オブジェクトの異なるインスタンスを区別できないため、インスタンスレベルおよび属性レベルのナビゲーションタスクの制限に直面します。 そこで我々は,ロボットエージェントから収集したRGBDビデオデータを,鳥の目視で特別に設計された自然言語マップインデックスに融合させて,自律的に構築する,インスタンスレベルの属性レベルのセマンティックマップ(IVLMap)を提案する。 このようなインデックス化はインスタンスレベルと属性レベルである。 特に、大きな言語モデルと統合した場合、IVLMapは機能を示す。 一 自然言語を例と属性情報で航法目標に転換し、正確な位置付けを可能にすること。 二 自然言語コマンドに基づいて、ゼロショットのエンドツーエンドナビゲーションタスクを達成すること。 広範囲な航法実験が実施されている。 シミュレーションの結果,ナビゲーション精度が平均14.4\%向上できることが示唆された。 コードとデモはhttps://ivlmap.github.io/で公開されている。

Vision-and-Language Navigation (VLN) is a challenging task that requires a robot to navigate in photo-realistic environments with human natural language promptings. Recent studies aim to handle this task by constructing the semantic spatial map representation of the environment, and then leveraging the strong ability of reasoning in large language models for generalizing code for guiding the robot navigation. However, these methods face limitations in instance-level and attribute-level navigation tasks as they cannot distinguish different instances of the same object. To address this challenge, we propose a new method, namely, Instance-aware Visual Language Map (IVLMap), to empower the robot with instance-level and attribute-level semantic mapping, where it is autonomously constructed by fusing the RGBD video data collected from the robot agent with special-designed natural language map indexing in the bird's-in-eye view. Such indexing is instance-level and attribute-level. In particular, when integrated with a large language model, IVLMap demonstrates the capability to i) transform natural language into navigation targets with instance and attribute information, enabling precise localization, and ii) accomplish zero-shot end-to-end navigation tasks based on natural language commands. Extensive navigation experiments are conducted. Simulation results illustrate that our method can achieve an average improvement of 14.4\% in navigation accuracy. Code and demo are released at https://ivlmap.github.io/.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# 複合アノテーションからの学習と収集のための対話型ヒューマン・マシン学習インタフェース

An Interactive Human-Machine Learning Interface for Collecting and Learning from Complex Annotations ( http://arxiv.org/abs/2403.19339v1 )

ライセンス: Link先を確認
Jonathan Erskine, Matt Clifford, Alexander Hepburn, Raúl Santos-Rodríguez, (参考訳) ヒューマンコンピュータインタラクションは、モデルパフォーマンスを高め、学習を加速し、ユーザの信頼を構築することによって、機械学習システムの改善につながることが示されている。 本研究は,従来のラベルの制約にヒトのアノテータが適応できるという期待を緩和するために,情報収集の形でさらなる柔軟性を実現することを目的としている。 そこで本研究では,データセットのアノテーションとして標準バイナリラベルを補完するために,ヒューマンアノテータによる実例の活用を可能にする,バイナリ分類タスクのためのヒューマンマシン学習インタフェースを提案する。 最後に,本研究の今後の拡張における課題について論じる。

Human-Computer Interaction has been shown to lead to improvements in machine learning systems by boosting model performance, accelerating learning and building user confidence. In this work, we aim to alleviate the expectation that human annotators adapt to the constraints imposed by traditional labels by allowing for extra flexibility in the form that supervision information is collected. For this, we propose a human-machine learning interface for binary classification tasks which enables human annotators to utilise counterfactual examples to complement standard binary labels as annotations for a dataset. Finally we discuss the challenges in future extensions of this work.
翻訳日:2024-03-29 16:33:46 公開日:2024-03-28
# Dataverse: 大規模言語モデルのためのオープンソースのETL(Extract, Transform, Load)パイプライン

Dataverse: Open-Source ETL (Extract, Transform, Load) Pipeline for Large Language Models ( http://arxiv.org/abs/2403.19340v1 )

ライセンス: Link先を確認
Hyunbyung Park, Sukyung Lee, Gyoungjin Gim, Yungi Kim, Dahyun Kim, Chanjun Park, (参考訳) データ処理の大規模化に関わる課題に対処するため,大規模言語モデル(LLM)のためのオープンソースのETLパイプラインであるDataverseを提案し,その中核にユーザフレンドリな設計を提案する。 Dataverseにブロックベースのインターフェースを備えたカスタムプロセッサを簡単に追加することで、Dataverseを簡単かつ効率的に使用して独自のETLパイプラインを構築することができる。 Dataverse が LLM 開発に不可欠なツールとして機能し,コミュニティからのコントリビューションを歓迎するために,ライブラリ全体をオープンソースにすることを期待しています。 さらに,システムの性能と実装を解説した,簡潔で2分間のデモ映像を提供する。

To address the challenges associated with data processing at scale, we propose Dataverse, a unified open-source Extract-Transform-Load (ETL) pipeline for large language models (LLMs) with a user-friendly design at its core. Easy addition of custom processors with block-based interface in Dataverse allows users to readily and efficiently use Dataverse to build their own ETL pipeline. We hope that Dataverse will serve as a vital tool for LLM development and open source the entire library to welcome community contribution. Additionally, we provide a concise, two-minute video demonstration of our system, illustrating its capabilities and implementation.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 機械学習に基づく電子商取引商品の知的分類とパーソナライズされた勧告

Intelligent Classification and Personalized Recommendation of E-commerce Products Based on Machine Learning ( http://arxiv.org/abs/2403.19345v1 )

ライセンス: Link先を確認
Kangming Xu, Huiming Zhou, Haotian Zheng, Mingwei Zhu, Qi Xin, (参考訳) インターネットの急速な進化と情報の急増により、ユーザーは情報の過負荷や選択の難しさに遭遇する。 パーソナライズされたレコメンデーションシステムは、ユーザが好みや要求に合った情報をフィルタリングしたり選択したりすることで、この負担を軽減する上で重要な役割を担っている。 このようなシステムは,ユーザエクスペリエンスと満足度を高めるだけでなく,従来のeコマース商品分類システムとパーソナライズされたレコメンデーションシステムとの運用機構の比較分析を行う。 これは、eコマース、コンテンツ情報、メディアドメインにまたがるパーソナライズされたレコメンデーションシステムの重要性と応用を説明している。 さらに、データプライバシ、アルゴリズムバイアス、スケーラビリティ、コールドスタート問題など、Eコマースにおけるパーソナライズされたレコメンデーションシステムに直面する課題についても詳しく説明している。 これらの課題に対処する戦略は解明されているが、この論文では、BERTモデルと近隣のアルゴリズムを活用するパーソナライズされたレコメンデーションシステムについて概説している。 このレコメンデーションシステムの有効性は手作業による評価によって実証され、実用的な運用ガイドと構造化されたアウトプットレコメンデーション結果がシステム動作性とスケーラビリティを確保するために提供される。

With the rapid evolution of the Internet and the exponential proliferation of information, users encounter information overload and the conundrum of choice. Personalized recommendation systems play a pivotal role in alleviating this burden by aiding users in filtering and selecting information tailored to their preferences and requirements. Such systems not only enhance user experience and satisfaction but also furnish opportunities for businesses and platforms to augment user engagement, sales, and advertising efficacy.This paper undertakes a comparative analysis between the operational mechanisms of traditional e-commerce commodity classification systems and personalized recommendation systems. It delineates the significance and application of personalized recommendation systems across e-commerce, content information, and media domains. Furthermore, it delves into the challenges confronting personalized recommendation systems in e-commerce, including data privacy, algorithmic bias, scalability, and the cold start problem. Strategies to address these challenges are elucidated.Subsequently, the paper outlines a personalized recommendation system leveraging the BERT model and nearest neighbor algorithm, specifically tailored to address the exigencies of the eBay e-commerce platform. The efficacy of this recommendation system is substantiated through manual evaluation, and a practical application operational guide and structured output recommendation results are furnished to ensure the system's operability and scalability.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 大規模言語モデルは数学問題における不合理性を意識しない

Large Language Models Are Unconscious of Unreasonability in Math Problems ( http://arxiv.org/abs/2403.19346v1 )

ライセンス: Link先を確認
Jingyuan Ma, Damai Dai, Zhifang Sui, (参考訳) 大規模言語モデル (LLM) は数学の問題を解く上で重要な能力を示す。 しかし、不合理な誤りを含む質問をすると幻覚を起こす傾向がある。 本稿では,不合理な数学問題に直面したLLMの挙動を考察し,これらの問題に対処する可能性について検討する。 まず,LLMの誤り検出能力を調べるために,UMP(Unreasonable Math Problem)ベンチマークを構築した。 実験により、LLMは不合理な誤りを検出することができるが、それでも非幻覚的コンテンツを生成するのに失敗することが示された。 誤り検出と修正の能力を向上させるため,我々はさらにCCC(Critical calculated and Conclusion)と呼ばれる戦略的なプロンプトテンプレートを設計する。 CCCでは、LLMは数学の質問において不合理な誤りを自己評価し、検出し、実用的なアプリケーションシナリオにおいてより信頼性と安全性を高めることができる。

Large language models (LLMs) demonstrate substantial capabilities in solving math problems. However, they tend to produce hallucinations when given questions containing unreasonable errors. In this paper, we study the behavior of LLMs when faced with unreasonable math problems and further explore their potential to address these problems. First, we construct the Unreasonable Math Problem (UMP) benchmark to examine the error detection ability of LLMs. Experiments show that LLMs are able to detect unreasonable errors, but still fail in generating non-hallucinatory content. In order to improve their ability of error detection and correction, we further design a strategic prompt template called Critical Calculation and Conclusion(CCC). With CCC, LLMs can better self-evaluate and detect unreasonable errors in math questions, making them more reliable and safe in practical application scenarios.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 長さ障壁を破る:LLMによる長文ユーザ行動のCTR予測

Breaking the Length Barrier: LLM-Enhanced CTR Prediction in Long Textual User Behaviors ( http://arxiv.org/abs/2403.19347v1 )

ライセンス: Link先を確認
Binzong Geng, Zhaoxin Huan, Xiaolu Zhang, Yong He, Liang Zhang, Fajie Yuan, Jun Zhou, Linjian Mo, (参考訳) 大規模言語モデル(LLM)の台頭に伴い、最近の研究は、クリックスルー率(CTR)予測の性能を改善するためにLLMを活用している。 しかし,LLMを実用的に展開する上で重要な障害として,長いテキスト・ユーザ・振る舞いを処理する際のLLMの効率性を挙げる。 ユーザシーケンスが長くなるにつれて、LLMの現在の効率は数十億のユーザやアイテムのトレーニングに不十分である。 LLMの効率障壁を突破するために,LLMに基づくCTRモデリングの効率を高めるために,BAHE(Behavior Aggregated Hierarchical Encoding)を提案する。 具体的には,行動間相互作用からユーザ行動のエンコーディングを分離する階層型アーキテクチャを提案する。 まず、計算冗長性による同一ユーザ動作の繰り返し符号化を防止するため、BAHEはLLMのトレーニング済みの浅いレイヤを使用して、広範囲なユーザシーケンスから最も粒度の高いアトミックなユーザ動作の埋め込みを抽出し、それらをオフラインデータベースに格納する。 その後、LLMのより深く、トレーニング可能なレイヤは、複雑な振る舞い間の相互作用を促進し、包括的なユーザ埋め込みを生成する。 この分離により、ハイレベルなユーザ表現の学習は低レベルな振る舞いの符号化とは無関係になり、計算の複雑さを大幅に減らすことができる。 最後に、これらの洗練されたユーザ埋め込みと対応する処理されたアイテム埋め込みをCTRモデルに組み込んでCTRスコアを算出する。 BAHE は LLM を用いた CTR モデルのトレーニング時間とメモリを 5 倍に削減することを示した。 BAHEは現実世界のシステムにデプロイされており、8A100 GPU上の5000万のCTRデータを毎日更新することができるため、LLMは産業用CTR予測に実用的である。

With the rise of large language models (LLMs), recent works have leveraged LLMs to improve the performance of click-through rate (CTR) prediction. However, we argue that a critical obstacle remains in deploying LLMs for practical use: the efficiency of LLMs when processing long textual user behaviors. As user sequences grow longer, the current efficiency of LLMs is inadequate for training on billions of users and items. To break through the efficiency barrier of LLMs, we propose Behavior Aggregated Hierarchical Encoding (BAHE) to enhance the efficiency of LLM-based CTR modeling. Specifically, BAHE proposes a novel hierarchical architecture that decouples the encoding of user behaviors from inter-behavior interactions. Firstly, to prevent computational redundancy from repeated encoding of identical user behaviors, BAHE employs the LLM's pre-trained shallow layers to extract embeddings of the most granular, atomic user behaviors from extensive user sequences and stores them in the offline database. Subsequently, the deeper, trainable layers of the LLM facilitate intricate inter-behavior interactions, thereby generating comprehensive user embeddings. This separation allows the learning of high-level user representations to be independent of low-level behavior encoding, significantly reducing computational complexity. Finally, these refined user embeddings, in conjunction with correspondingly processed item embeddings, are incorporated into the CTR model to compute the CTR scores. Extensive experimental results show that BAHE reduces training time and memory by five times for CTR models using LLMs, especially with longer user sequences. BAHE has been deployed in a real-world system, allowing for daily updates of 50 million CTR data on 8 A100 GPUs, making LLMs practical for industrial CTR prediction.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 世界中の多様な多言語ニュースの見出し

A diverse Multilingual News Headlines Dataset from around the World ( http://arxiv.org/abs/2403.19352v1 )

ライセンス: Link先を確認
Felix Leeb, Bernhard Schölkopf, (参考訳) Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを特徴とする、世界中の30の言語と54の場所を対象にした、新しいデータセットである。 自然言語処理やメディア研究のために設計されたもので、言語モデルの訓練や評価のための高品質なデータセットとして機能し、またグローバルなニュースや文化的な物語を分析するための、シンプルでアクセスしやすい記事のコレクションを提供する。 このデータセットによる解析の簡単な実演として、TF-IDF重み付き類似度測定を用いた基本的な手順を用いて、同じ事象に関する記事をクラスタにまとめる。 次に、イベントの‘emph{event signatures’を視覚化し、どの言語が時間とともに現れるかを示す。 データセットは \href{https://www.kaggle.com/datasets/felixludos/babel-briefings}{Kaggle} と \href{https://huggingface.co/datasets/felixludos/babel-briefings}{HuggingFace} で利用可能である。

Babel Briefings is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included. Designed for natural language processing and media studies, it serves as a high-quality dataset for training or evaluating language models as well as offering a simple, accessible collection of articles, for example, to analyze global news coverage and cultural narratives. As a simple demonstration of the analyses facilitated by this dataset, we use a basic procedure using a TF-IDF weighted similarity metric to group articles into clusters about the same event. We then visualize the \emph{event signatures} of the event showing articles of which languages appear over time, revealing intuitive features based on the proximity of the event and unexpectedness of the event. The dataset is available on \href{https://www.kaggle.com/datasets/felixludos/babel-briefings}{Kaggle} and \href{https://huggingface.co/datasets/felixludos/babel-briefings}{HuggingFace} with accompanying \href{https://github.com/felixludos/babel-briefings}{GitHub} code.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# SemEval-2024 Task 8におけるAIpom: M4におけるAI生成出力の検出

AIpom at SemEval-2024 Task 8: Detecting AI-produced Outputs in M4 ( http://arxiv.org/abs/2403.19354v1 )

ライセンス: Link先を確認
Alexander Shirnin, Nikita Andreev, Vladislav Mikhailov, Ekaterina Artemova, (参考訳) 本稿では、AIpomについて述べる。AIpomは、人書きテキストと機械生成テキストの境界を検出するように設計されているシステムである(SemEval-2024 Task 8, Subtask C: Human-Machine Mixed Text Detection)。 命令調整されたデコーダのみのモデルとエンコーダのみのシーケンスタグからの予測を組み合わせた2段階パイプラインを提案する。 AIpomはリーダーボードで2位、平均絶対誤差は15.94である。 アブレーション研究は、特に性能改善の観点から、パイプライニングエンコーダとデコーダモデルの利点を確認している。

This paper describes AIpom, a system designed to detect a boundary between human-written and machine-generated text (SemEval-2024 Task 8, Subtask C: Human-Machine Mixed Text Detection). We propose a two-stage pipeline combining predictions from an instruction-tuned decoder-only model and encoder-only sequence taggers. AIpom is ranked second on the leaderboard while achieving a Mean Absolute Error of 15.94. Ablation studies confirm the benefits of pipelining encoder and decoder models, particularly in terms of improved performance.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 人工知能による新型コロナウイルス患者の死亡予測

Artificial Intelligence (AI) Based Prediction of Mortality, for COVID-19 Patients ( http://arxiv.org/abs/2403.19355v1 )

ライセンス: Link先を確認
Mahbubunnabi Tamala, Mohammad Marufur Rahmanb, Maryam Alhasimc, Mobarak Al Mulhimd, Mohamed Derichee, (参考訳) 重篤な新型コロナウイルス患者に対しては、リスクの高い患者を特定し、生存と集中治療の必要性を予測することが重要である。 提案したモデルの多くはよく報告されていないため再現性が低く、特に不均衡なデータ/クラスが存在する場合のバイアスのリスクが高い。 本研究では,9つの機械学習アルゴリズムと2つの特徴選択法を組み合わせて,死亡率,ICU要件,換気日数を予測した。 5倍のクロスバリデーションがトレーニングと検証に使用された。 バイアスを最小限にするため、トレーニングセットとテストセットは、同様の分布を維持するために分割された。 122例中10例が入院時の急性腎傷害の予測に有用であった。 アルゴリズムの性能は特徴数とデータ前処理技術に依存する。 LSTMは、90%、92%、86%、95%の精度、感度、特異度、AUCで最終状態を予測するのに最適である。 DNNは88%の精度で換気日を予測するのに最善を尽くしている。 臨床発症の正確な時間点の欠如を含むすべての要因と限界を考慮すると、慎重に選択されたLSTMは、最終状態とICU要件を正確に予測することができる。 DNNは換気日を予測するのに最善を尽くしている。 慎重に選択された特徴とバランスデータを持つ適切な機械学習アルゴリズムは、死亡率、ICU要件、換気サポートを正確に予測することができる。 このようなモデルは、迅速かつ正確な緊急事態やパンデミックにおいて非常に有用である

For severely affected COVID-19 patients, it is crucial to identify high-risk patients and predict survival and need for intensive care (ICU). Most of the proposed models are not well reported making them less reproducible and prone to high risk of bias particularly in presence of imbalance data/class. In this study, the performances of nine machine and deep learning algorithms in combination with two widely used feature selection methods were investigated to predict last status representing mortality, ICU requirement, and ventilation days. Fivefold cross-validation was used for training and validation purposes. To minimize bias, the training and testing sets were split maintaining similar distributions. Only 10 out of 122 features were found to be useful in prediction modelling with Acute kidney injury during hospitalization feature being the most important one. The algorithms performances depend on feature numbers and data pre-processing techniques. LSTM performs the best in predicting last status and ICU requirement with 90%, 92%, 86% and 95% accuracy, sensitivity, specificity, and AUC respectively. DNN performs the best in predicting Ventilation days with 88% accuracy. Considering all the factors and limitations including absence of exact time point of clinical onset, LSTM with carefully selected features can accurately predict last status and ICU requirement. DNN performs the best in predicting Ventilation days. Appropriate machine learning algorithm with carefully selected features and balance data can accurately predict mortality, ICU requirement and ventilation support. Such model can be very useful in emergency and pandemic where prompt and precise
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# ソーシャルメディアにおける病理ギャンブルのリスク予測

Risk prediction of pathological gambling on social media ( http://arxiv.org/abs/2403.19358v1 )

ライセンス: Link先を確認
Angelina Parfenova, Marianne Clausel, (参考訳) 本稿では、ソーシャルメディアデータにおけるリスク予測の問題に対処し、特にRedditユーザーを病的ギャンブル障害と分類することに焦点を当てる。 この問題に対処するために,本研究では,時間的・感情的な特徴をモデルに取り入れることに焦点を当てる。 前処理フェーズは、パディングシーケンスによるポストの時間不規則性を扱う。 BERT分類器はユーザ毎のコンカレントポスト、GRUはLSTMのシーケンシャルデータである。 実験結果から, 連続モデルの方が連結モデルより優れていることが示された。 実験の結果, 時間減衰層 (TD) と感情分類層 (EmoBERTa) をLSTMで通過させることで, 性能が著しく向上することがわかった。 実験の結果,自己注意層の追加はモデルの性能を著しく向上させるには至らなかったが,容易に解釈可能な注意点が得られた。 EmoBERTa と TD 層を組み込んだ開発アーキテクチャは F1 スコアを達成し,病的ギャンブルデータセットのベンチマークを上回った。 今後の研究には、病理ギャンブル障害や他のデータセットのテストモデルに関連するリスク因子の早期予測が含まれる可能性がある。 本研究は、時間的・感情的な特徴を含むポストの逐次的処理の重要性を強調し、予測能力を高めるとともに、解釈可能性のための注意層を追加する。

This paper addresses the problem of risk prediction on social media data, specifically focusing on the classification of Reddit users as having a pathological gambling disorder. To tackle this problem, this paper focuses on incorporating temporal and emotional features into the model. The preprocessing phase involves dealing with the time irregularity of posts by padding sequences. Two baseline architectures are used for preliminary evaluation: BERT classifier on concatenated posts per user and GRU with LSTM on sequential data. Experimental results demonstrate that the sequential models outperform the concatenation-based model. The results of the experiments conclude that the incorporation of a time decay layer (TD) and passing the emotion classification layer (EmoBERTa) through LSTM improves the performance significantly. Experiments concluded that the addition of a self-attention layer didn't significantly improve the performance of the model, however provided easily interpretable attention scores. The developed architecture with the inclusion of EmoBERTa and TD layers achieved a high F1 score, beating existing benchmarks on pathological gambling dataset. Future work may involve the early prediction of risk factors associated with pathological gambling disorder and testing models on other datasets. Overall, this research highlights the significance of the sequential processing of posts including temporal and emotional features to boost the predictive power, as well as adding an attention layer for interpretability.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 臨界近傍の量子鎖における因果ダイナミクスの探索

Probing Causation Dynamics in Quantum Chains near Criticality ( http://arxiv.org/abs/2403.19364v1 )

ライセンス: Link先を確認
Roopayan Ghosh, Bin Yi, Sougato Bose, (参考訳) 相関関係からの因果関係の排除は不可欠であり、慎重に検討する必要がある。 本研究では,最近のLiang情報の量子拡張を利用して,その相図上の量子鎖の因果関係を調べる。 我々の分析は2つの異なるシナリオを含んでいる。 (i)スペクトル幅の位相遷移を特徴とするAubry-Andr$\'e$-Harperモデル (II) 基底状態遷移を示すANNNI(Anisotropic Transverse Field Ising)モデル。 我々は,各症例が相関測定と異なり,特徴点間の因果関係の顕著な変化を識別した。 特に後者の場合、臨界点の直前の順序相における最大因果関係を観測する。

Distinguishing causation from correlation is crucial and requires careful consideration. In this study, we utilize a recent quantum extension of Liang information to investigate causation in quantum chains across their phase diagram. Our analysis encompasses two distinct scenarios: (i) the Aubry-Andr$\'e$-Harper model, characterized by a spectrum-wide phase transition, and (ii) the Anisotropic Transverse Field Ising (ANNNI) model, which demonstrates a ground state transition. We discern a notable shift in causation behavior across the critical point with each case exhibiting distinct hallmarks, different from correlation measures. Especially, in the latter case, we observe maximum causation in the ordered phase just preceding the critical point.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# EthioMT:低リソースエチオピア言語のための並列コーパス

EthioMT: Parallel Corpus for Low-resource Ethiopian Languages ( http://arxiv.org/abs/2403.19365v1 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Olga Kolesnikova, Alexander Gelbukh, Jugal Kalita, (参考訳) 自然言語処理(NLP)の最近の研究は、機械翻訳(MT)、ニュース分類、高リソース言語における質問応答などのタスクにおいて、目覚ましい性能を達成している。 しかし、MTの性能は低リソース言語に多くを望まざるを得ない。 これは、これらの言語で利用可能な並列コーパスが小さくなったためである。 エチオピア語におけるNLPは、MTを含むNLPタスクのための公開アクセスデータセットが利用できないため、同じ問題に悩まされている。研究コミュニティを支援し、エチオピア語の研究を促進するために、EthioMTという15言語用の新しい並列コーパスを導入する。 また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。 トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。

Recent research in natural language processing (NLP) has achieved impressive performance in tasks such as machine translation (MT), news classification, and question-answering in high-resource languages. However, the performance of MT leaves much to be desired for low-resource languages. This is due to the smaller size of available parallel corpora in these languages, if such corpora are available at all. NLP in Ethiopian languages suffers from the same issues due to the unavailability of publicly accessible datasets for NLP tasks, including MT. To help the research community and foster research for Ethiopian languages, we introduce EthioMT -- a new parallel corpus for 15 languages. We also create a new benchmark by collecting a dataset for better-researched languages in Ethiopia. We evaluate the newly collected corpus and the benchmark dataset for 23 Ethiopian languages using transformer and fine-tuning approaches.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# スケールと位置感度による赤外小ターゲット検出

Infrared Small Target Detection with Scale and Location Sensitivity ( http://arxiv.org/abs/2403.19366v1 )

ライセンス: Link先を確認
Qiankun Liu, Rui Liu, Bolun Zheng, Hongkui Wang, Ying Fu, (参考訳) 近年,赤外線小目標検出 (IRSTD) はディープラーニング方式が主流となっている。 しかし、これらの手法は主に識別的特徴を抽出する複雑なモデル構造の設計に重点を置いており、IRSTDの損失関数は未探索のままである。 例えば、広く使われているIoU(Intersection over Union)とDiceの損失は目標の規模や位置に対する感度に欠けており、検出器の検出性能が制限されている。 本稿では,より効率的な損失を伴い,より単純なモデル構造で検出性能を向上させることに焦点を当てる。 具体的には、まず、既存の損失の限界に対応するために、新しいスケール・アンド・ロケーション・センシティブ(SLS)損失を提案する。 1)IoU損失の重みを目標スケールに基づいて計算し,測定器が目標を異なるスケールで識別するのに役立つ。 2) 位置感度では, 目標の中心点に基づくペナルティ項を導入し, より正確に目標をローカライズする。 そこで我々は,平易なU-Net(MSHNet)に単純なマルチスケールヘッドを設計する。 予測の規模毎にSLS損失を適用することで、MSHNetは既存の最先端手法よりも大きなマージンで性能を向上する。 さらに、既存の検出器の検出性能は、SLS損失のトレーニングによりさらに向上し、SLS損失の有効性と一般化を実証することができる。 コードはhttps://github.com/ying-fu/MSHNetで公開されている。

Recently, infrared small target detection (IRSTD) has been dominated by deep-learning-based methods. However, these methods mainly focus on the design of complex model structures to extract discriminative features, leaving the loss functions for IRSTD under-explored. For example, the widely used Intersection over Union (IoU) and Dice losses lack sensitivity to the scales and locations of targets, limiting the detection performance of detectors. In this paper, we focus on boosting detection performance with a more effective loss but a simpler model structure. Specifically, we first propose a novel Scale and Location Sensitive (SLS) loss to handle the limitations of existing losses: 1) for scale sensitivity, we compute a weight for the IoU loss based on target scales to help the detector distinguish targets with different scales: 2) for location sensitivity, we introduce a penalty term based on the center points of targets to help the detector localize targets more precisely. Then, we design a simple Multi-Scale Head to the plain U-Net (MSHNet). By applying SLS loss to each scale of the predictions, our MSHNet outperforms existing state-of-the-art methods by a large margin. In addition, the detection performance of existing detectors can be further improved when trained with our SLS loss, demonstrating the effectiveness and generalization of our SLS loss. The code is available at https://github.com/ying-fu/MSHNet.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# サイバー攻撃のチャンスを伴うクラウド:クラウドプラットフォームでリソースを浪費する

Cloudy with a Chance of Cyberattacks: Dangling Resources Abuse on Cloud Platforms ( http://arxiv.org/abs/2403.19368v1 )

ライセンス: Link先を確認
Jens Frieß, Tobias Gattermayer, Nethanel Gelernter, Haya Schulmann, Michael Waidner, (参考訳) 最近の研究によると、クラウドプラットフォーム上でリソースをハイジャックすることは可能である。 このようなハイジャックでは、攻撃者は正当な組織に属する解放されたリソースを引き継ぐことができる。 敵はこれらのリソースを悪用して、マルウェアの配布を通じてハイジャックされたサービスの顧客に対する攻撃を行うことが提案された。 しかし、今のところこれらの攻撃の存在は確認されていない。 私たちは初めて、クラウドリソースの現実的なハイジャックを特定しました。 これは多くの驚きと重要な洞察をもたらす。 まず,攻撃者が主にIPアドレスを標的としていたというこれまでの仮定とは対照的に,リソースの種類がハイジャックの主な考慮事項ではないことが明らかとなった。 攻撃者は、フリーテキストを入力することでリソースを決定することができるレコードをハイジャックすることに集中する。 このようなレコードをハイジャックするコストとオーバーヘッドは、大きなプールからランダムに選択されるIPアドレスよりもはるかに低い。 第二に、ハイジャックの特定は重大な課題となる。 リソースの変更、例えばコンテンツの変更の監視は不十分である。 ハイジャックを特定するためのデジタル資産のふりかえり分析も、大量のデータと検索する指標がないために困難である。 この課題に対処するために、悪意のある修正と合法的な修正を効果的に区別するために、多様なソースからのデータを分析する新しいアプローチを開発する。 私たちの分析によると、人気のあるクラウドプラットフォーム上で、20,904件のハイジャックされたリソースが発見されました。 一部のヒジャックは短命(最大15日)であるが、1/3は65日以上持続する。 攻撃者がハイジャックされたリソースを悪用し、以前の研究で考慮された脅威とは対照的に、乱用の大部分(75%)はブラックハット検索エンジンの最適化である。

Recent works showed that it is feasible to hijack resources on cloud platforms. In such hijacks, attackers can take over released resources that belong to legitimate organizations. It was proposed that adversaries could abuse these resources to carry out attacks against customers of the hijacked services, e.g., through malware distribution. However, to date, no research has confirmed the existence of these attacks. We identify, for the first time, real-life hijacks of cloud resources. This yields a number of surprising and important insights. First, contrary to previous assumption that attackers primarily target IP addresses, our findings reveal that the type of resource is not the main consideration in a hijack. Attackers focus on hijacking records that allow them to determine the resource by entering freetext. The costs and overhead of hijacking such records are much lower than those of hijacking IP addresses, which are randomly selected from a large pool. Second, identifying hijacks poses a substantial challenge. Monitoring resource changes, e.g., changes in content, is insufficient, since such changes could also be legitimate. Retrospective analysis of digital assets to identify hijacks is also arduous due to the immense volume of data involved and the absence of indicators to search for. To address this challenge, we develop a novel approach that involves analyzing data from diverse sources to effectively differentiate between malicious and legitimate modifications. Our analysis has revealed 20,904 instances of hijacked resources on popular cloud platforms. While some hijacks are short-lived (up to 15 days), 1/3 persist for more than 65 days. We study how attackers abuse the hijacked resources and find that, in contrast to the threats considered in previous work, the majority of the abuse (75%) is blackhat search engine optimization.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# NIGHT -- 飛行データからの非視線イメージング

NIGHT -- Non-Line-of-Sight Imaging from Indirect Time of Flight Data ( http://arxiv.org/abs/2403.19376v1 )

ライセンス: Link先を確認
Matteo Caligiuri, Adriano Simonetto, Gianluca Agresti, Pietro Zanuttigh, (参考訳) カメラのLine-of-Sightの外にある物体の取得は、非常に興味深いが、非常に難しい研究テーマでもある。 最近の研究は、このアイデアが、カスタム直接飛行時センサーによって生成された一過性のイメージングデータを活用する可能性を示した。 本稿では,この問題を解決するために,市販のタイム・オブ・フライトセンサーのデータのみを用いて,ハードウェアのさらなる要求を伴わずに,この問題に対処する。 私たちは、仮想ミラーとして光が反射する表面を再構成できるDeep Learningモデルを導入しました。 このモデリングにより、タスクの処理が容易になり、アノテーション付きトレーニングデータの構築も容易になる。 得られたデータから、隠されたシーンの深さ情報を取得することができる。 また,本課題に対する一級合成データセットも提供し,提案手法の有効性を実証する。

The acquisition of objects outside the Line-of-Sight of cameras is a very intriguing but also extremely challenging research topic. Recent works showed the feasibility of this idea exploiting transient imaging data produced by custom direct Time of Flight sensors. In this paper, for the first time, we tackle this problem using only data from an off-the-shelf indirect Time of Flight sensor without any further hardware requirement. We introduced a Deep Learning model able to re-frame the surfaces where light bounces happen as a virtual mirror. This modeling makes the task easier to handle and also facilitates the construction of annotated training data. From the obtained data it is possible to retrieve the depth information of the hidden scene. We also provide a first-in-its-kind synthetic dataset for the task and demonstrate the feasibility of the proposed idea over it.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# 近ベイズ最適アルゴリズムの不確実性量子化について

On Uncertainty Quantification for Near-Bayes Optimal Algorithms ( http://arxiv.org/abs/2403.19381v1 )

ライセンス: Link先を確認
Ziyu Wang, Chris Holmes, (参考訳) ベイズモデリングは、安全クリティカルな応用において重要な予測の不確実性の定量化を可能にする。 しかし、多くの機械学習(ML)アルゴリズムでは、ベイズ的なアルゴリズムの構築や実装は困難である。 本研究では,この課題に対処するための有望なアプローチを提案する。一般的なMLアルゴリズムは多種多様なタスクにまたがって効率的であり,したがって未知のタスク分布であるベイズ・最適W.r.t.に近い可能性があるという仮説に基づく。 本研究では,このアルゴリズムを用いてマルティンゲール後部を構築することにより,タスク分布によって定義されるベイズ後部を復元できることを証明した。 さらに,一般的なMLアルゴリズムに適用可能な,実用的な不確実性定量化手法を提案する。 様々な非NNアルゴリズムとNNアルゴリズムに基づく実験により,本手法の有効性が示された。

Bayesian modelling allows for the quantification of predictive uncertainty which is crucial in safety-critical applications. Yet for many machine learning (ML) algorithms, it is difficult to construct or implement their Bayesian counterpart. In this work we present a promising approach to address this challenge, based on the hypothesis that commonly used ML algorithms are efficient across a wide variety of tasks and may thus be near Bayes-optimal w.r.t. an unknown task distribution. We prove that it is possible to recover the Bayesian posterior defined by the task distribution, which is unknown but optimal in this setting, by building a martingale posterior using the algorithm. We further propose a practical uncertainty quantification method that apply to general ML algorithms. Experiments based on a variety of non-NN and NN algorithms demonstrate the efficacy of our method.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# PointCloud-Text Matching:ベンチマークデータセットとベースライン

PointCloud-Text Matching: Benchmark Datasets and a Baseline ( http://arxiv.org/abs/2403.19386v1 )

ライセンス: Link先を確認
Yanglin Feng, Yang Qin, Dezhong Peng, Hongyuan Zhu, Xi Peng, Peng Hu, (参考訳) 本稿では、与えられたポイントクラウドクエリやテキストクエリと一致する正確なクロスモーダルなインスタンスを見つけることを目的として、新しいインスタンスレベルの検索タスクであるPointCloud-Text Matching~(PTM)を提示、研究する。 PTMは屋内/都市キャニオンのローカライゼーションやシーン検索といった様々なシナリオに適用できる。 しかし、実際にPTMに適したターゲットデータセットは存在しない。 そこで我々は,3D2T-SR,3D2T-NR,3D2T-QAという3つの新しいベンチマークデータセットを構築した。 本研究は, テキストのあいまいさ, 曖昧さ, 不完全さなどにより, PTMにおいて既存のクロスモーダルマッチング手法が有効でないため, データの難易度, ノイズ, ノイズ, 障害等により, ノイズ対応が困難であることを示す。 これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。 RoMaはDAP(Dual Attention Perception Module)とRNCL(Robust Negative Contrastive Learning Module)の2つのモジュールで構成されている。 特に、DAPはトークンレベルと特徴レベルの注意を生かして、有用な局所的・グローバル的特徴に適応的に焦点を合わせ、それらを共通の表現に集約することで、ノイズやあいまいさの悪影響を低減する。 雑音対応を扱うため、RNCLは正のペアよりもはるかに誤差の少ない負のペアを清浄なサブセットと雑音の多いサブセットに分割し、それぞれ前方と逆の最適化方向を割り当て、ノイズ対応に対する堅牢性を高める。 ベンチマークで広範な実験を行い、RoMaの優位性を実証する。

In this paper, we present and study a new instance-level retrieval task: PointCloud-Text Matching~(PTM), which aims to find the exact cross-modal instance that matches a given point-cloud query or text query. PTM could be applied to various scenarios, such as indoor/urban-canyon localization and scene retrieval. However, there exists no suitable and targeted dataset for PTM in practice. Therefore, we construct three new PTM benchmark datasets, namely 3D2T-SR, 3D2T-NR, and 3D2T-QA. We observe that the data is challenging and with noisy correspondence due to the sparsity, noise, or disorder of point clouds and the ambiguity, vagueness, or incompleteness of texts, which make existing cross-modal matching methods ineffective for PTM. To tackle these challenges, we propose a PTM baseline, named Robust PointCloud-Text Matching method (RoMa). RoMa consists of two modules: a Dual Attention Perception module (DAP) and a Robust Negative Contrastive Learning module (RNCL). Specifically, DAP leverages token-level and feature-level attention to adaptively focus on useful local and global features, and aggregate them into common representations, thereby reducing the adverse impact of noise and ambiguity. To handle noisy correspondence, RNCL divides negative pairs, which are much less error-prone than positive pairs, into clean and noisy subsets, and assigns them forward and reverse optimization directions respectively, thus enhancing robustness against noisy correspondence. We conduct extensive experiments on our benchmarks and demonstrate the superiority of our RoMa.
翻訳日:2024-03-29 16:24:00 公開日:2024-03-28
# LLMプレトレーニングにおけるベイズ最適化によるチェックポイントマージ

Checkpoint Merging via Bayesian Optimization in LLM Pretraining ( http://arxiv.org/abs/2403.19390v1 )

ライセンス: Link先を確認
Deyuan Liu, Zecheng Wang, Bingning Wang, Weipeng Chen, Chunshan Li, Zhiying Tu, Dianhui Chu, Bo Li, Dianbo Sui, (参考訳) GPT-4 や Gemini のような大規模言語モデル (LLM) の急速な普及は、訓練過程における資源需要の激しさを浮き彫りにして、かなりの計算と環境コストのために大きな課題を生んでいる。 この問題を軽減するために,本研究では,LLMの事前学習におけるチェックポイントマージを提案する。 本手法は,LLMチェックポイントと共有学習軌跡を併用し,ベイズ最適化による最適な重み付けのための探索空間探索に根ざしている。 提案手法は, 様々な実験を通じて, 1) 提案手法は, 事前訓練を増強する能力を示し, 最小コストで実質的な利益を得る機会を提示する; (2) 提案手法は, 所定の保持データセットを必要とするにもかかわらず, 多様な領域にわたる堅牢な一般化能力を示し, 事前訓練における重要な側面である。

The rapid proliferation of large language models (LLMs) such as GPT-4 and Gemini underscores the intense demand for resources during their training processes, posing significant challenges due to substantial computational and environmental costs. To alleviate this issue, we propose checkpoint merging in pretraining LLM. This method utilizes LLM checkpoints with shared training trajectories, and is rooted in an extensive search space exploration for the best merging weight via Bayesian optimization. Through various experiments, we demonstrate that: (1) Our proposed methodology exhibits the capacity to augment pretraining, presenting an opportunity akin to obtaining substantial benefits at minimal cost; (2) Our proposed methodology, despite requiring a given held-out dataset, still demonstrates robust generalization capabilities across diverse domains, a pivotal aspect in pretraining.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# 高速道路のサイクリング:オープンソースの神経科学ソフトウェアの現状

Cycling on the Freeway: The Perilous State of Open Source Neuroscience Software ( http://arxiv.org/abs/2403.19394v1 )

ライセンス: Link先を確認
Britta U. Westner, Daniel R. McCloy, Eric Larson, Alexandre Gramfort, Daniel S. Katz, Arfon M. Smith, invited co-signees, (参考訳) ほとんどの科学者は研究を行うソフトウェアを必要としている(Barker et al , 2020; Carver et al , 2022; Hettrick, 2014; Hettrick et al , 2014; Switters and Osimo, 2019)。 反応時間、電気生理学的信号、または磁気共鳴画像データを扱うにせよ、我々は、得られた生データを取得し、分析し、統計的に評価するソフトウェアに依存している。 近年、学術分野における幅広いオープンサイエンス運動(McKiernan et al , 2016)や、より広範な業界動向(Eghbal, 2016)に沿って、神経科学データ分析のためのフリーのオープンソース科学ソフトウェア(FOSSS)への依存がシフトしている。 重要なことは、FOSSSは通常、典型的な学術的仕事場の性質(特に初期のキャリアにおいて、学術が短期的かつ固定的な契約にあることを考えると、(プロのソフトウェア開発者ではない)作業科学者によって開発されます。 本稿では、既存の神経科学的オープンソースソフトウェアのエコシステムが不安定であることについて議論し、ソフトウェア環境の健全な成長を確実にするために、神経科学コミュニティがなぜ、どのように集結する必要があるかについて議論する。

Most scientists need software to perform their research (Barker et al., 2020; Carver et al., 2022; Hettrick, 2014; Hettrick et al., 2014; Switters and Osimo, 2019), and neuroscientists are no exception. Whether we work with reaction times, electrophysiological signals, or magnetic resonance imaging data, we rely on software to acquire, analyze, and statistically evaluate the raw data we obtain - or to generate such data if we work with simulations. In recent years there has been a shift toward relying on free, open-source scientific software (FOSSS) for neuroscience data analysis (Poldrack et al., 2019), in line with the broader open science movement in academia (McKiernan et al., 2016) and wider industry trends (Eghbal, 2016). Importantly, FOSSS is typically developed by working scientists (not professional software developers) which sets up a precarious situation given the nature of the typical academic workplace (wherein academics, especially in their early careers, are on short and fixed term contracts). In this paper, we will argue that the existing ecosystem of neuroscientific open source software is brittle, and discuss why and how the neuroscience community needs to come together to ensure a healthy growth of our software landscape to the benefit of all.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# 生徒へのプレゼンテーションを多様化するMOOCプログラミングソリューションのクラスタ化

Clustering MOOC Programming Solutions to Diversify Their Presentation to Students ( http://arxiv.org/abs/2403.19398v1 )

ライセンス: Link先を確認
Elizaveta Artser, Anastasiia Birillo, Yaroslav Golubev, Maria Tigina, Hieke Keuning, Nikolay Vyahhi, Timofey Bryksin, (参考訳) 多くのMOOCでは、学生がプログラミングタスクを完了すると、他の生徒の以前のソリューションを見て、問題の解決方法を見つけ、新しいコーディング構造を学ぶことができる。 しかし、MOOCの多くは、その多様性や品質を無視して、最新のソリューションを単に示しています。 そこで我々は,MOOC プラットフォームである Hyperskill 上でのPython への提案に対して,既存のプラジャリズム検出ツール JPlag を適応させた。 しかし、ツールの内部アルゴリズムにより、867のタスクのうち46しか完全に処理されなかった。 そこで我々はRhubarbという独自のツールを開発した。 このツールはまず、アルゴリズムで同じソリューションを標準化し、構造認識の編集距離を計算し、クラスタリングを適用します。 最後に、コード品質を考慮して、最大のクラスタから1つの例を選択します。 ルバーブは867の全てのタスクをうまく処理することができた。 両ツールが処理できる59のタスクのセットに対するアプローチを比較しました。 8人の専門家が、多様性、コード品質、有用性に基づいて、選択したソリューションを評価した。 JPlag - 3.77, Rhubarb - 3.50の5つのうち、最新の投稿を平均3.12で選択するデフォルトのプラットフォームアプローチ。 実際のMOOCでは、すべてを処理することが必須であるため、JPlagが完全に処理するタスクの5.3%と残りの94.7%でRhubarbを使用するシステムを作成しました。

In many MOOCs, whenever a student completes a programming task, they can see previous solutions of other students to find potentially different ways of solving the problem and learn new coding constructs. However, a lot of MOOCs simply show the most recent solutions, disregarding their diversity or quality. To solve this novel problem, we adapted the existing plagiarism detection tool JPlag to Python submissions on Hyperskill, a popular MOOC platform. However, due to the tool's inner algorithm, it fully processed only 46 out of 867 studied tasks. Therefore, we developed our own tool called Rhubarb. This tool first standardizes solutions that are algorithmically the same, then calculates the structure-aware edit distance between them, and then applies clustering. Finally, it selects one example from each of the largest clusters, taking into account their code quality. Rhubarb was able to handle all 867 tasks successfully. We compared approaches on a set of 59 tasks that both tools could process. Eight experts rated the selected solutions based on diversity, code quality, and usefulness. The default platform approach of selecting recent submissions received on average 3.12 out of 5, JPlag - 3.77, Rhubarb - 3.50. Since in the real MOOC, it is imperative to process everything, we created a system that uses JPlag on the 5.3% of tasks it fully processes and Rhubarb on the remaining 94.7%.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# KazParC: Kazakh Parallel Corpus for Machine Translation

KazParC: Kazakh Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2403.19399v1 )

ライセンス: Link先を確認
Rustem Yeshpanov, Alina Polonskaya, Huseyin Atakan Varol, (参考訳) KazParCは、カザフ語、英語、ロシア語、トルコ語にまたがる機械翻訳用に設計された並列コーパスである。 KazParCは、さまざまなドメインをカバーする371,902の並列文のコレクションを含み、人間の翻訳者の助けを借りて開発された。 我々の研究は、Tilmashと呼ばれるニューラルマシン翻訳モデルの開発にも及んでいる。 注目すべきことに、Tilmashのパフォーマンスは、BLEUやchrFといった標準的な評価指標によって測定されるように、Google TranslateやYandex Translateといった業界巨人のパフォーマンスと同等であり、場合によっては同等である。 KazParCとTilmashはどちらも、GitHubリポジトリを通じてCreative Commons Attribution 4.0 International License (CC BY 4.0)の下で、無料でダウンロードできる。

We introduce KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish. The first and largest publicly available corpus of its kind, KazParC contains a collection of 371,902 parallel sentences covering different domains and developed with the assistance of human translators. Our research efforts also extend to the development of a neural machine translation model nicknamed Tilmash. Remarkably, the performance of Tilmash is on par with, and in certain instances, surpasses that of industry giants, such as Google Translate and Yandex Translate, as measured by standard evaluation metrics, such as BLEU and chrF. Both KazParC and Tilmash are openly available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# ラベル分布からブール関数を学習する難しさ

Hardness of Learning Boolean Functions from Label Proportions ( http://arxiv.org/abs/2403.19401v1 )

ライセンス: Link先を確認
Venkatesan Guruswami, Rishi Saket, (参考訳) 近年,ラベル比率(LLP)から学習するフレームワークは,機械学習において重要性を増している。 この設定では、トレーニング例はサブセットまたはバッグに集約され、サンプルレベルの予測子を学ぶために、バッグごとの平均ラベルのみが利用可能である。 これは、単位サイズのバッグの特殊なケースである従来のPAC学習を一般化する。 LLPの計算学習の側面は、最近の研究(Saket, NeurIPS'21; Saket, NeurIPS'22)で研究され、LLP設定におけるハーフスペースの学習のためのアルゴリズムと硬さを示した。 本研究では,LLP学習ブール関数の抽出性に着目した。 最初の結果は、少なくとも2ドルでOR関数と整合性を持つバッグの集合が与えられた場合、常に多くの節のCNFを見つけることがNPハードであることを示している。 これは(Saket, NeurIPS'21)の作業とは対照的に、ハーフスペースを使ってORを学習するための(2/5)$-approximationを与えました。 そこで本研究では,LLP学習ORの仮説として,定数節CNFとハーフスペースを分離した。 次に、任意の定数$t$に対して$t$-DNF(つまり、各項が$\leq t$リテラルを持つDNF)を用いて、そのようなバッグの1/2 + o(1)$分以上を満たすことの難しさを証明する。 通常のPAC学習では、ノイズORを学習するためにのみ、そのような難易度(Khot-Saket, FOCS'08)が知られていた。 またパリティの学習可能性について検討し、$(q/2^{q-1} + o(1))$-fraction of $q$-sized bag that are consistent with a parity using a parity, while a random parity based algorithm achieve a $(1/2^{q-2})$-approximation。

In recent years the framework of learning from label proportions (LLP) has been gaining importance in machine learning. In this setting, the training examples are aggregated into subsets or bags and only the average label per bag is available for learning an example-level predictor. This generalizes traditional PAC learning which is the special case of unit-sized bags. The computational learning aspects of LLP were studied in recent works (Saket, NeurIPS'21; Saket, NeurIPS'22) which showed algorithms and hardness for learning halfspaces in the LLP setting. In this work we focus on the intractability of LLP learning Boolean functions. Our first result shows that given a collection of bags of size at most $2$ which are consistent with an OR function, it is NP-hard to find a CNF of constantly many clauses which satisfies any constant-fraction of the bags. This is in contrast with the work of (Saket, NeurIPS'21) which gave a $(2/5)$-approximation for learning ORs using a halfspace. Thus, our result provides a separation between constant clause CNFs and halfspaces as hypotheses for LLP learning ORs. Next, we prove the hardness of satisfying more than $1/2 + o(1)$ fraction of such bags using a $t$-DNF (i.e. DNF where each term has $\leq t$ literals) for any constant $t$. In usual PAC learning such a hardness was known (Khot-Saket, FOCS'08) only for learning noisy ORs. We also study the learnability of parities and show that it is NP-hard to satisfy more than $(q/2^{q-1} + o(1))$-fraction of $q$-sized bags which are consistent with a parity using a parity, while a random parity based algorithm achieves a $(1/2^{q-2})$-approximation.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# Tabular Learning: エンティティとコンテキストの埋め込みをエンコードする

Tabular Learning: Encoding for Entity and Context Embeddings ( http://arxiv.org/abs/2403.19405v1 )

ライセンス: Link先を確認
Fredy Reusser, (参考訳) 本研究の目的は,様々なエンコーディング技術がエンティティやコンテキストの埋め込みに与える影響を調べることにある。 複数のデータセットに異なる前処理方法とネットワークアーキテクチャを適用することで、エンコーダがネットワークの学習結果にどのように影響するかのベンチマークが得られた。 テスト,検証,トレーニングデータの一貫性を維持することで,データ前処理において順序エンコーディングが最も適したエンコーダではないことを示し,その後,対象変数を正しく分類する。 より優れた結果が得られ、ネットワークの入力として類似度行列を計算することにより、文字列の類似度に基づく特徴を符号化した。 これは、エンティティとコンテキストの埋め込みの両方のケースで、トランスフォーマーアーキテクチャは、マルチラベル分類タスクに関して、順序および類似性エンコーディングのパフォーマンスを改善した。

Examining the effect of different encoding techniques on entity and context embeddings, the goal of this work is to challenge commonly used Ordinal encoding for tabular learning. Applying different preprocessing methods and network architectures over several datasets resulted in a benchmark on how the encoders influence the learning outcome of the networks. By keeping the test, validation and training data consistent, results have shown that ordinal encoding is not the most suited encoder for categorical data in terms of preprocessing the data and thereafter, classifying the target variable correctly. A better outcome was achieved, encoding the features based on string similarities by computing a similarity matrix as input for the network. This is the case for both, entity and context embeddings, where the transformer architecture showed improved performance for Ordinal and Similarity encoding with regard to multi-label classification tasks.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# ビデオオブジェクトセグメンテーションの時間的一貫性を目指して

Towards Temporally Consistent Referring Video Object Segmentation ( http://arxiv.org/abs/2403.19407v1 )

ライセンス: Link先を確認
Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Mubarak Shah, Ajmal Mian, (参考訳) ビデオオブジェクトセグメンテーション(R-VOS)手法の参照は、時間的文脈変動と他の視覚的に類似したオブジェクトの存在により、一貫したオブジェクトセグメンテーションを維持する上で困難に直面する。 本稿では,参照セグメンテーションとともに時間的インスタンスの一貫性を明示的にモデル化する,エンドツーエンドのR-VOSパラダイムを提案する。 具体的には,フレーム間協調による時空間整合と伝播を容易にする新しいハイブリッドメモリを提案する。 自動生成された高品質の参照マスクを有するフレームの特徴を伝播させて、多粒度アソシエーションに基づいて残りのフレームを分割し、時間的に一貫したR-VOSを実現する。 さらに,ビデオセグメンテーションの時間的一貫性を評価するために,新しいマスク一貫性スコア(MCS)尺度を提案する。 大規模な実験により、我々のアプローチは時間的一貫性をかなりのマージンで向上させ、R-VOSベンチマーク、すなわちRef-YouTube-VOS(67.1%)とRef-DAVIS17(65.6%)で最高のパフォーマンスをもたらすことが示されている。

Referring Video Object Segmentation (R-VOS) methods face challenges in maintaining consistent object segmentation due to temporal context variability and the presence of other visually similar objects. We propose an end-to-end R-VOS paradigm that explicitly models temporal instance consistency alongside the referring segmentation. Specifically, we introduce a novel hybrid memory that facilitates inter-frame collaboration for robust spatio-temporal matching and propagation. Features of frames with automatically generated high-quality reference masks are propagated to segment the remaining frames based on multi-granularity association to achieve temporally consistent R-VOS. Furthermore, we propose a new Mask Consistency Score (MCS) metric to evaluate the temporal consistency of video segmentation. Extensive experiments demonstrate that our approach enhances temporal consistency by a significant margin, leading to top-ranked performance on popular R-VOS benchmarks, i.e., Ref-YouTube-VOS (67.1%) and Ref-DAVIS17 (65.6%).
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# 量子衝突モデル

Queued quantum collision models ( http://arxiv.org/abs/2403.19408v1 )

ライセンス: Link先を確認
Guilherme Fiusa, Gabriel T. Landi, (参考訳) 衝突モデルでは、システムと独立アンシラの連続的な相互作用を記述する。 最近の中性原子配列の進歩に触発されて、このレターでは、アンシラが古典的なコントローラによって支配され、彼らのターンがシステムと対話するのを待つ間、アンシラがキューアップされるモデルを調べます。 アンシラは、待ってる間に個々のオープンダイナミクスを施すことができ、それによって脱毛する可能性がある。 キューでサーバの役割を担っているこのシステムは、アイドル状態であるたびに、独自のオープンなダイナミクスを実行することもできる。 このフレームワークは、量子衝突モデルに対する既存のアプローチを一般化し、決定論的および確率的定式化を適切な極限で回復することを示す。 次に、古典的待ち行列力学が量子衝突における非自明な効果を導入し、システム・アンシラ応答の異なる位相に繋がることを示す。 雑音待ち力学の下でのコヒーレンス伝達のモデルを用いて,このアイデアを説明する。

Collision models describe the sequential interactions of a system with independent ancillas. Motivated by recent advances in neutral atom arrays, in this Letter we investigate a model where the ancillas are governed by a classical controller that allows them to queue up while they wait for their turn to interact with the system. The ancillas can undergo individual open dynamics while they wait, which may cause them to decohere. The system, which plays the role of the server in the queue, can also undergo its own open dynamics whenever it is idle. We first show that this framework generalizes existing approaches for quantum collision models, recovering the deterministic and stochastic formulations in the appropriate limits. Next, we show how the classical queueing dynamics introduces non-trivial effects in the quantum collisions, that can lead to different phases in the system-ancilla response. We illustrate the idea with a model of coherence transfer under noisy waiting dynamics.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# イベントカメラ6-DOFのためのシンプルで効果的なポイントベースネットワーク

A Simple and Effective Point-based Network for Event Camera 6-DOFs Pose Relocalization ( http://arxiv.org/abs/2403.19412v1 )

ライセンス: Link先を確認
Hongwei Ren, Jiadong Zhu, Yue Zhou, Haotian FU, Yulong Huang, Bojun Cheng, (参考訳) イベントカメラは、高ダイナミックレンジ、非同期性、低レイテンシなどの顕著な特性を示し、高速な動作を伴う視覚タスクに非常に適している。 これらのカメラは、イベント中の動きや深度情報を暗黙的に捉え、カメラポーズ・リローカライゼーション(CPR)タスクのためのセンサーをアピールする。 それでも、イベントに基づく既存のCPRネットワークは、イベントにおける重要な微粒な時間情報を無視し、不満足なパフォーマンスをもたらす。 さらに、エネルギー効率の良い特徴は、過度に複雑なモデルを使用することによってさらに損なわれ、エッジデバイスへの効率的なデプロイを妨げている。 本稿では,6自由度(6-DOF)イベントカメラのポーズを抑えるために設計された,シンプルで効果的な点ベースネットワークであるPEPNetを紹介する。 我々は、イベントカメラとCPRタスクの関係を再考し、生のPoint Cloudを直接ネットワーク入力として活用し、イベントの高時間分解能と固有の空間性を活用する。 PEPNetは、Attentive Bi-directional Long Short-Term Memory (A-Bi-LSTM) による階層構造と明示的な時間的特徴を通して、空間的および暗黙的特徴を抽象化する。 PEPNetは、慎重に設計された軽量な設計を採用することで、単純な計算リソースを備えた、屋内および屋外両方のデータセットに最先端(SOTA)パフォーマンスを提供する。 具体的には、PEPNetは、ランダムスプリットIJRRとM3EDデータセットに対して、それぞれ38%と33%のパフォーマンス改善を実現している。 さらに、軽量設計バージョンであるPEPNet$_{tiny}$は、パラメータの0.5%を使用しながら、SOTAに匹敵する結果を達成している。

Event cameras exhibit remarkable attributes such as high dynamic range, asynchronicity, and low latency, making them highly suitable for vision tasks that involve high-speed motion in challenging lighting conditions. These cameras implicitly capture movement and depth information in events, making them appealing sensors for Camera Pose Relocalization (CPR) tasks. Nevertheless, existing CPR networks based on events neglect the pivotal fine-grained temporal information in events, resulting in unsatisfactory performance. Moreover, the energy-efficient features are further compromised by the use of excessively complex models, hindering efficient deployment on edge devices. In this paper, we introduce PEPNet, a simple and effective point-based network designed to regress six degrees of freedom (6-DOFs) event camera poses. We rethink the relationship between the event camera and CPR tasks, leveraging the raw Point Cloud directly as network input to harness the high-temporal resolution and inherent sparsity of events. PEPNet is adept at abstracting the spatial and implicit temporal features through hierarchical structure and explicit temporal features by Attentive Bi-directional Long Short-Term Memory (A-Bi-LSTM). By employing a carefully crafted lightweight design, PEPNet delivers state-of-the-art (SOTA) performance on both indoor and outdoor datasets with meager computational resources. Specifically, PEPNet attains a significant 38% and 33% performance improvement on the random split IJRR and M3ED datasets, respectively. Moreover, the lightweight design version PEPNet$_{tiny}$ accomplishes results comparable to the SOTA while employing a mere 0.5% of the parameters.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# BP4ER:医療対話生成における明示的推論のためのブートストラッププロンプト

BP4ER: Bootstrap Prompting for Explicit Reasoning in Medical Dialogue Generation ( http://arxiv.org/abs/2403.19414v1 )

ライセンス: Link先を確認
Yuhong He, Yongqi Zhang, Shizhu He, Jun Wan, (参考訳) 医療対話生成(MDG)はその実質的な価値から注目を集めている。 従来の研究は、典型的にはシーケンス・ツー・シーケンス・フレームワークを使用して、対話コンテキストを注釈付き医療エンティティによるシーケンシャルテキストとしてモデル化することで、医療応答を生成する。 これらの手法は、流動的な応答を生成することに成功しているが、推論のプロセス説明の提供に失敗し、広範囲なエンティティアノテーションを必要としている。 これらの制約に対処するため、MDGの多段階推論プロセスを明示的にモデル化し、反復的にこの推論プロセスを強化する、MDGの明示的推論のためのBootstrap Prompting法(BP4ER)を提案する。 我々は、MDGをより単純なサブクエストに分割し、明示的な推論において大きな言語モデル(LLM)を導くために、最小限のプロンプト戦略を採用する。 これらのサブクエストは、以前のものからの回答に基づいている。 さらに,エラーを自律的に修正し,LCMの明示的な推論を促進する,プロンプトのための2つの異なるブートストラップ手法も導入する。 このアプローチはエンティティアノテーションの必要性を排除し、中間推論チェーンを明示的に生成することでMDGプロセスの透明性を高める。 2つの公開データセットの実験結果から,BP4ERは客観的および主観的評価指標の両方の観点から,最先端の手法よりも優れていたことが示唆された。

Medical dialogue generation (MDG) has gained increasing attention due to its substantial practical value. Previous works typically employ a sequence-to-sequence framework to generate medical responses by modeling dialogue context as sequential text with annotated medical entities. While these methods have been successful in generating fluent responses, they fail to provide process explanations of reasoning and require extensive entity annotation. To address these limitations, we propose the method Bootstrap Prompting for Explicit Reasoning in MDG (BP4ER), which explicitly model MDG's multi-step reasoning process and iteratively enhance this reasoning process. We employ a least-to-most prompting strategy to guide a large language model (LLM) in explicit reasoning, breaking down MDG into simpler sub-questions. These sub-questions build on answers from previous ones. Additionally, we also introduce two distinct bootstrapping techniques for prompting, which autonomously correct errors and facilitate the LLM's explicit reasoning. This approach eliminates the need for entity annotation and increases the transparency of the MDG process by explicitly generating the intermediate reasoning chain. The experimental findings on the two public datasets indicate that BP4ER outperforms state-of-the-art methods in terms of both objective and subjective evaluation metrics.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# 脳移行:慢性硬膜下血腫における新しいバイオマーカー抽出のための教師なし擬似健康脳合成法

Brain-Shift: Unsupervised Pseudo-Healthy Brain Synthesis for Novel Biomarker Extraction in Chronic Subdural Hematoma ( http://arxiv.org/abs/2403.19415v1 )

ライセンス: Link先を確認
Baris Imre, Elina Thibeau-Sutre, Jorieke Reimer, Kuan Kho, Jelmer M. Wolterink, (参考訳) 慢性硬膜下血腫(cSDH)は、脳と硬膜間血の蓄積を特徴とする一般的な神経疾患である。 この血液の蓄積は脳に圧力を与え、致命的な結果をもたらす可能性がある。 cSDHの治療オプションは、侵襲的手術または非侵襲的管理に限られる。 伝統的に、理想的な矢状面の専門家によって手動で測定された正中線シフトと、ヘマトマ体積が、cSDHの定量化と分析の主要な指標となっている。 しかし、これらの手法はcSDHによる局所的な3次元脳の変形を定量化しない。 そこで本研究では,脳の変形場を生成するために,解剖学を意識した非教師付き擬似健康合成法を提案する。 この過程から導かれる変形場を利用して、cSDHによる脳のシフトを定量化するバイオマーカーを抽出する。 方法の訓練と検証には,121例のCTスキャンを用い,手術を要した患者の識別に有効であることが確認された。 以上の結果から, 自動的に得られる脳の変形場には, パーソナライズされたcSDH治療のための予後値が含まれている可能性が示唆された。 実装は、github.com/Barisimre/brain-morphingで利用可能です。

Chronic subdural hematoma (cSDH) is a common neurological condition characterized by the accumulation of blood between the brain and the dura mater. This accumulation of blood can exert pressure on the brain, potentially leading to fatal outcomes. Treatment options for cSDH are limited to invasive surgery or non-invasive management. Traditionally, the midline shift, hand-measured by experts from an ideal sagittal plane, and the hematoma volume have been the primary metrics for quantifying and analyzing cSDH. However, these approaches do not quantify the local 3D brain deformation caused by cSDH. We propose a novel method using anatomy-aware unsupervised diffeomorphic pseudo-healthy synthesis to generate brain deformation fields. The deformation fields derived from this process are utilized to extract biomarkers that quantify the shift in the brain due to cSDH. We use CT scans of 121 patients for training and validation of our method and find that our metrics allow the identification of patients who require surgery. Our results indicate that automatically obtained brain deformation fields might contain prognostic value for personalized cSDH treatment. Our implementation is available on: github.com/Barisimre/brain-morphing
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# OAKINK2: 複雑なタスク完了における双方向ハンドオブジェクト操作のデータセット

OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion ( http://arxiv.org/abs/2403.19417v1 )

ライセンス: Link先を確認
Xinyu Zhan, Lixin Yang, Yifei Zhao, Kangrui Mao, Hanlin Xu, Zenan Lin, Kailin Li, Cewu Lu, (参考訳) OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。 OAKINK2は、複雑なタスクを構造化された表現に構築するために、操作タスクを整理する3つのレベルの抽象化を導入している。 OAKINK2は複雑なタスクをデコードするためにオブジェクト中心の視点で機能し、それらをオブジェクトのアベイランスフルフィルメントのシーケンスとして扱う。 第1のレベルであるAffordanceでは、シーン内のオブジェクトが手に入る機能の概要を、第2のレベルであるPrimitive Taskでは、人間がその余裕を達成するためにオブジェクトと対話する最小のインタラクションユニットを、第3のレベルであるComplex Taskでは、プリミティブタスクがどのように構成され、相互依存しているかを説明している。 OAKINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。 この広範なコレクションは、相互作用再構成やモーション合成といった応用をサポートしている。 OAKINK2の3段階の抽象化に基づいて,複雑なタスク補完(CTC)のためのタスク指向フレームワークについて検討する。 CTCは、タスク目的を達成するために、双方向操作のシーケンスを生成することを目的としている。 CTC フレームワーク内では,複雑なタスク対象をプリミティブタスクのシーケンスに分解するために,Large Language Models (LLMs) を使用し,プリミティブタスク毎にバイマニュアルハンドモーションを生成するモーションフルフィルメントモデルを開発した。 OAKINK2のデータセットとモデルはhttps://oakink.net/v2.comで公開されている。

We present OAKINK2, a dataset of bimanual object manipulation tasks for complex daily activities. In pursuit of constructing the complex tasks into a structured representation, OAKINK2 introduces three level of abstraction to organize the manipulation tasks: Affordance, Primitive Task, and Complex Task. OAKINK2 features on an object-centric perspective for decoding the complex tasks, treating them as a sequence of object affordance fulfillment. The first level, Affordance, outlines the functionalities that objects in the scene can afford, the second level, Primitive Task, describes the minimal interaction units that humans interact with the object to achieve its affordance, and the third level, Complex Task, illustrates how Primitive Tasks are composed and interdependent. OAKINK2 dataset provides multi-view image streams and precise pose annotations for the human body, hands and various interacting objects. This extensive collection supports applications such as interaction reconstruction and motion synthesis. Based on the 3-level abstraction of OAKINK2, we explore a task-oriented framework for Complex Task Completion (CTC). CTC aims to generate a sequence of bimanual manipulation to achieve task objectives. Within the CTC framework, we employ Large Language Models (LLMs) to decompose the complex task objectives into sequences of Primitive Tasks and have developed a Motion Fulfillment Model that generates bimanual hand motion for each Primitive Task. OAKINK2 datasets and models are available at https://oakink.net/v2.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# 保存運動と非保存運動の運動定数

Constants of Motion for Conserved and Non-conserved Dynamics ( http://arxiv.org/abs/2403.19418v1 )

ライセンス: Link先を確認
Michael F. Zimmer, (参考訳) 本稿では、時系列データに機械学習技術(FJet)を適用して得られた動的モデルから始める。 この解析は1Dおよび2D高調波発振器の保存および非保存の両方で行われる。 1D発振器では、システムが過大な損傷を受けたり、過大な損傷を受けたり、致命的な減衰を受けたりする場合に定数が見つかる。 非保存モデルに対するそのような定数の新たな存在は、エネルギーの保存(すなわち発振器+散逸環境)の顕在化であると解釈される。 2次元発振器では、周波数が不均等である場合を含む等方的および異方的ケースに対して定数が見つかるが、これは任意の次元に一般化される。 さらに、周波数のすべての比について角運動量を一般化する定数が同定される。 ここで提示されるアプローチは、ジェネリックデータセットである {\em single} から運動定数を生成することができる。

This paper begins with a dynamical model that was obtained by applying a machine learning technique (FJet) to time-series data; this dynamical model is then analyzed with Lie symmetry techniques to obtain constants of motion. This analysis is performed on both the conserved and non-conserved cases of the 1D and 2D harmonic oscillators. For the 1D oscillator, constants are found in the cases where the system is underdamped, overdamped, and critically damped. The novel existence of such a constant for a non-conserved model is interpreted as a manifestation of the conservation of energy of the {\em total} system (i.e., oscillator plus dissipative environment). For the 2D oscillator, constants are found for the isotropic and anisotropic cases, including when the frequencies are incommensurate; it is also generalized to arbitrary dimensions. In addition, a constant is identified which generalizes angular momentum for all ratios of the frequencies. The approach presented here can produce {\em multiple} constants of motion from a {\em single}, generic data set.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# ランク付けの公正性:保護属性のないランダム化によるロバスト性

Fairness in Ranking: Robustness through Randomization without the Protected Attribute ( http://arxiv.org/abs/2403.19419v1 )

ライセンス: Link先を確認
Andrii Kliachkin, Eleni Psaroudaki, Jakub Marecek, Dimitris Fotakis, (参考訳) 機械学習には、特に分類問題に関して、公平性に大きな関心が寄せられている。 オンライン広告、レコメンデーターシステム、人事自動化などのランキング関連問題では、フェアネスに関する多くの作業がまだ行われている。 まず、保護された属性は多くのアプリケーションでは利用できないかもしれない。 第2に、ランクの公平性の複数の尺度があり、ランクの公平性の単一の尺度を利用する最適化ベースの手法は、他の尺度に関して不公平なランクを生み出す可能性がある。 本研究では,保護属性の可利用性を必要としない列挙後処理のランダム化手法を提案する。 本研究では,P-FairnessとNDCG(正規化非カウント累積ゲイン)に関して,提案手法のロバスト性を示し,従来提案されていた手法を改良した。

There has been great interest in fairness in machine learning, especially in relation to classification problems. In ranking-related problems, such as in online advertising, recommender systems, and HR automation, much work on fairness remains to be done. Two complications arise: first, the protected attribute may not be available in many applications. Second, there are multiple measures of fairness of rankings, and optimization-based methods utilizing a single measure of fairness of rankings may produce rankings that are unfair with respect to other measures. In this work, we propose a randomized method for post-processing rankings, which do not require the availability of the protected attribute. In an extensive numerical study, we show the robustness of our methods with respect to P-Fairness and effectiveness with respect to Normalized Discounted Cumulative Gain (NDCG) from the baseline ranking, improving on previously proposed methods.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# 大規模fMRIデータセットにおける脳エンコーディングの隆起回帰のスケールアップ

Scaling up ridge regression for brain encoding in a massive individual fMRI dataset ( http://arxiv.org/abs/2403.19421v1 )

ライセンス: Link先を確認
Sana Ahmadi, Pierre Bellec, Tristan Glatard, (参考訳) 神経画像データを用いた脳のエンコーディングは、映画フレームのような複雑な刺激特徴から直接人間の脳活動を予測することを目的とした確立された分析である。 通常、これらの特徴は人工ニューラルネットワークからの潜在空間表現であり、刺激は画像、音声、テキスト入力である。 リッジ回帰は、サンプル外一般化性能がよいため、脳エンコーディングの一般的な予測モデルである。 しかし,脳活動の時空間サンプルを含む大規模機能的磁気共鳴画像(fMRI)データセットを扱う場合,隆起回帰モデルのトレーニングには非常に時間がかかる可能性がある。 本稿では,現在利用可能な最深部fMRIリソースの1つであるCNeuroMod Friendsデータセット上で,リッジ回帰による脳エンコーディングのトレーニング時間を削減するために,異なる並列化手法を評価した。 マルチスレッドでは、Intel Math Kernel Library (MKL) がOpenBLASライブラリよりも大幅に優れ、1台のマシンで32スレッドを使用すれば1.9倍高速であることを示す。 そこで我々は,Scikit-Lern(MultiOutput)で容易に利用できるリッジレグレッションのDalkマルチCPU実装を評価し,時間複雑性解析によるDalk並列化の"バッチ"バージョンを提案した。 理論的解析の結果、マルチアウトプット並列化は非現実的、すなわち1台のマシン上でのマルチスレッドよりも遅いことが判明した。 対照的に、Batch-MultiOutputのレグレッションは計算ノードとスレッド間でうまくスケールし、シングルスレッドのScikit-learn実行と比較して8つの計算ノードと32スレッドで最大33倍のスピードアップを実現した。 Daskを用いたバッチ並列化は、Scikit-learnと大きなfMRIデータセットを使用した高性能コンピューティングシステムにおいて、リッジレグレッションを伴う脳エンコーディングのためのスケーラブルなアプローチとして現れる。

Brain encoding with neuroimaging data is an established analysis aimed at predicting human brain activity directly from complex stimuli features such as movie frames. Typically, these features are the latent space representation from an artificial neural network, and the stimuli are image, audio, or text inputs. Ridge regression is a popular prediction model for brain encoding due to its good out-of-sample generalization performance. However, training a ridge regression model can be highly time-consuming when dealing with large-scale deep functional magnetic resonance imaging (fMRI) datasets that include many space-time samples of brain activity. This paper evaluates different parallelization techniques to reduce the training time of brain encoding with ridge regression on the CNeuroMod Friends dataset, one of the largest deep fMRI resource currently available. With multi-threading, our results show that the Intel Math Kernel Library (MKL) significantly outperforms the OpenBLAS library, being 1.9 times faster using 32 threads on a single machine. We then evaluated the Dask multi-CPU implementation of ridge regression readily available in scikit-learn (MultiOutput), and we proposed a new "batch" version of Dask parallelization, motivated by a time complexity analysis. In line with our theoretical analysis, MultiOutput parallelization was found to be impractical, i.e., slower than multi-threading on a single machine. In contrast, the Batch-MultiOutput regression scaled well across compute nodes and threads, providing speed-ups of up to 33 times with 8 compute nodes and 32 threads compared to a single-threaded scikit-learn execution. Batch parallelization using Dask thus emerges as a scalable approach for brain encoding with ridge regression on high-performance computing systems using scikit-learn and large fMRI datasets.
翻訳日:2024-03-29 16:14:04 公開日:2024-03-28
# Echo-chambersとIdean Labs: Twitterでのコミュニケーションスタイル

Echo-chambers and Idea Labs: Communication Styles on Twitter ( http://arxiv.org/abs/2403.19423v1 )

ライセンス: Link先を確認
Aleksandra Sorokovikova, Michael Becker, Ivan P. Yamshchikov, (参考訳) 本稿では,ワクチン接種状況におけるTwitter(X)コミュニティのコミュニケーション形態と構造について検討する。 主流研究は主にエコー・チャンバー現象に焦点が当てられ、特定の考えが強化され、参加者が反対意見から孤立しているのに対し、この研究は様々なコミュニティにおける多様なコミュニケーションスタイルの存在を明らかにしている。 本研究は, エコー・チャンバー行動を示すコミュニティに加えて, 異なるコミュニケーションパターンを持つコミュニティを明らかにする。 本研究は,ソーシャルネットワークにおけるコミュニケーションの微妙な性質に光を当てることによって,オンラインコミュニティにおける視点の多様性を理解することの重要性を強調する。

This paper investigates the communication styles and structures of Twitter (X) communities within the vaccination context. While mainstream research primarily focuses on the echo-chamber phenomenon, wherein certain ideas are reinforced and participants are isolated from opposing opinions, this study reveals the presence of diverse communication styles across various communities. In addition to the communities exhibiting echo-chamber behavior, this research uncovers communities with distinct communication patterns. By shedding light on the nuanced nature of communication within social networks, this study emphasizes the significance of understanding the diversity of perspectives within online communities.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# ポストホック説明における統語的スパン格付けの役割

The Role of Syntactic Span Preferences in Post-Hoc Explanation Disagreement ( http://arxiv.org/abs/2403.19424v1 )

ライセンス: Link先を確認
Jonathan Kamp, Lisa Beinborn, Antske Fokkens, (参考訳) ポストホックな説明手法は、ユーザーにとってモデルの透明性を高める重要なツールである。 残念ながら、トークンの重要性をもたらすために現在使われている方法は、しばしばばらつきパターンをもたらす。 本研究では,言語学的観点から,手法間の不一致の潜在的な源泉について検討する。 異なる手法が、異なる種類の単語を体系的に選択し、他の手法と最もよく一致し、人間が類似した言語的嗜好を示す方法が見つかる。 構文的スパンレベルで比較した場合、メソッド間のトークンレベルの差は滑らかになる。 また、$k$の固定されたサブセットに頼るのではなく、最も重要なスパンを動的に推定することでメソッド間での合意も高くなる。 我々は,$k$ と spans の相互作用を体系的に検討し,重要なトークンを選択するための改良された構成を提案する。

Post-hoc explanation methods are an important tool for increasing model transparency for users. Unfortunately, the currently used methods for attributing token importance often yield diverging patterns. In this work, we study potential sources of disagreement across methods from a linguistic perspective. We find that different methods systematically select different classes of words and that methods that agree most with other methods and with humans display similar linguistic preferences. Token-level differences between methods are smoothed out if we compare them on the syntactic span level. We also find higher agreement across methods by estimating the most important spans dynamically instead of relying on a fixed subset of size $k$. We systematically investigate the interaction between $k$ and spans and propose an improved configuration for selecting important tokens.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 虚血性脳卒中病変分離のためのロバストアンサンブルアルゴリズム : ISLESチャレンジを超えての一般化と臨床的有用性

A Robust Ensemble Algorithm for Ischemic Stroke Lesion Segmentation: Generalizability and Clinical Utility Beyond the ISLES Challenge ( http://arxiv.org/abs/2403.19425v1 )

ライセンス: Link先を確認
Ezequiel de la Rosa, Mauricio Reyes, Sook-Lei Liew, Alexandre Hutton, Roland Wiest, Johannes Kaesmacher, Uta Hanning, Arsany Hakim, Richard Zubal, Waldo Valenzuela, David Robben, Diana M. Sima, Vincenzo Anania, Arne Brys, James A. Meakin, Anne Mickan, Gabriel Broocks, Christian Heitkamp, Shengbo Gao, Kongming Liang, Ziji Zhang, Md Mahfuzur Rahman Siddiquee, Andriy Myronenko, Pooya Ashtari, Sabine Van Huffel, Hyun-su Jeong, Chi-ho Yoon, Chulhong Kim, Jiayu Huo, Sebastien Ourselin, Rachel Sparks, Albert Clèrigues, Arnau Oliver, Xavier Lladó, Liam Chalcroft, Ioannis Pappas, Jeroen Bertels, Ewout Heylen, Juliette Moreau, Nima Hatami, Carole Frindel, Abdul Qayyum, Moona Mazher, Domenec Puig, Shao-Chieh Lin, Chun-Jung Juan, Tianxi Hu, Lyndon Boone, Maged Goubran, Yi-Jui Liu, Susanne Wegener, Florian Kofler, Ivan Ezhov, Suprosanna Shit, Moritz R. Hernandez Petzsche, Bjoern Menze, Jan S. Kirschke, Benedikt Wiestler, (参考訳) 拡散強調MRI(DWI)は脳卒中診断,治療決定,予後に必須である。 しかし、画像と疾患の多様性は、臨床的価値を持つ一般化可能なAIアルゴリズムの開発を妨げる。 我々は,2022年のIschemic Stroke Lesion Segmentation(ISLES)チャレンジから得られた,新しいアンサンブルアルゴリズムを提案することで,このギャップに対処する。 ISLES'22は、様々な医療センターからの虚血性脳卒中を400件スキャンし、研究コミュニティによる幅広い最先端セグメンテーションアルゴリズムの開発を促進させた。 主要なチームとのコラボレーションを通じて、トップパフォーマンスのアルゴリズムを、個々のソリューションの限界を克服するアンサンブルモデルに組み合わせました。 我々のアンサンブルモデルは, 個々のアルゴリズムと比較して, 内部テストセットにおける虚血性病変の検出とセグメンテーションの精度に優れていた。 この精度は多様な画像と病気の変数にわたってよく一般化された。 さらに,臨床バイオマーカーの抽出に優れていた。 特にチューリングのようなテストでは、神経放射線学者は手作業よりもアルゴリズムのセグメンテーションを常に好み、包括性と精度の向上を強調した。 実世界の外部データセット(N=1686)を用いた検証により、モデルの一般化性が確認された。 このアルゴリズムの出力は、専門家による結果と同等以上の臨床スコア(NIHSSと90日間のmRS)と強い相関を示し、臨床関連性について概説した。 この研究は2つの重要な発見をもたらす。 まず、DWIの虚血性脳梗塞を専門家(神経)と同等に検出し、検出するアンサンブルアルゴリズム(https://github.com/Tabrisrei/ISLES22_Ensemble)を提案する。 第2に, バイオメディカル・チャレンジ・アウトプットが, 課題の当初の目的を超える可能性を示し, 実際の臨床応用性を示す。

Diffusion-weighted MRI (DWI) is essential for stroke diagnosis, treatment decisions, and prognosis. However, image and disease variability hinder the development of generalizable AI algorithms with clinical value. We address this gap by presenting a novel ensemble algorithm derived from the 2022 Ischemic Stroke Lesion Segmentation (ISLES) challenge. ISLES'22 provided 400 patient scans with ischemic stroke from various medical centers, facilitating the development of a wide range of cutting-edge segmentation algorithms by the research community. Through collaboration with leading teams, we combined top-performing algorithms into an ensemble model that overcomes the limitations of individual solutions. Our ensemble model achieved superior ischemic lesion detection and segmentation accuracy on our internal test set compared to individual algorithms. This accuracy generalized well across diverse image and disease variables. Furthermore, the model excelled in extracting clinical biomarkers. Notably, in a Turing-like test, neuroradiologists consistently preferred the algorithm's segmentations over manual expert efforts, highlighting increased comprehensiveness and precision. Validation using a real-world external dataset (N=1686) confirmed the model's generalizability. The algorithm's outputs also demonstrated strong correlations with clinical scores (admission NIHSS and 90-day mRS) on par with or exceeding expert-derived results, underlining its clinical relevance. This study offers two key findings. First, we present an ensemble algorithm (https://github.com/Tabrisrei/ISLES22_Ensemble) that detects and segments ischemic stroke lesions on DWI across diverse scenarios on par with expert (neuro)radiologists. Second, we show the potential for biomedical challenge outputs to extend beyond the challenge's initial objectives, demonstrating their real-world clinical applicability.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 拡散モデルを用いたバースト超解法による知覚品質向上

Burst Super-Resolution with Diffusion Models for Improving Perceptual Quality ( http://arxiv.org/abs/2403.19428v1 )

ライセンス: Link先を確認
Kyotaro Tokoro, Kazutoshi Akita, Norimichi Ukita, (参考訳) バーストLR画像は単一のLR画像と比較してSR画質を向上させるのに有用であるが、バーストLR画像を受け入れる前のSRネットワークは決定論的に訓練され、ぼやけたSR画像を生成することが知られている。 さらに、バーストLR画像を完全に整列させることは困難であり、SR画像はよりぼやけたものになる。 このようなぼやけた画像は知覚的に劣化しているため、我々は鋭い高忠実度境界を再構築することを目指している。 このような高忠実度画像は拡散モデルによって再構成することができる。 しかし,拡散モデルを用いた先行SR法は,バーストSRタスクに対して適切に最適化されていない。 具体的には、ランダムサンプルから始まる逆過程は、バーストSRを含む画像の強調と復元に最適化されない。 一方,本提案手法では,拡散モデルの中間段階に供給される初期バーストSR画像の再構成にバーストLR特性を用いる。 中間段階からの逆過程 1)画像のグローバル構造を再構築するための拡散ステップをスキップし、 2) 細かなテクスチャを精錬するためのステップに焦点を当てる。 実験結果から,本手法は知覚品質指標のスコアを向上させることができることが示された。 コード:https://github.com/placerkyo/BSRD

While burst LR images are useful for improving the SR image quality compared with a single LR image, prior SR networks accepting the burst LR images are trained in a deterministic manner, which is known to produce a blurry SR image. In addition, it is difficult to perfectly align the burst LR images, making the SR image more blurry. Since such blurry images are perceptually degraded, we aim to reconstruct the sharp high-fidelity boundaries. Such high-fidelity images can be reconstructed by diffusion models. However, prior SR methods using the diffusion model are not properly optimized for the burst SR task. Specifically, the reverse process starting from a random sample is not optimized for image enhancement and restoration methods, including burst SR. In our proposed method, on the other hand, burst LR features are used to reconstruct the initial burst SR image that is fed into an intermediate step in the diffusion model. This reverse process from the intermediate step 1) skips diffusion steps for reconstructing the global structure of the image and 2) focuses on steps for refining detailed textures. Our experimental results demonstrate that our method can improve the scores of the perceptual quality metrics. Code: https://github.com/placerkyo/BSRD
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 一次元非相互格子における非エルミート皮膚効果と拡張状態の共存

Coexistence of non-Hermitian skin effect and extended states in one-dimensional nonreciprocal lattices ( http://arxiv.org/abs/2403.19430v1 )

ライセンス: Link先を確認
Han Xiao, Qi-Bo Zeng, (参考訳) 本研究は,1次元非エルミチアン格子のスタッガートオンサイト変調と非相互ホッピングを次のアレスト近傍(NNN)サイトまで行うことを目的とした。 NNN の非相反性のため、開境界条件 (OBC) 下での系の非エルミート皮膚効果 (NHSE) はエネルギー依存性があり、格子の反対側に局在する固有状態を分離する固有エネルギースペクトルに NHSE エッジが存在する。 非相反ホッピングとオンサイト変調の相互作用は、皮膚効果の方向を逆転させ、NHSEエッジの位置を変更することができる。 さらに、システムパラメータをチューニングすることにより、OBCの下での固有状態のいくつかは完全に拡張され、対応する固有エネルギーは開境界条件と周期境界条件の両方で虚数となる。 したがって、拡張状態は同じシステムでNHSHと共存することができる。 NHSEは、変調が虚構であるときに全ての固有状態が拡張されて完全に溶解する。 本研究は,非エルミート系におけるオンサイト変調と非相互ホッピングの複雑な相互作用を明らかにする。

We study the one-dimensional non-Hermitian lattices with staggered onsite modulations and nonreciprocal hopping up to the next-nearest-neighboring (NNN) sites. Due to the NNN nonreciprocity, the non-Hermitian skin effect (NHSE) in the system under open boundary conditions (OBC) can be energy-dependent, and there will be NHSE edges in the eigenenergy spectrum, which separates the eigenstates localized at the opposite ends of the lattice. We find that the interplay between the nonreciprocal hopping and onsite modulations can reverse the direction of the skin effect and modify the position of the NHSE edge. Moreover, by tuning the system parameters, some of the eigenstates under OBC will become fully extended with the corresponding eigenenergies being imaginary under both open and periodic boundary conditions. Thus, the extended states can coexist with the NHSH in the same system. The NHSE can even be completely dissolved with all the eigenstates being extended when the modulation is imaginary. Our work unveils the intricate interplay between onsite modulations and nonreciprocal hopping in non-Hermitian systems.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 死亡調査ノートにおける注釈の不整合検出による自殺原因の発見

Uncovering Misattributed Suicide Causes through Annotation Inconsistency Detection in Death Investigation Notes ( http://arxiv.org/abs/2403.19432v1 )

ライセンス: Link先を確認
Song Wang, Yiliang Zhou, Ziqiang Han, Cui Tao, Yunyu Xiao, Ying Ding, Joydeep Ghosh, Yifan Peng, (参考訳) データ正確性は科学研究と政策開発に不可欠である。 NVDRS(National Violent Death Reporting System)のデータは、死のパターンや原因を発見するために広く利用されている。 最近の研究では、NVDRS内のアノテーションの不整合と誤った自殺原因の帰属に対する潜在的影響が示唆されている。 本稿では,アノテーションの不整合を検知し,問題のある事例を識別するためにクロスバリデーションのようなパラダイムを採用する,経験的自然言語処理(NLP)アプローチを提案する。 2003年から2020年にかけての267,804件の自殺事故をNVDRSから分析した。 その結果, 目標状態のデータを訓練に組み込むことで, 目標状態のF-1得点が5.4%増加し, 他状態のF-1得点が1.1%減少した。 結論として,NVDRSの死亡調査ノートにおけるアノテーションの不整合を実証し,問題事例を特定し,問題事例の修正の有効性を評価し,最終的にNLP改善ソリューションを提案した。

Data accuracy is essential for scientific research and policy development. The National Violent Death Reporting System (NVDRS) data is widely used for discovering the patterns and causes of death. Recent studies suggested the annotation inconsistencies within the NVDRS and the potential impact on erroneous suicide-cause attributions. We present an empirical Natural Language Processing (NLP) approach to detect annotation inconsistencies and adopt a cross-validation-like paradigm to identify problematic instances. We analyzed 267,804 suicide death incidents between 2003 and 2020 from the NVDRS. Our results showed that incorporating the target state's data into training the suicide-crisis classifier brought an increase of 5.4% to the F-1 score on the target state's test set and a decrease of 1.1% on other states' test set. To conclude, we demonstrated the annotation inconsistencies in NVDRS's death investigation notes, identified problematic instances, evaluated the effectiveness of correcting problematic instances, and eventually proposed an NLP improvement solution.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# BAMM:双方向自己回帰運動モデル

BAMM: Bidirectional Autoregressive Motion Model ( http://arxiv.org/abs/2403.19435v1 )

ライセンス: Link先を確認
Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen, (参考訳) テキストから人間の動きを生成することは、拡散または生成マスキングのプロセスを通じて、動きモデルを認知させることによって支配されている。 しかし、これらのモデルは、運動長に関する事前の知識を必要とすることによって、ユーザビリティに大きな制限に直面している。 逆に、自己回帰運動モデルは、劣化した生成品質と編集能力を犠牲にして、動きの終端を適応的に予測することで、この制限に対処する。 これらの課題に対処するために,新たなテキスト・ツー・モーション生成フレームワークである双方向自動回帰運動モデル(BAMM)を提案する。 BAMMは,(1)3次元の人間の動きを潜在空間の離散トークンに変換するモーション・トークンライザ,(2)ハイブリット・アテンション・マスキング戦略によってランダムにマスクされたトークンを自動予測するマスキング・セルフアテンション・トランスフォーマーの2つの重要な構成要素から構成される。 生成マスクモデリングと自己回帰モデリングを統一することにより、BAMMはモーショントークン間のリッチで双方向な依存関係をキャプチャし、テキスト入力から動的に調整されたモーションシーケンス長のモーション出力への確率的マッピングを学習する。 この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。 HumanML3DとKIT-MLデータセットの大規模な実験により、BAMMは定性的および定量的な測定において現在の最先端の手法を超越していることが示された。

Generating human motion from text has been dominated by denoising motion models either through diffusion or generative masking process. However, these models face great limitations in usability by requiring prior knowledge of the motion length. Conversely, autoregressive motion models address this limitation by adaptively predicting motion endpoints, at the cost of degraded generation quality and editing capabilities. To address these challenges, we propose Bidirectional Autoregressive Motion Model (BAMM), a novel text-to-motion generation framework. BAMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into discrete tokens in latent space, and (2) a masked self-attention transformer that autoregressively predicts randomly masked tokens via a hybrid attention masking strategy. By unifying generative masked modeling and autoregressive modeling, BAMM captures rich and bidirectional dependencies among motion tokens, while learning the probabilistic mapping from textual inputs to motion outputs with dynamically-adjusted motion sequence length. This feature enables BAMM to simultaneously achieving high-quality motion generation with enhanced usability and built-in motion editability. Extensive experiments on HumanML3D and KIT-ML datasets demonstrate that BAMM surpasses current state-of-the-art methods in both qualitative and quantitative measures.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# SubjectDrive: 被写体制御による自律運転における生成データのスケーリング

SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control ( http://arxiv.org/abs/2403.19438v1 )

ライセンス: Link先を確認
Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Yingfei Liu, Fan Jia, Weixin Mao, Tiancai Wang, Chi Zhang, Chang Wen Chen, Zhenzhong Chen, Xiangyu Zhang, (参考訳) 自律運転の進捗は、大規模な注釈付きデータセットに依存している。 本研究では、自律運転アプリケーションに膨大な量の自由ラベル付きデータを生成する生成モデルの可能性を検討するとともに、自律運転アプリケーションの改善を継続的に行うことができるように、生成データ生産を拡大することが証明された最初のモデルであるAjectDriveを提案する。 本稿では, 生成データ量のスケールアップが下流知覚モデルの性能に与える影響について検討し, 生成データ生産を効果的にスケールアップする上で, データの多様性向上が重要な役割を担っていることを明らかにする。 そこで,本研究では,多種多様な外部データソースを生かし,多種多様なデータ生成に活用できる主観制御機構を備えた新しいモデルを開発した。 広範囲な評価により、スケーラブルな自律運転訓練データを生成する上でのSubjectDriveの有効性が確認され、この分野におけるデータ生産方法の革新に向けた重要な一歩となる。

Autonomous driving progress relies on large-scale annotated datasets. In this work, we explore the potential of generative models to produce vast quantities of freely-labeled data for autonomous driving applications and present SubjectDrive, the first model proven to scale generative data production in a way that could continuously improve autonomous driving applications. We investigate the impact of scaling up the quantity of generative data on the performance of downstream perception models and find that enhancing data diversity plays a crucial role in effectively scaling generative data production. Therefore, we have developed a novel model equipped with a subject control mechanism, which allows the generative model to leverage diverse external data sources for producing varied and useful data. Extensive evaluations confirm SubjectDrive's efficacy in generating scalable autonomous driving training data, marking a significant step toward revolutionizing data production methods in this field.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# ガウス形式主義: ハイゼンベルクの不確実性関係における共同測定の具体的実現

Gaussian Formalism: Concrete Realization of Joint Measurement for Heisenberg's Uncertainty Relation for Errors ( http://arxiv.org/abs/2403.19440v1 )

ライセンス: Link先を確認
Kin-ya Oda, Naoya Ogawa, (参考訳) ガウス波束形式主義は、リーとツツイが発展させた誤り、乱れ、および不確実性の関係の普遍的枠組みに則って、ハイゼンベルクの原哲学である不確実性原理を理解する上で重要な要素である位置と運動量の合同測定の具体的実現に役立てることができると指摘する。 正の演算子値測定(POVM)であるガウス位相空間における我々の共同測定は、位置と運動量の射影測定との間を円滑に補間することを示す。 位置モメンタム測定において,Lee-Tsutsusui(LT)誤差と改良Lee誤差を初めて取得した。 LTの不確実性関係は、位置または運動量の射影的測定の制限の場合、$0=0$となる。 LT関係とは対照的に、局所的な表現可能性の誤差を評価する洗練されたリーの不確実性関係は、これらの極限の影響を受けず、純粋ガウスの初期状態に対して必ず飽和な定数の下界を与える。 得られた下界はハイゼンベルクの値と一致する。

We point out that the Gaussian wave-packet formalism can serve as a concrete realization of the joint measurement of position and momentum, which is an essential element in understanding Heisenberg's original philosophy of the uncertainty principle, in line with the universal framework of error, disturbance, and their uncertainty relations developed by Lee and Tsutsui. We show that our joint measurement in the Gaussian phase space, being a Positive Operator-Valued Measure (POVM) measurement, smoothly interpolates between the projective measurements of position and momentum. We, for the first time, have obtained the Lee-Tsutsui (LT) error and the refined Lee error for the position-momentum measurement. We find that the LT uncertainty relation becomes trivial, $0=0$, in the limiting case of projective measurement of either position or momentum. Remarkably, in contrast to the LT relation, the refined Lee uncertainty relation, which assesses errors for local representability, provides a constant lower bound unaffected by these limits and is invariably saturated, for a pure Gaussian initial state. The obtained lower bound is in agreement with Heisenberg's value.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 臨床面接音声記録を用いた外傷後ストレス障害検出のための確率変換器を用いた新しいアプローチ

A Novel Stochastic Transformer-based Approach for Post-Traumatic Stress Disorder Detection using Audio Recording of Clinical Interviews ( http://arxiv.org/abs/2403.19441v1 )

ライセンス: Link先を確認
Mamadou Dia, Ghazaleh Khodabandelou, Alice Othmani, (参考訳) PTSD(Post-traumatic stress disorder)は、外傷的な出来事を目撃または経験した後に発症する精神疾患である。 PTSDは、民族や文化に関係なく、誰にでも影響を及ぼす。 推定11人に1人がPTSDを経験する。 PTSD 尺度 (CAPS) と PTSD Check List for Civilians (PCL-C) は、PTSD の診断における金の基準である。 これらのアンケートは被験者の回答にだまされる。 本研究は,臨床面接における音声記録を用いたPTSD検出の最先端性能を実現するための深層学習に基づくアプローチを提案する。 本手法は, 臨床面接の音声記録から抽出したMFCC低レベル特徴に基づいており, 続いて, 確率変換器を用いた深層学習を行った。 提案手法は,確率的深度,確率的深度層,確率的アクティベーション関数により,EDAICデータセット上でのRMSE2.92の最先端性能を実現する。

Post-traumatic stress disorder (PTSD) is a mental disorder that can be developed after witnessing or experiencing extremely traumatic events. PTSD can affect anyone, regardless of ethnicity, or culture. An estimated one in every eleven people will experience PTSD during their lifetime. The Clinician-Administered PTSD Scale (CAPS) and the PTSD Check List for Civilians (PCL-C) interviews are gold standards in the diagnosis of PTSD. These questionnaires can be fooled by the subject's responses. This work proposes a deep learning-based approach that achieves state-of-the-art performances for PTSD detection using audio recordings during clinical interviews. Our approach is based on MFCC low-level features extracted from audio recordings of clinical interviews, followed by deep high-level learning using a Stochastic Transformer. Our proposed approach achieves state-of-the-art performances with an RMSE of 2.92 on the eDAIC dataset thanks to the stochastic depth, stochastic deep learning layers, and stochastic activation function.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# エコロジーモメンタリーアセスメント(EMA)予測を促進するために個々のグラフ構造をエクスプロイトする

Exploiting Individual Graph Structures to Enhance Ecological Momentary Assessment (EMA) Forecasting ( http://arxiv.org/abs/2403.19442v1 )

ライセンス: Link先を確認
Mandani Ntekouli, Gerasimos Spanakis, Lourens Waldorp, Anne Roefs, (参考訳) 精神病理学の進化の分野では、生態的モメンタリーアセスメント(EMA)から得られたデータの正確な評価と予測が重要である。 EMAは、時間とともにコンテキストに富んだ心理病理学的測定を提供し、実際はMTS(Multivariate Time Series)データに繋がる。 したがって、感情的、行動的、文脈的EMAデータに固有の時間的複雑さと、その相互依存性から多くの課題が生じる。 これら2つの側面に対処するため,Recurrent and Temporal Graph Neural Networks (GNNs) の性能について検討した。 全体として、GNNは変数間の内的関係を反映したグラフからの追加情報を導入し、平均二乗誤差(MSE)を1.02のベースラインLSTMモデルと比較して0.84に減らし、結果を顕著に向上させた。 そこで, 異なる特徴を持つグラフの構築がGNNの性能に与える影響についても検討した。 さらに,学習過程で動的に洗練されるGNN学習グラフを評価した。 このようなグラフを使用すれば、同様に優れたパフォーマンスが得られる。 このように、グラフ学習は他のGNN手法にも有望であることが証明された。

In the evolving field of psychopathology, the accurate assessment and forecasting of data derived from Ecological Momentary Assessment (EMA) is crucial. EMA offers contextually-rich psychopathological measurements over time, that practically lead to Multivariate Time Series (MTS) data. Thus, many challenges arise in analysis from the temporal complexities inherent in emotional, behavioral, and contextual EMA data as well as their inter-dependencies. To address both of these aspects, this research investigates the performance of Recurrent and Temporal Graph Neural Networks (GNNs). Overall, GNNs, by incorporating additional information from graphs reflecting the inner relationships between the variables, notably enhance the results by decreasing the Mean Squared Error (MSE) to 0.84 compared to the baseline LSTM model at 1.02. Therefore, the effect of constructing graphs with different characteristics on GNN performance is also explored. Additionally, GNN-learned graphs, which are dynamically refined during the training process, were evaluated. Using such graphs showed a similarly good performance. Thus, graph learning proved also promising for other GNN methods, potentially refining the pre-defined graphs.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 混合選好最適化:データ選択による強化学習とより良い参照モデル

Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model ( http://arxiv.org/abs/2403.19443v1 )

ライセンス: Link先を確認
Qi Gou, Cam-Tu Nguyen, (参考訳) 大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。 しかし、それらは大量のテキストのデータセットで訓練されているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。 本稿では,RLHF(Reinforcement Learning with Human Feedback)とDPO(Direct Preference Optimization)のような対照的な学習手法の2つのLLMアライメントについて検討する。 RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和するMPO(Mixed Preference Optimization)を提案する。 具体的には、まず簡単なデータセット上でDPOを訓練し、次に参照モデルであるDPOモデルを用いて難しいデータセット上でRLHFを実行する2段階の訓練手順を提案する。 ここでは、応答対を大きな報酬のギャップ(容易性)と小さな報酬のギャップ(微分性)に分割するよく訓練された報酬モデルによって、容易で困難な集合が構成される。 第1段階では比較的最適なポリシー(LLM)モデルが素早く得られ、第2段階ではオンラインRLHFでLCMを改良し、DPOに関連する分散シフト問題を緩和する。 HH-RLHFとTLDRという2つの公開アライメントデータセットを用いて実験を行い、GPT4と人的評価の両面でMPOの有効性を実証した。

Large Language Models (LLMs) have become increasingly popular due to their ability to process and generate natural language. However, as they are trained on massive datasets of text, LLMs can inherit harmful biases and produce outputs that are not aligned with human values. This paper studies two main approaches to LLM alignment: Reinforcement Learning with Human Feedback (RLHF) and contrastive learning-based methods like Direct Preference Optimization (DPO). By analyzing the stability and robustness of RLHF and DPO, we propose MPO (Mixed Preference Optimization), a novel method that mitigates the weaknesses of both approaches. Specifically, we propose a two-stage training procedure: first train DPO on an easy dataset, and then perform RLHF on a difficult set with DPO model being the reference model. Here, the easy and difficult sets are constructed by a well-trained reward model that splits response pairs into those with large gaps of reward (easy), and those with small gaps (difficult). The first stage allows us to obtain a relatively optimal policy (LLM) model quickly, whereas the second stage refines LLM with online RLHF, thus mitigating the distribution shift issue associated with DPO. Experiments are conducted on two public alignment datasets, namely HH-RLHF and TLDR, demonstrating the effectiveness of MPO, both in terms of GPT4 and human evaluation.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 胸部X線による肺癌検出のための透明かつ臨床的に解釈可能なAI

Transparent and Clinically Interpretable AI for Lung Cancer Detection in Chest X-Rays ( http://arxiv.org/abs/2403.19444v1 )

ライセンス: Link先を確認
Amy Rafferty, Rishi Ramaesh, Ajitha Rajan, (参考訳) 説明可能な人工知能(XAI)の急速に進歩する分野は、現実世界のアプリケーションで複雑なブラックボックスのディープラーニングモデルを使用することに関する信頼の問題に取り組むことを目的としている。 既存のポストホックXAI技術は、医療データに乏しく、臨床利用には不適当な説明をもたらすことが最近示されている。 そこで本研究では,臨床概念を分類パイプラインに導入するコンセプトボトルネックモデルに基づくアンテホックなアプローチを提案する。 胸部X線および関連する医療報告の大規模な公開データセットについて,肺がん検出のバイナリ分類課題に焦点をあてる。 本手法は, ベースライン深層学習モデル (F1 > 0.9) と比較して, 肺がん検出における分類性能の向上を図っている。 胸部X線による質問応答の文脈で動作する最近のテキストXAIツールであるCXR-LLaVAと同様に, ポストホック画像のXAI技術であるLIMEとSHAPに対するアプローチを評価した。

The rapidly advancing field of Explainable Artificial Intelligence (XAI) aims to tackle the issue of trust regarding the use of complex black-box deep learning models in real-world applications. Existing post-hoc XAI techniques have recently been shown to have poor performance on medical data, producing unreliable explanations which are infeasible for clinical use. To address this, we propose an ante-hoc approach based on concept bottleneck models which introduces for the first time clinical concepts into the classification pipeline, allowing the user valuable insight into the decision-making process. On a large public dataset of chest X-rays and associated medical reports, we focus on the binary classification task of lung cancer detection. Our approach yields improved classification performance in lung cancer detection when compared to baseline deep learning models (F1 > 0.9), while also generating clinically relevant and more reliable explanations than existing techniques. We evaluate our approach against post-hoc image XAI techniques LIME and SHAP, as well as CXR-LLaVA, a recent textual XAI tool which operates in the context of question answering on chest X-rays.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# 線形プログラムのフィッシャー・ラオ勾配流れと状態-摩擦自然政策勾配

Fisher-Rao Gradient Flows of Linear Programs and State-Action Natural Policy Gradients ( http://arxiv.org/abs/2403.19448v1 )

ライセンス: Link先を確認
Johannes Müller, Semih Çaycı, Guido Montúfar, (参考訳) カカデの自然政策勾配法は、近年、正規化と非正規化との線形収束を示す研究が盛んに行われている。 本研究では, 状態-作用分布のフィッシャー情報行列に基づく自然勾配法について検討し, 理論的側面からはほとんど注目されていない。 ここで、状態-作用分布は、線形ポテンシャルに対する状態-作用ポリトープ内のフィッシャー-ラオ勾配の流れに従う。 したがって、線形プログラムのフィッシャー・ラオ勾配流をより一般に研究し、線形プログラムの幾何学に依存する速度で線形収束を示す。 同様に、これは既存の結果を改善する線形プログラムのエントロピー正則化によって引き起こされる誤差を推定する。 これらの結果を拡張し、摂動型フィッシャー・ラオ勾配流と自然勾配流の線形収束を近似誤差まで示す。 特に、これらの一般的な結果は、国家が行動する自然政策勾配のケースをカバーしている。

Kakade's natural policy gradient method has been studied extensively in the last years showing linear convergence with and without regularization. We study another natural gradient method which is based on the Fisher information matrix of the state-action distributions and has received little attention from the theoretical side. Here, the state-action distributions follow the Fisher-Rao gradient flow inside the state-action polytope with respect to a linear potential. Therefore, we study Fisher-Rao gradient flows of linear programs more generally and show linear convergence with a rate that depends on the geometry of the linear program. Equivalently, this yields an estimate on the error induced by entropic regularization of the linear program which improves existing results. We extend these results and show sublinear convergence for perturbed Fisher-Rao gradient flows and natural gradient flows up to an approximation error. In particular, these general results cover the case of state-action natural policy gradients.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# JDocQA:ジェネレーティブ言語モデルのための日本語文書質問回答データセット

JDocQA: Japanese Document Question Answering Dataset for Generative Language Models ( http://arxiv.org/abs/2403.19454v1 )

ライセンス: Link先を確認
Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe, (参考訳) 文献質問応答は, レポート, スライド, パンフレット, ウェブサイトなど, 与えられた文書に対する質問応答のタスクであり, 紙や電子文書の形式が社会で一般的であることから, 真に要求される課題である。 これは、テキスト理解だけでなく、数字や表の理解も必要であり、視覚的質問応答法(VQA)がテキストのアプローチに加えてしばしば検討されるため、非常に難しいタスクとして知られている。 本稿では,大規模文書ベースのQAデータセットであるJDocQAについて,PDF形式で5,504の文書と日本語で注釈付き11,600の質問・回答のインスタンスからなる,視覚情報とテキスト情報の両方を必要とする。 各QAインスタンスには、ドキュメントページへの参照と、回答のヒントのためのバウンディングボックスが含まれている。 現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。 我々は,テキストベース大規模言語モデル(LLM)とマルチモーダルモデルを用いて,データセットの有効性を実証的に評価した。 難解な質問を微調整に組み込むことは、いわゆる幻覚発生の活用に寄与する可能性がある。

Document question answering is a task of question answering on given documents such as reports, slides, pamphlets, and websites, and it is a truly demanding task as paper and electronic forms of documents are so common in our society. This is known as a quite challenging task because it requires not only text understanding but also understanding of figures and tables, and hence visual question answering (VQA) methods are often examined in addition to textual approaches. We introduce Japanese Document Question Answering (JDocQA), a large-scale document-based QA dataset, essentially requiring both visual and textual information to answer questions, which comprises 5,504 documents in PDF format and annotated 11,600 question-and-answer instances in Japanese. Each QA instance includes references to the document pages and bounding boxes for the answer clues. We incorporate multiple categories of questions and unanswerable questions from the document for realistic question-answering applications. We empirically evaluate the effectiveness of our dataset with text-based large language models (LLMs) and multimodal models. Incorporating unanswerable questions in finetuning may contribute to harnessing the so-called hallucination generation.
翻訳日:2024-03-29 16:04:18 公開日:2024-03-28
# Break-for-Make: 構成可能なコンテンツスタイルのカスタマイズのためのモジュール型低ランク適応

Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization ( http://arxiv.org/abs/2403.19456v1 )

ライセンス: Link先を確認
Yu Xu, Fan Tang, Juan Cao, Yuxin Zhang, Oliver Deussen, Weiming Dong, Jintao Li, Tong-Yee Lee, (参考訳) パーソナライズドジェネレーションパラダイムは、いくつかの画像上で事前訓練されたテキスト・ツー・イメージのモデルをチューニングまたは適応することにより、デザイナーがテキスト記述の助けを借りて視覚的知的プロパティをカスタマイズすることを可能にする。 最近の研究は、コンテンツと詳細な視覚スタイルの両方を同時にカスタマイズするためのアプローチを探っている。 しかし、これらの既存のアプローチは、しばしばコンテンツとスタイルが絡み合った画像を生成する。 本研究では,パラメータ空間の構成の観点から,コンテンツとスタイル概念のカスタマイズを再考する。 コンテンツとスタイルの共有パラメータ空間を利用する既存の手法とは違って,コンテンツとスタイルの個別学習を容易にするために,パラメータ空間を分離した学習フレームワークを提案する。 この目的を達成するために、元のアダプタを分割したサブパラメータ空間に分割する「部分学習可能な投影」(PLP)行列を導入する。 PLPに基づく"ブレーク・フォー・メイク"なカスタマイズ学習パイプラインを提案する。 我々は、元のアダプタを「アッププロジェクション」と「ダウンプロジェクション」に分割し、個別に、個別のアダプタで対応するテキストプロンプトのガイダンスを用いて、コンテンツとスタイルのLPをトレーニングし、マルチ対応予測学習戦略を用いて一般化を維持する。 個別のトレーニング内容とスタイルのために分割されたアダプタに基づいて、コンテンツとスタイルのLPPを再構成し、その後、組み合わせたアダプタを微調整し、ターゲットオブジェクトを所望の外観で生成することで、エンティティパラメータ空間を作成する。 テクスチャ,素材,芸術的スタイルなど,さまざまなスタイルの実験により,本手法は,コンテンツスタイルとプロンプトのアライメントの観点から,最先端のシングル/マルチコンセプト学習パイプラインより優れていることが示された。

Personalized generation paradigms empower designers to customize visual intellectual properties with the help of textual descriptions by tuning or adapting pre-trained text-to-image models on a few images. Recent works explore approaches for concurrently customizing both content and detailed visual style appearance. However, these existing approaches often generate images where the content and style are entangled. In this study, we reconsider the customization of content and style concepts from the perspective of parameter space construction. Unlike existing methods that utilize a shared parameter space for content and style, we propose a learning framework that separates the parameter space to facilitate individual learning of content and style, thereby enabling disentangled content and style. To achieve this goal, we introduce "partly learnable projection" (PLP) matrices to separate the original adapters into divided sub-parameter spaces. We propose "break-for-make" customization learning pipeline based on PLP, which is simple yet effective. We break the original adapters into "up projection" and "down projection", train content and style PLPs individually with the guidance of corresponding textual prompts in the separate adapters, and maintain generalization by employing a multi-correspondence projection learning strategy. Based on the adapters broken apart for separate training content and style, we then make the entity parameter space by reconstructing the content and style PLPs matrices, followed by fine-tuning the combined adapter to generate the target object with the desired appearance. Experiments on various styles, including textures, materials, and artistic style, show that our method outperforms state-of-the-art single/multiple concept learning pipelines in terms of content-style-prompt alignment.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# NeuroLGP-SM:線形遺伝的プログラミングを用いた代理型神経進化アプローチ

NeuroLGP-SM: A Surrogate-assisted Neuroevolution Approach using Linear Genetic Programming ( http://arxiv.org/abs/2403.19459v1 )

ライセンス: Link先を確認
Fergal Stapleton, Brendan Cody-Kenny, Edgar Galván, (参考訳) 進化的アルゴリズムは、人工知能内でのディープニューラルネットワーク(DNN)の自動最適化のための実行可能な計算手法として、ますます認識されている。 この方法は、神経進化として知られるアプローチであるDNNの訓練にまで拡張される。 しかし、神経進化は本質的に資源集約的なプロセスであり、ある研究では単一のDNNネットワークを精錬し、訓練するために数千のGPU日を消費していると報告している。 優れたDNN精度を保ちながら、神経進化に関連する計算課題に対処するために、サロゲートモデルは実用的な解として現れる。 その可能性にもかかわらず、代理モデルの神経進化への統合はまだ初期段階にあり、高次元データの有効利用や神経進化における表現などの要因によって妨げられている。 この文脈では、線形遺伝的プログラミングに基づく適切な表現をNeuroLGPと表現し、Kriging partial Least Squaresを活用することで、これらの課題に対処する。 提案手法はNeuroLGP-Surrogate Model(NeuroLGP-SM)と呼ばれる。 比較のために、神経進化の一般的な実践である修復機構を組み込んだベースラインアプローチをコーディングし、使用する。 特に、ベースラインアプローチは、有名なVGG-16モデルを精度で上回る。 DNN演算に固有の計算強度を考えると、特異ランは典型的にはノルムである。 提案手法の有効性を評価するため,96回の独立走行を行った。 SMモデルはNeuroLGP法と同等の精度または同等の結果を示した。 注目すべきは、SMアプローチが計算要求を25%削減し、神経進化の効率性を強調している点である。

Evolutionary algorithms are increasingly recognised as a viable computational approach for the automated optimisation of deep neural networks (DNNs) within artificial intelligence. This method extends to the training of DNNs, an approach known as neuroevolution. However, neuroevolution is an inherently resource-intensive process, with certain studies reporting the consumption of thousands of GPU days for refining and training a single DNN network. To address the computational challenges associated with neuroevolution while still attaining good DNN accuracy, surrogate models emerge as a pragmatic solution. Despite their potential, the integration of surrogate models into neuroevolution is still in its early stages, hindered by factors such as the effective use of high-dimensional data and the representation employed in neuroevolution. In this context, we address these challenges by employing a suitable representation based on Linear Genetic Programming, denoted as NeuroLGP, and leveraging Kriging Partial Least Squares. The amalgamation of these two techniques culminates in our proposed methodology known as the NeuroLGP-Surrogate Model (NeuroLGP-SM). For comparison purposes, we also code and use a baseline approach incorporating a repair mechanism, a common practice in neuroevolution. Notably, the baseline approach surpasses the renowned VGG-16 model in accuracy. Given the computational intensity inherent in DNN operations, a singular run is typically the norm. To evaluate the efficacy of our proposed approach, we conducted 96 independent runs. Significantly, our methodologies consistently outperform the baseline, with the SM model demonstrating superior accuracy or comparable results to the NeuroLGP approach. Noteworthy is the additional advantage that the SM approach exhibits a 25% reduction in computational requirements, further emphasising its efficiency for neuroevolution.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# RiEMann: ポイントクラウドセグメンテーションを使わずに, リアルタイムに近いSE(3)-同変ロボット操作

RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point Cloud Segmentation ( http://arxiv.org/abs/2403.19460v1 )

ライセンス: Link先を確認
Chongkai Gao, Zhengrong Xue, Shuying Deng, Tianhai Liang, Siqi Yang, Lin Shao, Huazhe Xu, (参考訳) 本稿では,シーンポイントクラウド入力からリアルタイムSE(3)-等価ロボットマニピュレーション模倣学習フレームワークRiEMannを提案する。 ディスクリプタのフィールドマッチングに依存する従来のメソッドと比較して、RiEMannはオブジェクトのセグメンテーションなしで操作するためのオブジェクトのターゲットポーズを直接予測する。 RiEMannは、5から10のデモで操作タスクをスクラッチから学習し、SE(3)変換とターゲットオブジェクトのインスタンスを一般化し、邪魔なオブジェクトの視覚的干渉に抵抗し、ターゲットオブジェクトのほぼリアルタイムのポーズ変更に従う。 RiEMannのスケーラブルなアクション空間は、ファウセットを回転させる方向などのカスタム同変アクションの追加を促進する。 シミュレーションおよび実世界の6-DOFロボット操作実験において、25の変種からなる5種類の操作タスクでRiEMannをテストし、予測されたポーズ(68.6%)におけるSE(3)測地距離誤差とタスク成功率の両方でベースラインを上回り、毎秒5.4フレーム(FPS)ネットワーク推論速度を達成することを示した。 コードとビデオの結果はhttps://riemann-web.github.io/.com/で公開されている。

We present RiEMann, an end-to-end near Real-time SE(3)-Equivariant Robot Manipulation imitation learning framework from scene point cloud input. Compared to previous methods that rely on descriptor field matching, RiEMann directly predicts the target poses of objects for manipulation without any object segmentation. RiEMann learns a manipulation task from scratch with 5 to 10 demonstrations, generalizes to unseen SE(3) transformations and instances of target objects, resists visual interference of distracting objects, and follows the near real-time pose change of the target object. The scalable action space of RiEMann facilitates the addition of custom equivariant actions such as the direction of turning the faucet, which makes articulated object manipulation possible for RiEMann. In simulation and real-world 6-DOF robot manipulation experiments, we test RiEMann on 5 categories of manipulation tasks with a total of 25 variants and show that RiEMann outperforms baselines in both task success rates and SE(3) geodesic distance errors on predicted poses (reduced by 68.6%), and achieves a 5.4 frames per second (FPS) network inference speed. Code and video results are available at https://riemann-web.github.io/.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 複数のベースラインからのオフライン模倣学習とコンパイラ最適化への応用

Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization ( http://arxiv.org/abs/2403.19462v1 )

ライセンス: Link先を確認
Teodor V. Marinov, Alekh Agarwal, Mircea Trofin, (参考訳) 本研究は, 強化学習(Reinforcement Learning, RL)問題について検討し, 基本方針を組み込んだ一連のトラジェクトリを提示する。 これらのポリシーは、独立して非常に最適であり、状態空間の相補的な部分で強いパフォーマンスを持つことができる。 目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。 簡単な模倣学習に基づくアルゴリズムを提案し、その精度に縛られたサンプルの複雑さを示し、そのアルゴリズムが一致した下界を示すことにより、最適であることを示す。 さらに、このアルゴリズムを機械学習誘導コンパイラ最適化の設定に適用し、プログラムをインライン化するためのポリシーを小さなバイナリーを作成する目的で学習する。 このアプローチのいくつかのイテレーションを通じて、標準RLで学んだ初期ポリシーを上回るポリシーを学習できることを実証します。

This work studies a Reinforcement Learning (RL) problem in which we are given a set of trajectories collected with K baseline policies. Each of these policies can be quite suboptimal in isolation, and have strong performance in complementary parts of the state space. The goal is to learn a policy which performs as well as the best combination of baselines on the entire state space. We propose a simple imitation learning based algorithm, show a sample complexity bound on its accuracy and prove that the the algorithm is minimax optimal by showing a matching lower bound. Further, we apply the algorithm in the setting of machine learning guided compiler optimization to learn policies for inlining programs with the objective of creating a small binary. We demonstrate that we can learn a policy that outperforms an initial policy learned via standard RL through a few iterations of our approach.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 講演を超えて - コミュニケーションのためのホロスティックな3次元動作の生成

Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication ( http://arxiv.org/abs/2403.19467v1 )

ライセンス: Link先を確認
Mingze Sun, Chao Xu, Xinyu Jiang, Yang Liu, Baigui Sun, Ruqi Huang, (参考訳) 本稿では,話し手と聞き手の両方に対して3次元の総合的な人間の動きを生成することを目的とした,人間のコミュニケーションに焦点を当てた革新的なタスクを紹介する。 我々のアプローチの中心は、音声特徴を分離する分解とテキスト意味情報の組み合わせを組み込むことで、より現実的で協調的な運動の創出を容易にすることである。 VQ-VAEを話者とリスナーの両方の総体的動作に対して個別に訓練する。 本稿では, 話者とリスナーのリアルタイム相互影響を考察し, 話者とリスナーの両方の動作を同時に生成できる実世界のコミュニケーションシナリオを効果的に特徴付けるために, チェーンライクなトランスフォーマーに基づく自己回帰モデルを提案する。 これらの設計は、私たちが生成した結果が協調的かつ多様なものであることを保証します。 提案手法は,2つのベンチマークデータセット上での最先端性能を示す。 さらに,将来研究に有用なHoCo全体通信データセットについても紹介する。 私たちのHoCoデータセットとコードは、受け入れられる前に研究目的でリリースされます。

In this paper, we introduce an innovative task focused on human communication, aiming to generate 3D holistic human motions for both speakers and listeners. Central to our approach is the incorporation of factorization to decouple audio features and the combination of textual semantic information, thereby facilitating the creation of more realistic and coordinated movements. We separately train VQ-VAEs with respect to the holistic motions of both speaker and listener. We consider the real-time mutual influence between the speaker and the listener and propose a novel chain-like transformer-based auto-regressive model specifically designed to characterize real-world communication scenarios effectively which can generate the motions of both the speaker and the listener simultaneously. These designs ensure that the results we generate are both coordinated and diverse. Our approach demonstrates state-of-the-art performance on two benchmark datasets. Furthermore, we introduce the HoCo holistic communication dataset, which is a valuable resource for future research. Our HoCo dataset and code will be released for research purposes upon acceptance.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 制限開口逆障害物散乱問題の深部分解法

Deep decomposition method for the limited aperture inverse obstacle scattering problem ( http://arxiv.org/abs/2403.19470v1 )

ライセンス: Link先を確認
Yunwen Yin, Liang Yan, (参考訳) 本稿では,限られた開口逆障害物散乱問題に対する深層学習手法について考察する。 従来のディープラーニングはデータのみに依存しており、間接観測データと物理モデルしか利用できない場合、逆問題の性能を制限する可能性があることはよく知られている。 ディープ・ラーニングがラベル付けされたデータなしで逆問題に取り組み、何が学習されているかを認識することは可能か? 本研究は, 基礎となる真理ラベルを必要としない深層分解法(DDM)を提案する。 これは、ニューラルネットワークアーキテクチャに散乱モデルに関連する物理演算子を提供することによって達成される。 また、DDMに深層学習に基づくデータ補完方式を実装し、限られた開口データに対する逆問題解の歪曲を防止する。 さらに、逆問題自体が課す不適切な問題に対処することとは別に、DDMは解釈性を持つ物理認識機械学習技術である。 DDMの収束結果は理論的に証明されている。 数値実験により,入射開口と観測開口が極端に制限された場合でも,提案したDDMの有効性を示す。

In this paper, we consider a deep learning approach to the limited aperture inverse obstacle scattering problem. It is well known that traditional deep learning relies solely on data, which may limit its performance for the inverse problem when only indirect observation data and a physical model are available. A fundamental question arises in light of these limitations: is it possible to enable deep learning to work on inverse problems without labeled data and to be aware of what it is learning? This work proposes a deep decomposition method (DDM) for such purposes, which does not require ground truth labels. It accomplishes this by providing physical operators associated with the scattering model to the neural network architecture. Additionally, a deep learning based data completion scheme is implemented in DDM to prevent distorting the solution of the inverse problem for limited aperture data. Furthermore, apart from addressing the ill-posedness imposed by the inverse problem itself, DDM is a physics-aware machine learning technique that can have interpretability property. The convergence result of DDM is theoretically proven. Numerical experiments are presented to demonstrate the validity of the proposed DDM even when the incident and observation apertures are extremely limited.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# リアルタイムRGB-D SLAMにおける入射ニューラル表現と幾何レンダリングのベンチマーク

Benchmarking Implicit Neural Representation and Geometric Rendering in Real-Time RGB-D SLAM ( http://arxiv.org/abs/2403.19473v1 )

ライセンス: Link先を確認
Tongyan Hua, Lin Wang, (参考訳) Inlicit Neural representation (INR) は、幾何学的レンダリングと組み合わせて、最近、リアルタイム高密度RGB-D SLAMに採用されている。 活発な研究努力にもかかわらず、公正な評価のための統一されたプロトコルが欠如しており、この分野の進化を妨げている。 本研究は、我々の知る限り、広く使われているINRの幅広いスペクトルの性能と、マッピングとローカライゼーションのためのレンダリング機能を評価するための、最初のオープンソースベンチマークフレームワークである。 ベンチマークの目標は 1)INRとレンダリング機能の違いがマッピングとローカライゼーションに与える影響の直感を得る。 2) マッピングとローカライゼーションに影響を与える可能性のある設計選択を統一評価プロトコルとして確立する。 例えば、高密度な特徴格子は、メモリ効率のために幾何学的特徴と色特徴を共に符号化した場合でも、他のINR(例えば、トリプレーンやハッシュグリッド)よりも優れる。 実験結果を現実的なシナリオに拡張するために,グリッドベースおよび分解型INRの精度と完成性を最大限に活用するためのハイブリッド符号化戦略を提案する。 さらに,RGB-D SLAMシステムに準拠する高忠実度グリッドマッピングのための明示的なハイブリッド符号化を提案し,ロバスト性および計算効率を前提とした。

Implicit neural representation (INR), in combination with geometric rendering, has recently been employed in real-time dense RGB-D SLAM. Despite active research endeavors being made, there lacks a unified protocol for fair evaluation, impeding the evolution of this area. In this work, we establish, to our knowledge, the first open-source benchmark framework to evaluate the performance of a wide spectrum of commonly used INRs and rendering functions for mapping and localization. The goal of our benchmark is to 1) gain an intuition of how different INRs and rendering functions impact mapping and localization and 2) establish a unified evaluation protocol w.r.t. the design choices that may impact the mapping and localization. With the framework, we conduct a large suite of experiments, offering various insights in choosing the INRs and geometric rendering functions: for example, the dense feature grid outperforms other INRs (e.g. tri-plane and hash grid), even when geometric and color features are jointly encoded for memory efficiency. To extend the findings into the practical scenario, a hybrid encoding strategy is proposed to bring the best of the accuracy and completion from the grid-based and decomposition-based INRs. We further propose explicit hybrid encoding for high-fidelity dense grid mapping to comply with the RGB-D SLAM system that puts the premise on robustness and computation efficiency.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# SG-PGM:3次元グラフアライメントのための意味幾何学融合を用いた部分グラフマッチングネットワークとその下流タスク

SG-PGM: Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and Its Downstream Tasks ( http://arxiv.org/abs/2403.19474v1 )

ライセンス: Link先を確認
Yaxu Xie, Alain Pagani, Didier Stricker, (参考訳) シーングラフは、シーンの包括的表現として、最近3次元空間理解に導入されている。 3Dシーングラフのアライメントは、シーングラフの支援されたポイントクラウド登録、モザイク、オーバーラップチェック、ロボットナビゲーションなど、多くの下流タスクの最初のステップである。 本研究では,3次元シーングラフアライメントを部分的なグラフマッチング問題として扱い,グラフニューラルネットワークを用いてその解法を提案する。 我々は、ポイントクラウド登録法で学習した幾何学的特徴を再利用し、クラスタ化されたポイントレベルの幾何学的特徴とノードレベルの意味的特徴を設計した特徴融合モジュールを介して関連付ける。 部分マッチングは、学習可能なメソッドを使用してトップkの類似ノードペアを選択することで実現される。 その後のポイントクラウド登録のようなダウンストリームタスクは、マッチした領域内で事前訓練された登録ネットワークを実行することで達成される。 さらに,3次元シーングラフのノードワイドアライメントを用いて,事前学習した点雲登録手法からマッチング候補を再重み付けする点マッチング再構成手法を提案する。 これは特に重複の少ないケースで推定される偽点対応を減少させる。 実験の結果,低オーバーラップおよびランダム変換のシナリオではアライメント精度が10~20%向上し,複数の下流タスクにおいて既存の作業よりも優れていた。

Scene graphs have been recently introduced into 3D spatial understanding as a comprehensive representation of the scene. The alignment between 3D scene graphs is the first step of many downstream tasks such as scene graph aided point cloud registration, mosaicking, overlap checking, and robot navigation. In this work, we treat 3D scene graph alignment as a partial graph-matching problem and propose to solve it with a graph neural network. We reuse the geometric features learned by a point cloud registration method and associate the clustered point-level geometric features with the node-level semantic feature via our designed feature fusion module. Partial matching is enabled by using a learnable method to select the top-k similar node pairs. Subsequent downstream tasks such as point cloud registration are achieved by running a pre-trained registration network within the matched regions. We further propose a point-matching rescoring method, that uses the node-wise alignment of the 3D scene graph to reweight the matching candidates from a pre-trained point cloud registration method. It reduces the false point correspondences estimated especially in low-overlapping cases. Experiments show that our method improves the alignment accuracy by 10~20% in low-overlap and random transformation scenarios and outperforms the existing work in multiple downstream tasks.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 量子乱数生成器の並列・リアルタイム後処理

Parallel and real-time post-processing for quantum random number generators ( http://arxiv.org/abs/2403.19479v1 )

ライセンス: Link先を確認
Xiaomin Guo, Fading Lin, Jiehong Lin, Zhijie Song, Yue luo, Qiqi Wang, Yanqiang Guo, (参考訳) 量子系は、物理原理に基づいて正当化できる固有の予測不可能性のために、真のランダム性を生成するのに特に適している。 しかし、QRNG(Quantum RNGs)の実践的な実装は、常にノイズや制御不能な影響を受け、生のランダムさの質を低下させる。 これは後処理が必要であり、生の出力を真のランダム性に変換する。 現在のQRNG実装では、シード更新の重大な問題はしばしば見過ごされ、種子が後処理で再利用される際のセキュリティパラメータの増大によるセキュリティ上の脆弱性のリスクが指摘され、種子の頻繁な更新がネットランダム性をもたらすことはなく、種子の再利用は、元のシーケンス入力が独立であるという仮定に依存している。本研究では、複数のシードリアルタイム更新トエプリッツハッシュ抽出器をFPGAで並列かつリアルタイムに実装し、ハードウェア計算資源の効率的な利用に焦点を当てた、種子更新の具体的なスキームを提供してきた。 論理最適化により,論理資源の少ないFPGAプラットフォームにおいて,並列チャネルの数が増加し,処理後行列サイズが従来の3倍になった。 その結果、乱数生成の速度が向上し、セキュリティが強化された。 さらに,高性能ADCを用いて20Gbpsを超える乱数生成率を実現し,PCIeの高速インタフェースを用いて高速な乱数転送とシード更新を実現し,信頼性,デバイス非依存,半デバイス非依存のシナリオにおけるCVQRNGの実用性を高めるために,チップベースの並列QRNGへの重要な一歩を踏み出した。

Quantum systems are particularly suited for generating true randomness due to their inherent unpredictability, which can be justified on physical principles. However, practical implementations of Quantum RNGs (QRNGs) are always subject to noise, or uncontrollable influences, diminishing the quality of raw randomness produced. This necessitates post-processing to convert raw output into genuine randomness. In current QRNG implementations, the critical issue of seed updating is often overlooked, risking security vulnerabilities due to increased security parameters when seeds are reused in post-processing, and frequent seed updates fail to yield net randomness, while reusing seeds relies on the assumption that the original sequence inputs are independent.In this work, we have provided a specific scheme for seed updates that balances practicality and security, exploring the parallel and real-time implementation of multiple seed real-time updating toeplitz hash extractors in an FPGA to achieve parallel QRNGs, focusing on efficient hardware computation resource use. Through logic optimization, we achieved a greater number of parallel channels and a post-processing matrix size three times larger than previous works on the same FPGA platform, utilizing fewer logic resources. This resulted in a higher rate of random number generation and enhanced security. Furthermore, with the use of higher-performance ADCs, we attained a random number production rate exceeding 20Gbps.High-speed random number transfer and seed updating were achieved using the PCIe high-speed interface.This marks a significant step toward chip-based parallel QRNGs, enhancing the practicality of CV QRNGs in trusted, device-independent, and semi-device-independent scenarios.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# $H$-Consistency Guarantees for Regression

$H$-Consistency Guarantees for Regression ( http://arxiv.org/abs/2403.19480v1 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong, (参考訳) 本稿では回帰のための$H$-consistency boundsについて詳細に研究する。 まず、以前に与えられたツールを一般化して$H$-一貫性境界を確立する新しい定理を提案する。 この一般化は回帰に特有の$H$一貫性境界を分析するのに不可欠である。 次に、対称分布と有界仮説の仮定の下で、二乗損失の損失関数を代理する新しい$H$整合境界を証明した。 これはHuberの損失に対する肯定的な結果、すべての$\ell_p$損失、$p \geq 1$、正方形$\epsilon$非感受性損失、および正方形サポートベクトル回帰(SVR)で使用される$\epsilon$非感受性損失に対する否定的な結果を含む。 我々はさらに、回帰に$H$-consistencyを解析し、逆回帰に原則化された代用損失を導出する(第5部)。 これにより、逆回帰の新しいアルゴリズムが容易に確立され、第6節で好ましい実験結果が報告される。

We present a detailed study of $H$-consistency bounds for regression. We first present new theorems that generalize the tools previously given to establish $H$-consistency bounds. This generalization proves essential for analyzing $H$-consistency bounds specific to regression. Next, we prove a series of novel $H$-consistency bounds for surrogate loss functions of the squared loss, under the assumption of a symmetric distribution and a bounded hypothesis set. This includes positive results for the Huber loss, all $\ell_p$ losses, $p \geq 1$, the squared $\epsilon$-insensitive loss, as well as a negative result for the $\epsilon$-insensitive loss used in squared Support Vector Regression (SVR). We further leverage our analysis of $H$-consistency for regression and derive principled surrogate losses for adversarial regression (Section 5). This readily establishes novel algorithms for adversarial regression, for which we report favorable experimental results in Section 6.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 血管ロボット注文戦略のためのグリーディーとシミュレートされたアニーリングのアイデアに基づく遺伝的アルゴリズムの改良

Improved Genetic Algorithm Based on Greedy and Simulated Annealing Ideas for Vascular Robot Ordering Strategy ( http://arxiv.org/abs/2403.19484v1 )

ライセンス: Link先を確認
Zixi Wang, Yubo Huang, Changshuo Fan, Xin Lai, Peng Lu, (参考訳) 本研究では,医療環境におけるABLVR血管ロボットの獲得,利用,維持を最適化するための包括的アプローチを提案する。 医療ロボティクス、特に血管治療では、ロボットとオペレーターの複雑な性質のため、正確なリソース割り当てと最適化が必要である。 従来のヒューリスティックな手法は直感的ではあるが、大域的な最適化を達成できないことが多い。 これらの課題に対処するために、数学的モデリング、ハイブリッド遺伝的アルゴリズム、およびARIMA時系列予測を組み合わせた新しい戦略を導入する。 ダイナミックな医療環境を考えると、ロボット船やオペレーターのためのロバストな資源配分モデルを含む。 演算子に対する適応学習プロセスのユニークな要件と,ロボット部品のメンテナンスニーズを取り入れた。 シミュレーションアニーリングとグリージーアプローチを統合したハイブリッド遺伝的アルゴリズムは、最適化問題を効率的に解決する。 さらに,ARIMAの時系列予測は,血管ロボットの需要を予測し,我々の戦略の適応性をさらに向上させる。 実験により、他の最先端手法からの最適化、透明性、収束速度の観点から、我々のアプローチの優位性を実証した。

This study presents a comprehensive approach for optimizing the acquisition, utilization, and maintenance of ABLVR vascular robots in healthcare settings. Medical robotics, particularly in vascular treatments, necessitates precise resource allocation and optimization due to the complex nature of robot and operator maintenance. Traditional heuristic methods, though intuitive, often fail to achieve global optimization. To address these challenges, this research introduces a novel strategy, combining mathematical modeling, a hybrid genetic algorithm, and ARIMA time series forecasting. Considering the dynamic healthcare environment, our approach includes a robust resource allocation model for robotic vessels and operators. We incorporate the unique requirements of the adaptive learning process for operators and the maintenance needs of robotic components. The hybrid genetic algorithm, integrating simulated annealing and greedy approaches, efficiently solves the optimization problem. Additionally, ARIMA time series forecasting predicts the demand for vascular robots, further enhancing the adaptability of our strategy. Experimental results demonstrate the superiority of our approach in terms of optimization, transparency, and convergence speed from other state-of-the-art methods.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 対立環境におけるアセンブリコードの進化

Evolving Assembly Code in an Adversarial Environment ( http://arxiv.org/abs/2403.19489v1 )

ライセンス: Link先を確認
Irina Maliukov, Gera Weiss, Oded Margalit, Achiya Elyasaf, (参考訳) この作業では、CodeGuruコンペティションのアセンブリコードを進化させます。 コンペティションの目標は、敵の生存者からの攻撃に抵抗し、弱点を見つけることで、最も長い共有メモリを実行する組立プログラム「サバイバル」を作ることだ。 トップノッチソルバを進化させるためには,アセンブリ言語用の正規形式 (BNF) を指定し,遺伝的プログラミング (GP) を用いてスクラッチからコードを合成する。 我々は,CodeGuruゲームにおいて,人手による勝利者に対するサバイバルの評価を行った。 進化したプログラムは、トレーニング対象のプログラムに弱点を見つけ、利用しました。 さらに,我々のアプローチを大規模ランゲージモデルと比較し,後者が任意の競技で勝利できるサバイバルを生成できないことを示す。 この研究は、進化を利用して生存者の弱点を検出するため、サイバーセキュリティに重要な応用がある。 アセンブリBNFはドメインに依存しないため、適合関数を変更することで、コードの弱点を検出し、修正するのに役立つ。 最後に、CodeGuruコンペティションは、敵環境におけるGPとコードの進化を分析する新しいプラットフォームを提供する。 この方向のさらなる研究を支援するため、進化した生き残りとその弱点の徹底的な質的分析を行う。

In this work, we evolve assembly code for the CodeGuru competition. The competition's goal is to create a survivor -- an assembly program that runs the longest in shared memory, by resisting attacks from adversary survivors and finding their weaknesses. For evolving top-notch solvers, we specify a Backus Normal Form (BNF) for the assembly language and synthesize the code from scratch using Genetic Programming (GP). We evaluate the survivors by running CodeGuru games against human-written winning survivors. Our evolved programs found weaknesses in the programs they were trained against and utilized them. In addition, we compare our approach with a Large-Language Model, demonstrating that the latter cannot generate a survivor that can win at any competition. This work has important applications for cyber-security, as we utilize evolution to detect weaknesses in survivors. The assembly BNF is domain-independent; thus, by modifying the fitness function, it can detect code weaknesses and help fix them. Finally, the CodeGuru competition offers a novel platform for analyzing GP and code evolution in adversarial environments. To support further research in this direction, we provide a thorough qualitative analysis of the evolved survivors and the weaknesses found.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# 学習型エージェント誘導とアライメントによるCNNの連成訓練

Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment ( http://arxiv.org/abs/2403.19490v1 )

ライセンス: Link先を確認
Alireza Ganjdanesh, Shangqian Gao, Heng Huang, (参考訳) 構造モデルプルーニングは、リソース制約のあるデバイスに展開する前に、畳み込みニューラルネットワーク(CNN)の計算コストを削減するために使われる顕著なアプローチである。 しかし、提案されたアイデアの大部分は、プルーニングの前に事前訓練されたモデルを必要とする。 本稿では,CNNモデルの重みと構造的不規則構造を協調的に学習するための新しい構造解析手法を提案する。 提案手法のコア要素は,CNNモデルのレイヤのプルーニング比を決定づける強化学習(Reinforcement Learning, RL)エージェントであり,得られたモデルの精度がその報奨となる。 我々は,モデルウェイトとエージェントのポリシーを反復的にトレーニングし,モデルウェイトを調整し,エージェントによって選択された構造と整合させる。 進化するモデルの重みはエージェントに動的報酬関数をもたらすため、我々の目的のために静止環境を仮定した顕著な漸進的RL法を使用できない。 我々は、報酬関数の複雑な変化ダイナミクスをモデル化する機構を設計し、それをRLエージェントに表現することで、この問題に対処する。 そのために,学習可能な組込みを各学習エポックに適用し,反復モデルを用いて変化環境の表現を計算する。 我々は、観測された報酬を再構成するためにデコーダモデルを用いて繰り返しモデルと埋め込みを訓練する。 このような設計により,CNNモデルの性能的サブネットワークを決定するための適切なポリシーを学習するために,環境表現とともにエピソード観測を効果的に活用することが可能になる。 ResNets と MobileNets を用いた CIFAR-10 と ImageNet に関する広範な実験により,提案手法の有効性が示された。

Structural model pruning is a prominent approach used for reducing the computational cost of Convolutional Neural Networks (CNNs) before their deployment on resource-constrained devices. Yet, the majority of proposed ideas require a pretrained model before pruning, which is costly to secure. In this paper, we propose a novel structural pruning approach to jointly learn the weights and structurally prune architectures of CNN models. The core element of our method is a Reinforcement Learning (RL) agent whose actions determine the pruning ratios of the CNN model's layers, and the resulting model's accuracy serves as its reward. We conduct the joint training and pruning by iteratively training the model's weights and the agent's policy, and we regularize the model's weights to align with the selected structure by the agent. The evolving model's weights result in a dynamic reward function for the agent, which prevents using prominent episodic RL methods with stationary environment assumption for our purpose. We address this challenge by designing a mechanism to model the complex changing dynamics of the reward function and provide a representation of it to the RL agent. To do so, we take a learnable embedding for each training epoch and employ a recurrent model to calculate a representation of the changing environment. We train the recurrent model and embeddings using a decoder model to reconstruct observed rewards. Such a design empowers our agent to effectively leverage episodic observations along with the environment representations to learn a proper policy to determine performant sub-networks of the CNN model. Our extensive experiments on CIFAR-10 and ImageNet using ResNets and MobileNets demonstrate the effectiveness of our method.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# き裂画像のセグメンテーションツール

Segmentation tool for images of cracks ( http://arxiv.org/abs/2403.19492v1 )

ライセンス: Link先を確認
Andrii Kompanets, Remco Duits, Davide Leonetti, Nicky van den Berg, H. H., Snijder, (参考訳) 橋などの安全クリティカルなインフラは定期的に検査され、疲労き裂や腐食などの既存の損傷をチェックし、インフラの安全使用を保証する。 視覚検査は、特に疲労き裂に対して、その検出能力がかなり限られているにもかかわらず、最も頻繁に行われる一般的な検査である。 機械学習アルゴリズムは、橋梁構造物の古典的な視覚検査能力を高めるために使用できるが、そのようなアルゴリズムの実装には大量の注釈付きトレーニングデータセットが必要である。 本稿では,機械学習アルゴリズムのトレーニングデータセット作成に必要な画像のクラックを手動で分割する,半自動クラック分割ツールを提案する。 また、ひび割れの形状を測定するためにも用いられる。 このツールは、網膜画像上の血管系の解析のために最初に開発された画像処理アルゴリズムを利用する。 このアルゴリズムはマルチオリエンテーション・ウェーブレット変換(英語版)に依存しており、この変換は画像に応用され、いわゆる「オリエンテーションスコア(orientation scores)」、すなわち画像の修正版を構成する。 その後、フィルタされた配向スコアを用いて、ひび割れを識別する最適経路問題を定式化する。 手動で選択したクラックエンドポイント間の最適経路を,最先端の幾何追跡法を用いて計算する。 その後、得られたクラックパスを用いて画素ワイドセグメンテーションを行う。 提案手法は完全自動手法より優れており,手動データアノテーションの適切な代替となる可能性を示している。

Safety-critical infrastructures, such as bridges, are periodically inspected to check for existing damage, such as fatigue cracks and corrosion, and to guarantee the safe use of the infrastructure. Visual inspection is the most frequent type of general inspection, despite the fact that its detection capability is rather limited, especially for fatigue cracks. Machine learning algorithms can be used for augmenting the capability of classical visual inspection of bridge structures, however, the implementation of such an algorithm requires a massive annotated training dataset, which is time-consuming to produce. This paper proposes a semi-automatic crack segmentation tool that eases the manual segmentation of cracks on images needed to create a training dataset for a machine learning algorithm. Also, it can be used to measure the geometry of the crack. This tool makes use of an image processing algorithm, which was initially developed for the analysis of vascular systems on retinal images. The algorithm relies on a multi-orientation wavelet transform, which is applied to the image to construct the so-called "orientation scores", i.e. a modified version of the image. Afterwards, the filtered orientation scores are used to formulate an optimal path problem that identifies the crack. The globally optimal path between manually selected crack endpoints is computed, using a state-of-the-art geometric tracking method. The pixel-wise segmentation is done afterwards using the obtained crack path. The proposed method outperforms fully automatic methods and shows potential to be an adequate alternative to the manual data annotation.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# Multi-Expert Deferralによる回帰

Regression with Multi-Expert Deferral ( http://arxiv.org/abs/2403.19494v1 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong, (参考訳) 複数の専門家で予測を遅延させる学習は、学習者が複数の専門家に予測を遅延させることを選択できるフレームワークである。 この問題は分類の文脈で顕著な注目を集めているが、ラベル空間の無限で連続的な性質のため、回帰においてユニークな課題が現れる。 本稿では,複数の専門家に予測を延期する,遅延を伴う新たな回帰フレームワークを提案する。 本稿では,予測関数とdeferral関数を同時学習する単一段階シナリオと,学習されたdeferral関数を持つ事前学習された予測関数を含む2段階シナリオの両方を包括的に分析する。 両シナリオに新たなサロゲート損失関数を導入し,これらが$H$一貫性境界でサポートされていることを証明した。 これらの境界はベイズ整合性よりも強い整合性を保証する。 我々のフレームワークは汎用的で、複数の専門家に適用し、境界付き回帰損失を緩和し、インスタンス依存とラベル依存の両方のコストに対処し、シングルステージと2ステージの両方のメソッドをサポートする。 副産物として,近年の退化フレームワークによる回帰(Cheng et al , 2023)を特例として, 単一専門家のみ, 正方形損失, ラベルに依存しないコストが考慮されている。 提案した損失関数の最小化は、deferralによる回帰のための新しいアルゴリズムに直結する。 本稿では,提案アルゴリズムの有効性を示す広範な実験結果について報告する。

Learning to defer with multiple experts is a framework where the learner can choose to defer the prediction to several experts. While this problem has received significant attention in classification contexts, it presents unique challenges in regression due to the infinite and continuous nature of the label space. In this work, we introduce a novel framework of regression with deferral, which involves deferring the prediction to multiple experts. We present a comprehensive analysis for both the single-stage scenario, where there is simultaneous learning of predictor and deferral functions, and the two-stage scenario, which involves a pre-trained predictor with a learned deferral function. We introduce new surrogate loss functions for both scenarios and prove that they are supported by $H$-consistency bounds. These bounds provide consistency guarantees that are stronger than Bayes consistency, as they are non-asymptotic and hypothesis set-specific. Our framework is versatile, applying to multiple experts, accommodating any bounded regression losses, addressing both instance-dependent and label-dependent costs, and supporting both single-stage and two-stage methods. A by-product is that our single-stage formulation includes the recent regression with abstention framework (Cheng et al., 2023) as a special case, where only a single expert, the squared loss and a label-independent cost are considered. Minimizing our proposed loss functions directly leads to novel algorithms for regression with deferral. We report the results of extensive experiments showing the effectiveness of our proposed algorithms.
翻訳日:2024-03-29 15:54:24 公開日:2024-03-28
# CoherentGS: Coherent 3D Gaussianを用いた疎新なビュー合成

CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians ( http://arxiv.org/abs/2403.19495v1 )

ライセンス: Link先を確認
Avinash Paliwal, Wei Ye, Jinhui Xiong, Dmytro Kotovenko, Rakesh Ranjan, Vikas Chandra, Nima Khademi Kalantari, (参考訳) 画像からの3D再構成の分野は、まずNeural Radiance Field(NeRF)を導入し、最近では3D Gaussian Splatting(3DGS)を導入して、ここ数年で急速に発展してきた。 後者は、トレーニングと推論の速度、および再構築品質において、NeRFに対して重要なエッジを提供する。 3DGSは、密度の高い入力画像に対してうまく機能するが、非構造化のポイントクラウドのような表現は、非常にスパースな入力画像(例:3画像)のより困難なセットアップに素早く適合し、新しいビューから針の集合として現れる表現を生成する。 この問題に対処するため,正規化最適化と深度に基づく初期化を提案する。 我々のキーとなる考え方は、2次元画像空間で制御できる構造付きガウス表現を導入することである。 次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。 具体的には、暗黙の畳み込みデコーダと全変動損失により、シングルビューとマルチビューの制約を導入する。 ガウス人に導入されたコヒーレンシーにより、フローベース損失関数により最適化をさらに制約する。 正規化された最適化を支援するために,各入力ビューにおける単分子深度推定を用いてガウスを初期化する手法を提案する。 我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。

The field of 3D reconstruction from images has rapidly evolved in the past few years, first with the introduction of Neural Radiance Field (NeRF) and more recently with 3D Gaussian Splatting (3DGS). The latter provides a significant edge over NeRF in terms of the training and inference speed, as well as the reconstruction quality. Although 3DGS works well for dense input images, the unstructured point-cloud like representation quickly overfits to the more challenging setup of extremely sparse input images (e.g., 3 images), creating a representation that appears as a jumble of needles from novel views. To address this issue, we propose regularized optimization and depth-based initialization. Our key idea is to introduce a structured Gaussian representation that can be controlled in 2D image space. We then constraint the Gaussians, in particular their position, and prevent them from moving independently during optimization. Specifically, we introduce single and multiview constraints through an implicit convolutional decoder and a total variation loss, respectively. With the coherency introduced to the Gaussians, we further constrain the optimization through a flow-based loss function. To support our regularized optimization, we propose an approach to initialize the Gaussians using monocular depth estimates at each input view. We demonstrate significant improvements compared to the state-of-the-art sparse-view NeRF-based approaches on a variety of scenes.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# 神経変性疾患における超高分解能 Ex vivo 7 tesla MRI の表面解析と頂点解析

Surface-based parcellation and vertex-wise analysis of ultra high-resolution ex vivo 7 tesla MRI in neurodegenerative diseases ( http://arxiv.org/abs/2403.19497v1 )

ライセンス: Link先を確認
Pulkit Khandelwal, Michael Tran Duong, Constanza Fuentes, Amanda Denning, Winifred Trotman, Ranjit Ittyerah, Alejandra Bahena, Theresa Schuck, Marianna Gabrielyan, Karthik Prabhakaran, Daniel Ohm, Gabor Mizsei, John Robinson, Monica Munoz, John Detre, Edward Lee, David Irwin, Corey McMillan, M. Dylan Tisdall, Sandhitsu Das, David Wolk, Paul A. Yushkevich, (参考訳) 磁気共鳴イメージング(MRI)は、ヒトの脳の構造と機能を理解するための標準のモダリティである。 人間の神経イメージングの研究は、脳機能を特定の解剖学的領域に局在させるのに役立つ、自動ボリュームベースのセグメンテーションと表面ベースのパーセレーションを提供する方法やツールの広範な開発に繋がった。 最近、脳の生体外イメージングが始まり、脳の構造を超高解像度で研究し、生体内MRIでは観察できない詳細を明らかにしている。 残念なことに、生体外MRIの方法論的発達は、主にデータセットの欠如と、そのような画像リソースを持つ限られた中心が不足しているため、限られている。 そこで本研究では,アルツハイマー病およびそれに関連する認知症にまたがる0.3mm等方分解能のMRIで,82個の外生T2w全脳半球の1-of-kindデータセットを提示する。 Desikan-Killiany-Tourville (DKT) 脳のアトラスを用いて,超高分解能の生体外脳組織を母体空間分解能で解析するために,高速で使いやすく自動表面ベースパイプラインを開発した。 これにより、テンプレート空間で頂点ワイズ解析を行い、組織学から得られた病理学的測定とモルフォメトリー測度を関連付けることができる。 当社は、データセットドッカーコンテナ、Jupyterノートブックをオープンソースとして公開し、プロジェクトのWebページでMRI臨床脳画像研究を進めるためのツールセットとコマンドラインオプションを用意します。

Magnetic resonance imaging (MRI) is the standard modality to understand human brain structure and function in vivo (antemortem). Decades of research in human neuroimaging has led to the widespread development of methods and tools to provide automated volume-based segmentations and surface-based parcellations which help localize brain functions to specialized anatomical regions. Recently ex vivo (postmortem) imaging of the brain has opened-up avenues to study brain structure at sub-millimeter ultra high-resolution revealing details not possible to observe with in vivo MRI. Unfortunately, there has been limited methodological development in ex vivo MRI primarily due to lack of datasets and limited centers with such imaging resources. Therefore, in this work, we present one-of-its-kind dataset of 82 ex vivo T2w whole brain hemispheres MRI at 0.3 mm isotropic resolution spanning Alzheimer's disease and related dementias. We adapted and developed a fast and easy-to-use automated surface-based pipeline to parcellate, for the first time, ultra high-resolution ex vivo brain tissue at the native subject space resolution using the Desikan-Killiany-Tourville (DKT) brain atlas. This allows us to perform vertex-wise analysis in the template space and thereby link morphometry measures with pathology measurements derived from histology. We will open-source our dataset docker container, Jupyter notebooks for ready-to-use out-of-the-box set of tools and command line options to advance ex vivo MRI clinical brain imaging research on the project webpage.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# クライアント管理型フェデレーションラーニング:一モデル対オールパーソナライズを目指して

Client-supervised Federated Learning: Towards One-model-for-all Personalization ( http://arxiv.org/abs/2403.19499v1 )

ライセンス: Link先を確認
Peng Yan, Guodong Long, (参考訳) パーソナライズド・フェデレーション・ラーニング(PerFL)は、フェデレーションド・ラーニング・セッティングの下でさまざまなクライアント向けにパーソナライズされたモデルを提供する、新しい機械学習パラダイムである。 ほとんどのPerFLメソッドは、クライアント固有のパーソナライズされたモデルに、自身のローカルデータを使ってグローバルに共有されたモデルを適用するために、クライアントに余分な学習プロセスを必要とする。 しかし、PerFLのモデル適応プロセスは、モデルデプロイメントとテスト時間の段階において、まだオープンな課題である。 この作業は、FLシステムの未確認/テストクライアント上のパーソナライズされたモデルと競合するパフォーマンスを達成するために、1つの堅牢なグローバルモデルのみを学ぶために、新しいフェデレーション付き学習フレームワークを提案することで、課題に対処する。 具体的には、新しいクライアント監督型フェデレートラーニング(FedCS)を設計し、クライアントの潜在表現に対するバイアスを解消し、グローバルモデルがクライアント固有の知識とクライアントに依存しない知識の両方を学習できるようにする。 実験により、FedCSは未確認/テストクライアントのデータ分散の変化に対して、堅牢なFLグローバルモデルを学ぶことができることがわかった。 FedCSのグローバルモデルは、モデル適応を必要とする他のパーソナライズされたFLメソッドに匹敵するパフォーマンスを保ちながら、テストクライアントに直接デプロイすることができる。

Personalized Federated Learning (PerFL) is a new machine learning paradigm that delivers personalized models for diverse clients under federated learning settings. Most PerFL methods require extra learning processes on a client to adapt a globally shared model to the client-specific personalized model using its own local data. However, the model adaptation process in PerFL is still an open challenge in the stage of model deployment and test time. This work tackles the challenge by proposing a novel federated learning framework to learn only one robust global model to achieve competitive performance to those personalized models on unseen/test clients in the FL system. Specifically, we design a new Client-Supervised Federated Learning (FedCS) to unravel clients' bias on instances' latent representations so that the global model can learn both client-specific and client-agnostic knowledge. Experimental study shows that the FedCS can learn a robust FL global model for the changing data distributions of unseen/test clients. The FedCS's global model can be directly deployed to the test clients while achieving comparable performance to other personalized FL methods that require model adaptation.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# ガウス過程としてのテンソルネットワーク制約カーネルマシン

Tensor Network-Constrained Kernel Machines as Gaussian Processes ( http://arxiv.org/abs/2403.19500v1 )

ライセンス: Link先を確認
Frederiek Wesel, Kim Batselier, (参考訳) テンソルネットワーク(TN)は、最近、モデル重みを制限し、指数関数計算とストレージの節約をもたらすことで、カーネルマシンの高速化に使用されている。 本稿では,カノニカルポリアディック分解(CPD)とテンソルトレイン(TT)制約カーネルマシンの出力がガウス過程(GP)を復元することを示した。 我々は, CPD と TT 制約モデルの両方の収束を解析し, 同数のモデルパラメータに対して, TT が CPD と比較して GP の挙動を示すモデルを生成することを示す。 この挙動を2つの数値実験で実証的に観察し,それぞれGPの収束度と予測時の性能を解析した。 これにより、TN制約されたカーネルマシンとGP間の接続を確立する。

Tensor Networks (TNs) have recently been used to speed up kernel machines by constraining the model weights, yielding exponential computational and storage savings. In this paper we prove that the outputs of Canonical Polyadic Decomposition (CPD) and Tensor Train (TT)-constrained kernel machines recover a Gaussian Process (GP), which we fully characterize, when placing i.i.d. priors over their parameters. We analyze the convergence of both CPD and TT-constrained models, and show how TT yields models exhibiting more GP behavior compared to CPD, for the same number of model parameters. We empirically observe this behavior in two numerical experiments where we respectively analyze the convergence to the GP and the performance at prediction. We thereby establish a connection between TN-constrained kernel machines and GPs.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# RELI11D: 総合的マルチモーダルヒューマンモーションデータセットと方法

RELI11D: A Comprehensive Multimodal Human Motion Dataset and Method ( http://arxiv.org/abs/2403.19501v1 )

ライセンス: Link先を確認
Ming Yan, Yan Zhang, Shuqiang Cai, Shuqi Fan, Xincheng Lin, Yudi Dai, Siqi Shen, Chenglu Wen, Lan Xu, Yuexin Ma, Cheng Wang, (参考訳) 人間の動きを包括的に捉えるには、複雑なポーズの正確なキャプチャと、シーン内の人間の正確な位置決めの両方が必要である。 HPEデータセットとメソッドのほとんどは、主にRGB、LiDAR、IMUデータに依存している。 しかし、これらのモダリティのみの使用やそれらの組み合わせは、HPE、特に複雑で高速な運動には適さないかもしれない。 総合的な人間の動作理解のために,LDAR,IMUシステム,RGBカメラ,イベントカメラを含む高品質なマルチモーダル・ヒューマン・モーション・データセットRELI11Dを提案する。 3.32時間の同期したLiDAR点雲、IMU測定データ、RGBビデオ、イベントスチームを含む7つのシーンで5つのスポーツを行う10人の俳優の動きを記録している。 大規模な実験を通じて、RELI11Dは正確な位置を必要とする多くの高速かつ複雑な動きを含むため、かなりの課題と機会を提示することを示した。 そこで我々は,LiDAR Point Cloud, Event Stream, RGBを効果的に活用するマルチモーダルベースラインであるLEIRを提案する。 LEIRは、高速な動きや日常的な動きに対して有望な結果を示し、複数のモーダルの特性を利用することで、HPEの性能を向上させることができることを示す。 データセットとソースコードはともに研究コミュニティに公開され、コラボレーションを促進し、この分野でのさらなる探索を可能にする。

Comprehensive capturing of human motions requires both accurate captures of complex poses and precise localization of the human within scenes. Most of the HPE datasets and methods primarily rely on RGB, LiDAR, or IMU data. However, solely using these modalities or a combination of them may not be adequate for HPE, particularly for complex and fast movements. For holistic human motion understanding, we present RELI11D, a high-quality multimodal human motion dataset involves LiDAR, IMU system, RGB camera, and Event camera. It records the motions of 10 actors performing 5 sports in 7 scenes, including 3.32 hours of synchronized LiDAR point clouds, IMU measurement data, RGB videos and Event steams. Through extensive experiments, we demonstrate that the RELI11D presents considerable challenges and opportunities as it contains many rapid and complex motions that require precise location. To address the challenge of integrating different modalities, we propose LEIR, a multimodal baseline that effectively utilizes LiDAR Point Cloud, Event stream, and RGB through our cross-attention fusion strategy. We show that LEIR exhibits promising results for rapid motions and daily motions and that utilizing the characteristics of multiple modalities can indeed improve HPE performance. Both the dataset and source code will be released publicly to the research community, fostering collaboration and enabling further exploration in this field.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# 金融リターン分布のモデル化のための量子ウォークの可能性について

On the potential of quantum walks for modeling financial return distributions ( http://arxiv.org/abs/2403.19502v1 )

ライセンス: Link先を確認
Stijn De Backer, Luis E. C. Rocha, Jan Ryckebusch, Koen Schoors, (参考訳) 資産価格の時間的進化の正確なモデリングは、金融市場の理解に不可欠である。 我々は、資産価格の進化をモデル化するための離散時間量子ウォークの可能性を探る。 量子ウォークアルゴリズムに基づくモデルから得られた帰属分布を古典的手法による帰属分布と比較する。 古典モデルの特定の制限に注目し、量子ウォークモデルがこれらを克服する上で大きな柔軟性を持っていることを示す。 これには、複雑な市場傾向と極端な事象の確率が古典的なモデルよりも高い非対称な回帰分布を生成する可能性が含まれる。 さらに、量子ウォークにおける時間的進化は、資産価格のダイナミクスを提供する可能性を持っている。

Accurate modeling of the temporal evolution of asset prices is crucial for understanding financial markets. We explore the potential of discrete-time quantum walks to model the evolution of asset prices. Return distributions obtained from a model based on the quantum walk algorithm are compared with those obtained from classical methodologies. We focus on specific limitations of the classical models, and illustrate that the quantum walk model possesses great flexibility in overcoming these. This includes the potential to generate asymmetric return distributions with complex market tendencies and higher probabilities for extreme events than in some of the classical models. Furthermore, the temporal evolution in the quantum walk possesses the potential to provide asset price dynamics.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# SineNet:時間依存部分微分方程式における時間ダイナミクスの学習

SineNet: Learning Temporal Dynamics in Time-Dependent Partial Differential Equations ( http://arxiv.org/abs/2403.19507v1 )

ライセンス: Link先を確認
Xuan Zhang, Jacob Helwig, Yuchao Lin, Yaochen Xie, Cong Fu, Stephan Wojtowytsch, Shuiwang Ji, (参考訳) 我々は深層ニューラルネットワークを用いて時間依存偏微分方程式(PDE)を解くことを検討する。 スキップ接続を持つU-Netアーキテクチャは,マルチスケール処理を実現するために従来の研究で一般的に使用されているが,我々は,レイヤ間をまたいだ機能拡張の必要性が,スキップ接続において時間的に不整合な機能となり,モデルの性能が制限されることを示した。 この制限に対処するため,複数の連続接続されたU字型ネットワークブロックからなるSineNetを提案する。 SineNetでは、高解像度の機能は、複数のステージを通じて徐々に進化し、各ステージ内でのミスアライメントの量を減らす。 さらに、マルチスケール情報の並列処理とシーケンシャル処理の両面において、スキップ接続が果たす役割を解析する。 提案手法は,Navier-Stokes方程式や浅水方程式を含む複数のPDEデータセット上で厳密に検証され,パラメータ予算に匹敵する従来のU-Netに対するアプローチの利点を示す。 さらに、SineNetにおける同じパラメータ数を維持しながら波の数を増やすことで、単調に性能が向上することを示した。 その結果、SineNetの有効性と、ニューラルPDEソルバ設計の最先端化における我々のアプローチの可能性を強調した。 私たちのコードはAIRS(https://github.com/divelab/AIRS)の一部として利用可能です。

We consider using deep neural networks to solve time-dependent partial differential equations (PDEs), where multi-scale processing is crucial for modeling complex, time-evolving dynamics. While the U-Net architecture with skip connections is commonly used by prior studies to enable multi-scale processing, our analysis shows that the need for features to evolve across layers results in temporally misaligned features in skip connections, which limits the model's performance. To address this limitation, we propose SineNet, consisting of multiple sequentially connected U-shaped network blocks, referred to as waves. In SineNet, high-resolution features are evolved progressively through multiple stages, thereby reducing the amount of misalignment within each stage. We furthermore analyze the role of skip connections in enabling both parallel and sequential processing of multi-scale information. Our method is rigorously tested on multiple PDE datasets, including the Navier-Stokes equations and shallow water equations, showcasing the advantages of our proposed approach over conventional U-Nets with a comparable parameter budget. We further demonstrate that increasing the number of waves in SineNet while maintaining the same number of parameters leads to a monotonically improved performance. The results highlight the effectiveness of SineNet and the potential of our approach in advancing the state-of-the-art in neural PDE solver design. Our code is available as part of AIRS (https://github.com/divelab/AIRS).
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# 遅延拡散モデルを用いた除細動心イメージング

Debiasing Cardiac Imaging with Controlled Latent Diffusion Models ( http://arxiv.org/abs/2403.19508v1 )

ライセンス: Link先を確認
Grzegorz Skorupko, Richard Osuala, Zuzanna Szafranowska, Kaisar Kushibar, Nay Aung, Steffen E Petersen, Karim Lekadir, Polyxeni Gkontra, (参考訳) 心磁気共鳴画像による疾患診断と予後の深層学習ソリューションの進歩は、高度に不均衡で偏りのあるトレーニングデータによって妨げられる。 この問題に対処するため,性別,年齢,体重指数,健康状態などのセンシティブな属性に基づいて合成データを生成することにより,データセット固有の不均衡を緩和する手法を提案する。 我々は,患者メタデータとセグメンテーションマスクから得られた心臓形状から作成したテキストに対して,大規模なコホート研究,特に英国バイオバンクを条件として,拡散確率モデルに基づく制御ネットを採用する。 提案手法は,確立した定量的指標を用いて生成した画像のリアリズムを評価することで評価する。 さらに, 合成標本を用いて, 下位表現群内の不均衡を補正することにより, 分類器のデバイアス化を目的とした下流分類作業を行う。 本研究は,若年者や正常BMI患者の心不全等のデータセット不均衡を緩和する手法の有効性を実証するものである。 この研究は、医学分類タスクのための公正で一般化可能なモデル開発のための合成データの導入に向けた大きな一歩である。 特に、リソース制約のある環境におけるアプローチの実現可能性を強調するために、1つのコンシューマレベルのGPUを使用して、すべての実験を行います。 私たちのコードはhttps://github.com/faildeny/debiasing-cardiac-mri.comで公開されています。

The progress in deep learning solutions for disease diagnosis and prognosis based on cardiac magnetic resonance imaging is hindered by highly imbalanced and biased training data. To address this issue, we propose a method to alleviate imbalances inherent in datasets through the generation of synthetic data based on sensitive attributes such as sex, age, body mass index, and health condition. We adopt ControlNet based on a denoising diffusion probabilistic model to condition on text assembled from patient metadata and cardiac geometry derived from segmentation masks using a large-cohort study, specifically, the UK Biobank. We assess our method by evaluating the realism of the generated images using established quantitative metrics. Furthermore, we conduct a downstream classification task aimed at debiasing a classifier by rectifying imbalances within underrepresented groups through synthetically generated samples. Our experiments demonstrate the effectiveness of the proposed approach in mitigating dataset imbalances, such as the scarcity of younger patients or individuals with normal BMI level suffering from heart failure. This work represents a major step towards the adoption of synthetic data for the development of fair and generalizable models for medical classification tasks. Notably, we conduct all our experiments using a single, consumer-level GPU to highlight the feasibility of our approach within resource-constrained environments. Our code is available at https://github.com/faildeny/debiasing-cardiac-mri.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# UCLA音声学研究室アーカイブの音節分割

Phonetic Segmentation of the UCLA Phonetics Lab Archive ( http://arxiv.org/abs/2403.19509v1 )

ライセンス: Link先を確認
Eleanor Chodroff, Blaž Pažon, Annie Baker, Steven Moran, (参考訳) 音声技術と比較言語学の研究は、多様でアクセスしやすい音声データへのアクセスに依存している。 UCLA音声学ラボアーカイブ(UCLA Phonetics Lab Archive)は、多言語音声コーパスの1つで、314言語のための長大な音声録音と音声による書き起こしがある(Ladefoged et al , 2009)。 最近、95の言語が単語レベルの音声の書き起こしに対応している(Li et al , 2021)。 ここでは,95言語CMUの再リリースを出発点として,監査音声書き起こしとUCLA音声学研究室アーカイブの電話レベルアライメントのコーパスであるVoxAngelesを紹介する。 VoxAngelesはまた、元のUCLAコーパスからの単語レベルと電話レベルのセグメンテーションや、単語と音声の持続時間、母音フォルマント、母音f0の音韻測定も含んでいる。 このコーパスは、母音固有のf0のケーススタディで示されるように、元のデータ、特に定量的な音韻の類型学における使用性を高める。 また,VoxAngeles corpus の多言語音声学における一般研究と教育への応用,低音源・多言語音声技術への応用についても論じる。 VoxAngelesはCC-BY-NC 4.0ライセンスで無料でダウンロードできる。

Research in speech technologies and comparative linguistics depends on access to diverse and accessible speech data. The UCLA Phonetics Lab Archive is one of the earliest multilingual speech corpora, with long-form audio recordings and phonetic transcriptions for 314 languages (Ladefoged et al., 2009). Recently, 95 of these languages were time-aligned with word-level phonetic transcriptions (Li et al., 2021). Here we present VoxAngeles, a corpus of audited phonetic transcriptions and phone-level alignments of the UCLA Phonetics Lab Archive, which uses the 95-language CMU re-release as our starting point. VoxAngeles also includes word- and phone-level segmentations from the original UCLA corpus, as well as phonetic measurements of word and phone durations, vowel formants, and vowel f0. This corpus enhances the usability of the original data, particularly for quantitative phonetic typology, as demonstrated through a case study of vowel intrinsic f0. We also discuss the utility of the VoxAngeles corpus for general research and pedagogy in crosslinguistic phonetics, as well as for low-resource and multilingual speech technologies. VoxAngeles is free to download and use under a CC-BY-NC 4.0 license.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# データポジショニング攻撃時の数値属性に対するLPPプロトコルのロバスト性について

On the Robustness of LDP Protocols for Numerical Attributes under Data Poisoning Attacks ( http://arxiv.org/abs/2403.19510v1 )

ライセンス: Link先を確認
Xiaoguang Li, Zitao Li, Ninghui Li, Wenhai Sun, (参考訳) 近年の研究では、LDP(ローカルディファレンシャルプライバシ)プロトコルは、LDPの特性を活用して、少数の制御されたローカルクライアントから慎重にデータを送信することで、攻撃者がサーバ上で最終的な見積を操作できるデータ中毒攻撃に対して脆弱であることが示されている。 この脆弱性は、敵対的環境におけるLDPの堅牢性と信頼性に関する懸念を引き起こす。 本稿では,数値特性,すなわち分類周波数オーラクル(CFO)の結合と整合性,分布再構成に対する最新式LDPプロトコルの堅牢性について,系統的に検討する。 攻撃駆動方式を用いてプロトコルのロバスト性を評価し,クロスプロトコール攻撃ゲイン測定のための新しい指標を提案する。 その結果,サーバ設定におけるSquare WaveとCFOベースのプロトコルは,ユーザ設定におけるCFOベースのプロトコルと比較して,攻撃に対してより堅牢であることが示唆された。 また, LDP のセキュリティと設計選択の新たな関連性についても検討した。 ローカルハッシュベースのLDPにおけるハッシュドメインサイズは、ユーティリティに対するよく知られた影響を超えて、プロトコルの堅牢性に大きな影響を及ぼすことがわかった。 さらに,リッチな再構成分布情報を利用したゼロショット攻撃検出を提案する。 実験の結果,既存の手法を大幅に改善し,挑戦的なシナリオにおけるデータ操作を効果的に識別できることがわかった。

Recent studies reveal that local differential privacy (LDP) protocols are vulnerable to data poisoning attacks where an attacker can manipulate the final estimate on the server by leveraging the characteristics of LDP and sending carefully crafted data from a small fraction of controlled local clients. This vulnerability raises concerns regarding the robustness and reliability of LDP in hostile environments. In this paper, we conduct a systematic investigation of the robustness of state-of-the-art LDP protocols for numerical attributes, i.e., categorical frequency oracles (CFOs) with binning and consistency, and distribution reconstruction. We evaluate protocol robustness through an attack-driven approach and propose new metrics for cross-protocol attack gain measurement. The results indicate that Square Wave and CFO-based protocols in the Server setting are more robust against the attack compared to the CFO-based protocols in the User setting. Our evaluation also unfolds new relationships between LDP security and its inherent design choices. We found that the hash domain size in local-hashing-based LDP has a profound impact on protocol robustness beyond the well-known effect on utility. Further, we propose a zero-shot attack detection by leveraging the rich reconstructed distribution information. The experiment show that our detection significantly improves the existing methods and effectively identifies data manipulation in challenging scenarios.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# 言語モデル生成臨床データによる臨床NLPの性能向上

Improving Clinical NLP Performance through Language Model-Generated Synthetic Clinical Data ( http://arxiv.org/abs/2403.19511v1 )

ライセンス: Link先を確認
Shan Chen, Jack Gallifant, Marco Guevara, Yanjun Gao, Majid Afshar, Timothy Miller, Dmitriy Dligach, Danielle S. Bitterman, (参考訳) 生成モデルは大量にデータを生成する可能性を示している。 本研究では,先進言語モデルから生成された合成データを利用して,臨床自然言語処理性能の向上を図る。 評価結果は、そのような高い領域で実現可能な応用を示す。

Generative models have been showing potential for producing data in mass. This study explores the enhancement of clinical natural language processing performance by utilizing synthetic data generated from advanced language models. Promising results show feasible applications in such a high-stakes domain.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# 有限要素法の量子化

Quantum Realization of the Finite Element Method ( http://arxiv.org/abs/2403.19512v1 )

ライセンス: Link先を確認
Matthias Deiml, Daniel Peterseim, (参考訳) 本稿では,有界な$d$次元領域のカルテシアン格子上に,$d$線形有限要素で離散化された二階線形楕円偏微分方程式の解を求める量子アルゴリズムを提案する。 この構成における重要なステップはBPXプリコンディショナーであり、線形系を十分によく条件付けられたものに変換し、量子計算が可能である。 我々は、我々の量子アルゴリズムが与えられた寛大さに対する解の適切な関数を$\texttt{tol}$で複素線型で計算できることを示し、固定次元$d$に対して$\texttt{tol}^{-1}$で計算し、対数項を無視することを示す構成的証明を提供する。 この複雑さは1次元のそれと比例し、以前の量子アルゴリズムを$\texttt{tol}^{-2}$の係数で改善する。 また、我々のアルゴリズムを実行することができる量子回路の設計と実装について詳述するとともに、近い将来に有限要素法の量子実現性をサポートするシミュレーター結果について述べる。

This paper presents a quantum algorithm for the solution of prototypical second-order linear elliptic partial differential equations discretized by $d$-linear finite elements on Cartesian grids of a bounded $d$-dimensional domain. An essential step in the construction is a BPX preconditioner, which transforms the linear system into a sufficiently well-conditioned one, making it amenable to quantum computation. We provide a constructive proof demonstrating that our quantum algorithm can compute suitable functionals of the solution to a given tolerance $\texttt{tol}$ with a complexity linear in $\texttt{tol}^{-1}$ for a fixed dimension $d$, neglecting logarithmic terms. This complexity is proportional to that of its one-dimensional counterpart and improves previous quantum algorithms by a factor of order $\texttt{tol}^{-2}$. We also detail the design and implementation of a quantum circuit capable of executing our algorithm, and present simulator results that support the quantum feasibility of the finite element method in the near future, paving the way for quantum computing approaches to a wide range of PDE-related challenges.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# CDIMC-net:Cognitive Deep Incomplete Multi-view Clustering Network

CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network ( http://arxiv.org/abs/2403.19514v1 )

ライセンス: Link先を確認
Jie Wen, Zheng Zhang, Yong Xu, Bob Zhang, Lunke Fei, Guo-Sen Xie, (参考訳) 近年,不完全なマルチビュークラスタリングが注目されている。 この問題に対処する一連の方法が提案されているが、次のような問題が残されている。 1) 既存の手法のほとんど全ては浅いモデルに基づいており、識別的共通表現を得ることは困難である。 2) これらの手法は, 負のサンプルを重要試料として等しく扱うため, ノイズや外れ値に敏感である。 本稿では,これらの問題に対処するために,認知的深層不完全多視点クラスタリングネットワーク(CDIMC-net)を提案する。 具体的には、ビュー固有のディープエンコーダとグラフ埋め込み戦略をフレームワークに組み込むことで、各ビューの高レベルな特徴と局所的な構造をキャプチャする。 さらに、人間の認知、すなわち、容易からハードへの学習に基づいて、モデルトレーニングにおいて最も自信あるサンプルを選択するセルフペース戦略を導入し、アウトリーチのネガティブな影響を減らすことができる。 いくつかの不完全なデータセットの実験結果から、CDIMC-netは最先端の不完全なマルチビュークラスタリング法よりも優れていた。

In recent years, incomplete multi-view clustering, which studies the challenging multi-view clustering problem on missing views, has received growing research interests. Although a series of methods have been proposed to address this issue, the following problems still exist: 1) Almost all of the existing methods are based on shallow models, which is difficult to obtain discriminative common representations. 2) These methods are generally sensitive to noise or outliers since the negative samples are treated equally as the important samples. In this paper, we propose a novel incomplete multi-view clustering network, called Cognitive Deep Incomplete Multi-view Clustering Network (CDIMC-net), to address these issues. Specifically, it captures the high-level features and local structure of each view by incorporating the view-specific deep encoders and graph embedding strategy into a framework. Moreover, based on the human cognition, i.e., learning from easy to hard, it introduces a self-paced strategy to select the most confident samples for model training, which can reduce the negative influence of outliers. Experimental results on several incomplete datasets show that CDIMC-net outperforms the state-of-the-art incomplete multi-view clustering methods.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# グラフクラスタリングのための確率的ブロックモデルの最大近似推定

Maximum Likelihood Estimation on Stochastic Blockmodels for Directed Graph Clustering ( http://arxiv.org/abs/2403.19516v1 )

ライセンス: Link先を確認
Mihai Cucuringu, Xiaowen Dong, Ning Zhang, (参考訳) 本稿では,有向確率ブロックモデル(DSBM)の基盤となるコミュニティを推定するためにクラスタリングを定式化する,統計レンズによる有向グラフクラスタリング問題について検討する。 我々はDSBM上で最大推定(MLE)を行い、観測されたグラフ構造から最も確率の高いコミュニティ割り当てを確かめる。 統計学的視点に加えて、このMLE定式化と、エッジ密度とエッジ配向という2つの重要なグラフ統計を共同で考える新しいフロー最適化ヒューリスティックの等価性を確立する。 指向性クラスタリングの新しい定式化に基づいて,2つの効率的かつ解釈可能な指向性クラスタリングアルゴリズム,スペクトルクラスタリングアルゴリズム,半定値プログラミングに基づくクラスタリングアルゴリズムを導入する。 本稿では,行列摂動理論のツールを用いたスペクトルクラスタリングアルゴリズムの誤クラスタ化頂点数に関する理論的上限を与える。 我々は,提案アルゴリズムを,合成データと実世界のデータの両方に有向クラスタリング手法を用いて定量的に定性的に比較し,理論的貢献のさらなる基盤を提供する。

This paper studies the directed graph clustering problem through the lens of statistics, where we formulate clustering as estimating underlying communities in the directed stochastic block model (DSBM). We conduct the maximum likelihood estimation (MLE) on the DSBM and thereby ascertain the most probable community assignment given the observed graph structure. In addition to the statistical point of view, we further establish the equivalence between this MLE formulation and a novel flow optimization heuristic, which jointly considers two important directed graph statistics: edge density and edge orientation. Building on this new formulation of directed clustering, we introduce two efficient and interpretable directed clustering algorithms, a spectral clustering algorithm and a semidefinite programming based clustering algorithm. We provide a theoretical upper bound on the number of misclustered vertices of the spectral clustering algorithm using tools from matrix perturbation theory. We compare, both quantitatively and qualitatively, our proposed algorithms with existing directed clustering methods on both synthetic and real-world data, thus providing further ground to our theoretical contributions.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# XScale-NVS:Hash Featurized Manifoldを用いたクロススケール新規ビュー合成

XScale-NVS: Cross-Scale Novel View Synthesis with Hash Featurized Manifold ( http://arxiv.org/abs/2403.19517v1 )

ライセンス: Link先を確認
Guangyu Wang, Jinzhi Zhang, Fan Wang, Ruqi Huang, Lu Fang, (参考訳) 実世界の大規模シーンの高忠実なクロススケールビュー合成のためのXScale-NVSを提案する。 露光面に基づく既存の表現は離散化分解能や紫外線歪みに悩まされる一方、暗黙の体積表現は、分散した重量分布と表面の曖昧さのために大きなシーンのスケーラビリティに欠ける。 以上の課題を踏まえ,新しいハッシュベースのデファチュアライズと遅延ニューラルネットワークの枠組みを組み合わせたハッシュデファチュアライズド多様体を提案する。 このアプローチは、2D多様体上のハッシュエントリを明示的に集中させることで表現の表現性を完全に解放し、離散化分解とは無関係に非常に詳細な内容を効果的に表現する。 また,GigaNVSと呼ばれる新しいデータセットを導入し,現実世界の大規模シーンのクロススケールで高解像度な新規ビュー合成をベンチマークする。 提案手法は,従来のGigaNVSベンチマークよりも40%低いLPIPSで,様々な実世界のシーンにおいて競合するベースラインを著しく上回っている。 xscalenvs.github.ioのプロジェクトページをご覧ください。

We propose XScale-NVS for high-fidelity cross-scale novel view synthesis of real-world large-scale scenes. Existing representations based on explicit surface suffer from discretization resolution or UV distortion, while implicit volumetric representations lack scalability for large scenes due to the dispersed weight distribution and surface ambiguity. In light of the above challenges, we introduce hash featurized manifold, a novel hash-based featurization coupled with a deferred neural rendering framework. This approach fully unlocks the expressivity of the representation by explicitly concentrating the hash entries on the 2D manifold, thus effectively representing highly detailed contents independent of the discretization resolution. We also introduce a novel dataset, namely GigaNVS, to benchmark cross-scale, high-resolution novel view synthesis of realworld large-scale scenes. Our method significantly outperforms competing baselines on various real-world scenes, yielding an average LPIPS that is 40% lower than prior state-of-the-art on the challenging GigaNVS benchmark. Please see our project page at: xscalenvs.github.io.
翻訳日:2024-03-29 15:44:37 公開日:2024-03-28
# 変圧器に基づく言語モデルにおけるファクチュアルリコールのメカニズムの解釈

Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models ( http://arxiv.org/abs/2403.19521v1 )

ライセンス: Link先を確認
Ang Lv, Kaiyi Zhang, Yuhan Chen, Yulong Wang, Lifeng Liu, Ji-Rong Wen, Jian Xie, Rui Yan, (参考訳) 本稿では,トランスフォーマーに基づく言語モデルを用いて,現実的なリコールタスクにおいて採用されるメカニズムについて深く検討する。 ゼロショットのシナリオでは、"The capital of France is"のようなプロンプトが与えられた場合、タスク固有のアテンションヘッドは、コンテキストから"France"のようなトピックエンティティを抽出し、"Paris"のような要求された回答をリコールするために後続のMLPに渡す。 本稿では,MLPの出力を人間によって理解可能なコンポーネントに分解することを目的とした新しい分析手法を提案する。 本手法により,これらのタスク固有ヘッドに追従するMLP層の関数を定量化する。 残留ストリームでは、個々のヘッドから派生した情報を消去または増幅する。 さらに、残りのストリームを期待する回答の方向に向けてリダイレクトするコンポーネントを生成する。 これらのゼロショット機構は、数ショットのシナリオでも使用される。 さらに、モデルの最終層に広く存在する反過信機構を観察し、正しい予測を抑える。 我々はこの抑制を、現実のリコール性能を改善するために解釈を活用することで緩和する。 我々の解釈は GPT-2 family から 1.3B OPT まで様々な言語モデルで評価されてきた。

In this paper, we deeply explore the mechanisms employed by Transformer-based language models in factual recall tasks. In zero-shot scenarios, given a prompt like "The capital of France is," task-specific attention heads extract the topic entity, such as "France," from the context and pass it to subsequent MLPs to recall the required answer such as "Paris." We introduce a novel analysis method aimed at decomposing the outputs of the MLP into components understandable by humans. Through this method, we quantify the function of the MLP layer following these task-specific heads. In the residual stream, it either erases or amplifies the information originating from individual heads. Moreover, it generates a component that redirects the residual stream towards the direction of its expected answer. These zero-shot mechanisms are also employed in few-shot scenarios. Additionally, we observed a widely existent anti-overconfidence mechanism in the final layer of models, which suppresses correct predictions. We mitigate this suppression by leveraging our interpretation to improve factual recall performance. Our interpretations have been evaluated across various language models, from the GPT-2 families to 1.3B OPT, and across tasks covering different domains of factual knowledge.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# Model Stock: 必要なのは、微調整されたモデルだけ

Model Stock: All we need is just a few fine-tuned models ( http://arxiv.org/abs/2403.19522v1 )

ライセンス: Link先を確認
Dong-Hwan Jang, Sangdoo Yun, Dongyoon Han, (参考訳) 本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。 平均化のために多数の微調整されたモデルを必要とする従来のプラクティスから離れて、最終的な重み付けを達成するために、我々のアプローチははるかに少ないモデルを採用するが、精度は優れている。 微調整重みの重み空間における重要な洞察から、我々は、性能と重み空間の中心との密接な関係を明らかにする。 そこで本研究では,2つの微調整モデルのみを用いて中心閉重量を近似する手法を提案する。 我々の革新的な層平均化技術は、モデル・スープのような最先端のモデル手法を超越し、2つの微調整モデルしか利用していない。 この戦略はモデルストックと呼ばれ、より最適化された平均モデルを描くために最小限のモデルを選択することへの依存を強調している。 トレーニング済みのCLIPアーキテクチャをベースとした細調整モデルによるモデルストックの有効性を実証し,標準ベンチマークにおけるIDおよびOODタスクにおける優れた性能を実現するとともに,計算負荷の増大をほとんど伴わないことを示した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/naver-ai/model-stock.comで公開されています。

This paper introduces an efficient fine-tuning method for large pre-trained models, offering strong in-distribution (ID) and out-of-distribution (OOD) performance. Breaking away from traditional practices that need a multitude of fine-tuned models for averaging, our approach employs significantly fewer models to achieve final weights yet yield superior accuracy. Drawing from key insights in the weight space of fine-tuned weights, we uncover a strong link between the performance and proximity to the center of weight space. Based on this, we introduce a method that approximates a center-close weight using only two fine-tuned models, applicable during or after training. Our innovative layer-wise weight averaging technique surpasses state-of-the-art model methods such as Model Soup, utilizing only two fine-tuned models. This strategy can be aptly coined Model Stock, highlighting its reliance on selecting a minimal number of models to draw a more optimized-averaged model. We demonstrate the efficacy of Model Stock with fine-tuned models based upon pre-trained CLIP architectures, achieving remarkable performance on both ID and OOD tasks on the standard benchmarks, all while barely bringing extra computational demands. Our code and pre-trained models are available at https://github.com/naver-ai/model-stock.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# カテゴリーレベル6次元オブジェクト位置推定のためのインスタンス適応型および幾何学的キーポイント学習

Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation ( http://arxiv.org/abs/2403.19527v1 )

ライセンス: Link先を確認
Xiao Lin, Wenfei Yang, Yuan Gao, Tianzhu Zhang, (参考訳) カテゴリーレベルの6Dオブジェクトのポーズ推定は、特定のカテゴリ内の見えないインスタンスの回転、翻訳、サイズを推定することを目的としている。 この領域では、高密度対応に基づく手法が先進的な性能を実現している。 しかし、それらは異なるインスタンスの局所的および大域的幾何学的情報を明示的に考慮せず、結果として、大きな形状のバリエーションを持つインスタンスを発見できないような一般化能力は乏しい。 この問題に対処するため,カテゴリレベルの6次元オブジェクトポーズ推定(AG-Pose)のための新しいインスタンス適応型および幾何学的キーポイント学習法を提案し,(1)第一の設計は,各インスタンスのスパースキーポイントの集合を適応的に検出し,幾何学的構造を表現するためのインスタンス適応キーポイント検出モジュールである。 2)2つ目の設計は幾何学的特徴集約モジュールであり,局所的およびグローバルな幾何学的情報をキーポイント特徴に効率的に統合することができる。 CAMERA25 と REAL275 データセットによる実験結果から,提案した AG-Pose は,カテゴリ固有の形状の先行を伴わずに,最先端の手法よりも高い性能を示した。

Category-level 6D object pose estimation aims to estimate the rotation, translation and size of unseen instances within specific categories. In this area, dense correspondence-based methods have achieved leading performance. However, they do not explicitly consider the local and global geometric information of different instances, resulting in poor generalization ability to unseen instances with significant shape variations. To deal with this problem, we propose a novel Instance-Adaptive and Geometric-Aware Keypoint Learning method for category-level 6D object pose estimation (AG-Pose), which includes two key designs: (1) The first design is an Instance-Adaptive Keypoint Detection module, which can adaptively detect a set of sparse keypoints for various instances to represent their geometric structures. (2) The second design is a Geometric-Aware Feature Aggregation module, which can efficiently integrate the local and global geometric information into keypoint features. These two modules can work together to establish robust keypoint-level correspondences for unseen instances, thus enhancing the generalization ability of the model.Experimental results on CAMERA25 and REAL275 datasets show that the proposed AG-Pose outperforms state-of-the-art methods by a large margin without category-specific shape priors.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# Ethereumブロックチェーン上のファイナンシャルボットの検出

Detecting Financial Bots on the Ethereum Blockchain ( http://arxiv.org/abs/2403.19530v1 )

ライセンス: Link先を確認
Thomas Niedermayer, Pietro Saggese, Bernhard Haslhofer, (参考訳) DLT(Distributed Ledger Technologies)におけるボットの統合は、効率性と自動化を促進する。 しかし、彼らの利用は捕食的取引や市場の操作にも関係しており、システムの完全性に脅威をもたらす可能性がある。 したがって、DLTにおけるボットの展開範囲を理解することは不可欠であり、現在の検出システムはルールベースであり、柔軟性に欠ける。 本研究では,Ethereumプラットフォーム上での金融ボットの検出に機械学習を利用する新しい手法を提案する。 まず,既存の科学的文献の体系化と,7つのカテゴリと24のサブカテゴリからなる金融ボットの分類基準を確立するための逸話的証拠の収集を行う。 次に、133人の人間と137人のボットアドレスからなる地上データデータセットを作成します。 第3に、Ethereum上にデプロイされたボットを検出するために、教師なしと教師なしの機械学習アルゴリズムの両方を使用します。 最もパフォーマンスの高いクラスタリングアルゴリズムは、平均クラスタ純度82.6%のガウス混合モデルであり、二分分類の最高パフォーマンスモデルは精度83%のランダムフォレストである。 私たちの機械学習ベースの検出メカニズムは、現在のボットのランドスケープに関するさらなる洞察を提供することで、Ethereumエコシステムのダイナミクスを理解するのに役立ちます。

The integration of bots in Distributed Ledger Technologies (DLTs) fosters efficiency and automation. However, their use is also associated with predatory trading and market manipulation, and can pose threats to system integrity. It is therefore essential to understand the extent of bot deployment in DLTs; despite this, current detection systems are predominantly rule-based and lack flexibility. In this study, we present a novel approach that utilizes machine learning for the detection of financial bots on the Ethereum platform. First, we systematize existing scientific literature and collect anecdotal evidence to establish a taxonomy for financial bots, comprising 7 categories and 24 subcategories. Next, we create a ground-truth dataset consisting of 133 human and 137 bot addresses. Third, we employ both unsupervised and supervised machine learning algorithms to detect bots deployed on Ethereum. The highest-performing clustering algorithm is a Gaussian Mixture Model with an average cluster purity of 82.6%, while the highest-performing model for binary classification is a Random Forest with an accuracy of 83%. Our machine learning-based detection mechanism contributes to understanding the Ethereum ecosystem dynamics by providing additional insights into the current bot landscape.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# SecGraph: SGXベースの効率的かつ信頼性の高いグラフ検索を目指して

SecGraph: Towards SGX-based Efficient and Confidentiality-Preserving Graph Search ( http://arxiv.org/abs/2403.19531v1 )

ライセンス: Link先を確認
Qiuhao Wang, Xu Yang, Saiyu Qi, Yong Qi, (参考訳) グラフはより表現力があり、従来のリレーショナルモデルやXMLモデルと比較して、様々な検索要求シナリオで広く研究されている。 今日、多くのグラフ検索サービスがサードパーティのサーバーにデプロイされており、大規模なグラフの維持と膨大な計算コストの負担からユーザを救えるようになっている。 それでも、グラフ検索サービスをサードパーティサーバにアウトソーシングすることは、ユーザのプライバシに侵入する可能性がある。 PeGraphは最近、ソーシャルグラフの暗号化検索を実現するために提案されている。 PeGraphの主な考え方は、暗号化された導電性検索をサポートするためにOXT技術によって動機付けられた2つのデータ構造XSetとTSetを維持することである。 しかし、PeGraphにはいくつかの制限がある。 第一に、PeGraphは検索操作において高い通信コストと計算コストに悩まされている。 第二に、PeGraphは動的グラフ上の暗号化検索をサポートしない。 本稿では,SGXをベースとした効率的かつ機密性に配慮したグラフ検索方式SecGraphを提案する。 まず、通信コストを削減するために、新しいプロキシ・トークン生成手法を設計する。 次に、計算コストを削減するために、対数動的カクーフィルタに基づくLDCF符号化XSetを設計する。 最後に、動的グラフ上での暗号化検索を可能にするために、Twin-TSetと呼ばれるTSetの新しい動的バージョンを設計する。 厳密なセキュリティ分析によりSecGraphの秘密保持性を実証した。 実験の結果, SecGraphの検索時間はPeGraphに比べて最大208倍, PeGraphの通信コストはSecGraphの最大540倍であることがわかった。

Graphs have more expressive power and are widely researched in various search demand scenarios, compared with traditional relational and XML models. Today, many graph search services have been deployed on a third-party server, which can alleviate users from the burdens of maintaining large-scale graphs and huge computation costs. Nevertheless, outsourcing graph search services to the third-party server may invade users' privacy. PeGraph was recently proposed to achieve the encrypted search over the social graph. The main idea of PeGraph is to maintain two data structures XSet and TSet motivated by the OXT technology to support encrypted conductive search. However, PeGraph still has some limitations. First, PeGraph suffers from high communication and computation costs in search operations. Second, PeGraph cannot support encrypted search over dynamic graphs. In this paper, we propose an SGX-based efficient and confidentiality-preserving graph search scheme SecGraph that can support insertion and deletion operations. We first design a new proxy-token generation method to reduce the communication cost. Then, we design an LDCF-encoded XSet based on the Logarithmic Dynamic Cuckoo Filter to reduce the computation cost. Finally, we design a new dynamic version of TSet named Twin-TSet to enable encrypted search over dynamic graphs. We have demonstrated the confidentiality preservation property of SecGraph through rigorous security analysis. Experiment results show that SecGraph yields up to 208x improvement in search time compared with PeGraph and the communication cost in PeGraph is up to 540x larger than that in SecGraph.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# Locate, Assign, Refine: テキストサブジェクト誘導によるカスタムイメージの塗り絵のカスタマイズ

Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance ( http://arxiv.org/abs/2403.19534v1 )

ライセンス: Link先を確認
Yulin Pan, Chaojie Mao, Zeyinzi Jiang, Zhen Han, Jingfeng Zhang, (参考訳) 先行研究は、テキストまたは被写体画像によって導かれる画像の塗り絵に大きな進歩をもたらした。 しかし、それらを組み合わせて編集する研究は、まだ初期段階にある。 この課題に対処するため,文字プロンプトと特定主題の両方を取り入れた,マスクされたシーン画像のシームレスなインペイントを可能にする,画像インペイントのための新しいアプローチであるLAR-Genを提案する。 提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。 そのプロセスは 一 騒音をマスキングシーン画像と結びつけて正確な地域編集を行うこと。 2 指定:マルチモーダルガイダンスに対応するために疎結合のクロスアテンション機構を採用すること (iii)詳細を補うために小説『RefineNet』を使用する。 さらに、不足するトレーニングデータに対処するために、新しいデータ構築パイプラインを導入する。 このパイプラインは、大規模な画像データセットから、ローカルテキストプロンプトと対応するビジュアルインスタンスからなる、相当量のデータのペアを抽出し、公開可能な大規模モデルを活用する。 広範囲にわたる実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。 プロジェクトページは \url{https://ali-vilab.github.io/largen-page/} にある。

Prior studies have made significant progress in image inpainting guided by either text or subject image. However, the research on editing with their combined guidance is still in the early stages. To tackle this challenge, we present LAR-Gen, a novel approach for image inpainting that enables seamless inpainting of masked scene images, incorporating both the textual prompts and specified subjects. Our approach adopts a coarse-to-fine manner to ensure subject identity preservation and local semantic coherence. The process involves (i) Locate: concatenating the noise with masked scene image to achieve precise regional editing, (ii) Assign: employing decoupled cross-attention mechanism to accommodate multi-modal guidance, and (iii) Refine: using a novel RefineNet to supplement subject details. Additionally, to address the issue of scarce training data, we introduce a novel data construction pipeline. This pipeline extracts substantial pairs of data consisting of local text prompts and corresponding visual instances from a vast image dataset, leveraging publicly available large models. Extensive experiments and varied application scenarios demonstrate the superiority of LAR-Gen in terms of both identity preservation and text semantic consistency. Project page can be found at \url{https://ali-vilab.github.io/largen-page/}.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# 中赤外フェムト秒レーザーからのkeVX線レジームにおける光コヒーレント超高調波

Bright Coherent Ultrahigh Harmonics in the keV X-Ray Regime from Mid-Infrared Femtosecond Lasers ( http://arxiv.org/abs/2403.19535v1 )

ライセンス: Link先を確認
Tenio Popmintchev, Ming-Chang Chen, Dimitar Popmintchev, Paul Arpin, Susannah Brown, Skirmantas Ališauskas, Giedrius Andriukaitis, Tadas Balčiunas, Oliver Mücke, Audrius Pugzlys, Andrius Baltuška, Bonggu Shim, Samuel E. Schrauth, Alexander Gaeta, Carlos Hernández-García, Luis Plaja, Andreas Becker, Agnieszka Jaron-Becker, Margaret M. Murnane, Henry C. Kapteyn, (参考訳) 高調波発生は、伝統的に100個の近赤外線レーザー光子を組み合わせて、多くの原子からの放射が構成的に付加されるときに、明るい位相整合の極端紫外光を生成する。 ここでは、高圧ガス中赤外フェムト秒レーザーを誘導することにより、紫外から1.6keVまでの電磁スペクトル全体にまたがる明るい超連続体として現れる超高調波を、2.5 attosecondsまでの短パルスをインプリンシプルすることができることを示す。 明るい位相整合放出に必要な多大気ガス圧もレーザービームの自己濃縮をサポートし、X線収率をさらに高めている。 最後に、X線ビームは高ガス密度でも高い空間コヒーレンスを示すが、高調波発生の原因となる電子は放出過程中に他の原子と衝突する。

High harmonic generation traditionally combines ~100 near-infrared laser photons, to generate bright, phase matched, extreme ultraviolet beams when the emission from many atoms adds constructively. Here we show that by guiding a mid-infrared femtosecond laser in a high pressure gas, ultrahigh harmonics can be generated up to orders > 5000, that emerge as a bright supercontinuum that spans the entire electromagnetic spectrum from the ultraviolet to > 1.6 keV, allowing in-principle the generation of pulses as short as 2.5 attoseconds. The multi-atmosphere gas pressures required for bright, phase matched emission also supports laser beam self-confinement, further enhancing the x-ray yield. Finally, the x-ray beam exhibits high spatial coherence, even though at high gas density, the recolliding electrons responsible for high harmonic generation encounter other atoms during the emission process.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# 分散シフト処理のためのデータフリーな知識蒸留

De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts ( http://arxiv.org/abs/2403.19539v1 )

ライセンス: Link先を確認
Yuzheng Wang, Dingkang Yang, Zhaoyu Chen, Yang Liu, Siao Liu, Wenqiang Zhang, Lihua Zhang, Lizhe Qi, (参考訳) Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。 既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。 しかし、長い間見過ごされてきた問題は、画像の質とクラス比の大きな違いを示す、置換と元のデータの間に深刻な分布変化が生じることである。 有害なシフトは、本質的には、パフォーマンスのボトルネックを著しく引き起こす共同創設者です。 この問題に対処するため,本論文では,学生モデルをこのような変化の影響から遠ざけるために,因果推論を用いた新たな視点を提案する。 カスタマイズされた因果グラフを設計することにより、DFKDタスクの変数間の因果関係を明らかにする。 続いて,共同創設者を非難するバックドア調整に基づく知識蒸留因果干渉(KDCI)フレームワークを提案する。 KDCIは、既存の最先端のベースラインと柔軟に組み合わせることができる。 CIFAR-100データセットのベースラインを最大15.54倍の精度で向上させるため、ほぼすべての設定で既存のメソッドである \textit{e g } を支援することができる。

Data-Free Knowledge Distillation (DFKD) is a promising task to train high-performance small models to enhance actual deployment without relying on the original training data. Existing methods commonly avoid relying on private data by utilizing synthetic or sampled data. However, a long-overlooked issue is that the severe distribution shifts between their substitution and original data, which manifests as huge differences in the quality of images and class proportions. The harmful shifts are essentially the confounder that significantly causes performance bottlenecks. To tackle the issue, this paper proposes a novel perspective with causal inference to disentangle the student models from the impact of such shifts. By designing a customized causal graph, we first reveal the causalities among the variables in the DFKD task. Subsequently, we propose a Knowledge Distillation Causal Intervention (KDCI) framework based on the backdoor adjustment to de-confound the confounder. KDCI can be flexibly combined with most existing state-of-the-art baselines. Experiments in combination with six representative DFKD methods demonstrate the effectiveness of our KDCI, which can obviously help existing methods under almost all settings, \textit{e.g.}, improving the baseline by up to 15.54\% accuracy on the CIFAR-100 dataset.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# ラマルク人の継承は、動的環境におけるロボットの進化を改善する

Lamarckian Inheritance Improves Robot Evolution in Dynamic Environments ( http://arxiv.org/abs/2403.19545v1 )

ライセンス: Link先を確認
Jie Luo, Karine Miras, Carlo Longhi, Oliver Weissl, Agoston E. Eiben, (参考訳) 本研究では,ラマルク系を進化ロボット (ER) に統合し,様々な環境における従来のダーウィンモデルと比較する。 ロボットが学習した特性を継承するラマルクの原理と、継承のないダーウィンの学習を併用することにより、動的環境への適応を調査する。 我々の研究は6つの異なる環境設定で行われ、ラマルク系がダーウィン系よりも適応性と効率が優れており、特に挑戦的な条件下では優れていたことを実証している。 本研究は,親子間の親子間の親子間の親子間の相互関係と,親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子関係と親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子間の親子関係の親子関係を,親子間の親子間の 我々の発見は、Lamarckianの原則が自律システム設計を大幅に進歩させ、複雑な現実世界のアプリケーションにおいてより適応的で堅牢なロボティクスソリューションの可能性を強調していることを示唆している。 これらの理論的な洞察は実際の物理ロボットを用いて検証され、シミュレーションと実用化の間のギャップを埋めた。

This study explores the integration of Lamarckian system into evolutionary robotics (ER), comparing it with the traditional Darwinian model across various environments. By adopting Lamarckian principles, where robots inherit learned traits, alongside Darwinian learning without inheritance, we investigate adaptation in dynamic settings. Our research, conducted in six distinct environmental setups, demonstrates that Lamarckian systems outperform Darwinian ones in adaptability and efficiency, particularly in challenging conditions. Our analysis highlights the critical role of the interplay between controller \& morphological evolution and environment adaptation, with parent-offspring similarities and newborn \&survivors before and after learning providing insights into the effectiveness of trait inheritance. Our findings suggest Lamarckian principles could significantly advance autonomous system design, highlighting the potential for more adaptable and robust robotic solutions in complex, real-world applications. These theoretical insights were validated using real physical robots, bridging the gap between simulation and practical application.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# Croissant:ML対応データセットのメタデータフォーマット

Croissant: A Metadata Format for ML-Ready Datasets ( http://arxiv.org/abs/2403.19546v1 )

ライセンス: Link先を確認
Mubashara Akhtar, Omar Benjelloun, Costanza Conforti, Joan Giner-Miguelez, Nitisha Jain, Michael Kuchnik, Quentin Lhoest, Pierre Marcenac, Manil Maskey, Peter Mattson, Luis Oala, Pierre Ruyssen, Rajat Shinde, Elena Simperl, Goeffry Thomas, Slava Tykhonov, Joaquin Vanschoren, Steffen Vogler, Carole-Jean Wu, (参考訳) データは機械学習(ML)にとって重要なリソースであるが、データを扱うことは重要な摩擦点である。 本稿では、MLツールやフレームワークでのデータの使用方法を簡単にするデータセットのメタデータフォーマットであるCroissantを紹介する。 Croissantは、データセットをより見つけやすく、ポータブルで、相互運用可能にし、MLデータ管理と責任あるAIにおける重要な課題に対処する。 Croissantはすでに、数十万のデータセットにまたがる人気のあるデータセットリポジトリによってサポートされており、最も人気のあるMLフレームワークにロードされる準備ができている。

Data is a critical resource for Machine Learning (ML), yet working with data remains a key friction point. This paper introduces Croissant, a metadata format for datasets that simplifies how data is used by ML tools and frameworks. Croissant makes datasets more discoverable, portable and interoperable, thereby addressing significant challenges in ML data management and responsible AI. Croissant is already supported by several popular dataset repositories, spanning hundreds of thousands of datasets, ready to be loaded into the most popular ML frameworks.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# WaterJudge: 大規模言語モデルのウォーターマークによる品質検出トレードオフ

WaterJudge: Quality-Detection Trade-off when Watermarking Large Language Models ( http://arxiv.org/abs/2403.19548v1 )

ライセンス: Link先を確認
Piotr Molenda, Adian Liusie, Mark J. F. Gales, (参考訳) LLMのような透かし生成型AIシステムは、幅広いタスクにまたがる機能強化によって大きな関心を集めている。 現在のアプローチでは、単語分布の小さい文脈依存的な変化が透かしの応用と検出に有効であることが示されているが、これらの摂動が生成したテキストの品質に与える影響を分析することはほとんど行われていない。 そこで本稿では, フレキシブルなNLG評価フレームワークである比較評価を用いて, 特定の透かし設定による品質劣化を評価する, 簡易な解析フレームワークを提案する。 筆者らのフレームワークは,透かし設定の品質-検出トレードオフを簡易に可視化し,バランスの取れた性能を提供するLCM透かし動作点を簡易に発見できることを実証する。 このアプローチは2つの異なる要約システムと翻訳システムに適用され、タスクのクロスモデル解析とクロスタスク解析を可能にした。

Watermarking generative-AI systems, such as LLMs, has gained considerable interest, driven by their enhanced capabilities across a wide range of tasks. Although current approaches have demonstrated that small, context-dependent shifts in the word distributions can be used to apply and detect watermarks, there has been little work in analyzing the impact that these perturbations have on the quality of generated texts. Balancing high detectability with minimal performance degradation is crucial in terms of selecting the appropriate watermarking setting; therefore this paper proposes a simple analysis framework where comparative assessment, a flexible NLG evaluation framework, is used to assess the quality degradation caused by a particular watermark setting. We demonstrate that our framework provides easy visualization of the quality-detection trade-off of watermark settings, enabling a simple solution to find an LLM watermark operating point that provides a well-balanced performance. This approach is applied to two different summarization systems and a translation system, enabling cross-model analysis for a task, and cross-task analysis.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# GlORIE-SLAM: グローバルに最適化されたRGBのみの暗黙のポイントクラウドSLAM

GlORIE-SLAM: Globally Optimized RGB-only Implicit Encoding Point Cloud SLAM ( http://arxiv.org/abs/2403.19549v1 )

ライセンス: Link先を確認
Ganlin Zhang, Erik Sandström, Youmin Zhang, Manthan Patel, Luc Van Gool, Martin R. Oswald, (参考訳) RGBのみの高密度局所マッピング(SLAM)の最近の進歩は、グリッドベースの暗黙的エンコーディングと/またはグローバルマップの効率的な実現と一貫性の獲得に苦慮している。 そこで本研究では,キーフレームのポーズや深度更新に適応するフレキシブルなニューラルポイントクラウドシーン表現を用いた,RGBのみの高密度SLAMシステムを提案する。 RGBのみのSLAMのもう一つの重要な課題は、幾何学的事前の欠如である。 この問題を軽減するため,単眼深度推定器の助けを借りて,単眼深度とともに鍵フレームのポーズと深さを最適化するバンドル調整のための新しいDSPO層を導入する。 最後に、ループ閉鎖とオンライングローバルバンドル調整の利点を生かし、Replica、TUM-RGBD、ScanNetデータセットの追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGB SLAM手法よりも優れているか、競争力がある。 ソースコードは利用可能になる。

Recent advancements in RGB-only dense Simultaneous Localization and Mapping (SLAM) have predominantly utilized grid-based neural implicit encodings and/or struggle to efficiently realize global map and pose consistency. To this end, we propose an efficient RGB-only dense SLAM system using a flexible neural point cloud scene representation that adapts to keyframe poses and depth updates, without needing costly backpropagation. Another critical challenge of RGB-only SLAM is the lack of geometric priors. To alleviate this issue, with the aid of a monocular depth estimator, we introduce a novel DSPO layer for bundle adjustment which optimizes the pose and depth of keyframes along with the scale of the monocular depth. Finally, our system benefits from loop closure and online global bundle adjustment and performs either better or competitive to existing dense neural RGB SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code will be made available.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# シリコン量子ドットプラットフォームを用いたエンタングルメントに基づく量子情報プロトコル

Entanglement-based quantum information protocols designed with silicon quantum dot platform ( http://arxiv.org/abs/2403.19551v1 )

ライセンス: Link先を確認
Junghee Ryu, Hoon Ryu, (参考訳) シリコン量子ドットプラットフォームの電子スピンは、優れた物理特性と近代的な製造技術のために量子情報処理に大きな可能性をもたらす。 スピンベースの量子ビット(量子ビット)演算は、高忠実度、高速ゲーティング演算、基本プログラム可能性を持つ普遍論理ゲートを実現するために、集中的に研究されている。 近年の実験的な成果は量子計算を利用するための顕著な成果とみなすことができるが、より高度な量子情報プロトコルを多くの量子ビットシステムで実証し、シリコンデバイスのプログラム性を実現する必要がある。 ここでは、電気的に定義された5つのシリコン量子ドット系における絡み合いに基づく量子情報プロトコルを計算的に検討する。 この目的のために、デバイスシミュレーションを使用して、1ドルキュービットゲートと2ドルキュービットゲート操作を実証する。 さらに、魔法の状態の生成、絡み合いのスワッピング、半導体デバイスにおける量子テレポーテーションの3つのアプリケーションの実装についても論じる。 すべての結果は、シリコン量子ドット系における電子スピン量子ビットによる量子情報処理のスケーラビリティを確保する。

Electron spins in silicon quantum dot platform provide great potential for quantum information processing due to excellent physical properties and modern fabrication technologies. Spin-based quantum bit (qubit) operations are intensively studied to realize universal logic gates with a high fidelity, fast gating operations, and basic programmability. Although recent experimental achievements can be considered as remarkable results for utilizing quantum computation, more advanced quantum information protocols should be demonstrated with a large number of qubit system to enable programmability of silicon devices. Here, we computationally explore entanglement-based quantum information protocols in electrically defined five silicon quantum dot system. To this end, device simulations are employed to demonstrate $1$-qubit gate and $2$-qubit gate operations. Additionally, we discuss the implementations of three applications: the generation of magic states, entanglement swapping, and quantum teleportation in our silicon device. All the results will secure the scalability of quantum information processing with electron spin qubits in silicon quantum dot system.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# クロス・アテンションは必ずしも必要ではない: ダイナミック・クロス・アテンションによる視覚的感情認識

Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition ( http://arxiv.org/abs/2403.19554v1 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam, (参考訳) 映像に基づく感情認識では、音声と視覚のモダリティは相補的な関係を持つことがしばしば期待され、クロスアテンションを用いて広く研究されている。 しかし、これらは補間関係が弱く、結果として音声・視覚的特徴の表現が貧弱になり、システムの性能が低下する可能性がある。 この問題に対処するため,我々は動的クロスアテンション (DCA) を提案する。 具体的には、単純で効率的なゲーティング層は、クロスアテンション機構の寄与を評価し、強い相補的関係を示す場合にのみクロスアテンション特徴を選択するように設計されている。 本稿では,RECOLAとAff-Wild2データセットに対する提案手法の性能評価を行う。 また,提案手法を他の異種のクロスアテンションと比較し,提案モデルが両データセットの性能を常に改善していることを示す。

In video-based emotion recognition, audio and visual modalities are often expected to have a complementary relationship, which is widely explored using cross-attention. However, they may also exhibit weak complementary relationships, resulting in poor representations of audio-visual features, thus degrading the performance of the system. To address this issue, we propose Dynamic Cross-Attention (DCA) that can dynamically select cross-attended or unattended features on the fly based on their strong or weak complementary relationship with each other, respectively. Specifically, a simple yet efficient gating layer is designed to evaluate the contribution of the cross-attention mechanism and choose cross-attended features only when they exhibit a strong complementary relationship, otherwise unattended features. We evaluate the performance of the proposed approach on the challenging RECOLA and Aff-Wild2 datasets. We also compare the proposed approach with other variants of cross-attention and show that the proposed model consistently improves the performance on both datasets.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# アノテーションによる逆データ収集の改善:ドイツのヘイトスピーチデータセットGAHDからの教訓

Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset ( http://arxiv.org/abs/2403.19559v1 )

ライセンス: Link先を確認
Janis Goldzycher, Paul Röttger, Gerold Schneider, (参考訳) ヘイトスピーチ検出モデルは、トレーニングされているデータと同程度にしか機能しない。 ソーシャルメディアから得られるデータセットは、体系的なギャップとバイアスに悩まされ、単純な決定境界を持つ信頼性の低いモデルに繋がる。 モデルの弱点を活用することで収集された敵対的データセットは、この問題を修正することを約束する。 しかし、敵対的なデータ収集は遅くてコストがかかり、個々のアノテータは創造性に制限がある。 本稿では, GAHDについて紹介する。 11kの例。 データ収集において、アノテータをサポートするための新しい戦略を探求し、より多様な敵例を効率的に作成し、各戦略に対するアノテータの不一致を手動で分析する。 実験の結果,最先端のヘイトスピーチ検出モデルにおいてもデータセットは困難であり,GAHDによるトレーニングはモデルロバスト性を向上させることが明らかとなった。 さらに,複数のサポート戦略の混在が最も有利であることがわかった。 GAHDはhttps://github.com/jagol/gahd.comで公開しています。

Hate speech detection models are only as good as the data they are trained on. Datasets sourced from social media suffer from systematic gaps and biases, leading to unreliable models with simplistic decision boundaries. Adversarial datasets, collected by exploiting model weaknesses, promise to fix this problem. However, adversarial data collection can be slow and costly, and individual annotators have limited creativity. In this paper, we introduce GAHD, a new German Adversarial Hate speech Dataset comprising ca.\ 11k examples. During data collection, we explore new strategies for supporting annotators, to create more diverse adversarial examples more efficiently and provide a manual analysis of annotator disagreements for each strategy. Our experiments show that the resulting dataset is challenging even for state-of-the-art hate speech detection models, and that training on GAHD clearly improves model robustness. Further, we find that mixing multiple support strategies is most advantageous. We make GAHD publicly available at https://github.com/jagol/gahd.
翻訳日:2024-03-29 15:34:50 公開日:2024-03-28
# スケーラブルなニューラルコンビネーション最適化のための自己改善学習

Self-Improved Learning for Scalable Neural Combinatorial Optimization ( http://arxiv.org/abs/2403.19561v1 )

ライセンス: Link先を確認
Fu Luo, Xi Lin, Zhenkun Wang, Tong Xialiang, Mingxuan Yuan, Qingfu Zhang, (参考訳) The end-to-end Neural combinatorial Optimization (NCO) method shows promising performance in solve complex combinatorial optimization problem without without the need of expert design。 しかし、既存の手法は大規模な問題に悩まされ、実用性に支障をきたす。 この制限を克服するために、ニューラル組合せ最適化のスケーラビリティを向上させるための新しい自己改善学習法(SIL)を提案する。 具体的には,ラベル付きデータなしで大規模問題インスタンス上での直接モデルトレーニングを可能にする,効率的な自己改善機構を開発する。 革新的な局所的再構成手法によって、この手法は、効率的なモデルトレーニングを導くための擬似ラベルとして、より優れた解を反復的に生成することができる。 さらに,計算オーバーヘッドの少ない大規模組合せ問題インスタンスを効率的に処理するための線形複雑性注意機構を設計する。 本研究では,TSPとCVRP(Capacitated Vehicle Routing Problem)に関する一様分布と実空間分布の両方で最大100Kノードの総合的な実験を行い,本手法のスケーラビリティを実証した。

The end-to-end neural combinatorial optimization (NCO) method shows promising performance in solving complex combinatorial optimization problems without the need for expert design. However, existing methods struggle with large-scale problems, hindering their practical applicability. To overcome this limitation, this work proposes a novel Self-Improved Learning (SIL) method for better scalability of neural combinatorial optimization. Specifically, we develop an efficient self-improved mechanism that enables direct model training on large-scale problem instances without any labeled data. Powered by an innovative local reconstruction approach, this method can iteratively generate better solutions by itself as pseudo-labels to guide efficient model training. In addition, we design a linear complexity attention mechanism for the model to efficiently handle large-scale combinatorial problem instances with low computation overhead. Comprehensive experiments on the Travelling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) with up to 100K nodes in both uniform and real-world distributions demonstrate the superior scalability of our method.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# GrINd:散乱観測のためのグリッド補間ネットワーク

GrINd: Grid Interpolation Network for Scattered Observations ( http://arxiv.org/abs/2403.19570v1 )

ライセンス: Link先を確認
Andrzej Dulny, Paul Heinisch, Andreas Hotho, Anna Krause, (参考訳) スパースや散在する観測データから時空間物理系の進化を予測することは、様々な科学的領域において重要な課題である。 従来の手法は密度の高いグリッド構造データに依存しており、スパース観測のシナリオで適用性を制限する。 この課題に対処するため,我々は,分散観測をフーリエ補間層を用いて高分解能グリッドにマッピングすることで,グリッドベースモデルの性能を活用する新しいネットワークアーキテクチャであるGrINd(Grid Interpolation Network for Scattered Observations)を紹介した。 高解像度空間において、NeuralPDEクラスモデルは、微分可能なODEソルバとシステムのダイナミクスをパラメータ化した完全な畳み込みニューラルネットワークを用いて、将来の時点におけるシステムの状態を予測する。 我々は,GrINdをDynaBenchベンチマークデータセット上で実証的に評価し,既存のモデルと比較して6つの物理系を分散した場所で観測した。 GrINdは、スパースで散在する観測データから物理システムを予測し、ディープラーニングメソッドの適用性をデータ可用性に制限のある現実のシナリオに拡張する、有望なアプローチを提供する。

Predicting the evolution of spatiotemporal physical systems from sparse and scattered observational data poses a significant challenge in various scientific domains. Traditional methods rely on dense grid-structured data, limiting their applicability in scenarios with sparse observations. To address this challenge, we introduce GrINd (Grid Interpolation Network for Scattered Observations), a novel network architecture that leverages the high-performance of grid-based models by mapping scattered observations onto a high-resolution grid using a Fourier Interpolation Layer. In the high-resolution space, a NeuralPDE-class model predicts the system's state at future timepoints using differentiable ODE solvers and fully convolutional neural networks parametrizing the system's dynamics. We empirically evaluate GrINd on the DynaBench benchmark dataset, comprising six different physical systems observed at scattered locations, demonstrating its state-of-the-art performance compared to existing models. GrINd offers a promising approach for forecasting physical systems from sparse, scattered observational data, extending the applicability of deep learning methods to real-world scenarios with limited data availability.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# ニューラルネットワークを用いた群の特徴分類

Swarm Characteristics Classification Using Neural Networks ( http://arxiv.org/abs/2403.19572v1 )

ライセンス: Link先を確認
Donald W. Peltier III, Isaac Kaminer, Abram Clark, Marko Orescanin, (参考訳) スワーミング自律エージェントの特徴を理解することは、防衛およびセキュリティアプリケーションにとって重要である。 本稿では、ニューラルネットワーク時系列分類(NN TSC)を用いて、軍事的文脈において自律エージェントをスワーミングする重要な属性と戦術を予測する。 具体的には、NN TSCを使用して、2つのバイナリ属性(通信と比例ナビゲーション)を推論し、相互に排他的な4つのSwarm戦術を定義する。 Swarm 分類におけるNN の使用に関する文献のギャップを同定し,NN TSC の有効性を示す。 シミュレーションしたSwarm-vs-swarmエンゲージメントにより、NN TSCの性能を観測窓の要求、ノイズの堅牢性、Swarmサイズへの拡張性の観点から評価する。 主要な発見は、NNが20ステップの短い観測窓を用いて97%の精度でSwarmの挙動を予測できることを示し、50%のノイズ下で80%の精度で優雅な劣化を示し、また10から100のエージェントのSwarmサイズに優れたスケーラビリティを示す。 これらの機能は、Swarmの振る舞いに関する洞察を素早く推測することで、防衛シナリオにおけるリアルタイムな意思決定支援に期待できる。

Understanding the characteristics of swarming autonomous agents is critical for defense and security applications. This article presents a study on using supervised neural network time series classification (NN TSC) to predict key attributes and tactics of swarming autonomous agents for military contexts. Specifically, NN TSC is applied to infer two binary attributes - communication and proportional navigation - which combine to define four mutually exclusive swarm tactics. We identify a gap in literature on using NNs for swarm classification and demonstrate the effectiveness of NN TSC in rapidly deducing intelligence about attacking swarms to inform counter-maneuvers. Through simulated swarm-vs-swarm engagements, we evaluate NN TSC performance in terms of observation window requirements, noise robustness, and scalability to swarm size. Key findings show NNs can predict swarm behaviors with 97% accuracy using short observation windows of 20 time steps, while also demonstrating graceful degradation down to 80% accuracy under 50% noise, as well as excellent scalability to swarm sizes from 10 to 100 agents. These capabilities are promising for real-time decision-making support in defense scenarios by rapidly inferring insights about swarm behavior.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# 実データにおけるトピックAPIの公開と再現性評価

A Public and Reproducible Assessment of the Topics API on Real Data ( http://arxiv.org/abs/2403.19577v1 )

ライセンス: Link先を確認
Yohan Beugin, Patrick McDaniel, (参考訳) Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。 以前の作業の結果、Googleと研究コミュニティの間で、ユーティリティとプライバシの両方をトレードオフするTopicsの能力に関する議論が続いている。 競合の中心は、これらの分析で使用されるデータセットのリアリズムとその再現性である。少数のユーザサンプルで収集されたデータを使用したり、合成データセットを生成する研究者が、Googleの結果はプライベートデータセットから推測される。 本稿では,リアルタイム閲覧履歴の最大かつ一般公開されたデータセット上で,最新のトピックスAPIの再現可能な評価を行うことにより,先行研究を補完する。 まず、時間とともに実際のユーザの興味がいかにユニークで安定したかを測定する。 そこで,従来のプライバシ研究の方法論を応用して,これらの実際のブラウジングトレースからユーザをフィンガープリントできるかどうかを評価する。 最後に,Webアクターに,匿名分布を公開して再現可能な評価を行うよう呼びかける。 データセット中の1207ユーザーの46%、55%、60%が、広告主によるトピックの観察の後、ウェブサイト間でそれぞれユニークに識別されていることがわかった。 本稿では,Topicsがすべてのユーザに対して同一のプライバシ保証を提供していない実データについて,新たなWeb提案によるクレームのパブリックかつ再現可能な評価の必要性をさらに強調する。

The Topics API for the web is Google's privacy-enhancing alternative to replace third-party cookies. Results of prior work have led to an ongoing discussion between Google and research communities about the capability of Topics to trade off both utility and privacy. The central point of contention is largely around the realism of the datasets used in these analyses and their reproducibility; researchers using data collected on a small sample of users or generating synthetic datasets, while Google's results are inferred from a private dataset. In this paper, we complement prior research by performing a reproducible assessment of the latest version of the Topics API on the largest and publicly available dataset of real browsing histories. First, we measure how unique and stable real users' interests are over time. Then, we evaluate if Topics can be used to fingerprint the users from these real browsing traces by adapting methodologies from prior privacy studies. Finally, we call on web actors to perform and enable reproducible evaluations by releasing anonymized distributions. We find that 46%, 55%, and 60% of the 1207 users in the dataset are uniquely re-identified across websites after only 1, 2, and 3 observations of their topics by advertisers, respectively. This paper shows on real data that Topics does not provide the same privacy guarantees to all users, further highlighting the need for public and reproducible evaluations of the claims made by new web proposals.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# ロボットにおけるインテクストの模倣学習を可能にするKeypoint Action Token

Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics ( http://arxiv.org/abs/2403.19578v1 )

ライセンス: Link先を確認
Norman Di Palo, Edward Johns, (参考訳) 市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクストによる視覚的模倣学習を行い、視覚的な観察をデモの動作を模倣するアクションシーケンスにマッピングできることを実証する。 我々は、視覚的な観察(インプット)と行動(アウトプット)の軌跡を、私たちがKeypoint Action Tokens (KAT)と呼ぶフレームワークを介して、テキストプリトレーニングされたTransformer (GPT-4 Turbo)が取り込み、生成できるトークンのシーケンスに変換することで、これを実現する。 これらのトランスフォーマーは、言語のみに基づいて訓練されているにもかかわらず、トークン化された視覚的キーポイントの観察を行動軌跡に翻訳し、実世界の日常的な一連の作業において、ローデータ体制における最先端の模倣学習(拡散ポリシー)よりも同等かそれ以上に実行できることが示される。 典型的なように言語領域で操作する代わりに、KATはテキストベースのトランスフォーマーを利用して視覚と行動領域で操作し、デモデータの一般的なパターンを学習し、高い効率の模倣学習を行い、実施タスクのために自然言語モデルを再利用するための新たな道を示す。 ビデオはhttps://www.robot-learning.uk/keypoint-action-tokensで公開されている。

We show that off-the-shelf text-based Transformers, with no additional training, can perform few-shot in-context visual imitation learning, mapping visual observations to action sequences that emulate the demonstrator's behaviour. We achieve this by transforming visual observations (inputs) and trajectories of actions (outputs) into sequences of tokens that a text-pretrained Transformer (GPT-4 Turbo) can ingest and generate, via a framework we call Keypoint Action Tokens (KAT). Despite being trained only on language, we show that these Transformers excel at translating tokenised visual keypoint observations into action trajectories, performing on par or better than state-of-the-art imitation learning (diffusion policies) in the low-data regime on a suite of real-world, everyday tasks. Rather than operating in the language domain as is typical, KAT leverages text-based Transformers to operate in the vision and action domains to learn general patterns in demonstration data for highly efficient imitation learning, indicating promising new avenues for repurposing natural language models for embodied tasks. Videos are available at https://www.robot-learning.uk/keypoint-action-tokens.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# 悪いバッチ: 画像分類における自己指導型学習の適応的バッチ・キュレーション

The Bad Batches: Enhancing Self-Supervised Learning in Image Classification Through Representative Batch Curation ( http://arxiv.org/abs/2403.19579v1 )

ライセンス: Link先を確認
Ozgu Goksu, Nicolas Pugeault, (参考訳) 人間の監督なしに堅牢な表現を学ぶことの追求は、長年にわたる課題である。 近年の自己指導型コントラスト学習手法の進歩は,様々な表現学習課題にまたがって高い性能を示した。 しかし、現在の手法は訓練例のランダムな変換に依存しており、結果として、学習に大きな影響を与える非表現的な正のペアがいくつか存在する。 この制限は、学習プロセスの収束を阻害するだけでなく、学習者の表現の堅牢性だけでなく、そのような悪いバッチに対する堅牢性を改善するためにより大きなバッチサイズを必要とします。 本稿では、Fr'echet ResNet Distance (FRD) を用いて、ペアの類似性計算を用いて、偽正負対と偽負対の影響を緩和し、非競合データからロバストな表現を得る。 提案手法の有効性は,STL10では87.74 %,Flower102では99.31 %,自己教師付きコントラスト表現では線形分類器が87.74 %,STL10では99.31 %であった。 これらの結果は, 自己指導型コントラスト学習, 特に画像分類タスクにおいて, 最先端技術の境界を推し進めるアプローチの可能性を強調した。

The pursuit of learning robust representations without human supervision is a longstanding challenge. The recent advancements in self-supervised contrastive learning approaches have demonstrated high performance across various representation learning challenges. However, current methods depend on the random transformation of training examples, resulting in some cases of unrepresentative positive pairs that can have a large impact on learning. This limitation not only impedes the convergence of the learning process but the robustness of the learnt representation as well as requiring larger batch sizes to improve robustness to such bad batches. This paper attempts to alleviate the influence of false positive and false negative pairs by employing pairwise similarity calculations through the Fr\'echet ResNet Distance (FRD), thereby obtaining robust representations from unlabelled data. The effectiveness of the proposed method is substantiated by empirical results, where a linear classifier trained on self-supervised contrastive representations achieved an impressive 87.74\% top-1 accuracy on STL10 and 99.31\% on the Flower102 dataset. These results emphasize the potential of the proposed approach in pushing the boundaries of the state-of-the-art in self-supervised contrastive learning, particularly for image classification tasks.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# OV-Uni3DETR:Cycle-Modality Propagationによる統一オープンボキャブラリ3次元物体検出を目指して

OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation ( http://arxiv.org/abs/2403.19580v1 )

ライセンス: Link先を確認
Zhenyu Wang, Yali Li, Taichi Liu, Hengshuang Zhao, Shengjin Wang, (参考訳) 3Dオブジェクト検出研究の現状では、注釈付き3Dデータの深刻な不足、データモダリティの相違、統一アーキテクチャの欠如が、普遍性の目標に向けた進歩を妨げている。 本稿では,サイクル・モダリティ伝搬によるオープンな3次元検出器であるtextbf{OV-Uni3DETR}を提案する。 既存の3D検出器と比較すると、OV-Uni3DETRには明確な利点がある。 1) オープン語彙の3D検出: トレーニング中は、様々なアクセス可能なデータ、特に広範囲な2D検出画像を活用して、トレーニングの多様性を高める。 推論中は、見えないクラスと見えないクラスの両方を検出することができる。 2)モダリティ統一:任意のモダリティからの入力データをシームレスに許容し、異なるモダリティやセンサ情報の欠如といったシナリオに効果的に対応し、テスト時間モダリティ切替をサポートする。 3)シーン統一:異なるセンサによって収集される多様なシーンに対して、統一されたマルチモーダルモデルアーキテクチャを提供する。 具体的には、上記の機能をサポートするために、2次元および3次元のモダリティをブリッジする知識の伝播を目的としたサイクルモダリティ伝搬を提案する。 大語彙学習からの2D意味知識は、3D領域における新しいクラス発見を導くものであり、3D幾何学的知識は2D検出画像の局所化管理を提供する。 OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6倍以上上回っている。 RGBイメージのみを使用したパフォーマンスは、以前のポイントクラウドベースの方法と同等か、それ以上である。 コードと事前訓練されたモデルは、後にリリースされる。

In the current state of 3D object detection research, the severe scarcity of annotated 3D data, substantial disparities across different data modalities, and the absence of a unified architecture, have impeded the progress towards the goal of universality. In this paper, we propose \textbf{OV-Uni3DETR}, a unified open-vocabulary 3D detector via cycle-modality propagation. Compared with existing 3D detectors, OV-Uni3DETR offers distinct advantages: 1) Open-vocabulary 3D detection: During training, it leverages various accessible data, especially extensive 2D detection images, to boost training diversity. During inference, it can detect both seen and unseen classes. 2) Modality unifying: It seamlessly accommodates input data from any given modality, effectively addressing scenarios involving disparate modalities or missing sensor information, thereby supporting test-time modality switching. 3) Scene unifying: It provides a unified multi-modal model architecture for diverse scenes collected by distinct sensors. Specifically, we propose the cycle-modality propagation, aimed at propagating knowledge bridging 2D and 3D modalities, to support the aforementioned functionalities. 2D semantic knowledge from large-vocabulary learning guides novel class discovery in the 3D domain, and 3D geometric knowledge provides localization supervision for 2D detection images. OV-Uni3DETR achieves the state-of-the-art performance on various scenarios, surpassing existing methods by more than 6\% on average. Its performance using only RGB images is on par with or even surpasses that of previous point cloud based methods. Code and pre-trained models will be released later.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# Img2Loc:多モードファウンデーションモデルと画像ベース検索拡張生成を用いた画像ジオローカライズの再検討

Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation ( http://arxiv.org/abs/2403.19584v1 )

ライセンス: Link先を確認
Zhongliang Zhou, Jielu Zhang, Zihan Guan, Mengxuan Hu, Ni Lao, Lan Mu, Sheng Li, Gengchen Mai, (参考訳) 画像から正確な位置を特定することは、コンピュータビジョンと情報検索において難しい問題であり、一般的には、地球表面をグリッドセルに分割し、それに従って画像を分類する分類法や、画像と位置のペアのデータベースをマッチングして位置を識別する検索法が用いられる。 しかし、分類に基づくアプローチはセルサイズによって制限され、正確な予測は得られないが、検索ベースのシステムは通常、検索品質が悪く、様々なスケールと集約レベルでのグローバルな景観のカバーが不十分である。 これらの欠点を克服するために,テキスト生成タスクとして画像の地理的化を再定義する新しいシステムであるImg2Locを提案する。 これは、GPT4VやLLaVAのような最先端の大規模マルチモダリティモデルを用いて、検索拡張生成によって実現される。 Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。 そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。 Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。

Geolocating precise locations from images presents a challenging problem in computer vision and information retrieval.Traditional methods typically employ either classification, which dividing the Earth surface into grid cells and classifying images accordingly, or retrieval, which identifying locations by matching images with a database of image-location pairs. However, classification-based approaches are limited by the cell size and cannot yield precise predictions, while retrieval-based systems usually suffer from poor search quality and inadequate coverage of the global landscape at varied scale and aggregation levels. To overcome these drawbacks, we present Img2Loc, a novel system that redefines image geolocalization as a text generation task. This is achieved using cutting-edge large multi-modality models like GPT4V or LLaVA with retrieval augmented generation. Img2Loc first employs CLIP-based representations to generate an image-based coordinate query database. It then uniquely combines query results with images itself, forming elaborate prompts customized for LMMs. When tested on benchmark datasets such as Im2GPS3k and YFCC4k, Img2Loc not only surpasses the performance of previous state-of-the-art models but does so without any model training.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# TOGS: リアルタイム4D DSAレンダリングのための時空間オフセット付きガウス撮影

TOGS: Gaussian Splatting with Temporal Opacity Offset for Real-Time 4D DSA Rendering ( http://arxiv.org/abs/2403.19586v1 )

ライセンス: Link先を確認
Shuai Zhang, Huangxuan Zhao, Zhenghong Zhou, Guanjun Wu, Chuansheng Zheng, Xinggang Wang, Wenyu Liu, (参考訳) 4次元デジタルサブトラクション血管造影(4D DSA)は、血管を充填するコントラスト剤の過程で異なる段階と角度で撮影される一連の2D画像を提供する医用イメージング技術である。 脳血管疾患の診断において重要な役割を担っている。 スパースサンプリングにおけるレンダリング品質と速度の向上は,病変の状態と位置を観察する上で重要である。 現在の手法では、スパースビューではレンダリング品質が不十分であり、レンダリング速度の遅さに悩まされている。 これらの制約を克服するために,時間とともに不透明なオフセットを持つガウス分割法であるTOGSを提案し,これにより、4D DSAのレンダリング品質と速度を効果的に向上させることができる。 コントラスト剤の放射率の時間変動をモデル化するために,ガウス毎に不透明オフセットテーブルを導入する。 不透明オフセットテーブルを補間することにより、異なる時点におけるガウスの不透明変動を決定することができる。 これにより、2D DSA画像をその特定の瞬間にレンダリングすることができます。 さらに、損失関数にスムース損失項を導入し、スパースビューのシナリオを扱う際にモデルに生じるような過度な問題を軽減する。 トレーニングフェーズでは,ランダムにガウスをプルーし,モデルの保存オーバーヘッドを低減する。 実験結果から, 従来の手法と比較して, 同数のトレーニングビューにおいて, 最先端の再現性が得られることが示された。 さらに、ストレージオーバーヘッドを低く保ちながらリアルタイムレンダリングを可能にする。 コードは公開されます。

Four-dimensional Digital Subtraction Angiography (4D DSA) is a medical imaging technique that provides a series of 2D images captured at different stages and angles during the process of contrast agent filling blood vessels. It plays a significant role in the diagnosis of cerebrovascular diseases. Improving the rendering quality and speed under sparse sampling is important for observing the status and location of lesions. The current methods exhibit inadequate rendering quality in sparse views and suffer from slow rendering speed. To overcome these limitations, we propose TOGS, a Gaussian splatting method with opacity offset over time, which can effectively improve the rendering quality and speed of 4D DSA. We introduce an opacity offset table for each Gaussian to model the temporal variations in the radiance of the contrast agent. By interpolating the opacity offset table, the opacity variation of the Gaussian at different time points can be determined. This enables us to render the 2D DSA image at that specific moment. Additionally, we introduced a Smooth loss term in the loss function to mitigate overfitting issues that may arise in the model when dealing with sparse view scenarios. During the training phase, we randomly prune Gaussians, thereby reducing the storage overhead of the model. The experimental results demonstrate that compared to previous methods, this model achieves state-of-the-art reconstruction quality under the same number of training views. Additionally, it enables real-time rendering while maintaining low storage overhead. The code will be publicly available.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# 対話型粒子ランゲヴィンアルゴリズムのモデリング -超線形の場合-

Taming the Interactive Particle Langevin Algorithm -- the superlinear case ( http://arxiv.org/abs/2403.19587v1 )

ライセンス: Link先を確認
Tim Johnston, Nikolaos Makras, Sotirios Sabanis, (参考訳) 確率最適化の最近の進歩は、相互作用粒子系(IPS)の概念を活用して、近似した後部密度から効率的にサンプリングする対話粒子ランゲヴィンアルゴリズム(IPLA)を生み出している。 これは予測最大化(EM)の枠組みにおいて特に重要となり、Eステップは計算的に困難か、あるいは難解である。 従来の研究では、ログ密度の勾配が最も直線的に増加する凸ケースを含むシナリオに焦点が当てられていたが、我々の研究は多項式成長を含むようにこの枠組みを拡張した。 テイミング技術は、非線型性の下で新しい種類の安定なアルゴリズムを生成できる明示的な離散化スキームを作成するために用いられ、これは「テーメド・インタラクティブ・パーティクル・ランゲヴィン・アルゴリズム (tIPLA)」と呼ばれる。 We obtain non-asymptotic convergence error estimates in Wasserstein-2 distance for the new class under an optimal rate。

Recent advances in stochastic optimization have yielded the interactive particle Langevin algorithm (IPLA), which leverages the notion of interacting particle systems (IPS) to efficiently sample from approximate posterior densities. This becomes particularly crucial within the framework of Expectation-Maximization (EM), where the E-step is computationally challenging or even intractable. Although prior research has focused on scenarios involving convex cases with gradients of log densities that grow at most linearly, our work extends this framework to include polynomial growth. Taming techniques are employed to produce an explicit discretization scheme that yields a new class of stable, under such non-linearities, algorithms which are called tamed interactive particle Langevin algorithms (tIPLA). We obtain non-asymptotic convergence error estimates in Wasserstein-2 distance for the new class under an optimal rate.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# DenseNetsがリロード:ResNetsとViTsを超えたパラダイムシフト

DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs ( http://arxiv.org/abs/2403.19588v1 )

ライセンス: Link先を確認
Donghyun Kim, Byeongho Heo, Dongyoon Han, (参考訳) 本稿では、Densely Connected Convolutional Networks (DenseNets) を復活させ、主要なResNetスタイルのアーキテクチャに対する過小評価の有効性を明らかにする。 DenseNetsのポテンシャルは、未修正のトレーニングメソッドと従来のデザイン要素が機能を完全に明らかにしていないために見過ごされてしまったと信じています。 我々のパイロット研究は、結合による密接な接続が強く、DenseNetsがモダンなアーキテクチャと競合するために再活性化できることを示しています。 アーキテクチャの調整、ブロックの再設計、DenseNetの拡張とメモリ効率の向上のためのトレーニングレシピの改善など、サブ最適化コンポーネントを体系的に洗練し、短絡を維持しながら、メモリ効率を向上します。 私たちのモデルは、単純なアーキテクチャ要素を採用し、最終的にはSwin Transformer、ConvNeXt、そしてDeiT-III(残余学習系統における重要なアーキテクチャ)を上回ります。 さらに,本モデルでは,最新のモデルや下流タスク,ADE20kセマンティックセマンティックセマンティックセマンティクス,COCOオブジェクト検出/インスタンスセマンティクスと競合するImageNet-1Kの最先端性能を示す。 最後に,付加的なショートカットに対する結合の利点を明らかにする実証分析を行い,DenseNetスタイルの設計に対する新たな好みを定めている。 私たちのコードはhttps://github.com/naver-ai/rdnet.comで公開されています。

This paper revives Densely Connected Convolutional Networks (DenseNets) and reveals the underrated effectiveness over predominant ResNet-style architectures. We believe DenseNets' potential was overlooked due to untouched training methods and traditional design elements not fully revealing their capabilities. Our pilot study shows dense connections through concatenation are strong, demonstrating that DenseNets can be revitalized to compete with modern architectures. We methodically refine suboptimal components - architectural adjustments, block redesign, and improved training recipes towards widening DenseNets and boosting memory efficiency while keeping concatenation shortcuts. Our models, employing simple architectural elements, ultimately surpass Swin Transformer, ConvNeXt, and DeiT-III - key architectures in the residual learning lineage. Furthermore, our models exhibit near state-of-the-art performance on ImageNet-1K, competing with the very recent models and downstream tasks, ADE20k semantic segmentation, and COCO object detection/instance segmentation. Finally, we provide empirical analyses that uncover the merits of the concatenation over additive shortcuts, steering a renewed preference towards DenseNet-style designs. Our code is available at https://github.com/naver-ai/rdnet.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# TOD3Cap:屋外シーンでの3D映像撮影を目指す

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes ( http://arxiv.org/abs/2403.19589v1 )

ライセンス: Link先を確認
Bu Jin, Yupeng Zheng, Pengfei Li, Weize Li, Yuhang Zheng, Sujie Hu, Xinyu Liu, Jinwei Zhu, Zhijie Yan, Haiyang Sun, Kun Zhan, Peng Jia, Xiaoxiao Long, Yilun Chen, Hao Zhao, (参考訳) 3D高密度キャプションは、自然言語による3Dシーンの包括的理解を実現するための基盤となる。 最近、特に屋内で顕著な成果をみせている。 しかし、屋外シーンにおける3次元高密度キャプションの探索は、2つの大きな課題によって妨げられている。 1) ダイナミックスや疎視的入力など,屋内と屋外のシーン間の「textbf{ domain gap}」は,既存の屋内手法を直接適用することが困難である。 2) <textbf{lack of data} には、アウトドアシーン用に特別に調整された包括的なボックスキャプションペアアノテーションが備わっている。 そこで本研究では,屋外3次元高密度キャプションの新たな課題について紹介する。 入力として,パノラマカメラリグで撮影したLiDAR点雲とRGB画像のセットを仮定する。 期待される出力は、キャプション付きのオブジェクトボックスのセットです。 この課題に対処するために,BEV表現を利用してオブジェクトボックスの提案を生成し,リレーショナルQ-FormerとLLaMA-Adapterを統合するTOD3Capネットワークを提案する。 また、850シーンから64.3Kの屋外オブジェクトを2.3M記述したTOD3Capデータセットも導入した。 特に,私たちのTOD3Capネットワークは,屋外シーンにおける3Dオブジェクトのローカライズとキャプションを効果的に行うことができ,ベースライン手法の精度を著しく向上させる(+9.6 CiDEr@0.5IoU)。 コード、データ、モデルはhttps://github.com/jxbbb/TOD3Capで公開されている。

3D dense captioning stands as a cornerstone in achieving a comprehensive understanding of 3D scenes through natural language. It has recently witnessed remarkable achievements, particularly in indoor settings. However, the exploration of 3D dense captioning in outdoor scenes is hindered by two major challenges: 1) the \textbf{domain gap} between indoor and outdoor scenes, such as dynamics and sparse visual inputs, makes it difficult to directly adapt existing indoor methods; 2) the \textbf{lack of data} with comprehensive box-caption pair annotations specifically tailored for outdoor scenes. To this end, we introduce the new task of outdoor 3D dense captioning. As input, we assume a LiDAR point cloud and a set of RGB images captured by the panoramic camera rig. The expected output is a set of object boxes with captions. To tackle this task, we propose the TOD3Cap network, which leverages the BEV representation to generate object box proposals and integrates Relation Q-Former with LLaMA-Adapter to generate rich captions for these objects. We also introduce the TOD3Cap dataset, the largest one to our knowledge for 3D dense captioning in outdoor scenes, which contains 2.3M descriptions of 64.3K outdoor objects from 850 scenes. Notably, our TOD3Cap network can effectively localize and caption 3D objects in outdoor scenes, which outperforms baseline methods by a significant margin (+9.6 CiDEr@0.5IoU). Code, data, and models are publicly available at https://github.com/jxbbb/TOD3Cap.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# 変圧器の非線形動作に対する遺伝的量子化対応近似

Genetic Quantization-Aware Approximation for Non-Linear Operations in Transformers ( http://arxiv.org/abs/2403.19591v1 )

ライセンス: Link先を確認
Pingcheng Dong, Yonghao Tan, Dong Zhang, Tianwei Ni, Xuejiao Liu, Yu Liu, Peng Luo, Luhong Liang, Shih-Yang Liu, Xijie Huang, Huaiyu Zhu, Yun Pan, Fengwei An, Kwang-Ting Cheng, (参考訳) 非線形関数はトランスフォーマーとその軽量な変種で広く使われており、ハードウェアコストは大幅に過小評価される。 従来の最先端の作業では、これらの操作を1次線形近似により最適化し、ルックアップテーブル(LUT)にパラメータを格納するが、その多くはFP/INT 32のような非フレンドリな高精度演算を必要とし、整数のみのINT量子化を考慮しない。 本稿では,量子化認識を用いたパラメータの自動決定が可能な遺伝的LUT近似アルゴリズムGQA-LUTを提案する。 その結果、GQA-LUTは、バニラモデルと線形トランスフォーマーモデルの両方において、難解なセマンティックセグメンテーションタスクにおいて、無視可能な劣化を達成できることを示した。 さらに、提案されたGQA-LUTは、精度の高いFP/INT 32の代替よりも81.3〜81.7%の省電力と79.3~80.2%の省電力を実現するINT8ベースのLUT近似を使用できる。 コードはhttps:// github.com/PingchengDong/GQA-LUT.comで入手できる。

Non-linear functions are prevalent in Transformers and their lightweight variants, incurring substantial and frequently underestimated hardware costs. Previous state-of-the-art works optimize these operations by piece-wise linear approximation and store the parameters in look-up tables (LUT), but most of them require unfriendly high-precision arithmetics such as FP/INT 32 and lack consideration of integer-only INT quantization. This paper proposed a genetic LUT-Approximation algorithm namely GQA-LUT that can automatically determine the parameters with quantization awareness. The results demonstrate that GQA-LUT achieves negligible degradation on the challenging semantic segmentation task for both vanilla and linear Transformer models. Besides, proposed GQA-LUT enables the employment of INT8-based LUT-Approximation that achieves an area savings of 81.3~81.7% and a power reduction of 79.3~80.2% compared to the high-precision FP/INT 32 alternatives. Code is available at https:// github.com/PingchengDong/GQA-LUT.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# ファミリアフレームによるフレーム:ビデオ拡散モデルにおけるレプリケーションの理解

Frame by Familiar Frame: Understanding Replication in Video Diffusion Models ( http://arxiv.org/abs/2403.19593v1 )

ライセンス: Link先を確認
Aimon Rahman, Malsha V. Perera, Vishal M. Patel, (参考訳) 画像生成拡散モデルの運動量に基づいて、ビデオベース拡散モデルへの関心が高まっている。 しかし、ビデオ生成は、その高次元の性質、トレーニングデータの不足、および複雑な時空間的関係により、より大きな課題を生んでいる。 画像生成モデルは、その広範なデータ要求のために、既に計算資源を限界まで歪ませている。 これらのモデルは、トレーニングサンプルから要素を再現する例があり、サンプル複製に関する懸念や法的論争を引き起こしている。 さらに制約のあるデータセットで動作し、空間的および時間的コンテンツの両方を生成するタスクを持つビデオ拡散モデルは、トレーニングセットからサンプルを複製する傾向にある。 問題を複雑にすると、これらのモデルはしばしば、必然的に複製に報いるメトリクスを使って評価される。 本稿では,ビデオ拡散モデルにおけるサンプル複製現象の系統的研究を行う。 本研究では,映像合成のための様々な拡散モデルについて検討し,空間的・時間的コンテンツを非条件・条件的両方のシナリオで再現する傾向を評価する。 我々の研究では、複製につながる可能性が低い戦略を特定します。 さらに,再現性を考慮に入れた新たな評価手法を提案し,モデルがオリジナルコンテンツを生成する能力をより正確に評価する。

Building on the momentum of image generation diffusion models, there is an increasing interest in video-based diffusion models. However, video generation poses greater challenges due to its higher-dimensional nature, the scarcity of training data, and the complex spatiotemporal relationships involved. Image generation models, due to their extensive data requirements, have already strained computational resources to their limits. There have been instances of these models reproducing elements from the training samples, leading to concerns and even legal disputes over sample replication. Video diffusion models, which operate with even more constrained datasets and are tasked with generating both spatial and temporal content, may be more prone to replicating samples from their training sets. Compounding the issue, these models are often evaluated using metrics that inadvertently reward replication. In our paper, we present a systematic investigation into the phenomenon of sample replication in video diffusion models. We scrutinize various recent diffusion models for video synthesis, assessing their tendency to replicate spatial and temporal content in both unconditional and conditional generation scenarios. Our study identifies strategies that are less likely to lead to replication. Furthermore, we propose new evaluation strategies that take replication into account, offering a more accurate measure of a model's ability to generate the original content.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# 運転者中心運転スタイル適応の状況認識

Situation Awareness for Driver-Centric Driving Style Adaptation ( http://arxiv.org/abs/2403.19595v1 )

ライセンス: Link先を確認
Johann Haselberger, Bonifaz Stuhr, Bernhard Schick, Steffen Müller, (参考訳) 乗客の受け入れと信頼を高めるためには、自動運転車の運転スタイルが重要であるという証拠がある。 運転状況は、人間の運転行動に大きな影響を与えている。 しかし、現在の運転スタイルモデルでは、運転環境情報のみを部分的に含み、エージェントと与えられた状況との整合性を制限する。 そこで本研究では,車両データに基づいて事前訓練された視覚特徴エンコーダと,特定の運転者の運転スタイルに適応した運転行動予測器に基づく状況認識型運転スタイルモデルを提案する。 実験の結果,提案手法は静的な運転スタイルを著しく上回り,高い状況クラスタを形成していることがわかった。 さらに、データセットで事前訓練された機能エンコーダは、より正確な運転行動モデリングにつながることがわかりました。 対照的に、異なるデータソースで事前訓練および教師なしのフィーチャーエンコーダは、特定の状況に対する駆動スタイル適応の制約と制御に使用できる、より具体的な状況クラスタに繋がる。 さらに,運転スタイルの適応が反復的に行われている実世界の環境では,MLPに基づく行動予測器は,当初は良好な性能を達成できたが,破滅的な忘れ込みに悩まされていた。 対照的に、状況依存統計に基づく行動予測器は、設計によって連続データストリームから反復的に学習することができる。 実験の結果,視覚的特徴エンコーダには,運転行動予測のための重要な情報が含まれていることがわかった。 このデータセットは、Huggingface.co/datasets/jHaselberger/SADC-Situation-Awareness-for-Driver-Centric-Driving-Style-Adapt ationで公開されている。

There is evidence that the driving style of an autonomous vehicle is important to increase the acceptance and trust of the passengers. The driving situation has been found to have a significant influence on human driving behavior. However, current driving style models only partially incorporate driving environment information, limiting the alignment between an agent and the given situation. Therefore, we propose a situation-aware driving style model based on different visual feature encoders pretrained on fleet data, as well as driving behavior predictors, which are adapted to the driving style of a specific driver. Our experiments show that the proposed method outperforms static driving styles significantly and forms plausible situation clusters. Furthermore, we found that feature encoders pretrained on our dataset lead to more precise driving behavior modeling. In contrast, feature encoders pretrained supervised and unsupervised on different data sources lead to more specific situation clusters, which can be utilized to constrain and control the driving style adaptation for specific situations. Moreover, in a real-world setting, where driving style adaptation is happening iteratively, we found the MLP-based behavior predictors achieve good performance initially but suffer from catastrophic forgetting. In contrast, behavior predictors based on situationdependent statistics can learn iteratively from continuous data streams by design. Overall, our experiments show that important information for driving behavior prediction is contained within the visual feature encoder. The dataset is publicly available at huggingface.co/datasets/jHaselberger/SADC-Situation-Awareness-for-Driver-Centric-Driving-Style-Adapt ation.
翻訳日:2024-03-29 15:24:55 公開日:2024-03-28
# LocCa: ロケーション対応キャプタによるビジュアルプレトレーニング

LocCa: Visual Pretraining with Location-aware Captioners ( http://arxiv.org/abs/2403.19596v1 )

ライセンス: Link先を確認
Bo Wan, Michael Tschannen, Yongqin Xian, Filip Pavetic, Ibrahim Alabdulmohsin, Xiao Wang, André Susano Pinto, Andreas Steiner, Lucas Beyer, Xiaohua Zhai, (参考訳) 画像キャプションは、対照的な事前トレーニングと同様の効果的な事前訓練方法として示されている。 しかし、位置認識情報を視覚前訓練に組み込むことは、限られた研究領域として残されている。 本稿では,位置認識キャプタ(LocCa)を用いた簡易な視覚前訓練法を提案する。 LocCaは単純なイメージキャプタタスクインタフェースを使用して、リッチな情報、すなわち境界ボックス座標、画像ピクセル入力に条件付けされたキャプタなどを読み取るモデルを教える。 エンコーダ・デコーダアーキテクチャのマルチタスク機能により、プレトレーニング中に画像キャプタが容易に複数のタスクを処理できることが示される。 実験の結果,LocCaはダウンストリームタスクのローカライゼーションにおいて標準キャプタよりも優れ,全体的なタスクでは同等のパフォーマンスを維持していることがわかった。

Image captioning has been shown as an effective pretraining method similar to contrastive pretraining. However, the incorporation of location-aware information into visual pretraining remains an area with limited research. In this paper, we propose a simple visual pretraining method with location-aware captioners (LocCa). LocCa uses a simple image captioner task interface, to teach a model to read out rich information, i.e. bounding box coordinates, and captions, conditioned on the image pixel input. Thanks to the multitask capabilities of an encoder-decoder architecture, we show that an image captioner can easily handle multiple tasks during pretraining. Our experiments demonstrate that LocCa outperforms standard captioners significantly on localization downstream tasks while maintaining comparable performance on holistic tasks.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 拡散モデルを用いたクラス間画像混合によるエンハンス画像分類

Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model ( http://arxiv.org/abs/2403.19600v1 )

ライセンス: Link先を確認
Zhicai Wang, Longhui Wei, Tan Wang, Heyu Chen, Yanbin Hao, Xiang Wang, Xiangnan He, Qi Tian, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは、最近強力なツールとして登場し、写真リアリスティックな画像の作成を可能にし、多数のアプリケーションを生み出した。 しかし、T2Iモデルの基本的な画像分類タスクへの効果的な統合は未解決の問題である。 画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。 本研究では,既存のデータ拡張技術の欠点について検討する。 分析の結果、これらの手法は、(前景のオブジェクトの観点から)忠実で(背景のコンテキストにおいて)多様な(背景のコンテキストにおいて)ドメイン固有の概念のイメージを生成するのに苦労していることが判明した。 この課題に対処するために,Diff-Mix(https://github.com/Zhicaiwww/Diff-Mix)と呼ばれる革新的なクラス間データ拡張手法を導入する。 実験の結果、Diff-Mixは忠実度と多様性のバランスが良くなり、ドメイン固有のデータセットに対する少数ショット、従来型、ロングテールの分類を含む多様な画像分類シナリオのパフォーマンスが著しく向上することが示された。

Text-to-image (T2I) generative models have recently emerged as a powerful tool, enabling the creation of photo-realistic images and giving rise to a multitude of applications. However, the effective integration of T2I models into fundamental image classification tasks remains an open question. A prevalent strategy to bolster image classification performance is through augmenting the training set with synthetic images generated by T2I models. In this study, we scrutinize the shortcomings of both current generative and conventional data augmentation techniques. Our analysis reveals that these methods struggle to produce images that are both faithful (in terms of foreground objects) and diverse (in terms of background contexts) for domain-specific concepts. To tackle this challenge, we introduce an innovative inter-class data augmentation method known as Diff-Mix (https://github.com/Zhicaiwww/Diff-Mix), which enriches the dataset by performing image translations between classes. Our empirical results demonstrate that Diff-Mix achieves a better balance between faithfulness and diversity, leading to a marked improvement in performance across diverse image classification scenarios, including few-shot, conventional, and long-tail classifications for domain-specific datasets.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 意味地図に基づくナビゲーション命令の生成

Semantic Map-based Generation of Navigation Instructions ( http://arxiv.org/abs/2403.19603v1 )

ライセンス: Link先を確認
Chengzu Li, Chao Zhang, Simone Teufel, Rama Sanand Doddipatla, Svetlana Stoyanchev, (参考訳) 我々は,ロボットナビゲーションタスクのトレーニング材料として,自力でナビゲーション命令を生成することに興味を持っている。 本稿では,意味マップを視覚入力として用いた画像キャプションタスクとして問題をフレーミングすることで,ナビゲーション命令生成のための新しいアプローチを提案する。 従来のアプローチでは、ナビゲーション命令を生成するために一連のパノラマ画像を使用する。 セマンティックマップは視覚的詳細から抽象化され、複数のパノラマ画像の情報を単一のトップダウン表現に融合することで、入力を処理するのに計算の複雑さを減少させる。 セマンティックマップを用いた命令生成のためのベンチマークデータセットを提案し、初期モデルを提案し、人に対して、生成した命令の質を手動で評価するよう依頼する。 最初の調査では、パノラマ画像のシーケンスではなく、意味マップを命令生成に使用するという有望性を示したが、改善の余地は広い。 データ準備とモデルトレーニングのコードはhttps://github.com/chengzu-li/VLGen.comで公開しています。

We are interested in the generation of navigation instructions, either in their own right or as training material for robotic navigation task. In this paper, we propose a new approach to navigation instruction generation by framing the problem as an image captioning task using semantic maps as visual input. Conventional approaches employ a sequence of panorama images to generate navigation instructions. Semantic maps abstract away from visual details and fuse the information in multiple panorama images into a single top-down representation, thereby reducing computational complexity to process the input. We present a benchmark dataset for instruction generation using semantic maps, propose an initial model and ask human subjects to manually assess the quality of generated instructions. Our initial investigations show promise in using semantic maps for instruction generation instead of a sequence of panorama images, but there is vast scope for improvement. We release the code for data preparation and model training at https://github.com/chengzu-li/VLGen.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 分布自由予測における複数リスク間のデータ適応的トレードオフ

Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction ( http://arxiv.org/abs/2403.19605v1 )

ライセンス: Link先を確認
Drew T. Nguyen, Reese Pathak, Anastasios N. Angelopoulos, Stephen Bates, Michael I. Jordan, (参考訳) 意思決定パイプラインは一般的に、様々なリスク関数間のトレードオフによって特徴づけられる。 このようなトレードオフをデータ順応的に管理することが望ましい場合が多い。 以下に示すように、この方法が素直に行われている場合、最先端の不確実性定量化手法は、想定されるリスク保証に重大な違反をもたらす可能性がある。 この問題に対処するため、しきい値とトレードオフパラメータが適応的に選択された場合のリスクの有効な制御を可能にする手法を開発した。 提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。 提案手法の利点を説明するため,合成データと大規模視覚データセットMS-COCOの数値実験を行った。

Decision-making pipelines are generally characterized by tradeoffs among various risk functions. It is often desirable to manage such tradeoffs in a data-adaptive manner. As we demonstrate, if this is done naively, state-of-the art uncertainty quantification methods can lead to significant violations of putative risk guarantees. To address this issue, we develop methods that permit valid control of risk when threshold and tradeoff parameters are chosen adaptively. Our methodology supports monotone and nearly-monotone risks, but otherwise makes no distributional assumptions. To illustrate the benefits of our approach, we carry out numerical experiments on synthetic data and the large-scale vision dataset MS-COCO.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# SAID-NeRF:透明物体の深さ補完のためのセグメンテーション型NeRF

SAID-NeRF: Segmentation-AIDed NeRF for Depth Completion of Transparent Objects ( http://arxiv.org/abs/2403.19607v1 )

ライセンス: Link先を確認
Avinash Ummadisingu, Jongkeum Choi, Koki Yamane, Shimpei Masuda, Naoki Fukaya, Kuniyuki Takahashi, (参考訳) 市販のRGB-Dカメラを使って透明物体の正確な深度情報を取得することは、コンピュータビジョンとロボティクスにおいてよく知られた課題である。 深さ推定/補完法は通常、シミュレーション、追加センサー、特別なデータ収集設定、既知の3dモデルから取得した品質の深さラベルを持つデータセットで採用・訓練される。 しかし、大規模なデータセットの信頼性の高い深度情報を取得することは簡単ではなく、トレーニングのスケーラビリティと一般化を制限している。 ニューラル・ラジアンス・フィールド(NeRF)は学習のないアプローチであり、新しいビュー合成と形状回復に広く成功している。 しかし、ヒューリスティックスと制御された環境(光、背景など)は、しばしば特定の表面を正確に捉えるために必要である。 本稿では,これらのオブジェクトに対するNeRF再構成プロセスを,セマンティックフィールドと拡張を同時に再構築することで,ロバスト性を高めるため,ゼロショットでラベルのない方法でセグメンテーションを行うためのVisual Foundation Models (VFM) を提案する。 提案手法は,透明物体に対する深度補完データセットとロボットグルーピングにおいて有意な性能を示す。

Acquiring accurate depth information of transparent objects using off-the-shelf RGB-D cameras is a well-known challenge in Computer Vision and Robotics. Depth estimation/completion methods are typically employed and trained on datasets with quality depth labels acquired from either simulation, additional sensors or specialized data collection setups and known 3d models. However, acquiring reliable depth information for datasets at scale is not straightforward, limiting training scalability and generalization. Neural Radiance Fields (NeRFs) are learning-free approaches and have demonstrated wide success in novel view synthesis and shape recovery. However, heuristics and controlled environments (lights, backgrounds, etc) are often required to accurately capture specular surfaces. In this paper, we propose using Visual Foundation Models (VFMs) for segmentation in a zero-shot, label-free way to guide the NeRF reconstruction process for these objects via the simultaneous reconstruction of semantic fields and extensions to increase robustness. Our proposed method Segmentation-AIDed NeRF (SAID-NeRF) shows significant performance on depth completion datasets for transparent objects and robotic grasping.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 絡み合い理論におけるマジックによる計算的分離

Magic-induced computational separation in entanglement theory ( http://arxiv.org/abs/2403.19610v1 )

ライセンス: Link先を確認
Andi Gu, Salvatore F. E. Oliviero, Lorenzo Leone, (参考訳) 絡み合いは量子情報理論の基本的な柱として機能し、古典的なものと量子的なものの境界を規定する。 一般的な仮定は、高い絡み合いはより大きな「量子性」に対応するというものである。 しかし、この民間信仰は、クリフォード回路のような古典的にシミュレート可能な操作が、非常に絡み合った状態を作り出すことができるという事実に挑戦されている。 これらの状態のシミュラビリティは、次のような疑問を提起する: 「低魔術的な」絡み合いと「高魔術的な」絡み合いの違いは何か? 本論では, 絡み合い理論における魔法の役割について, 厳密な調査を行い, この疑問に答える。 我々は, この関係を理解するために, 絡み合い推定, 蒸留, 希釈などのタスクを研究している。 このアプローチは、魔法が絡み合うのに驚くほど強い意味を持つことを示している。 具体的には、ヒルベルト空間をエンタングルメント支配(ED)相とマジック支配(MD)相の2つの異なる位相に分割するシャープな操作的分離を見出した。 大まかに言えば、ED状態は彼らの魔法をはるかに上回る絡み合いを持ち、MD状態は彼らの絡み合いを支配する魔法を持っている。 これら2つの相における2つのリソース間の競合は、それらの間の計算位相の分離を誘導する: ED状態のほとんど全ての絡み合うタスクに対してサンプルと時間効率の量子アルゴリズムが存在するが、これらのタスクは、MD相において、確実に計算的に引き出すことができる。 絡み合い理論を超越した結果の力を示すために,多体物理学および位相誤差補正における研究結果の関連性を強調した。 さらに, ED-MD相を用いた過去の数値実験で得られた現象学的観察について, 簡単な理論的説明を行う。

Entanglement serves as a foundational pillar in quantum information theory, delineating the boundary between what is classical and what is quantum. The common assumption is that higher entanglement corresponds to a greater degree of 'quantumness'. However, this folk belief is challenged by the fact that classically simulable operations, such as Clifford circuits, can create highly entangled states. The simulability of these states raises a question: what are the differences between 'low-magic' entanglement, and 'high-magic' entanglement? We answer this question in this work with a rigorous investigation into the role of magic in entanglement theory. We take an operational approach to understanding this relationship by studying tasks such as entanglement estimation, distillation and dilution. This approach reveals that magic has surprisingly strong implications for entanglement. Specifically, we find a sharp operational separation that splits Hilbert space into two distinct phases: the entanglement-dominated (ED) phase and magic-dominated (MD) phase. Roughly speaking, ED states have entanglement that significantly surpasses their magic, while MD states have magic that dominates their entanglement. The competition between the two resources in these two phases induces a computational phase separation between them: there are sample- and time-efficient quantum algorithms for almost any entanglement task on ED states, while these tasks are provably computationally intractable in the MD phase. To demonstrate the power of our results beyond entanglement theory, we highlight the relevance of our findings in many-body physics and topological error correction. Additionally, we offer simple theoretical explanations for phenomenological observations made in previous numerical studies using ED-MD phases.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 古典的イメージアップサンプリングのための最も近い隣の古典化

Nearest Neighbor Classication for Classical Image Upsampling ( http://arxiv.org/abs/2403.19611v1 )

ライセンス: Link先を確認
Evan Matthews, Nicolas Prate, (参考訳) 画像の形式で順序付けられたピクセルデータの集合が与えられた場合、我々のゴールは、何らかの要因によって結果の解像度が向上し、最終的な結果が人間のテストに合格し、画像に新しく、信頼性があり、現実的な情報と詳細を加えて、アップスケーリングの時間的複雑さは、失われたアップスケーリング実装に比較的近い、というように、データのアップサンプリングを行うことである。

Given a set of ordered pixel data in the form of an image, our goal is to perform upsampling on the data such that: the resulting resolution is improved by some factor, the final result passes the human test, having added new, believable, and realistic information and detail to the image, the time complexity for upscaling is relatively close to that of lossy upscaling implementations.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# ILPO-NET:3次元における任意の体積パターンの不変認識のためのネットワーク

ILPO-NET: Network for the invariant recognition of arbitrary volumetric patterns in 3D ( http://arxiv.org/abs/2403.19612v1 )

ライセンス: Link先を確認
Dmitrii Zhemchuzhnikov, Sergei Grudinin, (参考訳) 空間パターンの効果的な認識とそれらの階層の学習は、現代の空間データ分析において不可欠である。 ボリュームデータアプリケーションは、シフトだけでなく、パターンの回転にも不変性を保証する技術を模索している。 従来の方法では翻訳的不変性は容易に達成できるが、回転的不変性には複数の課題があり、研究の活発な領域として残っている。 本稿では、Wigner行列拡張を用いた局所的な空間パターン配向に本質的に不変な畳み込み操作で任意の形状のパターンを扱う新しいアプローチであるILPO-Net(Invariant to Local Patterns Orientation Network)を提案する。 我々のアーキテクチャは新たな畳み込み演算子をシームレスに統合し、MedMNISTやCATHといった多様なボリュームデータセットをベンチマークすると、パラメータ数を大幅に削減したベースラインよりも優れた性能を示し、MedMNISTの1000倍も少ない。 これらの実証の他に、ILPO-Netの回転不変性は、複数の分野にわたる他のアプリケーションへの道を開く。 私たちのコードはhttps://gricad-gitlab.univ-grenoble-alpes.fr/GruLab/ILPONetで公開されています。

Effective recognition of spatial patterns and learning their hierarchy is crucial in modern spatial data analysis. Volumetric data applications seek techniques ensuring invariance not only to shifts but also to pattern rotations. While traditional methods can readily achieve translational invariance, rotational invariance possesses multiple challenges and remains an active area of research. Here, we present ILPO-Net (Invariant to Local Patterns Orientation Network), a novel approach that handles arbitrarily shaped patterns with the convolutional operation inherently invariant to local spatial pattern orientations using the Wigner matrix expansions. Our architecture seamlessly integrates the new convolution operator and, when benchmarked on diverse volumetric datasets such as MedMNIST and CATH, demonstrates superior performance over the baselines with significantly reduced parameter counts - up to 1000 times fewer in the case of MedMNIST. Beyond these demonstrations, ILPO-Net's rotational invariance paves the way for other applications across multiple disciplines. Our code is publicly available at https://gricad-gitlab.univ-grenoble-alpes.fr/GruLab/ILPONet.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 30kV電子ビームリソグラフィーにおけるジョセフソン接合の最適再現性:後方散乱電子分布の解析

Optimizing Josephson Junction Reproducibility in 30 kV E-beam Lithography: Analysis of Backscattered Electron Distribution ( http://arxiv.org/abs/2403.19614v1 )

ライセンス: Link先を確認
A. M. Rebello, L. M. Ruela, G. Moreto, N. Y. Klein, E. Martins, I. S. Oliveira, F. Rouxinol, J. P. Sinnecker, (参考訳) 本稿では,超伝導量子技術において重要な要素であるジョセフソン接合の再現性を高める手法を,30kVの電子ビームプロセスでドラン法を用いて検討する。 本研究は,橋梁周辺の線量分布が再現性に及ぼす影響について検討し,製造感度に関する課題に対処する。 Eビームリソグラフィー(E-beam lithography)や電子軌道シミュレーション(Electron trajectory Simulation)は、後方散乱電子の挙動に光を遮蔽する。 本研究は, 接合部における線量分布の均質化により, 再現性を著しく向上することを明らかにするものである。

This paper explores methods to enhance the reproducibility of Josephson junctions, crucial elements in superconducting quantum technologies, when employing the Dolan technique in 30 kV e-beam processes. The study explores the influence of dose distribution along the bridge area on reproducibility, addressing challenges related to fabrication sensitivity. Experimental methods include E-beam lithography, with electron trajectory simulations shedding light on backscattered electron behavior. We demonstrate the fabrication of different junction geometries, revealing that some geometries significantly improve reproducibility by resulting in a more homogeneous dose distribution over the junction area.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# SA-GS: トレーニングフリーアンチエイリアスのためのスケール適応型ガウススプラッティング

SA-GS: Scale-Adaptive Gaussian Splatting for Training-Free Anti-Aliasing ( http://arxiv.org/abs/2403.19615v1 )

ライセンス: Link先を確認
Xiaowei Song, Jv Zheng, Shiran Yuan, Huan-ang Gao, Jingwei Zhao, Xiang He, Weihao Gu, Hao Zhao, (参考訳) 本稿では,アンチエイリアス・ガウス・スティング(SA-GS)のためのスケール適応手法を提案する。 最先端の手法であるMip-Splattingではガウススプラッティングの訓練手順を変更する必要があるが,本手法はテスト時に機能し,訓練は不要である。 具体的には、SA-GSを任意の事前訓練されたガウススプラッティングフィールドにプラグインとして適用して、フィールドのアンチサーシング性能を著しく改善することができる。 コアとなる手法は、テスト時間中に各ガウスに2次元スケール適応フィルタを適用することである。 Mip-Splatting が指摘しているように、異なる周波数でガウスの観測は、訓練と試験の間にガウスのスケールのミスマッチを引き起こす。 Mip-Splattingは3Dスムーシングと2D Mipフィルタを使ってこの問題を解決する。 本研究では,テスト周波数を知らせる2次元スケール適応フィルタがガウススケールと効果的に一致しうることを示す。 スケール不整合がなくなると、従来のジャグネスによるシーン周波数よりもサンプリングレートが小さくなり、テスト中の各画素に投影された2Dガウスアンを統合することを提案する。 この統合は実際にはスーパーサンプリングの制限ケースであり、バニラ・ガウシアン・スプラッティングに対するアンチエイリアス性能を大幅に改善する。 様々な設定と境界と非境界の両方を用いた広範囲な実験を通して、SA-GS は Mip-Splatting よりも相容れない性能を示す。 スーパーサンプリングと統合は、我々のスケール適応フィルタリングがアクティブになったときにのみ有効である。 私たちのコード、データ、モデルはhttps://github.com/zsy 1987/SA-GS.comで公開されています。

In this paper, we present a Scale-adaptive method for Anti-aliasing Gaussian Splatting (SA-GS). While the state-of-the-art method Mip-Splatting needs modifying the training procedure of Gaussian splatting, our method functions at test-time and is training-free. Specifically, SA-GS can be applied to any pretrained Gaussian splatting field as a plugin to significantly improve the field's anti-alising performance. The core technique is to apply 2D scale-adaptive filters to each Gaussian during test time. As pointed out by Mip-Splatting, observing Gaussians at different frequencies leads to mismatches between the Gaussian scales during training and testing. Mip-Splatting resolves this issue using 3D smoothing and 2D Mip filters, which are unfortunately not aware of testing frequency. In this work, we show that a 2D scale-adaptive filter that is informed of testing frequency can effectively match the Gaussian scale, thus making the Gaussian primitive distribution remain consistent across different testing frequencies. When scale inconsistency is eliminated, sampling rates smaller than the scene frequency result in conventional jaggedness, and we propose to integrate the projected 2D Gaussian within each pixel during testing. This integration is actually a limiting case of super-sampling, which significantly improves anti-aliasing performance over vanilla Gaussian Splatting. Through extensive experiments using various settings and both bounded and unbounded scenes, we show SA-GS performs comparably with or better than Mip-Splatting. Note that super-sampling and integration are only effective when our scale-adaptive filtering is activated. Our codes, data and models are available at https://github.com/zsy1987/SA-GS.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 深部生成モデルの潜在空間における芸術の協調的相互進化

Collaborative Interactive Evolution of Art in the Latent Space of Deep Generative Models ( http://arxiv.org/abs/2403.19620v1 )

ライセンス: Link先を確認
Ole Hall, Anil Yaman, (参考訳) GAN(Generative Adversarial Networks)は,高品質な画像を生成する上で大きな成功を収めている。 しかしながら、画像生成プロセスは通常、学習されたアート表現の潜在空間からのサンプリングを伴い、出力をほとんど制御できない。 本研究では,まず,Creative Adversarial Networks (CANs) と呼ばれるアーキテクチャを用いて,創造的なイメージを生成するために訓練されたGANを用いて,モデルの潜在空間内をナビゲートして画像を発見する進化的アプローチを採用する。 我々は、自動的美学と協調的対話的人間評価指標を用いて、生成された画像を評価する。 対話型評価では,複数参加者の評価に基づく協調的評価を提案する。 さらに,美的尺度に基づく局所探索により画像の品質向上を図る知的突然変異演算子についても実験を行った。 自動的・協調的対話的進化の結果を比較することにより,本手法の有効性を評価する。 提案手法は,人間の協調的フィードバックによって進化が導かれると,非常に魅力的なアートイメージを生成できることを示す。

Generative Adversarial Networks (GANs) have shown great success in generating high quality images and are thus used as one of the main approaches to generate art images. However, usually the image generation process involves sampling from the latent space of the learned art representations, allowing little control over the output. In this work, we first employ GANs that are trained to produce creative images using an architecture known as Creative Adversarial Networks (CANs), then, we employ an evolutionary approach to navigate within the latent space of the models to discover images. We use automatic aesthetic and collaborative interactive human evaluation metrics to assess the generated images. In the human interactive evaluation case, we propose a collaborative evaluation based on the assessments of several participants. Furthermore, we also experiment with an intelligent mutation operator that aims to improve the quality of the images through local search based on an aesthetic measure. We evaluate the effectiveness of this approach by comparing the results produced by the automatic and collaborative interactive evolution. The results show that the proposed approach can generate highly attractive art images when the evolution is guided by collaborative human feedback.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# RH20T-P:構成可能な一般化エージェントに向けた原始レベルロボットデータセット

RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents ( http://arxiv.org/abs/2403.19622v1 )

ライセンス: Link先を確認
Zeren Chen, Zhelun Shi, Xiaoya Lu, Lehan He, Sucheng Qian, Hao Shu Fang, Zhenfei Yin, Wanli Ouyang, Jing Shao, Yu Qiao, Cewu Lu, Lu Sheng, (参考訳) ロボット学習の究極的な目標は、トレーニングディストリビューション内で見られるスキルと、新しい環境で見えないスキルの両方を実行することができる包括的で一般化可能なロボットシステムを取得することである。 言語モデルを高レベルプランナーとして活用する最近の進歩は、それらをプリミティブレベルプランに分解することで、タスクの複雑さを低減できることを示しており、新しいロボットタスクを構成可能な方法で一般化することができる。 将来性があるにもかかわらず、コミュニティはまだ構成可能な一般化エージェントに十分な準備をしていない。 本稿では,44の多様な複雑なロボットタスクをカバーする約33,000のビデオクリップを含む,原始レベルのロボットデータセットRH20T-Pを提案する。 各クリップは、精巧に設計された原始的なスキルのセットに従って手動でアノテートされ、構成可能な一般化エージェントの開発を後押しする。 RH20T-Pの有効性を検証するため、RA-Pと呼ばれるRH20T-Pに基づく潜在的でスケーラブルなエージェントを構築した。 タスク分解と動作計画に特化した2つのプランナーを備えるRA-Pは、構成可能な一般化により、新しい物理スキルに適応することができる。 私たちのWebサイトとビデオはhttps://sites.google.com/view/rh20t-primitive/main.comにある。 データセットとコードはまもなく利用可能になる。

The ultimate goals of robotic learning is to acquire a comprehensive and generalizable robotic system capable of performing both seen skills within the training distribution and unseen skills in novel environments. Recent progress in utilizing language models as high-level planners has demonstrated that the complexity of tasks can be reduced through decomposing them into primitive-level plans, making it possible to generalize on novel robotic tasks in a composable manner. Despite the promising future, the community is not yet adequately prepared for composable generalization agents, particularly due to the lack of primitive-level real-world robotic datasets. In this paper, we propose a primitive-level robotic dataset, namely RH20T-P, which contains about 33000 video clips covering 44 diverse and complicated robotic tasks. Each clip is manually annotated according to a set of meticulously designed primitive skills, facilitating the future development of composable generalization agents. To validate the effectiveness of RH20T-P, we also construct a potential and scalable agent based on RH20T-P, called RA-P. Equipped with two planners specialized in task decomposition and motion planning, RA-P can adapt to novel physical skills through composable generalization. Our website and videos can be found at https://sites.google.com/view/rh20t-primitive/main. Dataset and code will be made available soon.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# トップ$kの分類と心磁図の予測

Top-$k$ Classification and Cardinality-Aware Prediction ( http://arxiv.org/abs/2403.19625v1 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong, (参考訳) 単クラス予測を超越して、入力に対して最も確率の高いクラスを$k$で予測するタスクである、トップ$k$分類に関する詳細な研究を示す。 我々は, comp-sumや制約付き損失などの多クラス分類において, 有意な代理損失関数が, 上位の$k$損失に関して$H$一貫性境界によって支持されることを実証した。 これらの境界は、仮説セットの$H$に関して一貫性を保証し、非漸近的で仮説セットの特定の性質のため、ベイズ整合性よりも強い保証を提供する。 精度と基数$k$のトレードオフに対処するために、インスタンス依存のコスト依存学習を通じて、基数認識損失関数を導入する。 これらの機能に対して、コスト感受性のcomp-sumと制約付きサロゲート損失を導出し、それらの$H$一貫性境界とベイズ一貫性を確立する。 これらの損失を最小限に抑えることで、トップ$kの分類のための新しい濃度認識アルゴリズムが生まれる。 CIFAR-100, ImageNet, CIFAR-10, SVHNデータセットの広範な実験結果について報告する。

We present a detailed study of top-$k$ classification, the task of predicting the $k$ most probable classes for an input, extending beyond single-class prediction. We demonstrate that several prevalent surrogate loss functions in multi-class classification, such as comp-sum and constrained losses, are supported by $H$-consistency bounds with respect to the top-$k$ loss. These bounds guarantee consistency in relation to the hypothesis set $H$, providing stronger guarantees than Bayes-consistency due to their non-asymptotic and hypothesis-set specific nature. To address the trade-off between accuracy and cardinality $k$, we further introduce cardinality-aware loss functions through instance-dependent cost-sensitive learning. For these functions, we derive cost-sensitive comp-sum and constrained surrogate losses, establishing their $H$-consistency bounds and Bayes-consistency. Minimizing these losses leads to new cardinality-aware algorithms for top-$k$ classification. We report the results of extensive experiments on CIFAR-100, ImageNet, CIFAR-10, and SVHN datasets demonstrating the effectiveness and benefit of these algorithms.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# ペアワイズ選好比較によるメトリックラーニング

Metric Learning from Limited Pairwise Preference Comparisons ( http://arxiv.org/abs/2403.19629v1 )

ライセンス: Link先を確認
Zhi Wang, Geelon So, Ramya Korlakai Vinayak, (参考訳) 理想点モデルに基づく選好比較からメートル法学習について検討し、潜在する理想点に近ければ、ある項目を他の項目よりも好んで選択する。 これらのアイテムは、ユーザ間で共有される未知のマハラノビス距離を備えた$\mathbb{R}^d$に埋め込まれる。 最近の研究は、$\mathcal{O}(d)$ペアワイズの比較を1人あたり$\mathcal{O}(d)$で同時に回収できることを示しているが、実際には$o(d)$比較の限られた予算を持つことが多い。 個人理想の項目を学習することはもはや不可能であるにもかかわらず、この指標が依然として回復可能であるかどうかを考察する。 一般に、$o(d)$比較は、無限に多くのユーザでさえ、計量に関する情報を示さないことを示す。 しかし、低次元構造を示す項目を比較した場合、各利用者は低次元部分空間に制限された計量を学習して、計量を共同で識別することができる。 そこで本稿では,この問題を解決し,理論的回復保証と実証的検証を提供する。

We study metric learning from preference comparisons under the ideal point model, in which a user prefers an item over another if it is closer to their latent ideal item. These items are embedded into $\mathbb{R}^d$ equipped with an unknown Mahalanobis distance shared across users. While recent work shows that it is possible to simultaneously recover the metric and ideal items given $\mathcal{O}(d)$ pairwise comparisons per user, in practice we often have a limited budget of $o(d)$ comparisons. We study whether the metric can still be recovered, even though it is known that learning individual ideal items is now no longer possible. We show that in general, $o(d)$ comparisons reveals no information about the metric, even with infinitely many users. However, when comparisons are made over items that exhibit low-dimensional structure, each user can contribute to learning the metric restricted to a low-dimensional subspace so that the metric can be jointly identified. We present a divide-and-conquer approach that achieves this, and provide theoretical recovery guarantees and empirical validation.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# 言語モデルにおける複数ホップ質問応答のための検索強化知識編集

Retrieval-Enhanced Knowledge Editing for Multi-Hop Question Answering in Language Models ( http://arxiv.org/abs/2403.19631v1 )

ライセンス: Link先を確認
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu, (参考訳) 大規模言語モデル(LLM)は、質問に答えるタスクの習熟度を示すが、しばしばリアルタイムの知識更新の統合に苦慮している。 LLMに質問に関連する複数の知識部分の更新と統合を要求するため、マルチホップ問題を扱う場合、この問題はさらに難しくなる。 この問題を解決するために,マルチホップ質問応答に適したRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。 RAEはまず編集された事実を検索し、その後コンテキスト内学習を通じて言語モデルを洗練する。 具体的には、相互情報の最大化に基づく検索手法では、LLMの推論能力を利用して、na\\ 類似性に基づく検索が見逃しかねない連鎖事実を識別する。 さらに,収集した事実から余分な情報を排除し,その編集精度を高め,幻覚を緩和するプルーニング戦略を取り入れた。 我々の枠組みは, その事実検索の有効性に関する理論的正当性によって支えられている。 最後に、様々な LLM の総合的な評価は、RAE が更新された知識で正確な回答を提供する能力を検証する。

Large Language Models (LLMs) have shown proficiency in question-answering tasks but often struggle to integrate real-time knowledge updates, leading to potentially outdated or inaccurate responses. This problem becomes even more challenging when dealing with multi-hop questions since they require LLMs to update and integrate multiple knowledge pieces relevant to the questions. To tackle the problem, we propose the Retrieval-Augmented model Editing (RAE) framework tailored for multi-hop question answering. RAE first retrieves edited facts and then refines the language model through in-context learning. Specifically, our retrieval approach, based on mutual information maximization, leverages the reasoning abilities of LLMs to identify chain facts that na\"ive similarity-based searches might miss. Additionally, our framework incorporates a pruning strategy to eliminate redundant information from the retrieved facts, which enhances the editing accuracy and mitigates the hallucination problem. Our framework is supported by theoretical justification for its fact retrieval efficacy. Finally, comprehensive evaluation across various LLMs validates RAE's ability in providing accurate answers with updated knowledge.
翻訳日:2024-03-29 15:14:42 公開日:2024-03-28
# GauStudio: 3Dガウス平滑化と超越化のためのモジュラーフレームワーク

GauStudio: A Modular Framework for 3D Gaussian Splatting and Beyond ( http://arxiv.org/abs/2403.19632v1 )

ライセンス: Link先を確認
Chongjie Ye, Yinyu Nie, Jiahao Chang, Yuantao Chen, Yihao Zhi, Xiaoguang Han, (参考訳) GauStudioは3D Gaussian Splatting(3DGS)をモデリングするための新しいモジュラーフレームワークであり、ユーザが3DGSパイプラインを簡単にカスタマイズおよび実装できるように標準化されたプラグイン・アンド・プレイコンポーネントを提供する。 提案手法は,フォアグラウンドとスカイボールの背景モデルを用いたハイブリッドガウス表現を提案する。 実験では、この表現は、無制限の屋外シーンにおけるアーティファクトを減少させ、新しいビュー合成を改善する。 最後に,3DGS入力からの高忠実度メッシュ再構成を微調整なしで実現する新しいレンダリング・テーマ・フューズ手法であるGaussian Splatting Surface Reconstruction (GauS)を提案する。 全体として、GauStudioフレームワーク、ハイブリッド表現、およびGauSアプローチは、3DGSモデリングとレンダリング機能を強化し、高品質な新規ビュー合成と表面再構成を可能にした。

We present GauStudio, a novel modular framework for modeling 3D Gaussian Splatting (3DGS) to provide standardized, plug-and-play components for users to easily customize and implement a 3DGS pipeline. Supported by our framework, we propose a hybrid Gaussian representation with foreground and skyball background models. Experiments demonstrate this representation reduces artifacts in unbounded outdoor scenes and improves novel view synthesis. Finally, we propose Gaussian Splatting Surface Reconstruction (GauS), a novel render-then-fuse approach for high-fidelity mesh reconstruction from 3DGS inputs without fine-tuning. Overall, our GauStudio framework, hybrid representation, and GauS approach enhance 3DGS modeling and rendering capabilities, enabling higher-quality novel view synthesis and surface reconstruction.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# 非対称およびトライアル依存モデリング--IAのSdSVチャレンジ2への貢献

Asymmetric and trial-dependent modeling: the contribution of LIA to SdSV Challenge Task 2 ( http://arxiv.org/abs/2403.19634v1 )

ライセンス: Link先を確認
Pierre-Michel Bousquet, Mickael Rouvier, (参考訳) SdSvチャレンジタスク2は、現代のテキストに依存しない話者認証システムの効率性と堅牢性を評価する機会を提供する。 しかし、この課題の主な問題(デュース、言語、...)を考慮して、新しいアプローチをテストすることも可能になった。 本稿では,実験室の話者認識分野への貢献について述べる。 これらのコントリビューションは、短期勤務と言語に加えて、登録データとテストデータのミスマッチと、評価トライアルデータセットのサブセット間のミスマッチという2つの課題を強調している。 提案手法は,SdSv評価におけるそれらの妥当性と効率を実験的に示し,多くの実生活応用に注目する可能性がある。

The SdSv challenge Task 2 provided an opportunity to assess efficiency and robustness of modern text-independent speaker verification systems. But it also made it possible to test new approaches, capable of taking into account the main issues of this challenge (duration, language, ...). This paper describes the contributions of our laboratory to the speaker recognition field. These contributions highlight two other challenges in addition to short-duration and language: the mismatch between enrollment and test data and the one between subsets of the evaluation trial dataset. The proposed approaches experimentally show their relevance and efficiency on the SdSv evaluation, and could be of interest in many real-life applications.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# コヒーレント軟X線の位相整合生成

Phase-Matched Generation of Coherent Soft-X-Rays ( http://arxiv.org/abs/2403.19636v1 )

ライセンス: Link先を確認
Andy Rundquist, Charles G. Durfee III, Zenghu Chang, Catherine Herne, Sterling Backus, Margaret M. Murnane, Henry C. Kapteyn, (参考訳) 可視光の軟X線への位相整合高調波変換を実証した。 最近開発された誘導波周波数変換技術は、800ナノメートルから17ナノメートルから32ナノメートルの範囲への光のアップシフトに使われた。 このプロセスは, 非相整合の場合と比較して10^2から10^3の因子によるコヒーレントX線出力を増加させた。 この光源は、小型(サブミリジュール)の高繰り返しレートレーザーを使用し、線形および非線形X線科学における様々な新しい実験的研究を可能にする。

Phase-matched harmonic conversion of visible laser light into soft x-rays was demonstrated. The recently developed technique of guided-wave frequency conversion was used to upshift light from 800 nanometers to the range from 17 to 32 nanometers. This process increased the coherent x-ray output by factors of 10^2 to 10^3 compared to the non-phase-matched case. This source uses a small-scale (sub-millijoule) high repetition-rate laser and will enable a wide variety of new experimental investigations in linear and nonlinear x-ray science.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# Siamese Vision Transformersはスケーラブルなオーディオ視覚学習者

Siamese Vision Transformers are Scalable Audio-visual Learners ( http://arxiv.org/abs/2403.19638v1 )

ライセンス: Link先を確認
Yan-Bo Lin, Gedas Bertasius, (参考訳) 従来のオーディオ-視覚的手法は、費用がかかりスケーラブルではない独立したオーディオと視覚のバックボーンに依存している。 本研究では,AVSiam(Audio-visual siamese Network)を用いて,効率よくスケーラブルな視覚前訓練を行う。 我々のフレームワークは、単一の共有視覚変換器のバックボーンを使用してオーディオと視覚入力を処理し、パラメータ効率を改善し、GPUメモリのフットプリントを削減し、我々のメソッドをより大きなデータセットやモデルサイズにスケールできるようにする。 我々は,マルチ比のランダムマスキング方式を用いて,コントラッシブな音声視覚マッチング目標を用いて事前学習を行い,より大規模な音声視覚インスタンスバッチを処理し,コントラッシブな学習に役立てる。 従来の音声・視覚的手法とは異なり、この手法は単一の共有VTバックボーンで音声・視覚・音声・視覚的入力を頑健に処理できる。 さらに、AVSiamは、両モードで共有バックボーンを使用するが、オーディオ-視覚的分類と検索のための従来のAudioSetやVGGSoundの手法よりも、競合的、さらに優れた結果が得られる。 私たちのコードはhttps://github.com/ GenjiB/AVSiamで利用可能です。

Traditional audio-visual methods rely on independent audio and visual backbones, which is costly and not scalable. In this work, we investigate using an audio-visual siamese network (AVSiam) for efficient and scalable audio-visual pretraining. Our framework uses a single shared vision transformer backbone to process audio and visual inputs, improving its parameter efficiency, reducing the GPU memory footprint, and allowing us to scale our method to larger datasets and model sizes. We pretrain our model using a contrastive audio-visual matching objective with a multi-ratio random masking scheme, which enables our model to process larger audio-visual instance batches, helpful for contrastive learning. Unlike prior audio-visual methods, our method can robustly handle audio, visual, and audio-visual inputs with a single shared ViT backbone. Furthermore, despite using the shared backbone for both modalities, AVSiam achieves competitive or even better results than prior methods on AudioSet and VGGSound for audio-visual classification and retrieval. Our code is available at https://github.com/GenjiB/AVSiam
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# ほぼ全ての量子チャネルが対角化可能

Almost All Quantum Channels Are Diagonalizable ( http://arxiv.org/abs/2403.19643v1 )

ライセンス: Link先を確認
Frederik vom Ende, (参考訳) すべての量子チャネル、ユニタリチャネル、正のトレース保存写像、リンドブラディアン(GKSL生成子)、およびすべての時間依存マルコフチャネルを含む。 したがって、これらの集合の任意の元は、常に同じ集合の対角化可能な元を任意の精度で近似することができる。

We prove the statement "The collection of all elements of $\mathcal S$ which have only simple eigenvalues is dense in $\mathcal S$" for different sets $\mathcal S$, including: all quantum channels, the unital channels, the positive trace-preserving maps, all Lindbladians (GKSL-generators), and all time-dependent Markovian channels. Therefore any element from each of these sets can always be approximated by diagonalizable elements of the same set to arbitrary precision.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# GANTASTIC:テキストと画像の拡散モデルにおける遠交画像編集のためのGANに基づく解釈方向の転送

GANTASTIC: GAN-based Transfer of Interpretable Directions for Disentangled Image Editing in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2403.19645v1 )

ライセンス: Link先を確認
Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag, (参考訳) 画像生成モデルの急速な進歩は、主に拡散モデルによって推進され、テキストのプロンプトから高忠実で多様な画像を生成するのに相容れない成功を示している。 その成功にもかかわらず、拡散モデルは画像編集の領域において重大な課題に直面する。 対照的に、GAN(Generative Adversarial Networks)は、解釈可能な潜在空間を通したアンタングル編集の成功によって認識されている。 本稿では,GANTASTICについて紹介する。GANTASTICは,事前学習したGANモデルから既存の方向を抽出するフレームワークで,特定の制御可能な属性を表現し,これらの方向を拡散モデルに転送する。 この新しいアプローチは、拡散モデルが知られている生成的品質と多様性を維持するだけでなく、ターゲットの画像編集を正確に行う能力を大幅に向上させ、両方の世界の最高のものを活用する。

The rapid advancement in image generation models has predominantly been driven by diffusion models, which have demonstrated unparalleled success in generating high-fidelity, diverse images from textual prompts. Despite their success, diffusion models encounter substantial challenges in the domain of image editing, particularly in executing disentangled edits-changes that target specific attributes of an image while leaving irrelevant parts untouched. In contrast, Generative Adversarial Networks (GANs) have been recognized for their success in disentangled edits through their interpretable latent spaces. We introduce GANTASTIC, a novel framework that takes existing directions from pre-trained GAN models-representative of specific, controllable attributes-and transfers these directions into diffusion-based models. This novel approach not only maintains the generative quality and diversity that diffusion models are known for but also significantly enhances their capability to perform precise, targeted image edits, thereby leveraging the best of both worlds.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# Change-Agent: 対話型包括的変更解釈と変更検出と変更キャプションからの分析を目指して

Change-Agent: Towards Interactive Comprehensive Change Interpretation and Analysis from Change Detection and Change Captioning ( http://arxiv.org/abs/2403.19646v1 )

ライセンス: Link先を確認
Chenyang Liu, Keyan Chen, Haotian Zhang, Zipeng Qi, Zhengxia Zou, Zhenwei Shi, (参考訳) 地球表面における変化のモニタリングは、自然の過程や人間の影響を理解するために不可欠であり、精密で包括的な解釈手法を必要とする。 リモートセンシング衛星画像は、これらの変化を監視するためのユニークな視点を提供し、重要な研究焦点としてリモートセンシング画像変化解釈(RSICI)の出現につながった。 現在のRSICI技術は、変更検出と変更キャプションを包含しており、それぞれに包括的な解釈を提供する限界がある。 そこで本研究では,多段階変化解釈モデル(MCI)を眼として,大言語モデル(LLM)を脳として統合した対話型変化エージェントを提案する。 我々のChange-Agentは、変更検出や変更キャプション、変更オブジェクトカウント、変更原因分析など、ユーザ指示に従って、包括的な変更解釈と洞察に富んだ分析を実現するために、ユーザ指示に従うことができます。 提案するMCIモデルは,複数のBI時間的反復的相互作用(BI3)層が局所知覚強調(LPE)とグローバル差分融合注意(GDFA)モジュールを用いて,モデルの識別的特徴表現能力を向上する,画素レベルの変化検出と意味レベルの変化キャプションの2つのブランチを含む。 MCIモデルをトレーニングするために、変更マスクとバイテンポラル画像のキャプションを備えたLEVIR-MCIデータセットを構築した。 大規模な実験は、提案した変化解釈モデルの有効性を実証し、表面変化の包括的かつインテリジェントな解釈を促進する上で、我々の変化-エージェントの有望な可能性を強調している。 変更解釈モデルのデータセットとコードベースとChange-Agentを公開して、https://github.com/Chen-Yang-Liu/Change-Agentで将来の研究を促進するつもりです。

Monitoring changes in the Earth's surface is crucial for understanding natural processes and human impacts, necessitating precise and comprehensive interpretation methodologies. Remote sensing satellite imagery offers a unique perspective for monitoring these changes, leading to the emergence of remote sensing image change interpretation (RSICI) as a significant research focus. Current RSICI technology encompasses change detection and change captioning, each with its limitations in providing comprehensive interpretation. To address this, we propose an interactive Change-Agent which integrates a multi-level change interpretation (MCI) model as eyes and a large language model (LLM) as the brain. Our Change-Agent can follow user instructions to achieve comprehensive change interpretation and insightful analysis according to user instructions, such as change detection and change captioning, change object counting, change cause analysis, etc. Our proposed MCI model contains two branches of pixel-level change detection and semantic-level change captioning, in which multiple BI-temporal Iterative Interaction (BI3) layers utilize Local Perception Enhancement (LPE) and the Global Difference Fusion Attention (GDFA) modules to enhance the model's discriminative feature representation capabilities. To train the MCI model, we build the LEVIR-MCI dataset with change masks and captions of bi-temporal images. Extensive experiments demonstrate the effectiveness of the proposed change interpretation model and highlight the promising potential of our Change-Agent in facilitating comprehensive and intelligent interpretation of surface changes. We will make our dataset and codebase of the change interpretation model and Change-Agent publicly available to facilitate future research at https://github.com/Chen-Yang-Liu/Change-Agent
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# スパース特徴回路:言語モデルにおける解釈可能な因果グラフの発見と編集

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models ( http://arxiv.org/abs/2403.19647v1 )

ライセンス: Link先を確認
Samuel Marks, Can Rager, Eric J. Michaud, Yonatan Belinkov, David Bau, Aaron Mueller, (参考訳) 本稿ではスパース特徴回路の発見と適用方法を紹介する。 これらは、言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係のサブネットワークである。 以前の作業で特定された回路は、注意頭やニューロンのような多意味で解釈が難しいユニットで構成されており、多くの下流アプリケーションには適さない。 対照的に、スパース特徴回路は予期せぬメカニズムの詳細な理解を可能にする。 細粒度単位に基づいており、スパース特徴回路は下流タスクに有用である: ShiFTを導入し、人間の判断がタスク非関連であることを示す特徴を非難することで分類器の一般化を改善する。 最後に、モデル動作を自動的に検出する数千のスパース特徴回路を発見することにより、完全に教師なしかつスケーラブルな解釈可能性パイプラインを実証する。

We introduce methods for discovering and applying sparse feature circuits. These are causally implicated subnetworks of human-interpretable features for explaining language model behaviors. Circuits identified in prior work consist of polysemantic and difficult-to-interpret units like attention heads or neurons, rendering them unsuitable for many downstream applications. In contrast, sparse feature circuits enable detailed understanding of unanticipated mechanisms. Because they are based on fine-grained units, sparse feature circuits are useful for downstream tasks: We introduce SHIFT, where we improve the generalization of a classifier by ablating features that a human judges to be task-irrelevant. Finally, we demonstrate an entirely unsupervised and scalable interpretability pipeline by discovering thousands of sparse feature circuits for automatically discovered model behaviors.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# データ正規化自己再生強化学習による人間互換運転パートナー

Human-compatible driving partners through data-regularized self-play reinforcement learning ( http://arxiv.org/abs/2403.19648v1 )

ライセンス: Link先を確認
Daphne Cornelisse, Eugene Vinitsky, (参考訳) 自動運転車における中心的な課題は、人間と協調することだ。 したがって、シミュレーションにおける自律運転システムのスケーラブルなトレーニングと評価には、現実的なヒューマンエージェントの導入が不可欠である。 シミュレーションエージェントは通常、人間の運転の大規模で高品質なデータセットを模倣することによって開発される。 しかし、純粋な模倣学習エージェントは、マルチエージェント閉ループ設定で実行される場合、経験的に高い衝突率を有する。 クローズドループ設定において現実的で効果的なエージェントを構築するために,エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイによって訓練されるマルチエージェントアルゴリズムであるHuman-Regularized PPO(HR-PPO)を提案する。 従来の研究とは対照的に、我々のアプローチはRLファーストであり、不完全な人間のデモを30分しか使っていません。 エージェントを多エージェントの交通シーンで評価する。 その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。 同時に、エージェントは既存の人間の運転ログと類似性によって測定されるように、人間のように運転する。 また、HR-PPOエージェントは、特に高度に対話的なシナリオにおいて、人間の運転と協調するためのプロキシ対策をかなり改善していることが判明した。 私たちはコードと訓練されたエージェントをhttps://github.com/Emerge-Lab/nocturne_labでオープンソース化し、https://sites.google.com/view/driving-partnersでエージェントの動作のデモを提供します。

A central challenge for autonomous vehicles is coordinating with humans. Therefore, incorporating realistic human agents is essential for scalable training and evaluation of autonomous driving systems in simulation. Simulation agents are typically developed by imitating large-scale, high-quality datasets of human driving. However, pure imitation learning agents empirically have high collision rates when executed in a multi-agent closed-loop setting. To build agents that are realistic and effective in closed-loop settings, we propose Human-Regularized PPO (HR-PPO), a multi-agent algorithm where agents are trained through self-play with a small penalty for deviating from a human reference policy. In contrast to prior work, our approach is RL-first and only uses 30 minutes of imperfect human demonstrations. We evaluate agents in a large set of multi-agent traffic scenes. Results show our HR-PPO agents are highly effective in achieving goals, with a success rate of 93%, an off-road rate of 3.5%, and a collision rate of 3%. At the same time, the agents drive in a human-like manner, as measured by their similarity to existing human driving logs. We also find that HR-PPO agents show considerable improvements on proxy measures for coordination with human driving, particularly in highly interactive scenarios. We open-source our code and trained agents at https://github.com/Emerge-Lab/nocturne_lab and provide demonstrations of agent behaviors at https://sites.google.com/view/driving-partners.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# GraspXL: スケールでの異物に対するグラッピング運動の生成

GraspXL: Generating Grasping Motions for Diverse Objects at Scale ( http://arxiv.org/abs/2403.19649v1 )

ライセンス: Link先を確認
Hui Zhang, Sammy Christen, Zicong Fan, Otmar Hilliges, Jie Song, (参考訳) 人間の手は、対象の特定の部分をつかんだり、望ましい方向から近づいたりするなど、多様な物体と相互作用する器用さを持っている。 さらに重要なのは、人間は物体固有のスキルを使わずにあらゆる形の物体を把握できるということです。 近年の作業では、所望の進路方向や把握領域などの単一目的に追従する把握動作を合成している。 さらに、トレーニングや推論の間、高価な3Dハンドオブジェクトデータに頼っているため、大規模に見えない物体の把握動作を合成する能力が制限される。 本論文では、政策学習フレームワークGraspXLにおいて、複数の運動対象物、多様な物体形状、および器用な手形態にまたがる手対象把握動作の生成を統一する。 目的は、把握可能な領域、接近中の方向、手首回転、手の位置から成り立っている。 3Dハンドオブジェクトのインタラクションデータを必要としないため、58個のオブジェクトでトレーニングされたポリシーは、成功率82.2%の500万以上の未確認オブジェクトに対する多様な把握動作を堅牢に合成することができる。 同時に、ポリシーは目的に固執し、オブジェクトごとの多様な把握の生成を可能にする。 さらに、我々のフレームワークは、異なるデクスタラスハンドにデプロイされ、再構成または生成されたオブジェクトで作業可能であることを示す。 提案手法の有効性を定量的に,質的に評価した。 私たちのモデルとコードは利用可能です。

Human hands possess the dexterity to interact with diverse objects such as grasping specific parts of the objects and/or approaching them from desired directions. More importantly, humans can grasp objects of any shape without object-specific skills. Recent works synthesize grasping motions following single objectives such as a desired approach heading direction or a grasping area. Moreover, they usually rely on expensive 3D hand-object data during training and inference, which limits their capability to synthesize grasping motions for unseen objects at scale. In this paper, we unify the generation of hand-object grasping motions across multiple motion objectives, diverse object shapes and dexterous hand morphologies in a policy learning framework GraspXL. The objectives are composed of the graspable area, heading direction during approach, wrist rotation, and hand position. Without requiring any 3D hand-object interaction data, our policy trained with 58 objects can robustly synthesize diverse grasping motions for more than 500k unseen objects with a success rate of 82.2%. At the same time, the policy adheres to objectives, which enables the generation of diverse grasps per object. Moreover, we show that our framework can be deployed to different dexterous hands and work with reconstructed or generated objects. We quantitatively and qualitatively evaluate our method to show the efficacy of our approach. Our model and code will be available.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# MagicLens:オープンなインストラクションで自己監督されたイメージ検索

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions ( http://arxiv.org/abs/2403.19651v1 )

ライセンス: Link先を確認
Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu Chen, Yu Su, Ming-Wei Chang, (参考訳) 画像検索、すなわち、参照画像が与えられた所望の画像を見つけることは、本質的に、画像ベースの測度だけでは捉えがたいリッチで多面的な検索意図を包含する。 最近の研究は、ユーザーが検索意図をより自由に表現できるようにテキスト命令を活用している。 しかし、既存の研究は主に視覚的に類似したイメージ対に焦点を当てており、/または事前定義された少数の関係によって特徴付けられる。 本論文の核となるテーマは、テキスト命令により、視覚的類似性を超えて、よりリッチな関係を持つ画像の検索を可能にすることである。 これを示すために、オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。 MagicLensは、重要な新しい洞察に基づいて構築されている: 同じWebページに自然に発生するイメージペアは、広範囲の暗黙の関係(例えば、内部ビュー)を含み、大きなマルチモーダルモデル(LMM)と大きな言語モデル(LLM)を介して命令を合成することで、それらの暗黙の関係を明示することができる。 36.7M(クエリー画像、命令、ターゲット画像)でトレーニングされたMagicLensは、従来のSOTA(State-of-the-art)メソッドと比較して、様々な画像検索タスクの8つのベンチマークで同等またはより良い結果が得られる。 注目すべきは、以前のSOTAより優れているが、複数のベンチマークではモデルサイズが50倍小さいことだ。 1.4Mイメージの未確認コーパスに関する追加の人間分析は、MagicLensがサポートする検索意図の多様性をさらに証明している。

Image retrieval, i.e., finding desired images given a reference image, inherently encompasses rich, multi-faceted search intents that are difficult to capture solely using image-based measures. Recent work leverages text instructions to allow users to more freely express their search intents. However, existing work primarily focuses on image pairs that are visually similar and/or can be characterized by a small set of pre-defined relations. The core thesis of this paper is that text instructions can enable retrieving images with richer relations beyond visual similarity. To show this, we introduce MagicLens, a series of self-supervised image retrieval models that support open-ended instructions. MagicLens is built on a key novel insight: image pairs that naturally occur on the same web pages contain a wide range of implicit relations (e.g., inside view of), and we can bring those implicit relations explicit by synthesizing instructions via large multimodal models (LMMs) and large language models (LLMs). Trained on 36.7M (query image, instruction, target image) triplets with rich semantic relations mined from the web, MagicLens achieves comparable or better results on eight benchmarks of various image retrieval tasks than prior state-of-the-art (SOTA) methods. Remarkably, it outperforms previous SOTA but with a 50X smaller model size on multiple benchmarks. Additional human analyses on a 1.4M-image unseen corpus further demonstrate the diversity of search intents supported by MagicLens.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# InterDreamer:3D動的オブジェクトインタラクションのためのゼロショットテキスト

InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction ( http://arxiv.org/abs/2403.19652v1 )

ライセンス: Link先を確認
Sirui Xu, Ziyin Wang, Yu-Xiong Wang, Liang-Yan Gui, (参考訳) テキスト条件付き人間の動作生成は、広範囲なモーションキャプチャーデータとそれに対応するテキストアノテーションに基づいて訓練された拡散モデルによって著しく進歩してきた。 しかし、このような成功を3次元ダイナミックなヒューマンオブジェクトインタラクション(HOI)生成に拡張することは、主に大規模なインタラクションデータや、これらのインタラクションと整合する包括的な記述が欠如しているため、顕著な課題に直面している。 本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。 これを達成する上で重要な洞察は、相互作用のセマンティクスとダイナミクスを分離できるということです。 教師付きトレーニングによって相互作用の意味を学べないため、トレーニング済みの大規模モデルを活用し、大きな言語モデルとテキスト・トゥ・モーションモデルからの知識を相乗化します。 このような知識は相互作用のセマンティクスに対する高レベルの制御を提供するが、低レベルの相互作用力学の複雑さを把握できない。 この問題を克服するために,人間の行動が物体の動きにどのように影響するかをモデル化し,単純な物理を理解するように設計された世界モデルを導入する。 これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。 BEHAVEおよびCHAIRSデータセットにInterDreamerを適用し,テキストディレクティブとシームレスに整合する現実的かつ一貫性のあるインタラクションシーケンスを生成する能力を示す。

Text-conditioned human motion generation has experienced significant advancements with diffusion models trained on extensive motion capture data and corresponding textual annotations. However, extending such success to 3D dynamic human-object interaction (HOI) generation faces notable challenges, primarily due to the lack of large-scale interaction data and comprehensive descriptions that align with these interactions. This paper takes the initiative and showcases the potential of generating human-object interactions without direct training on text-interaction pair data. Our key insight in achieving this is that interaction semantics and dynamics can be decoupled. Being unable to learn interaction semantics through supervised training, we instead leverage pre-trained large models, synergizing knowledge from a large language model and a text-to-motion model. While such knowledge offers high-level control over interaction semantics, it cannot grasp the intricacies of low-level interaction dynamics. To overcome this issue, we further introduce a world model designed to comprehend simple physics, modeling how human actions influence object motion. By integrating these components, our novel framework, InterDreamer, is able to generate text-aligned 3D HOI sequences in a zero-shot manner. We apply InterDreamer to the BEHAVE and CHAIRS datasets, and our comprehensive experimental analysis demonstrates its capability to generate realistic and coherent interaction sequences that seamlessly align with the text directives.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# RGB以降のテキスト・画像拡散モデルにおける画像属性の検出

Detecting Image Attribution for Text-to-Image Diffusion Models in RGB and Beyond ( http://arxiv.org/abs/2403.19653v1 )

ライセンス: Link先を確認
Katherine Xu, Lingzhi Zhang, Jianbo Shi, (参考訳) 現代のテキスト・ツー・イメージ(T2I)拡散モデルは、顕著なリアリズムと創造性を持った画像を生成することができる。 これらの進歩は、偽画像の検出と帰属の研究に火をつけているが、以前の研究では、この課題の実際的および科学的側面について完全には研究されていない。 12個の最先端T2Iジェネレータに画像を帰属させるだけでなく、どの推論段階のハイパーパラメータと画像修正が識別可能かを広範囲に分析する。 実験により、初期化種子は、画像生成過程の他の微妙な変化とともに、かなり検出可能であることが明らかとなった。 さらに、高頻度の詳細を摂動させ、画像のスタイルと構造を中間レベルに表現することにより、画像の属性に視覚的トレースがどのように活用されるかについても検討する。 特に、高周波情報の変更は、精度をわずかに低下させるだけであり、スタイル表現における属性のトレーニングは、RGB画像のトレーニングよりも優れています。 分析の結果, 偽画像は従来より様々な視界の粒度で検出可能であり, 帰属可能であることが示された。

Modern text-to-image (T2I) diffusion models can generate images with remarkable realism and creativity. These advancements have sparked research in fake image detection and attribution, yet prior studies have not fully explored the practical and scientific dimensions of this task. In addition to attributing images to 12 state-of-the-art T2I generators, we provide extensive analyses on what inference stage hyperparameters and image modifications are discernible. Our experiments reveal that initialization seeds are highly detectable, along with other subtle variations in the image generation process to some extent. We further investigate what visual traces are leveraged in image attribution by perturbing high-frequency details and employing mid-level representations of image style and structure. Notably, altering high-frequency information causes only slight reductions in accuracy, and training an attributor on style representations outperforms training on RGB images. Our analyses underscore that fake images are detectable and attributable at various levels of visual granularity than previously explored.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# RSMamba:状態空間モデルを用いたリモートセンシング画像分類

RSMamba: Remote Sensing Image Classification with State Space Model ( http://arxiv.org/abs/2403.19654v1 )

ライセンス: Link先を確認
Keyan Chen, Bowen Chen, Chenyang Liu, Wenyuan Li, Zhengxia Zou, Zhenwei Shi, (参考訳) リモートセンシング画像分類は様々な理解タスクの基礎を形成し、リモートセンシング画像解釈において重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーの最近の進歩により、分類精度が著しく向上した。 とはいえ、リモートセンシングシーンの分類は、特にリモートセンシングシナリオの複雑さと多様性と時空間分解能の変動性を考えると、大きな課題である。 全体像理解能力は、シーン識別のためのより正確な意味的手がかりを提供することができる。 本稿では,リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。 RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。 これは、大域的受容場と線形モデリングの複雑さの両方の利点を統合する。 因果関係のみをモデル化でき、2次元画像データに適応できないバニラ・マンバの限界を克服するために,マンバの非因果関係をモデル化するための動的マルチパス活性化機構を提案する。 特に、RSMambaはバニラ・マンバの固有のモデリングメカニズムを維持しているが、複数のリモートセンシング画像分類データセットよりも優れた性能を示している。 このことは、RSMambaが将来の視覚基盤モデルのバックボーンとして機能する大きな可能性を秘めていることを示している。 コードは \url{https://github.com/KyanChen/RSMamba} で入手できる。

Remote sensing image classification forms the foundation of various understanding tasks, serving a crucial function in remote sensing image interpretation. The recent advancements of Convolutional Neural Networks (CNNs) and Transformers have markedly enhanced classification accuracy. Nonetheless, remote sensing scene classification remains a significant challenge, especially given the complexity and diversity of remote sensing scenarios and the variability of spatiotemporal resolutions. The capacity for whole-image understanding can provide more precise semantic cues for scene discrimination. In this paper, we introduce RSMamba, a novel architecture for remote sensing image classification. RSMamba is based on the State Space Model (SSM) and incorporates an efficient, hardware-aware design known as the Mamba. It integrates the advantages of both a global receptive field and linear modeling complexity. To overcome the limitation of the vanilla Mamba, which can only model causal sequences and is not adaptable to two-dimensional image data, we propose a dynamic multi-path activation mechanism to augment Mamba's capacity to model non-causal data. Notably, RSMamba maintains the inherent modeling mechanism of the vanilla Mamba, yet exhibits superior performance across multiple remote sensing image classification datasets. This indicates that RSMamba holds significant potential to function as the backbone of future visual foundation models. The code will be available at \url{https://github.com/KyanChen/RSMamba}.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# GaussianCube:3次元生成モデルのための最適輸送を用いたガウス散乱の構造化

GaussianCube: Structuring Gaussian Splatting using Optimal Transport for 3D Generative Modeling ( http://arxiv.org/abs/2403.19655v1 )

ライセンス: Link先を確認
Bowen Zhang, Yiji Cheng, Jiaolong Yang, Chunyu Wang, Feng Zhao, Yansong Tang, Dong Chen, Baining Guo, (参考訳) 3次元ガウス散乱(GS)は3次元適合率とレンダリング速度の点でニューラルレイディアンス場よりも大幅に改善されている。 しかし、散在したガウス群によるこの非構造的表現は、生成的モデリングに重大な課題をもたらす。 この問題に対処するため,我々はGaussianCubeを紹介した。 我々はまず,自由ガウスの固定数を用いて高品質な適合結果が得られる改良された密度制約付きGSフィッティングアルゴリズムを提案し,その後,ガウスを最適輸送により事前に定義されたボクセルグリッドに再配置する。 構造的グリッド表現により、複雑な設計をせずに拡散生成モデリングにおいて、標準の3D U-Netをバックボーンとして使用できる。 ShapeNet と OmniObject3D で行った大規模な実験により,ガウスキューブを強力かつ多目的な3D表現として,定性的かつ定量的に再現できることを示す。

3D Gaussian Splatting (GS) have achieved considerable improvement over Neural Radiance Fields in terms of 3D fitting fidelity and rendering speed. However, this unstructured representation with scattered Gaussians poses a significant challenge for generative modeling. To address the problem, we introduce GaussianCube, a structured GS representation that is both powerful and efficient for generative modeling. We achieve this by first proposing a modified densification-constrained GS fitting algorithm which can yield high-quality fitting results using a fixed number of free Gaussians, and then re-arranging the Gaussians into a predefined voxel grid via Optimal Transport. The structured grid representation allows us to use standard 3D U-Net as our backbone in diffusion generative modeling without elaborate designs. Extensive experiments conducted on ShapeNet and OmniObject3D show that our model achieves state-of-the-art generation results both qualitatively and quantitatively, underscoring the potential of GaussianCube as a powerful and versatile 3D representation.
翻訳日:2024-03-29 15:04:56 公開日:2024-03-28
# ニューラルコードモデル解釈のための因果論に向けて

Toward a Theory of Causation for Interpreting Neural Code Models ( http://arxiv.org/abs/2302.03788v5 )

ライセンス: Link先を確認
David N. Palacio, Alejandro Velasco, Nathan Cooper, Alvaro Rodriguez, Kevin Moran, Denys Poshyvanyk, (参考訳) コードのニューラル言語モデル(Neural Language Models of Code、NCM)は、研究プロトタイプから商用開発ツールまで、急速に進歩している。 そのため、そのようなモデルの能力と限界を理解することが重要になっている。 しかしながら、これらのモデルの能力は通常、実際のパフォーマンスの一部だけを明らかにする自動メトリクスを使用して測定される。 一般的には、NCMのパフォーマンスは有望であるように思われるが、現在、そのようなモデルがどのように決定を下すかは不明だ。 そこで本研究では,モデル予測を記述可能な NCM 固有のポストホック解釈法である $do_{code}$ を紹介する。 $do_{code}$は、言語指向の説明を可能にする因果推論に基づいている。 do_{code}$の理論的基盤は、異なるモデル特性を探索するために拡張可能であるが、プログラミング言語の性質におけるモデル挙動の説明を基礎として、突発的相関の影響を軽減することを目的とした具体的なインスタンス化を提供する。 do_{code}$の実用的メリットを実証するために,2つの人気のあるディープラーニングアーキテクチャと10のNCMに関するケーススタディを実行することで,我々のフレームワークが提供できる洞察について説明する。 このケーススタディの結果から,NCMはコード構文の変化に敏感であることが示唆された。 BERTライクなモデルを除いて、我々のNCMは、他のプログラミング言語の構造と比べて、曖昧なバイアスが少なく、コードのブロック(グレッグ括弧、括弧、セミコロン)に関連するトークンを統計的に予測することを学びます。 これらの知見は、NCMにおける共起バイアスの検出と緩和に有用な方法として$do_{code}$の可能性を示している。

Neural Language Models of Code, or Neural Code Models (NCMs), are rapidly progressing from research prototypes to commercial developer tools. As such, understanding the capabilities and limitations of such models is becoming critical. However, the abilities of these models are typically measured using automated metrics that often only reveal a portion of their real-world performance. While, in general, the performance of NCMs appears promising, currently much is unknown about how such models arrive at decisions. To this end, this paper introduces $do_{code}$, a post hoc interpretability method specific to NCMs that is capable of explaining model predictions. $do_{code}$ is based upon causal inference to enable programming language-oriented explanations. While the theoretical underpinnings of $do_{code}$ are extensible to exploring different model properties, we provide a concrete instantiation that aims to mitigate the impact of spurious correlations by grounding explanations of model behavior in properties of programming languages. To demonstrate the practical benefit of $do_{code}$, we illustrate the insights that our framework can provide by performing a case study on two popular deep learning architectures and ten NCMs. The results of this case study illustrate that our studied NCMs are sensitive to changes in code syntax. All our NCMs, except for the BERT-like model, statistically learn to predict tokens related to blocks of code (\eg brackets, parenthesis, semicolon) with less confounding bias as compared to other programming language constructs. These insights demonstrate the potential of $do_{code}$ as a useful method to detect and facilitate the elimination of confounding bias in NCMs.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# テキストと画像の人物再識別のための雑音対応学習

Noisy-Correspondence Learning for Text-to-Image Person Re-identification ( http://arxiv.org/abs/2308.09911v3 )

ライセンス: Link先を確認
Yang Qin, Yingke Chen, Dezhong Peng, Xi Peng, Joey Tianyi Zhou, Peng Hu, (参考訳) テキスト・ツー・イメージ・パーソン・リアイデンティティ(TIReID)は、テキスト・クエリーに基づいて対象者を検索することを目的として、モダル・コミュニティにおいて魅力的なトピックである。 多くのTIReID手法が提案され、有望な性能を達成したが、実世界のシナリオでは必ずしもそうではないため、トレーニング画像とテキストのペアが正しく一致していると暗黙的に仮定している。 実際には、画像とテキストのペアは、画像の品質の低さとアノテーションの誤りのため、必然的に非相関性または偽相関性、すなわちノイズ対応(NC)が存在する。 この問題に対処するために,NCでも頑健な視覚関係を学習できる新しいロバストデュアル・エンベディング法(RDE)を提案する。 具体的には、RDEは2つの主要コンポーネントから構成される。 1) 2重埋め込みモジュールの二重きめ細かな決定を活用してクリーンなトレーニングデータのコンセンサスセットを得る信頼性コンセンサスディビジョン(CCD)モジュールにより、モデルが正確で信頼性の高い視覚的セマンティックアソシエーションを学習できるようにする。 2) トリプルトアライメント損失(TAL)は, 従来のトリプルトランキングの損失を最強の負の試料で緩和し, 全負の試料の対数指数上限に緩和する。 我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。 提案手法は,3つのデータセットの合成ノイズ対応と非合成ノイズ対応を両立させる。 コードはhttps://github.com/QinYang79/RDEで入手できる。

Text-to-image person re-identification (TIReID) is a compelling topic in the cross-modal community, which aims to retrieve the target person based on a textual query. Although numerous TIReID methods have been proposed and achieved promising performance, they implicitly assume the training image-text pairs are correctly aligned, which is not always the case in real-world scenarios. In practice, the image-text pairs inevitably exist under-correlated or even false-correlated, a.k.a noisy correspondence (NC), due to the low quality of the images and annotation errors. To address this problem, we propose a novel Robust Dual Embedding method (RDE) that can learn robust visual-semantic associations even with NC. Specifically, RDE consists of two main components: 1) A Confident Consensus Division (CCD) module that leverages the dual-grained decisions of dual embedding modules to obtain a consensus set of clean training data, which enables the model to learn correct and reliable visual-semantic associations. 2) A Triplet Alignment Loss (TAL) relaxes the conventional Triplet Ranking loss with the hardest negative samples to a log-exponential upper bound over all negative ones, thus preventing the model collapse under NC and can also focus on hard-negative samples for promising performance. We conduct extensive experiments on three public benchmarks, namely CUHK-PEDES, ICFG-PEDES, and RSTPReID, to evaluate the performance and robustness of our RDE. Our method achieves state-of-the-art results both with and without synthetic noisy correspondences on all three datasets. Code is available at https://github.com/QinYang79/RDE.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# レイアウト・ツー・イメージ合成におけるオブジェクトコヒーレンス向上

Enhancing Object Coherence in Layout-to-Image Synthesis ( http://arxiv.org/abs/2311.10522v5 )

ライセンス: Link先を確認
Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, (参考訳) レイアウト・ツー・イメージ合成は条件付き画像生成において新たな技術である。 複雑なシーンを生成することを目的としており、ユーザーはシーン内のオブジェクトのレイアウトを細かく制御する必要がある。 しかし、セマンティックコヒーレンス(例:猫が花を見るかどうか)や物理的コヒーレンス(例:手とラケットを間違えてはならない)など、オブジェクトコヒーレンスを制御することは依然として困難である。 本稿では,グローバルな意味融合(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。 セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。 本実験では, キャプションと生成画像間の相互アテンションを別々に扱うのではなく, レイアウト制約とセマンティックコヒーレンスを個別に扱うことで, レイアウト制約とセマンティックコヒーレンス要求から監督を解き放ち, 画像合成プロセスの指導に役立てるため, GSFを開発した。 さらに、物理コヒーレンスを改善するために、各画素の生成プロセスに局所的な物理的コヒーレンスを明示的に統合する自己相似コヒーレンスアテンション(SCA)モジュールを開発する。 具体的には,コヒーレンス制約を符号化する自己相似写像を採用し,テキスト埋め込みからコヒーレント特徴を抽出する。 自己相似性マップの可視化を通じて、SCAの本質を探求し、その効果が信頼性の高い物理的コヒーレンスパターンのキャプチャだけでなく、複雑なテクスチャ生成の強化にも有効であることを明らかにした。 画像生成品質と制御性の両方において,提案手法の優位性を示す実験を行った。

Layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the object coherence, including semantic coherence (e.g., the cat looks at the flowers or not) and physical coherence (e.g., the hand and the racket should not be misaligned). In this paper, we propose a novel diffusion model with effective global semantic fusion (GSF) and self-similarity feature enhancement modules to guide the object coherence for this task. For semantic coherence, we argue that the image caption contains rich information for defining the semantic relationship within the objects in the images. Instead of simply employing cross-attention between captions and generated images, which addresses the highly relevant layout restriction and semantic coherence separately and thus leads to unsatisfying results shown in our experiments, we develop GSF to fuse the supervision from the layout restriction and semantic coherence requirement and exploit it to guide the image synthesis process. Moreover, to improve the physical coherence, we develop a Self-similarity Coherence Attention (SCA) module to explicitly integrate local contextual physical coherence into each pixel's generation process. Specifically, we adopt a self-similarity map to encode the coherence restrictions and employ it to extract coherent features from text embedding. Through visualization of our self-similarity map, we explore the essence of SCA, revealing that its effectiveness is not only in capturing reliable physical coherence patterns but also in enhancing complex texture generation. Extensive experiments demonstrate the superiority of our proposed method in both image generation quality and controllability.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# OffLanDat: プロンプトエンジニアリングによる大規模言語モデルによって生成されたコミュニティベースの暗黙の言語データセット

OffLanDat: A Community Based Implicit Offensive Language Dataset Generated by Large Language Model Through Prompt Engineering ( http://arxiv.org/abs/2403.02472v5 )

ライセンス: Link先を確認
Amit Das, Mostafa Rahgouy, Dongji Feng, Zheng Zhang, Tathagata Bhattacharya, Nilanjana Raychawdhary, Mary Sandage, Lauramarie Pope, Gerry Dozier, Cheryl Seals, (参考訳) ソーシャルメディアにおけるヘイトフル言語の存在は、社会的幸福に悪影響を及ぼしている。 結果として、この問題に高い優先順位で対処することが非常に重要になっている。 ヘイトスピーチや攻撃的な言語は、明示的な形と暗黙的な形の両方に存在するが、後者は検出することがより困難である。 この領域における現在の研究はいくつかの課題に直面している。 まず、既存のデータセットは主に明示的な攻撃的なキーワードを含むテキストの収集に依存しており、これらのキーワードを欠いた暗黙的に攻撃的なコンテンツをキャプチャすることは困難である。 第二に、通常の方法論は、コミュニティ情報が提供する価値ある洞察を無視して、テキスト分析にのみ焦点をあてる傾向がある。 そこで本研究では,ChatGPTが生成したコミュニティベースの暗黙的攻撃言語データセットであるOffLanDatについて紹介する。 倫理的制約によりChatGPTを用いた攻撃的テキストの生成に制限があるにもかかわらず、暗黙的な攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。 データ品質を確保するために、我々はデータを人間で評価する。 さらに,ChatGPTを用いたプロンプトベースのZero-Shot法を用いて,人間のアノテーションとChatGPTアノテーションの検知結果を比較する。 既存の最先端モデルを用いて、そのような言語を検出するのがいかに効果的かを確認する。 他の研究者のために、コードとデータセットを公開します。

The widespread presence of hateful languages on social media has resulted in adverse effects on societal well-being. As a result, it has become very important to address this issue with high priority. Hate speech or offensive languages exist in both explicit and implicit forms, with the latter being more challenging to detect. Current research in this domain encounters several challenges. Firstly, the existing datasets primarily rely on the collection of texts containing explicit offensive keywords, making it challenging to capture implicitly offensive contents that are devoid of these keywords. Secondly, usual methodologies tend to focus solely on textual analysis, neglecting the valuable insights that community information can provide. In this research paper, we introduce a novel dataset OffLanDat, a community based implicit offensive language dataset generated by ChatGPT containing data for 38 different target groups. Despite limitations in generating offensive texts using ChatGPT due to ethical constraints, we present a prompt-based approach that effectively generates implicit offensive languages. To ensure data quality, we evaluate our data with human. Additionally, we employ a prompt-based Zero-Shot method with ChatGPT and compare the detection results between human annotation and ChatGPT annotation. We utilize existing state-of-the-art models to see how effective they are in detecting such languages. We will make our code and dataset public for other researchers.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# Imagination Augmented Generation:大規模言語モデルに対する質問応答のためのよりリッチなコンテキストを想像する学習

Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models ( http://arxiv.org/abs/2403.15268v2 )

ライセンス: Link先を確認
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao, (参考訳) 大規模言語モデル(LLM)上での質問応答に必要な知識を高めるために,検索・拡張・ジェネレーションとジェネレーション・拡張・ジェネレーションを提案する。 しかし、前者は外部リソースに依存しており、どちらも明示的な文書をコンテキストに組み込む必要があり、結果としてより長いコンテキストがリソース消費につながる。 最近の研究は、LLMが豊かな知識をモデル化したことを示している。 そこで本研究では,知識不足を補うための人的能力を模擬する新たな知識増強フレームワークImagination-Augmented-Generation(IAG)を提案する。 IAG が指導する質問応答のためのよりリッチな文脈解法 (IMcQA) を提案する。この手法は,長文圧縮による短いダミー文書の生成と,適応重みを生成するHyperNetwork による暗黙的な想像力によって,以下の2つのモジュールを通してよりリッチな文脈を求める。 3つのデータセットの実験結果から、IMcQAは、オープンドメインとクローズドブックの両方で大きな利点を示し、また、分布内性能と分布外一般化の両方で有益であることが示された。 私たちのコードはhttps://github.com/Xnhyacinth/IAG.comで公開されます。

Retrieval-Augmented-Generation and Gener-ation-Augmented-Generation have been proposed to enhance the knowledge required for question answering over Large Language Models (LLMs). However, the former depends on external resources, and both require incorporating the explicit documents into the context, which results in longer contexts that lead to more resource consumption. Recent works indicate that LLMs have modeled rich knowledge, albeit not effectively triggered or activated. Inspired by this, we propose a novel knowledge-augmented framework, Imagination-Augmented-Generation (IAG), which simulates the human capacity to compensate for knowledge deficits while answering questions solely through imagination, without relying on external resources. Guided by IAG, we propose an imagine richer context method for question answering (IMcQA), which obtains richer context through the following two modules: explicit imagination by generating a short dummy document with long context compress and implicit imagination with HyperNetwork for generating adapter weights. Experimental results on three datasets demonstrate that IMcQA exhibits significant advantages in both open-domain and closed-book settings, as well as in both in-distribution performance and out-of-distribution generalizations. Our code will be available at https://github.com/Xnhyacinth/IAG.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# 病院最適容量管理のための対話型意思決定支援ダッシュボード

An Interactive Decision-Support Dashboard for Optimal Hospital Capacity Management ( http://arxiv.org/abs/2403.15634v2 )

ライセンス: Link先を確認
Felix Parker, Diego A. Martínez, James Scheulen, Kimia Ghobadi, (参考訳) データ駆動型最適化モデルは、特に需要急増時に、キャパシティの効果的な割り当てが最も重要かつ困難な場合に、病院のキャパシティ管理を大幅に改善する可能性がある。 しかし、価値を提供する方法で既存のプロセスにモデルを統合するには、病院管理者が最終的にキャパシティ管理の決定を行う責任があることを認識し、信頼に足る、アクセス可能なツールを慎重に構築する必要がある。 本研究では,サージ期間中に病院の容量管理決定を通知するためのインタラクティブでユーザフレンドリな電子ダッシュボードを開発する。 ダッシュボードには、リアルタイム病院データ、予測分析、最適化モデルが統合されている。 病院の管理者は対話的にパラメータをカスタマイズでき、さまざまなシナリオを探索できる。 ダッシュボードは参加型設計プロセスを通じて作成され、開発チームの病院管理者が実用的な実用性、信頼性、透明性、説明可能性、ユーザビリティを保証する。 新型コロナウイルスのパンデミックの最盛期には、ジョンズホプキンス健康システムにダッシュボードを配置しました。 日常的に使用され、その結果は定期的に病院の指導層に伝達された。 本研究は,病院システム能力管理のためのデータ駆動型対話型意思決定支援ツールの実用化を実証するものである。

Data-driven optimization models have the potential to significantly improve hospital capacity management, particularly during demand surges, when effective allocation of capacity is most critical and challenging. However, integrating models into existing processes in a way that provides value requires recognizing that hospital administrators are ultimately responsible for making capacity management decisions, and carefully building trustworthy and accessible tools for them. In this study, we develop an interactive, user-friendly, electronic dashboard for informing hospital capacity management decisions during surge periods. The dashboard integrates real-time hospital data, predictive analytics, and optimization models. It allows hospital administrators to interactively customize parameters, enabling them to explore a range of scenarios, and provides real-time updates on recommended optimal decisions. The dashboard was created through a participatory design process, involving hospital administrators in the development team to ensure practical utility, trustworthiness, transparency, explainability, and usability. We successfully deployed our dashboard within the Johns Hopkins Health System during the height of the COVID-19 pandemic, addressing the increased need for tools to inform hospital capacity management. It was used on a daily basis, with results regularly communicated to hospital leadership. This study demonstrates the practical application of a prospective, data-driven, interactive decision-support tool for hospital system capacity management.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# 資源制約デバイスのための低エネルギー適応型パーソナライズに向けて

Towards Low-Energy Adaptive Personalization for Resource-Constrained Devices ( http://arxiv.org/abs/2403.15905v3 )

ライセンス: Link先を確認
Yushan Huang, Josh Millar, Yuxuan Long, Yuchen Zhao, Hamed Hadaddi, (参考訳) データドリフトに対処するための機械学習(ML)モデルのパーソナライズは、IoT(Internet of Things)アプリケーションにおける重要な課題である。 現在、ほとんどのアプローチは、エネルギーコストを無視しながら、新しいデータに適応するために、完全なベースモデルまたは最後の数層を微調整することに焦点を当てている。 しかし、様々な種類のデータドリフトが存在し、完全なベースモデルや最後の数層を微調整しても、特定のシナリオでは最適なパフォーマンスが得られない。 資源制約のあるデバイス向けに設計された低エネルギー適応型パーソナライズフレームワークであるTarget Block Fine-Tuning (TBFT)を提案する。 データのドリフトとパーソナライゼーションを,入力レベル,特徴レベル,出力レベルという3つのタイプに分類する。 各タイプに対して、エネルギーコストを削減して最適な性能を達成するために、モデルの異なるブロックを微調整する。 具体的には、入力レベル、特徴レベル、出力レベルは、モデルのフロント、ミドル、リアブロックの微調整に対応する。 TBFTをResNetモデル,3つのデータセット,3つのトレーニングサイズ,Raspberry Piで評価した。 Block Avg$と比較すると、各ブロックは個別に微調整され、その性能は平均で15.30%向上し、フル微調整と比較して41.57%のエネルギー消費を節約している。

The personalization of machine learning (ML) models to address data drift is a significant challenge in the context of Internet of Things (IoT) applications. Presently, most approaches focus on fine-tuning either the full base model or its last few layers to adapt to new data, while often neglecting energy costs. However, various types of data drift exist, and fine-tuning the full base model or the last few layers may not result in optimal performance in certain scenarios. We propose Target Block Fine-Tuning (TBFT), a low-energy adaptive personalization framework designed for resource-constrained devices. We categorize data drift and personalization into three types: input-level, feature-level, and output-level. For each type, we fine-tune different blocks of the model to achieve optimal performance with reduced energy costs. Specifically, input-, feature-, and output-level correspond to fine-tuning the front, middle, and rear blocks of the model. We evaluate TBFT on a ResNet model, three datasets, three different training sizes, and a Raspberry Pi. Compared with the $Block Avg$, where each block is fine-tuned individually and their performance improvements are averaged, TBFT exhibits an improvement in model accuracy by an average of 15.30% whilst saving 41.57% energy consumption on average compared with full fine-tuning.
翻訳日:2024-03-29 11:07:04 公開日:2024-03-28
# 干し草における針の発見--見えない透かし検出のためのブラックボックスアプローチ

Finding needles in a haystack: A Black-Box Approach to Invisible Watermark Detection ( http://arxiv.org/abs/2403.15955v2 )

ライセンス: Link先を確認
Minzhou Pan, Zhengting Wang, Xin Dong, Vikash Sehwag, Lingjuan Lyu, Xue Lin, (参考訳) 本稿では,ブラックボックスとアノテーションを含まない環境下で,初めて目に見えない透かし検出手法であるWaterMark Detection (WMD)を提案する。 WMDは、特定の復号法や透かし技法の事前知識に頼ることなく、クリーンな非透かしデータセットを基準として、所定の参照データセット内の任意の透かしを検出することができる。 我々はオフセット学習の基礎を用いてWMDを開発し、クリーンな非透かしデータセットにより参照データセットにおける透かしサンプルのみの影響を分離することができる。 包括的評価では,AUCスコアが0.5程度しか得られない難易度検出法よりも有意に優れ,WMDの有効性が示された。 対照的にWMDは、多くのシングルウォーターマークデータセットでは0.9を超え、多様なデータセットやウォーターマーク手法でより困難なマルチウォーターマークシナリオでは0.7を超えている。 目に見えない透かしがますます普及する一方、特定の復号法は開示されていないが、我々のアプローチは汎用的なソリューションを提供し、私たちのデジタルビジュアルコンテンツに対する説明責任、透明性、信頼を高めるための道筋を確立する。

In this paper, we propose WaterMark Detection (WMD), the first invisible watermark detection method under a black-box and annotation-free setting. WMD is capable of detecting arbitrary watermarks within a given reference dataset using a clean non-watermarked dataset as a reference, without relying on specific decoding methods or prior knowledge of the watermarking techniques. We develop WMD using foundations of offset learning, where a clean non-watermarked dataset enables us to isolate the influence of only watermarked samples in the reference dataset. Our comprehensive evaluations demonstrate the effectiveness of WMD, significantly outperforming naive detection methods, which only yield AUC scores around 0.5. In contrast, WMD consistently achieves impressive detection AUC scores, surpassing 0.9 in most single-watermark datasets and exceeding 0.7 in more challenging multi-watermark scenarios across diverse datasets and watermarking methods. As invisible watermarks become increasingly prevalent, while specific decoding techniques remain undisclosed, our approach provides a versatile solution and establishes a path toward increasing accountability, transparency, and trust in our digital visual content.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# ニューラルネットワークによる温室の正確な3次元現象の解明

Exploring Accurate 3D Phenotyping in Greenhouse through Neural Radiance Fields ( http://arxiv.org/abs/2403.15981v2 )

ライセンス: Link先を確認
Junhong Zhao, Wei Ying, Yaoqiang Pan, Zhenfeng Yi, Chao Chen, Kewei Hu, Hanwen Kang, (参考訳) 植物表現の正確な収集は、精密農業における持続可能な農業慣行の最適化に不可欠である。 コントロールされた実験室環境における伝統的な表現型付けは、価値はあるものの、実際の環境下での植物の成長を理解するには不十分である。 新たなセンサーとデジタル技術は、農業環境における植物を直接表現するための有望なアプローチを提供する。 本研究では, 温室環境下でのトウガラシの個体内表現の精度を高めるために, ニューラル放射場を用いた学習に基づく表現法について検討した。 本手法の性能を定量的に評価するために,従来の3次元走査データにおける点群登録を行い,比較を行った。 実験結果から,NeRF(Neural Radiance Fields)は3次元走査法と比較して精度が高いことがわかった。 スキャナー法とNeRF法の平均距離誤差は0.865mmである。 本研究では,学習に基づくNeRF法が3次元走査法と類似の精度を実現するが,スケーラビリティと堅牢性は向上することを示した。

Accurate collection of plant phenotyping is critical to optimising sustainable farming practices in precision agriculture. Traditional phenotyping in controlled laboratory environments, while valuable, falls short in understanding plant growth under real-world conditions. Emerging sensor and digital technologies offer a promising approach for direct phenotyping of plants in farm environments. This study investigates a learning-based phenotyping method using the Neural Radiance Field to achieve accurate in-situ phenotyping of pepper plants in greenhouse environments. To quantitatively evaluate the performance of this method, traditional point cloud registration on 3D scanning data is implemented for comparison. Experimental result shows that NeRF(Neural Radiance Fields) achieves competitive accuracy compared to the 3D scanning methods. The mean distance error between the scanner-based method and the NeRF-based method is 0.865mm. This study shows that the learning-based NeRF method achieves similar accuracy to 3D scanning-based methods but with improved scalability and robustness.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# SDSTrack:マルチモーダルビジュアルオブジェクト追跡のための自己拡張対称適応学習

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking ( http://arxiv.org/abs/2403.16002v2 )

ライセンス: Link先を確認
Xiaojun Hou, Jiazheng Xing, Yijie Qian, Yaowei Guo, Shuo Xin, Junhao Chen, Kai Tang, Mengmeng Wang, Zhengkai Jiang, Liang Liu, Yong Liu, (参考訳) VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。 初期の研究では、マルチモーダルデータの不足により非効率で一般化された表現が欠如していたRGBベースの完全微調整トラッカーに焦点が当てられていた。 そのため、近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、即時チューニングを活用している。 しかし、モダリティギャップは事前訓練された知識リコールを制限し、RGBモダリティの優位性は持続し、他のモダリティからの情報の完全利用を妨げている。 これらの問題に対処するために,SDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。 我々は,RGB から他の領域へ少数のトレーニング可能なパラメータで特徴抽出能力を直接転送し,バランスの取れた対称な方法でマルチモーダル特徴を統合する,効率的な微調整のための軽量な適応手法を提案する。 さらに, 異常気象, 撮像不良, センサ故障などの複雑な環境下でのトラッカーの堅牢性を高めるために, 補似マスク型パッチ蒸留方式を設計する。 SDSTrackは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、さまざまなマルチモーダルトラッキングシナリオにおいて最先端の手法よりも優れており、極端な条件下での顕著な結果を示している。 ソースコードはhttps://github.com/hoqolo/SDSTrack.comから入手可能です。

Multimodal Visual Object Tracking (VOT) has recently gained significant attention due to its robustness. Early research focused on fully fine-tuning RGB-based trackers, which was inefficient and lacked generalized representation due to the scarcity of multimodal data. Therefore, recent studies have utilized prompt tuning to transfer pre-trained RGB-based trackers to multimodal data. However, the modality gap limits pre-trained knowledge recall, and the dominance of the RGB modality persists, preventing the full utilization of information from other modalities. To address these issues, we propose a novel symmetric multimodal tracking framework called SDSTrack. We introduce lightweight adaptation for efficient fine-tuning, which directly transfers the feature extraction ability from RGB to other domains with a small number of trainable parameters and integrates multimodal features in a balanced, symmetric manner. Furthermore, we design a complementary masked patch distillation strategy to enhance the robustness of trackers in complex environments, such as extreme weather, poor imaging, and sensor failure. Extensive experiments demonstrate that SDSTrack outperforms state-of-the-art methods in various multimodal tracking scenarios, including RGB+Depth, RGB+Thermal, and RGB+Event tracking, and exhibits impressive results in extreme conditions. Our source code is available at https://github.com/hoqolo/SDSTrack.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# 言語モデルは解を前倒しできるか? LLMを用いた論理コードシミュレーション

Can Language Models Pretend Solvers? Logic Code Simulation with LLMs ( http://arxiv.org/abs/2403.16097v2 )

ライセンス: Link先を確認
Minyu Chen, Guoqiang Li, Ling-I Wu, Ruibang Liu, Yuxin Su, Xi Chang, Jianxin Xue, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。 コード関連アクティビティのためのLLMの優れた機能を活用して、論理的推論に論理的解法を利用するいくつかのフレームワークが最近提案されている。 既存の研究は、LLMを自然言語の論理解法や翻訳者と見なすことに重点を置いているが、それらのロジックコードインタプリタや実行者の役割は、あまり注目されていない。 この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。 LLMは論理コードの出力を効率的にシミュレートできるのか? ロジックコードのシミュレーションとともに、どのような強みが生じるのか? 落とし穴は? これらの疑問に対処するため、我々は、論理コードシミュレーションタスクに適した3つの新しいデータセットをキュレートし、コードシミュレーションにおけるLCMのベースライン性能を確立するための徹底的な実験を行った。 次に,LLMに基づくコードシミュレーション手法であるDual Chains of Logic (DCoL)を紹介する。 GPT-4-Turboの精度は7.06%向上した。

Transformer-based large language models (LLMs) have demonstrated significant potential in addressing logic problems. capitalizing on the great capabilities of LLMs for code-related activities, several frameworks leveraging logical solvers for logic reasoning have been proposed recently. While existing research predominantly focuses on viewing LLMs as natural language logic solvers or translators, their roles as logic code interpreters and executors have received limited attention. This study delves into a novel aspect, namely logic code simulation, which forces LLMs to emulate logical solvers in predicting the results of logical programs. To further investigate this novel task, we formulate our three research questions: Can LLMs efficiently simulate the outputs of logic codes? What strength arises along with logic code simulation? And what pitfalls? To address these inquiries, we curate three novel datasets tailored for the logic code simulation task and undertake thorough experiments to establish the baseline performance of LLMs in code simulation. Subsequently, we introduce a pioneering LLM-based code simulation technique, Dual Chains of Logic (DCoL). This technique advocates a dual-path thinking approach for LLMs, which has demonstrated state-of-the-art performance compared to other LLM prompt strategies, achieving a notable improvement in accuracy by 7.06% with GPT-4-Turbo.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# 注視誘導型手動物体相互作用合成 : ベンチマークと方法

Gaze-guided Hand-Object Interaction Synthesis: Benchmark and Method ( http://arxiv.org/abs/2403.16169v3 )

ライセンス: Link先を確認
Jie Tian, Lingxiao Yang, Ran Ji, Yuexin Ma, Lan Xu, Jingyi Yu, Ye Shi, Jingya Wang, (参考訳) 迷路は人間の注意と意図を明らかにする上で重要な役割を担い、人間の行動の背後にある認知過程に光を当てる。 視線誘導と手動物体相互作用のダイナミクスを統合することにより、人間の動作予測の精度が向上する。 しかし、視線、手、物体の動きの間の複雑な関係と一貫性を捉えるデータセットの欠如は、依然としてかなりのハードルとなっている。 本稿では,第1回 Gaze-Guided Hand-Object Interaction データセットである GazeHOI について紹介する。 我々のデータセットであるGazeHOIは、平均時間19.1秒、サブシーケンス812、さまざまなサイズの33のオブジェクトを含む479のシーケンスからなる、視線、手、オブジェクトの相互作用を同時に3Dモデリングする。 本稿では,GHO拡散(GHO-Diffusion)という,視線誘導型手オブジェクト相互作用拡散モデルを中心とした階層型フレームワークを提案する。 拡散前段階では、視線条件を空間的時間的特徴に分離し、目標が情報粒度の異なるレベルに提示する。 拡散相の間、2つの視線条件付き拡散モデルが積み重なり、手対象運動の複雑な合成を単純化する。 ここでは、物体の動き拡散モデルが視線条件に基づいて物体の動きのシーケンスを生成し、手の動き拡散モデルが生成された物体の動きに基づいて手の動きを生成する。 細粒度のゴールポーズアライメントを改善するために,デノナイジングステップを導く球状ガウス制約を導入する。 その後の拡散段階において,接触整合性を用いて生成された手の動きを最適化する。 我々の広範な実験は、我々のデータセットのユニークさと、我々のアプローチの有効性を強調している。

Gaze plays a crucial role in revealing human attention and intention, shedding light on the cognitive processes behind human actions. The integration of gaze guidance with the dynamics of hand-object interactions boosts the accuracy of human motion prediction. However, the lack of datasets that capture the intricate relationship and consistency among gaze, hand, and object movements remains a substantial hurdle. In this paper, we introduce the first Gaze-guided Hand-Object Interaction dataset, GazeHOI, and present a novel task for synthesizing gaze-guided hand-object interactions. Our dataset, GazeHOI, features simultaneous 3D modeling of gaze, hand, and object interactions, comprising 479 sequences with an average duration of 19.1 seconds, 812 sub-sequences, and 33 objects of various sizes. We propose a hierarchical framework centered on a gaze-guided hand-object interaction diffusion model, named GHO-Diffusion. In the pre-diffusion phase, we separate gaze conditions into spatial-temporal features and goal pose conditions at different levels of information granularity. During the diffusion phase, two gaze-conditioned diffusion models are stacked to simplify the complex synthesis of hand-object motions. Here, the object motion diffusion model generates sequences of object motions based on gaze conditions, while the hand motion diffusion model produces hand motions based on the generated object motion. To improve fine-grained goal pose alignment, we introduce a Spherical Gaussian constraint to guide the denoising step. In the subsequent post-diffusion phase, we optimize the generated hand motions using contact consistency. Our extensive experiments highlight the uniqueness of our dataset and the effectiveness of our approach.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# ステップバイステップの合成:Reasoning-based Chart VQAのデータジェネレータとしてのツール,テンプレート,LLM

Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA ( http://arxiv.org/abs/2403.16385v2 )

ライセンス: Link先を確認
Zhuowan Li, Bhavan Jasani, Peng Tang, Shabnam Ghadar, (参考訳) チャートやプロットのようなデータの視覚化を理解するには、ビジュアル要素と数値の両方について推論する必要がある。 抽出的質問では強いが、現在のチャートの視覚的質問応答(チャートVQA)モデルは複雑な推論問題に悩まされる。 本研究では,データ拡張による推論能力の欠如に対処する。 我々は,グラフ画像に対する問合せアノテーションを生成する自動データアノテータとして,推論能力の強い大規模言語モデル(LLM)を活用している。 LLMベースのデータジェネレータは、複雑な質問をステップバイステップのサブクエスト(有理数)に分解して、外部ツール、すなわちPythonを使って最終回答を導出します。 このステップワイズ生成手順は、テンプレートベースのQA生成パイプラインを用いて生成された合成データに基づいて訓練される。 実験結果は,提案したステップバイステップ生成の重要性を浮き彫りにした。 LLM拡張データ(LAMENDA)を用いてトレーニングすることにより、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端精度を達成する。 具体的には,従来の最先端アプローチの精度を,強い推論を必要とするChartQAデータセットの人間による質問では38%から54%に向上させる。 我々の研究は、合成データの可能性を強調し、LLMを用いたさらなるデータ拡張を推し進めることを期待しています。

Understanding data visualizations like charts and plots requires reasoning about both visual elements and numerics. Although strong in extractive questions, current chart visual question answering (chart VQA) models suffer on complex reasoning questions. In this work, we address the lack of reasoning ability by data augmentation. We leverage Large Language Models (LLMs), which have shown to have strong reasoning ability, as an automatic data annotator that generates question-answer annotations for chart images. The key innovation in our method lies in the Synthesize Step-by-Step strategy: our LLM-based data generator learns to decompose the complex question into step-by-step sub-questions (rationales), which are then used to derive the final answer using external tools, i.e. Python. This step-wise generation procedure is trained on synthetic data generated using a template-based QA generation pipeline. Experimental results highlight the significance of the proposed step-by-step generation. By training with the LLM-augmented data (LAMENDA), we significantly enhance the chart VQA models, achieving the state-of-the-art accuracy on the ChartQA and PlotQA datasets. In particular, our approach improves the accuracy of the previous state-of-the-art approach from 38% to 54% on the human-written questions in the ChartQA dataset, which needs strong reasoning. We hope our work underscores the potential of synthetic data and encourages further exploration of data augmentation using LLMs for reasoning-heavy tasks.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# Deep Machining: Latheマシンの加工誤差のオンライン予測

DeepMachining: Online Prediction of Machining Errors of Lathe Machines ( http://arxiv.org/abs/2403.16451v4 )

ライセンス: Link先を確認
Xiang-Li Lu, Hwai-Jung Hsu, Che-Wei Chou, H. T. Kung, Chen-Hsin Lee, Sheng-Mao Cheng, (参考訳) 深層学習に基づくAIシステムDeepMachiningについて述べる。 我々は工場の生産データに基づいてDeepMachiningを構築し評価した。 具体的には、まず、与えられた旋盤の操作に対して深層学習モデルを事前訓練し、加工状態の健全な特徴を学習する。 そして、トレーニング済みのモデルを微調整して、特定の加工タスクに適応する。 我々はDeepMachiningが、異なるワークピースやカットツールを含む複数のタスクに対して高い予測精度を実現することを実証した。 我々の知る限りでは、この研究は、学習済みの深層学習モデルを用いて、機械の加工誤差を予測する最初の工場実験の1つである。

We describe DeepMachining, a deep learning-based AI system for online prediction of machining errors of lathe machine operations. We have built and evaluated DeepMachining based on manufacturing data from factories. Specifically, we first pretrain a deep learning model for a given lathe machine's operations to learn the salient features of machining states. Then, we fine-tune the pretrained model to adapt to specific machining tasks. We demonstrate that DeepMachining achieves high prediction accuracy for multiple tasks that involve different workpieces and cutting tools. To the best of our knowledge, this work is one of the first factory experiments using pre-trained deep-learning models to predict machining errors of lathe machines.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# 局所微分プライバシー、平均ベイズプライバシー、最大ベイズプライバシーの相互作用の解読

Deciphering the Interplay between Local Differential Privacy, Average Bayesian Privacy, and Maximum Bayesian Privacy ( http://arxiv.org/abs/2403.16591v2 )

ライセンス: Link先を確認
Xiaojin Zhang, Yulin Fei, Wei Chen, Hai Jin, (参考訳) 機械学習の急速な進化は、ローカルディファレンシャルプライバシ(LDP)の概念を含む、プライバシに影響を及ぼす脅威によって、さまざまなプライバシ定義の出現につながった。 多くのドメインで広く受け入れられ、利用されてきたが、この従来のプライバシー測定手法は依然として一定の制限を課している。 本稿では,ベイジアン・プライバシと,そのバイジアン・プライバシ・トレードオフに関する新たな知見を公開して,LDPとベイジアン・プライバシの複雑な関係を掘り下げる。 攻撃戦略と防衛戦略の両方をカプセル化したフレームワークを導入し,その相互作用と有効性を強調した。 LDPと最大ベイズプライバシー(MBP)の関係が最初に明らかにされ、均一な事前分布の下では、$\xi$-LDPを満たすメカニズムが$\xi$-MBPを満足し、逆に$\xi$-MBPもまた2$\xi$-LDPを満足することを示した。 我々の次の理論的貢献は、Average Bayesian Privacy (ABP) と Maximum Bayesian Privacy (MBP) の間の厳密な定義と関係に固定され、方程式 $\epsilon_{p,a} \leq \frac{1}{\sqrt{2}}\sqrt{(\epsilon_{p,m} + \epsilon)\cdot(e^{\epsilon_{p,m} + \epsilon} - 1)} でカプセル化される。 これらの関係は、様々なメカニズムによって提供されるプライバシー保証の理解を強化する。 私たちの研究は、将来の経験的探索の基盤となるだけでなく、プライバシ保護アルゴリズムの設計を容易にし、信頼できる機械学習ソリューションの開発を促進することを約束します。

The swift evolution of machine learning has led to emergence of various definitions of privacy due to the threats it poses to privacy, including the concept of local differential privacy (LDP). Although widely embraced and utilized across numerous domains, this conventional approach to measure privacy still exhibits certain limitations, spanning from failure to prevent inferential disclosure to lack of consideration for the adversary's background knowledge. In this comprehensive study, we introduce Bayesian privacy and delve into the intricate relationship between LDP and its Bayesian counterparts, unveiling novel insights into utility-privacy trade-offs. We introduce a framework that encapsulates both attack and defense strategies, highlighting their interplay and effectiveness. The relationship between LDP and Maximum Bayesian Privacy (MBP) is first revealed, demonstrating that under uniform prior distribution, a mechanism satisfying $\xi$-LDP will satisfy $\xi$-MBP and conversely $\xi$-MBP also confers 2$\xi$-LDP. Our next theoretical contribution are anchored in the rigorous definitions and relationships between Average Bayesian Privacy (ABP) and Maximum Bayesian Privacy (MBP), encapsulated by equations $\epsilon_{p,a} \leq \frac{1}{\sqrt{2}}\sqrt{(\epsilon_{p,m} + \epsilon)\cdot(e^{\epsilon_{p,m} + \epsilon} - 1)}$. These relationships fortify our understanding of the privacy guarantees provided by various mechanisms. Our work not only lays the groundwork for future empirical exploration but also promises to facilitate the design of privacy-preserving algorithms, thereby fostering the development of trustworthy machine learning solutions.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# データ汚染に関する考察 : コード言語モデルにおける対策の評価

Concerned with Data Contamination? Assessing Countermeasures in Code Language Model ( http://arxiv.org/abs/2403.16898v2 )

ライセンス: Link先を確認
Jialun Cao, Wuqi Zhang, Shing-Chi Cheung, (参考訳) SEタスクのコード言語モデル(CLM)の機能を活用するために、さまざまなテクニックが提案されている。 これらの手法は一般に一般に公開されているデータセットを用いて有効性を評価するが、評価データセットが既に関連するCLMのトレーニングに使用されているデータ汚染脅威に該当する可能性がある。 これは評価の信頼性に大きな影響を与える可能性がある。 データ汚染の脅威を軽減するために、さまざまな対策が提案されている。 対策としては、最近のデータの使用、新しいデータのキュレーション、既存のデータのリファクタリングなどがあるが、これらの対策が実際にデータ汚染の脅威を軽減し、モデル評価を行うことができるかどうかは不明だ。 このギャップを埋めるために,これらの対策がCLMの性能に与える影響を定量的に研究する。 調査を容易にするため、2018年1月1日から2023年12月31日までのタイムスタンプで200万以上のPython関数を収集しました。 モデルのカットオフ日以前に作成されたデータは「汚染データ」とみなし、対策が取られるデータは「クリーン化データ」とみなす。 各種対策から得られた汚染・浄化データに対するCLMの性能差を調べた結果,これらの対策の効果について検討した。 我々の実験はいくつかの興味深い観察結果をもたらす。 例えば、CLMは、モデルが切り離された後にデータに悪影響を及ぼすとは限らない。 さらに、リファクタリングが必ずしもパフォーマンスを低下させた訳ではなく、代わりに改善につながった。 さらに、パープレキシティのような既存のメトリクスは、汚染された/クレンジされたデータを区別できない。 我々は、CLMの能力の理解を深め、データ汚染についてコミュニティに知らせる上で、結果と観察が役立つことを期待している。

Various techniques have been proposed to leverage the capabilities of code language models (CLMs) for SE tasks. While these techniques typically evaluate their effectiveness using publicly available datasets, the evaluation can be subject to data contamination threats where the evaluation datasets have already been used to train the concerned CLMs. This can significantly affect the reliability of the evaluation. Different countermeasures have been suggested to mitigate the data contamination threat. Countermeasures include using more recent data, curating new data, and refactoring existing data are introduced, yet it is unclear whether these countermeasures could really mitigate data contamination threats to model evaluation. To fill the gap, we systematically study to quantify the impacts of these countermeasures on CLMs' performance. To facilitate the study, we collected over 2 million Python functions with timestamps ranging from January 1st, 2018, to December 31st, 2023. The data created before the models' cut-off date are considered "contaminated data", while the data where the countermeasures are taken are regarded as "cleansed data". We study the impact of these countermeasures by investigating the difference in CLMs' performance on contaminated and cleansed data derived from different countermeasures. Our experiments yield several interesting observations. For instance, CLMs do not necessarily perform worse on data after the models' cut-off date; on the contrary, they sometimes perform better. In addition, refactoring did not always result in decreased performance; it could lead to improvements instead. Furthermore, existing metrics such as perplexity cannot distinguish contaminated/cleansed data. We hope that the results and observations could help deepen the understanding of CLMs' capabilities and inform the community about data contamination.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# 期待対現実:実践における侵入検知システムの評価

Expectations Versus Reality: Evaluating Intrusion Detection Systems in Practice ( http://arxiv.org/abs/2403.17458v3 )

ライセンス: Link先を確認
Jake Hesford, Daniel Cheng, Alan Wan, Larry Huynh, Seungho Kim, Hyoungshick Kim, Jin B. Hong, (参考訳) 本稿は,近年のIDS間の実証的な比較を行い,利用者が要求に応じて最適なソリューションを選択するための客観的比較を行う。 以上の結果から,攻撃の種類や複雑性,データセット内のネットワーク環境など,外部変数に依存するソリューションがひとつもないことが示唆された。 例えば、BoT_IoTとStratosphere IoTデータセットはいずれもIoT関連の攻撃をキャプチャするが、深いニューラルネットワークはBoT_IoTデータセットを使用したテストでは最高、HELADはStratosphere IoTデータセットを使用したテストでは最高だった。 したがって、ディープニューラルネットワークソリューションは、テストされたデータセットで平均的なF1スコアが高かったが、必ずしも最高のパフォーマンスであるとは限らない。 さらに、文献やプロジェクトリポジトリからIDSを使用することの難しさについても論じる。

Our paper provides empirical comparisons between recent IDSs to provide an objective comparison between them to help users choose the most appropriate solution based on their requirements. Our results show that no one solution is the best, but is dependent on external variables such as the types of attacks, complexity, and network environment in the dataset. For example, BoT_IoT and Stratosphere IoT datasets both capture IoT-related attacks, but the deep neural network performed the best when tested using the BoT_IoT dataset while HELAD performed the best when tested using the Stratosphere IoT dataset. So although we found that a deep neural network solution had the highest average F1 scores on tested datasets, it is not always the best-performing one. We further discuss difficulties in using IDS from literature and project repositories, which complicated drawing definitive conclusions regarding IDS selection.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# フェイクかJPEGか? 生成した画像検出データセットの共通バイアスを明らかにする

Fake or JPEG? Revealing Common Biases in Generated Image Detection Datasets ( http://arxiv.org/abs/2403.17608v2 )

ライセンス: Link先を確認
Patrick Grommelt, Louis Weiss, Franz-Josef Pfreundt, Janis Keuper, (参考訳) 生成画像モデルの普及により、人工的コンテンツを検出する緊急の必要性が浮き彫りになってきた。 その結果、多数の検出器と関連するデータセットが出現した。 しかし、これらのデータセットの多くは必然的に望ましくないバイアスを導入し、検出器の有効性と評価に影響を与える。 本稿では,AI生成画像検出のための多くのデータセットにはJPEG圧縮と画像サイズに関するバイアスが含まれていることを強調する。 GenImageデータセットを用いて、検出者がこれらの望ましくない要因から実際に学習できることを実証する。 さらに,名前付きバイアスの除去はJPEG圧縮に対するロバスト性を大幅に向上させ,評価検出器のクロスジェネレータ性能を著しく変化させることを示した。 具体的には、GenImageデータセット上のResNet50とSwin-T検出器のクロスジェネレータ性能が11パーセント以上向上し、最先端の結果が得られた。 我々は匿名のウェブサイトで、この論文のデータセットとソースコードを提供しています。

The widespread adoption of generative image models has highlighted the urgent need to detect artificial content, which is a crucial step in combating widespread manipulation and misinformation. Consequently, numerous detectors and associated datasets have emerged. However, many of these datasets inadvertently introduce undesirable biases, thereby impacting the effectiveness and evaluation of detectors. In this paper, we emphasize that many datasets for AI-generated image detection contain biases related to JPEG compression and image size. Using the GenImage dataset, we demonstrate that detectors indeed learn from these undesired factors. Furthermore, we show that removing the named biases substantially increases robustness to JPEG compression and significantly alters the cross-generator performance of evaluated detectors. Specifically, it leads to more than 11 percentage points increase in cross-generator performance for ResNet50 and Swin-T detectors on the GenImage dataset, achieving state-of-the-art results. We provide the dataset and source codes of this paper on the anonymous website: https://www.unbiased-genimage.org
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# UADA3D:Sparse LiDARとLarge Domain Gapsを用いた3次元物体検出のための教師なし逆数領域適応

UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps ( http://arxiv.org/abs/2403.17633v2 )

ライセンス: Link先を確認
Maciej K Wozniak, Mattias Hansson, Marko Thiel, Patric Jensfelt, (参考訳) 本研究では,LiDARをベースとした3次元物体検出において,既存の教師なし領域適応手法のギャップに対処する。 道路上の車両だけでなく、歩道上の移動ロボットからも、環境条件やセンサーの設定がかなり異なります。 本稿では,3次元物体検出(UADA3D)のための非教師付き反転領域適応法を提案する。 UADA3Dは、事前訓練されたソースモデルや教師-学生アーキテクチャに依存しない。 代わりに、ドメイン不変の機能を直接学習するために、敵対的なアプローチを使う。 様々な適応シナリオにおいて有効性を示し、自動運転車と移動ロボットの両方の領域で顕著に改善されていることを示す。 私たちのコードはオープンソースで、まもなく利用可能になります。

In this study, we address a gap in existing unsupervised domain adaptation approaches on LiDAR-based 3D object detection, which have predominantly concentrated on adapting between established, high-density autonomous driving datasets. We focus on sparser point clouds, capturing scenarios from different perspectives: not just from vehicles on the road but also from mobile robots on sidewalks, which encounter significantly different environmental conditions and sensor configurations. We introduce Unsupervised Adversarial Domain Adaptation for 3D Object Detection (UADA3D). UADA3D does not depend on pre-trained source models or teacher-student architectures. Instead, it uses an adversarial approach to directly learn domain-invariant features. We demonstrate its efficacy in various adaptation scenarios, showing significant improvements in both self-driving car and mobile robot domains. Our code is open-source and will be available soon.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# DANCER: 自動音声認識のためのエンティティ記述拡張エンティティコレクタ

DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition ( http://arxiv.org/abs/2403.17645v2 )

ライセンス: Link先を確認
Yi-Cheng Wang, Hsin-Wei Wang, Bi-Cheng Yan, Chi-Han Lin, Berlin Chen, (参考訳) エンドツーエンドの自動音声認識(E2E ASR)システムは、名前付きエンティティのようなドメイン固有のフレーズの誤転写に悩まされることが多く、ダウンストリームタスクにおいて破滅的な失敗を引き起こすことがある。 ASRのための高速で軽量なエンティティ修正(NEC)モデルが最近提案されている。 しかし、名前付きエンティティ(NE)リストが大きくなるにつれて、NEリストにおける音声的混乱の問題は悪化し、例えば、ホモフォンの曖昧さは大幅に増大する。 そこで我々は、エンティティ記述を活用して、ASR転写におけるNECの音声的混乱を緩和するための追加情報を提供する、Description Augmented Named entity CorrEctoR(dubed DANCER)を提案する。 この目的のために、高密度検索モデルからなる効率的なエンティティ記述拡張マスク言語モデル(EDA-MLM)を導入し、NECタスクのドメイン固有のエンティティに迅速に適応できるようにする。 AISHELL-1とHomophoneデータセットを用いて一連の実験を行い、モデリング手法の有効性を確認した。 DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。 DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。

End-to-end automatic speech recognition (E2E ASR) systems often suffer from mistranscription of domain-specific phrases, such as named entities, sometimes leading to catastrophic failures in downstream tasks. A family of fast and lightweight named entity correction (NEC) models for ASR have recently been proposed, which normally build on phonetic-level edit distance algorithms and have shown impressive NEC performance. However, as the named entity (NE) list grows, the problems of phonetic confusion in the NE list are exacerbated; for example, homophone ambiguities increase substantially. In view of this, we proposed a novel Description Augmented Named entity CorrEctoR (dubbed DANCER), which leverages entity descriptions to provide additional information to facilitate mitigation of phonetic confusion for NEC on ASR transcription. To this end, an efficient entity description augmented masked language model (EDA-MLM) comprised of a dense retrieval model is introduced, enabling MLM to adapt swiftly to domain-specific entities for the NEC task. A series of experiments conducted on the AISHELL-1 and Homophone datasets confirm the effectiveness of our modeling approach. DANCER outperforms a strong baseline, the phonetic edit-distance-based NEC model (PED-NEC), by a character error rate (CER) reduction of about 7% relatively on AISHELL-1 for named entities. More notably, when tested on Homophone that contain named entities of high phonetic confusion, DANCER offers a more pronounced CER reduction of 46% relatively over PED-NEC for named entities.
翻訳日:2024-03-29 10:59:24 公開日:2024-03-28
# オールインワン:コールドスタートレーティング予測のための不均一相互作用モデリング

All-in-One: Heterogeneous Interaction Modeling for Cold-Start Rating Prediction ( http://arxiv.org/abs/2403.17740v2 )

ライセンス: Link先を確認
Shuheng Fang, Kangfei Zhao, Yu Rong, Zhixun Li, Jeffrey Xu Yu, (参考訳) コールドスタート評価の予測は、広く研究されているレコメンデーションシステムにおける根本的な問題である。 協調フィルタリングやソーシャルレコメンデーション,異種情報ネットワークなど,既存のデータ間の明示的な関係を利用して,コールドスタートユーザやアイテムのデータ不足を緩和する手法が数多く提案されている。 しかし、異なる役割間のデータに基づいて構築された明示的な関係は信頼性が低く、関係がない可能性があるため、特定のレコメンデーションタスクのパフォーマンス上限が制限される。 そこで本研究では、異種相互作用評価ネットワーク(HIRE)と呼ばれるフレキシブルなフレームワークを提案する。 HIRE線量は、事前に定義された相互作用パターンや、手動で構築された異種情報ネットワークにのみ依存しない。 代わりに、異種相互作用を共同でモデル化し、観測データを介して重要な相互作用を直接推測するために、異種相互作用モジュール(HIM)を考案する。 実験では,実世界の3つのデータセットに対して,3つのコールドスタート設定でモデルを評価する。 実験の結果,HIREは他のベースラインよりも大きなマージンで優れていた。 さらに、HIREの推論された相互作用を可視化し、モデルの有効性を確認する。

Cold-start rating prediction is a fundamental problem in recommender systems that has been extensively studied. Many methods have been proposed that exploit explicit relations among existing data, such as collaborative filtering, social recommendations and heterogeneous information network, to alleviate the data insufficiency issue for cold-start users and items. However, the explicit relations constructed based on data between different roles may be unreliable and irrelevant, which limits the performance ceiling of the specific recommendation task. Motivated by this, in this paper, we propose a flexible framework dubbed heterogeneous interaction rating network (HIRE). HIRE dose not solely rely on the pre-defined interaction pattern or the manually constructed heterogeneous information network. Instead, we devise a Heterogeneous Interaction Module (HIM) to jointly model the heterogeneous interactions and directly infer the important interactions via the observed data. In the experiments, we evaluate our model under three cold-start settings on three real-world datasets. The experimental results show that HIRE outperforms other baselines by a large margin. Furthermore, we visualize the inferred interactions of HIRE to confirm the contribution of our model.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# 複数選択質問はLLMの能力を検出するのに本当に役立つのか?

Can multiple-choice questions really be useful in detecting the abilities of LLMs? ( http://arxiv.org/abs/2403.17752v2 )

ライセンス: Link先を確認
Wangyue Li, Liangzhi Li, Tong Xiang, Xiao Liu, Wei Deng, Noa Garcia, (参考訳) 複数選択質問(MCQ)は、その単純さと効率性から、大規模言語モデル(LLM)の評価に広く用いられている。 しかし、特に長文生成(LFG)の回答を必要とする知識集約的なシナリオにおいて、MCQがLLMの能力を真に測定できるかどうかには懸念がある。 課題と評価方法のミスアライメントはMCQの有効性の思慮深い分析を必要とするが,本論文では,中国語と英語の4言語からなる質問応答(QA)データセットに対して,9つのLLMを評価した。 LLMはバイリンガルMCQの順序感受性を示し、特定の位置にある答え、すなわち第1位を優先する。 さらに, 直接出力, トークンロジット, 埋め込みを比較することで, MCQとLFGQのギャップを定量化する。 その結果,同一質問に対するMCQとLFGQの回答の相関は比較的低いことがわかった。 さらに、他のQA評価ベンチマークに一般化可能なLCMの出力の一貫性と信頼性を定量化する2つの方法を提案する。 特に、我々の分析は、一貫性が高ければ高いほど精度が上がるという考えに挑戦する。 また,キャリブレーション誤差の予測値から,MCQはLFGQよりも信頼性が低いことも確認した。 最後に、MCQとLFGQの相違は評価性能だけでなく、埋め込み空間にも反映される。 私たちのコードとモデルはhttps://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMsでアクセスできます。

Multiple-choice questions (MCQs) are widely used in the evaluation of large language models (LLMs) due to their simplicity and efficiency. However, there are concerns about whether MCQs can truly measure LLM's capabilities, particularly in knowledge-intensive scenarios where long-form generation (LFG) answers are required. The misalignment between the task and the evaluation method demands a thoughtful analysis of MCQ's efficacy, which we undertake in this paper by evaluating nine LLMs on four question-answering (QA) datasets in two languages: Chinese and English. We identify a significant issue: LLMs exhibit an order sensitivity in bilingual MCQs, favoring answers located at specific positions, i.e., the first position. We further quantify the gap between MCQs and long-form generation questions (LFGQs) by comparing their direct outputs, token logits, and embeddings. Our results reveal a relatively low correlation between answers from MCQs and LFGQs for identical questions. Additionally, we propose two methods to quantify the consistency and confidence of LLMs' output, which can be generalized to other QA evaluation benchmarks. Notably, our analysis challenges the idea that the higher the consistency, the greater the accuracy. We also find MCQs to be less reliable than LFGQs in terms of expected calibration error. Finally, the misalignment between MCQs and LFGQs is not only reflected in the evaluation performance but also in the embedding space. Our code and models can be accessed at https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# LISA: メモリ効率の良い大規模言語モデルファインチューニングのための階層的重要度サンプリング

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning ( http://arxiv.org/abs/2403.17919v2 )

ライセンス: Link先を確認
Rui Pan, Xiang Liu, Shizhe Diao, Renjie Pi, Jipeng Zhang, Chi Han, Tong Zhang, (参考訳) 機械学習コミュニティは、大規模言語モデル(LLM)の最初の登場以来、目覚ましい進歩を遂げてきたが、その膨大なメモリ消費は、大規模なトレーニングの大きな障害となっている。 低ランク適応(LoRA)のようなパラメータ効率の良いファインチューニング技術がこの問題を軽減するために提案されているが、ほとんどの大規模ファインチューニング環境では、その性能は完全なパラメータトレーニングと一致しない。 この欠陥を補うために, 微調整作業におけるLoRAの層状特性を調査し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。 この重要な観察を利用して、驚くほど単純なトレーニング戦略が発見され、LoRAと完全なパラメータトレーニングの両方を、LoRAよりも低いメモリコストで幅広い設定で上回る。 我々は、LRAの有望な代替案であるLayerwise Importance Sampled AdamW (LISA) と命名し、LLMの異なるレイヤに重要サンプリングのアイデアを適用し、最適化中にほとんどのミドルレイヤをランダムに凍結する。 実験結果から、LISAは、GPUメモリ使用量に類似または少なすぎると、下流の微調整タスクにおいてLoRAや完全なパラメータチューニングよりも優れており、MT-Benchスコアの点では、LISAは一貫してLoRAよりも111\%$-37\%$以上のパフォーマンスを示している。 大型モデル、特にLLaMA-2-70Bでは、LISAはMT-Bench、GSM8K、PubMedQAのLoRAよりも高い性能を達成し、様々な領域でその効果を実証している。

The machine learning community has witnessed impressive advancements since the first appearance of large language models (LLMs), yet their huge memory consumption has become a major roadblock to large-scale training. Parameter Efficient Fine-Tuning techniques such as Low-Rank Adaptation (LoRA) have been proposed to alleviate this problem, but their performance still fails to match full parameter training in most large-scale fine-tuning settings. Attempting to complement this deficiency, we investigate layerwise properties of LoRA on fine-tuning tasks and observe an uncommon skewness of weight norms across different layers. Utilizing this key observation, a surprisingly simple training strategy is discovered, which outperforms both LoRA and full parameter training in a wide range of settings with memory costs as low as LoRA. We name it Layerwise Importance Sampled AdamW (LISA), a promising alternative for LoRA, which applies the idea of importance sampling to different layers in LLMs and randomly freeze most middle layers during optimization. Experimental results show that with similar or less GPU memory consumption, LISA surpasses LoRA or even full parameter tuning in downstream fine-tuning tasks, where LISA consistently outperforms LoRA by over $11\%$-$37\%$ in terms of MT-Bench scores. On large models, specifically LLaMA-2-70B, LISA achieves on-par or better performance than LoRA on MT-Bench, GSM8K, and PubMedQA, demonstrating its effectiveness across different domains.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# DORE:ポルトガルの定義生成のためのデータセット

DORE: A Dataset For Portuguese Definition Generation ( http://arxiv.org/abs/2403.18018v2 )

ライセンス: Link先を確認
Anna Beatriz Dimas Furtado, Tharindu Ranasinghe, Frédéric Blain, Ruslan Mitkov, (参考訳) 定義モデリング(英: Definition modelling、DM)とは、特定の単語の辞書定義を自動的に生成するタスクである。 DMが可能な計算システムは、幅広い観客に利益をもたらす多くのアプリケーションを提供できる。 DMは教師付き自然言語生成問題であると考えられており、これらのシステムは機械学習(ML)モデルをトレーニングするために大きな注釈付きデータセットを必要とする。 いくつかのDMデータセットが英語や他の高ソース言語向けにリリースされた。 ポルトガル語は、ほとんどの自然言語処理タスクにおいて、ミッド/ハイリソース言語と見なされており、2億人以上のネイティブスピーカーによって話されているが、ポルトガル語用のDMデータセットは存在しない。 本研究では,10万以上の定義を含むPoRtuguEse用定義モデルリングの最初のデータセットであるDOREを導入することで,このギャップを埋める。 また、DOREに基づく深層学習に基づくDMモデルの評価を行い、その結果を報告する。 本論文のデータセットと知見は,より広い文脈におけるポルトガル語の研究と研究を促進する。

Definition modelling (DM) is the task of automatically generating a dictionary definition for a specific word. Computational systems that are capable of DM can have numerous applications benefiting a wide range of audiences. As DM is considered a supervised natural language generation problem, these systems require large annotated datasets to train the machine learning (ML) models. Several DM datasets have been released for English and other high-resource languages. While Portuguese is considered a mid/high-resource language in most natural language processing tasks and is spoken by more than 200 million native speakers, there is no DM dataset available for Portuguese. In this research, we fill this gap by introducing DORE; the first dataset for Definition MOdelling for PoRtuguEse containing more than 100,000 definitions. We also evaluate several deep learning based DM models on DORE and report the results. The dataset and the findings of this paper will facilitate research and study of Portuguese in wider contexts.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# マスク特異的損失による事前学習型言語モデル感度の向上:バイオメディカルNERを事例として

Improving Pre-trained Language Model Sensitivity via Mask Specific losses: A case study on Biomedical NER ( http://arxiv.org/abs/2403.18025v2 )

ライセンス: Link先を確認
Micheal Abaho, Danushka Bollegala, Gary Leeming, Dan Joyce, Iain E Buchan, (参考訳) 言語モデル(LM)を新しいドメインに適応させることは、ドメイン固有のデータに基づいて事前訓練されたLM(PLM)を微調整することでしばしば達成される。 ファインチューニングは、LMに新しい知識を導入し、ターゲットドメインタスクを理解し、効率的に実行できるようにする。 しかし、微調整は、ソースドメインとターゲットドメインの間の幅広い相違(例えば、単語の意味)を無視している場合、不注意に非感受性となる。 例えば、慢性的な言葉やプレッシャーのような単語は、社会的会話において軽快に扱われることがあるが、臨床的には、これらの単語は通常、関心の表現である。 微調整におけるドメイン固有語の重要性を適切に重み付けすることで,対象ドメインの知識を効率的に獲得する手法であるマスク特化言語モデリング(MSLM)を提案する。 MSLMはDS-termsとジェネリックワードを併用してマスク固有の損失を学習し、ジェネリックワードと比較して不正確なDS-termsを予測するために、LMがより大きな罰則を課すことを保証する。 分析の結果,MSLMはDS項の感度と検出を改善した。 実験により,最適なマスキング速度はLMだけでなく,データセットやシーケンスの長さにも依存することが示された。 提案するマスキング戦略は,スパンマスクやPMIマスクなどの高度なマスキング戦略よりも優れている。

Adapting language models (LMs) to novel domains is often achieved through fine-tuning a pre-trained LM (PLM) on domain-specific data. Fine-tuning introduces new knowledge into an LM, enabling it to comprehend and efficiently perform a target domain task. Fine-tuning can however be inadvertently insensitive if it ignores the wide array of disparities (e.g in word meaning) between source and target domains. For instance, words such as chronic and pressure may be treated lightly in social conversations, however, clinically, these words are usually an expression of concern. To address insensitive fine-tuning, we propose Mask Specific Language Modeling (MSLM), an approach that efficiently acquires target domain knowledge by appropriately weighting the importance of domain-specific terms (DS-terms) during fine-tuning. MSLM jointly masks DS-terms and generic words, then learns mask-specific losses by ensuring LMs incur larger penalties for inaccurately predicting DS-terms compared to generic words. Results of our analysis show that MSLM improves LMs sensitivity and detection of DS-terms. We empirically show that an optimal masking rate not only depends on the LM, but also on the dataset and the length of sequences. Our proposed masking strategy outperforms advanced masking strategies such as span- and PMI-based masking.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# 部分観測による種発生パターンの予測

Predicting Species Occurrence Patterns from Partial Observations ( http://arxiv.org/abs/2403.18028v2 )

ライセンス: Link先を確認
Hager Radi Abdelwahed, Mélisande Teng, David Rolnick, (参考訳) 生物多様性と気候危機の相互関係に対処するためには、種の発生場所とこれらのパターンがどのように変化しているかを理解する必要がある。 しかし、ほとんどの種の観測データは非常に限られており、利用可能なデータの量は分類群によって大きく異なる。 種発生パターンの予測問題について紹介する。 (a)衛星画像、及び (b)他の種の発生に関する既知の情報。 そこで本研究では,サトバタフライ(SatButterfly)について,サトバタフライ(SatButterfly)という,サトバタフライの衛星画像,環境データ,観察データのデータセットを紹介した。 この課題に対処するために,見いだされた部分的な観測データの利用を可能にする種発生パターンを予測するための一般モデルR-Tranを提案する。 R-Tranは、分類群(鳥類)と分類群(鳥類と蝶)の双方で、部分的な情報で種の出現率を予測する他の方法よりも優れていることが判明した。 我々のアプローチは、豊富なデータを持つ種から、少ないデータを持つ種への洞察を、共生する生態系をモデル化することで、新たな視点を開拓する。

To address the interlinked biodiversity and climate crises, we need an understanding of where species occur and how these patterns are changing. However, observational data on most species remains very limited, and the amount of data available varies greatly between taxonomic groups. We introduce the problem of predicting species occurrence patterns given (a) satellite imagery, and (b) known information on the occurrence of other species. To evaluate algorithms on this task, we introduce SatButterfly, a dataset of satellite images, environmental data and observational data for butterflies, which is designed to pair with the existing SatBird dataset of bird observational data. To address this task, we propose a general model, R-Tran, for predicting species occurrence patterns that enables the use of partial observational data wherever found. We find that R-Tran outperforms other methods in predicting species encounter rates with partial information both within a taxon (birds) and across taxa (birds and butterflies). Our approach opens new perspectives to leveraging insights from species with abundant data to other species with scarce data, by modelling the ecosystems in which they co-occur.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# 大規模言語モデルのための信号伝搬解析による量子化知識蒸留の改善

Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models ( http://arxiv.org/abs/2403.18159v2 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Kyunggeun Lee, Jun Ma, Harris Teague, (参考訳) 大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。 しかし、その遅い推論、高い計算とメモリ要求は、エッジデバイスへのデプロイを困難にしている。 本研究では,知識蒸留(KD-QAT)を用いた軽量量子化対応微調整手法を提案する。 低ビット量子化誤差に対するKD-QATベースのアプローチの脆弱性をよりよく理解するために、トレーニング中の勾配伝播を実証的に研究することで、KD-QATの安定性に関する洞察を提供する。 そこで本研究では, KD-QAT プロセスの安定化のための簡単な手法である ov-freeze を提案する。 最後に、一般的な7B LLaMAv2-Chatモデルを4ビット量子化レベルで実験し、ovフリーズが近い浮動小数点精度、すなわちCommonsense Reasoningベンチマークで0.7%の精度の損失をもたらすことを示す。

Large generative models such as large language models (LLMs) and diffusion models have revolutionized the fields of NLP and computer vision respectively. However, their slow inference, high computation and memory requirement makes it challenging to deploy them on edge devices. In this study, we propose a light-weight quantization aware fine tuning technique using knowledge distillation (KD-QAT) to improve the performance of 4-bit weight quantized LLMs using commonly available datasets to realize a popular language use case, on device chat applications. To improve this paradigm of finetuning, as main contributions, we provide insights into stability of KD-QAT by empirically studying the gradient propagation during training to better understand the vulnerabilities of KD-QAT based approaches to low-bit quantization errors. Based on our insights, we propose ov-freeze, a simple technique to stabilize the KD-QAT process. Finally, we experiment with the popular 7B LLaMAv2-Chat model at 4-bit quantization level and demonstrate that ov-freeze results in near floating point precision performance, i.e., less than 0.7% loss of accuracy on Commonsense Reasoning benchmarks.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# 中国語の攻撃的言語検出:現状と今後の方向性

Chinese Offensive Language Detection:Current Status and Future Directions ( http://arxiv.org/abs/2403.18314v2 )

ライセンス: Link先を確認
Yunze Xiao, Houda Bouamor, Wajdi Zaghouani, (参考訳) ソーシャルメディアプラットフォーム上でユーザー生成コンテンツを監視・規制するためのかなりの努力にもかかわらず、ヘイトスピーチやサイバーいじめのような攻撃的な言語がデジタル空間に広まることは大きな課題である。 文明化され、尊敬されるオンライン環境を維持することの重要性を考えると、攻撃的な音声をリアルタイムで検出できる自動システムの必要性は急速に高まっている。 しかし、中国語などの言語処理に有効なシステムを開発することは、言語が複雑でニュアンスに富んだ性質のため重要な課題であり、自動処理が困難である。 本稿では、中国語における攻撃的言語検出の総合的な概要、現在のベンチマークとアプローチ、この複雑な言語における攻撃的言語検出の独特な課題に対処するための特定のモデルとツールの強調について述べる。 本調査の主な目的は,中国語の文化的・言語的複雑さに対処可能な,既存の手法を探求し,さらなる研究の道筋を明らかにすることである。

Despite the considerable efforts being made to monitor and regulate user-generated content on social media platforms, the pervasiveness of offensive language, such as hate speech or cyberbullying, in the digital space remains a significant challenge. Given the importance of maintaining a civilized and respectful online environment, there is an urgent and growing need for automatic systems capable of detecting offensive speech in real time. However, developing effective systems for processing languages such as Chinese presents a significant challenge, owing to the language's complex and nuanced nature, which makes it difficult to process automatically. This paper provides a comprehensive overview of offensive language detection in Chinese, examining current benchmarks and approaches and highlighting specific models and tools for addressing the unique challenges of detecting offensive language in this complex language. The primary objective of this survey is to explore the existing techniques and identify potential avenues for further research that can address the cultural and linguistic complexities of Chinese.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# H2ASeg:PET/CT画像における腫瘍分離のための階層的適応的相互作用と重み付けネットワーク

H2ASeg: Hierarchical Adaptive Interaction and Weighting Network for Tumor Segmentation in PET/CT Images ( http://arxiv.org/abs/2403.18339v2 )

ライセンス: Link先を確認
Jinpeng Lu, Jingyun Chen, Linghan Cai, Songhan Jiang, Yongbing Zhang, (参考訳) PET(Positron emission tomography)とCT(Computed tomography)の併用は、補完情報を提供することで、がんの診断や予後に日常的に用いられている。 PET/CT画像における腫瘍の自動分画は検査効率を著しく向上させる。 従来のマルチモーダルセグメンテーションソリューションは主にモダリティ融合の連結操作に依存しており、PETとCTの非線型依存性を効果的にモデル化することができない。 近年,関節表現の高度化のために,モダリティ特異的な特徴の融合を最適化するための様々な手法が研究されている。 しかし、これらの手法で使用されるモダリティ特異的エンコーダは、PETとCTのモダリティに固有の相乗的関係、例えば意味論と構造の間の相補的関係を不適切に利用して、独立に動作する。 これらの問題に対処するため,H2ASeg という階層型適応的相互作用と重み付けネットワークを提案し,本質的な相互関係を探索し,潜在的な相補的情報を伝達する。 具体的には,モダリティ・コラボレーティブ・スペース・アテンション(MCSA)モジュールを設計し,グローバルかつ局所的にモーダル内およびモーダル間相互作用を行う。 さらに,Target-Aware Modality Weighting (TAMW)モジュールが開発され,マルチモーダル特徴における腫瘍関連特徴が強調され,腫瘍のセグメンテーションが洗練される。 これらのモジュールを異なる層に埋め込むことで、H2ASegは階層的にクロスモーダルな相関をモデル化し、意味的および構造的腫瘍の特徴の微妙な理解を可能にする。 H2ASeg は AutoPet-II と Hecktor2022 ベンチマークにおける最先端の手法よりも優れていた。 コードはhttps://github.com/JinPLu/H2ASegで公開されている。

Positron emission tomography (PET) combined with computed tomography (CT) imaging is routinely used in cancer diagnosis and prognosis by providing complementary information. Automatically segmenting tumors in PET/CT images can significantly improve examination efficiency. Traditional multi-modal segmentation solutions mainly rely on concatenation operations for modality fusion, which fail to effectively model the non-linear dependencies between PET and CT modalities. Recent studies have investigated various approaches to optimize the fusion of modality-specific features for enhancing joint representations. However, modality-specific encoders used in these methods operate independently, inadequately leveraging the synergistic relationships inherent in PET and CT modalities, for example, the complementarity between semantics and structure. To address these issues, we propose a Hierarchical Adaptive Interaction and Weighting Network termed H2ASeg to explore the intrinsic cross-modal correlations and transfer potential complementary information. Specifically, we design a Modality-Cooperative Spatial Attention (MCSA) module that performs intra- and inter-modal interactions globally and locally. Additionally, a Target-Aware Modality Weighting (TAMW) module is developed to highlight tumor-related features within multi-modal features, thereby refining tumor segmentation. By embedding these modules across different layers, H2ASeg can hierarchically model cross-modal correlations, enabling a nuanced understanding of both semantic and structural tumor features. Extensive experiments demonstrate the superiority of H2ASeg, outperforming state-of-the-art methods on AutoPet-II and Hecktor2022 benchmarks. The code is released at https://github.com/JinPLu/H2ASeg.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# 多モーダル大言語モデルにおける単モーダルビアーゼの定量化と緩和:因果的視点

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective ( http://arxiv.org/abs/2403.18346v2 )

ライセンス: Link先を確認
Meiqi Chen, Yixin Cao, Yan Zhang, Chaochao Lu, (参考訳) 近年,Large Language Models (LLMs) が発展し,MLLM (Multimodal LLMs) の開発が進められている。 その印象的な能力にもかかわらず、MLLMは不動バイアス(例えば言語バイアスや視覚バイアス)の過度な信頼性に悩まされ、複雑なマルチモーダルタスクにおける誤った回答につながる。 本稿では,視覚質問応答(VQA)問題におけるバイアスを解析するための因果的枠組みを提案する。 本稿では,VQA問題におけるMLLMの予測を解明するための因果グラフを考案し,詳細な因果解析によりバイアスの因果効果を評価する。 因果グラフに触発され、12,000のVQAインスタンスからなる新しいMOREデータセットを導入する。 このデータセットは、MLLMの能力に挑戦し、マルチホップ推論を必要とし、ユニモーダルバイアスを克服するように設計されている。 さらに,限定アクセス型MLLMのためのDeVA(Decompose-Verify-Answer)フレームワークや,微調整によるオープンソースのMLLMの改良など,MLLMの推論能力を向上させるための2つの戦略を提案する。 大規模で質的な実験は、将来の研究に貴重な洞察を与える。 私たちのプロジェクトページはhttps://opencausalab.github.io/MOREです。

Recent advancements in Large Language Models (LLMs) have facilitated the development of Multimodal LLMs (MLLMs). Despite their impressive capabilities, MLLMs often suffer from an over-reliance on unimodal biases (e.g., language bias and vision bias), leading to incorrect answers in complex multimodal tasks. To investigate this issue, we propose a causal framework to interpret the biases in Visual Question Answering (VQA) problems. Within our framework, we devise a causal graph to elucidate the predictions of MLLMs on VQA problems, and assess the causal effect of biases through an in-depth causal analysis. Motivated by the causal graph, we introduce a novel MORE dataset, consisting of 12,000 VQA instances. This dataset is designed to challenge MLLMs' abilities, necessitating multi-hop reasoning and the surmounting of unimodal biases. Furthermore, we propose two strategies to mitigate unimodal biases and enhance MLLMs' reasoning capabilities, including a Decompose-Verify-Answer (DeVA) framework for limited-access MLLMs and the refinement of open-source MLLMs through fine-tuning. Extensive quantitative and qualitative experiments offer valuable insights for future research. Our project page is at https://opencausalab.github.io/MORE.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# ViTAR:どんな解像度でも使えるヴィジュアルトランス

ViTAR: Vision Transformer with Any Resolution ( http://arxiv.org/abs/2403.18361v2 )

ライセンス: Link先を確認
Qihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang, (参考訳) 本稿では、視覚変換器(ViT)が直面している重要な課題に対処する。 通常、ViTはトレーニング中に見られるものと異なる処理解像度で性能低下を経験する。 私たちの研究は、この問題に対処する2つの重要なイノベーションを紹介します。 まず,高効率なインクリメンタルトークン統合を実現するために,単一のTransformerブロックで設計した動的解像度調整モジュールを提案する。 第二に、視覚変換器にファジィ位置符号化を導入し、複数の解像度に一貫した位置認識を提供することにより、任意のトレーニング解像度に過度に適合しないようにする。 我々のモデルであるViTAR(Vision Transformer with Any Resolution)は、計算コストを削減しつつ、1120x1120の解像度で83.3\%、4032x4032の解像度で80.4\%の精度で、優れた適応性を示す。 ViTARはまた、インスタンスやセマンティックセグメンテーションといった下流タスクのパフォーマンスも高く、Masked AutoEncoderのような自己教師付き学習技術と簡単に組み合わせることができる。 我々の研究は、ViTの解像度スケーラビリティを向上し、より汎用的で効率的な高解像度画像処理を実現するためのコスト効率の高いソリューションを提供する。

This paper tackles a significant challenge faced by Vision Transformers (ViTs): their constrained scalability across different image resolutions. Typically, ViTs experience a performance decline when processing resolutions different from those seen during training. Our work introduces two key innovations to address this issue. Firstly, we propose a novel module for dynamic resolution adjustment, designed with a single Transformer block, specifically to achieve highly efficient incremental token integration. Secondly, we introduce fuzzy positional encoding in the Vision Transformer to provide consistent positional awareness across multiple resolutions, thereby preventing overfitting to any single training resolution. Our resulting model, ViTAR (Vision Transformer with Any Resolution), demonstrates impressive adaptability, achieving 83.3\% top-1 accuracy at a 1120x1120 resolution and 80.4\% accuracy at a 4032x4032 resolution, all while reducing computational costs. ViTAR also shows strong performance in downstream tasks such as instance and semantic segmentation and can easily combined with self-supervised learning techniques like Masked AutoEncoder. Our work provides a cost-effective solution for enhancing the resolution scalability of ViTs, paving the way for more versatile and efficient high-resolution image processing.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# FlexEdit: フレキシブルで制御可能な拡散ベースのオブジェクト中心の画像編集

FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing ( http://arxiv.org/abs/2403.18605v2 )

ライセンス: Link先を確認
Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham, (参考訳) 我々の研究は、形状の相違による非現実的な結果や、オブジェクトの置換や挿入の制限など、オブジェクト中心の編集問題に対する従来のアプローチに見られる制限に対処する。 この目的のために、FlexEditというフレキシブルで制御可能なオブジェクトの編集フレームワークを導入し、FlexEditブロックを使って各デノナイズステップでレイトを反復的に調整します。 最初は、特定のオブジェクトの制約に合わせるために、テスト時に遅延を最適化します。 そこで,本フレームワークでは,対象画像に新たなコンテンツをシームレスにブレンドしながら,背景を保護するために適応マスクを自動抽出する。 オブジェクト編集タスクにおけるFlexEditの汎用性を実証し、実画像と合成画像の両方からのサンプルと、オブジェクト中心の編集用に設計された新しい評価指標を用いて評価テストスイートをキュレートする。 我々は様々な編集シナリオについて広範な実験を行い、最近の先進的なテキスト誘導画像編集手法よりも編集フレームワークの優位性を実証した。 私たちのプロジェクトページはhttps://flex-edit.github.io/で公開されています。

Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a flexible and controllable editing framework for objects where we iteratively adjust latents at each denoising step using our FlexEdit block. Initially, we optimize latents at test time to align with specified object constraints. Then, our framework employs an adaptive mask, automatically extracted during denoising, to protect the background while seamlessly blending new content into the target image. We demonstrate the versatility of FlexEdit in various object editing tasks and curate an evaluation test suite with samples from both real and synthetic images, along with novel evaluation metrics designed for object-centric editing. We conduct extensive experiments on different editing scenarios, demonstrating the superiority of our editing framework over recent advanced text-guided image editing methods. Our project page is published at https://flex-edit.github.io/.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# FPGAを用いたUAV用ニューラルスラスト制御

FPGA-Based Neural Thrust Controller for UAVs ( http://arxiv.org/abs/2403.18703v2 )

ライセンス: Link先を確認
Sharif Azem, David Scheunert, Mengguang Li, Jonas Gehrunger, Kai Cui, Christian Hochberger, Heinz Koeppl, (参考訳) 無人航空機(UAV)の出現は、最先端のアルゴリズムを実装するための汎用的で費用対効果の高いプラットフォームを提供することによって、様々な分野を改善した。 幅広いタスクを達成するために、複雑さと動的環境条件に対処するために、オンボードコンピューティングを強化する必要性が高まっている。 近年、深層ニューラルネットワーク(DNN)、特に強化学習(RL)と組み合わせて、UAVの適応性と性能、特に未知の環境での応用が進んでいる。 しかし、DNNの計算要求は、多くのUAVで利用可能な限られた計算資源に挑戦する。 本研究では、この課題に対する実行可能なソリューションとして、フィールドプログラマブルゲートアレイ(FPGA)の使用について検討し、柔軟性、高性能、エネルギー、時間効率を提供する。 本稿では,Artix-7 FPGAを搭載した,オープンソースのマイクロUAVプラットフォーム用の新しいハードウェアボードを提案する。 実世界実験を用いて,RLに基づく低レベルコントローラの実装により,その機能検証に成功した。

The advent of unmanned aerial vehicles (UAVs) has improved a variety of fields by providing a versatile, cost-effective and accessible platform for implementing state-of-the-art algorithms. To accomplish a broader range of tasks, there is a growing need for enhanced on-board computing to cope with increasing complexity and dynamic environmental conditions. Recent advances have seen the application of Deep Neural Networks (DNNs), particularly in combination with Reinforcement Learning (RL), to improve the adaptability and performance of UAVs, especially in unknown environments. However, the computational requirements of DNNs pose a challenge to the limited computing resources available on many UAVs. This work explores the use of Field Programmable Gate Arrays (FPGAs) as a viable solution to this challenge, offering flexibility, high performance, energy and time efficiency. We propose a novel hardware board equipped with an Artix-7 FPGA for a popular open-source micro-UAV platform. We successfully validate its functionality by implementing an RL-based low-level controller using real-world experiments.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# 多目的進化的影響の最大化:分散、予算、公正、時間

Many-Objective Evolutionary Influence Maximization: Balancing Spread, Budget, Fairness, and Time ( http://arxiv.org/abs/2403.18755v2 )

ライセンス: Link先を確認
Elia Cunegatti, Leonardo Lucio Custode, Giovanni Iacca, (参考訳) インフルエンス・最大化(IM)問題は、情報伝達を最大限に広めることのできるグラフ内のノードの集合を見つけ出そうとする。 この問題はNPハードであることが知られており、通常、影響(スプレッド)を最大化し、任意に第二の目的を最適化することで研究される。 しかし、多くの実践的なシナリオでは、IM問題の複数の側面を同時に最適化する必要がある。 本研究では,シードセットサイズの影響の最大化と最小化に加えて,予算,公平性,コミュニティ,時間といったIM固有の目的関数が最適化された最初のケーススタディを提案する。 そこで本研究では、NSGA-IIに基づくMOEIM(Multi-Objective Evolutionary Algorithm for Influence Maximization)を提案する。 我々は,9つのグラフデータセット,2つのヒューリスティック手法,関連するMOEA,最先端のDeep Learningアプローチを含む2つの実験的な設定でMOEIMを比較した。 実験の結果、MOEIMはテストされた多目的設定の大部分において、総合的に競合他社を上回っていることがわかった。 結論として,目的間の相関についても検討し,新たな知見を得た。 コードベースはhttps://github.com/eliacunegatti/MOEIMで公開されている。

The Influence Maximization (IM) problem seeks to discover the set of nodes in a graph that can spread the information propagation at most. This problem is known to be NP-hard, and it is usually studied by maximizing the influence (spread) and, optionally, optimizing a second objective, such as minimizing the seed set size or maximizing the influence fairness. However, in many practical scenarios multiple aspects of the IM problem must be optimized at the same time. In this work, we propose a first case study where several IM-specific objective functions, namely budget, fairness, communities, and time, are optimized on top of the maximization of influence and minimization of the seed set size. To this aim, we introduce MOEIM (Many-Objective Evolutionary Algorithm for Influence Maximization) a Multi-Objective Evolutionary Algorithm (MOEA) based on NSGA-II incorporating graph-aware operators and a smart initialization. We compare MOEIM in two experimental settings, including a total of nine graph datasets, two heuristic methods, a related MOEA, and a state-of-the-art Deep Learning approach. The experiments show that MOEIM overall outperforms the competitors in most of the tested many-objective settings. To conclude, we also investigate the correlation between the objectives, leading to novel insights into the topic. The codebase is available at https://github.com/eliacunegatti/MOEIM.
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28
# ECoDepth:単眼深度推定のための拡散モデルの効率的な条件付け

ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation ( http://arxiv.org/abs/2403.18807v2 )

ライセンス: Link先を確認
Suraj Patni, Aradhye Agarwal, Chetan Arora, (参考訳) パララックス・キューが存在しない場合、学習に基づく単一画像深度推定(SIDE)モデルは、画像のシェーディングと文脈的キューに大きく依存する。 この単純さは魅力的だが、大きなデータセットやさまざまなデータセットでそのようなモデルをトレーニングする必要がある。 CLIPのような事前訓練された基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善されることが示されている。 このことから着想を得て、本稿では、事前学習したViTモデルから生成されたグローバル画像の事前利用について検討し、より詳細な文脈情報を提供する。 大規模なデータセット上で事前学習されたViTモデルからの埋め込みベクトルは、疑似画像キャプションを生成する通常の経路よりもSIDEの関連情報をキャプチャし、次にCLIPベースのテキスト埋め込みを行う。 そこで本研究では,ViT埋め込みを前提とした拡散バックボーンを用いた新しいSIDEモデルを提案する。 提案手法は,現在のSOTA(VPD)の0.069に対して,Abs Rel誤差0.059(14%の改善)を達成し,NYUv2データセット上でSIDEのための新しい最先端SOTA(State-of-the-art)を確立する。 そして、KITTIデータセットでは、現在のSOTA(GEDepth)の0.142に比べてSq Rel誤差が0.139(2%改善)である。 また,NYUv2でトレーニングしたモデルを用いたゼロショット転送では,ZoeDepthによる16%,18%,45%,9%に比べてNeWCRFよりも20%,23%,81%,25%の相対的な改善(Sun-RGBD,iBims1,DIODE,HyperSim)が見られた。 コードはhttps://ecodepth-iitd.github.ioで公開されている。

In the absence of parallax cues, a learning-based single image depth estimation (SIDE) model relies heavily on shading and contextual cues in the image. While this simplicity is attractive, it is necessary to train such models on large and varied datasets, which are difficult to capture. It has been shown that using embeddings from pre-trained foundational models, such as CLIP, improves zero shot transfer in several applications. Taking inspiration from this, in our paper we explore the use of global image priors generated from a pre-trained ViT model to provide more detailed contextual information. We argue that the embedding vector from a ViT model, pre-trained on a large dataset, captures greater relevant information for SIDE than the usual route of generating pseudo image captions, followed by CLIP based text embeddings. Based on this idea, we propose a new SIDE model using a diffusion backbone which is conditioned on ViT embeddings. Our proposed design establishes a new state-of-the-art (SOTA) for SIDE on NYUv2 dataset, achieving Abs Rel error of 0.059(14% improvement) compared to 0.069 by the current SOTA (VPD). And on KITTI dataset, achieving Sq Rel error of 0.139 (2% improvement) compared to 0.142 by the current SOTA (GEDepth). For zero-shot transfer with a model trained on NYUv2, we report mean relative improvement of (20%, 23%, 81%, 25%) over NeWCRFs on (Sun-RGBD, iBims1, DIODE, HyperSim) datasets, compared to (16%, 18%, 45%, 9%) by ZoeDepth. The code is available at https://ecodepth-iitd.github.io
翻訳日:2024-03-29 10:49:40 公開日:2024-03-28