このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240609となっている論文です。

PDF登録状況(公開日: 20240609)

TitleAuthorsAbstract論文公表日・翻訳日
# グラフニューラルネットワークを用いたデータ駆動無線環境マップ推定

Data-Driven Radio Environment Map Estimation Using Graph Neural Networks ( http://arxiv.org/abs/2407.07713v1 )

ライセンス: Link先を確認
Ali Shibli, Tahar Zanouda, (参考訳) 無線環境マップ(REM)はTelecomにおける多くのアプリケーションにとって不可欠である。 正確な無線環境マップ(REM)の構築は、ここ数十年で重要かつ困難なトピックとなっている。 本稿では,グラフニューラルネットワークを用いてREMを推定する手法を提案する。 このアプローチでは、物理セル情報と疎ジオロケーション信号強度測定の両方を用いてREMを推定する。 この方法はまず、モバイルネットワークのカバレッジ領域をグラフに分割してエンコードする。 次に、基準信号受信電力(RSRP)と基準信号受信品質(RSRQ)の指標を特徴とする疎ジオロケーション信号強度測定をグラフニューラルネットワークモデルに入力し、REMを推定する。 提案アーキテクチャは,ネットワークアクセスネットワークノードの位置や既知の測定値の空間的近接と対照的に,ネットワーク全体の空間的依存関係を捕捉するグラフニューラルネットワークの利点を継承する。

Radio Environment Maps (REMs) are crucial for numerous applications in Telecom. The construction of accurate Radio Environment Maps (REMs) has become an important and challenging topic in recent decades. In this paper, we present a method to estimate REMs using Graph Neural Networks. This approach utilizes both physical cell information and sparse geo-located signal strength measurements to estimate REMs. The method first divides and encodes mobile network coverage areas into a graph. Then, it inputs sparse geo-located signal strength measurements, characterized by Reference Signal Received Power (RSRP) and Reference Signal Received Quality (RSRQ) metrics, into a Graph Neural Network Model to estimate REMs. The proposed architecture inherits the advantages of a Graph Neural Network to capture the spatial dependencies of network-wide coverage in contrast with network Radio Access Network node locations and spatial proximity of known measurements.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-09
# Text2VP:ビジュアルプログラミングとパラメトリックモデリングのための生成AI

Text2VP: Generative AI for Visual Programming and Parametric Modeling ( http://arxiv.org/abs/2407.07732v1 )

ライセンス: Link先を確認
Guangxi Feng, Wei Yan, (参考訳) 生成人工知能(AI)のアーキテクチャ設計への統合は、テキスト、画像、および3Dモデルを生成するAIの最近の進歩によって、大きな進化が見られた。 しかしながら、自由形式設計や設計オプションの最適化など、さまざまな設計オプションを生成するためにアーキテクチャ設計で使用されるテキストからパラメトリックモデルのためのモデルは存在しない。 本研究は、GPT-4から派生したテキスト・ツー・ビジュアルプログラミング(Text2VP)GPTを利用して、パラメトリック・モデリングにおける生成AIの革新的な応用を創出し、研究する。 主な焦点は、AI生成スクリプトを通じてパラメータとパラメータ間のリンクを含むグラフベースのビジュアルプログラミングワークフローの自動生成であり、ユーザの設計意図を正確に反映し、ユーザがインタラクティブにパラメータ値を変更することを可能にする。 Text2VP GPTカスタマイズプロセスでは、ビジュアルプログラミング言語コンポーネント、サンプル駆動の少ショット学習、特定の指導ガイドの詳細と完全なドキュメントが使用されている。 我々のテストでは、動作パラメトリックモデルを生成するText2VPの機能を示す。 例えば、より複雑なパラメトリックモデル生成は、より高いエラー率をもたらす。 この研究は、ビジュアルプログラミングとパラメトリックモデリングにおける生成AIの可能性を強調し、より高度で複雑なモデリングタスクを効果的に扱うための将来の拡張の基礎を定めている。 この研究の目的は、デザイナーがGrasshopperのような特定のプログラミング言語を学習することなくデザインモデルを作成、変更できるようにすることである。

The integration of generative artificial intelligence (AI) into architectural design has witnessed a significant evolution, marked by the recent advancements in AI to generate text, images, and 3D models. However, no models exist for text-to-parametric models that are used in architectural design for generating various design options, including free-form designs, and optimizing the design options. This study creates and investigates an innovative application of generative AI in parametric modeling by leveraging a customized Text-to-Visual Programming (Text2VP) GPT derived from GPT-4. The primary focus is on automating the generation of graph-based visual programming workflows, including parameters and the links among the parameters, through AI-generated scripts, accurately reflecting users' design intentions and allowing the users to change the parameter values interactively. The Text2VP GPT customization process utilizes detailed and complete documentation of the visual programming language components, example-driven few-shot learning, and specific instructional guides. Our testing demonstrates Text2VP's capability to generate working parametric models. The paper also discusses the limitations of Text2VP; for example, more complex parametric model generation introduces higher error rates. This research highlights the potential of generative AI in visual programming and parametric modeling and sets a foundation for future enhancements to handle more sophisticated and intricate modeling tasks effectively. The study aims to allow designers to create and change design models without significant effort in learning a specific programming language such as Grasshopper.
翻訳日:2024-07-22 13:58:01 公開日:2024-06-09
# 単純さ:メッシュフリー、幾何学非依存、弾性シミュレーション

Simplicits: Mesh-Free, Geometry-Agnostic, Elastic Simulation ( http://arxiv.org/abs/2407.09497v1 )

ライセンス: Link先を確認
Vismay Modi, Nicholas Sharp, Or Perel, Shinjiro Sueda, David I. W. Levin, (参考訳) 明示的なメッシュから暗黙のニューラルネットワークに至るまでの3D表現の拡散は、表現に非依存なシミュレータの必要性を動機付けている。 大規模で非線形な変形を受ける任意の幾何学的表現における任意の物体に対する弾性シミュレーションのための,データ,メッシュ,グリッドフリーな解を提案する。 すべての標準幾何表現は、空間上の任意の点で待ち行列に縮めることができ、この共通インタフェース上のシミュレータを定義することに注意する。 各物体に対して、空間的に変化する重みを符号化する小さな暗黙のニューラルネットワークを適合させ、変形の低減基盤として機能させる。 これらの重みは、ランダムな摂動によって物体の物理的に重要な動きを学ぶために訓練される。 我々の損失は、変形体積のモンテカルロサンプリングを通して弾性エネルギーを統計的に評価することにより、変形エネルギーを最も最小化する重量空間基底を見つけることを保証する。 実行時に、還元された基底をシミュレートし、変形を元の領域に戻す。 実験では, 距離関数, 点雲, ニューラルプリミティブ, トモグラフィスキャン, 放射場, ガウススプラット, 表面メッシュ, 体積メッシュなど, 様々な物質エネルギー, 接触モデル, 時間積分スキームを含むデータに対して, このアプローチの汎用性, 精度, 速度を実証した。

The proliferation of 3D representations, from explicit meshes to implicit neural fields and more, motivates the need for simulators agnostic to representation. We present a data-, mesh-, and grid-free solution for elastic simulation for any object in any geometric representation undergoing large, nonlinear deformations. We note that every standard geometric representation can be reduced to an occupancy function queried at any point in space, and we define a simulator atop this common interface. For each object, we fit a small implicit neural network encoding spatially varying weights that act as a reduced deformation basis. These weights are trained to learn physically significant motions in the object via random perturbations. Our loss ensures we find a weight-space basis that best minimizes deformation energy by stochastically evaluating elastic energies through Monte Carlo sampling of the deformation volume. At runtime, we simulate in the reduced basis and sample the deformations back to the original domain. Our experiments demonstrate the versatility, accuracy, and speed of this approach on data including signed distance functions, point clouds, neural primitives, tomography scans, radiance fields, Gaussian splats, surface meshes, and volume meshes, as well as showing a variety of material energies, contact models, and time integration schemes.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-09
# クリエイティブエージェンシーとセルフフードによる人工知能の構築

Building Artificial Intelligence with Creative Agency and Self-hood ( http://arxiv.org/abs/2407.10978v1 )

ライセンス: Link先を確認
Liane Gabora, Joscha Bach, (参考訳) 本論文は,最終ページで紹介された論文の学術的概要について紹介する。 自己触媒ネットワークの形式的枠組みは、生物進化の過程にある生物、文化進化を駆動する新規性を生み出す心、あるいは大きな言語モデルのような人工知能ネットワークである、自己組織的で自己持続的な構造の起源をモデル化する手段を提供する。 このアプローチは、他のアプローチで難解であることが証明された、非常に複雑なネットワークにおけるフェーズ遷移を分析および検出するために使用することができ、自律的でエージェント的なAI自己構築への有望な道のりを示唆している。 このような自己触媒型AIが、人間のものと似た創造的なエージェンシーを持ち、創造的なタスクへの関与を通じて、心理的に治癒する、すなわち治療的な内部変革を行うであろうと期待することは理にかなっているように思われる。 さらに、創造的なタスクは、そのようなAIがその自己同一性を固めるのに役立つと期待されている。

This paper is an invited layperson summary for The Academic of the paper referenced on the last page. We summarize how the formal framework of autocatalytic networks offers a means of modeling the origins of self-organizing, self-sustaining structures that are sufficiently complex to reproduce and evolve, be they organisms undergoing biological evolution, novelty-generating minds driving cultural evolution, or artificial intelligence networks such as large language models. The approach can be used to analyze and detect phase transitions in vastly complex networks that have proven intractable with other approaches, and suggests a promising avenue to building an autonomous, agentic AI self. It seems reasonable to expect that such an autocatalytic AI would possess creative agency akin to that of humans, and undergo psychologically healing -- i.e., therapeutic -- internal transformation through engagement in creative tasks. Moreover, creative tasks would be expected to help such an AI solidify its self-identity.
翻訳日:2024-07-22 12:49:16 公開日:2024-06-09
# CVPR 2024耐候性データセットチャレンジの技術的報告:ペアドリアルデータのセマンティックセグメンテーション

Technical Report for CVPR 2024 WeatherProof Dataset Challenge: Semantic Segmentation on Paired Real Data ( http://arxiv.org/abs/2407.01579v1 )

ライセンス: Link先を確認
Guojin Cao, Jiaxu Li, Jia He, Ying Min, Yunhao Zhang, (参考訳) 本技術報告では,CVPR'24 UG2 ウェザープローフデータセットチャレンジにおける2回目の勝利について述べる。 この課題は、世界中の様々な天候によって劣化した画像のセマンティックセグメンテーションを目標とする。 我々は、インターンイメージという訓練済みの大規模視覚基盤モデルを導入してこの問題に対処し、異なるレベルのノイズを持つ画像を用いてそれを訓練した。 さらに、トレーニング手順には追加のデータセットは使用せず、最終テスト手順では、後処理として高密度CRFを使用しました。 その結果、45.1mIOUで2位となり、他の優勝者より少なかった。

This technical report presents the implementation details of 2nd winning for CVPR'24 UG2 WeatherProof Dataset Challenge. This challenge aims at semantic segmentation of images degraded by various degrees of weather from all around the world. We addressed this problem by introducing a pre-trained large-scale vision foundation model: InternImage, and trained it using images with different levels of noise. Besides, we did not use additional datasets in the training procedure and utilized dense-CRF as post-processing in the final testing procedure. As a result, we achieved 2nd place in the challenge with 45.1 mIOU and fewer submissions than the other winners.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-09
# 拡散モデルの大域的特性をデータグループに寄与する効率的な共有値

Efficient Shapley Values for Attributing Global Properties of Diffusion Models to Data Group ( http://arxiv.org/abs/2407.03153v1 )

ライセンス: Link先を確認
Chris Lin, Mingyu Lu, Chanwoo Kim, Su-In Lee, (参考訳) 拡散モデルが現実世界の環境で展開されるため、高品質なトレーニングデータのコントリビュータに対する公正な承認と有害なコンテンツソースの特定のために、データ属性が必要である。 以前の研究は、与えられた画像の生成に重要な個別のトレーニングサンプルを特定することに焦点を当てていた。 しかし、与えられた画像に焦点をあてる代わりに、拡散モデル(例えば、人口多様性)によって学習された分布のグローバルな性質を理解する必要があるユースケースもある。 さらに、拡散モデルのトレーニングデータは、独立したグループではなくグループ(例えば、同じアーティストの複数のアートワーク)に寄贈されることが多い。 そこで本研究では,拡散モデルのグローバルな特性をトレーニングデータ群にもたらす問題に取り組む。 具体的には,モデルプルーニングと微調整を利用して,シェープリー値の効率よく推定する手法を開発した。 私たちは3つのユースケースで、我々の方法の有用性を実証的に実証します。 (i)CIFARデータセットで訓練したDDPMのグローバル画質 (二)CelebA本社で訓練を受けたLCMの人口多様性 安定拡散モデルLoRAの全体的な審美的品質について検討した。

As diffusion models are deployed in real-world settings, data attribution is needed to ensure fair acknowledgment for contributors of high-quality training data and to identify sources of harmful content. Previous work focuses on identifying individual training samples important for the generation of a given image. However, instead of focusing on a given generated image, some use cases require understanding global properties of the distribution learned by a diffusion model (e.g., demographic diversity). Furthermore, training data for diffusion models are often contributed in groups rather than separately (e.g., multiple artworks from the same artist). Hence, here we tackle the problem of attributing global properties of diffusion models to groups of training data. Specifically, we develop a method to efficiently estimate Shapley values by leveraging model pruning and fine-tuning. We empirically demonstrate the utility of our method with three use cases: (i) global image quality for a DDPM trained on a CIFAR dataset, (ii) demographic diversity for an LDM trained on CelebA-HQ, and (iii) overall aesthetic quality for a Stable Diffusion model LoRA-finetuned on Post-Impressionist artworks.
翻訳日:2024-07-07 13:14:55 公開日:2024-06-09
# リアルタイム動注視目標追跡と深さレベル推定

Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation ( http://arxiv.org/abs/2406.18595v1 )

ライセンス: Link先を確認
Esmaeil Seraj, Harsh Bhate, Walter Talamonti, (参考訳) 車両におけるヘッドアップディスプレイ(HUD)など、さまざまな用途における透明ディスプレイ(TD)の統合は、ユーザエクスペリエンスに革命をもたらす、急成長する分野である。 しかし、このイノベーションは、特に動的に変化するTDに対するユーザの視線を正確に識別し、追跡することにおいて、リアルタイムのヒューマンデバイスインタラクションにおいて重大な課題を引き起こします。 本稿では,(1)透明ディスプレイに投影された視線ターゲット(移動,サイズ変更,重なり合う2Dコンテンツ)をリアルタイムに検出・追跡するツリーベースアルゴリズム,(2)目追跡データから人間の視線深度を推定するマルチストリーム自己認識アーキテクチャを用いて,ディスプレイの透明性を考慮し,TDとの望ましくない相互作用を防止する。 私たちは、視線監視システムのトレーニングとテストを行うために、現実世界の視線追跡データセットを収集しました。 本稿では,システム・オン・チップ (SoC) 評価ボード上での推論実験や,静的・動的両方の状況におけるモデルのスケーラビリティ,精度,リアルタイム実現可能性について述べる。 弊社のソリューションは、次世代のユーザデバイスインタラクションとエクスペリエンスの向上に大きく貢献し、ダイナミック透明ディスプレイにおけるアルゴリズムによる視線監視技術のベンチマークを新たに設定した。

The integration of Transparent Displays (TD) in various applications, such as Heads-Up Displays (HUDs) in vehicles, is a burgeoning field, poised to revolutionize user experiences. However, this innovation brings forth significant challenges in realtime human-device interaction, particularly in accurately identifying and tracking a user's gaze on dynamically changing TDs. In this paper, we present a two-fold robust and efficient systematic solution for realtime gaze monitoring, comprised of: (1) a tree-based algorithm for identifying and dynamically tracking gaze targets (i.e., moving, size-changing, and overlapping 2D content) projected on a transparent display, in realtime; (2) a multi-stream self-attention architecture to estimate the depth-level of human gaze from eye tracking data, to account for the display's transparency and preventing undesired interactions with the TD. We collected a real-world eye-tracking dataset to train and test our gaze monitoring system. We present extensive results and ablation studies, including inference experiments on System on Chip (SoC) evaluation boards, demonstrating our model's scalability, precision, and realtime feasibility in both static and dynamic contexts. Our solution marks a significant stride in enhancing next-generation user-device interaction and experience, setting a new benchmark for algorithmic gaze monitoring technology in dynamic transparent displays.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-09
# 非有界騒音下でのマニフォールドフィッティング

Manifold Fitting under Unbounded Noise ( http://arxiv.org/abs/1909.10228v3 )

ライセンス: Link先を確認
Zhigang Yao, Yuqing Xia, (参考訳) 非ユークリッド統計学では、高次元データに基づく低次元構造、すなわち多様体の回復を目指す傾向が出現している。 多様体を復元するには、ある濃度のノイズを必要とする。 既存の手法では、各サンプル点における接空間推定に基づいて近似多様体を構築することでこの問題に対処している。 これらの手法の理論的収束は保証されているが、サンプルはノイズレスかノイズ境界である。 しかし、一般的なシナリオである雑音が非有界であれば、ノイズサンプルの接空間推定は曖昧になる。 ぼやけた接空間から多様体を置けば不正確性が増す。 本稿では, サンプル点ではなく, 基礎多様体上の射影点の接空間を直接推定し, ノイズによる誤差を低減し, 出力多様体を構成する新しい多様体適合法を提案する。 雑音が非有界であると仮定すると、我々の新しい手法は、推定された多様体と基礎多様体の間の距離の上限という観点から、高い確率で理論収束を与える。 推定多様体の滑らかさは、上の2倍の差の上限を有界にすることによって評価される。 数値解析により, 解析結果の妥当性を検証し, 本手法の他の多様体フィッティング法に対する利点を実証する。 最後に,本手法を実データ例に適用する。

There has been an emerging trend in non-Euclidean statistical analysis of aiming to recover a low dimensional structure, namely a manifold, underlying the high dimensional data. Recovering the manifold requires the noise to be of certain concentration. Existing methods address this problem by constructing an approximated manifold based on the tangent space estimation at each sample point. Although theoretical convergence for these methods is guaranteed, either the samples are noiseless or the noise is bounded. However, if the noise is unbounded, which is a common scenario, the tangent space estimation at the noisy samples will be blurred. Fitting a manifold from the blurred tangent space might increase the inaccuracy. In this paper, we introduce a new manifold-fitting method, by which the output manifold is constructed by directly estimating the tangent spaces at the projected points on the underlying manifold, rather than at the sample points, to decrease the error caused by the noise. Assuming the noise is unbounded, our new method provides theoretical convergence in high probability, in terms of the upper bound of the distance between the estimated and underlying manifold. The smoothness of the estimated manifold is also evaluated by bounding the supremum of twice difference above. Numerical simulations are provided to validate our theoretical findings and demonstrate the advantages of our method over other relevant manifold fitting methods. Finally, our method is applied to real data examples.
翻訳日:2024-06-23 14:09:06 公開日:2024-06-09
# ビジネスにおけるLCMのメリットの実態調査

A Reality check of the benefits of LLM in business ( http://arxiv.org/abs/2406.10249v1 )

ライセンス: Link先を確認
Ming Cheung, (参考訳) 大規模言語モデル(LLM)は、大量のオンラインテキストを活用することで、言語理解と生成タスクにおいて顕著なパフォーマンスを達成した。 従来のモデルとは異なり、LCMは、再トレーニングを必要とせずに、迅速なエンジニアリングを通じて新しいドメインに適応することができ、戦略計画、プロジェクト実装、データ駆動意思決定など、さまざまなビジネス機能に適合する。 しかしながら、バイアス、文脈的理解、そして現実のアプリケーションに対する準備性に対する不安を喚起する感受性の点で制限されている。 ビジネスプロセスにおけるLCMの有用性と準備性について概説する。 LLMの限界と容量は、実世界のデータを用いて4つのLLMに対して行われた実験により評価される。 この発見は、生成的AIを活用し、将来の研究方向性に関する貴重な洞察を提供する組織に重要な意味を持つ。 私たちの知る限りでは、これは中核的なビジネスオペレーションや課題に適用されたLCMの定量化研究である。

Large language models (LLMs) have achieved remarkable performance in language understanding and generation tasks by leveraging vast amounts of online texts. Unlike conventional models, LLMs can adapt to new domains through prompt engineering without the need for retraining, making them suitable for various business functions, such as strategic planning, project implementation, and data-driven decision-making. However, their limitations in terms of bias, contextual understanding, and sensitivity to prompts raise concerns about their readiness for real-world applications. This paper thoroughly examines the usefulness and readiness of LLMs for business processes. The limitations and capacities of LLMs are evaluated through experiments conducted on four accessible LLMs using real-world data. The findings have significant implications for organizations seeking to leverage generative AI and provide valuable insights into future research directions. To the best of our knowledge, this represents the first quantified study of LLMs applied to core business operations and challenges.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-09
# 推定統計の不確実性を考慮したレコメンダシステムのロバストポートフォリオ最適化

Robust portfolio optimization for recommender systems considering uncertainty of estimated statistics ( http://arxiv.org/abs/2406.10250v1 )

ライセンス: Link先を確認
Tomoya Yanagi, Shunnosuke Ikeda, Yuichi Takano, (参考訳) 本稿では,推薦項目の精度と多様性のバランスをとるために,推奨項目の高品質リストを作成するためのポートフォリオ最適化モデルについて検討する。 しかし、平均分散ポートフォリオ最適化に必要な統計(すなわち、評価の期待と共分散)は、避けられない推定誤差を伴っている。 この状況を改善するため、不確実な最適化問題に対する信頼性の高い解決策を導出する堅牢な最適化手法に焦点をあてる。 具体的には,基数に基づく不確実性集合に基づく推定統計の不確実性に対応する,ロバストなポートフォリオ最適化モデルを提案する。 このロバストなポートフォリオ最適化モデルは混合整数線形最適化問題に還元することができ、数学的最適化解法を用いて正確に解ける。 2つの公開評価データセットを用いた実験結果から,提案手法は推薦精度だけでなく,従来の平均分散ポートフォリオ最適化モデルと比較して推薦の多様性も向上できることが示された。 特に,本手法は,各種評価予測アルゴリズムの推薦品質を向上させる可能性がある。

This paper is concerned with portfolio optimization models for creating high-quality lists of recommended items to balance the accuracy and diversity of recommendations. However, the statistics (i.e., expectation and covariance of ratings) required for mean--variance portfolio optimization are subject to inevitable estimation errors. To remedy this situation, we focus on robust optimization techniques that derive reliable solutions to uncertain optimization problems. Specifically, we propose a robust portfolio optimization model that copes with the uncertainty of estimated statistics based on the cardinality-based uncertainty sets. This robust portfolio optimization model can be reduced to a mixed-integer linear optimization problem, which can be solved exactly using mathematical optimization solvers. Experimental results using two publicly available rating datasets demonstrate that our method can improve not only the recommendation accuracy but also the diversity of recommendations compared with conventional mean--variance portfolio optimization models. Notably, our method has the potential to improve the recommendation quality of various rating prediction algorithms.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-09
# 誤り訂正符号の係数グラフ最適化

Factor Graph Optimization of Error-Correcting Codes for Belief Propagation Decoding ( http://arxiv.org/abs/2406.12900v1 )

ライセンス: Link先を確認
Yoni Choukroun, Lior Wolf, (参考訳) 効率的な復号化が可能な最適線形ブロック符号の設計は特に短いブロック長において大きな関心事である。 低密度パリティ・チェック符号(LDPC符号)は、キャパシティ適応符号に近く、他の種類の符号よりもいくつかの利点があるが、最も注目すべきは、ベルイフ・プロパゲーションによる効率的な復号法である。 多くのLDPC符号設計手法が存在するが、現代の短い符号長の制約を満たす効率的なスパース符号の開発は依然として課題である。 本研究では,スパース符号の設計のためのデータ駆動型アプローチを初めて提案する。 本研究では,チャネルノイズシミュレーションにより,Facter graph(Tanner graph)の学習を通して,Breief Propagation Decodingに関する局所最適符号を開発する。 これはBelief Propagationアルゴリズムのテンソル表現によって実現され、バックプロパゲーションと効率的な直線探索法を組み合わせることで有限体上で最適化される。 提案手法は,既存の人気符号の復号性能を桁違いに向上させ,コード設計におけるデータ駆動方式のパワーを実証する。

The design of optimal linear block codes capable of being efficiently decoded is of major concern, especially for short block lengths. As near capacity-approaching codes, Low-Density Parity-Check (LDPC) codes possess several advantages over other families of codes, the most notable being its efficient decoding via Belief Propagation. While many LDPC code design methods exist, the development of efficient sparse codes that meet the constraints of modern short code lengths and accommodate new channel models remains a challenge. In this work, we propose for the first time a data-driven approach for the design of sparse codes. We develop locally optimal codes with respect to Belief Propagation decoding via the learning on the Factor graph (also called the Tanner graph) under channel noise simulations. This is performed via a novel tensor representation of the Belief Propagation algorithm, optimized over finite fields via backpropagation coupled with an efficient line-search method. The proposed approach is shown to outperform the decoding performance of existing popular codes by orders of magnitude and demonstrates the power of data-driven approaches for code design.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-09
# 大規模液体シンチレータ検出器における電子反ニュートリノ選択のための解釈可能な機械学習手法

Interpretable machine learning approach for electron antineutrino selection in a large liquid scintillator detector ( http://arxiv.org/abs/2406.12901v1 )

ライセンス: Link先を確認
A. Gavrikov, V. Cerrone, A. Serafini, R. Brugnera, A. Garfagnini, M. Grassi, B. Jelmini, L. Lastrucci, S. Aiello, G. Andronico, V. Antonelli, A. Barresi, D. Basilico, M. Beretta, A. Bergnoli, M. Borghesi, A. Brigatti, R. Bruno, A. Budano, B. Caccianiga, A. Cammi, R. Caruso, D. Chiesa, C. Clementi, S. Dusini, A. Fabbri, G. Felici, F. Ferraro, M. G. Giammarchi, N. Giugice, R. M. Guizzetti, N. Guardone, C. Landini, I. Lippi, S. Loffredo, L. Loi, P. Lombardi, C. Lombardo, F. Mantovani, S. M. Mari, A. Martini, L. Miramonti, M. Montuschi, M. Nastasi, D. Orestano, F. Ortica, A. Paoloni, E. Percalli, F. Petrucci, E. Previtali, G. Ranucci, A. C. Re, M. Redchuck, B. Ricci, A. Romani, P. Saggese, G. Sava, C. Sirignano, M. Sisti, L. Stanco, E. Stanescu Farilla, V. Strati, M. D. C. Torri, A. Triossi, C. Tuvé, C. Venettacci, G. Verde, L. Votano, (参考訳) いくつかのニュートリノ検出器、KamLAND、Daya Bay、Double Chooz、RENO、そして近く登場する大規模なJUNOは、原子炉の反ニュートリノ相互作用を検出する液体シンチレータに依存している。 この文脈では、逆ベータ崩壊はアンチニュートリノ検出のための黄金のチャネルを表し、相関する事象のペアを提供し、様々な背景からシグナルを識別するための強力な実験的シグネチャを与える。 しかし、反ニュートリノ相互作用の低い断面積を考えると、強力なイベント選択アルゴリズムの開発は、信号と背景を効果的に識別するために必須となる。 本研究では,この目的を達成するために,大規模な液体シンチレータ検出器のための強力な信号バックグラウンド識別器として,完全に接続されたニューラルネットワークを用いた機械学習(ML)モデルを提案する。 JUNO検出器を例として、カットベースアプローチの効率が既に高いにもかかわらず、提示されたMLモデルにより、イベント選択効率がさらに向上できることを実証する。 さらに、検出エッジでの信号イベントの保持も可能で、それ以外は、その領域の背景イベントが圧倒的に多いため拒否される可能性がある。 また,反応器ニュートリノ実験におけるイベント選択のためのML手法の解釈可能な最初の解析を行った。 この方法は、モデルの意思決定プロセスに関する洞察を提供し、伝統的なイベント選択アプローチを改善し、更新するための貴重な情報を提供する。

Several neutrino detectors, KamLAND, Daya Bay, Double Chooz, RENO, and the forthcoming large-scale JUNO, rely on liquid scintillator to detect reactor antineutrino interactions. In this context, inverse beta decay represents the golden channel for antineutrino detection, providing a pair of correlated events, thus a strong experimental signature to distinguish the signal from a variety of backgrounds. However, given the low cross-section of antineutrino interactions, the development of a powerful event selection algorithm becomes imperative to achieve effective discrimination between signal and backgrounds. In this study, we introduce a machine learning (ML) model to achieve this goal: a fully connected neural network as a powerful signal-background discriminator for a large liquid scintillator detector. We demonstrate, using the JUNO detector as an example, that, despite the already high efficiency of a cut-based approach, the presented ML model can further improve the overall event selection efficiency. Moreover, it allows for the retention of signal events at the detector edges that would otherwise be rejected because of the overwhelming amount of background events in that region. We also present the first interpretable analysis of the ML approach for event selection in reactor neutrino experiments. This method provides insights into the decision-making process of the model and offers valuable information for improving and updating traditional event selection approaches.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-09
# GFPack++: 意図したグラディエントフィールド学習による2次元不規則パッケージの改善

GFPack++: Improving 2D Irregular Packing by Learning Gradient Field with Attention ( http://arxiv.org/abs/2406.07579v1 )

ライセンス: Link先を確認
Tianyang Xue, Lin Lu, Yang Liu, Mingdong Wu, Hao Dong, Yanbin Zhang, Renmin Han, Baoquan Chen, (参考訳) 2次元不規則パッキングは、材料利用やテクスチャアトラス生成など、様々な応用において古典的な組合せ最適化問題である。 このNPハード問題は、空間利用を最適化する効率的なアルゴリズムを必要とする。 従来の数値法では、収束が遅く、計算コストが高い。 スコアベース拡散モデルのような既存の学習ベースの手法にも、回転支持の欠如、頻繁な衝突、任意の境界への適応性の低下、推論の遅さといった制限がある。 教師パッキングから学ぶことの難しさは、オブジェクトの空間的(位置、向き)関係、幾何学的特徴、コンテナ境界条件など、パッキングの例間の複雑な幾何学的関係を捉えることである。 これらの関係を潜在空間で表現することは困難である。 本稿では,この課題に対処する注目型勾配場学習手法GFPack++を提案する。 それは、効果的な特徴符号化のための \emph{attention-based geometry encoding} と、複雑な関係を学ぶための \emph{attention-based relation encoding} の2つの重要な戦略から構成される。 本研究では,教師データと推論データの利用状況について検討し,訓練中の教師データの厳密化を優先する重み付け関数を設計し,学習効率の向上を図る。 我々の拡散モデルは連続的な回転をサポートし、様々なデータセット上で既存の手法より優れている。 広範に使用されているベースラインよりも高い空間利用を実現し、従来の拡散ベース手法よりも1次高速で、任意の境界に対する有望な一般化を実現した。 この方向のさらなる研究を支援するために、ソースコードとデータセットをリリースする予定です。

2D irregular packing is a classic combinatorial optimization problem with various applications, such as material utilization and texture atlas generation. This NP-hard problem requires efficient algorithms to optimize space utilization. Conventional numerical methods suffer from slow convergence and high computational cost. Existing learning-based methods, such as the score-based diffusion model, also have limitations, such as no rotation support, frequent collisions, and poor adaptability to arbitrary boundaries, and slow inferring. The difficulty of learning from teacher packing is to capture the complex geometric relationships among packing examples, which include the spatial (position, orientation) relationships of objects, their geometric features, and container boundary conditions. Representing these relationships in latent space is challenging. We propose GFPack++, an attention-based gradient field learning approach that addresses this challenge. It consists of two pivotal strategies: \emph{attention-based geometry encoding} for effective feature encoding and \emph{attention-based relation encoding} for learning complex relationships. We investigate the utilization distribution between the teacher and inference data and design a weighting function to prioritize tighter teacher data during training, enhancing learning effectiveness. Our diffusion model supports continuous rotation and outperforms existing methods on various datasets. We achieve higher space utilization over several widely used baselines, one-order faster than the previous diffusion-based method, and promising generalization for arbitrary boundaries. We plan to release our source code and datasets to support further research in this direction.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-09
# DMS: 現実的対人攻撃のさらなるステップで情報損失に対処

DMS: Addressing Information Loss with More Steps for Pragmatic Adversarial Attacks ( http://arxiv.org/abs/2406.07580v1 )

ライセンス: Link先を確認
Zhiyu Zhu, Jiayu Zhang, Xinyi Wang, Zhibo Jin, Huaming Chen, (参考訳) 異なるドメインにわたるディープニューラルネットワーク(DNN)の例外的なパフォーマンスにもかかわらず、特にコンピュータビジョンに関連するタスクにおいて、敵のサンプルに対して脆弱である。 このような脆弱性はコンピュータで使用されるデジタルコンテナ形式によってさらに影響を受けており、離散数値はピクセル値を保存するために一般的に使用される。 本稿では,ファイル形式における情報損失が敵攻撃の有効性に与える影響について検討する。 特に、非整数画素値の情報損失による敵攻撃性能の顕著な障害を観察する。 この問題に対処するために、モデル内の攻撃サンプルの勾配情報を活用し、情報損失を軽減することを検討する。 本研究では,DMS-AIとDMS-ASの2つの基本手法を基礎として,DMS-AIとDMS-AIの2つのアルゴリズムを提案する。 我々のゴールは、これらの敵対的サンプルをデジタルに保存する際の攻撃性能を維持するために、そのような損失の少ないプロセスを緩和することである。 特に、DMS-AIは勾配方向に応じて非整数画素値を整数化し、DMS-ASは属性結果を比較して非整数画素を選択する。 我々は,DMS-AIとDMS-ASの2つの大規模データセットへの実装を含む,アプローチの有効性を評価するための徹底的な実験を行った。 DMS-AI と DMS-AS の整数化手法は,攻撃の整合性を維持する上で,ラウンドリング,トランカッキング,アッパーアプローチなどの標準的な手法よりも優れていることが実証された。

Despite the exceptional performance of deep neural networks (DNNs) across different domains, they are vulnerable to adversarial samples, in particular for tasks related to computer vision. Such vulnerability is further influenced by the digital container formats used in computers, where the discrete numerical values are commonly used for storing the pixel values. This paper examines how information loss in file formats impacts the effectiveness of adversarial attacks. Notably, we observe a pronounced hindrance to the adversarial attack performance due to the information loss of the non-integer pixel values. To address this issue, we explore to leverage the gradient information of the attack samples within the model to mitigate the information loss. We introduce the Do More Steps (DMS) algorithm, which hinges on two core techniques: gradient ascent-based \textit{adversarial integerization} (DMS-AI) and integrated gradients-based \textit{attribution selection} (DMS-AS). Our goal is to alleviate such lossy process to retain the attack performance when storing these adversarial samples digitally. In particular, DMS-AI integerizes the non-integer pixel values according to the gradient direction, and DMS-AS selects the non-integer pixels by comparing attribution results. We conduct thorough experiments to assess the effectiveness of our approach, including the implementations of the DMS-AI and DMS-AS on two large-scale datasets with various latest gradient-based attack methods. Our empirical findings conclusively demonstrate the superiority of our proposed DMS-AI and DMS-AS pixel integerization methods over the standardised methods, such as rounding, truncating and upper approaches, in maintaining attack integrity.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-09
# ハイブリッド機械学習アルゴリズムによるイネ種子の純度同定法

A novel method for identifying rice seed purity based on hybrid machine learning algorithms ( http://arxiv.org/abs/2406.07581v1 )

ライセンス: Link先を確認
Phan Thi-Thu-Hong, Vo Quoc-Trinh, Nguyen Huu-Du, (参考訳) 穀物産業では、種子の品質を評価する上で重要な要素として、種子の純度の同定が重要である。 この性質により、米の収量、栄養組成、価格に対する他の品種の予期せぬ影響を低減できる。 しかし、実際には他人の種と混ざり合うことが多い。 本研究では,ハイブリッド機械学習アルゴリズムを用いて,特定の品種のイネ種子の純度を自動的に同定する手法を提案する。 主な考え方は、ディープラーニングアーキテクチャを使って生データから重要な特徴を抽出し、機械学習アルゴリズムを使って分類することだ。 提案モデルの性能評価を実践的に実施した上で,いくつかの実験を行った。 その結果,本手法は既存手法の性能を大幅に向上することがわかった。 これにより、イネの純度を効果的に識別するシステムの設計に応用できる。

In the grain industry, the identification of seed purity is a crucial task as it is an important factor in evaluating the quality of seeds. For rice seeds, this property allows for the reduction of unexpected influences of other varieties on rice yield, nutrient composition, and price. However, in practice, they are often mixed with seeds from others. This study proposes a novel method for automatically identifying the rice seed purity of a certain rice variety based on hybrid machine learning algorithms. The main idea is to use deep learning architectures for extracting important features from the raw data and then use machine learning algorithms for classification. Several experiments are conducted following a practical implementation to evaluate the performance of the proposed model. The obtained results show that the novel method improves significantly the performance of existing methods. Thus, it can be applied to design effective identification systems for rice seed purity.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-09
# OceanCastNet:エネルギーを節約した深層学習型海洋波モデル

OceanCastNet: A Deep Learning Ocean Wave Model with Energy Conservation ( http://arxiv.org/abs/2406.03848v2 )

ライセンス: Link先を確認
Ziliang Zhang, Huaming Yu, Danqin Ren, (参考訳) 従来の波動予測モデルは、エネルギー保存方程式に基づくが、計算上は高価である。 一方、既存の深層学習の物理流体モデルでは、計算効率は高いが、長期的な予測ではエネルギー散逸などの問題に悩まされることが多い。 本論文では,OceanCastNet (OCN) と呼ばれる新しいエネルギーバランスの深いディープラーニング波予測モデルを提案する。 入力変数として、現在の、以前の、将来の時間ステップの風力場と、現在の、以前の時間ステップの波力場を組み込むことにより、OCNはモデル内のエネルギー収支を維持する。 さらに、このモデルでは、適応的なフーリエ演算子をコアコンポーネントとして使用し、陸域境界の影響をよりよく扱うためにマスク付き損失関数を設計する。 ERA5データセットの一連の実験により、OCNは波生成過程の理解を示しながら、従来のモデルに匹敵する短期予測精度を達成できることが示されている。 正常かつ極端な条件下での比較実験では、OCNは業界で広く使われているWaveWatch IIIモデルよりも一貫して優れている。 長期の予測の後でも、OCNは安定でエネルギー豊富な状態を維持している。 本稿では,エネルギー収支を考慮した簡易気象モデルOCN-windの構築により,ディープラーニング気象モデルの長期予測性能向上のためのエネルギー制約の重要性を確認する。 この発見は、深層学習の物理流体モデルの研究に新たなアイデアをもたらす。

Traditional wave forecasting models, although based on energy conservation equations, are computationally expensive. On the other hand, existing deep learning geophysical fluid models, while computationally efficient, often suffer from issues such as energy dissipation in long-term forecasts. This paper proposes a novel energy-balanced deep learning wave forecasting model called OceanCastNet (OCN). By incorporating wind fields at the current, previous, and future time steps, as well as wave fields at the current and previous time steps as input variables, OCN maintains energy balance within the model. Furthermore, the model employs adaptive Fourier operators as its core components and designs a masked loss function to better handle the impact of land-sea boundaries. A series of experiments on the ERA5 dataset demonstrate that OCN can achieve short-term forecast accuracy comparable to traditional models while exhibiting an understanding of the wave generation process. In comparative experiments under both normal and extreme conditions, OCN consistently outperforms the widely used WaveWatch III model in the industry. Even after long-term forecasting, OCN maintains a stable and energy-rich state. By further constructing a simple meteorological model, OCN-wind, which considers energy balance, this paper confirms the importance of energy constraints for improving the long-term forecast performance of deep learning meteorological models. This finding provides new ideas for future research on deep learning geophysical fluid models.
翻訳日:2024-06-12 21:24:05 公開日:2024-06-09
# SPA-SVC:歌声変換のための自己教師型ピッチ拡張

SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion ( http://arxiv.org/abs/2406.05692v1 )

ライセンス: Link先を確認
Bingsong Bai, Fengping Wang, Yingming Gao, Ya Li, (参考訳) 拡散に基づく歌唱音声変換(SVC)モデルでは,従来の手法と比較して合成品質が向上している。 しかし、ソースとターゲットの音声領域のピッチに大きな違いがあるクロスドメインSVCのシナリオでは、モデルは粗い音声を生成する傾向があり、高品質な音声出力を実現する上での課題を提起する。 そこで本稿では,SVCタスクにおける音声品質を,追加データやモデルパラメータの増大を伴わずに向上させる,SPA-SVCの自己教師型ピッチ拡張手法を提案する。 我々は,SVCモデルに周期ピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失を導入し,その性能を効果的に向上する。 歌唱データセットM4Singerの実験結果から,提案手法は一般的なSVCシナリオ,特にクロスドメインSVCシナリオにおいて,モデル性能を大幅に向上させることが示された。

Diffusion-based singing voice conversion (SVC) models have shown better synthesis quality compared to traditional methods. However, in cross-domain SVC scenarios, where there is a significant disparity in pitch between the source and target voice domains, the models tend to generate audios with hoarseness, posing challenges in achieving high-quality vocal outputs. Therefore, in this paper, we propose a Self-supervised Pitch Augmentation method for Singing Voice Conversion (SPA-SVC), which can enhance the voice quality in SVC tasks without requiring additional data or increasing model parameters. We innovatively introduce a cycle pitch shifting training strategy and Structural Similarity Index (SSIM) loss into our SVC model, effectively enhancing its performance. Experimental results on the public singing datasets M4Singer indicate that our proposed method significantly improves model performance in both general SVC scenarios and particularly in cross-domain SVC scenarios.
翻訳日:2024-06-12 21:24:05 公開日:2024-06-09
# PairCFR:コントラスト学習による対実データ強化モデルトレーニングの強化

PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning ( http://arxiv.org/abs/2406.06633v1 )

ライセンス: Link先を確認
Xiaoqi Qiu, Yongjie Wang, Xu Guo, Zhiwei Zeng, Yue Yu, Yuhong Feng, Chunyan Miao, (参考訳) Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。 CADを用いたトレーニングは、異なるクラスにカジュアルな関係を広げることで、ラベルと相関するスプリケートな特徴に対するモデルロバスト性を高める。 しかし、最近の研究では、CADを用いたトレーニングが、他の重要なコンテキスト情報を無視しながら、修正された機能に過度にフォーカスする可能性があることが明らかにされている。 この問題を軽減するために,我々は,対実的手がかりの学習に加えて,グローバルな特徴調整を促進するために,コントラスト学習を採用する。 理論的には、対照的な損失は、モデルが修正された機能を超えて幅広い機能を活用することを促すことを証明します。 2つの人間編集CADデータセットに対する総合的な実験により,提案手法がOODデータセットの最先端性を上回ることを示した。

Counterfactually Augmented Data (CAD) involves creating new data samples by applying minimal yet sufficient modifications to flip the label of existing data samples to other classes. Training with CAD enhances model robustness against spurious features that happen to correlate with labels by spreading the casual relationships across different classes. Yet, recent research reveals that training with CAD may lead models to overly focus on modified features while ignoring other important contextual information, inadvertently introducing biases that may impair performance on out-ofdistribution (OOD) datasets. To mitigate this issue, we employ contrastive learning to promote global feature alignment in addition to learning counterfactual clues. We theoretically prove that contrastive loss can encourage models to leverage a broader range of features beyond those modified ones. Comprehensive experiments on two human-edited CAD datasets demonstrate that our proposed method outperforms the state-of-the-art on OOD datasets.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-09
# 高速なキーワードスポッティングのためのスパース二元化

Sparse Binarization for Fast Keyword Spotting ( http://arxiv.org/abs/2406.06634v1 )

ライセンス: Link先を確認
Jonathan Svirsky, Uri Shaham, Ofir Lindenbaum, (参考訳) 音声アクティベートデバイスやアプリケーションの普及に伴い、キーワードスポッティング(KWS)モデルは、テクノロジハンズフリーと対話し、さまざまなコンテキストにおける利便性とアクセシビリティを向上させる。 スマートフォンや組み込みシステムなどのエッジデバイスにKWSモデルをデプロイすることは、リアルタイムアプリケーション、プライバシ、帯域幅効率に大きなメリットをもたらす。 しかし、これらのデバイスは計算能力とメモリが限られていることが多い。 これにより、精度を著しく損なうことなく、効率よくニューラルネットワークモデルを最適化する必要がある。 これらの課題に対処するため、スパース入力表現に基づく新しいキーワードスポッティングモデルを提案し、続いて線形分類器を提案する。 このモデルは、従来の最先端デバイス互換モデルよりも4倍高速で、精度が良い。 また,本手法は高速かつノイズの多い環境でもより堅牢であることを示す。 私たちのコードは、https://github.com/jsvir/sparknet.comで利用可能です。

With the increasing prevalence of voice-activated devices and applications, keyword spotting (KWS) models enable users to interact with technology hands-free, enhancing convenience and accessibility in various contexts. Deploying KWS models on edge devices, such as smartphones and embedded systems, offers significant benefits for real-time applications, privacy, and bandwidth efficiency. However, these devices often possess limited computational power and memory. This necessitates optimizing neural network models for efficiency without significantly compromising their accuracy. To address these challenges, we propose a novel keyword-spotting model based on sparse input representation followed by a linear classifier. The model is four times faster than the previous state-of-the-art edge device-compatible model with better accuracy. We show that our method is also more robust in noisy environments while being fast. Our code is available at: https://github.com/jsvir/sparknet.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-09
# 精神科自動評価のためのLCMアンケート

LLM Questionnaire Completion for Automatic Psychiatric Assessment ( http://arxiv.org/abs/2406.06636v1 )

ライセンス: Link先を確認
Gony Rosenman, Lior Wolf, Talma Hendler, (参考訳) 大規模言語モデル(LLM)を用いて、非構造的心理面接を様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。 LLMはインタビュアーに偽装してこれらの質問に答えるよう促される。 得られた回答は、ランダムフォレスト回帰器を用いて、うつ病の標準化された精神医学指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。 提案手法は,複数のベースラインと比較して診断精度を向上させる。 これにより、非構造的な心理的インタビューを解釈し、物語駆動とデータ駆動によるメンタルヘルスアセスメントのギャップを埋める新しい枠組みが確立される。

We employ a Large Language Model (LLM) to convert unstructured psychological interviews into structured questionnaires spanning various psychiatric and personality domains. The LLM is prompted to answer these questionnaires by impersonating the interviewee. The obtained answers are coded as features, which are used to predict standardized psychiatric measures of depression (PHQ-8) and PTSD (PCL-C), using a Random Forest regressor. Our approach is shown to enhance diagnostic accuracy compared to multiple baselines. It thus establishes a novel framework for interpreting unstructured psychological interviews, bridging the gap between narrative-driven and data-driven approaches for mental health assessment.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-09
# バイナリリバースエンジニアリングにおける大規模言語モデル(GPT-4)の有効性の探索

Exploring the Efficacy of Large Language Models (GPT-4) in Binary Reverse Engineering ( http://arxiv.org/abs/2406.06637v1 )

ライセンス: Link先を確認
Saman Pordanesh, Benjamin Tan, (参考訳) 本研究では,大規模言語モデル(LLM),特にGPT-4の機能について,両立リバースエンジニアリング(RE)の文脈で検討する。 構造化された実験手法を用いて,人間の書き起こしコードや非コンパイルコードの解釈・説明におけるLLMの性能を解析した。 この研究は、基本的なコード解釈に関する第1段階と、より複雑なマルウェア分析に関する第2段階の2段階を含む。 鍵となる発見は、LLMが一般的なコード理解における熟練度を示し、詳細な技術およびセキュリティ分析において様々な効果があることを示している。 この研究は、リバースエンジニアリングにおけるLLMの可能性と現在の限界を強調し、将来の応用と改善のための重要な洞察を明らかにしている。 また,評価手法やデータ制約などの実験手法についても検討し,今後の研究活動の技術的ビジョンを提示した。

This study investigates the capabilities of Large Language Models (LLMs), specifically GPT-4, in the context of Binary Reverse Engineering (RE). Employing a structured experimental approach, we analyzed the LLM's performance in interpreting and explaining human-written and decompiled codes. The research encompassed two phases: the first on basic code interpretation and the second on more complex malware analysis. Key findings indicate LLMs' proficiency in general code understanding, with varying effectiveness in detailed technical and security analyses. The study underscores the potential and current limitations of LLMs in reverse engineering, revealing crucial insights for future applications and improvements. Also, we examined our experimental methodologies, such as methods of evaluation and data constraints, which provided us with a technical vision for any future research activity in this field.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-09
# ジェットタグ用粒子多軸変圧器

Particle Multi-Axis Transformer for Jet Tagging ( http://arxiv.org/abs/2406.06638v1 )

ライセンス: Link先を確認
Muhammad Usman, M Husnain Shahid, Maheen Ejaz, Ummay Hani, Nayab Fatima, Abdul Rehman Khan, Asifullah Khan, Nasir Majid Mirza, (参考訳) ジェットタグは高エネルギー物理学において重要な分類問題である。 近年、Deep Learningはジェットタグ付けの課題に発展しただけでなく、パフォーマンスも大幅に向上した。 本稿では,新しいアーキテクチャであるParticle Multi-Axis transformer (ParMAT)を提案する。 ParMATは単一ユニット内の局所的およびグローバルな空間的相互作用を含み、様々な入力長を扱う能力を向上させる。 JETCLASSは10種類の粒子からなる1億基のジェットを含む,公開可能な大規模データセットである。 ParMATは、パラレルアテンション機構と粒子のペアワイズ相互作用を統合することにより、ParTとParticleNetに対するロバスト性と高い精度を実現する。 巨大なデータセットへのモデルのスケーラビリティと、重要な特徴を自動的に抽出する能力は、ジェットタグの強化の可能性を示している。

Jet tagging is an essential categorization problem in high energy physics. In recent times, Deep Learning has not only risen to the challenge of jet tagging but also significantly improved its performance. In this article, we propose an idea of a new architecture, Particle Multi-Axis transformer (ParMAT) which is a modified version of Particle transformer (ParT). ParMAT contains local and global spatial interactions within a single unit which improves its ability to handle various input lengths. We trained our model on JETCLASS, a publicly available large dataset that contains 100M jets of 10 different classes of particles. By integrating a parallel attention mechanism and pairwise interactions of particles in the attention mechanism,ParMAT achieves robustness and higher accuracy over the ParT and ParticleNet. The scalability of the model to huge datasets and its ability to automatically extract essential features demonstrate its potential for enhancing jet tagging.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-09
# 自然言語処理による経済・社会要因のエネルギー需要への影響調査

Investigation of the Impact of Economic and Social Factors on Energy Demand through Natural Language Processing ( http://arxiv.org/abs/2406.06641v1 )

ライセンス: Link先を確認
Yun Bai, Simon Camal, Andrea Michiorri, (参考訳) エネルギー需要と経済活動や天候といった変数の関係はよく確立されている。 しかし,本稿は,エネルギー需要と他の社会的側面との関係を考察することを目的としている。 自然言語処理を大規模ニュースコーパスに利用することで、我々はこの重要なリンクに光を当てた。 本研究は、イギリスとアイルランドの5つの地域で実施され、1日から30日間の複数の地平線について検討した。 また、GDP、失業、インフレといった経済変数も考慮している。 私たちはこう発見しました。 1)軍事紛争、輸送、世界的なパンデミック、地域経済、国際エネルギー市場に関するニュースは、電力需要に関係している。 2)イースト・ミッドランズや北アイルランドでは経済指標が重要であり、ウェスト・ミッドランズやサウス・ウェスト・オブ・イングランドでは社会指標がより有用である。 3)これらの指標を用いることで予測性能は最大9%向上した。

The relationship between energy demand and variables such as economic activity and weather is well established. However, this paper aims to explore the connection between energy demand and other social aspects, which receive little attention. Through the use of natural language processing on a large news corpus, we shed light on this important link. This study was carried out in five regions of the UK and Ireland and considers multiple horizons from 1 to 30 days. It also considers economic variables such as GDP, unemployment and inflation. We found that: 1) News about military conflicts, transportation, the global pandemic, regional economics, and the international energy market are related to electricity demand. 2) Economic indicators are more important in the East Midlands and Northern Ireland, while social indicators are more useful in the West Midlands and the South West of England. 3) The use of these indices improved forecasting performance by up to 9%.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-09
# TopoBenchmarkX: トポロジカルディープラーニングのベンチマークフレームワーク

TopoBenchmarkX: A Framework for Benchmarking Topological Deep Learning ( http://arxiv.org/abs/2406.06642v1 )

ライセンス: Link先を確認
Lev Telyatnikov, Guillermo Bernardez, Marco Montagna, Pavlo Vasylenko, Ghada Zamzmi, Mustafa Hajij, Michael T Schaub, Nina Miolane, Simone Scardapane, Theodore Papamarkou, (参考訳) TopoBenchmarkXは、トポロジカルディープラーニング(TDL)の研究を標準化し、加速するために設計されたモジュラーオープンソースライブラリである。 TopoBenchmarkXは、TDLパイプラインをデータ読み込みと処理、モデルトレーニング、最適化、評価のための独立したモジュールコンポーネントのシーケンスにマッピングする。 このモジュール化された組織は、変更の柔軟性を提供し、様々なTDLパイプラインの適応と最適化を容易にする。 TopoBenchmarkXの重要な機能は、トポロジカルドメイン間の変換とリフトを可能にすることだ。 これにより、例えば、グラフの位相と特徴をsimplicialやcell complexのような高階の位相領域にマッピングすることで、よりリッチなデータ表現とよりきめ細かな解析を得ることができる。 TopoBenchmarkXの適用範囲は、さまざまなタスクやデータセットに対して、いくつかのTDLアーキテクチャをベンチマークすることで実証されている。

This work introduces TopoBenchmarkX, a modular open-source library designed to standardize benchmarking and accelerate research in Topological Deep Learning (TDL). TopoBenchmarkX maps the TDL pipeline into a sequence of independent and modular components for data loading and processing, as well as model training, optimization, and evaluation. This modular organization provides flexibility for modifications and facilitates the adaptation and optimization of various TDL pipelines. A key feature of TopoBenchmarkX is that it allows for the transformation and lifting between topological domains. This enables, for example, to obtain richer data representations and more fine-grained analyses by mapping the topology and features of a graph to higher-order topological domains such as simplicial and cell complexes. The range of applicability of TopoBenchmarkX is demonstrated by benchmarking several TDL architectures for various tasks and datasets.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-09
# 意味的曖昧さとチャネルノイズを考慮した潜時拡散モデルによるリアルタイム意味コミュニケーション

Latent Diffusion Model-Enabled Real-Time Semantic Communication Considering Semantic Ambiguities and Channel Noises ( http://arxiv.org/abs/2406.06644v1 )

ライセンス: Link先を確認
Jianhua Pei, Feng Cheng, Ping Wang, Hina Tabassum, Dongyuan Shi, (参考訳) セマンティック・コミュニケーション(SemCom)は、深層学習(DL)モデルがビット/シンボルの精度からデータのセマンティクスや実用性へとシフトする鍵となる、コミュニケーションシステムのための新しいパラダイムとして登場した。 それでも、DLベースのSemComシステムは、過度な適合、一般化の貧弱、オフレイアに対する感受性のために、パフォーマンス上のボトルネックに直面していることが多い。 さらに、無線チャネルに一般的に存在する不確実な信号対雑音比(SNR)を持つ様々なフェーディング利得とノイズは、通常、意味情報伝達の精度を制限する。 以上の問題に対処するため,本論文では,潜伏拡散モデルに基づくSemComシステムを構築し,既存の作業と比較して3つの改善点を提案する。 一 ソースデータの潜在的な外れ値を処理するために、DLモデルの脆弱性に基づいて、投射された勾配降下によって得られた意味エラーを利用してパラメータを更新し、外乱エンコーダを得る。 二 軽量単層遅延空間変換アダプタは、送信機でのワンショット学習を完了し、受信機におけるデコーダの前に配置し、配布外データへの適応又は人間の知覚品質の向上を可能にする。 三 エンド・ツー・エンド整合蒸留(EECD)戦略を用いて、潜時空間で訓練した拡散モデルを蒸留し、高いセマンティック品質を維持しつつ、様々なノイズチャネルにおける決定論的一段階又は数段階のリアルタイムデノナイズを可能にする。 異なるデータセットにわたる大規模な数値実験により、提案したSemComシステムの優位性が証明され、不整合へのロバスト性、未知の分布でデータを送信する能力、高い人間の知覚品質を維持しながらタスクをリアルタイムにデノナイズする能力、MS-SSIMやLPIPSのようなセマンティックメトリクスにおける既存のデノナイズアプローチよりも優れていた。

Semantic communication (SemCom) has emerged as a new paradigm for communication systems, with deep learning (DL) models being one of the key drives to shift from the accuracy of bit/symbol to the semantics and pragmatics of data. Nevertheless, DL-based SemCom systems often face performance bottlenecks due to overfitting, poor generalization, and sensitivity to outliers. Furthermore, the varying-fading gains and noises with uncertain signal-to-noise ratios (SNRs) commonly present in wireless channels usually restrict the accuracy of semantic information transmission. Consequently, to address the aforementioned issues, this paper constructs a SemCom system based on the latent diffusion model, and proposes three improvements compared to existing works: i) To handle potential outliers in the source data, semantic errors obtained by projected gradient descent based on the vulnerabilities of DL models, are utilized to update the parameters and obtain an outlier-robust encoder. ii) A lightweight single-layer latent space transformation adapter completes one-shot learning at transmitter and is placed before the decoder at receiver, enabling adaptation for out-of-distribution data or enhancing human-perceptual quality. iii) An end-to-end consistency distillation (EECD) strategy is used to distill the diffusion models trained in latent space, enabling deterministic single or few-step real-time denoising in various noisy channels while maintaining high semantic quality. Extensive numerical experiments across different datasets demonstrate the superiority of the proposed SemCom system, consistently proving its robustness to outliers, the capability to transmit data with unknown distributions, and the ability to perform real-time channel denoising tasks while preserving high human perceptual quality, outperforming the existing denoising approaches in semantic metrics such as MS-SSIM and LPIPS.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-09
# 標準フォーマットにおける4ビット行列乗算による高精度ニューラルネットワークトレーニング

Accurate Neural Training with 4-bit Matrix Multiplications at Standard Formats ( http://arxiv.org/abs/2112.10769v4 )

ライセンス: Link先を確認
Brian Chmiel, Ron Banner, Elad Hoffer, Hilla Ben Yaacov, Daniel Soudry, (参考訳) 重みとアクティベーションの量子化は、ディープニューラルネットワーク(DNN)トレーニングの計算フットプリントを削減する主要な方法の1つである。 現在の方法は前フェーズの4ビット量子化を可能にする。 しかし、これはトレーニングプロセスの3分の1に過ぎません。 トレーニングプロセス全体の計算フットプリントを削減するには、中間的な神経層の出力に対する損失勾配というニューラルネットワーク勾配の量子化が必要である。 以前の研究では、神経勾配の正確な4ビット量子化は(1)バイアスが無く、(2)ログスケールを持つことが示されていた。 しかしながら、この作業で行っているように、両方のアイデアを組み合わせることを目的とした以前の作業はありません。 具体的には、量子化ニューラルネットワークトレーニングにおける非バイアス量子化の重要性、その維持方法、および対数量子化と組み合わせる方法について検討する。 これに基づいて、前と後の両方の位相を4ビットに定量化するための$\textit{logarithmic unbiased Quantization}$ (LUQ)法を提案する。 例えば、ImageNetのResNet50では、1.1%の劣化を達成した。 さらに,従来の提案手法に匹敵するオーバヘッドを付加する分散還元法と組み合わせて,高精度微調整を3回行った後,0.32%の劣化に改善した。

Quantization of the weights and activations is one of the main methods to reduce the computational footprint of Deep Neural Networks (DNNs) training. Current methods enable 4-bit quantization of the forward phase. However, this constitutes only a third of the training process. Reducing the computational footprint of the entire training process requires the quantization of the neural gradients, i.e., the loss gradients with respect to the outputs of intermediate neural layers. Previous works separately showed that accurate 4-bit quantization of the neural gradients needs to (1) be unbiased and (2) have a log scale. However, no previous work aimed to combine both ideas, as we do in this work. Specifically, we examine the importance of having unbiased quantization in quantized neural network training, where to maintain it, and how to combine it with logarithmic quantization. Based on this, we suggest a $\textit{logarithmic unbiased quantization}$ (LUQ) method to quantize both the forward and backward phases to 4-bit, achieving state-of-the-art results in 4-bit training without the overhead. For example, in ResNet50 on ImageNet, we achieved a degradation of 1.1%. We further improve this to a degradation of only 0.32% after three epochs of high precision fine-tuning, combined with a variance reduction method -- where both these methods add overhead comparable to previously suggested methods.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-09
# ニューラルグラディエントに対する最小分散非バイアスN:Mスペーサ性

Minimum Variance Unbiased N:M Sparsity for the Neural Gradients ( http://arxiv.org/abs/2203.10991v3 )

ライセンス: Link先を確認
Brian Chmiel, Itay Hubara, Ron Banner, Daniel Soudry, (参考訳) ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2に減らし、ゼロ値の計算をスキップすることでスループットを2倍にする。 これまでのところ、これは主に前方と後方のフェーズを加速するために重量を膨らませるためにのみ使用された。 本稿では,この手法を神経勾配(中間層出力に対する損失勾配)にも適用する方法を検討する。 この目的のために、まずテンソルレベルの最適性基準を確立する。 以前の作業は、各プルーンドブロックの平均2乗誤差(MSE)を最小化することを目的としていた。 MSEの最小化は重みと活性化を抑えるのに有効であるが、破壊的に神経勾配に失敗することを示した。 代わりに、神経勾配の正確なプルーニングには、バイアスのない最小分散プルーニングマスクが必要であることを示す。 このような特殊なマスクを設計し、ほとんどの場合、1:2スパシティはトレーニングに十分であり、2:4スパシティは通常、そうでない場合に十分である。 さらに,より高速なトレーニングを実現するために,複数の手法を組み合わせることを提案する。

In deep learning, fine-grained N:M sparsity reduces the data footprint and bandwidth of a General Matrix multiply (GEMM) up to x2, and doubles throughput by skipping computation of zero values. So far, it was mainly only used to prune weights to accelerate the forward and backward phases. We examine how this method can be used also for the neural gradients (i.e., loss gradients with respect to the intermediate neural layer outputs). To this end, we first establish a tensor-level optimality criteria. Previous works aimed to minimize the mean-square-error (MSE) of each pruned block. We show that while minimization of the MSE works fine for pruning the weights and activations, it catastrophically fails for the neural gradients. Instead, we show that accurate pruning of the neural gradients requires an unbiased minimum-variance pruning mask. We design such specialized masks, and find that in most cases, 1:2 sparsity is sufficient for training, and 2:4 sparsity is usually enough when this is not the case. Further, we suggest combining several such methods together in order to potentially speed up training even more.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-09
# SRRT:ビジュアルオブジェクト追跡のための検索領域規則の探索

SRRT: Exploring Search Region Regulation for Visual Object Tracking ( http://arxiv.org/abs/2207.04438v4 )

ライセンス: Link先を確認
Jiawen Zhu, Xin Chen, Pengyu Zhang, Xinying Wang, Dong Wang, Wenda Zhao, Huchuan Lu, (参考訳) 支配トラッカーは、モデル入力、すなわち探索領域として、前回の予測または初期境界ボックスに基づいて、固定サイズの矩形領域を生成する。 この方法では、有望なトラッキング効率が得られるが、固定サイズの検索領域は柔軟性に欠けており、高速な動きや邪魔な干渉など、いくつかのケースで失敗する可能性がある。 トラッカーは、探索領域が限られたり、過剰な探索領域によって妨害されたりするため、対象物を失う傾向にある。 対象物を追跡するパターンからインスピレーションを得て,ターゲットが捕捉された際に小さなアイリーチを施し,対象物が失われそうになったときに探索領域をズームアウトする,検索領域規制追跡(SRRT)と呼ばれる新しい追跡パラダイムを提案する。 SRRTは提案した探索領域レギュレータを用いて各フレームに対して最適な探索領域を動的に推定する。 さらに,オンライントラッキングにおけるオブジェクトの外観変化に適応するため,参照フレーム更新のためのロック状態決定更新戦略を提案する。 提案したSRRTはベルやホイッスルを使わずに簡潔であるが、8つのベンチマークで他の最先端のトラッカーと明らかな改善と競争的な結果が得られる。 大規模なLaSOTベンチマークでは、SRRTはSiamRPN++とTransTをAUCの4.6%と3.1%で改善した。 コードとモデルはリリースされる。

The dominant trackers generate a fixed-size rectangular region based on the previous prediction or initial bounding box as the model input, i.e., search region. While this manner obtains promising tracking efficiency, a fixed-size search region lacks flexibility and is likely to fail in some cases, e.g., fast motion and distractor interference. Trackers tend to lose the target object due to the limited search region or experience interference from distractors due to the excessive search region. Drawing inspiration from the pattern humans track an object, we propose a novel tracking paradigm, called Search Region Regulation Tracking (SRRT) that applies a small eyereach when the target is captured and zooms out the search field when the target is about to be lost. SRRT applies a proposed search region regulator to estimate an optimal search region dynamically for each frame, by which the tracker can flexibly respond to transient changes in the location of object occurrences. To adapt the object's appearance variation during online tracking, we further propose a lockingstate determined updating strategy for reference frame updating. The proposed SRRT is concise without bells and whistles, yet achieves evident improvements and competitive results with other state-of-the-art trackers on eight benchmarks. On the large-scale LaSOT benchmark, SRRT improves SiamRPN++ and TransT with absolute gains of 4.6% and 3.1% in terms of AUC. The code and models will be released.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-09
# マルチスケール演算子学習におけるスペクトルバイアスの緩和

Mitigating spectral bias for the multiscale operator learning ( http://arxiv.org/abs/2210.10890v3 )

ライセンス: Link先を確認
Xinliang Liu, Bo Xu, Shuhao Cao, Lei Zhang, (参考訳) ニューラル作用素は、無限次元パラメータと偏微分方程式(PDE)の解空間の間の写像を学習するための強力なツールとして登場した。 本研究では,貯水池モデルや乱流予測などの重要な応用を有する大規模PDEに着目した。 このようなPDEに対して、低周波成分に対するスペクトルバイアスは、既存のニューラル演算子にとって重要な課題であることを示す。 この課題に対処するために、階層行列アプローチに着想を得た階層的注意神経演算子(HANO)を提案する。 HANOは、階層の階層上でのスケール適応的な相互作用範囲と自己アテンションを備えており、制御可能な線形コストによるネストされた特徴計算と、マルチスケールのソリューション空間のエンコーディング/デコードを可能にする。 また、高周波成分の学習を促進するために、実証的な$H^1$損失関数も組み込んだ。 我々の数値実験により,HANOは多スケール問題に対して最先端(SOTA)法より優れていることが示された。

Neural operators have emerged as a powerful tool for learning the mapping between infinite-dimensional parameter and solution spaces of partial differential equations (PDEs). In this work, we focus on multiscale PDEs that have important applications such as reservoir modeling and turbulence prediction. We demonstrate that for such PDEs, the spectral bias towards low-frequency components presents a significant challenge for existing neural operators. To address this challenge, we propose a hierarchical attention neural operator (HANO) inspired by the hierarchical matrix approach. HANO features a scale-adaptive interaction range and self-attentions over a hierarchy of levels, enabling nested feature computation with controllable linear cost and encoding/decoding of multiscale solution space. We also incorporate an empirical $H^1$ loss function to enhance the learning of high-frequency components. Our numerical experiments demonstrate that HANO outperforms state-of-the-art (SOTA) methods for representative multiscale problems.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-09
# 先行モデルを用いたホロスティック視覚-テキスト感性分析

Holistic Visual-Textual Sentiment Analysis with Prior Models ( http://arxiv.org/abs/2211.12981v2 )

ライセンス: Link先を確認
Junyu Chen, Jie An, Hanjia Lyu, Christopher Kanan, Jiebo Luo, (参考訳) 視覚的テキスト感情分析は、画像とテキストのペアの入力によって感情を予測することを目的としており、多様な入力画像に対する効果的な特徴の学習に挑戦する。 そこで本稿では,事前学習した視覚的・テキスト的先行モデルのリッチな集合を利用して,堅牢な視覚的・テキスト的感情分析を実現するための総合的手法を提案する。 提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。 3つのデータセットに対する大規模な実験により,本手法は既存の手法よりも視覚的・テキスト的感情分析性能が高いことが示された。

Visual-textual sentiment analysis aims to predict sentiment with the input of a pair of image and text, which poses a challenge in learning effective features for diverse input images. To address this, we propose a holistic method that achieves robust visual-textual sentiment analysis by exploiting a rich set of powerful pre-trained visual and textual prior models. The proposed method consists of four parts: (1) a visual-textual branch to learn features directly from data for sentiment analysis, (2) a visual expert branch with a set of pre-trained "expert" encoders to extract selected semantic visual features, (3) a CLIP branch to implicitly model visual-textual correspondence, and (4) a multimodal feature fusion network based on BERT to fuse multimodal features and make sentiment predictions. Extensive experiments on three datasets show that our method produces better visual-textual sentiment analysis performance than existing methods.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-09
# 空間パターンの不均一性のためのマルチタスク学習:統計的および計算学的視点

Multi-Task Learning for Sparsity Pattern Heterogeneity: Statistical and Computational Perspectives ( http://arxiv.org/abs/2212.08697v2 )

ライセンス: Link先を確認
Kayhan Behdin, Gabriel Loewinger, Kenneth T. Kishida, Giovanni Parmigiani, Rahul Mazumder, (参考訳) マルチタスク学習(MTL)において、複数の線形モデルがデータセットの集合(「タスク」)で共同で訓練される問題を考える。 このフレームワークの重要な特徴は、回帰係数のスパーシティパターンと非ゼロ係数の値が、部分的共有構造を利用しながらタスク間で異なることである。 我々の手法は、個別に励まし、タスク間の情報共有をモデルに奨励する。 1)係数の支持及び/または/ 2) 類似する非ゼロ係数値。 これにより、非ゼロ係数値がタスク間で異なる場合でも、モデルが可変選択中に強度を借りることができる。 本稿では,提案する推定器のための混合整数型プログラミング定式化を提案する。 我々は,ブロック座標の降下と組合せ局所探索に基づく拡張性のあるアルゴリズムを開発し,推定器の高品質(近似)な解を求める。 さらに,グローバルな最適解を得るための,新しい正確な最適化アルゴリズムを提案する。 推定器の理論的性質について検討する。 我々は,タスク間の共有サポート情報の活用により,変数選択性能が向上することを示す。 本手法のシミュレーションおよび2つのバイオメディカル応用における性能評価を行った。 提案手法は,変数選択および予測精度において,他のスパースMTL法より優れていると考えられる。 CRAN上でsMTLパッケージを提供する。

We consider a problem in Multi-Task Learning (MTL) where multiple linear models are jointly trained on a collection of datasets ("tasks"). A key novelty of our framework is that it allows the sparsity pattern of regression coefficients and the values of non-zero coefficients to differ across tasks while still leveraging partially shared structure. Our methods encourage models to share information across tasks through separately encouraging 1) coefficient supports, and/or 2) nonzero coefficient values to be similar. This allows models to borrow strength during variable selection even when non-zero coefficient values differ across tasks. We propose a novel mixed-integer programming formulation for our estimator. We develop custom scalable algorithms based on block coordinate descent and combinatorial local search to obtain high-quality (approximate) solutions for our estimator. Additionally, we propose a novel exact optimization algorithm to obtain globally optimal solutions. We investigate the theoretical properties of our estimators. We formally show how our estimators leverage the shared support information across tasks to achieve better variable selection performance. We evaluate the performance of our methods in simulations and two biomedical applications. Our proposed approaches appear to outperform other sparse MTL methods in variable selection and prediction accuracy. We provide the sMTL package on CRAN.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-09
# アルゴリズムシャドウ分光

Algorithmic Shadow Spectroscopy ( http://arxiv.org/abs/2212.11036v4 )

ライセンス: Link先を確認
Hans Hon Sang Chan, Richard Meister, Matthew L. Goh, Bálint Koczor, (参考訳) シャドースペクトロスコピーは,ごくわずかな回路繰り返し(ショット)と余剰資源(アンシラキュービット)を用い,エネルギーギャップを推定するためのシミュレータ非依存の量子アルゴリズムとして提案する。 このアプローチは、量子系の可観測性はすべて、同じ調和成分に従って進化しなければならないという基本的な特徴に基づいている: 時間進化した量子状態の古典的な影を後処理して、多くの時間周期信号$N_o\propto 10^8$を抽出し、その周波数はハイゼンベルク制限精度とハミルトンエネルギー差に対応する。 私たちは強力な分析的保証を提供します (a)量子資源は$O(\log N_o)$とスケールするが、古典的な計算複雑性は$O(N_o)$である。 b) 処理された信号の数が$\propto \sqrt{N_o}$となり、信号対雑音比が増加する。 (c)スペクトルピーク位置は妥当なノイズレベルに免疫する。 モデルスピンシステムと分子CH$2$の励起状態円錐交叉に対する我々のアプローチを実証し、我々の手法が実際は直感的に使いやすく、ゲートノイズに対して頑健であり、新しいタイプのアルゴリズム・エラー緩和技術に好適であることを検証する。 最後に,手軽に利用可能なIBM量子コンピュータ上で,スピンチェーンの高品質,実験的なシャドウスペクトルを測定し,高度な誤差緩和を使わずにノイズフリーシミュレーションと同じ精度を実現し,最大100量子ビットのテンソルネットワークシミュレーションにおけるスケーラビリティを検証した。

We present shadow spectroscopy as a simulator-agnostic quantum algorithm for estimating energy gaps using very few circuit repetitions (shots) and no extra resources (ancilla qubits) beyond performing time evolution and measurements. The approach builds on the fundamental feature that every observable property of a quantum system must evolve according to the same harmonic components: we can reveal them by post-processing classical shadows of time-evolved quantum states to extract a large number of time-periodic signals $N_o\propto 10^8$, whose frequencies correspond to Hamiltonian energy differences with Heisenberg-limited precision. We provide strong analytical guarantees that (a) quantum resources scale as $O(\log N_o)$, while the classical computational complexity is linear $O(N_o)$, (b) the signal-to-noise ratio increases with the number of processed signals as $\propto \sqrt{N_o}$, and (c) spectral peak positions are immune to reasonable levels of noise. We demonstrate our approach on model spin systems and the excited state conical intersection of molecular CH$_2$ and verify that our method is indeed intuitively easy to use in practice, robust against gate noise, amiable to a new type of algorithmic-error mitigation technique, and uses orders of magnitude fewer number of shots than typical near-term quantum algorithms -- as low as 10 shots per timestep is sufficient. Finally, we measured a high-quality, experimental shadow spectrum of a spin chain on readily-available IBM quantum computers, achieving the same precision as in noise-free simulations without using any advanced error mitigation, and verified scalability in tensor-network simulations of up to 100-qubit systems.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-09
# FedRC:ロバストクラスタリングによるフェデレーション学習における分散分散シフトの対処

FedRC: Tackling Diverse Distribution Shifts Challenge in Federated Learning by Robust Clustering ( http://arxiv.org/abs/2301.12379v4 )

ライセンス: Link先を確認
Yongxin Guo, Xiaoying Tang, Tao Lin, (参考訳) Federated Learning(FL)は、エッジデバイス上でクライアントデータを保持することによって、プライバシを保護する機械学習パラダイムである。 しかし,学習システムの多様で異質な性質のため,実際にFLを最適化することは困難である。 近年の研究では、クライアント間での分散シフトの発生時のFLの最適化に焦点が当てられているが、機能分散シフト、ラベル分布シフト、コンセプトシフトなど、複数のタイプの分散シフトが同時に発生すると、グローバルなパフォーマンスが保証されている。 本稿では,多様な分布シフトの同時発生による学習課題を特定し,これらの課題を克服するためのクラスタリング原理を提案する。 本研究により,既存の手法ではクラスタリングの原理に対処できないことがわかった。 そこで本稿では,2段階最適化問題と新たな目的関数を組み込むことで,提案したクラスタリングの原理に準拠する,FedRCと呼ばれる新しいクラスタリングアルゴリズムフレームワークを提案する。 大規模な実験により、FedRCは他のSOTAクラスタベースのFL法よりも大幅に優れていた。 私たちのコードは \url{https://github.com/LINs-lab/FedRC} で利用可能です。

Federated Learning (FL) is a machine learning paradigm that safeguards privacy by retaining client data on edge devices. However, optimizing FL in practice can be challenging due to the diverse and heterogeneous nature of the learning system. Though recent research has focused on improving the optimization of FL when distribution shifts occur among clients, ensuring global performance when multiple types of distribution shifts occur simultaneously among clients -- such as feature distribution shift, label distribution shift, and concept shift -- remain under-explored. In this paper, we identify the learning challenges posed by the simultaneous occurrence of diverse distribution shifts and propose a clustering principle to overcome these challenges. Through our research, we find that existing methods fail to address the clustering principle. Therefore, we propose a novel clustering algorithm framework, dubbed as FedRC, which adheres to our proposed clustering principle by incorporating a bi-level optimization problem and a novel objective function. Extensive experiments demonstrate that FedRC significantly outperforms other SOTA cluster-based FL methods. Our code is available at \url{https://github.com/LINs-lab/FedRC}.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-09
# 周波数領域におけるオンマニフォールド逆数拡大によるモデル一般化の改善

Improving Model Generalization by On-manifold Adversarial Augmentation in the Frequency Domain ( http://arxiv.org/abs/2302.14302v3 )

ライセンス: Link先を確認
Chang Liu, Wenzhao Xiang, Yuan He, Hui Xue, Shibao Zheng, Hang Su, (参考訳) 深層ニューラルネットワーク(DNN)は、トレーニングデータとテストデータが異なる基礎ディストリビューションである場合、大幅に劣化するパフォーマンスに悩まされる可能性がある。 オフ・オブ・ディストリビューション(OOD)データへのモデル一般化の重要性にもかかわらず、OODデータ上の最先端(SOTA)モデルの精度は低下する可能性がある。 近年の研究では、OODの一般化を改善するために、データ拡張の特別な例として、正規あるいはオフマニフォールドの逆数例が利用可能であることが示されている。 このことに着想を得て、直交逆数例が OOD 一般化の恩恵を受けることを理論的に証明する。 それでも、実多様体は概して複素であるため、多様体上の逆例を生成することは自明ではない。 この問題に対処するため,我々は Wavelet モジュール (AdvWavAug) を通じてデータ拡張手法を提案する。 特に、良性画像をウェーブレット領域に投影する。 ウェーブレット変換の空間特性を補助することにより、推定したデータ多様体上の画像を修正できる。 本稿では,AdvPropトレーニングフレームワークに基づく対角的拡張を行う。 ImageNetとその歪みバージョンを含む、異なるモデルと異なるデータセットに対する大規模な実験により、本手法がモデル一般化、特にOODデータにおいて改善できることが実証された。 トレーニングプロセスにAdvWavAugを統合することで、最近のトランスフォーマーモデルでSOTAの結果を得た。

Deep neural networks (DNNs) may suffer from significantly degenerated performance when the training and test data are of different underlying distributions. Despite the importance of model generalization to out-of-distribution (OOD) data, the accuracy of state-of-the-art (SOTA) models on OOD data can plummet. Recent work has demonstrated that regular or off-manifold adversarial examples, as a special case of data augmentation, can be used to improve OOD generalization. Inspired by this, we theoretically prove that on-manifold adversarial examples can better benefit OOD generalization. Nevertheless, it is nontrivial to generate on-manifold adversarial examples because the real manifold is generally complex. To address this issue, we proposed a novel method of Augmenting data with Adversarial examples via a Wavelet module (AdvWavAug), an on-manifold adversarial data augmentation technique that is simple to implement. In particular, we project a benign image into a wavelet domain. With the assistance of the sparsity characteristic of wavelet transformation, we can modify an image on the estimated data manifold. We conduct adversarial augmentation based on AdvProp training framework. Extensive experiments on different models and different datasets, including ImageNet and its distorted versions, demonstrate that our method can improve model generalization, especially on OOD data. By integrating AdvWavAug into the training process, we have achieved SOTA results on some recent transformer-based models.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-09
# グリッド中心交通シナリオによる自動運転の認識:総合的レビュー

Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review ( http://arxiv.org/abs/2303.01212v2 )

ライセンス: Link先を確認
Yining Shi, Kun Jiang, Jiusi Li, Zelin Qian, Junze Wen, Mengmeng Yang, Ke Wang, Diange Yang, (参考訳) グリッド中心の知覚は、移動ロボットの知覚とナビゲーションにとって重要な分野である。 にもかかわらず、グリッド中心の知覚はオブジェクト中心の知覚よりも一般的ではない。自動運転車は、非常にダイナミックで大規模な交通シナリオを正確に知覚する必要があるし、グリッド中心の知覚の複雑さと計算コストが高い。 近年、ディープラーニング技術とハードウェアの急速な発展は、グリッド中心の知覚の進化に新たな洞察を与えている。 グリッド中心のパイプラインとオブジェクト中心のパイプラインの根本的な違いは、グリッド中心の知覚が幾何学第一のパラダイムに従うことである。 最近の研究は、網羅的な環境表現、閉塞や不規則な形状の物体に対する強い堅牢性、より良い地盤推定、より安全な計画方針など、グリッド中心の認識の大きな利点を実証している。 また、4Dシーンの認識と予測に、占有ネットワークの能力が大幅に拡張され、最新の技術は、自動運転分野における4D占有予測、生成AI、世界モデルといった新しい研究トピックと密接に関連している。 この急速に拡大する分野に対する現在の調査の欠如を踏まえ、我々は、自動運転車に対するグリッド中心の認識を階層的に再検討する。 本研究は,2次元のBEVグリッドから3次元のBEVグリッド,4次元のBEVグリッド,および4次元のBEVグリッド技術に関する従来および現在の知識を整理する。 さらに、ラベル効率のよい職業学習と、運転システムにおけるグリッド中心の認識の役割を要約する。 最後に、現在の研究動向の概要と今後の展望について述べる。

Grid-centric perception is a crucial field for mobile robot perception and navigation. Nonetheless, grid-centric perception is less prevalent than object-centric perception as autonomous vehicles need to accurately perceive highly dynamic, large-scale traffic scenarios and the complexity and computational costs of grid-centric perception are high. In recent years, the rapid development of deep learning techniques and hardware provides fresh insights into the evolution of grid-centric perception. The fundamental difference between grid-centric and object-centric pipeline lies in that grid-centric perception follows a geometry-first paradigm which is more robust to the open-world driving scenarios with endless long-tailed semantically-unknown obstacles. Recent researches demonstrate the great advantages of grid-centric perception, such as comprehensive fine-grained environmental representation, greater robustness to occlusion and irregular shaped objects, better ground estimation, and safer planning policies. There is also a growing trend that the capacity of occupancy networks are greatly expanded to 4D scene perception and prediction and latest techniques are highly related to new research topics such as 4D occupancy forecasting, generative AI and world models in the field of autonomous driving. Given the lack of current surveys for this rapidly expanding field, we present a hierarchically-structured review of grid-centric perception for autonomous vehicles. We organize previous and current knowledge of occupancy grid techniques along the main vein from 2D BEV grids to 3D occupancy to 4D occupancy forecasting. We additionally summarize label-efficient occupancy learning and the role of grid-centric perception in driving systems. Lastly, we present a summary of the current research trend and provide future outlooks.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-09
# アルゴリズム中立性

Algorithmic neutrality ( http://arxiv.org/abs/2303.05103v3 )

ライセンス: Link先を確認
Milo Phillips-Brown, (参考訳) アルゴリズムは私たちの生活に対するコントロールを強めました。 アルゴリズムはバイアスのある方法で、しばしばパワーを弱めることができ、多くの作業はアルゴリズムのバイアスに費やされている。 対照的に、アルゴリズムの中立性は無視されている。 アルゴリズム中立性とは何か? 可能ですか? そして、それを念頭に置いておくと、アルゴリズムバイアスについて何を学ぶことができるのか?

Algorithms wield increasing control over our lives: over the jobs we get, the loans we're granted, the information we see online. Algorithms can and often do wield their power in a biased way, and much work has been devoted to algorithmic bias. In contrast, algorithmic neutrality has been largely neglected. I investigate algorithmic neutrality, tackling three questions: What is algorithmic neutrality? Is it possible? And when we have it in mind, what can we learn about algorithmic bias?
翻訳日:2024-06-12 05:58:24 公開日:2024-06-09
# 運動からの融合構造とシミュレーションによる室内環境への光流からの詩の回帰

Fusing Structure from Motion and Simulation-Augmented Pose Regression from Optical Flow for Challenging Indoor Environments ( http://arxiv.org/abs/2304.07250v4 )

ライセンス: Link先を確認
Felix Ott, Lucas Heublein, David Rügamer, Bernd Bischl, Christopher Mutschler, (参考訳) オブジェクトのローカライゼーションは、ロボット工学、バーチャルおよび拡張現実、倉庫における商品の輸送など、さまざまなアプリケーションにおいて重要なタスクである。 近年のディープラーニングの進歩により、単眼視覚カメラを用いた局所化が可能になった。 動きからの構造(SfM)が点雲から絶対的なポーズを予測する一方で、絶対的ポーズ回帰(APR)法はニューラルネットワークを通して環境の意味的理解を学ぶ。 しかし、両方のフィールドは、動きのぼやけ、照明の変化、反復パターン、特徴のない構造といった環境によって引き起こされる課題に直面している。 本研究の目的は,これらの課題に対して,追加情報を導入し,相対的ポーズ回帰(RPR)法を用いて絶対的なポーズを規則化することである。 RPR法は異なる課題、すなわち動きのぼやけに悩まされる。 連続画像間の光学的流れはLucas-Kanadeアルゴリズムを用いて計算され、相対的なポーズは補助的な小さなリカレント畳み込みネットワークを用いて予測される。 絶対と相対のポーズの融合は、大域座標系と局所座標系の間のミスマッチに起因する複雑な問題である。 絶対的なポーズと相対的なポーズを融合させる最先端の手法は、ポーズグラフ最適化(PGO)を用いて、相対的なポーズを用いて絶対的なポーズ予測を規則化する。 本研究では,絶対的および相対的ポーズ予測を最適に整列し,絶対的ポーズ予測を改善するために,再帰的融合ネットワークを提案する。 そこで本研究では,APRおよびRPRネットワークを事前学習し,より汎用的なトレーニングを行うためのシミュレーション環境を構築した。 さらに,移動ロボットを用いた倉庫を模した大規模屋内環境において,様々なシナリオの大規模データベースを記録する。 PGOと比較して再帰核融合法の有効性を示すために,超パラメータ探索と実験を行った。

The localization of objects is a crucial task in various applications such as robotics, virtual and augmented reality, and the transportation of goods in warehouses. Recent advances in deep learning have enabled the localization using monocular visual cameras. While structure from motion (SfM) predicts the absolute pose from a point cloud, absolute pose regression (APR) methods learn a semantic understanding of the environment through neural networks. However, both fields face challenges caused by the environment such as motion blur, lighting changes, repetitive patterns, and feature-less structures. This study aims to address these challenges by incorporating additional information and regularizing the absolute pose using relative pose regression (RPR) methods. RPR methods suffer under different challenges, i.e., motion blur. The optical flow between consecutive images is computed using the Lucas-Kanade algorithm, and the relative pose is predicted using an auxiliary small recurrent convolutional network. The fusion of absolute and relative poses is a complex task due to the mismatch between the global and local coordinate systems. State-of-the-art methods fusing absolute and relative poses use pose graph optimization (PGO) to regularize the absolute pose predictions using relative poses. In this work, we propose recurrent fusion networks to optimally align absolute and relative pose predictions to improve the absolute pose prediction. We evaluate eight different recurrent units and construct a simulation environment to pre-train the APR and RPR networks for better generalized training. Additionally, we record a large database of different scenarios in a challenging large-scale indoor environment that mimics a warehouse with transportation robots. We conduct hyperparameter searches and experiments to show the effectiveness of our recurrent fusion method compared to PGO.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-09
# 制御可能なトラストトレードオフによる合成データの監査と生成

Auditing and Generating Synthetic Data with Controllable Trust Trade-offs ( http://arxiv.org/abs/2304.10819v4 )

ライセンス: Link先を確認
Brian Belgodere, Pierre Dognin, Adam Ivankay, Igor Melnyk, Youssef Mroueh, Aleksandra Mojsilovic, Jiri Navratil, Apoorva Nitsure, Inkit Padhi, Mattia Rigotti, Jerret Ross, Yair Schiff, Radhika Vedpathak, Richard A. Young, (参考訳) 現実世界のデータはしばしばバイアス、不均衡、プライバシーのリスクを示す。 これらの問題に対処するために合成データセットが登場した。 このパラダイムは、生成AIモデルに依存して、元のデータへの忠実さを維持しながら、バイアスのないプライバシ保護データを生成する。 しかし、合成データセットとモデルの信頼性を評価することは重要な課題である。 合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。 バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。 本フレームワークの有効性は,教育,医療,銀行,人的資源といった多様なユースケースにおいて,表や時系列,視覚,自然言語といったさまざまなデータモダリティにまたがる様々な生成モデルを監査することによって実証する。 この包括的評価は、規制保護の遵守に不可欠である。 安全上のトレードオフに基づいて、合成データセットのランク付けに信頼性指数を導入する。 さらに,信頼性駆動型モデル選択とトレーニング中のクロスバリデーションプロセスを提案し,様々なデータタイプにまたがって"TrustFormers"を例示する。 このアプローチは、合成データ生成における制御可能な信頼性のトレードオフを可能にする。 監査フレームワークは、データサイエンティスト、ガバナンスの専門家、内部レビュアー、外部認定者、規制当局など、ステークホルダー間のコラボレーションを促進する。 この透明性のある報告は、偏見、差別、プライバシー侵害を防ぎ、ポリシーの遵守を確保し、説明責任、安全性、パフォーマンス保証を提供するための標準のプラクティスとなる。

Real-world data often exhibits bias, imbalance, and privacy risks. Synthetic datasets have emerged to address these issues. This paradigm relies on generative AI models to generate unbiased, privacy-preserving data while maintaining fidelity to the original data. However, assessing the trustworthiness of synthetic datasets and models is a critical challenge. We introduce a holistic auditing framework that comprehensively evaluates synthetic datasets and AI models. It focuses on preventing bias and discrimination, ensures fidelity to the source data, assesses utility, robustness, and privacy preservation. We demonstrate the framework's effectiveness by auditing various generative models across diverse use cases like education, healthcare, banking, and human resources, spanning different data modalities such as tabular, time-series, vision, and natural language. This holistic assessment is essential for compliance with regulatory safeguards. We introduce a trustworthiness index to rank synthetic datasets based on their safeguards trade-offs. Furthermore, we present a trustworthiness-driven model selection and cross-validation process during training, exemplified with "TrustFormers" across various data types. This approach allows for controllable trustworthiness trade-offs in synthetic data creation. Our auditing framework fosters collaboration among stakeholders, including data scientists, governance experts, internal reviewers, external certifiers, and regulators. This transparent reporting should become a standard practice to prevent bias, discrimination, and privacy violations, ensuring compliance with policies and providing accountability, safety, and performance guarantees.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-09
# なぜ可照性が高いのか?-非現実的騒音に対する検索強化モデルのロバスト性を高める

Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise ( http://arxiv.org/abs/2305.01579v3 )

ライセンス: Link先を確認
Giwon Hong, Jeonghwan Kim, Junmo Kang, Sung-Hyon Myaeng, Joyce Jiyoung Whang, (参考訳) ほとんどの既存の検索拡張言語モデル(LM)は、検索されたドキュメントセットの中で、クエリ関連性と非関連性という、単純な二分法を前提としている。 本研究は,「関連文書」でさえ誤認や誤認を招き,検索した文書間に矛盾が生じ,モデル決定がノイズとして負の影響を及ぼすという,より困難なシナリオを考察する。 既存のLMは、微調整と文脈内数ショット学習の両方で矛盾する情報が存在するため、非常に脆弱である。 本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。 オープンドメインQAにおける実験結果から,これらの手法がモデルロバスト性を大幅に向上させることが示された。 また,2つの異なる学習手法の利点を活かす方法を提案する。 私たちの発見と並行して、この方向の研究をさらに促進するために、マシンが生成し、競合によって引き起こされるデータセットであるMacNoiseを提供しています。

Most existing retrieval-augmented language models (LMs) assume a naive dichotomy within a retrieved document set: query-relevance and irrelevance. Our work investigates a more challenging scenario in which even the "relevant" documents may contain misleading or incorrect information, causing conflict among the retrieved documents and thereby negatively influencing model decisions as noise. We observe that existing LMs are highly brittle to the presence of conflicting information in both the fine-tuning and in-context few-shot learning scenarios. We propose approaches for handling knowledge conflicts among retrieved documents by explicitly fine-tuning a discriminator or prompting GPT-3.5 to elicit its discriminative capability. Our empirical results on open-domain QA show that these approaches significantly enhance model robustness. We also provide our findings on incorporating the fine-tuned discriminator's decision into the in-context learning process, proposing a way to exploit the benefits of two disparate learning schemes. Alongside our findings, we provide MacNoise, a machine-generated, conflict-induced dataset to further encourage research in this direction.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-09
# AI生成画像の質を評価するための学習

Learning to Evaluate the Artness of AI-generated Images ( http://arxiv.org/abs/2305.04923v2 )

ライセンス: Link先を確認
Junyu Chen, Jie An, Hanjia Lyu, Christopher Kanan, Jiebo Luo, (参考訳) AI生成画像の精度を評価することは、画像生成の領域における課題であり続けている。 ほとんどの既存のメトリクスは、インスタンスレベルと参照なしのArtness評価の実行には使用できません。 本論文は,アーティストによる絵画(あるいは逆に写真)に画像が類似する程度を評価するための尺度であるArtScoreを提示し,アートネス評価に新たなアプローチを提案する。 まず、写真とアートワークの生成のために事前訓練されたモデルをブレンドし、一連の混合モデルを作成します。 その後、これらの混合モデルを用いて、擬似アノテーションによる様々な芸術性を示す画像を生成する。 それぞれのフォトリアリスティック画像は、対応する芸術的相手と、現実的から芸術的な一連の補間された画像を持つ。 このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。 大規模な実験により、ArtScoreが予測した芸術性レベルが、グラマー損失やArtFIDといった既存の評価指標よりも、人間の芸術的評価とより密接に一致していることが明らかになった。

Assessing the artness of AI-generated images continues to be a challenge within the realm of image generation. Most existing metrics cannot be used to perform instance-level and reference-free artness evaluation. This paper presents ArtScore, a metric designed to evaluate the degree to which an image resembles authentic artworks by artists (or conversely photographs), thereby offering a novel approach to artness assessment. We first blend pre-trained models for photo and artwork generation, resulting in a series of mixed models. Subsequently, we utilize these mixed models to generate images exhibiting varying degrees of artness with pseudo-annotations. Each photorealistic image has a corresponding artistic counterpart and a series of interpolated images that range from realistic to artistic. This dataset is then employed to train a neural network that learns to estimate quantized artness levels of arbitrary images. Extensive experiments reveal that the artness levels predicted by ArtScore align more closely with human artistic evaluation than existing evaluation metrics, such as Gram loss and ArtFID.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-09
# DAPR:Document-Aware Passage Retrievalのベンチマーク

DAPR: A Benchmark on Document-Aware Passage Retrieval ( http://arxiv.org/abs/2305.13915v4 )

ライセンス: Link先を確認
Kexin Wang, Nils Reimers, Iryna Gurevych, (参考訳) これまでのニューラル検索の研究は、短いテキストのランク付けに重点を置いており、長いドキュメントで挑戦されている。 ユーザは、巨大なコーパス、例えばWikipediaの記事、研究論文などから、長いドキュメントの中で関連するパスを見つけたい場合が多い。 本稿では,このタスクをDAPR (emph{Document-Aware Passage Retrieval}) と命名する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5\%)は文書コンテキストの欠如に起因する。 これにより、異種ドメインからの複数のデータセットを含む、このタスクのベンチマークを構築することができます。 実験では,(1)BM25によるハイブリッド検索と(2)コンテキスト化された文節表現を用いて,文書コンテキストによる文節表現を通知することで,文書コンテキストでSoTAの文節検索を拡張した。 ハイブリット検索は,難解なクエリと難解なクエリが混在するクエリでは最強であるにもかかわらず,文書コンテキストの理解を必要とするハードクエリでは完全にフェールする。 一方、コンテクスト化されたパス表現(例えば文書タイトルの予測など)は、これらのハードクエリに対して優れた改善を実現するが、全体としてはパフォーマンスもかなり悪い。 提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。 コードとデータはhttps://github.com/UKPLab/arxiv2023-dapr.comで公開されている。

The work of neural retrieval so far focuses on ranking short texts and is challenged with long documents. There are many cases where the users want to find a relevant passage within a long document from a huge corpus, e.g. Wikipedia articles, research papers, etc. We propose and name this task \emph{Document-Aware Passage Retrieval} (DAPR). While analyzing the errors of the State-of-The-Art (SoTA) passage retrievers, we find the major errors (53.5\%) are due to missing document context. This drives us to build a benchmark for this task including multiple datasets from heterogeneous domains. In the experiments, we extend the SoTA passage retrievers with document context via (1) hybrid retrieval with BM25 and (2) contextualized passage representations, which inform the passage representation with document context. We find despite that hybrid retrieval performs the strongest on the mixture of the easy and the hard queries, it completely fails on the hard queries that require document-context understanding. On the other hand, contextualized passage representations (e.g. prepending document titles) achieve good improvement on these hard queries, but overall they also perform rather poorly. Our created benchmark enables future research on developing and comparing retrieval systems for the new task. The code and the data are available at https://github.com/UKPLab/arxiv2023-dapr.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# DH-PTAM:Deep Hybrid Stereo Events-Frames Parallel Tracking and Mapping System

DH-PTAM: A Deep Hybrid Stereo Events-Frames Parallel Tracking And Mapping System ( http://arxiv.org/abs/2306.01891v3 )

ライセンス: Link先を確認
Abanob Soliman, Fabien Bonardi, Désiré Sidibé, Samia Bouchafa, (参考訳) 本稿では,視覚的並列追跡・マッピング(PTAM)システムに対するロバストなアプローチを提案する。 ステレオ・イベント・ベース・フレーム・ベース・センサを含む異種多モード視覚センサの強度を,ステレオ・イベント・フレームとステレオ・イベント・ストリームの新しい時空間同期により統合した参照フレームに組み合わせた。 我々は、より堅牢性を高めるために、深層学習に基づく特徴抽出と推定のための記述を用いる。 また、効率的なSLAM動作のための単純なループ閉鎖アルゴリズムによって補完される、エンドツーエンドの並列追跡とマッピング最適化層も導入する。 VECtor と TUM-VIE ベンチマークの小規模および大規模実世界シーケンスの総合的な実験を通じて,提案手法は特に大規模 HDR シナリオにおいて,悪条件におけるロバスト性と精度において優れた性能を示す。 私たちの実装のリサーチベースのPython APIは、さらなる研究と開発のためにGitHubで公開されている。

This paper presents a robust approach for a visual parallel tracking and mapping (PTAM) system that excels in challenging environments. Our proposed method combines the strengths of heterogeneous multi-modal visual sensors, including stereo event-based and frame-based sensors, in a unified reference frame through a novel spatio-temporal synchronization of stereo visual frames and stereo event streams. We employ deep learning-based feature extraction and description for estimation to enhance robustness further. We also introduce an end-to-end parallel tracking and mapping optimization layer complemented by a simple loop-closure algorithm for efficient SLAM behavior. Through comprehensive experiments on both small-scale and large-scale real-world sequences of VECtor and TUM-VIE benchmarks, our proposed method (DH-PTAM) demonstrates superior performance in terms of robustness and accuracy in adverse conditions, especially in large-scale HDR scenarios. Our implementation's research-based Python API is publicly available on GitHub for further research and development: https://github.com/AbanobSoliman/DH-PTAM.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# 非線形分布ロバスト最適化

Nonlinear Distributionally Robust Optimization ( http://arxiv.org/abs/2306.03202v2 )

ライセンス: Link先を確認
Mohammed Rayyan Sheriff, Peyman Mohajerin Esfahani, (参考訳) 本稿では,分散ロバストな最適化(DRO)問題に焦点をあてる。文献の増大する体とは異なり,目的関数は分布において潜在的に非線形である。 確率空間における非線形関数を最適化する既存の方法はフレシェ微分(英語版)を用いており、これは理論的および計算的課題である。 そこで本研究では,Gateaux(G)-deivative に基づく一般リスク測度に対する微分とそれに対応する滑らかさの代替概念を提案する。 これらの概念は、分散、エントロピーリスク、有限支持集合上のリスクの3つの実行リスク測定例を通して説明される。 次に、確率空間における一般非線形最適化問題に対するG導関数に基づくフランク・ウルフ(FW)アルゴリズムを提案し、その収束性を、完全にノルムに依存しない方法で、滑らか性の概念に基づいて確立する。 我々はFWアルゴリズムのセットアップを用いて非線形DRO問題のサドル点を計算する手法を考案する。 最後に,ポートフォリオ選択問題の文脈におけるエントロピックおよび分散リスク尺度の2つの事例について理論的結果を検証する。 特に,それらの正則性条件を解析し,各FW軌道を各種設定で計算し,数値検証により理論的結果を確認する。

This article focuses on a class of distributionally robust optimization (DRO) problems where, unlike the growing body of the literature, the objective function is potentially nonlinear in the distribution. Existing methods to optimize nonlinear functions in probability space use the Frechet derivatives, which present both theoretical and computational challenges. Motivated by this, we propose an alternative notion for the derivative and corresponding smoothness based on Gateaux (G)-derivative for generic risk measures. These concepts are explained via three running risk measure examples of variance, entropic risk, and risk on finite support sets. We then propose a G-derivative based Frank-Wolfe (FW) algorithm for generic nonlinear optimization problems in probability spaces and establish its convergence under the proposed notion of smoothness in a completely norm-independent manner. We use the set-up of the FW algorithm to devise a methodology to compute a saddle point of the nonlinear DRO problem. Finally, we validate our theoretical results on two cases of the entropic and variance risk measures in the context of portfolio selection problems. In particular, we analyze their regularity conditions and "sufficient statistic", compute the respective FW-oracle in various settings, and confirm the theoretical outcomes through numerical validation.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# UCTB:時空間予測サービスを構築するための都市コンピューティングツールボックス

UCTB: An Urban Computing Tool Box for Building Spatiotemporal Prediction Services ( http://arxiv.org/abs/2306.04144v2 )

ライセンス: Link先を確認
Jiangyi Fang, Liyue Chen, Di Chai, Yayao Hong, Xiuhuai Xie, Longbiao Chen, Leye Wang, (参考訳) 時空間の群集フロー予測はスマートシティにおける重要な技術のひとつだ。 現在、疫病に関連する研究と実践者には2つの大きな痛点がある。 まず、クラウドフローは複数のドメイン知識要因に関連しているが、アプリケーションシナリオの多様性のため、その後の作業でドメイン知識を合理的かつ包括的に活用することは困難である。 第二に、ディープラーニング技術の発展に伴い、関連する技術の実装はますます複雑化しており、高度なモデルを再現することは、時間がかかり、面倒な作業になっている。 これらの問題に対処するために、複数の時空間知識と最先端モデルを同時に統合したUCTB(Urban Computing Tool Box)と呼ばれる時空間群流予測ツールボックスを設計、実装する。 関連するコードとサポートドキュメントはhttps://github.com/uctb/UCTBでオープンソース化されている。

Spatiotemporal crowd flow prediction is one of the key technologies in smart cities. Currently, there are two major pain points that plague related research and practitioners. Firstly, crowd flow is related to multiple domain knowledge factors; however, due to the diversity of application scenarios, it is difficult for subsequent work to make reasonable and comprehensive use of domain knowledge. Secondly, with the development of deep learning technology, the implementation of relevant techniques has become increasingly complex; reproducing advanced models has become a time-consuming and increasingly cumbersome task. To address these issues, we design and implement a spatiotemporal crowd flow prediction toolbox called UCTB (Urban Computing Tool Box), which integrates multiple spatiotemporal domain knowledge and state-of-the-art models simultaneously. The relevant code and supporting documents have been open-sourced at https://github.com/uctb/UCTB.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# タブラルデータのための解釈可能な深層クラスタリング

Interpretable Deep Clustering for Tabular Data ( http://arxiv.org/abs/2306.04785v2 )

ライセンス: Link先を確認
Jonathan Svirsky, Ofir Lindenbaum, (参考訳) クラスタリングは、データ分析の第一歩として広く使われている基本的な学習タスクである。 例えば、生物学者はクラスター割り当てを使用してゲノム配列、医療記録、画像を分析する。 ダウンストリーム分析は一般的にクラスタレベルで実行されるため、実践者は信頼性と解釈可能なクラスタリングモデルを求める。 本稿では、インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測するための、汎用的なドメイン表データのための新しいディープラーニングフレームワークを提案する。 まず,各データポイントから最も情報に富む特徴のサブセットを同定する自己教師型手順を提案する。 そして,クラスタ割り当てを予測するモデルと,クラスタレベルの特徴選択を提供するゲート行列を設計する。 全体として、我々のモデルは、各サンプルと各クラスタの駆動機能を示すクラスタ割り当てを提供します。 提案手法は, 生物, テキスト, 画像, 物理表のデータセットにおいて, クラスタ割り当てを確実に予測できることを示す。 さらに,これまでに提案した指標を用いて,本モデルがサンプルおよびクラスタレベルでの解釈結果につながることを検証した。 私たちのコードはhttps://github.com/jsvir/idc.comで公開されています。

Clustering is a fundamental learning task widely used as a first step in data analysis. For example, biologists use cluster assignments to analyze genome sequences, medical records, or images. Since downstream analysis is typically performed at the cluster level, practitioners seek reliable and interpretable clustering models. We propose a new deep-learning framework for general domain tabular data that predicts interpretable cluster assignments at the instance and cluster levels. First, we present a self-supervised procedure to identify the subset of the most informative features from each data point. Then, we design a model that predicts cluster assignments and a gate matrix that provides cluster-level feature selection. Overall, our model provides cluster assignments with an indication of the driving feature for each sample and each cluster. We show that the proposed method can reliably predict cluster assignments in biological, text, image, and physics tabular datasets. Furthermore, using previously proposed metrics, we verify that our model leads to interpretable results at a sample and cluster level. Our code is available at https://github.com/jsvir/idc.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# CompanyKG: 企業類似性定量化のための大規模不均一グラフ

CompanyKG: A Large-Scale Heterogeneous Graph for Company Similarity Quantification ( http://arxiv.org/abs/2306.10649v4 )

ライセンス: Link先を確認
Lele Cao, Vilhelm von Ehrenheim, Mark Granroth-Wilding, Richard Anselmo Stahl, Andrew McCornack, Armin Catovic, Dhiana Deva Cavacanti Rocha, (参考訳) 投資業界では、市場マッピング、競合分析、合併・買収など、さまざまな目的のために、きめ細かい会社の類似度定量化を実施することが不可欠であることが多い。 我々は,企業の特徴や関係を多様に表現し,学習するための知識グラフである企業KGを提案し,公開する。 具体的には、117万の企業が企業記述の埋め込みに富んだノードとして表現され、15の異なる企業間関係によって51.06百万のエッジが生成される。 企業類似度定量化のための手法を総合的に評価するために, 類似度予測, 競合検索, 類似度ランキングという, 注釈付きテストセットを用いた3つの評価タスクを考案し, コンパイルした。 本稿では,11個の再現可能な予測手法について,ノードのみ,エッジのみ,ノード+エッジの3つのグループに分類したベンチマーク結果を示す。 私たちの知る限りでは、企業間類似性を定量化するのに適した、実世界の投資プラットフォームから派生した、最初の大規模な異種グラフデータセットである。

In the investment industry, it is often essential to carry out fine-grained company similarity quantification for a range of purposes, including market mapping, competitor analysis, and mergers and acquisitions. We propose and publish a knowledge graph, named CompanyKG, to represent and learn diverse company features and relations. Specifically, 1.17 million companies are represented as nodes enriched with company description embeddings; and 15 different inter-company relations result in 51.06 million weighted edges. To enable a comprehensive assessment of methods for company similarity quantification, we have devised and compiled three evaluation tasks with annotated test sets: similarity prediction, competitor retrieval and similarity ranking. We present extensive benchmarking results for 11 reproducible predictive methods categorized into three groups: node-only, edge-only, and node+edge. To the best of our knowledge, CompanyKG is the first large-scale heterogeneous graph dataset originating from a real-world investment platform, tailored for quantifying inter-company similarity.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# 量子メモリが高密度符号化に有用である場合

When quantum memory is useful for dense coding ( http://arxiv.org/abs/2306.11237v2 )

ライセンス: Link先を確認
Ryuji Takagi, Masahito Hayashi, (参考訳) 符号化操作がグループ表現の適用に限られている場合、送信側と受信側の間で特定の事前共有状態のコピーを$n$で高密度に符号化することについて議論する。 通常、これらの事前共有状態の複数のローカルコピーに作用するには、一般に複数のコピーが順次生成されるため、受信機は量子メモリを必要とする。 利用可能なユニタリ演算の符号化に依存するため、受信側で量子メモリを使用する利点について検討する。

We discuss dense coding with $n$ copies of a specific preshared state between the sender and the receiver when the encoding operation is limited to the application of group representation. Typically, to act on multiple local copies of these preshared states, the receiver needs quantum memory, because in general the multiple copies will be generated sequentially. Depending on available encoding unitary operations, we investigate what preshared state offers an advantage of using quantum memory on the receiver's side.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-09
# 臨床領域におけるLLaMAのパラメータ効率の良い微調整

Parameter-Efficient Fine-Tuning of LLaMA for the Clinical Domain ( http://arxiv.org/abs/2307.03042v3 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Pasquale Minervini, Luke Daines, Tom Hope, Beatrice Alex, (参考訳) 臨床応用のような新しい領域に事前訓練された言語モデルを適用するには、伝統的にパラメータの集合全体をトレーニングする必要がある。 パラメータの小さなサブセットを選択的に微調整することで、細調整言語モデルのためのパラメータ効率の良い細調整(PEFT)技術は、計算要求を大幅に削減する。 本研究では,2段階のPEFTフレームワークを提案し,臨床領域で評価する。 本手法は,臨床領域適応のために設計されたPEFTアダプタ層と下流タスクに特化した別のアダプタを組み合わせたものである。 複数の臨床結果予測データセットの枠組みを評価し,臨床訓練された言語モデルと比較した。 本フレームワークは, 臨床言語モデルと比較して, 下流業務における平均AUROCスコアが向上する。 特に,診断や手順分類などの大規模マルチラベル分類タスクにおいて,AUROCの4-5%の大幅な改善が観察された。 本研究は,臨床応用の重要領域におけるPEFT技術と領域適応との相互作用を実験的に分析した最初の事例である。

Adapting pretrained language models to novel domains, such as clinical applications, traditionally involves retraining their entire set of parameters. Parameter-Efficient Fine-Tuning (PEFT) techniques for fine-tuning language models significantly reduce computational requirements by selectively fine-tuning small subsets of parameters. In this study, we propose a two-step PEFT framework and evaluate it in the clinical domain. Our approach combines a specialised PEFT adapter layer designed for clinical domain adaptation with another adapter specialised for downstream tasks. We evaluate the framework on multiple clinical outcome prediction datasets, comparing it to clinically trained language models. Our framework achieves a better AUROC score averaged across all clinical downstream tasks compared to clinical language models. In particular, we observe large improvements of 4-5% AUROC in large-scale multilabel classification tasks, such as diagnoses and procedures classification. To our knowledge, this study is the first to provide an extensive empirical analysis of the interplay between PEFT techniques and domain adaptation in an important real-world domain of clinical applications.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-09
# 臨床・バイオメディカル・タスクに応用した命令型大規模言語モデルのゼロショットとファウショットによる検討

A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks ( http://arxiv.org/abs/2307.12114v3 )

ライセンス: Link先を確認
Yanis Labrak, Mickael Rouvier, Richard Dufour, (参考訳) 我々は、英語の13の現実的臨床・バイオメディカル自然言語処理(NLP)タスク(NER)、質問応答(QA)、関係抽出(RE)など、最先端の4つの言語モデル(ChatGPT、Flan-T5 UL2、Tk-Instruct、Alpaca)を評価する。 我々の総合的な結果は、評価されたLLMが、ほとんどのタスク、特にQAタスクにおいてゼロおよび少数ショットシナリオにおける最先端モデルの性能に近づき始めていることを示している。 しかし, PubMedBERT などの医療分野において, 特定の訓練を施したモデルを用いて, 分類とREタスクが達成できることが観察された。 最後に、LLMはすべての研究されたタスクで他のすべてのタスクより優れており、いくつかのモデルは他のタスクよりも適している、と言及した。

We evaluate four state-of-the-art instruction-tuned large language models (LLMs) -- ChatGPT, Flan-T5 UL2, Tk-Instruct, and Alpaca -- on a set of 13 real-world clinical and biomedical natural language processing (NLP) tasks in English, such as named-entity recognition (NER), question-answering (QA), relation extraction (RE), etc. Our overall results demonstrate that the evaluated LLMs begin to approach performance of state-of-the-art models in zero- and few-shot scenarios for most tasks, and particularly well for the QA task, even though they have never seen examples from these tasks before. However, we observed that the classification and RE tasks perform below what can be achieved with a specifically trained model for the medical field, such as PubMedBERT. Finally, we noted that no LLM outperforms all the others on all the studied tasks, with some models being better suited for certain tasks than others.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-09
# IndoHerb:移動学習と深層学習を用いたインドネシアの薬草認識

IndoHerb: Indonesia Medicinal Plants Recognition using Transfer Learning and Deep Learning ( http://arxiv.org/abs/2308.01604v2 )

ライセンス: Link先を確認
Muhammad Salman Ikrar Musyaffa, Novanto Yudistira, Muhammad Arif Rahman, Jati Batoro, (参考訳) インドネシアの多種多様な草本植物は、伝統的な癒しや民族植物学的な実践のための代替資源として大きな可能性を秘めている。 しかし、近代化による草本植物の衰退は、この貴重な遺産を保存する上で重要な課題となっている。 これらの植物を正確に同定することは、伝統的な慣行の継続と栄養的利益の活用に不可欠である。 それでも、草本植物の手作業による識別は、専門家の知識と植物特性の綿密な調査を要求する、時間を要する課題である。 これに対し、コンピュータビジョンの応用は、草本植物の効率的な同定を容易にするための有望な解決策として現れる。 本研究は,コンボリューショナルニューラルネットワーク(CNN)の伝達学習の実装を通じて,インドネシアの草本植物を分類する課題に対処する。 本研究を支援するため,インドネシアの草本植物画像の広範囲なデータセットを手作業で収集した。 その後、厳密なデータ前処理を行い、ResNet、DenseNet、VGG、ConvNeXt、Swin Transformerの5つの異なるモデルで転送学習手法を利用した分類を行った。 包括的な分析の結果、ConvNeXtは92.5%の精度で最高の精度を達成した。 さらに,スクラッチモデルを用いて試験を行い,53.9%の精度を得た。 実験では、ガンマ値0.9のExponentialLRスケジューラ、学習率0.001、クロスエントロピーロス関数、アダムオプティマイザ、トレーニングエポック数50など、必要不可欠なハイパーパラメータが設定された。 本研究の結果は,インドネシアの薬草の自動同定に有用な知見と実践的示唆を与えるものである。

The rich diversity of herbal plants in Indonesia holds immense potential as alternative resources for traditional healing and ethnobotanical practices. However, the dwindling recognition of herbal plants due to modernization poses a significant challenge in preserving this valuable heritage. The accurate identification of these plants is crucial for the continuity of traditional practices and the utilization of their nutritional benefits. Nevertheless, the manual identification of herbal plants remains a time-consuming task, demanding expert knowledge and meticulous examination of plant characteristics. In response, the application of computer vision emerges as a promising solution to facilitate the efficient identification of herbal plants. This research addresses the task of classifying Indonesian herbal plants through the implementation of transfer learning of Convolutional Neural Networks (CNN). To support our study, we curated an extensive dataset of herbal plant images from Indonesia with careful manual selection. Subsequently, we conducted rigorous data preprocessing, and classification utilizing transfer learning methodologies with five distinct models: ResNet, DenseNet, VGG, ConvNeXt, and Swin Transformer. Our comprehensive analysis revealed that ConvNeXt achieved the highest accuracy, standing at an impressive 92.5%. Additionally, we conducted testing using a scratch model, resulting in an accuracy of 53.9%. The experimental setup featured essential hyperparameters, including the ExponentialLR scheduler with a gamma value of 0.9, a learning rate of 0.001, the Cross-Entropy Loss function, the Adam optimizer, and a training epoch count of 50. This study's outcomes offer valuable insights and practical implications for the automated identification of Indonesian medicinal plants.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-09
# 潜時変動を考慮した因果構造推定のための一般化独立雑音条件

Generalized Independent Noise Condition for Estimating Causal Structure with Latent Variables ( http://arxiv.org/abs/2308.06718v2 )

ライセンス: Link先を確認
Feng Xie, Biwei Huang, Zhengming Chen, Ruichu Cai, Clark Glymour, Zhi Geng, Kun Zhang, (参考訳) 本研究では,潜伏変数の配置や数量の決定,潜伏変数と観測変数の因果関係の同定など,潜伏変数の存在下での因果構造学習の課題について検討する。 そこで本研究では,潜在変数を含む線形非ガウス非巡回因果モデルに対する一般独立雑音(GIN)条件を提案する。 具体的には、2つの観測されたランダムベクトル $\bf{Y}$ と $\bf{Z}$ に対して、GIN が成り立つのは、$\omega^{\intercal}\mathbf{Y}$ と $\mathbf{Z}$ が独立であることと、$\omega$ が $\mathbf{Y}$ と $\mathbf{Z}$ の交叉共分散によって決定される非零パラメータベクトルであることである。 そして、線形非ガウス非巡回モデルにおいて、GIN条件の必要十分かつグラフィカルな基準を与える。 大まかに言えば、GIN は $\mathcal{S}$ が $\mathcal{S}$ よりも因果的に早く (w.r.t. the causal ordering) であるような集合 $\mathcal{S}$ の存在を示唆し、$\mathbf{Y}$ と $\mathbf{Z}$ の間のすべての活性(コライダーフリー)パスは $\mathcal{S}$ のノードを含まなければならない。 興味深いことに、独立したノイズ条件(すなわち、共同創設者がいなければ、原因に対する効果の後退から生じる残差から独立している)が、GINの特別な場合と見なされる。 このようなGIN構造と潜在因果構造との接続により、提案されたGIN条件をさらに活用し、よく設計された探索手順とともに、線形非ガウスラテン階層モデル(LiNGLaHs)を効率的に推定する。 GIN条件に照らしてLiNGLaHの因果構造が同定可能であることを示す。 実験の結果,提案手法の有効性が示された。

We investigate the task of learning causal structure in the presence of latent variables, including locating latent variables and determining their quantity, and identifying causal relationships among both latent and observed variables. To this end, we propose a Generalized Independent Noise (GIN) condition for linear non-Gaussian acyclic causal models that incorporate latent variables, which establishes the independence between a linear combination of certain measured variables and some other measured variables. Specifically, for two observed random vectors $\bf{Y}$ and $\bf{Z}$, GIN holds if and only if $\omega^{\intercal}\mathbf{Y}$ and $\mathbf{Z}$ are independent, where $\omega$ is a non-zero parameter vector determined by the cross-covariance between $\mathbf{Y}$ and $\mathbf{Z}$. We then give necessary and sufficient graphical criteria of the GIN condition in linear non-Gaussian acyclic models. Roughly speaking, GIN implies the existence of a set $\mathcal{S}$ such that $\mathcal{S}$ is causally earlier (w.r.t. the causal ordering) than $\mathbf{Y}$, and that every active (collider-free) path between $\mathbf{Y}$ and $\mathbf{Z}$ must contain a node from $\mathcal{S}$. Interestingly, we find that the independent noise condition (i.e., if there is no confounder, causes are independent of the residual derived from regressing the effect on the causes) can be seen as a special case of GIN. With such a connection between GIN and latent causal structures, we further leverage the proposed GIN condition, together with a well-designed search procedure, to efficiently estimate Linear, Non-Gaussian Latent Hierarchical Models (LiNGLaHs), where latent confounders may also be causally related and may even follow a hierarchical structure. We show that the causal structure of a LiNGLaH is identifiable in light of GIN conditions. Experimental results show the effectiveness of the proposed method.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-09
# CoMIX: 効率的な分散型コーディネートと独立意思決定のためのマルチエージェント強化学習学習アーキテクチャ

CoMIX: A Multi-agent Reinforcement Learning Training Architecture for Efficient Decentralized Coordination and Independent Decision-Making ( http://arxiv.org/abs/2308.10721v2 )

ライセンス: Link先を確認
Giovanni Minelli, Mirco Musolesi, (参考訳) ロバストコーディネートスキルにより、エージェントは共有環境で、共通の目標に向けて、そして理想的には、お互いの進歩を妨げることなく、結合的に操作することができる。 そこで本研究では,分散エージェントのための新しいトレーニングフレームワークであるCoordinated QMIX(CoMIX)について述べる。 CoMIXは、各エージェントの決定プロセスにおいて、自己中心的かつ協調的な振る舞いを漸進的なステップとしてモデル化する。 これにより、エージェントは独立と協力のバランスをとる異なる状況に動的に行動を適用することができる。 様々なシミュレーション環境を用いた実験により、CoMIXは協調作業のベースラインを上回っていることが示された。 その結果,多エージェントシステムにおける協調性向上のための効果的な手法として,我々の漸進的アプローチを検証した。

Robust coordination skills enable agents to operate cohesively in shared environments, together towards a common goal and, ideally, individually without hindering each other's progress. To this end, this paper presents Coordinated QMIX (CoMIX), a novel training framework for decentralized agents that enables emergent coordination through flexible policies, allowing at the same time independent decision-making at individual level. CoMIX models selfish and collaborative behavior as incremental steps in each agent's decision process. This allows agents to dynamically adapt their behavior to different situations balancing independence and collaboration. Experiments using a variety of simulation environments demonstrate that CoMIX outperforms baselines on collaborative tasks. The results validate our incremental approach as effective technique for improving coordination in multi-agent systems.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-09
# メンタルヘルスデータセットにおける教師付き学習と大規模言語モデルベンチマーク:中国のソーシャルメディアにおける認知的歪みと自殺リスク

Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media ( http://arxiv.org/abs/2309.03564v3 )

ライセンス: Link先を確認
Hongzhi Qi, Qing Zhao, Jianqiang Li, Changwei Song, Wei Zhai, Dan Luo, Shuo Liu, Yi Jing Yu, Fan Wang, Huijing Zou, Bing Xiang Yang, Guanghui Fu, (参考訳) ソーシャルメディア上では、ユーザーは自分の感情を表現し、特定のトピックに対して認知的歪曲や自殺傾向を示すことがある。 これらの兆候の早期認識は効果的な心理的介入に重要である。 本稿では,中国のソーシャルメディアから,自殺リスク分類のためのSOS-HL-1Kと認知歪み検出のためのSocialCD-3Kの2つの新しいデータセットを紹介する。 SOS-HL-1Kデータセットは1,249のポストを含み、SocialCD-3Kデータセットは3,407のポストを含むマルチラベル分類データセットである。 本稿では,2つの教師付き学習手法と8つの大規模言語モデル(LLM)を用いた総合的な評価を提案する。 迅速なエンジニアリングの観点から、4つのゼロショット戦略と5つの数ショット戦略を含む2種類のプロンプト戦略を実験した。 また,提案課題の微調整後のLLMの性能評価を行った。 実験結果から,LLMには迅速な工学と教師あり学習にのみ依存する大きなギャップがあることが示唆された。 自殺分類タスクでは、このギャップはF1スコアで6.95%、認知歪みタスクでは、ギャップはさらに顕著になり、F1スコアで31.53%に達する。 しかし、微調整後、この差は著しく減少する。 自殺と認知の歪み分類では、それぞれ4.31%と3.14%に減少する。 この研究は、心理学的文脈におけるLLMの可能性を強調するが、より困難なタスクには教師あり学習が必要である。 すべてのデータセットとコードは利用可能である。

On social media, users often express their personal feelings, which may exhibit cognitive distortions or even suicidal tendencies on certain specific topics. Early recognition of these signs is critical for effective psychological intervention. In this paper, we introduce two novel datasets from Chinese social media: SOS-HL-1K for suicidal risk classification and SocialCD-3K for cognitive distortions detection. The SOS-HL-1K dataset contained 1,249 posts and SocialCD-3K dataset was a multi-label classification dataset that containing 3,407 posts. We propose a comprehensive evaluation using two supervised learning methods and eight large language models (LLMs) on the proposed datasets. From the prompt engineering perspective, we experimented with two types of prompt strategies, including four zero-shot and five few-shot strategies. We also evaluated the performance of the LLMs after fine-tuning on the proposed tasks. The experimental results show that there is still a huge gap between LLMs relying only on prompt engineering and supervised learning. In the suicide classification task, this gap is 6.95% points in F1-score, while in the cognitive distortion task, the gap is even more pronounced, reaching 31.53% points in F1-score. However, after fine-tuning, this difference is significantly reduced. In the suicide and cognitive distortion classification tasks, the gap decreases to 4.31% and 3.14%, respectively. This research highlights the potential of LLMs in psychological contexts, but supervised learning remains necessary for more challenging tasks. All datasets and code are made available.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-09
# Beyond Gut Feel: 時系列トランスフォーマーを使って投資Gemを見つける

Beyond Gut Feel: Using Time Series Transformers to Find Investment Gems ( http://arxiv.org/abs/2309.16888v2 )

ライセンス: Link先を確認
Lele Cao, Gustaf Halvardsson, Andrew McCornack, Vilhelm von Ehrenheim, Pawel Herman, (参考訳) 本稿では、PE(Private Equity)業界におけるデータ駆動アプローチの適用拡大、特にVC(Venture Capital)とGC(Growth Capital)の投資目標(企業)のソーシングについて論じる。 本稿では,トランスフォーマーをベースとした多変量時系列分類器(TMTSC)を用いた新たなアプローチを提案する。 本研究の目的は、多変量時系列分類タスクとしてソーシング問題を正式に定義することにより、VCおよびGC投資のソーシング性能を最適化することである。 本稿では,VC/GC ソーシングにおける TMTSC の適用に一括して貢献する実装の重要コンポーネントについて,入力機能,モデルアーキテクチャ,最適化ターゲット,投資家中心のデータ処理について紹介する。 3つの一般的なベースラインに向けてベンチマークした2つの実世界の投資タスクに関する大規模な実験は、VCとGC業界における意思決定の改善における我々のアプローチの有効性を実証しています。

This paper addresses the growing application of data-driven approaches within the Private Equity (PE) industry, particularly in sourcing investment targets (i.e., companies) for Venture Capital (VC) and Growth Capital (GC). We present a comprehensive review of the relevant approaches and propose a novel approach leveraging a Transformer-based Multivariate Time Series Classifier (TMTSC) for predicting the success likelihood of any candidate company. The objective of our research is to optimize sourcing performance for VC and GC investments by formally defining the sourcing problem as a multivariate time series classification task. We consecutively introduce the key components of our implementation which collectively contribute to the successful application of TMTSC in VC/GC sourcing: input features, model architecture, optimization target, and investor-centric data processing. Our extensive experiments on two real-world investment tasks, benchmarked towards three popular baselines, demonstrate the effectiveness of our approach in improving decision making within the VC and GC industry.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-09
# 協調グラフニューラルネットワーク

Cooperative Graph Neural Networks ( http://arxiv.org/abs/2310.01267v2 )

ライセンス: Link先を確認
Ben Finkelshtein, Xingyue Huang, Michael Bronstein, İsmail İlkan Ceylan, (参考訳) グラフニューラルネットワークは、一連の不変変換を通じて入力グラフのノード表現の反復計算に基づいて、グラフ機械学習の一般的なアーキテクチャである。 グラフニューラルネットワークの大規模なクラスは、標準的なメッセージパッシングパラダイムに従っている。すべてのレイヤにおいて、各ノード状態はその近隣からのメッセージの集約に基づいて更新される。 本研究では,グラフニューラルネットワークをトレーニングするための新しいフレームワークを提案する。このフレームワークでは,各ノードを,'listen','broadcast','listen and broadcast',または'isolate'のいずれかを選択するプレーヤとみなす。 標準的なメッセージ伝搬スキームは、すべてのノードが隣人全員に"リストとブロードキャスト"を行う、このフレームワークの特別なケースと見なすことができる。 このアプローチは、各ノードが自身の状態に基づいて独自の戦略を決定でき、学習中にグラフトポロジを効果的に探索する、よりフレキシブルでダイナミックなメッセージパッシングパラダイムを提供します。 本稿では、合成データセットと実世界のデータセットに関する広範な経験的分析によってさらに支持される新しいメッセージパッシング方式の理論解析について述べる。

Graph neural networks are popular architectures for graph machine learning, based on iterative computation of node representations of an input graph through a series of invariant transformations. A large class of graph neural networks follow a standard message-passing paradigm: at every layer, each node state is updated based on an aggregate of messages from its neighborhood. In this work, we propose a novel framework for training graph neural networks, where every node is viewed as a player that can choose to either 'listen', 'broadcast', 'listen and broadcast', or to 'isolate'. The standard message propagation scheme can then be viewed as a special case of this framework where every node 'listens and broadcasts' to all neighbors. Our approach offers a more flexible and dynamic message-passing paradigm, where each node can determine its own strategy based on their state, effectively exploring the graph topology while learning. We provide a theoretical analysis of the new message-passing scheme which is further supported by an extensive empirical analysis on a synthetic dataset and on real-world datasets.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-09
# ランダム化潜在表現によるテクスチャフードラーの摂食

Fooling the Textual Fooler via Randomizing Latent Representations ( http://arxiv.org/abs/2310.01452v2 )

ライセンス: Link先を確認
Duy C. Hoang, Quang H. Nguyen, Saurav Manchanda, MinLong Peng, Kok-Seng Wong, Khoa D. Doan, (参考訳) 様々なNLPタスクのパフォーマンスに優れていますが、最近の研究では、NLPモデルは、入力をわずかに摂動させ、モデルを誤動作させる敵の攻撃に対して脆弱であることが明らかになっています。 これらの攻撃のうち、敵語レベルの摂動はよく研究され効果的な攻撃戦略である。 これらの攻撃はブラックボックス設定で動作するため、モデルアーキテクチャやモデルパラメータへのアクセスを必要としないため、既存のNLPアプリケーションには有害である。 攻撃を行うために、敵は被害者モデルに何度も問い合わせ、入力テキストで最も重要な単語を判定し、それらの単語を対応する同義語に置き換える。 本研究では,これらの問合せベースのブラックボックス攻撃において,敵の例を生成する過程を複雑にすることが主な目的である,軽量で攻撃に依存しない防御手法を提案する。 このディフェンスはAdvFoolerと呼ばれ、推論時に入力の潜在表現をランダムにすることで機能する。 既存の防御と異なり、AdvFoolerはトレーニング中に追加の計算オーバーヘッドを必要とせず、モデルの正確性に無視できない影響を与えながら、潜在的な敵の摂動セットに関する仮定に依存しない。 我々の理論的および実証的な分析は、潜在空間をランダム化することで敵を混乱させ、またランダム化がクリーンな精度に与える影響を浮き彫りにするロバスト性の重要性を強調した。 最後に,AdvFoolerの2つのベンチマークデータセットに対する単語レベルの代表的攻撃に対する最先端の堅牢性を実証的に実証した。

Despite outstanding performance in a variety of NLP tasks, recent studies have revealed that NLP models are vulnerable to adversarial attacks that slightly perturb the input to cause the models to misbehave. Among these attacks, adversarial word-level perturbations are well-studied and effective attack strategies. Since these attacks work in black-box settings, they do not require access to the model architecture or model parameters and thus can be detrimental to existing NLP applications. To perform an attack, the adversary queries the victim model many times to determine the most important words in an input text and to replace these words with their corresponding synonyms. In this work, we propose a lightweight and attack-agnostic defense whose main goal is to perplex the process of generating an adversarial example in these query-based black-box attacks; that is to fool the textual fooler. This defense, named AdvFooler, works by randomizing the latent representation of the input at inference time. Different from existing defenses, AdvFooler does not necessitate additional computational overhead during training nor relies on assumptions about the potential adversarial perturbation set while having a negligible impact on the model's accuracy. Our theoretical and empirical analyses highlight the significance of robustness resulting from confusing the adversary via randomizing the latent space, as well as the impact of randomization on clean accuracy. Finally, we empirically demonstrate near state-of-the-art robustness of AdvFooler against representative adversarial word-level attacks on two benchmark datasets.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-09
# CompVPD: 高精度コンテキストによる人体検証結果に基づく脆弱性パッチの反復的同定

CompVPD: Iteratively Identifying Vulnerability Patches Based on Human Validation Results with a Precise Context ( http://arxiv.org/abs/2310.02530v2 )

ライセンス: Link先を確認
Tianyu Chen, Lin Li, Taotao Qian, Jingyi Liu, Wei Yang, Ding Li, Guangtai Liang, Qianxiang Wang, Tao Xie, (参考訳) ダウンストリームアプリケーションのセキュリティを確保するためには、オープンソースソフトウェアにタイムリーにセキュリティパッチを適用することが重要です。 しかし、パッチの通知が不完全で遅延することが多いため、これらのパッチを迅速に適用することは困難である。 この問題に対処するため、既存のアプローチでは、ディープラーニング(DL)モデルを使用して、コードコミットが脆弱性に対処するかどうかを判断することで、追加の脆弱性パッチを特定する。 それにもかかわらず、これらのアプローチはパッチに対する不正確なコンテキストのため、低い精度で悩まされる。 パッチの正確なコンテキストを提供するために,パッチに関連するコードを正確に識別する多粒度スライシングアルゴリズムと適応拡張アルゴリズムを提案する。 さらに、正確なコンテキストにより、人間の検証結果を利用した反復的識別フレームワークであるCompVPDを設計でき、有効性を大幅に向上することができる。 脆弱性の特定には、CompVPDと4つのSOTA(State-of-the-art/practice)アプローチを実証的に比較する。 その結果,CompVPDはSOTAアプローチのベストスコアと比較してF1スコアを20%改善することがわかった。 さらに、CompVPDは、人気の高い5つのオープンソースプロジェクトの2500のコードコミットから、20の脆弱性パッチと18のバグ修正の特定を支援することで、セキュリティプラクティスに貢献している。

Applying security patches in open source software timely is critical for ensuring the security of downstream applications. However, it is challenging to apply these patches promptly because notifications of patches are often incomplete and delayed. To address this issue, existing approaches employ deep-learning (DL) models to identify additional vulnerability patches by determining whether a code commit addresses a vulnerability. Nonetheless, these approaches suffer from low accuracy due to the imprecise context provided for the patches. To provide precise context for patches, we propose a multi-granularity slicing algorithm and an adaptive-expanding algorithm to accurately identify code related to the patches. Additionally, the precise context enables to design an iterative identification framework, CompVPD, which utilizes the human validation results, and substantially improve the effectiveness. We empirically compare CompVPD with four state-of-the-art/practice (SOTA) approaches in identifying vulnerability patches. The results demonstrate that CompVPD improves the F1 score by 20% compared to the best scores of the SOTA approaches. Additionally, CompVPD contributes to security practice by helping identify 20 vulnerability patches and 18 fixes for high-risk bugs from 2,500 recent code commits in five highly popular open-source projects.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-09
# 大規模言語モデルのリスクアウェアベンチマーク

Risk Aware Benchmarking of Large Language Models ( http://arxiv.org/abs/2310.07132v3 )

ライセンス: Link先を確認
Apoorva Nitsure, Youssef Mroueh, Mattia Rigotti, Kristjan Greenewald, Brian Belgodere, Mikhail Yurochkin, Jiri Navratil, Igor Melnyk, Jerret Ross, (参考訳) 本稿では,統計的に有意な基礎モデルの社会技術的リスクを定量的に評価するための分布的枠組みを提案する。 提案手法は,実確率変数の1次および2次確率支配に基づく新しい統計的相対性試験に基づく。 本試験における2次統計は, 平均リスクモデルと相関し, 代替案を選択する際のリスクと実用性のバランスをとるために, エコノメトリや数理ファイナンスでよく用いられることを示す。 このフレームワークを用いて,特定メトリクスで定量化されたガードレールを基礎モデル選択のためのリスク対応アプローチを正式に開発する。 数学ファイナンスにおけるポートフォリオ最適化と選択理論に着想を得て、各モデルのメトリクスポートフォリオをメトリクスの集合を集約する手段として定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を行う。 本試験の統計的意義は, ブートストラップの分散推定によって実際にインスタンス化される中心極限定理による漸近解析によって理論的に裏付けられている。 筆者らは,本フレームワークを用いて,命令からのドリフトや有害なコンテンツの出力に関連するリスクに関する,さまざまな大規模言語モデルを比較した。

We propose a distributional framework for benchmarking socio-technical risks of foundation models with quantified statistical significance. Our approach hinges on a new statistical relative testing based on first and second order stochastic dominance of real random variables. We show that the second order statistics in this test are linked to mean-risk models commonly used in econometrics and mathematical finance to balance risk and utility when choosing between alternatives. Using this framework, we formally develop a risk-aware approach for foundation model selection given guardrails quantified by specified metrics. Inspired by portfolio optimization and selection theory in mathematical finance, we define a metrics portfolio for each model as a means to aggregate a collection of metrics, and perform model selection based on the stochastic dominance of these portfolios. The statistical significance of our tests is backed theoretically by an asymptotic analysis via central limit theorems instantiated in practice via a bootstrap variance estimate. We use our framework to compare various large language models regarding risks related to drifting from instructions and outputting toxic content.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-09
# 対称性欠陥によるUV/IR混合の解離:トポロジカルエンタングルメントエントロピーから

Unveiling UV/IR Mixing via Symmetry Defects: A View from Topological Entanglement Entropy ( http://arxiv.org/abs/2310.09425v2 )

ライセンス: Link先を確認
Jintae Kim, Yun-Tak Oh, Daniel Bulmash, Jung Hoon Han, (参考訳) 2つの空間次元のトポロジカル格子モデルは、その基底状態縮退(GSD)において複雑な格子サイズ依存を示す。 位置依存性陰性励起などの他の特徴は紫外線/赤外線混合の現れである。 論文の前半では、トーラス周辺の非収縮性境界に対する最小エントロピー状態を特定した後、そのようなモデルであるランク2トーラス符号の位相エンタングルメントエントロピー(TEE)を正確に計算する。 結果として得られるTEEは、GSDと同様に、格子サイズに複雑な依存を示す。 論文の後半部では、ランク2トーリック符号が翻訳対称性に富んだ位相位相の例であるという事実に注目し、異なる翻訳対称性欠陥の結果として、異なる格子の大きさを見ることは、ランク2トーリック符号のTEE結果とGSDの両方を説明することができることを示す。 我々の研究は、トポロジカル格子モデルにおけるUV/IR混合の堅牢な記述として、翻訳対称性欠陥フレームワークを確立する。

Some topological lattice models in two spatial dimensions exhibit intricate lattice size dependence in their ground state degeneracy (GSD). This and other features such as the position-dependent anyonic excitations are manifestations of UV/IR mixing. In the first part of the paper we exactly calculate the topological entanglement entropy (TEE) of one such model, the rank-2 toric code, after identifying the minimum entropy states for a non-contractible boundary around the torus. The resulting TEE, as with the GSD, shows intricate dependence on the lattice size. In the latter part of the paper we focus on the fact that the rank-2 toric code is an example of a translation symmetry-enriched topological phase, and show that viewing distinct lattice size as a consequence of different translation symmetry defects can explain both our TEE results and the GSD of the rank-2 toric code. Our work establishes the translation symmetry defect framework as a robust description of the UV/IR mixing in topological lattice models.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-09
# デモは必要なもの - 文脈内学習による攻撃的コンテンツパラフレージングの促進

Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning ( http://arxiv.org/abs/2310.10707v2 )

ライセンス: Link先を確認
Anirudh Som, Karan Sikka, Helen Gent, Ajay Divakaran, Andreas Kathol, Dimitra Vergyri, (参考訳) 攻撃的コンテンツのパラフレーズ化は、コンテンツ削除のより良い代替手段であり、コミュニケーション環境における市民性向上に役立つ。 しかし、意味や意図を保存するための大量のラベル付きデータに大きく依存している。 また、元のコンテンツに対する不快感の大部分を保ち、ユーザビリティに関する疑問を提起することもある。 本稿では,大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)を探索し,特定のクエリに対して所望のアウトプットを生成する上で,入力ラベルのデモペアを限定的に使用することにより,実践者が有用なパラフレーズの開発を支援することを目的とする。 本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。 提案した文脈対応ポリトパラフレーズ(CAPP)データセットは,対話スタイルの失礼な発話,丁寧な言い回し,追加の対話コンテキストから構成される。 我々は4つのクローズドソースと1つのオープンソースLLMを用いてアプローチを評価した。 以上の結果から,ICLは品質管理手法と同等であり,人体評価では25%,毒性では76%と質的に優れていた。 また、ICLベースのパラフレーズは10%のトレーニングデータでもわずかに性能を低下させるだけである。

Paraphrasing of offensive content is a better alternative to content removal and helps improve civility in a communication environment. Supervised paraphrasers; however, rely heavily on large quantities of labelled data to help preserve meaning and intent. They also often retain a large portion of the offensiveness of the original content, which raises questions on their overall usability. In this paper we aim to assist practitioners in developing usable paraphrasers by exploring In-Context Learning (ICL) with large language models (LLMs), i.e., using a limited number of input-label demonstration pairs to guide the model in generating desired outputs for specific queries. Our study focuses on key factors such as - number and order of demonstrations, exclusion of prompt instruction, and reduction in measured toxicity. We perform principled evaluation on three datasets, including our proposed Context-Aware Polite Paraphrase (CAPP) dataset, comprising of dialogue-style rude utterances, polite paraphrases, and additional dialogue context. We evaluate our approach using four closed source and one open source LLM. Our results reveal that ICL is comparable to supervised methods in generation quality, while being qualitatively better by 25% on human evaluation and attaining lower toxicity by 76%. Also, ICL-based paraphrasers only show a slight reduction in performance even with just 10% training data.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-09
# 低深さクリフォード回路はMaxCutをほぼ解決する

Low-depth Clifford circuits approximately solve MaxCut ( http://arxiv.org/abs/2310.15022v3 )

ライセンス: Link先を確認
Manuel H. Muñoz-Arias, Stefanos Kourtis, Alexandre Blais, (参考訳) 低深さクリフォード回路に基づくMaxCutの量子インスピレーション近似アルゴリズムを提案する。 まず、重み付き完全連結グラフ上のMaxCut問題に対する適応量子近似最適化アルゴリズム(ADAPT-QAOA)の解ユニタリが(ほぼ)クリフォード回路であることを示す。 この観測により、我々は、クリフォード群の生成要素の最小セットを組み合わせてクリフォード多様体を探索するMaxCut, \emph{ADAPT-Clifford} の近似アルゴリズムを考案した。 我々のアルゴリズムは、深さ$O(N)$ Clifford回路を構築することにより、$N$頂点グラフ上のMaxCutの近似解を求める。 このアルゴリズムは、スパースグラフと高密度グラフに対してそれぞれ$O(N^2)$と$O(N^3)$と、より要求の高いランタイムを犠牲にしてソリューション品質が改善された空間複雑性$O(N^2)$を有する。 我々はADAPT-Cliffordを実装し、正の重みと符号付き重みを持つグラフ上での性能を特徴付ける。 熱力学限界におけるパリの値の$\sim94\% に相当する基底状態平均エネルギー密度の解を求める。 ADAPT-Clifford によるカットと Goemans-Williamson (GW) アルゴリズムによるカットを比較して, 正重みの場合について検討した。 スパースと高密度の両方の場合、最大数百のノードで、ADAPT-CliffordはGWよりも低いエネルギーのカットを見つけるという矛盾した証拠を提供する。

We introduce a quantum-inspired approximation algorithm for MaxCut based on low-depth Clifford circuits. We start by showing that the solution unitaries found by the adaptive quantum approximation optimization algorithm (ADAPT-QAOA) for the MaxCut problem on weighted fully connected graphs are (almost) Clifford circuits. Motivated by this observation, we devise an approximation algorithm for MaxCut, \emph{ADAPT-Clifford}, that searches through the Clifford manifold by combining a minimal set of generating elements of the Clifford group. Our algorithm finds an approximate solution of MaxCut on an $N$-vertex graph by building a depth $O(N)$ Clifford circuit. The algorithm has runtime complexity $O(N^2)$ and $O(N^3)$ for sparse and dense graphs, respectively, and space complexity $O(N^2)$, with improved solution quality achieved at the expense of more demanding runtimes. We implement ADAPT-Clifford and characterize its performance on graphs with positive and signed weights. The case of signed weights is illustrated with the paradigmatic Sherrington-Kirkpatrick model, for which our algorithm finds solutions with ground-state mean energy density corresponding to $\sim94\%$ of the Parisi value in the thermodynamic limit. The case of positive weights is investigated by comparing the cut found by ADAPT-Clifford with the cut found with the Goemans-Williamson (GW) algorithm. For both sparse and dense instances we provide copious evidence that, up to hundreds of nodes, ADAPT-Clifford finds cuts of lower energy than GW.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-09
# 原始ワッサースタイン状態同期による観測からのオフライン模倣

Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching ( http://arxiv.org/abs/2311.01331v3 )

ライセンス: Link先を確認
Kai Yan, Alexander G. Schwing, Yu-xiong Wang, (参考訳) 現実のシナリオでは、環境との任意のインタラクションはコストがかかり、専門家によるデモンストレーションのアクションは必ずしも利用できない。 双方の必要性を減らすために、オフラインの観察からの学習(LfO)が広範囲に研究され、エージェントは専門家状態のみを与えられたタスクと、タスクに依存しない非専門家状態-アクションペアだけを解くことを学習する。 SMODICEが示すように、最先端のDistribution Correction Estimation (DICE)手法は、学習者と経験的専門家の政策の間の状態占有のばらつきを最小限にする。 しかしながら、そのような方法は、$f$-divergences (KL と $chi^2$) またはルビンシュタイン双対性を持つワッサーシュタイン距離に制限される。 よりフレキシブルな距離測定を実現するために,PW-DICE(Primal Wasserstein DICE)を提案する。 学習者と専門的状態占有者の間の原始的なワッサーシュタイン距離を最小化し、対照的に学習された距離メートル法を利用する。 理論的には、我々のフレームワークは SMODICE の一般化であり、$f$-divergence と Wasserstein の最小化を統一する最初の研究である。 実験により,PW-DICEはいくつかの最先端手法を改善していることがわかった。 コードはhttps://github.com/KaiYan289/PW-DICEで公開されている。

In real-world scenarios, arbitrary interactions with the environment can often be costly, and actions of expert demonstrations are not always available. To reduce the need for both, offline Learning from Observations (LfO) is extensively studied: the agent learns to solve a task given only expert states and task-agnostic non-expert state-action pairs. The state-of-the-art DIstribution Correction Estimation (DICE) methods, as exemplified by SMODICE, minimize the state occupancy divergence between the learner's and empirical expert policies. However, such methods are limited to either $f$-divergences (KL and $chi^2$) or Wasserstein distance with Rubinstein duality, the latter of which constrains the underlying distance metric crucial to the performance of Wasserstein-based solutions. To enable more flexible distance metrics, we propose Primal Wasserstein DICE (PW-DICE). It minimizes the primal Wasserstein distance between the learner and expert state occupancies and leverages a contrastively learned distance metric. Theoretically, our framework is a generalization of SMODICE, and is the first work that unifies $f$-divergence and Wasserstein minimization. Empirically, we find that PW-DICE improves upon several state-of-the-art methods. The code is available at https://github.com/KaiYan289/PW-DICE.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-09
# 個別の誤報タグ付けはエコーチャンバーを補強する; 集合的タグ付けはしない

Individual misinformation tagging reinforces echo chambers; Collective tagging does not ( http://arxiv.org/abs/2311.11282v2 )

ライセンス: Link先を確認
Junsol Kim, Zhao Wang, Haohan Shi, Hsin-Keng Ling, James Evans, (参考訳) 誤情報による不安定な影響に対する不安が、個人やプラットフォームに反応を動機付けている。 個人は、より健康的な情報エコシステムを追求し、自己強化的な意見の反響室を壊すために、ファクトチェックで他人のオンライン主張に挑戦する権限を与えられた。 タグ付けされたポスターは、新しい政治情報を探求し、トピックの関心をすぐに拡大したが、タグ付けされたポスターは情報バブルに後退した。 これらの意図しない結果は、誤情報モデレーションのための集合的検証システムによって軟化された。 Twitterの新しいプラットフォーム、Community Notesでは、偽情報のタグ付けは他のファクトチェッカーがポスターを露出する前にピアレビューした。 集団的な誤情報タグ付けでは、ポスターは多様な情報のエンゲージメントから撤退する可能性が低い。 詳細な比較は、個人と集団の誤情報タグ付けメッセージにおける毒性、感情、読みやすさ、遅延の違いを示唆している。 これらの結果は、情報エコシステム全体にわたる情報エンゲージメントとモビリティの多様性に対する、個人と集団のモデレーション戦略の差の証拠となる。

Fears about the destabilizing impact of misinformation online have motivated individuals and platforms to respond. Individuals have become empowered to challenge others' online claims with fact-checks in pursuit of a healthier information ecosystem and to break down echo chambers of self-reinforcing opinion. Using Twitter data, here we show the consequences of individual misinformation tagging: tagged posters had explored novel political information and expanded topical interests immediately prior, but being tagged caused posters to retreat into information bubbles. These unintended consequences were softened by a collective verification system for misinformation moderation. In Twitter's new platform, Community Notes, misinformation tagging was peer-reviewed by other fact-checkers before exposure to the poster. With collective misinformation tagging, posters were less likely to retreat from diverse information engagement. Detailed comparison suggests differences in toxicity, sentiment, readability, and delay in individual versus collective misinformation tagging messages. These findings provide evidence for differential impacts from individual versus collective moderation strategies on the diversity of information engagement and mobility across the information ecosystem.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-09
# タイムアローは生き生きとしたが、物理学の見地からは禁じられている

The Arrow of Time is Alive and Well but Forbidden Under the Received View of Physics ( http://arxiv.org/abs/2311.11456v2 )

ライセンス: Link先を確認
R. E. Kastner, (参考訳) このエッセイは「時間の問題」あるいは「2つのタイムズ問題」と呼ばれる文脈における物理学の社会学と歴史のメタレベル分析を提供し、これは経験的に観察された時間の方向性が物理理論と矛盾していると主張している。 私は、実際には物理学と時間の矢の衝突は不要であり、観測された時間の方向性は、あるオプション的メタ物理、認識論的、方法論的信念や慣行によって制約されない物理学と完全に一致している、と論じます。

This essay offers a meta-level analysis in the sociology and history of physics in the context of the so-called "Arrow of Time Problem" or "Two Times Problem," which asserts that the empirically observed directionality of time is in conflict with physical theory. I argue that there is actually no necessary conflict between physics and the arrow of time, and that the observed directionality of time is perfectly consistent with physics unconstrained by certain optional metaphysical, epistemological and methodological beliefs and practices characterizing the conventional or Received View.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-09
# 機械学習ソフトウェアにおける自己充足型技術的負債の実証的研究

An Empirical Study of Self-Admitted Technical Debt in Machine Learning Software ( http://arxiv.org/abs/2311.12019v2 )

ライセンス: Link先を確認
Aaditya Bhatia, Foutse Khomh, Bram Adams, Ahmed E Hassan, (参考訳) TensorFlowやGoogle Auto MLといったオープンソースのMLライブラリの出現により、開発者は最小限のオーバーヘッドで最先端のMLアルゴリズムを活用できるようになった。 しかし、この加速されたML開発プロセスの間、開発者はしばしば準最適設計と実装の決定を行うため、技術的負債がすぐに解決されないと、MLベースのソフトウェアの品質に重大な影響を与える可能性がある。 開発者は、ソフトウェア開発中にコードコメントを通じて、これらのサブ最適設計と開発の選択をよく認める。 これらのコメントは、将来追加の作業や改善を必要とする領域を強調していることが多いが、自己承認技術的負債(SATD)として知られている。 本稿では,5つのドメインにわたる318のオープンソースMLプロジェクトと318の非MLプロジェクトを分析し,SATDをMLコードで解析することを目的とする。 我々は,各プロジェクトスナップショットのソースコードコメント中のSATDを検出し,識別されたSATDサンプルを手動で解析して,MLコードの技術的負債の性質を理解するとともに,SATDの生存分析を行い,それらの負債の進化を理解する。 私たちはこう観察した。 一 機械学習プロジェクトは、非機械学習プロジェクトにおいて、SATDの中央値の中央値がSATDの中央値の中央値の2倍である。 i) データ前処理とモデル生成ロジックのためのMLパイプラインコンポーネントは、モデル検証やデプロイメントコンポーネントよりも負債の影響を受けやすい。 三 SATDは、開発プロセスの早い段階で、非MLプロジェクトと比較して、MLプロジェクトに登場する。 iv)長期のSATDは通常、複雑さの低い複数のファイルにまたがる広範なコード変更の間に導入されます。

The emergence of open-source ML libraries such as TensorFlow and Google Auto ML has enabled developers to harness state-of-the-art ML algorithms with minimal overhead. However, during this accelerated ML development process, said developers may often make sub-optimal design and implementation decisions, leading to the introduction of technical debt that, if not addressed promptly, can have a significant impact on the quality of the ML-based software. Developers frequently acknowledge these sub-optimal design and development choices through code comments during software development. These comments, which often highlight areas requiring additional work or refinement in the future, are known as self-admitted technical debt (SATD). This paper aims to investigate SATD in ML code by analyzing 318 open-source ML projects across five domains, along with 318 non-ML projects. We detected SATD in source code comments throughout the different project snapshots, conducted a manual analysis of the identified SATD sample to comprehend the nature of technical debt in the ML code, and performed a survival analysis of the SATD to understand the evolution of such debts. We observed: i) Machine learning projects have a median percentage of SATD that is twice the median percentage of SATD in non-machine learning projects. ii) ML pipeline components for data preprocessing and model generation logic are more susceptible to debt than model validation and deployment components. iii) SATDs appear in ML projects earlier in the development process compared to non-ML projects. iv) Long-lasting SATDs are typically introduced during extensive code changes that span multiple files exhibiting low complexity.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-09
# 移動メッシュPDEによる物理インフォームニューラルネットワークの動作サンプリング

Moving Sampling Physics-informed Neural Networks induced by Moving Mesh PDE ( http://arxiv.org/abs/2311.16167v4 )

ライセンス: Link先を確認
Yu Yang, Qihong Yang, Yangtao Deng, Qiaolin He, (参考訳) 本研究では、移動メッシュ法に基づくエンドツーエンド適応サンプリングニューラルネットワーク(MMPDE-Net)を提案し、移動メッシュPDEを解くことで、新しいサンプリングポイントを適応的に生成できる。 このモデルはサンプリングポイント生成の品質向上に重点を置いている。 さらに,MMPDE-Netに基づく反復アルゴリズムを開発し,サンプリングポイントをより正確かつ制御しやすくする。 MMPDE-Netはディープラーニングソルバに依存しないフレームワークであるため、物理インフォームドニューラルネットワーク(PINN)と組み合わせて、移動サンプリングPINN(MS-PINN)を提案し、いくつかの仮定の下でエラー解析によりその効果を実証する。 最後に,本手法の有効性を数値的に検証する4つの典型例の数値実験により,MS-PINNの性能改善をPINNと比較した。

In this work, we propose an end-to-end adaptive sampling neural network (MMPDE-Net) based on the moving mesh method, which can adaptively generate new sampling points by solving the moving mesh PDE. This model focuses on improving the quality of sampling points generation. Moreover, we develop an iterative algorithm based on MMPDE-Net, which makes the sampling points more precise and controllable. Since MMPDE-Net is a framework independent of the deep learning solver, we combine it with physics-informed neural networks (PINN) to propose moving sampling PINN (MS-PINN) and demonstrate its effectiveness by error analysis under some assumptions. Finally, we demonstrate the performance improvement of MS-PINN compared to PINN through numerical experiments of four typical examples, which numerically verify the effectiveness of our method.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-09
# セキュリティ脆弱性検出における大規模言語モデルの有効性の理解

Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities ( http://arxiv.org/abs/2311.16169v2 )

ライセンス: Link先を確認
Avishree Khare, Saikat Dutta, Ziyang Li, Alaia Solko-Breslin, Rajeev Alur, Mayur Naik, (参考訳) 現代のソフトウェアにおけるセキュリティ脆弱性は一般的で有害である。 自動脆弱性検出ツールは有望な進歩を遂げているが、スケーラビリティと適用性は依然として難しい。 近年, GPT-4 や CodeLlama などの大規模言語モデル (LLM) は, コード関連タスクにおいて顕著な性能を示した。 しかし、そのようなLLMがコードに対して複雑な推論を行うことができるかどうかは不明である。 本研究では,事前学習したLLMがセキュリティ上の脆弱性を検出し,既存のツールの限界に対処できるかどうかを検討する。 我々は、JavaとC/C++という2つの言語にまたがる5つのセキュリティベンチマークにおいて、性能、説明可能性、堅牢性の観点から、事前学習されたLLMの有効性を評価し、合成プロジェクトと実世界のプロジェクトの両方をカバーする。 全体として、すべてのLLMは、脆弱性に関するエンドツーエンドの推論において、控えめな効果を示し、すべてのデータセットで平均60%の精度が得られる。 しかし,LLMは脆弱性関連仕様(ソースやシンクなど)の特定や,コード動作の理解に自然言語情報を活用するなど,解析の一部を正しく行う上で有望な能力を示す。 さらに LLM は,ローカル推論(例えば Integer Overflow や NULL ポインタの参照など)のみを必要とする,より単純な脆弱性の検出も比較的優れている。 ステップバイステップ分析を含む高度なプロンプト戦略は,実世界のデータセット上でのLLMの性能を著しく向上させる(F1スコアを平均0.25まで向上させる)。 最後に、LLMを脆弱性検出に活用するための今後の取り組みについて、私たちの洞察とレコメンデーションを共有します。

Security vulnerabilities in modern software are prevalent and harmful. While automated vulnerability detection tools have made promising progress, their scalability and applicability remain challenging. Recently, Large Language Models (LLMs), such as GPT-4 and CodeLlama, have demonstrated remarkable performance on code-related tasks. However, it is unknown whether such LLMs can do complex reasoning over code. In this work, we explore whether pre-trained LLMs can detect security vulnerabilities and address the limitations of existing tools. We evaluate the effectiveness of pre-trained LLMs, in terms of performance, explainability, and robustness, on a set of five diverse security benchmarks spanning two languages, Java and C/C++, and covering both synthetic and real-world projects. Overall, all LLMs show modest effectiveness in end-to-end reasoning about vulnerabilities, obtaining an average of 60% accuracy across all datasets. However, we observe that LLMs show promising abilities at performing parts of the analysis correctly, such as identifying vulnerability-related specifications (e.g., sources and sinks) and leveraging natural language information to understand code behavior (e.g., to check if code is sanitized). Further, LLMs are relatively much better at detecting simpler vulnerabilities that typically only need local reasoning (e.g., Integer Overflows and NULL pointer dereference). We find that advanced prompting strategies that involve step-by-step analysis significantly improve performance of LLMs on real-world datasets (improving F1 score by up to 0.25 on average). Finally, we share our insights and recommendations for future work on leveraging LLMs for vulnerability detection.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-09
# バックドアインジェクションによる大規模言語モデルの定常的・永続的不整合

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections ( http://arxiv.org/abs/2312.00027v2 )

ライセンス: Link先を確認
Yuanpu Cao, Bochuan Cao, Jinghui Chen, (参考訳) 近年のLarge Language Models (LLMs) の発展は著しい進歩を見せている。 悪意ある搾取に対する保護を促進するため、研究機関はLLMを人間の好みに合わせることに集中し、不適切なコンテンツの生成を阻害している。 残念なことに、このようなアライメントはしばしば脆弱で、最小限の有害なデータによる微調整は、標的のLSMを容易に無視することができる。 1) 微調整後、安全監査やリピートが不整合モデルの潜在的な弱点を簡単に露呈し、リリース/使用を前倒しすることができる。 2)非永続性、不整合LPMは、再整合、すなわち、整合したデータポイントで再度微調整することで容易に修復できる。 本研究では,バックドアインジェクションを用いて,大規模言語モデルに対してステルス処理と永続的アンアライメントを行うことが可能であることを示す。 また、バックドアの持続性とアクティベーションパターンとの関係についての新しい理解を提供し、さらに潜在的なトリガ設計のためのガイドラインを提供する。 広範囲な実験を通じて,提案したステルス性および持続的不整合性は,再整合防御に対する強い持続性を維持しつつ,安全性評価を達成できることを実証した。

Recent developments in Large Language Models (LLMs) have manifested significant advancements. To facilitate safeguards against malicious exploitation, a body of research has concentrated on aligning LLMs with human preferences and inhibiting their generation of inappropriate content. Unfortunately, such alignments are often vulnerable: fine-tuning with a minimal amount of harmful data can easily unalign the target LLM. While being effective, such fine-tuning-based unalignment approaches also have their own limitations: (1) non-stealthiness, after fine-tuning, safety audits or red-teaming can easily expose the potential weaknesses of the unaligned models, thereby precluding their release/use. (2) non-persistence, the unaligned LLMs can be easily repaired through re-alignment, i.e., fine-tuning again with aligned data points. In this work, we show that it is possible to conduct stealthy and persistent unalignment on large language models via backdoor injections. We also provide a novel understanding on the relationship between the backdoor persistence and the activation pattern and further provide guidelines for potential trigger design. Through extensive experiments, we demonstrate that our proposed stealthy and persistent unalignment can successfully pass the safety evaluation while maintaining strong persistence against re-alignment defense.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-09
# ワッサーシュタイン空間における多面体最適化による平均場変動推論のアルゴリズム

Algorithms for mean-field variational inference via polyhedral optimization in the Wasserstein space ( http://arxiv.org/abs/2312.02849v2 )

ライセンス: Link先を確認
Yiheng Jiang, Sinho Chewi, Aram-Alexandre Pooladian, (参考訳) ワッサーシュタイン空間上の有限次元多面体部分集合の理論を開発し、一階法による函数の最適化を行う。 我々の主な応用は平均場変動推論の問題であり、これは分布 $\pi$ over $\mathbb{R}^d$ を積測度 $\pi^\star$ で近似しようとするものである。 a \emph{polyhedral} set $\mathcal{P}_\diamond$, (2) $\text{KL}(\cdot\|\pi)$ over $\mathcal{P}_\diamond$ withAccelerated complexity $O(\sqrt \kappa \log(\kappa d/\varepsilon^2)$, $\appa$は$\pi$の条件である。

We develop a theory of finite-dimensional polyhedral subsets over the Wasserstein space and optimization of functionals over them via first-order methods. Our main application is to the problem of mean-field variational inference, which seeks to approximate a distribution $\pi$ over $\mathbb{R}^d$ by a product measure $\pi^\star$. When $\pi$ is strongly log-concave and log-smooth, we provide (1) approximation rates certifying that $\pi^\star$ is close to the minimizer $\pi^\star_\diamond$ of the KL divergence over a \emph{polyhedral} set $\mathcal{P}_\diamond$, and (2) an algorithm for minimizing $\text{KL}(\cdot\|\pi)$ over $\mathcal{P}_\diamond$ with accelerated complexity $O(\sqrt \kappa \log(\kappa d/\varepsilon^2))$, where $\kappa$ is the condition number of $\pi$.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-09
# Multilevel Guidance-Exploration Network というフレームワークの紹介

A brief introduction to a framework named Multilevel Guidance-Exploration Network ( http://arxiv.org/abs/2312.04119v3 )

ライセンス: Link先を確認
Guoqing Yang, Zhiming Luo, Jianzhe Gao, Yingxin Lai, Kun Yang, Yifan He, Shaozi Li, (参考訳) 人間の行動異常検出は、知的監視やその他の領域において重要な役割を果たす、異常な人間の行動を特定することを目的としている。 現在の主流の手法では、再構築や将来のフレーム予測技術が採用されている。 しかし、低レベルのピクセルの特徴を再構成したり予測したりすることで、ネットワークが過度に強力な一般化能力を達成し、異常を再構築したり、通常のデータと同じくらい効果的に予測することができる。 学生-教師ネットワークにインスパイアされたこれらの手法とは違って,多段階誘導探索ネットワーク(MGENet)と呼ばれる,誘導探索ネットワークと探索ネットワークの高レベル表現の違いから異常を検出する新しいフレームワークを提案する。 具体的には、まず骨格キーポイントを入力とし、RGBエンコーダを誘導する学習済み正規化フローを用いて、未知のRGBフレームを入力として取り込んで、動作遅延特徴を探索する。 次に、RGBエンコーダはマスク付きRGBフレームを入力として用いたマスクエンコーダをガイドし、潜伏した外観特徴を探索する。 さらに、シーン関連行動異常を検出するための行動シーンマッチングモジュール(BSMM)を設計する。 提案手法は上海TechおよびUBnormalデータセット上での最先端性能を実現することを実証した。

Human behavior anomaly detection aims to identify unusual human actions, playing a crucial role in intelligent surveillance and other areas. The current mainstream methods still adopt reconstruction or future frame prediction techniques. However, reconstructing or predicting low-level pixel features easily enables the network to achieve overly strong generalization ability, allowing anomalies to be reconstructed or predicted as effectively as normal data. Different from their methods, inspired by the Student-Teacher Network, we propose a novel framework called the Multilevel Guidance-Exploration Network(MGENet), which detects anomalies through the difference in high-level representation between the Guidance and Exploration network. Specifically, we first utilize the pre-trained Normalizing Flow that takes skeletal keypoints as input to guide an RGB encoder, which takes unmasked RGB frames as input, to explore motion latent features. Then, the RGB encoder guides the mask encoder, which takes masked RGB frames as input, to explore the latent appearance feature. Additionally, we design a Behavior-Scene Matching Module(BSMM) to detect scene-related behavioral anomalies. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance on ShanghaiTech and UBnormal datasets.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-09
# MuRF:マルチベースラインレーダランスフィールド

MuRF: Multi-Baseline Radiance Fields ( http://arxiv.org/abs/2312.04565v2 )

ライセンス: Link先を確認
Haofei Xu, Anpei Chen, Yuedong Chen, Christos Sakaridis, Yulun Zhang, Marc Pollefeys, Andreas Geiger, Fisher Yu, (参考訳) マルチベースラインレーダランス場(MuRF)は,複数の異なるベースライン設定(小さなベースラインと大きなベースラインと異なる入力ビュー)の下でスパースビュー合成を解決するための一般的なフィードフォワードアプローチである。 対象の新規なビューを描画するために、3次元空間を対象のイメージ平面に平行な平面に識別し、それに応じて対象のビューフラストラムボリュームを構築する。 このようなターゲットボリューム表現は、ターゲットビューと空間的に一致し、高品質なレンダリングのために入力ビューから関連情報を効果的に集約する。 また、その軸方向の性質により、畳み込みネットワークによるその後の放射場回帰を促進する。 畳み込みネットワークによってモデル化された3次元コンテキストにより,従来よりもシャープなシーン構造を合成することができる。 室内・屋外の複雑なシーン(RealEstate10K, LLFF)から, シンプルなオブジェクト(DTU)まで, さまざまなシナリオにおいて, 複数の異なるベースライン設定における最先端性能を実現している。 また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示すとともに、 MuRF の汎用性を示す。

We present Multi-Baseline Radiance Fields (MuRF), a general feed-forward approach to solving sparse view synthesis under multiple different baseline settings (small and large baselines, and different number of input views). To render a target novel view, we discretize the 3D space into planes parallel to the target image plane, and accordingly construct a target view frustum volume. Such a target volume representation is spatially aligned with the target view, which effectively aggregates relevant information from the input views for high-quality rendering. It also facilitates subsequent radiance field regression with a convolutional network thanks to its axis-aligned nature. The 3D context modeled by the convolutional network enables our method to synthesis sharper scene structures than prior works. Our MuRF achieves state-of-the-art performance across multiple different baseline settings and diverse scenarios ranging from simple objects (DTU) to complex indoor and outdoor scenes (RealEstate10K and LLFF). We also show promising zero-shot generalization abilities on the Mip-NeRF 360 dataset, demonstrating the general applicability of MuRF.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-09
# 値不確定観測値に基づく二元量子乱数生成

Binary Quantum Random Number Generator Based on Value Indefinite Observables ( http://arxiv.org/abs/2312.10973v4 )

ライセンス: Link先を確認
Cristian S. Calude, Karl Svozil, (参考訳) 測定値の不定観測値に基づく全ての量子乱数生成器は、コチェン・スペクター理論とロケートコチェン・スペクター理論が次元2で偽であるため、少なくとも3次元である。 本稿では,3次量子乱数生成器と同一のランダム性を有する2値量子乱数出力を生成する3次元値不定可観測器を,最大で予測不可能な3次量子乱数生成器として構成する。

All quantum random number generators based on measuring value indefinite observables are at least three-dimensional because the Kochen-Specker Theorem and the Located Kochen-Specker Theorem are false in dimension two. In this article, we construct quantum random number generators based on measuring a three-dimensional value indefinite observable that generates binary quantum random outputs with the same randomness qualities as the ternary ones: the outputs are maximally unpredictable.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-09
# 大規模言語モデルにおけるニューロンレベル知識の寄与

Neuron-Level Knowledge Attribution in Large Language Models ( http://arxiv.org/abs/2312.12141v3 )

ライセンス: Link先を確認
Zeping Yu, Sophia Ananiadou, (参考訳) 最終予測のために重要なニューロンを同定することは、大きな言語モデルのメカニズムを理解するために不可欠である。 計算上の制約のため、現在の属性技術はニューロンレベルでの動作に苦慮している。 本稿では,異なる出力に対して重要なニューロンをピンポイントする静的手法を提案する。 他の7つの手法と比較して,本手法は3つの指標にまたがる優れた性能を示す。 さらに、ほとんどの静的な手法は、通常、最終予測に直接寄与する「バリューニューロン」のみを識別するため、これらの「バリューニューロン」を活性化する「クエリニューロン」を識別する静的な手法を導入する。 最後に,本手法を用いて,注目層とフィードフォワードネットワーク(FFN)層にまたがる6種類の知識の局所化を解析する。 本手法と分析は,知識記憶機構の理解に役立ち,今後の知識編集研究の舞台となる。 私たちはgithubでデータとコードを公開します。

Identifying important neurons for final predictions is essential for understanding the mechanisms of large language models. Due to computational constraints, current attribution techniques struggle to operate at neuron level. In this paper, we propose a static method for pinpointing significant neurons for different outputs. Compared to seven other methods, our approach demonstrates superior performance across three metrics. Additionally, since most static methods typically only identify "value neurons" directly contributing to the final prediction, we introduce a static method for identifying "query neurons" which activate these "value neurons". Finally, we apply our methods to analyze the localization of six distinct types of knowledge across both attention and feed-forward network (FFN) layers. Our method and analysis are helpful for understanding the mechanisms of knowledge storage and set the stage for future research in knowledge editing. We will release our data and code on github.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-09
# ヘテロセダス性雑音モデルによる効果的な因果発見

Effective Causal Discovery under Identifiable Heteroscedastic Noise Model ( http://arxiv.org/abs/2312.12844v2 )

ライセンス: Link先を確認
Naiyu Yin, Tian Gao, Yue Yu, Qiang Ji, (参考訳) DAG(Directed Acyclic Graphs)で表される構造因果関係のキャプチャは、さまざまなAI分野における基本的なタスクである。 継続的最適化フレームワークによる因果的DAG学習は、最近、正確性と効率の両面で有望なパフォーマンスを達成した。 しかし、ほとんどの手法はホモスセダスティックノイズの強い仮定をしており、例えば外因性ノイズは変数、観測、あるいはその両方に等しくばらつきがある。 実際のデータのノイズは、通常、異なるデータ収集プロセスによってもたらされるバイアスのため、両方の前提に反する。 異方性雑音の問題に対処するために,これらの条件下での一般SEMの識別可能性を示す,緩和された,実装可能な十分な条件を導入する。 同定可能な一般SEMに基づいて,変数間のノイズ分散と観測値の変動を考慮したDAG学習のための新しい定式化を提案する。 そこで我々は,最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案し,不連続変動雑音を持つデータから因果DAGを学習する。 本研究では,合成データと実データの両方に対する最先端手法に対する提案手法の実証的な効果を示す。

Capturing the underlying structural causal relations represented by Directed Acyclic Graphs (DAGs) has been a fundamental task in various AI disciplines. Causal DAG learning via the continuous optimization framework has recently achieved promising performance in terms of both accuracy and efficiency. However, most methods make strong assumptions of homoscedastic noise, i.e., exogenous noises have equal variances across variables, observations, or even both. The noises in real data usually violate both assumptions due to the biases introduced by different data collection processes. To address the issue of heteroscedastic noise, we introduce relaxed and implementable sufficient conditions, proving the identifiability of a general class of SEM subject to these conditions. Based on the identifiable general SEM, we propose a novel formulation for DAG learning that accounts for the variation in noise variance across variables and observations. We then propose an effective two-phase iterative DAG learning algorithm to address the increasing optimization difficulties and to learn a causal DAG from data with heteroscedastic variable noise under varying variance. We show significant empirical gains of the proposed approaches over state-of-the-art methods on both synthetic data and real data.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-09
# 言語モデルは数値の値を知っている

Language Models Know the Value of Numbers ( http://arxiv.org/abs/2401.03735v3 )

ライセンス: Link先を確認
Fangwei Zhu, Damai Dai, Zhifang Sui, (参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて顕著な能力を示してきたが、数学的問題に対する内部メカニズムはまだ解明されていない。 本稿では,言語モデルが数学の基本要素である数値の値を知っているかどうかという,基本的な問題について考察する。 そこで本研究では,付加問題を含む合成データセットを構築し,線形プローブを用いて隠れ状態から入力番号を読み取る。 実験結果は、異なる層上のLLMにおける符号化数値の存在を支持し、これらの値を線形プローブによって抽出することができる。 さらなる実験により、LLMは計算結果を同様の方法で保存し、簡単なベクトル加算によって、符号化された数と言語モデル出力の間の因果関係を証明できることを示した。 我々の研究は、LLMが数値の価値を知っていて、LLMの数値情報をよりよく探索し、設計し、活用するための洞察を提供する証拠を提供する。

Large language models (LLMs) have exhibited impressive competence in various tasks, but their internal mechanisms on mathematical problems are still under-explored. In this paper, we study a fundamental question: whether language models know the value of numbers, a basic element in math. To study the question, we construct a synthetic dataset comprising addition problems and utilize linear probes to read out input numbers from the hidden states. Experimental results support the existence of encoded number values in LLMs on different layers, and these values can be extracted via linear probes. Further experiments show that LLMs store their calculation results in a similar manner, and we can intervene the output via simple vector additions, proving the causal connection between encoded numbers and language model outputs. Our research provides evidence that LLMs know the value of numbers, thus offering insights for better exploring, designing, and utilizing numeric information in LLMs.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-09
# 文書レベル機械翻訳における大規模言語モデルの適用

Adapting Large Language Models for Document-Level Machine Translation ( http://arxiv.org/abs/2401.06468v3 )

ライセンス: Link先を確認
Minghao Wu, Thuy-Trang Vu, Lizhen Qu, George Foster, Gholamreza Haffari, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。 近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。 本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。 まず,2つの微調整手法,3つのLDMバックボーン,9つの言語対にわたる18の翻訳タスクを用いて,翻訳性能に対する即時的戦略の影響について検討した。 以上の結果から, 特殊なモデルでは翻訳性能がGPT-4を超えることがあるが, 復号における誤りの伝播により, 対象外翻訳などの問題に直面していることがわかった。 DocMT用に調整されたこれらのLCMの詳細な分析、翻訳エラー、談話現象、トレーニング戦略、並列文書のスケーリング法則、最近のテストセット評価、ゼロショットクロスリンガル転送について述べる。 本研究は,LLMに基づくDocMTモデルの長所と短所を強調し,今後の研究の基盤を提供する。

Large language models (LLMs) have significantly advanced various natural language processing (NLP) tasks. Recent research indicates that moderately-sized LLMs often outperform larger ones after task-specific fine-tuning. This study focuses on adapting LLMs for document-level machine translation (DocMT) for specific language pairs. We first investigate the impact of prompt strategies on translation performance and then conduct extensive experiments using two fine-tuning methods, three LLM backbones, and 18 translation tasks across nine language pairs. Our results show that specialized models can sometimes surpass GPT-4 in translation performance but still face issues like off-target translation due to error propagation in decoding. We provide an in-depth analysis of these LLMs tailored for DocMT, examining translation errors, discourse phenomena, training strategies, the scaling law of parallel documents, recent test set evaluations, and zero-shot crosslingual transfer. Our findings highlight the strengths and limitations of LLM-based DocMT models and provide a foundation for future research.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-09
# CHAMP:LLMの数学的推論能力の微粒化分析のための競合レベルデータセット

CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities ( http://arxiv.org/abs/2401.06961v2 )

ライセンス: Link先を確認
Yujun Mao, Yoon Kim, Yilun Zhou, (参考訳) 最近の大規模言語モデル (LLM) は、特に中間的推論ステップ(すなわちチェーン・オブ・プルーピング)の自己生成言語化において、競争レベルの問題に挑戦する数学的推論能力を示す。 しかし、現在の評価は主にエンドツーエンドの最終回答の正当性に焦点が当てられており、LLMが問題固有のヒントなどの有用な副次情報を利用することができるかどうかは不明である。 本稿では、そのような分析を可能にするための挑戦的なベンチマークデータセットを提案する。 概念とヒント数学問題(英: Concept and Hint-Annotated Math Problems、CHAMP)は、概念や一般的な数学の事実、ヒント、問題固有のトリックを含む、高校数学の競争問題である。 これらのアノテーションは、関連するヒント、誤解を招く概念、関連する問題など、追加情報の効果を探索することを可能にする。 このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。 概念とヒントによって、パフォーマンスは時として改善され、一部のモデルはそのようなサイド情報を利用することができることを示している。 さらに、モデル生成した解の正しさについてアノテートする。 このコーパスを用いて、間違った推論ステップを通じて、モデルが正しい最終回答に達することがよくあります。 さらに、モデルがこれらのソリューションを検証することができるかどうかを検証し、ほとんどのモデルが苦労していることを確認する。

Recent large language models (LLMs) have shown indications of mathematical reasoning ability on challenging competition-level problems, especially with self-generated verbalizations of intermediate reasoning steps (i.e., chain-of-thought prompting). However, current evaluations mainly focus on the end-to-end final answer correctness, and it is unclear whether LLMs can make use of helpful side information such as problem-specific hints. In this paper, we propose a challenging benchmark dataset for enabling such analyses. The Concept and Hint-Annotated Math Problems (CHAMP) consists of high school math competition problems, annotated with concepts, or general math facts, and hints, or problem-specific tricks. These annotations allow us to explore the effects of additional information, such as relevant hints, misleading concepts, or related problems. This benchmark is difficult, with the best model only scoring 58.1% in standard settings. With concepts and hints, performance sometimes improves, indicating that some models can make use of such side information. Furthermore, we annotate model-generated solutions for their correctness. Using this corpus, we find that models often arrive at the correct final answer through wrong reasoning steps. In addition, we test whether models are able to verify these solutions, and find that most models struggle.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-09
# 全脳モデルホップフィールドダイナミクスにおけるスケーリングレジームの証拠

Evidence of Scaling Regimes in the Hopfield Dynamics of Whole Brain Model ( http://arxiv.org/abs/2401.07538v2 )

ライセンス: Link先を確認
Giorgio Gosti, Sauro Succi, Giancarlo Ruocco, (参考訳) 実験的に導出された脳トポロジによって伝達されるホップフィールドリカレントニューラルネットワークは、より特異な指数が2/3ではなく1/2であるにもかかわらず、ヒト脳内の情報伝達過程が乱流によって示されるものと定性的に類似した空間的相関パターンを示すデコらによって最近導入されたスケーリング図を復元する。 どちらのモデルも、ノード間のユークリッド距離と指数関数的に崩壊する結合強度を用いるが、その数学的性質はホップ振動子とホップフィールドニューラルネットワークとは大きく異なる。 したがって、同じデータパラメータに対する収束性は、スケーリング図の興味深い堅牢性を示している。 本分析により, ホップフィールドモデル脳は, 全脳の約6分の1に相当する約5つの崩壊長のリンクを除去することによって, 機能的のままであることが示された。 このことはホップフィールド脳がある種の中間状態である「乱流液体」のような状態で機能し、その重要な結合は接続減衰長と大域的な脳の大きさの間の中間状態であることを示している。 最後に、スケーリング指数は、崩壊長の値に非常に敏感であり、また、使用される脳小包の数にも非常に敏感であることが示される。 その結果、スケーリング体制の具体的な性質に関する定量的な評価は、非常に慎重に行う必要がある。

It is shown that a Hopfield recurrent neural network, informed by experimentally derived brain topology, recovers the scaling picture recently introduced by Deco et al., according to which the process of information transfer within the human brain shows spatially correlated patterns qualitatively similar to those displayed by turbulent flows, although with a more singular exponent, 1/2 instead of 2/3. Both models employ a coupling strength which decays exponentially with the euclidean distance between the nodes, but their mathematical nature is very different, Hopf oscillators versus a Hopfield neural network, respectively. Hence, their convergence for the same data parameters, suggests an intriguing robustness of the scaling picture. The present analysis shows that the Hopfield model brain remains functional by removing links above about five decay lengths, corresponding to about one sixth of the size of the global brain. This suggests that, in terms of connectivity decay length, the Hopfield brain functions in a sort of intermediate ``turbulent liquid''-like state, whose essential connections are the intermediate ones between the connectivity decay length and the global brain size. Finally, the scaling exponents are shown to be highly sensitive to the value of the decay length, as well as to number of brain parcels employed. As a result, any quantitative assessment regarding the specific nature of the scaling regime must be taken with great caution.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-09
# 非凸正規化問題の厳密なサドル点を回避する

Avoiding strict saddle points of nonconvex regularized problems ( http://arxiv.org/abs/2401.09274v2 )

ライセンス: Link先を確認
Luwei Bai, (参考訳) 我々は、$\ell_p$正規化関数に対して厳密なサドル特性を導入し、$\ell_p$正規化問題を解くために反復再重み付き$\ell_1$アルゴリズムを提案する。 このアルゴリズムは、ランダムに初期化されるときのみ局所最小化器に収束することが保証される。 厳密なサドル特性は、これらのスパース最適化問題に一般性を示す。 これらの解析と提案アルゴリズムは、一般の非凸正規化問題に容易に拡張できる。

We introduce a strict saddle property for $\ell_p$ regularized functions, and propose an iterative reweighted $\ell_1$ algorithm to solve the $\ell_p$ regularized problems. The algorithm is guaranteed to converge only to local minimizers when randomly initialized. The strict saddle property is shown generic on these sparse optimization problems. Those analyses as well as the proposed algorithm can be easily extended to general nonconvex regularized problems.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-09
# 大規模言語モデルのための適応型テキスト透かし

Adaptive Text Watermark for Large Language Models ( http://arxiv.org/abs/2401.13927v2 )

ライセンス: Link先を確認
Yepeng Liu, Yuheng Bu, (参考訳) 大規模言語モデル(LLM)の進歩により、AI生成テキストの誤用に対する懸念が高まり、LLM生成テキストの透かしが潜在的な解決策として浮上した。 しかし,プロンプトやモデルの知識を必要とせずに,強いセキュリティ,堅牢性,透かしを検出する能力を維持しつつ,高品質な透かしテキストを生成することは困難である。 本稿では,この問題に対処するための適応型透かし手法を提案する。 テキストの品質を改善し,ロバスト性を維持するため,補助モデルを用いて測定した高エントロピーのトークン分布に透かしを適応的に付加し,低エントロピートークン分布を無傷で保持する。 セキュリティのために、また、ランダム秘密鍵から生成される固定緑/赤リストの代わりに、テキスト品質に対する透かしの影響をさらに最小化するために、よく設計されたセマンティックマッピングモデルを用いて、予め生成されたテキストのセマンティック埋め込みに基づいて、復号化と偽造に弱い出力ロジットを適応的にスケールアップする。 各種LLMを用いた実験により,既存の透かし法に匹敵するロバスト性性能が得られた。 さらに,本手法で生成したテキストは,各種攻撃でもセキュリティを維持しつつ, \emph{un-watermarked} LLMのテキストに匹敵する難易度を有する。

The advancement of Large Language Models (LLMs) has led to increasing concerns about the misuse of AI-generated text, and watermarking for LLM-generated text has emerged as a potential solution. However, it is challenging to generate high-quality watermarked text while maintaining strong security, robustness, and the ability to detect watermarks without prior knowledge of the prompt or model. This paper proposes an adaptive watermarking strategy to address this problem. To improve the text quality and maintain robustness, we adaptively add watermarking to token distributions with high entropy measured using an auxiliary model and keep the low entropy token distributions untouched. For the sake of security and to further minimize the watermark's impact on text quality, instead of using a fixed green/red list generated from a random secret key, which can be vulnerable to decryption and forgery, we adaptively scale up the output logits in proportion based on the semantic embedding of previously generated text using a well designed semantic mapping model. Our experiments involving various LLMs demonstrate that our approach achieves comparable robustness performance to existing watermark methods. Additionally, the text generated by our method has perplexity comparable to that of \emph{un-watermarked} LLMs while maintaining security even under various attacks.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-09
# Sphera LCAとEcoinvent Databaseを用いたBitcoinマイニング装置のクレードル・ツー・ゲイトライフサイクル分析

A Cradle-to-Gate Life Cycle Analysis of Bitcoin Mining Equipment Using Sphera LCA and ecoinvent Databases ( http://arxiv.org/abs/2401.17512v2 )

ライセンス: Link先を確認
Ludmila Courtillat--Piazza, Thibault Pirson, Louis Golard, David Bol, (参考訳) Bitcoinの採掘は、大量のエネルギー消費と温室効果ガスの排出で定期的に指摘されており、気候変動に大きく貢献している。 しかし、多くの研究は鉱業機器の製造による環境への影響を無視しており、これは非常に特殊なハードウェアの寿命が短かったことを考えると問題である。 本研究では,専用Bitcoin採掘装置の特定の構造を考慮したLCA(cradle-to-gate Life cycle Assessment)を行う。 以上の結果から,Bitcoinマイニング用に設計されたアプリケーション固有の集積回路が,生産関連の影響の主な要因であることが示唆された。 この観測は、地球温暖化の可能性を含むほとんどの影響カテゴリに適用できる。 さらに、この発見はハードウェアの特異性を慎重に検討する必要があることを強調している。 これらの結果といくつかの利用シナリオを比較することで、使用相の電力供給源に依存して、この種の機器の製造がもたらす影響(ライフサイクル全体の最大80%)が重要であることも示している。 したがって、Bitcoinマイニングハードウェアの環境影響を評価する際に、生産段階を考慮する必要性を強調した。 この結果の有効性を検証するために,Sphera LCAとecoinventデータベースを用いて,システムの背景モデリングを行った。 驚くべきことに、同じフォアグラウンドモデリングを使用しても、毒性関連指標の最大4桁の変異が生じる。 このデータベースのミスマッチ現象は、以前の研究で既に特定されており、電子機器の分野における環境への影響をよりよく理解し、検討し、議論し、気候変動の指標を超えている。

Bitcoin mining is regularly pointed out for its massive energy consumption and associated greenhouse gas emissions, hence contributing significantly to climate change. However, most studies ignore the environmental impacts of producing mining equipment, which is problematic given the short lifespan of such highly specific hardware. In this study, we perform a cradle-to-gate life cycle assessment (LCA) of dedicated Bitcoin mining equipment, considering their specific architecture. Our results show that the application-specific integrated circuit designed for Bitcoin mining is the main contributor to production-related impacts. This observation applies to most impact categories, including the global warming potential. In addition, this finding stresses out the necessity to carefully consider the specificity of the hardware. By comparing these results with several usage scenarios, we also demonstrate that the impacts of producing this type of equipment can be significant (up to 80% of the total life cycle impacts), depending on the sources of electricity supply for the use phase. Therefore, we highlight the need to consider the production phase when assessing the environmental impacts of Bitcoin mining hardware. To test the validity of our results, we use the Sphera LCA and ecoinvent databases for the background modeling of our system. Surprisingly, it leads to results with variations of up to 4 orders of magnitude for toxicity-related indicators, despite using the same foreground modeling. This database mismatch phenomenon, already identified in previous studies, calls for better understanding, consideration and discussion of environmental impacts in the field of electronics, going well beyond climate change indicators.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-09
# グラフ上のニューラルスケーリング法則

Neural Scaling Laws on Graphs ( http://arxiv.org/abs/2402.02054v2 )

ライセンス: Link先を確認
Jingzhe Liu, Haitao Mao, Zhikai Chen, Tong Zhao, Neil Shah, Jiliang Tang, (参考訳) ディープグラフモデル(例えば、グラフニューラルネットワークやグラフ変換器)は、様々な種類のグラフにまたがる知識を活用するための重要な技術となっている。 しかし、ディープグラフモデルのスケーリング特性は体系的に研究されておらず、モデルとデータセットのサイズを拡大することで大きなグラフモデルを実現する可能性に疑問を投げかけている。 この研究では、モデルとデータの両方の観点から、グラフ上のニューラルスケーリングの法則を掘り下げる。 まず、グラフ上のそのような法則の有効性を検証し、スケーリングの振る舞いを記述するための定式化を確立する。 モデルスケーリングでは,スケール法が崩壊する現象を調査し,オーバーフィッティングを潜在的な理由として同定する。 さらに,深部グラフモデルのモデル深度が,CVやNLPといった他の領域の観測と異なるモデルスケーリングの挙動に影響を及ぼすことを明らかにした。 データスケーリングについては、グラフのサイズが極めて不規則であるため、スケーリング法則においてグラフデータのボリュームを効果的に測定することはできないことを示唆する。 代わりに、不規則なグラフサイズに対処するための計量として、エッジの数でデータスケーリングの法則を改革する。 さらに, ノード分類, リンク予測, グラフ分類を含む基本グラフタスクに対して, データスケーリング行動の統一的なビューを提供する。 この研究は、グラフ上のニューラルスケーリング法則に関する貴重な洞察を提供する。

Deep graph models (e.g., graph neural networks and graph transformers) have become important techniques for leveraging knowledge across various types of graphs. Yet, the scaling properties of deep graph models have not been systematically investigated, casting doubt on the feasibility of achieving large graph models through enlarging the model and dataset sizes. In this work, we delve into neural scaling laws on graphs from both model and data perspectives. We first verify the validity of such laws on graphs, establishing formulations to describe the scaling behaviors. For model scaling, we investigate the phenomenon of scaling law collapse and identify overfitting as the potential reason. Moreover, we reveal that the model depth of deep graph models can impact the model scaling behaviors, which differ from observations in other domains such as CV and NLP. For data scaling, we suggest that the number of graphs can not effectively metric the graph data volume in scaling law since the sizes of different graphs are highly irregular. Instead, we reform the data scaling law with the number of edges as the metric to address the irregular graph sizes. We further demonstrate the reformed law offers a unified view of the data scaling behaviors for various fundamental graph tasks including node classification, link prediction, and graph classification. This work provides valuable insights into neural scaling laws on graphs, which can serve as an essential step toward large graph models.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-09
# 立体球状スライスワッサースタイン距離

Stereographic Spherical Sliced Wasserstein Distances ( http://arxiv.org/abs/2402.02345v2 )

ライセンス: Link先を確認
Huy Tran, Yikun Bai, Abihith Kothapalli, Ashkan Shahbazi, Xinran Liu, Rocio Diaz Martin, Soheil Kolouri, (参考訳) 球面確率分布を比較することは、地質学、医学領域、コンピュータビジョン、深層表現学習など様々な分野において大きな関心を集めている。 確率測度を比較するためのワッサーシュタイン距離などの最適輸送ベース距離の有用性は、球面確率測度に対するこれらの距離の計算的に効率的なバリエーションを開発するための活発な研究を刺激している。 本稿では、立体射影と一般化ラドン変換を用いて球面測度を比較するための高速かつ高並列化可能な距離について紹介する。 立体射影による距離歪みに注意して対処し、提案した計量とその回転不変変動の広範な理論的解析を行う。 最後に、提案手法の性能評価を行い、勾配流や自己教師付き学習を含む幅広い数値研究を通して、速度と精度の両面から、最近のベースラインと比較する。 私たちのコードはhttps://github.com/mint-vu/s3wd.comで利用可能です。

Comparing spherical probability distributions is of great interest in various fields, including geology, medical domains, computer vision, and deep representation learning. The utility of optimal transport-based distances, such as the Wasserstein distance, for comparing probability measures has spurred active research in developing computationally efficient variations of these distances for spherical probability measures. This paper introduces a high-speed and highly parallelizable distance for comparing spherical measures using the stereographic projection and the generalized Radon transform, which we refer to as the Stereographic Spherical Sliced Wasserstein (S3W) distance. We carefully address the distance distortion caused by the stereographic projection and provide an extensive theoretical analysis of our proposed metric and its rotationally invariant variation. Finally, we evaluate the performance of the proposed metrics and compare them with recent baselines in terms of both speed and accuracy through a wide range of numerical studies, including gradient flows and self-supervised learning. Our code is available at https://github.com/mint-vu/s3wd.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-09
# 地域的表現の再考

Region-Based Representations Revisited ( http://arxiv.org/abs/2402.02352v4 )

ライセンス: Link先を確認
Michal Shlapentokh-Rothman, Ansel Blume, Yao Xiao, Yuqun Wu, Sethuraman T V, Heyi Tao, Jae Yong Lee, Wilfredo Torres, Yu-Xiong Wang, Derek Hoiem, (参考訳) 地域ベース表現が認識に有効かどうかを検討する。 リージョンは、かつては認識アプローチのメインステイだったが、ピクセルとパッチベースの機能は、ほぼ完全に使用されている。 近年のSAMのようなクラスに依存しないセグメンタは,DINOv2のような強力な教師なし表現と効果的に結合することができ,セグメンテーションやオブジェクトベース画像検索,マルチイメージ解析など,多種多様なタスクに利用できることを示す。 仮面と特徴が抽出されると、これらの表現は線形デコーダを使っても競合性能を実現し、カスタムクエリを必要とするアプリケーションに適している。 表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。

We investigate whether region-based representations are effective for recognition. Regions were once a mainstay in recognition approaches, but pixel and patch-based features are now used almost exclusively. We show that recent class-agnostic segmenters like SAM can be effectively combined with strong unsupervised representations like DINOv2 and used for a wide variety of tasks, including semantic segmentation, object-based image retrieval, and multi-image analysis. Once the masks and features are extracted, these representations, even with linear decoders, enable competitive performance, making them well suited to applications that require custom queries. The compactness of the representation also makes it well-suited to video analysis and other problems requiring inference across many images.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-09
# DeLLMa: 大規模言語モデルによる不確実性の下での意思決定のためのフレームワーク

DeLLMa: A Framework for Decision Making Under Uncertainty with Large Language Models ( http://arxiv.org/abs/2402.02392v2 )

ライセンス: Link先を確認
Ollie Liu, Deqing Fu, Dani Yogatama, Willie Neiswanger, (参考訳) 意思決定支援ツールとしての大規模言語モデル(LLM)の可能性は、ビジネス、エンジニアリング、医療など、不確実性の下で意思決定の困難な課題に直面している分野において、ますます探究されている。 本稿では,このような意思決定問題に対して LLM を直接的に促すことは,特に問題複雑性が増大するにつれて,結果の低下を招きかねないことを示す。 これらのタスクを支援するために,不確実な環境での意思決定精度を高めるためのフレームワークであるDeLLMa(Decision-making Large Language Model Assistant)を提案する。 DeLLMaは、意思決定理論とユーティリティ理論の原理に基づく多段階の足場作成手順を伴い、合理的で人為的な意思決定プロセスを提供する。 我々は,複数の現実的な意思決定環境におけるフレームワークの検証を行い,DeLLMaが主要な言語モデルの意思決定性能を継続的に向上し,競合する手法よりも40%の精度で達成できることを実証した。

The potential of large language models (LLMs) as decision support tools is increasingly being explored in fields such as business, engineering, and medicine, which often face challenging tasks of decision-making under uncertainty. In this paper, we show that directly prompting LLMs on these types of decision-making problems can yield poor results, especially as the problem complexity increases. To aid in these tasks, we propose DeLLMa (Decision-making Large Language Model assistant), a framework designed to enhance decision-making accuracy in uncertain environments. DeLLMa involves a multi-step scaffolding procedure, drawing upon principles from decision theory and utility theory, to provide a rational and human-auditable decision-making process. We validate our framework on multiple realistic decision-making environments, demonstrating that DeLLMa can consistently enhance the decision-making performance of leading language models, and achieve up to a 40% increase in accuracy over competing methods.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-09
# ニューラルネットワークサブセット選択の強化:背景情報を集合表現に統合する

Enhancing Neural Subset Selection: Integrating Background Information into Set Representations ( http://arxiv.org/abs/2402.03139v2 )

ライセンス: Link先を確認
Binghui Xie, Yatao Bian, Kaiwen zhou, Yongqiang Chen, Peilin Zhao, Bo Han, Wei Meng, James Cheng, (参考訳) AIを用いた薬物発見における複合選択などのニューラルネットワークサブセット選択タスクの学習は、さまざまなアプリケーションにおいてますます重要になっている。 この分野の既存の方法論は主に、各スーパーセット内のユーティリティ関数値とサブセットの関係をキャプチャするモデルの構築に集中している。 しかしながら、これらのアプローチは、ニューラルネットワークを使って集合関数をモデル化する際、スーパーセットに含まれる貴重な情報を見逃す傾向がある。 本研究では,確率論的視点を採用することで,この問題に対処する。 我々の理論的な知見は、ターゲット値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットの \textit{invariant enough statistic} を効果的な学習のために興味のサブセットに組み込むことが不可欠であることを示している。 これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。 これらの知見に触発されて、置換不変の観点からサブセットとスーパーセットの表現をマージするために設計された、シンプルで効果的な情報集約モジュールを提案する。 多様なタスクやデータセットにまたがる総合的な経験的評価は,従来の手法に対するアプローチの強化効果を検証し,提案手法の実践性と実世界の文脈における有効性を裏付けるものである。

Learning neural subset selection tasks, such as compound selection in AI-aided drug discovery, have become increasingly pivotal across diverse applications. The existing methodologies in the field primarily concentrate on constructing models that capture the relationship between utility function values and subsets within their respective supersets. However, these approaches tend to overlook the valuable information contained within the superset when utilizing neural networks to model set functions. In this work, we address this oversight by adopting a probabilistic perspective. Our theoretical findings demonstrate that when the target value is conditioned on both the input set and subset, it is essential to incorporate an \textit{invariant sufficient statistic} of the superset into the subset of interest for effective learning. This ensures that the output value remains invariant to permutations of the subset and its corresponding superset, enabling identification of the specific superset from which the subset originated. Motivated by these insights, we propose a simple yet effective information aggregation module designed to merge the representations of subsets and supersets from a permutation invariance perspective. Comprehensive empirical evaluations across diverse tasks and datasets validate the enhanced efficacy of our approach over conventional methods, underscoring the practicality and potency of our proposed strategies in real-world contexts.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-09
# KEN:大規模言語モデルのための普遍的かつ簡易な非パラメトリックプルーニングアルゴリズム

Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models ( http://arxiv.org/abs/2402.03142v2 )

ライセンス: Link先を確認
Michele Mastromattei, Fabio Massimo Zanzotto, (参考訳) ニューラルネットワークのプルーニングは、これらのモデルの複雑さと様々な分野で広く使われているため、ますます重要になっている。 既存のプルーニングアルゴリズムは、アーキテクチャの特異性、過剰な複雑さ、要求される計算への依存といった制限に悩まされ、現実のアプリケーションでは実用的ではない。 本稿では,カーネル密度推定(KDE)に基づく,単純で普遍的で非構造化プルーニングアルゴリズムKENを紹介する。 KENは、最適化されたトランスフォーマーを構築することを目的としており、最も重要なパラメータを選択的に保存し、他のパラメータをトレーニング前の状態に復元する。 この戦略は、最適化されたサブネットワークのみを格納しながらモデル性能を保ち、かなりのメモリ節約につながる。 7つの LLM の広範な評価は、KEN が元の未実行バージョンと同等かそれ以上の性能を達成し、パラメータの最小値が25% であることを示している。 さらに、確立されたプルーニングとPEFTアルゴリズムとの詳細な比較により、KENの有効性が確認された。 さらに、異なる視点から、KENが達成した最適化されたモデル構成を視覚化する説明可能なツールであるKEN$_{viz}$を紹介する。

Neural network pruning has become increasingly crucial due to the complexity of these models and their widespread use in various fields. Existing pruning algorithms often suffer from limitations such as architecture specificity, excessive complexity and reliance on demanding calculations, rendering them impractical for real-world applications. This paper introduces KEN: a straightforward, universal and unstructured pruning algorithm based on Kernel Density Estimation (KDE). KEN aims to construct optimized transformers by selectively preserving the most significant parameters while restoring others to their pre-training state. This strategy preserves model performance while enabling storage of only the optimized subnetwork, leading to substantial memory savings. Extensive evaluations across seven different LLMs demonstrate that KEN achieves equal or better performance than their original unpruned versions, with a minimum parameter reduction of 25%. Furthermore, in-depth comparisons with established pruning and PEFT algorithms confirm KEN effectiveness. We further introduce KEN$_{viz}$, an explainable tool that visualizes the optimized model composition achieved by KEN from different points of view.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-09
# プロンプト・アドバイサル・チューニングによる脱獄対策

Fight Back Against Jailbreaking via Prompt Adversarial Tuning ( http://arxiv.org/abs/2402.06255v2 )

ライセンス: Link先を確認
Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang, (参考訳) 大きな言語モデル(LLM)は様々なアプリケーションで大きな成功を収めていますが、Jailbreak攻撃の影響を受けます。 LLMが有害な情報を生み出すのを防ぐために、いくつかの主要な防衛戦略が提案されており、主に有害なコンテンツフィルタリングやヒューリスティックな防御プロンプトの設計に重点を置いている。 しかし、プロンプトを通した本質的な堅牢性を実現する方法は未解決の問題である。 本稿では,ユーザプロンプトにアタッチメントされたプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。 自然性能を維持しながら防衛目標を達成するため、敵と良性の両方のプロンプトで制御プロンプトを最適化する。 包括的実験により,本手法はブラックボックス攻撃とホワイトボックス攻撃の両方に対して有効であることが示された。 提案した防衛戦略は無視可能な計算オーバーヘッドのみを生じさせ、将来のLLMセキュリティの探究の新たな視点をグラフ化している。 私たちのコードはhttps://github.com/rain152/PAT.comで公開されています。

While Large Language Models (LLMs) have achieved tremendous success in various applications, they are also susceptible to jailbreak attacks. Several primary defense strategies have been proposed to protect LLMs from producing harmful information, mostly with a particular focus on harmful content filtering or heuristical defensive prompt designs. However, how to achieve intrinsic robustness through the prompts remains an open problem. In this paper, motivated by adversarial training paradigms for achieving reliable robustness, we propose an approach named Prompt Adversarial Tuning (PAT) that trains a prompt control attached to the user prompt as a guard prefix. To achieve our defense goal whilst maintaining natural performance, we optimize the control prompt with both adversarial and benign prompts. Comprehensive experiments show that our method is effective against both black-box and white-box attacks, reducing the success rate of advanced attacks to nearly 0 while maintaining the model's utility on the benign task. The proposed defense strategy incurs only negligible computational overhead, charting a new perspective for future explorations in LLM security. Our code is available at https://github.com/rain152/PAT.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-09
# 非一様バイアスを誘発する一様ランダムウェイト--狭義教師に一般化された典型的な補間ニューラルネットワーク

How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers ( http://arxiv.org/abs/2402.06323v2 )

ライセンス: Link先を確認
Gon Buzaglo, Itamar Harel, Mor Shpigel Nacson, Alon Brutzkus, Nathan Srebro, Daniel Soudry, (参考訳) 背景。 主な理論的パズルは、過度パラメータ化されたニューラルネットワーク(NN)が損失ゼロ(すなわち、データを補間する)に訓練されたときにうまく一般化する理由である。 通常、NNはSGD(Stochastic Gradient Descent)またはその変種で訓練される。 しかし、最近の実証研究は、データを補間するランダムNNの一般化を検証した:NNは、パラメータの前の一見均一な状態からサンプリングされ、NNがトレーニングセットを完全に分類することを条件とした。 興味深いことに、そのようなNNサンプルは一般的にSGDで訓練されたNNと同様に一般化された。 貢献。 このようなランダムNN補間器は、ラベルに一致する下層の狭い '‘teacher NN'' が存在する場合、典型的にはうまく一般化する。 具体的には、NNのパラメータ化に先立ってそのような「フラット」が、NN構造の冗長性のために、NN関数よりもリッチな事前を誘導することを示す。 特に、これはより単純な関数に対するバイアスを生み出します。これは、生徒ではなく、教師の複雑さ(主に非冗長なパラメータの数)にほぼ比例した、サンプルの複雑さによる学習を可能にします。

Background. A main theoretical puzzle is why over-parameterized Neural Networks (NNs) generalize well when trained to zero loss (i.e., so they interpolate the data). Usually, the NN is trained with Stochastic Gradient Descent (SGD) or one of its variants. However, recent empirical work examined the generalization of a random NN that interpolates the data: the NN was sampled from a seemingly uniform prior over the parameters, conditioned on that the NN perfectly classifies the training set. Interestingly, such a NN sample typically generalized as well as SGD-trained NNs. Contributions. We prove that such a random NN interpolator typically generalizes well if there exists an underlying narrow ``teacher NN'' that agrees with the labels. Specifically, we show that such a `flat' prior over the NN parameterization induces a rich prior over the NN functions, due to the redundancy in the NN structure. In particular, this creates a bias towards simpler functions, which require less relevant parameters to represent -- enabling learning with a sample complexity approximately proportional to the complexity of the teacher (roughly, the number of non-redundant parameters), rather than the student's.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-09
# Bayesian Deep Learning Via expectedation Maximization and Turbo Deep Approximate Message Passing

Bayesian Deep Learning Via Expectation Maximization and Turbo Deep Approximate Message Passing ( http://arxiv.org/abs/2402.07366v2 )

ライセンス: Link先を確認
Wei Xu, An Liu, Yiting Zhang, Vincent Lau, (参考訳) 深層ニューラルネットワーク(DNN)のための効率的な学習とモデル圧縮アルゴリズムは、深層学習(DL)の台頭の背後にある重要なワークホースである。 本研究では,従来の確率勾配勾配(SGD)に基づく学習アルゴリズムと正規化に基づくモデル圧縮手法の欠点を回避するために,EM-TDAMPと呼ばれるメッセージパッシングに基づくベイズ深層学習アルゴリズムを提案する。 具体的には、DNN学習と圧縮の問題をスパースベイズ推論問題として定式化し、群スパース事前を用いて構造化されたモデル圧縮を実現する。 次に,パラメータ (E-step) の後方分布を推定する予測最大化 (EM) フレームワークと,新たに提案したターボ深部メッセージパッシング (TDAMP) アルゴリズムによりE-stepを実現するハイパーパラメータ (M-step) を更新する。 我々はさらにEM-TDAMPを拡張し、また、クライアントとクライアントがTDAMPを実行してローカルデータに基づいてローカル後部分布を効率的に計算し、中央サーバがまずローカル後部分布を集約してグローバル後部分布を更新し、EMに基づいてハイパーパラメータを更新し、収束を加速する新しいベイズ連邦学習フレームワークを提案する。 本稿では,ボストンの住宅価格予測と手書き認識へのEM-TDAMPの適用について詳述し,EM-TDAMPの利点を示すために,広範な数値的な結果を示す。

Efficient learning and model compression algorithm for deep neural network (DNN) is a key workhorse behind the rise of deep learning (DL). In this work, we propose a message passing based Bayesian deep learning algorithm called EM-TDAMP to avoid the drawbacks of traditional stochastic gradient descent (SGD) based learning algorithms and regularization-based model compression methods. Specifically, we formulate the problem of DNN learning and compression as a sparse Bayesian inference problem, in which group sparse prior is employed to achieve structured model compression. Then, we propose an expectation maximization (EM) framework to estimate posterior distributions for parameters (E-step) and update hyperparameters (M-step), where the E-step is realized by a newly proposed turbo deep approximate message passing (TDAMP) algorithm. We further extend the EM-TDAMP and propose a novel Bayesian federated learning framework, in which and the clients perform TDAMP to efficiently calculate the local posterior distributions based on the local data, and the central server first aggregates the local posterior distributions to update the global posterior distributions and then update hyperparameters based on EM to accelerate convergence. We detail the application of EM-TDAMP to Boston housing price prediction and handwriting recognition, and present extensive numerical results to demonstrate the advantages of EM-TDAMP.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-09
# 英語とヒンディー語におけるスタイル伝達としてのテキストのデトックス化

Text Detoxification as Style Transfer in English and Hindi ( http://arxiv.org/abs/2402.07767v2 )

ライセンス: Link先を確認
Sourabrata Mukherjee, Akanksha Bansal, Atul Kr. Ojha, John P. McCrae, Ondřej Dušek, (参考訳) 本論文は, 有毒テキストを非有毒テキストに自動的に変換するテキストデトックス化に焦点を当てている。 このタスクは、より安全でより尊敬されるオンラインコミュニケーションに寄与し、テキストスタイルの保存中にテキストスタイルが変化するテキストスタイル転送(TST)タスクと見なすことができる。 我々は,類似タスクからの知識伝達,マルチタスク学習アプローチ,シーケンス・ツー・シーケンス・モデリングと各種毒性分類タスクの併用,および削除・再構成アプローチの3つのアプローチを提案する。 本研究を支援するために,Dementieva et al (2021) が提供したデータセットを用いて,有毒テキストに対応する複数バージョンの解毒テキストを含む。 実験では、専門家のアノテータを通して最適な変種を選択し、有害な文章を1つの適切なデトックス化バージョンと組み合わせたデータセットを作成しました。 さらに、評価目的に適した英語データセットの一部と整合した、小さなヒンディー語の並列データセットも導入しました。 以上の結果から,本手法は実際の内容の保存と流布の維持を両立しながら,テキストの脱毒を効果的にバランスさせることが示唆された。

This paper focuses on text detoxification, i.e., automatically converting toxic text into non-toxic text. This task contributes to safer and more respectful online communication and can be considered a Text Style Transfer (TST) task, where the text style changes while its content is preserved. We present three approaches: knowledge transfer from a similar task, multi-task learning approach, combining sequence-to-sequence modeling with various toxicity classification tasks, and delete and reconstruct approach. To support our research, we utilize a dataset provided by Dementieva et al.(2021), which contains multiple versions of detoxified texts corresponding to toxic texts. In our experiments, we selected the best variants through expert human annotators, creating a dataset where each toxic sentence is paired with a single, appropriate detoxified version. Additionally, we introduced a small Hindi parallel dataset, aligning with a part of the English dataset, suitable for evaluation purposes. Our results demonstrate that our approach effectively balances text detoxication while preserving the actual content and maintaining fluency.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-09
# 特徴アクセント:自然画像に応答する「何」の特徴を明らかにする

Feature Accentuation: Revealing 'What' Features Respond to in Natural Images ( http://arxiv.org/abs/2402.10039v2 )

ライセンス: Link先を確認
Chris Hamblin, Thomas Fel, Srijani Saha, Talia Konkle, George Alvarez, (参考訳) ニューラルネットワークビジョンモデルをデコードする努力は、画像内の特徴応答を管理する空間的および意味的な顔の両方を包括的に把握する必要がある。 ほとんどの研究は、主に帰属法に焦点を当てており、モデルが特定の特徴に対してどこに注意を向けているかを示すヒートマップの形での説明を提供する。 しかし、これらの手法の限界と、その注目点においてモデルが認識した「何」を理解する必要性を浮き彫りにした研究は多い。 並行して、'Feature Visualization'は、ニューラルネットワークの機能を解釈するための別の道を提供する。 このアプローチは、勾配上昇を通じて最適な画像を合成し、"何"機能に応答するかについてより明確な洞察を提供する。 しかし、機能ビジュアライゼーションは機能ごとにひとつのグローバルな説明しか提供しない。 本研究では,任意の入力画像のどの位置と何にあるかが特徴の応答を誘導するかを伝達できる,解釈可能性ツールキット「Feature accentuation」に新たな手法を導入する。 中心となる機能アクセントは、(ノイズシードではなく)イメージシードされた機能可視化である。 パラメータ化,拡張,正規化の特別な組み合わせは,シード画像とターゲット特徴を同時に類似した自然な視覚化をもたらす。 さらに、これらのアクセントは、モデルによって自然回路に沿って処理されることを示す。 我々は,Lucentの拡張であるFaccentライブラリとして,機能アクセントの正確な実装をコミュニティに提供する。

Efforts to decode neural network vision models necessitate a comprehensive grasp of both the spatial and semantic facets governing feature responses within images. Most research has primarily centered around attribution methods, which provide explanations in the form of heatmaps, showing where the model directs its attention for a given feature. However, grasping 'where' alone falls short, as numerous studies have highlighted the limitations of those methods and the necessity to understand 'what' the model has recognized at the focal point of its attention. In parallel, 'Feature visualization' offers another avenue for interpreting neural network features. This approach synthesizes an optimal image through gradient ascent, providing clearer insights into 'what' features respond to. However, feature visualizations only provide one global explanation per feature; they do not explain why features activate for particular images. In this work, we introduce a new method to the interpretability tool-kit, 'feature accentuation', which is capable of conveying both where and what in arbitrary input images induces a feature's response. At its core, feature accentuation is image-seeded (rather than noise-seeded) feature visualization. We find a particular combination of parameterization, augmentation, and regularization yields naturalistic visualizations that resemble the seed image and target feature simultaneously. Furthermore, we validate these accentuations are processed along a natural circuit by the model. We make our precise implementation of feature accentuation available to the community as the Faccent library, an extension of Lucent.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-09
# BioMistral: オープンソースで事前訓練された医療ドメイン用大規模言語モデルのコレクション

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains ( http://arxiv.org/abs/2402.10373v2 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Emmanuel Morin, Pierre-Antoine Gourraud, Mickael Rouvier, Richard Dufour, (参考訳) 近年、LLM(Large Language Models)は、医療や医療などの専門分野にまたがる潜在的な応用を提供する、顕著な汎用性を示している。 健康状況に合わせて様々なオープンソース LLM が利用可能であるにもかかわらず、汎用 LLM を医療分野に適用することは重大な課題である。 本稿では、Mistralを基礎モデルとして活用し、PubMed Centralで事前学習した、バイオメディカルドメインに適したオープンソースのLCMであるBioMistralを紹介する。 本研究は、英語で確立された10のQAタスクからなるベンチマークに基づいて、BioMistralの総合評価を行う。 また、量子化とモデルマージによって得られた軽量モデルについても検討する。 以上の結果から,BioMistralは既存のオープンソース医療モデルと比較して優れた性能を示し,プロプライエタリな医療モデルと競合する優位性を示した。 最後に,医学用LLMの多言語一般化を評価するため,このベンチマークを英語以外の7言語に自動翻訳し,評価した。 医学領域におけるLLMの大規模多言語評価はこれが初めてである。 実験で得られたデータセット、多言語評価ベンチマーク、スクリプト、およびすべてのモデルは、自由にリリースされます。

Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges. In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral's superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-09
# 多次元時系列予測のためのランダム投影層

Random Projection Layers for Multidimensional Time Series Forecasting ( http://arxiv.org/abs/2402.10487v3 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yujie Fan, Xin Dai, Vivian Lai, Prince Osei Aboagye, Junpeng Wang, Huiyuan Chen, Yan Zheng, Zhongfang Zhuang, Liang Wang, Wei Zhang, (参考訳) All-Multi-Layer Perceptron (All-MLP) ミキサーモデルは時系列予測問題に有効であることが示されている。 しかし、そのようなモデルが高次元時系列(例えば時空間データセットの時系列)に適用された場合、その性能は過度な問題により劣化する可能性が高い。 本稿では、RPMixerと呼ばれる全MLP時系列予測アーキテクチャを提案する。 本手法は深層ニューラルネットワークのアンサンブル的挙動を利用しており,ネットワーク内の各ブロックはアンサンブルモデルにおいてベース学習者のように振る舞う。 ランダムなプロジェクション層をモデルに統合することにより、ブロックの出力の多様性を高め、RPMixerの全体的な性能を向上させる。 大規模時空間予測ベンチマークを用いて行った大規模な実験により,提案手法は空間時空間グラフモデルと一般予測モデルの両方を含む代替手法より優れていることが示された。

All-Multi-Layer Perceptron (all-MLP) mixer models have been shown to be effective for time series forecasting problems. However, when such a model is applied to high-dimensional time series (e.g., the time series in a spatial-temporal dataset), its performance is likely to degrade due to overfitting issues. In this paper, we propose an all-MLP time series forecasting architecture, referred to as RPMixer. Our method leverages the ensemble-like behavior of deep neural networks, where each individual block within the network acts like a base learner in an ensemble model, especially when identity mapping residual connections are incorporated. By integrating random projection layers into our model, we increase the diversity among the blocks' outputs, thereby enhancing the overall performance of RPMixer. Extensive experiments conducted on large-scale spatial-temporal forecasting benchmark datasets demonstrate that our proposed method outperforms alternative methods, including both spatial-temporal graph models and general forecasting models.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-09
# LLMsがCunning Textsに出会った時: 大規模言語モデルのための誤り理解ベンチマーク

When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models ( http://arxiv.org/abs/2402.11100v2 )

ライセンス: Link先を確認
Yinghui Li, Qingyu Zhou, Yuanzhen Luo, Shirong Ma, Yangning Li, Hai-Tao Zheng, Xuming Hu, Philip S. Yu, (参考訳) 近年,Large Language Models (LLM) は言語理解と生成において顕著な進化を遂げている。 その後、LLMのあらゆる種類の能力を測定するための様々なベンチマークが生まれている。 本稿では,人間が理解しやすいが理解し難い文を含むFLUB(FaLlacy Understanding Benchmark)を提案することによって,LLMの推論能力と理解能力に挑戦する。 具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 また,LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。 FLUBに基づいて,複数の代表および先進LLMの性能を考察し,FLUBが課題であり,今後の研究に値するものであることを考察する。 興味ある発見と貴重な洞察は、我々の広範な実験と詳細な分析で達成されている。 当社のベンチマークは,LCMの誤認識を理解する能力の向上をコミュニティに促すことを願っている。 私たちのデータとコードはhttps://github.com/THUKElab/FLUB.comで公開されています。

Recently, Large Language Models (LLMs) make remarkable evolutions in language understanding and generation. Following this, various benchmarks for measuring all kinds of capabilities of LLMs have sprung up. In this paper, we challenge the reasoning and understanding abilities of LLMs by proposing a FaLlacy Understanding Benchmark (FLUB) containing cunning texts that are easy for humans to understand but difficult for models to grasp. Specifically, the cunning texts that FLUB focuses on mainly consist of the tricky, humorous, and misleading texts collected from the real internet environment. And we design three tasks with increasing difficulty in the FLUB benchmark to evaluate the fallacy understanding ability of LLMs. Based on FLUB, we investigate the performance of multiple representative and advanced LLMs, reflecting our FLUB is challenging and worthy of more future study. Interesting discoveries and valuable insights are achieved in our extensive experiments and detailed analyses. We hope that our benchmark can encourage the community to improve LLMs' ability to understand fallacies. Our data and codes are available at https://github.com/THUKElab/FLUB.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-09
# LLMs for Opinion Summary Evaluation

One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation ( http://arxiv.org/abs/2402.11683v2 )

ライセンス: Link先を確認
Tejpalsingh Siledar, Swaroop Nath, Sankara Sri Raghava Ravindra Muddu, Rupasai Rangaraju, Swaprava Nath, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera, (参考訳) 従来の基準基準尺度を用いた意見要約の評価は、概論的な評価がほとんど得られず、人間の判断と相対的に低い相関性があることが示されている。 近年,NLG評価のための基準フリー指標としてLarge Language Models (LLMs) が提案されているが,意見要約評価には未検討である。 さらに、限られた意見要約評価データセットは進捗を阻害する。 これを解決するために、我々は、意見要約の評価に関する7つの次元をカバーしたSUMMEVAL-OPデータセットをリリースした。 本稿では,Op-I-Promptを次元に依存しないプロンプト,Op-Promptsを,意見要約評価のための次元に依存したプロンプトセットとして検討する。 実験の結果、Op-I-Promptは、人間と平均で0.70のスピアマン相関を達成し、これまでのすべてのアプローチよりも優れているという意見の要約を評価するための優れた代替手段として現れている。 我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。

Evaluation of opinion summaries using conventional reference-based metrics rarely provides a holistic evaluation and has been shown to have a relatively low correlation with human judgments. Recent studies suggest using Large Language Models (LLMs) as reference-free metrics for NLG evaluation, however, they remain unexplored for opinion summary evaluation. Moreover, limited opinion summary evaluation datasets inhibit progress. To address this, we release the SUMMEVAL-OP dataset covering 7 dimensions related to the evaluation of opinion summaries: fluency, coherence, relevance, faithfulness, aspect coverage, sentiment consistency, and specificity. We investigate Op-I-Prompt a dimension-independent prompt, and Op-Prompts, a dimension-dependent set of prompts for opinion summary evaluation. Experiments indicate that Op-I-Prompt emerges as a good alternative for evaluating opinion summaries achieving an average Spearman correlation of 0.70 with humans, outperforming all previous approaches. To the best of our knowledge, we are the first to investigate LLMs as evaluators on both closed-source and open-source models in the opinion summarization domain.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-09
# 超幾何分布を用いた未知個体数の推定

Estimating Unknown Population Sizes Using the Hypergeometric Distribution ( http://arxiv.org/abs/2402.14220v2 )

ライセンス: Link先を確認
Liam Hodgson, Danilo Bzdok, (参考訳) 多変量超幾何分布は、複数のカテゴリに分けられた個々の要素の集団から置き換えることなくサンプリングを記述する。 文献のギャップに対処するため、人口規模と構成カテゴリーの規模が不明な場合、個別分布を推定する課題に取り組む。 本稿では,重度のアンダーサンプリングが存在する場合でも,この推定課題を解決するために,超幾何的可能性を用いた新しい解を提案する。 本研究では,変動型オートエンコーダフレームワークを用いた協調フィルタリングなどの連続潜時変数上での分布条件の混合となるデータ生成プロセスについて検討する。 実験データシミュレーションにより,本手法は,人口規模推定の精度と情報潜在空間の学習能力の両面において,カウントデータをモデル化する他の可能性関数よりも優れていることが示された。 本手法は, テキスト抽出における潜伏語彙の複雑さを推定し, 推定し, 生物学において, スパース単細胞ゲノムデータから真数の遺伝子転写を正確に復元することにより, NLPの応用を通して, 本手法の汎用性を実証する。

The multivariate hypergeometric distribution describes sampling without replacement from a discrete population of elements divided into multiple categories. Addressing a gap in the literature, we tackle the challenge of estimating discrete distributions when both the total population size and the sizes of its constituent categories are unknown. Here, we propose a novel solution using the hypergeometric likelihood to solve this estimation challenge, even in the presence of severe under-sampling. We develop our approach to account for a data generating process where the ground-truth is a mixture of distributions conditional on a continuous latent variable, such as with collaborative filtering, using the variational autoencoder framework. Empirical data simulation demonstrates that our method outperforms other likelihood functions used to model count data, both in terms of accuracy of population size estimate and in its ability to learn an informative latent space. We demonstrate our method's versatility through applications in NLP, by inferring and estimating the complexity of latent vocabularies in text excerpts, and in biology, by accurately recovering the true number of gene transcripts from sparse single-cell genomics data.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-09
# マルチモーダルLCMベンチマークのためのGenCeptionの導入:アノテーションをバイパスできるかもしれない

Introducing GenCeption for Multimodal LLM Benchmarking: You May Bypass Annotations ( http://arxiv.org/abs/2402.14973v2 )

ライセンス: Link先を確認
Lele Cao, Valentin Buchner, Zineb Senane, Fangkai Yang, (参考訳) MLLM(Multimodal Large Language Models)は、高価な注釈付きマルチモーダルベンチマークを用いて一般的に評価される。 しかしながら、これらのベンチマークはMLLM評価の急速に進歩した要求に追従するのに苦労することが多い。 GenCeptionは,モダリティ間のセマンティックコヒーレンスを評価するためにモダリティデータのみを必要とする新しい,アノテーションのないMLLM評価フレームワークである。 人気のDrawCeptionゲームと同様、GenCeptionは非テキストサンプルで開始し、一連の反復的な記述と生成ステップを実行している。 反復のセマンティックドリフトはGC@Tメトリックを用いて定量化される。 我々はGenCeptionの有効性を実証し,MLLMベンチマークの結果と強い相関関係を示した。 GenCeptionは、ユビキタスで以前は見えなかったユニモーダルデータを利用することで、トレーニングデータ汚染を軽減するために拡張される。

Multimodal Large Language Models (MLLMs) are commonly evaluated using costly annotated multimodal benchmarks. However, these benchmarks often struggle to keep pace with the rapidly advancing requirements of MLLM evaluation. We propose GenCeption, a novel and annotation-free MLLM evaluation framework that merely requires unimodal data to assess inter-modality semantic coherence and inversely reflects the models' inclination to hallucinate. Analogous to the popular DrawCeption game, GenCeption initiates with a non-textual sample and undergoes a series of iterative description and generation steps. Semantic drift across iterations is quantified using the GC@T metric. Our empirical findings validate GenCeption's efficacy, showing strong correlations with popular MLLM benchmarking results. GenCeption may be extended to mitigate training data contamination by utilizing ubiquitous, previously unseen unimodal data.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-09
# フランス語医療マスケード言語モデルにおけるトークン化の重要性

How Important Is Tokenization in French Medical Masked Language Models? ( http://arxiv.org/abs/2402.15010v2 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Beatrice Daille, Mickael Rouvier, Richard Dufour, (参考訳) 近年,自然言語処理(NLP)分野において,サブワードのトークン化が主流となっている。 この変更はByte-Pair Encoding (BPE)から始まり、後にSentencePieceとWordPieceが採用された。 サブワードのトークン化は文字や単語レベルのトークン化を一貫して上回っているが、その成功に寄与する正確な要因は不明である。 多様なタスクや言語に対する最適セグメンテーションの粒度、データソースのトークン化への影響、インド・ヨーロッパ語における形態情報の役割といった重要な側面はいまだ不十分である。 これは特に、形態素の組み合わせを規定する特定の規則によって特徴づけられる生体医学用語に関係している。 生物医学用語の凝集的な性質にもかかわらず、既存の言語モデルは、この知識を明示的に含みておらず、共通の用語に対する一貫性のないトークン化戦略をもたらす。 本稿では,フランスの生物医学領域におけるサブワードトークン化の複雑さを,様々なNLPタスクやピンポイント領域にまたがって探究する。 我々は,BPEやSentencePieceなどの古典的トークン化アルゴリズムを解析し,形態素に富んだ単語セグメンテーションを既存のトークン化手法に統合する独自のトークン化戦略を導入する。

Subword tokenization has become the prevailing standard in the field of natural language processing (NLP) over recent years, primarily due to the widespread utilization of pre-trained language models. This shift began with Byte-Pair Encoding (BPE) and was later followed by the adoption of SentencePiece and WordPiece. While subword tokenization consistently outperforms character and word-level tokenization, the precise factors contributing to its success remain unclear. Key aspects such as the optimal segmentation granularity for diverse tasks and languages, the influence of data sources on tokenizers, and the role of morphological information in Indo-European languages remain insufficiently explored. This is particularly pertinent for biomedical terminology, characterized by specific rules governing morpheme combinations. Despite the agglutinative nature of biomedical terminology, existing language models do not explicitly incorporate this knowledge, leading to inconsistent tokenization strategies for common terms. In this paper, we seek to delve into the complexities of subword tokenization in French biomedical domain across a variety of NLP tasks and pinpoint areas where further enhancements can be made. We analyze classical tokenization algorithms, including BPE and SentencePiece, and introduce an original tokenization strategy that integrates morpheme-enriched word segmentation into existing tokenization methods.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-09
# クロックの設定:事前訓練された言語モデルの時間的アライメント

Set the Clock: Temporal Alignment of Pretrained Language Models ( http://arxiv.org/abs/2402.16797v2 )

ライセンス: Link先を確認
Bowen Zhao, Zander Brumbaugh, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith, (参考訳) 言語モデル(LM)は、多くの時点から派生したWebテキストに基づいて訓練されており、一般には、明確な時間的根拠は持たない。 本研究では、事前訓練されたLMの時間的カオスを調査し、その内部知識を目標時間に整合させる様々な手法を探索し、これを「時間的アライメント」と呼ぶ。 そこで我々はまず,2000年から2023年にかけて,20Kの時間依存質問とその回答を含むデータセットを自動構築する。 このデータセットに基づいて、最近事前学習されたLM(eg, LLaMa2)がカットオフ(eg, 2022)されているにもかかわらず、ほとんどの場合、以前の知識(eg, 2019)を使用して質問に答えていることを実証的に示す。 そこで我々は,質問に答える際に,最新の知識を利用するためにLMをアライメントし,このアライメントにおける様々な要因を調査する,いくつかの方法を開発した。 LLaMa2を2022年に合わせることで,その年の回答により最大62%の性能向上が期待できることを示す。 この改善は、明示的に時間情報に言及することなく発生し、事前訓練後のモデルの内部感覚を整合させる可能性を示している。 最後に、2010年には、2010年の未整合LMの性能が2.8$\times$となるように、歴史的時間へのアライメントも可能であることを発見した。 これらの知見は、LMの内部知識体系の高度化と、それらを適切に調整する必要があることを示唆している。

Language models (LMs) are trained on web text originating from many points in time and, in general, without any explicit temporal grounding. This work investigates the temporal chaos of pretrained LMs and explores various methods to align their internal knowledge to a target time, which we call "temporal alignment." To do this, we first automatically construct a dataset containing 20K time-sensitive questions and their answers for each year from 2000 to 2023. Based on this dataset, we empirically show that pretrained LMs (e.g., LLaMa2), despite having a recent pretraining cutoff (e.g., 2022), mostly answer questions using earlier knowledge (e.g., in 2019). We then develop several methods, from prompting to finetuning, to align LMs to use their most recent knowledge when answering questions, and investigate various factors in this alignment. Our experiments demonstrate that aligning LLaMa2 to the year 2022 can enhance its performance by up to 62% according to that year's answers. This improvement occurs even without explicitly mentioning time information, indicating the possibility of aligning models' internal sense of time after pretraining. Finally, we find that alignment to a historical time is also possible, with up to 2.8$\times$ the performance of the unaligned LM in 2010 if finetuning models to that year. These findings hint at the sophistication of LMs' internal knowledge organization and the necessity of tuning them properly.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-09
# LLMはデータに基づく統計的・因果推論が可能か? : データによる高度な定量的推論のベンチマーク

Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data ( http://arxiv.org/abs/2402.17644v2 )

ライセンス: Link先を確認
Xiao Liu, Zirui Wu, Xueqing Wu, Pan Lu, Kai-Wei Chang, Yansong Feng, (参考訳) 定量的推論はデータを解析するための重要なスキルであるが、そのような能力の評価は限られている。 このギャップに対処するために,実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価することを目的としたQRDataベンチマーク(Quantical Reasoning with Data)を導入する。 このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴って、411の質問を慎重に構築したデータセットで構成されている。 データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。 本稿では,自然言語推論,プログラムベース推論,エージェント推論手法,例えばChain-of-Thoughts,Program-of-Thoughts,ReAct,コードインタプリタアシスタントを多種多様なモデルで評価する。 最強のモデルであるGPT-4は58%の精度を実現しており、改善の余地がたくさんある。 オープンソースモデルの中では、2Tトークンで事前トレーニングされたコードLLMであるDeepseek-coder-instructが最も精度が37%である。 データ分析と因果推論においてモデルは困難に遭遇し、因果知識の使用に苦慮し、同時にデータを提供する。 コードとデータはhttps://github.com/xxxiaol/QRDataにある。

Quantitative reasoning is a critical skill to analyze data, yet the assessment of such ability remains limited. To address this gap, we introduce the Quantitative Reasoning with Data (QRData) benchmark, aiming to evaluate Large Language Models' capability in statistical and causal reasoning with real-world data. The benchmark comprises a carefully constructed dataset of 411 questions accompanied by data sheets from textbooks, online learning materials, and academic papers. To compare models' quantitative reasoning abilities on data and text, we enrich the benchmark with an auxiliary set of 290 text-only questions, namely QRText. We evaluate natural language reasoning, program-based reasoning, and agent reasoning methods including Chain-of-Thought, Program-of-Thoughts, ReAct, and code interpreter assistants on diverse models. The strongest model GPT-4 achieves an accuracy of 58%, which has much room for improvement. Among open-source models, Deepseek-coder-instruct, a code LLM pretrained on 2T tokens, gets the highest accuracy of 37%. Analysis reveals that models encounter difficulties in data analysis and causal reasoning, and struggle in using causal knowledge and provided data simultaneously. Code and data are in https://github.com/xxxiaol/QRData.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-09
# WARDEN: エンベッド・アズ・ア・サービス保護のための多方向バックドア透かし

WARDEN: Multi-Directional Backdoor Watermarks for Embedding-as-a-Service Copyright Protection ( http://arxiv.org/abs/2403.01472v2 )

ライセンス: Link先を確認
Anudeex Shetty, Yue Teng, Ke He, Qiongkai Xu, (参考訳) 組み込み・アズ・ア・サービス(EaaS)は、自然言語処理(NLP)におけるさまざまな下流タスクに対処する機能抽出機能を提供する、広く採用されているソリューションである。 しかしながら、この懸念は、テキスト埋め込みにバックドアの透かしを追加し、その後に公開後の攻撃モデルを検証することで緩和される可能性がある。 EaaSの最近の透かし戦略の分析を通じて、我々は新しいCSE(Clustering, Selection, Elimination)攻撃を設計し、埋め込みの有効性を維持しつつ、バックドアの透かしを除去し、以前の透かしアプローチを破ることができることを示す。 この新たな脅威に対応するため、複数の可能な透かし方向を組み込むことにより、透かしの除去をより困難にする新しいプロトコルを提案する。 我々の防衛アプローチであるWARDENは、特に透かしのステルスネスを高め、CSE攻撃に対する効果を実証的に示している。

Embedding as a Service (EaaS) has become a widely adopted solution, which offers feature extraction capabilities for addressing various downstream tasks in Natural Language Processing (NLP). Prior studies have shown that EaaS can be prone to model extraction attacks; nevertheless, this concern could be mitigated by adding backdoor watermarks to the text embeddings and subsequently verifying the attack models post-publication. Through the analysis of the recent watermarking strategy for EaaS, EmbMarker, we design a novel CSE (Clustering, Selection, Elimination) attack that removes the backdoor watermark while maintaining the high utility of embeddings, indicating that the previous watermarking approach can be breached. In response to this new threat, we propose a new protocol to make the removal of watermarks more challenging by incorporating multiple possible watermark directions. Our defense approach, WARDEN, notably increases the stealthiness of watermarks and has been empirically shown to be effective against CSE attack.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-09
# ファンタスティック・セマンティックスと発見の場所--LLMのどの層がレキシカル・セマンティックスを反映しているかを探る

Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics ( http://arxiv.org/abs/2403.01509v2 )

ライセンス: Link先を確認
Zhu Liu, Cunliang Kong, Ying Liu, Maosong Sun, (参考訳) 大規模言語モデルは、一般的な言語理解タスクにおいて顕著な成功を収めた。 しかし、次のトークン予測を目的とした生成的手法のファミリーとして、BERTのような先駆的なアーキテクチャとは異なり、これらのモデルの深さによる意味進化は完全には研究されていない。 本稿では,Llama2という一般的なLLMの語彙的意味論のボトムアップ進化を,文脈化された単語識別タスクを用いて各層の末尾に隠された状態を探索することによって詳細に検討する。 実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。 これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。 この結論は、プロンプト戦略における最後の無意味な記号(句読点など)の隠蔽状態による単調な性能向上によってさらに支持される。 私たちのコードはhttps://github.com/RyanLiut/LLM_LexSem.comで公開されています。

Large language models have achieved remarkable success in general language understanding tasks. However, as a family of generative methods with the objective of next token prediction, the semantic evolution with the depth of these models are not fully explored, unlike their predecessors, such as BERT-like architectures. In this paper, we specifically investigate the bottom-up evolution of lexical semantics for a popular LLM, namely Llama2, by probing its hidden states at the end of each layer using a contextualized word identification task. Our experiments show that the representations in lower layers encode lexical semantics, while the higher layers, with weaker semantic induction, are responsible for prediction. This is in contrast to models with discriminative objectives, such as mask language modeling, where the higher layers obtain better lexical semantics. The conclusion is further supported by the monotonic increase in performance via the hidden states for the last meaningless symbols, such as punctuation, in the prompting strategy. Our codes are available at https://github.com/RyanLiut/LLM_LexSem.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-09
# 動的クエリによる効率的なアクションカウント

Efficient Action Counting with Dynamic Queries ( http://arxiv.org/abs/2403.01543v3 )

ライセンス: Link先を確認
Zishi Li, Xiaoxuan Ma, Qiuyan Shang, Wentao Zhu, Hai Ci, Yu Qiao, Yizhou Wang, (参考訳) 時間的反復カウントは、ビデオ内で繰り返される行動サイクルを定量化することを目的としている。 既存の手法の大半は、動作の反復性を特徴付けるために類似性相関行列に依存しているが、そのスケーラビリティは2次計算の複雑さのために妨げられている。 本研究では,線形計算複雑性を伴う繰り返し動作サイクルをローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。 この表現に基づいて、時間的繰り返しカウントの本質的な課題に取り組むために、2つの重要な要素を更に開発する。 まず、オープンセットのアクションカウントを容易にするために、アクションクエリの動的更新方式を提案する。 静的なアクションクエリとは異なり、このアプローチは動的に動画機能をアクションクエリに埋め込み、より柔軟で一般化可能な表現を提供する。 第二に、関心の行動と背景雑音の行為を区別するために、異なるアクションクエリに対応するビデオ表現を正規化するために、クエリ間のコントラスト学習を取り入れる。 その結果,提案手法は,特に映像の長いシーケンス,目に見えない動作,様々な速度での動作において,従来よりも顕著に優れていた。 挑戦的なRepCountAベンチマークでは、OBOの精度が26.5%向上し、平均誤差が22.7%、計算負荷が94.1%減少した。 コードはhttps://github.com/lizishi/DeTRC.comで入手できる。

Temporal repetition counting aims to quantify the repeated action cycles within a video. The majority of existing methods rely on the similarity correlation matrix to characterize the repetitiveness of actions, but their scalability is hindered due to the quadratic computational complexity. In this work, we introduce a novel approach that employs an action query representation to localize repeated action cycles with linear computational complexity. Based on this representation, we further develop two key components to tackle the essential challenges of temporal repetition counting. Firstly, to facilitate open-set action counting, we propose the dynamic update scheme on action queries. Unlike static action queries, this approach dynamically embeds video features into action queries, offering a more flexible and generalizable representation. Secondly, to distinguish between actions of interest and background noise actions, we incorporate inter-query contrastive learning to regularize the video representations corresponding to different action queries. As a result, our method significantly outperforms previous works, particularly in terms of long video sequences, unseen actions, and actions at various speeds. On the challenging RepCountA benchmark, we outperform the state-of-the-art method TransRAC by 26.5% in OBO accuracy, with a 22.7% mean error decrease and 94.1% computational burden reduction. Code is available at https://github.com/lizishi/DeTRC.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-09
# 量子混合状態自己注意ネットワーク

Quantum Mixed-State Self-Attention Network ( http://arxiv.org/abs/2403.02871v2 )

ライセンス: Link先を確認
Fu Chen, Qinglin Zhao, Li Feng, Chuangtao Chen, Yangbin Lin, Jianhong Lin, (参考訳) 量子コンピューティングの急速な進歩は、機械学習分野、特に自然言語処理(NLP)タスクの文脈におけるその可能性を強調している。 量子機械学習(QML)は、量子コンピューティングのユニークな能力を活用し、複雑なデータ処理とパターン認識の課題に対して、新しい視点と方法論を提供する。 本稿では、量子コンピューティングの原理を古典的機械学習アルゴリズム、特に自己注意ネットワークと統合し、NLPタスクの処理効率と効率を向上させる新しい量子混合状態注意ネットワーク(QMSAN)を提案する。 QMSANモデルは混合状態に基づく量子アテンション機構を採用し、量子領域内のクエリとキー間の類似性を効率的に直接推定し、より効果的なアテンションウェイト取得を実現する。 さらに,量子回路内の固定量子ゲートによって実装された革新的な量子位置符号化方式を提案し,モデルの精度を向上する。 様々なデータセットに対する実験的検証により、QMSANモデルはテキスト分類において既存の量子モデルや古典モデルよりも優れており、大幅な性能改善が達成されていることが示されている。 QMSANモデルはパラメータの数を著しく削減するだけでなく、パフォーマンスにおいて従来の自己認識ネットワークを超え、データ表現や情報抽出におけるその強力な能力を示している。 さらに, 異なる量子雑音環境下でのモデルのロバスト性について検討し, QMSANは低雑音に対する信頼可能なロバスト性を有することを示した。

The rapid advancement of quantum computing has increasingly highlighted its potential in the realm of machine learning, particularly in the context of natural language processing (NLP) tasks. Quantum machine learning (QML) leverages the unique capabilities of quantum computing to offer novel perspectives and methodologies for complex data processing and pattern recognition challenges. This paper introduces a novel Quantum Mixed-State Attention Network (QMSAN), which integrates the principles of quantum computing with classical machine learning algorithms, especially self-attention networks, to enhance the efficiency and effectiveness in handling NLP tasks. QMSAN model employs a quantum attention mechanism based on mixed states, enabling efficient direct estimation of similarity between queries and keys within the quantum domain, leading to more effective attention weight acquisition. Additionally, we propose an innovative quantum positional encoding scheme, implemented through fixed quantum gates within the quantum circuit, to enhance the model's accuracy. Experimental validation on various datasets demonstrates that QMSAN model outperforms existing quantum and classical models in text classification, achieving significant performance improvements. QMSAN model not only significantly reduces the number of parameters but also exceeds classical self-attention networks in performance, showcasing its strong capability in data representation and information extraction. Furthermore, our study investigates the model's robustness in different quantum noise environments, showing that QMSAN possesses commendable robustness to low noise.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-09
# 連鎖蒸留における相互情報の最大化のための学習

Learning to Maximize Mutual Information for Chain-of-Thought Distillation ( http://arxiv.org/abs/2403.03348v3 )

ライセンス: Link先を確認
Xin Chen, Hanxian Huang, Yanjun Gao, Yi Wang, Jishen Zhao, Ke Ding, (参考訳) 知識蒸留は、大規模で複雑なモデルからより小さなモデルへ知識を伝達する技術であり、効率的なAIデプロイメントに向けた重要なステップである。 CoT蒸留を応用した新しい手法であるDistilling Step-by-Step~(DSS)は、より大型の蒸留機よりも優れた推理能力を持つ小型モデルを投入することで、約束を証明している。 DSSでは、蒸留されたモデルは、マルチタスク学習フレームワークを通じて合理性を生成し、ラベルを同時に予測する能力を取得する。 しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。 そこで本研究では,この2つのタスクの相互関係をインフォメーション・ボトルネックの観点から検討し,それら2つのタスクの表現特徴の相互情報の最大化として定式化する。 本稿では,この最適化問題を学習に基づく手法を用いて解くための変分手法を提案する。 4つのデータセットにまたがる実験結果から,本手法は最先端DSSよりも優れていることが示された。 本研究は,言語モデルの蒸留およびCoTの応用に関する今後の研究に対する洞察に富んだガイダンスを提供する。 コードは \url{https://github.com/xinchen9/cot_distillation_ACL2024} で公開されている。

Knowledge distillation, the technique of transferring knowledge from large, complex models to smaller ones, marks a pivotal step towards efficient AI deployment. Distilling Step-by-Step~(DSS), a novel method utilizing chain-of-thought~(CoT) distillation, has demonstrated promise by imbuing smaller models with the superior reasoning capabilities of their larger counterparts. In DSS, the distilled model acquires the ability to generate rationales and predict labels concurrently through a multi-task learning framework. However, DSS overlooks the intrinsic relationship between the two training tasks, leading to ineffective integration of CoT knowledge with the task of label prediction. To this end, we investigate the mutual relationship of the two tasks from Information Bottleneck perspective and formulate it as maximizing the mutual information of the representation features of the two tasks. We propose a variational approach to solve this optimization problem using a learning-based method. Our experimental results across four datasets demonstrate that our method outperforms the state-of-the-art DSS. Our findings offer insightful guidance for future research on language model distillation as well as applications involving CoT. Codes are available at \url{https://github.com/xinchen9/cot_distillation_ACL2024}.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-09
# CodeAttack: コードコンプリートによる大規模言語モデルの安全性向上への挑戦

CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion ( http://arxiv.org/abs/2403.07865v4 )

ライセンス: Link先を確認
Qibing Ren, Chang Gao, Jing Shao, Junchi Yan, Xin Tan, Wai Lam, Lizhuang Ma, (参考訳) LLM(Large Language Models)の急速な進歩は、顕著な生成能力をもたらしたが、その潜在的な誤用に対する懸念も持ち上がった。 教師付き微調整や人間からのフィードバックからの強化学習といった戦略は安全性を高めてきたが、これらの手法は主に自然言語に焦点を絞っており、他の領域に一般化しない可能性がある。 本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。 GPT-4、Claude-2、Llama-2シリーズを含む最先端のLLMに関する包括的な研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにしている。 CodeAttackと自然言語の分布ギャップが大きくなると、自然言語入力をデータ構造で符号化するなど、安全性が低下することがわかった。 さらに、コードトレーニング中にLLMが取得したミスアライメントバイアス、潜在的な安全性リスクを回避することよりも、コード補完の優先順位付けなど、CodeAttackの成功に関する仮説を述べています。 最後に、潜在的な緩和策を分析する。 これらの知見は、コードドメインにおける新たな安全性リスクと、LLMのコード機能に合わせたより堅牢な安全性アライメントアルゴリズムの必要性を浮き彫りにしている。

The rapid advancement of Large Language Models (LLMs) has brought about remarkable generative capabilities but also raised concerns about their potential misuse. While strategies like supervised fine-tuning and reinforcement learning from human feedback have enhanced their safety, these methods primarily focus on natural languages, which may not generalize to other domains. This paper introduces CodeAttack, a framework that transforms natural language inputs into code inputs, presenting a novel environment for testing the safety generalization of LLMs. Our comprehensive studies on state-of-the-art LLMs including GPT-4, Claude-2, and Llama-2 series reveal a new and universal safety vulnerability of these models against code input: CodeAttack bypasses the safety guardrails of all models more than 80\% of the time. We find that a larger distribution gap between CodeAttack and natural language leads to weaker safety generalization, such as encoding natural language input with data structures. Furthermore, we give our hypotheses about the success of CodeAttack: the misaligned bias acquired by LLMs during code training, prioritizing code completion over avoiding the potential safety risk. Finally, we analyze potential mitigation measures. These findings highlight new safety risks in the code domain and the need for more robust safety alignment algorithms to match the code capabilities of LLMs.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-09
# ディープニューラルネットワークはスタードメインを形成するか?

Do Deep Neural Network Solutions Form a Star Domain? ( http://arxiv.org/abs/2403.07968v2 )

ライセンス: Link先を確認
Ankit Sonthalia, Alexander Rubinstein, Ehsan Abbasnejad, Seong Joon Oh, (参考訳) 近年、確率勾配降下(SGD)を介して到達可能なニューラルネットワーク解集合は、置換不変性を考慮して凸であると推測されている(Entezari et al , 2022)。 これは、モデルの1つの重みが適切に置換されていることを考慮すれば、線形経路が2つの独立解を低損失で接続することができることを意味する。 しかし、この理論をテストするための現在の手法は、しばしば成功するために非常に広いネットワークを必要とする。 この研究において、より一般的には、SGD解集合は「スターモデル」を含む「スター領域」であり、損失値の低い経路、モジュロ置換によって他のすべての解と線型に接続されていると推測する。 本稿では,与えられた学習課題のスターモデルを求めるスターライトアルゴリズムを提案する。 我々は、この星モデルが他の独立に発見された解と線形に結びついていることを示すことによって、我々の主張を検証する。 この研究のさらなる利点として、得られた恒星領域に対するベイズモデル平均値に関するより良い不確実性の推定を実証する。 さらに、モデルアンサンブルの代替としてスターモデルを示す。 私たちのコードはhttps://github.com/aktsonthalia/starlight.comから入手可能です。

It has recently been conjectured that neural network solution sets reachable via stochastic gradient descent (SGD) are convex, considering permutation invariances (Entezari et al., 2022). This means that a linear path can connect two independent solutions with low loss, given the weights of one of the models are appropriately permuted. However, current methods to test this theory often require very wide networks to succeed. In this work, we conjecture that more generally, the SGD solution set is a "star domain" that contains a "star model" that is linearly connected to all the other solutions via paths with low loss values, modulo permutations. We propose the Starlight algorithm that finds a star model of a given learning task. We validate our claim by showing that this star model is linearly connected with other independently found solutions. As an additional benefit of our study, we demonstrate better uncertainty estimates on the Bayesian Model Averaging over the obtained star domain. Further, we demonstrate star models as potential substitutes for model ensembles. Our code is available at https://github.com/aktsonthalia/starlight.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-09
# BAGEL: 言語による探索誘導によるブートストラップエージェント

BAGEL: Bootstrapping Agents by Guiding Exploration with Language ( http://arxiv.org/abs/2403.08140v2 )

ライセンス: Link先を確認
Shikhar Murty, Christopher Manning, Peter Shaw, Mandar Joshi, Kenton Lee, (参考訳) デジタル環境(WebブラウザやREST APIなど)でのアクションの実行による自然言語命令に従うことは、言語モデル(LM)エージェントにとって難しいタスクです。 残念ながら、LMエージェントは人間のデモンストレーションなしで新しい環境への一般化に失敗することが多い。 この研究は、人間の監督なしにLMエージェントをブートストラップする方法であるBAGELを提示する。 BAGELは、ランダムに探索された軌道または合成指示のシードセットを、2つのノイズのあるLM成分(軌道を合成命令に変換するLMラベル装置と、合成命令を洗練された軌道にマッピングするゼロショットLMエージェント)の間のラウンドトリップでデモに変換する。 これらのラウンドトリップを反復的に実行することにより、BAGELはトランジェクトリーの初期分布を自然言語でよく記述されたものに変換する。 BAGELのデモでは、検索したデモよりもコンテキスト内学習を通じてゼロショットLMエージェントをテスト時に適用し、ToolQAやMiniWob++では2-13%以上の絶対値の改善を実現し、実行障害の最大13倍の削減を実現しています。

Following natural language instructions by executing actions in digital environments (e.g. web-browsers and REST APIs) is a challenging task for language model (LM) agents. Unfortunately, LM agents often fail to generalize to new environments without human demonstrations. This work presents BAGEL, a method for bootstrapping LM agents without human supervision. BAGEL converts a seed set of randomly explored trajectories or synthetic instructions, into demonstrations, via round-trips between two noisy LM components: an LM labeler which converts a trajectory into a synthetic instruction, and a zero-shot LM agent which maps the synthetic instruction into a refined trajectory. By performing these round-trips iteratively, BAGEL quickly converts the initial distribution of trajectories towards those that are well-described by natural language. We use BAGEL demonstrations to adapt a zero shot LM agent at test time via in-context learning over retrieved demonstrations, and find improvements of over 2-13% absolute on ToolQA and MiniWob++, with up to 13x reduction in execution failures.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-09
# 企業における生成人工知能のガバナンス

Governance of Generative Artificial Intelligence for Companies ( http://arxiv.org/abs/2403.08802v2 )

ライセンス: Link先を確認
Johannes Schneider, Rene Abraham, Christian Meske, (参考訳) ジェネレーティブ・人工知能(GenAI)、特にChatGPTのような大きな言語モデルは、適切なガバナンスなしに素早く組織に侵入し、機会とリスクの両方を装っている。 GenAIの変革的な性質と規制措置に関する広範な議論にもかかわらず、限定的な研究は、技術的・ビジネス的な視点を包含する組織的ガバナンスに対処している。 本稿は、企業内におけるGenAIガバナンスの枠組みを開発することを目的として、最近の研究を調査することで、このギャップを埋めるものである。 このフレームワークは、GenAI統合に関連するリスクを軽減するだけでなく、ビジネスチャンスを活用するのに適したスコープ、目的、ガバナンスメカニズムを概説します。 我々の研究は、GenAIガバナンスへの焦点を絞ったアプローチに貢献し、GenAI導入の課題をナビゲートし、研究ギャップを強調する企業に対して実践的な洞察を提供する。

Generative Artificial Intelligence (GenAI), specifically large language models like ChatGPT, has swiftly entered organizations without adequate governance, posing both opportunities and risks. Despite extensive debates on GenAI's transformative nature and regulatory measures, limited research addresses organizational governance, encompassing technical and business perspectives. Our review paper fills this gap by surveying recent works with the purpose of developing a framework for GenAI governance within companies. This framework outlines the scope, objectives, and governance mechanisms tailored to harness business opportunities as well as mitigate risks associated with GenAI integration. Our research contributes a focused approach to GenAI governance, offering practical insights for companies navigating the challenges of GenAI adoption and highlighting research gaps.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-09
# ProgGen: 自己回帰型大言語モデルを用いて、名前付きエンティティ認識データセットを段階的に生成する

ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models ( http://arxiv.org/abs/2403.11103v2 )

ライセンス: Link先を確認
Yuzhao Heng, Chunyuan Deng, Yitong Li, Yue Yu, Yinghao Li, Rongzhi Zhang, Chao Zhang, (参考訳) 大規模言語モデル(LLM)はドメイン間で顕著な適応性を示すが、これらのモデルは名前付きエンティティ認識(NER)のような構造化された知識抽出タスクにおいて不足することが多い。 本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。 提案手法は, LLMを特定のドメイン上で自己表現するように指示することで, 属性に富んだ学習データを作成するためのドメイン関連属性(映画レビューのカテゴリや感情など)を生成することによって, 基本的なクラス条件のプロンプトから分岐する。 さらに, 先行してエンティティ項を生成し, これらのエンティティを囲むNERコンテキストデータを作成し, 複雑な構造を持つLLMの課題を効果的に回避する。 一般領域とニッチ領域の両方にわたる実験により、従来のデータ生成手法よりも性能が大幅に向上する一方で、既存の代替手段よりもコスト効率が高いことが判明した。

Although Large Language Models (LLMs) exhibit remarkable adaptability across domains, these models often fall short in structured knowledge extraction tasks such as named entity recognition (NER). This paper explores an innovative, cost-efficient strategy to harness LLMs with modest NER capabilities for producing superior NER datasets. Our approach diverges from the basic class-conditional prompts by instructing LLMs to self-reflect on the specific domain, thereby generating domain-relevant attributes (such as category and emotions for movie reviews), which are utilized for creating attribute-rich training data. Furthermore, we preemptively generate entity terms and then develop NER context data around these entities, effectively bypassing the LLMs' challenges with complex structures. Our experiments across both general and niche domains reveal significant performance enhancements over conventional data generation methods while being more cost-effective than existing alternatives.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-09
# CantonMT: 合成バックトランスレーションデータを用いた微調整モデルによる英語NMTプラットフォーム

CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data ( http://arxiv.org/abs/2403.11346v3 )

ライセンス: Link先を確認
Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic, (参考訳) 低リソース言語のためのニューラルマシン翻訳(NMT)は、NLP研究者の前ではまだ難しい課題である。 そこで本研究では,Cantonese-to- English への逆翻訳による標準データ拡張手法を新たに導入する。 実データの限られた量を用いて微調整したモデルと,OpusMT,NLLB,mBARTを含むバックトランスレーションを用いて生成した合成データについて述べる。 語彙ベースや埋め込みベースなど,さまざまな指標を用いて自動評価を行った。 さらに。 私たちは this\textsc{ CantonMT} 研究プロジェクトに含まれるモデルのユーザフレンドリなインターフェースを作成し、Cantonese-to- English MT 研究を促進するために利用します。 このプラットフォームには、オープンソースの\textsc{ CantonMT}ツールキットである \url{https://github.com/kenrickkung/CantoneseTranslation} を通じて、より多くのモデルを追加できます。

Neural Machine Translation (NMT) for low-resource languages is still a challenging task in front of NLP researchers. In this work, we deploy a standard data augmentation methodology by back-translation to a new language translation direction Cantonese-to-English. We present the models we fine-tuned using the limited amount of real data and the synthetic data we generated using back-translation including OpusMT, NLLB, and mBART. We carried out automatic evaluation using a range of different metrics including lexical-based and embedding-based. Furthermore. we create a user-friendly interface for the models we included in this\textsc{ CantonMT} research project and make it available to facilitate Cantonese-to-English MT research. Researchers can add more models into this platform via our open-source\textsc{ CantonMT} toolkit \url{https://github.com/kenrickkung/CantoneseTranslation}.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-09
# 大規模言語モデルを用いた会話システムの解釈可能なユーザ満足度推定

Interpretable User Satisfaction Estimation for Conversational Systems with Large Language Models ( http://arxiv.org/abs/2403.12388v2 )

ライセンス: Link先を確認
Ying-Chun Lin, Jennifer Neville, Jack W. Stokes, Longqi Yang, Tara Safavi, Mengting Wan, Scott Counts, Siddharth Suri, Reid Andersen, Xiaofeng Xu, Deepak Gupta, Sujay Kumar Jauhar, Xia Song, Georg Buscher, Saurabh Tiwary, Brent Hecht, Jaime Teevan, (参考訳) 正確なユーザ満足度推定(USE)は、会話システムを理解し、評価し、継続的に改善するために重要である。 ユーザは、汎用(ChatGPTとBing Copilot)とタスク指向(顧客サービスチャットボット)の会話システムの両方において、多様な会話パターンに対する満足感や不満を表明する。 既存のMLモデルやテキスト埋め込みに基づくアプローチは、一般化可能なパターンの抽出に不足しており、解釈が難しい。 本研究では,LLMが自然言語音声からユーザ満足度の解釈可能な信号を抽出できることを,埋め込み型アプローチよりも効果的に示す。 さらに、ラベル付き例の監視を使用して反復的なプロンプトフレームワークを通じて、LLMをUSE用に調整することもできる。 その結果,ユーザ満足度向上のためのSupervised Prompting for User satisfaction Rubrics (SPUR) が得られた。

Accurate and interpretable user satisfaction estimation (USE) is critical for understanding, evaluating, and continuously improving conversational systems. Users express their satisfaction or dissatisfaction with diverse conversational patterns in both general-purpose (ChatGPT and Bing Copilot) and task-oriented (customer service chatbot) conversational systems. Existing approaches based on featurized ML models or text embeddings fall short in extracting generalizable patterns and are hard to interpret. In this work, we show that LLMs can extract interpretable signals of user satisfaction from their natural language utterances more effectively than embedding-based approaches. Moreover, an LLM can be tailored for USE via an iterative prompting framework using supervision from labeled examples. The resulting method, Supervised Prompting for User satisfaction Rubrics (SPUR), not only has higher accuracy but is more interpretable as it scores user satisfaction via learned rubrics with a detailed breakdown.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-09
# エントロピーに基づくテキスト透かし検出法

An Entropy-based Text Watermarking Detection Method ( http://arxiv.org/abs/2403.13485v4 )

ライセンス: Link先を確認
Yijian Lu, Aiwei Liu, Dianzhi Yu, Jingjing Li, Irwin King, (参考訳) 大規模言語モデル(LLM)のためのテキスト透かしアルゴリズムは、テキストに隠れた特徴を埋め込んで検出することにより、機械生成したテキストを効果的に識別することができる。 現在のテキスト透かしアルゴリズムは、ほとんどの高エントロピーシナリオでよく機能するが、低エントロピーシナリオでの性能は改善する必要がある。 本研究では,透かし検出過程におけるトークンエントロピーの影響について,従来の方法と同じ値にすべてのトークンの重みを設定するのではなく,そのエントロピーに応じて各トークンの重みをカスタマイズする。 具体的には,ハイエントロピートークンが透かし検出時の重みによく影響し,透かしの度合いをよりよく反映する,テクストbf{E}ntropy-based Text \textbf{W}atermarking \textbf{D}etection (\textbf{EWD})を提案する。 さらに、提案する検出プロセスは、トレーニング不要で、完全に自動化されている。 実験により,EWDは低エントロピーシナリオにおける検出性能が向上し,また本手法は汎用的で,異なるエントロピー分布を持つテキストにも適用可能であることを示した。 コードとデータは利用可能である。footnote{\url{https://github.com/luyijian3/EWD}}。 さらに、我々のアルゴリズムはMarkLLM \cite{pan2024markllm}\footnote{\url{https://github.com/THU-BPM/MarkLLM}}を介してアクセスすることができる。

Text watermarking algorithms for large language models (LLMs) can effectively identify machine-generated texts by embedding and detecting hidden features in the text. Although the current text watermarking algorithms perform well in most high-entropy scenarios, its performance in low-entropy scenarios still needs to be improved. In this work, we opine that the influence of token entropy should be fully considered in the watermark detection process, $i.e.$, the weight of each token during watermark detection should be customized according to its entropy, rather than setting the weights of all tokens to the same value as in previous methods. Specifically, we propose \textbf{E}ntropy-based Text \textbf{W}atermarking \textbf{D}etection (\textbf{EWD}) that gives higher-entropy tokens higher influence weights during watermark detection, so as to better reflect the degree of watermarking. Furthermore, the proposed detection process is training-free and fully automated. From the experiments, we demonstrate that our EWD can achieve better detection performance in low-entropy scenarios, and our method is also general and can be applied to texts with different entropy distributions. Our code and data is available\footnote{\url{https://github.com/luyijian3/EWD}}. Additionally, our algorithm could be accessed through MarkLLM \cite{pan2024markllm}\footnote{\url{https://github.com/THU-BPM/MarkLLM}}.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-09
# 視覚概念のための生成テンプレートプログラムの推論学習

Learning to Infer Generative Template Programs for Visual Concepts ( http://arxiv.org/abs/2403.15476v2 )

ライセンス: Link先を確認
R. Kenny Jones, Siddhartha Chaudhuri, Daniel Ritchie, (参考訳) 人々はいくつかの例から柔軟な視覚概念を把握します。 本稿では,視覚的概念を一般の方法で捉えたプログラムを推論する方法を学ぶニューロシンボリックシステムについて検討する。 本稿では,入力概念に共通する構造パターンとパラメトリックパターンを指定するドメイン固有言語からのプログラム表現について紹介する。 本フレームワークは,構文解析による少数ショット生成と協調分割を含む,複数の概念関連タスクをサポートする。 概念グループを含むビジュアルデータセットから直接テンプレートプログラムを推論するネットワークをトレーニングする学習パラダイムを開発する。 2Dレイアウト、Omniglot文字、そして3D形状です。 提案手法は,タスク固有の代替手法よりも優れており,ドメイン固有のアプローチに対して競争力があることがわかった。

People grasp flexible visual concepts from a few examples. We explore a neurosymbolic system that learns how to infer programs that capture visual concepts in a domain-general fashion. We introduce Template Programs: programmatic expressions from a domain-specific language that specify structural and parametric patterns common to an input concept. Our framework supports multiple concept-related tasks, including few-shot generation and co-segmentation through parsing. We develop a learning paradigm that allows us to train networks that infer Template Programs directly from visual datasets that contain concept groupings. We run experiments across multiple visual domains: 2D layouts, Omniglot characters, and 3D shapes. We find that our method outperforms task-specific alternatives, and performs competitively against domain-specific approaches for the limited domains where they exist.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-09
# 幾何学的精度の高い放射場のための2次元ガウス散乱

2D Gaussian Splatting for Geometrically Accurate Radiance Fields ( http://arxiv.org/abs/2403.17888v2 )

ライセンス: Link先を確認
Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, Shenghua Gao, (参考訳) 3D Gaussian Splatting (3DGS)は近年,高画質の新規ビュー合成と高速レンダリングを実現し,放射界再構成に革命をもたらした。 しかし、3DGSは3Dガウスの多面的不整合性のため、表面を正確に表現することができない。 多視点画像から幾何学的精度の高い放射場をモデル化・再構成するための新しいアプローチである2DGS(2D Gaussian Splatting)を提案する。 私たちのキーとなるアイデアは、3Dボリュームを2D指向の平面ガウスディスクの集合に分解することです。 3Dガウス群とは異なり、2Dガウス群は内在的に曲面をモデル化しながらビュー整合幾何学を提供する。 薄膜を高精度に復元し,安定した最適化を実現するために,レイスプラット交差とラスタライゼーションを利用した視点補正2次元スプラッティングプロセスを導入する。 さらに, 再現の質を高めるために, 深さ歪みと正規整合項を組み込んだ。 我々は,識別可能なレンダラが,競合する外観品質,高速トレーニング速度,リアルタイムレンダリングを維持しつつ,ノイズフリーかつ詳細な幾何学的再構成を可能にすることを実証した。

3D Gaussian Splatting (3DGS) has recently revolutionized radiance field reconstruction, achieving high quality novel view synthesis and fast rendering speed without baking. However, 3DGS fails to accurately represent surfaces due to the multi-view inconsistent nature of 3D Gaussians. We present 2D Gaussian Splatting (2DGS), a novel approach to model and reconstruct geometrically accurate radiance fields from multi-view images. Our key idea is to collapse the 3D volume into a set of 2D oriented planar Gaussian disks. Unlike 3D Gaussians, 2D Gaussians provide view-consistent geometry while modeling surfaces intrinsically. To accurately recover thin surfaces and achieve stable optimization, we introduce a perspective-correct 2D splatting process utilizing ray-splat intersection and rasterization. Additionally, we incorporate depth distortion and normal consistency terms to further enhance the quality of the reconstructions. We demonstrate that our differentiable renderer allows for noise-free and detailed geometry reconstruction while maintaining competitive appearance quality, fast training speed, and real-time rendering.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-09
# 連続学習用適応器を混合した事前学習モデルの自己拡張

Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning ( http://arxiv.org/abs/2403.18886v2 )

ライセンス: Link先を確認
Huiyi Wang, Haodong Lu, Lina Yao, Dong Gong, (参考訳) 継続学習(CL)は、学習知識を壊滅的に忘れることなく、非定常データストリームからの知識を継続的に蓄積することを目的としており、安定性と適応性のバランスを必要とする。 事前学習モデル(PTM)における一般化可能な表現に基づき、PTMベースのCL法は、学習可能なアダプタや凍結したPTMにプロンプトを追加することにより、下流タスクに効果的な連続的な適応を行う。 しかしながら、既存の PTM ベースの CL メソッドの多くは、CL 能力の制限により、これらのモジュールの固定セットへの制限適応を使用して、忘れることを避ける。 タスク固有のモジュールを定期的に追加すると、線形モデルの成長率と知識の再利用が損なわれる。 PTM CL における安定性・塑性バランスの制御を強化する新しい手法である Modularized Adaptation (SEMA) を用いた事前学習モデルの自己拡張を提案する。 SEMAは、処理できない大きな分散シフトが異なる表現レベルで検出されるかどうかに応じて、CLで必要に応じてアダプタモジュールを再利用または追加することを自動的に決定する。 機能的アダプタと表現記述子で構成されるモジュール型アダプタを設計する。 表現記述子は、分散シフトインジケータとして訓練され、自己拡張シグナルをトリガーするために使用される。 アダプタのより良い構成のために、アダプタ出力の混合のために拡張可能な重み付けルータを共同で学習する。 SEMAは、より良い知識再利用とサブ線形展開率を可能にする。 メモリリハーサルを伴わないPLMベースのCL法と比較して,提案手法の有効性を実証した。

Continual learning (CL) aims to continually accumulate knowledge from a non-stationary data stream without catastrophic forgetting of learned knowledge, requiring a balance between stability and adaptability. Relying on the generalizable representation in pre-trained models (PTMs), PTM-based CL methods perform effective continual adaptation on downstream tasks by adding learnable adapters or prompts upon the frozen PTMs. However, many existing PTM-based CL methods use restricted adaptation on a fixed set of these modules to avoid forgetting, suffering from limited CL ability. Periodically adding task-specific modules results in linear model growth rate and impaired knowledge reuse. We propose Self-Expansion of pre-trained models with Modularized Adaptation (SEMA), a novel approach to enhance the control of stability-plasticity balance in PTM-based CL. SEMA automatically decides to reuse or add adapter modules on demand in CL, depending on whether significant distribution shift that cannot be handled is detected at different representation levels. We design modular adapter consisting of a functional adapter and a representation descriptor. The representation descriptors are trained as a distribution shift indicator and used to trigger self-expansion signals. For better composing the adapters, an expandable weighting router is learned jointly for mixture of adapter outputs. SEMA enables better knowledge reuse and sub-linear expansion rate. Extensive experiments demonstrate the effectiveness of the proposed self-expansion method, achieving state-of-the-art performance compared to PTM-based CL methods without memory rehearsal.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-09
# パッチを用いたバイオメディカル画像分類における注意力の調和

Harnessing The Power of Attention For Patch-Based Biomedical Image Classification ( http://arxiv.org/abs/2404.00949v2 )

ライセンス: Link先を確認
Gousia Habib, Shaima Qureshi, Malik ishfaq, (参考訳) バイオメディカル画像解析は、医療・医学研究の進展にとって最重要課題である。 従来の畳み込みニューラルネットワーク(CNN)はこの領域で頻繁に使用されるが、固定サイズの窓と不変フィルタの重みに依存するため、ピクセルレベルでの複雑な空間的および時間的関係を捉える際の制限に直面している。 これらの制約は、入力のゆらぎに適応し、広範囲にわたるコンテキスト情報を理解する能力を妨げる。 これらの課題を克服するために,従来のCNNに代わる自己認識機構に基づく新しいアーキテクチャを提案する。 我々の戦略の重要な要素は、非重複(バニラパッチ)と新しい重なり合うシフトトパッチ技術(S.P.T.s)の組み合わせである。 さらに, 可変画像サイズを高分解能に適応させ, 高分解能バイオメディカル画像のより良い解析を容易にするLancoz5補間手法を提案する。 提案手法は、誘導バイアス、重み共有、受容場制限、効率的なデータハンドリングなど、注意に基づく視覚モデルが直面する重要な課題に対処する。 様々なバイオメディカルイメージングタスクに一般化する上で,提案モデルの有効性が実験的に示された。 注意に基づくモデルは、高度なデータ拡張手法と組み合わせて、ロバストなモデリング能力と既存のアプローチと比較して優れたパフォーマンスを示す。 S.P.T.の統合により、ローカルコンテキストをキャプチャするモデルの能力が大幅に向上する一方、Lancoz5補間技術は高解像度画像の効率的な処理を可能にする。

Biomedical image analysis is of paramount importance for the advancement of healthcare and medical research. Although conventional convolutional neural networks (CNNs) are frequently employed in this domain, facing limitations in capturing intricate spatial and temporal relationships at the pixel level due to their reliance on fixed-sized windows and immutable filter weights post-training. These constraints impede their ability to adapt to input fluctuations and comprehend extensive long-range contextual information. To overcome these challenges, a novel architecture based on self-attention mechanisms as an alternative to conventional CNNs.The proposed model utilizes attention-based mechanisms to surpass the limitations of CNNs. The key component of our strategy is the combination of non-overlapping (vanilla patching) and novel overlapped Shifted Patching Techniques (S.P.T.s), which enhances the model's capacity to capture local context and improves generalization. Additionally, we introduce the Lancoz5 interpolation technique, which adapts variable image sizes to higher resolutions, facilitating better analysis of high-resolution biomedical images. Our methods address critical challenges faced by attention-based vision models, including inductive bias, weight sharing, receptive field limitations, and efficient data handling. Experimental evidence shows the effectiveness of proposed model in generalizing to various biomedical imaging tasks. The attention-based model, combined with advanced data augmentation methodologies, exhibits robust modeling capabilities and superior performance compared to existing approaches. The integration of S.P.T.s significantly enhances the model's ability to capture local context, while the Lancoz5 interpolation technique ensures efficient handling of high-resolution images.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-09
# 非定常データを用いたカーネルヒルベルト空間再現におけるオンライン正規化統計的学習の収束条件

Convergence Conditions of Online Regularized Statistical Learning in Reproducing Kernel Hilbert Space With Non-Stationary Data ( http://arxiv.org/abs/2404.03211v4 )

ライセンス: Link先を確認
Xiwei Zhang, Tao Li, (参考訳) 本研究では,RKHS空間における再帰的正規化学習アルゴリズムの収束性について検討した。 まず,RKHSにおけるランダム差分方程式の平均二乗漸近安定性について検討する。 第2に,ランダムなチコノフ正規化経路の概念を導入し,正規化経路が何らかの意味でゆっくりと時間変化している場合,アルゴリズムの出力は平均二乗の正規化経路と一致していることを示す。 さらに、データストリームが励起条件のRKHS持続性も満たしている場合、すなわち、時間経過毎に蓄積される入力データによって誘導される演算子の条件的期待値が、時間的な演算子の順序という意味で一様に正のコンパクトな下限を持つような一定期間の時間が存在する場合、アルゴリズムの出力は平均二乗の未知関数と整合する。 最後に、独立および非同一分散データストリームの場合、入力データによって誘導される限界確率測度が徐々に時間変化し、各固定期間の平均測度が一様正の正下限を有する場合、平均二乗整合をアルゴリズムが達成する。

We study the convergence of recursive regularized learning algorithms in the reproducing kernel Hilbert space (RKHS) with dependent and non-stationary online data streams. Firstly, we study the mean square asymptotic stability of a class of random difference equations in RKHS, whose non-homogeneous terms are martingale difference sequences dependent on the homogeneous ones. Secondly, we introduce the concept of random Tikhonov regularization path, and show that if the regularization path is slowly time-varying in some sense, then the output of the algorithm is consistent with the regularization path in mean square. Furthermore, if the data streams also satisfy the RKHS persistence of excitation condition, i.e. there exists a fixed length of time period, such that the conditional expectation of the operators induced by the input data accumulated over every time period has a uniformly strictly positive compact lower bound in the sense of the operator order with respect to time, then the output of the algorithm is consistent with the unknown function in mean square. Finally, for the case with independent and non-identically distributed data streams, the algorithm achieves the mean square consistency provided the marginal probability measures induced by the input data are slowly time-varying and the average measure over each fixed-length time period has a uniformly strictly positive lower bound.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-09
# 自己組織化粒子系における集合的挙動の進化

Evolving Collective Behavior in Self-Organizing Particle Systems ( http://arxiv.org/abs/2404.05915v2 )

ライセンス: Link先を確認
Devendra Parkar, Kirtus G. Leyba, Raylene A. Faerber, Joshua J. Daymude, (参考訳) 局所的な相互作用は、生物と社会の複雑なシステムに侵入する創発的な集団行動を引き起こす。 しかし、望ましい振る舞いを生み出す相互作用を明らかにすることは、依然として重要な課題である。 本稿では,数学的に指定された対象行動を達成するために,確率的分散アルゴリズムの景観を探索する進化的フレームワークであるEvoSOPSを提案する。 これらのアルゴリズムは、永続的な記憶と厳密に局所的な知覚と運動を持たない個人からなる自己組織化粒子系(SOPS)を制御している。 集約、フォトタキシング、分離の挙動について、EvoSOPSは統計物理学の数学的理論に基づいて、既存のSOPSに対する確率論的アプローチよりも4.2-15.3%高い適合性を達成するアルゴリズムを発見した。 また、EvoSOPSは、確率的アプローチが必要な物体コーティングのような新しい挙動にも柔軟に適用される。 最後に、繰り返しEvoSOPSをまたいだ凝集のために生産される多種多様で最適なゲノムから洞察を抽出し、EvoSOPSが新しい行動のためのSOPSアルゴリズムに関する将来の理論的研究をブートストラップする方法を実証する。

Local interactions drive emergent collective behavior, which pervades biological and social complex systems. But uncovering the interactions that produce a desired behavior remains a core challenge. In this paper, we present EvoSOPS, an evolutionary framework that searches landscapes of stochastic distributed algorithms for those that achieve a mathematically specified target behavior. These algorithms govern self-organizing particle systems (SOPS) comprising individuals with no persistent memory and strictly local sensing and movement. For aggregation, phototaxing, and separation behaviors, EvoSOPS discovers algorithms that achieve 4.2-15.3% higher fitness than those from the existing "stochastic approach to SOPS" based on mathematical theory from statistical physics. EvoSOPS is also flexibly applied to new behaviors such as object coating where the stochastic approach would require bespoke, extensive analysis. Finally, we distill insights from the diverse, best-fitness genomes produced for aggregation across repeated EvoSOPS runs to demonstrate how EvoSOPS can bootstrap future theoretical investigations into SOPS algorithms for new behaviors.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-09
# 自動検索結果検証と再ランク付けによるモバイル「ハウツー」クエリの強化

Enhancing Mobile "How-to" Queries with Automated Search Results Verification and Reranking ( http://arxiv.org/abs/2404.08860v2 )

ライセンス: Link先を確認
Lei Ding, Jeshwanth Bheemanpally, Yi Zhang, (参考訳) 多くの人が、コンピュータやモバイルデバイスの問題を解決するために、オンラインガイダンスを見つけるために検索エンジンを使用しています。 ユーザは検索結果から効果的なソリューションを識別する上で、しばしば課題に遭遇する。 本稿では,オンライン技術支援検索の精度と妥当性を,自動検索結果検証と再評価により向上させる新しい手法を提案する。 オンデバイス実行に特有の「ハウツー」クエリを出発点として、我々は、AIエージェントが、制御されたAndroid環境で検索結果のステップバイステップ命令を解釈し実行できるようにするための、最初のソリューションを開発した。 さらに,テスト手法の成功指標に基づいて検索結果を順序付けする機構に,エージェントの知見を組み込んだ。 本論文では,様々なアプリケーション領域にわたる一連のテストを通じて,ソリューションのアーキテクチャとシステム全体の評価について詳述する。 その結果,上位結果の品質と信頼性は著しく向上した。 我々の研究結果は、オンライン技術支援のための検索エンジンランキングの最適化にパラダイムシフトがあることを示唆し、効果的で信頼性の高いオンライン支援を見つけるという、広く普及している課題に対して、スケーラブルで自動化されたソリューションを提供する。

Many people use search engines to find online guidance to solve computer or mobile device problems. Users frequently encounter challenges in identifying effective solutions from search results, often wasting time trying ineffective solutions that seem relevant yet fail to solve real problems. This paper introduces a novel approach to improving the accuracy and relevance of online technical support search results through automated search results verification and reranking. Taking "How-to" queries specific to on-device execution as a starting point, we developed the first solution that allows an AI agent to interpret and execute step-by-step instructions in the search results in a controlled Android environment. We further integrated the agent's findings into a reranking mechanism that orders search results based on the success indicators of the tested solutions. The paper details the architecture of our solution and a comprehensive evaluation of the system through a series of tests across various application domains. The results demonstrate a significant improvement in the quality and reliability of the top-ranked results. Our findings suggest a paradigm shift in how search engine ranking for online technical support help can be optimized, offering a scalable and automated solution to the pervasive challenge of finding effective and reliable online help.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-09
# ユーザ編集からの潜在選好学習によるLLMエージェントの調整

Aligning LLM Agents by Learning Latent Preference from User Edits ( http://arxiv.org/abs/2404.15269v2 )

ライセンス: Link先を確認
Ge Gao, Alexey Taymanov, Eduardo Salinas, Paul Mineiro, Dipendra Misra, (参考訳) 本研究では, LLMに基づく言語エージェントの対話型学習について, エージェントの出力に対するユーザ編集に基づいて検討する。 アシスタントを書くなどの典型的な設定では、ユーザは言語エージェントと対話して、与えられた状況に応じて応答を生成し、オプションでエージェント応答を編集して、潜伏した好みに基づいてパーソナライズし、正確性を改善することができる。 編集フィードバックは自然に生成され、ユーザの好みに合わせてエージェントのアライメントを改善するのに適した候補となり、時間の経過とともに編集コストを削減できる。 本稿では,履歴編集データに基づいて,ユーザの潜在嗜好を推定する学習フレームワーク PreLUDE を提案する。 推論されたユーザの好み記述は、将来的に応答を生成するプロンプトを定義するために使用される。 これによってエージェントの微調整が回避されるため、コストがかかり、ユーザ数に合わせてスケールが難しくなり、他のタスクのパフォーマンスが低下する可能性がある。 さらに、記述的嗜好の学習は解釈可能性を改善し、学習した嗜好の閲覧と修正を可能にする。 しかしながら、ユーザの好みは複雑で微妙で、コンテキストによって異なります。 そこで本稿では,LLMを利用したCIPHERというシンプルなアルゴリズムを提案する。 将来的には、CIPHERはk-closestコンテキストから推論された嗜好を検索し、応答生成の集合的嗜好を形成する。 本稿では,要約とメール作成という2つの対話型環境を導入し,GPT-4シミュレーションユーザを用いて評価を行う。 どちらのタスクでも、CIPHERはLLMクエリコストの小さなオーバーヘッドしか持たず、最小の編集距離コストを達成することで、いくつかのベースラインを上回っている。 分析の結果,CIPHERが学習したユーザの嗜好は,日常的な嗜好とかなり類似していることがわかった。

We study interactive learning of LLM-based language agents based on user edits made to the agent's output. In a typical setting such as writing assistants, the user interacts with a language agent to generate a response given a context, and may optionally edit the agent response to personalize it based on their latent preference, in addition to improving the correctness. The edit feedback is naturally generated, making it a suitable candidate for improving the agent's alignment with the user's preference, and for reducing the cost of user edits over time. We propose a learning framework, PRELUDE that infers a description of the user's latent preference based on historic edit data. The inferred user preference descriptions are used to define prompts for generating responses in the future. This avoids fine-tuning the agent, which is costly, challenging to scale with the number of users, and may even degrade its performance on other tasks. Furthermore, learning descriptive preference improves interpretability, allowing the user to view and modify the learned preference. However, user preference can be complex, subtle, and vary based on context, making it challenging to learn. To address this, we propose a simple yet effective algorithm named CIPHER that leverages the LLM to infer the user preference for a given context based on user edits. In the future, CIPHER retrieves inferred preferences from the k-closest contexts in the history, and forms an aggregate preference for response generation. We introduce two interactive environments -- summarization and email writing, and use a GPT-4 simulated user for evaluation. On both tasks, CIPHER outperforms several baselines by achieving the lowest edit distance cost while only having a small overhead in LLM query cost. Our analysis reports that user preferences learned by CIPHER show significant similarity to the ground truth latent preferences.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-09
# LLMを信頼する時 - 信頼性と応答品質の整合性

When to Trust LLMs: Aligning Confidence with Response Quality ( http://arxiv.org/abs/2404.17287v2 )

ライセンス: Link先を確認
Shuchang Tao, Liuyi Yao, Hanxing Ding, Yuexiang Xie, Qi Cao, Fei Sun, Jinyang Gao, Huawei Shen, Bolin Ding, (参考訳) 自然言語生成における大きな言語モデル(LLM)の成功にもかかわらず、多くの証拠はLLMが誤った、あるいは非意味なテキストを生成する可能性があることを示している。 この制限は、特に安全クリティカルな領域において、LLMを信頼する時を識別することの重要性を強調している。 既存の手法は信頼性を信頼度で表すことが多いが、その効果は客観的ガイダンスの欠如によって制限される。 これを解決するために,2成分報酬関数を調整した強化学習を利用するconfidence-Quality-ORDer保存アライメント手法(CONQORD)を提案する。 この関数は品質報酬と秩序保存アライメント報酬関数を統合する。 具体的には、注文保存報酬は、より高い品質の応答に対する高い信頼を言葉で表し、信頼と品質の順序を一致させるモデルにインセンティブを与える。 実験により、ConQORDは過度に注意を払わずに、信頼性と応答精度のアライメント性能を著しく向上することが示された。 さらに、CONQORDが提供する一致した信頼度は、いつLLMを信頼するかを知らせ、外部知識の検索プロセスを開始するための決定要因として機能する。 応答品質に対する信頼性の調整により、透明性と信頼性が向上し、信頼性が向上する。

Despite the success of large language models (LLMs) in natural language generation, much evidence shows that LLMs may produce incorrect or nonsensical text. This limitation highlights the importance of discerning when to trust LLMs, especially in safety-critical domains. Existing methods often express reliability by confidence level, however, their effectiveness is limited by the lack of objective guidance. To address this, we propose CONfidence-Quality-ORDer-preserving alignment approach (CONQORD), which leverages reinforcement learning guided by a tailored dual-component reward function. This function integrates quality reward and order-preserving alignment reward functions. Specifically, the order-preserving reward incentivizes the model to verbalize greater confidence for responses of higher quality to align the order of confidence and quality. Experiments demonstrate that CONQORD significantly improves the alignment performance between confidence and response accuracy, without causing over-cautious. Furthermore, the aligned confidence provided by CONQORD informs when to trust LLMs, and acts as a determinant for initiating the retrieval process of external knowledge. Aligning confidence with response quality ensures more transparent and reliable responses, providing better trustworthiness.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-09
# 古典的および量子カーネルを用いたサポートベクトルマシンによるオープンホール遅延の予測

Predicting Open-Hole Laminates Failure Using Support Vector Machines With Classical and Quantum Kernels ( http://arxiv.org/abs/2405.02903v2 )

ライセンス: Link先を確認
Giorgio Tosti Balducci, Boyang Chen, Matthias Möller, Marc Gerritsma, Roeland De Breuker, (参考訳) 複合体の開孔破壊のモデル化は複雑な作業であり、相互作用する故障モードと非常に非線形な応答からなる。 この現象の数値モデリングは伝統的に有限要素法に基づいているが、高忠実度と計算コストのトレードオフが必要である。 この欠点を軽減するため、最近の研究は、機械学習を活用して、開口部の複合標本の強度を予測する。 ここでは、データベースモデルも提案するが、分類の観点からは、開孔複合故障に対処する。 より具体的には, 平面載荷時の開放孔複合板の究極的破壊包絡を学習するために, 代理モデルの訓練方法を示す。 そこで我々は,SVMカーネル関数を変更して,サポートベクトルマシン(SVM)と異なる分類器をテストすることによって,分類問題を解く。 カーネルベースのSVMの柔軟性により、最近開発された量子カーネルをアルゴリズムに統合し、標準ラジアル基底関数(RBF)カーネルと比較することもできる。 最後に、カーネル-ターゲットアライメント最適化により、すべてのカーネルのフリーパラメータを最適化し、安全なロード状態とフェール誘導ロード状態を最適に分離する。 その結果、RBFの分類精度は、特にアライメント後に90%以上となり、量子カーネル分類器がそれに近づいた。

Modeling open hole failure of composites is a complex task, consisting in a highly nonlinear response with interacting failure modes. Numerical modeling of this phenomenon has traditionally been based on the finite element method, but requires to tradeoff between high fidelity and computational cost. To mitigate this shortcoming, recent work has leveraged machine learning to predict the strength of open hole composite specimens. Here, we also propose using data-based models but to tackle open hole composite failure from a classification point of view. More specifically, we show how to train surrogate models to learn the ultimate failure envelope of an open hole composite plate under in-plane loading. To achieve this, we solve the classification problem via support vector machine (SVM) and test different classifiers by changing the SVM kernel function. The flexibility of kernel-based SVM also allows us to integrate the recently developed quantum kernels in our algorithm and compare them with the standard radial basis function (RBF) kernel. Finally, thanks to kernel-target alignment optimization, we tune the free parameters of all kernels to best separate safe and failure-inducing loading states. The results show classification accuracies higher than 90% for RBF, especially after alignment, followed closely by the quantum kernel classifiers.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-09
# 水位深度推定の批判的評価:機械学習における課題と可能性

A critical appraisal of water table depth estimation: Challenges and opportunities within machine learning ( http://arxiv.org/abs/2405.04579v2 )

ライセンス: Link先を確認
Joseph Janssen, Ardalan Tootchi, Ali A. Ameli, (参考訳) 水テーブル深度(WTD)の微細な空間パターンは、生態系の回復力、水文学的なつながり、人間中心の目的を形成する上で重要な役割を担っている。 一般に、静的WTDの大規模(例えば大陸またはグローバル)空間マップは、物理ベース(PB)モデルまたは機械学習ベース(ML)モデルを用いてシミュレートすることができる。 我々は、XGBoostアルゴリズムと2000万以上のWTDの実・代用観測データを用いて、WTDの3つの微細分解能(500m)MLシミュレーションを構築した。 3つのMLモデルは、WTDのドライバとWTDの間の既知の物理的関係を利用して制約され、WTDのリアルおよびプロキシ観測を逐次追加することで訓練された。 物理的に制約されたMLモデルのブラックボックスを解釈し、地下水水文学で利用可能な文献と比較する。 広範(ピクセル単位での)評価により、我々のモデルはWTDの3つのPBシミュレーションと比較して、北米のほとんどのエコリージョンにおけるWTDの目に見えない実・代用的な観測をより正確に予測できることを示した。 しかし、大規模WTD推定は解決された問題には程遠いといえます。 本研究の目的は,低標高のフラッドプレーンから主に収集した偏差観測データ,物理モデル内の方程式の誤特定,機械学習モデルの過度なフレキシビリティなどにより,WTDの正確なシミュレーションがまだ存在しないことである。 最終的に、水文地質学者がWTD推定をどのように進めるかを決めるのに役立つ将来の方向性について、特に機械学習の適用とプロキシ衛星データの利用に焦点を当てて、徹底的に議論する。

Fine-resolution spatial patterns of water table depth (WTD) play a crucial role in shaping ecological resilience, hydrological connectivity, and anthropocentric objectives. Generally, a large-scale (e.g., continental or global) spatial map of static WTD can be simulated using either physically-based (PB) or machine learning-based (ML) models. We construct three fine-resolution (500 m) ML simulations of WTD, using the XGBoost algorithm and more than 20 million real and proxy observations of WTD, across the United States and Canada. The three ML models were constrained using known physical relations between WTD's drivers and WTD and were trained by sequentially adding real and proxy observations of WTD. We interpret the black box of our physically constrained ML models and compare it against available literature in groundwater hydrology. Through an extensive (pixel-by-pixel) evaluation, we demonstrate that our models can more accurately predict unseen real and proxy observations of WTD across most of North America's ecoregions compared to three available PB simulations of WTD. However, we still argue that large-scale WTD estimation is far from being a solved problem. We reason that due to biased observational data mainly collected from low-elevation floodplains, the misspecification of equations within physically-based models, and the over-flexibility of machine learning models, verifiably accurate simulations of WTD do not yet exist. Ultimately, we thoroughly discuss future directions that may help hydrogeologists decide how to proceed with WTD estimations, with a particular focus on the application of machine learning and the use of proxy satellite data.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-09
# LLMの比較を効果的に評価する: Pairwise ComparisonsのためのExperts Frameworkの製品

Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons ( http://arxiv.org/abs/2405.05894v2 )

ライセンス: Link先を確認
Adian Liusie, Vatsal Raina, Yassir Fathullah, Mark Gales, (参考訳) LLM-as-a-judgeアプローチは、テキストタスクの範囲を評価するための実用的で効果的な方法であり、特に比較評価方式で適用された場合、人間の判断に合致する。 しかし、一組の候補をランク付けするためにペアワイズ比較を使用する場合、計算コストは候補数と2次的にスケールし、実際的な制限がある。 本稿では,LLM比較評価の効率化を目的としたProduct of Expert (PoE)フレームワークを提案する。 ここでは、ペアのスコア差に関する情報を提供する専門家を個別に比較する。 PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補の集合に対して最大化できる表現を与え、あらゆる種類の専門家を仮定できる高度に柔軟である。 ガウスの専門家が用いられるとき、最適な候補ランク付けのための単純な閉形式解を導出し、このランク付けの確率を最大化するためにどの比較を行うべきかを選択する式を導出することができる。 提案手法は,比較対象のごく一部だけを用いて,評価結果と人間の判断を関連づけたスコア予測を,全ての比較結果を用いた場合の予測として生成する,効率的な比較評価を可能にする。 我々は複数のNLGタスクに対するアプローチを評価し、我々のフレームワークがペアワイズ比較評価を行う際にかなりの計算的節約が得られることを示した。 N が大きければ、比較の 2% に満たないので、PoE ソリューションは全ての比較が使用されるのと同じような性能が得られる。

LLM-as-a-judge approaches are a practical and effective way of assessing a range of text tasks, aligning with human judgements especially when applied in a comparative assessment fashion. However, when using pairwise comparisons to rank a set of candidates the computational costs scale quadratically with the number of candidates, which can have practical limitations. This paper introduces a Product of Expert (PoE) framework for efficient LLM Comparative Assessment. Here individual comparisons are considered experts that provide information on a pair's score difference. The PoE framework combines the information from these experts to yield an expression that can be maximized with respect to the underlying set of candidates, and is highly flexible where any form of expert can be assumed. When Gaussian experts are used one can derive simple closed-form solutions for the optimal candidate ranking, as well as expressions for selecting which comparisons should be made to maximize the probability of this ranking. Our approach enables efficient comparative assessment, where by using only a small subset of the possible comparisons, one can generate score predictions that correlate as well to human judgements as the predictions when all comparisons are used. We evaluate the approach on multiple NLG tasks and demonstrate that our framework can yield considerable computational savings when performing pairwise comparative assessment. When N is large, with as few as 2% of comparisons the PoE solution can achieve similar performance to when all comparisons are used.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-09
# 局所適応型リスク制御

Localized Adaptive Risk Control ( http://arxiv.org/abs/2405.07976v2 )

ライセンス: Link先を確認
Matteo Zecchin, Osvaldo Simeone, (参考訳) Adaptive Risk Control (ARC) は、設定予測に基づくオンラインキャリブレーション戦略である。 ARCは、過去の決定からのフィードバックに基づいて、単一のスカラー閾値を変化させて設定した予測のサイズを調整する。 本研究では、ARCの最悪の性能を維持しつつ、条件付きリスクから限界リスクまでの統計的局所的リスク保証をターゲットとした、オンラインキャリブレーション方式であるLocalized Adaptive Risk Control (L-ARC)を導入する。 L-ARCは再生カーネルヒルベルト空間(RKHS)内のしきい値関数を更新し、カーネルは統計的リスク保証の局所化のレベルを決定する。 理論的結果は、統計的リスクの局所化と長期的リスク目標への収束速度のトレードオフを浮き彫りにする。 ローカライゼーションにより、L-ARCは様々なデータサブポピュレーションにまたがるリスク保証を備えた予測セットを生成する実験により、無線ネットワークにおける画像セグメンテーションやビーム選択といったタスクに対する校正モデルの公平性を大幅に向上させる。

Adaptive Risk Control (ARC) is an online calibration strategy based on set prediction that offers worst-case deterministic long-term risk control, as well as statistical marginal coverage guarantees. ARC adjusts the size of the prediction set by varying a single scalar threshold based on feedback from past decisions. In this work, we introduce Localized Adaptive Risk Control (L-ARC), an online calibration scheme that targets statistical localized risk guarantees ranging from conditional risk to marginal risk, while preserving the worst-case performance of ARC. L-ARC updates a threshold function within a reproducing kernel Hilbert space (RKHS), with the kernel determining the level of localization of the statistical risk guarantee. The theoretical results highlight a trade-off between localization of the statistical risk and convergence speed to the long-term risk target. Thanks to localization, L-ARC is demonstrated via experiments to produce prediction sets with risk guarantees across different data subpopulations, significantly improving the fairness of the calibrated model for tasks such as image segmentation and beam selection in wireless networks.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-09
# 擬似乱数列の複雑さ対策に関する調査

A Survey on Complexity Measures of Pseudo-Random Sequences ( http://arxiv.org/abs/2405.08479v2 )

ライセンス: Link先を確認
Chunlei Li, (参考訳) 1960年代に2進数列のコルモゴロフ複雑性が導入されて以降、理論計算機科学や暗号学における実践的関心の中心であるランダム性評価の複雑さ尺度のトピックにおいて、大きな進歩があった。 本調査では, 擬似ランダム列の線形, 二次, 最大次複雑度と, レンペル・ジブ複雑性, 拡張複雑性, 2進複雑性, 相関測定との関係について, 過去40年間の顕著な研究をレビューした。

Since the introduction of the Kolmogorov complexity of binary sequences in the 1960s, there have been significant advancements in the topic of complexity measures for randomness assessment, which are of fundamental importance in theoretical computer science and of practical interest in cryptography. This survey reviews notable research from the past four decades on the linear, quadratic and maximum-order complexities of pseudo-random sequences and their relations with Lempel-Ziv complexity, expansion complexity, 2-adic complexity, and correlation measures.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-09
# 特徴融合ネットワークを用いた人・機械用スケーラブル画像符号化

Scalable Image Coding for Humans and Machines Using Feature Fusion Network ( http://arxiv.org/abs/2405.09152v4 )

ライセンス: Link先を確認
Takahiro Shindo, Taiju Watanabe, Yui Tatsumi, Hiroshi Watanabe, (参考訳) 画像認識モデルがより普及するにつれて、機械や人間のスケーラブルなコーディング方法がより重要になる。 画像認識モデルの応用例としては、交通監視と農業管理がある。 これらのユースケースでは、スケーラブルな符号化手法が有効であることが証明される。 人間や機械の既存の画像圧縮手法は、これらの要件をある程度満たしている。 しかし,これらの圧縮法は特定の画像認識モデルにのみ有効である。 本稿では,多数の画像認識モデルと互換性のある人や機械を対象とした,学習に基づくスケーラブルな画像符号化手法を提案する。 我々は,機械用画像圧縮モデルと圧縮モデルを組み合わせて,人間の画像復号を容易にするための追加情報を提供する。 これらの圧縮モデルの特徴は、効率的な画像圧縮を実現するために、特徴融合ネットワークを用いて融合される。 本手法では,特徴融合ネットワークにおいて,異なるサイズの特徴の組み合わせを可能とし,パラメータ数を削減するために,付加的な情報圧縮モデルを調整する。 提案手法では,パラメータ数を削減しつつ,画像圧縮モデルを効率よく組み合わせることを確認する。 さらに、デコードされた画像の品質とビットレートの観点から画像圧縮性能を評価することにより、提案手法の有効性を実証する。

As image recognition models become more prevalent, scalable coding methods for machines and humans gain more importance. Applications of image recognition models include traffic monitoring and farm management. In these use cases, the scalable coding method proves effective because the tasks require occasional image checking by humans. Existing image compression methods for humans and machines meet these requirements to some extent. However, these compression methods are effective solely for specific image recognition models. We propose a learning-based scalable image coding method for humans and machines that is compatible with numerous image recognition models. We combine an image compression model for machines with a compression model, providing additional information to facilitate image decoding for humans. The features in these compression models are fused using a feature fusion network to achieve efficient image compression. Our method's additional information compression model is adjusted to reduce the number of parameters by enabling combinations of features of different sizes in the feature fusion network. Our approach confirms that the feature fusion network efficiently combines image compression models while reducing the number of parameters. Furthermore, we demonstrate the effectiveness of the proposed scalable coding method by evaluating the image compression performance in terms of decoded image quality and bitrate.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-09
# 多項ロジスティック帯域に対する極小最小レグレット

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit ( http://arxiv.org/abs/2405.09831v4 )

ライセンス: Link先を確認
Joongkyu Lee, Min-hwan Oh, (参考訳) 本稿では,学習エージェントがコンテキスト情報に基づいて順にアソシエーションを選択し,ユーザからのフィードバックがMNL選択モデルに従うという,コンテキスト多項ロジット(MNL)バンディット問題について検討する。 特に最大品位が$K$の場合には、下限と上限の差が顕著である。 さらに、これらの境界の間の報酬構造の変化は、最適性の探求を複雑にする。 すべてのアイテムが同じ期待される報酬を持つ一様報酬の下で、後悔の少ない$\Omega(d\sqrt{\smash[b]{T/K}})$を確立し、一致する上限の$\tilde{O}(d\sqrt{\smash[b]{T/K}})$を達成する定数時間アルゴリズム OFU-MNL+を提案する。 非一様報酬の下では、$\Omega(d\sqrt{T})$の下位境界と$\tilde{O}(d\sqrt{T})$の上限を証明し、OFU-MNL+によっても達成できる。 我々の実証研究はこれらの理論的な発見を支持している。 我々の知る限りでは、これは文脈的 MNL バンディット文学において、一様あるいは一様でない報酬設定に対して最小の最適性を証明し、この最適性を対数的要因まで達成する計算効率の良いアルゴリズムを提案する最初の作品である。

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $\Omega(d\sqrt{\smash[b]{T/K}})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{\smash[b]{T/K}})$. Under non-uniform rewards, we prove a lower bound of $\Omega(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-09
# ランダム行列を1次元ハミルトニアンとする自由フェルミオンの絡み合いエントロピー

Entanglement Entropy of Free Fermions with a Random Matrix as a One-Body Hamiltonian ( http://arxiv.org/abs/2405.11342v2 )

ライセンス: Link先を確認
L. Pastur, V. Slavin, (参考訳) 我々は、$N$と$L$のサブシステムは、$N$が$L$よりもはるかに大きいと仮定して、$N$と$L$のサブシステムを考える。 このヒューリスティック不等式の広く受け入れられている数学的バージョンは、連続極限の漸近的体系である: まず、マクロ的極限$N \to \infty$、次に、エントロピーのエントロピーの漸近的解析は、$L \to \infty$である。 漸近的に比例する$L$と$N$、即ち同時極限$L \to \infty,\; N \to \infty, L/N \to \lambda >0$である。 具体的には、基底状態にある自由フェルミオンの系と、その一体ハミルトニアンが大きなランダム行列であることを考える。 ランダムマトリクス理論を用いて、この場合、絡み合いエントロピーは短距離ホッピングを持つ系で知られている体積法則に従うが、混合状態またはハミルトニアンの純粋に強い励起状態によって記述されることを示す。 また、幅広い種類の典型的な基底状態に対するブラックホール放射の絡み合いエントロピーに対するペイジの公式の合理化証明を行い、この公式の普遍性を証明した。

We consider a quantum system of large size $N$ and its subsystem of size $L$ assuming that $N$ is much larger than $L$, which can also be sufficiently large, i.e., $1 \ll L \lesssim N $. A widely accepted mathematical version of this heuristic inequality is the asymptotic regime of successive limits: first the macroscopic limit $N \to \infty$, then an asymptotic analysis of the entanglement entropy as $L \to \infty$. In this paper, we consider another version of the above heuristic inequality: the regime of asymptotically proportional $L$ and $N$, i.e., the simultaneous limits $L \to \infty,\; N \to \infty, L/N \to \lambda >0$. Specifically, we consider the system of free fermions which is in its ground state and such that its one-body Hamiltonian is a large random matrix, that is often used to model the long-range hopping. By using random matrix theory, we show that in this case, the entanglement entropy obeys the volume law known for systems with short-ranged hopping but described either by a mixed state or a pure strongly excited state of the Hamiltonian. We also give a streamlined proof of Page's formula for the entanglement entropy of the black hole radiation for a wide class of typical ground states, thereby proving the universality of the formula.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-09
# 無限次元特徴相互作用

Infinite-Dimensional Feature Interaction ( http://arxiv.org/abs/2405.13972v3 )

ライセンス: Link先を確認
Chenhui Xu, Fuxun Yu, Maoliang Li, Zihao Zheng, Zirui Xu, Jinjun Xiong, Xiang Chen, (参考訳) 過去のニューラルネットワーク設計では、機能表現空間の次元とキャパシティスケーリング(例えば、幅、深さ)に重点を置いていたが、機能相互作用空間のスケーリングを見落としていた。 最近の進歩は、情報変換を改善するために高次元の特徴相互作用空間を促進するために、要素ワイド乗法に焦点を移している。 この進歩にもかかわらず、乗法は主に低次の相互作用を捉え、したがって有限次元の相互作用空間に限られる。 この制限を超越するために、古典的なカーネルメソッドは無限次元空間で機能を実行するための有望な解決策として現れる。 本稿では,RBFカーネルが生成する無限次元空間内での機能相互作用を可能にするモデルアーキテクチャであるInfiNetを紹介する。 実験の結果,無限次元の相互作用を活用する能力により,InfiNetは新たな最先端技術を実現し,モデル性能を大幅に向上することがわかった。

The past neural network design has largely focused on feature representation space dimension and its capacity scaling (e.g., width, depth), but overlooked the feature interaction space scaling. Recent advancements have shown shifted focus towards element-wise multiplication to facilitate higher-dimensional feature interaction space for better information transformation. Despite this progress, multiplications predominantly capture low-order interactions, thus remaining confined to a finite-dimensional interaction space. To transcend this limitation, classic kernel methods emerge as a promising solution to engage features in an infinite-dimensional space. We introduce InfiNet, a model architecture that enables feature interaction within an infinite-dimensional space created by RBF kernel. Our experiments reveal that InfiNet achieves new state-of-the-art, owing to its capability to leverage infinite-dimensional interactions, significantly enhancing model performance.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-09
# SynthAI: モジュール型HLS設計自動生成のためのマルチエージェント生成AIフレームワーク

SynthAI: A Multi Agent Generative AI Framework for Automated Modular HLS Design Generation ( http://arxiv.org/abs/2405.16072v2 )

ライセンス: Link先を確認
Seyed Arash Sheikholeslam, Andre Ivanov, (参考訳) 本稿では,HLS設計の自動化手法であるSynthAIを紹介する。 SynthAIは、ReActエージェント、Chain-of-Thought(CoT)プロンプト、Web検索技術、構造化決定グラフにRetrieval-Augmented Generation(RAG)フレームワークを統合する。 この革新的なアプローチは、複雑なハードウェア設計タスクを複数のステージとより小さく管理可能なモジュールに体系的に分解することを可能にする。 その結果、SynthAIはユーザが指定した設計目標と機能要件に忠実に準拠する合成可能な設計を作成した。 我々は、いくつかのケーススタディを通じて、SynthAIの能力をさらに検証し、単一の初期プロンプトから複雑なマルチモジュール論理設計を生成する能力を強調した。 SynthAIコードは以下のリポジトリを通じて提供される。

In this paper, we introduce SynthAI, a new method for the automated creation of High-Level Synthesis (HLS) designs. SynthAI integrates ReAct agents, Chain-of-Thought (CoT) prompting, web search technologies, and the Retrieval-Augmented Generation (RAG) framework within a structured decision graph. This innovative approach enables the systematic decomposition of complex hardware design tasks into multiple stages and smaller, manageable modules. As a result, SynthAI produces synthesizable designs that closely adhere to user-specified design objectives and functional requirements. We further validate the capabilities of SynthAI through several case studies, highlighting its proficiency in generating complex, multi-module logic designs from a single initial prompt. The SynthAI code is provided via the following repo: \url{https://github.com/sarashs/FPGA_AGI}
翻訳日:2024-06-11 23:35:23 公開日:2024-06-09
# 翻訳品質測定のマルチランジ理論:MQMスコアリングモデルと統計的品質制御

The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control ( http://arxiv.org/abs/2405.16969v4 )

ライセンス: Link先を確認
Arle Lommel, Serge Gladkoff, Alan Melby, Sue Ellen Wright, Ingemar Strandvik, Katerina Gasova, Angelika Vaasa, Andy Benzo, Romina Marazzato Sparano, Monica Foresi, Johani Innis, Lifeng Han, Goran Nenadic, (参考訳) 2024年は、分析翻訳品質評価のためのMultidimensional Quality Metrics(MQM)フレームワークの10周年である。 MQMエラー型は翻訳とローカライゼーション産業の実践者によって広く使われ、多くの派生プロジェクトの基盤となっている。 毎年開催される機械翻訳会議(WMT)は、MQMエラータイプロジを用いた人的および自動翻訳品質評価のタスクを共有した。 計量は2つの柱の上にあり、エラーのタイプロジーとスコアリングモデルである。 スコアリングモデルは、アノテーションデータから品質スコアを算出し、エラータイプと重大度数を数値スコアに変換して、コンテンツが仕様を満たしているかどうかを判断する。 以前は、生のスコアリングモデルのみが発表されていた。 今年4月、MQM評議会はリニア・キャリブレーション・スコーリング・モデル(Linear Calibrated Scoring Model)を発表し、非線形・スコーリング・モデル(Non-Linear Scoring Model)も発表した。 本稿では,最新のMQM開発について詳述し,3つのサンプルサイズ範囲にわたる翻訳品質測定への普遍的アプローチを示す。 また、統計品質制御が、単一の文から始まる非常に小さなサンプルサイズに使用されるべき理由も説明している。

The year 2024 marks the 10th anniversary of the Multidimensional Quality Metrics (MQM) framework for analytic translation quality evaluation. The MQM error typology has been widely used by practitioners in the translation and localization industry and has served as the basis for many derivative projects. The annual Conference on Machine Translation (WMT) shared tasks on both human and automatic translation quality evaluations used the MQM error typology. The metric stands on two pillars: error typology and the scoring model. The scoring model calculates the quality score from annotation data, detailing how to convert error type and severity counts into numeric scores to determine if the content meets specifications. Previously, only the raw scoring model had been published. This April, the MQM Council published the Linear Calibrated Scoring Model, officially presented herein, along with the Non-Linear Scoring Model, which had not been published before. This paper details the latest MQM developments and presents a universal approach to translation quality measurement across three sample size ranges. It also explains why Statistical Quality Control should be used for very small sample sizes, starting from a single sentence.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-09
# FreeSplat: 室内シーンのフリービュー合成に向けた一般化可能な3Dガウススプレイティング

FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes ( http://arxiv.org/abs/2405.17958v2 )

ライセンス: Link先を確認
Yunsong Wang, Tianxin Huang, Hanlin Chen, Gim Hee Lee, (参考訳) 一般化能力を備えた3Dガウススプラッティングの活用は魅力的である。 しかし、既存の一般化可能な3次元ガウス散乱法は、背骨が重いため立体像間の狭い距離の補間に限られており、3次元ガウス像を正確に局所化し、広い視野で自由視点合成をサポートする能力が欠如している。 本稿では,長周期入力から自由視点合成まで幾何学的に一貫した3次元シーンを再構築可能なフレームワークFreeSplatを提案する。 次に,Pixel-wise Triplet Fusionを提案し,重なり合うビュー領域における3次元ガウスの冗長性を排除し,複数のビューで観察される特徴を集約する。 さらに,ビュー数に関係なく,広いビュー範囲にわたる堅牢なビュー合成を実現するための,シンプルで効果的なフリービュートレーニング戦略を提案する。 実験により,新鮮視色マップの品質と深度マップの精度を異なる入力ビューで比較した。 また,FreeSplatはより効率的に推論を行い,冗長なガウスを効果的に削減できることを示す。

Empowering 3D Gaussian Splatting with generalization ability is appealing. However, existing generalizable 3D Gaussian Splatting methods are largely confined to narrow-range interpolation between stereo images due to their heavy backbones, thus lacking the ability to accurately localize 3D Gaussian and support free-view synthesis across wide view range. In this paper, we present a novel framework FreeSplat that is capable of reconstructing geometrically consistent 3D scenes from long sequence input towards free-view synthesis.Specifically, we firstly introduce Low-cost Cross-View Aggregation achieved by constructing adaptive cost volumes among nearby views and aggregating features using a multi-scale structure. Subsequently, we present the Pixel-wise Triplet Fusion to eliminate redundancy of 3D Gaussians in overlapping view regions and to aggregate features observed across multiple views. Additionally, we propose a simple but effective free-view training strategy that ensures robust view synthesis across broader view range regardless of the number of views. Our empirical results demonstrate state-of-the-art novel view synthesis peformances in both novel view rendered color maps quality and depth maps accuracy across different numbers of input views. We also show that FreeSplat performs inference more efficiently and can effectively reduce redundant Gaussians, offering the possibility of feed-forward large scene reconstruction without depth priors.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-09
# RNA Flow:逆フォールディングフローマッチングによるRNA構造とシーケンス設計

RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching ( http://arxiv.org/abs/2405.18768v2 )

ライセンス: Link先を確認
Divya Nori, Wengong Jin, (参考訳) 多様な生物学的応用におけるRNA工学の重要性の高まりにより、構造に基づくRNA設計のためのAI手法の開発への関心が高まっている。 拡散モデルはタンパク質設計において優れているが、RNAに適応させることは、RNAのコンフォメーションの柔軟性と大きな構造予測モデルを微調整する計算コストにより、新しい課題をもたらす。 そこで本研究では,タンパク質条件のRNA配列構造設計のためのフローマッチングモデルであるRNAFlowを提案する。 そのデノナイジングネットワークはRNA逆フォールディングモデルと事前訓練されたRosettaFold2NAネットワークを統合し、RNA配列と構造を生成する。 構造記述過程における逆折り畳みの統合により,構造予測ネットワークの修正によるトレーニングの簡易化が可能となる。 我々は、動的RNAコンフォメーションをモデル化するために、推論されたコンフォメーションアンサンブルに条件付けすることで、逆折り畳みモデルをさらに強化する。 タンパク質条件のRNA構造と配列生成タスクの評価は、既存のRNA設計手法に対するRNAFlowの優位性を示している。

The growing significance of RNA engineering in diverse biological applications has spurred interest in developing AI methods for structure-based RNA design. While diffusion models have excelled in protein design, adapting them for RNA presents new challenges due to RNA's conformational flexibility and the computational cost of fine-tuning large structure prediction models. To this end, we propose RNAFlow, a flow matching model for protein-conditioned RNA sequence-structure design. Its denoising network integrates an RNA inverse folding model and a pre-trained RosettaFold2NA network for generation of RNA sequences and structures. The integration of inverse folding in the structure denoising process allows us to simplify training by fixing the structure prediction network. We further enhance the inverse folding model by conditioning it on inferred conformational ensembles to model dynamic RNA conformations. Evaluation on protein-conditioned RNA structure and sequence generation tasks demonstrates RNAFlow's advantage over existing RNA design methods.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# オフライン強化学習のためのダイナミクス拡散による長軸ロールアウト

Long-Horizon Rollout via Dynamics Diffusion for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.19189v2 )

ライセンス: Link先を確認
Hanye Zhao, Xiaoshen Han, Zhengbang Zhu, Minghuan Liu, Yong Yu, Weinan Zhang, (参考訳) 現実的な合成視覚データの生成において拡散モデル(DM)が大きな成功をおさめ、多くの研究者が意思決定と制御の可能性について研究している。 これらの研究の多くは、DMを軌道空間から直接サンプリングするために利用し、DMを力学モデルとポリシーの組み合わせと見なすことができる。 本研究では、完全にオフライン設定でDMのダイナミックスモデルとしての能力を分離し、学習ポリシーが軌道を展開できるようにする方法について検討する。 DMはデータセットからデータ分布を学習するが、本質的なポリシーはデータセットから引き起こされた行動ポリシーであり、結果として行動ポリシーと学習ポリシーのミスマッチが生じる。 我々はDyDiffと略してDynamics Diffusionを提案し、学習ポリシーからDMに情報を反復的に注入することができる。 DyDiffはポリシーの一貫性を維持しながら、長時間のロールアウトの精度を確保し、モデルフリーのアルゴリズムに容易にデプロイできる。 本研究では,DyDiff のオフライン強化学習における長期ロールアウトにおける DM の利点を理論的に示すとともに,ロールアウトデータセットが提供されるがインタラクションのためのオンライン環境が存在しない場合において,DyDiff の有効性を示す。 私たちのコードはhttps://github.com/FineArtz/DyDiff.orgにある。

With the great success of diffusion models (DMs) in generating realistic synthetic vision data, many researchers have investigated their potential in decision-making and control. Most of these works utilized DMs to sample directly from the trajectory space, where DMs can be viewed as a combination of dynamics models and policies. In this work, we explore how to decouple DMs' ability as dynamics models in fully offline settings, allowing the learning policy to roll out trajectories. As DMs learn the data distribution from the dataset, their intrinsic policy is actually the behavior policy induced from the dataset, which results in a mismatch between the behavior policy and the learning policy. We propose Dynamics Diffusion, short as DyDiff, which can inject information from the learning policy to DMs iteratively. DyDiff ensures long-horizon rollout accuracy while maintaining policy consistency and can be easily deployed on model-free algorithms. We provide theoretical analysis to show the advantage of DMs on long-horizon rollout over models and demonstrate the effectiveness of DyDiff in the context of offline reinforcement learning, where the rollout dataset is provided but no online environment for interaction. Our code is at https://github.com/FineArtz/DyDiff.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# マルチモーダル・ジェネレーションと編集のLLM:サーベイ

LLMs Meet Multimodal Generation and Editing: A Survey ( http://arxiv.org/abs/2405.19334v2 )

ライセンス: Link先を確認
Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen, (参考訳) 近年の大規模言語モデル(LLM)の発展に伴い,LLMとマルチモーダル学習の融合への関心が高まっている。 MLLM(Multimodal large language model)の以前の調査は、主にマルチモーダル理解に焦点を当てていた。 本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。 具体的には,これらの分野におけるマイルストーン研究の顕著な進歩を要約し,これらの研究をLLM法とCLIP/T5法に分類する。 次に, マルチモーダル生成におけるLCMの役割を概説し, これらの手法の背景にある重要な技術要素と, それらの研究で活用されるマルチモーダルデータセットを網羅的に検討する。 さらに,人-コンピュータインタラクションに既存の生成モデルを活用するツール拡張マルチモーダルエージェントについても検討する。 最後に、生成型AI安全分野の進歩について論じ、新興アプリケーションについて検討し、今後の展望について論じる。 我々の研究は、AIGC(Artificial Intelligence for Generative Content)と世界モデルの開発を進めることが期待されるマルチモーダル生成と処理の体系的で洞察に富んだ概要を提供する。 関連論文のキュレートされたリストはhttps://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generationにある。

With the recent advancement in large language models (LLMs), there is a growing interest in combining LLMs with multimodal learning. Previous surveys of multimodal large language models (MLLMs) mainly focus on multimodal understanding. This survey elaborates on multimodal generation and editing across various domains, comprising image, video, 3D, and audio. Specifically, we summarize the notable advancements with milestone works in these fields and categorize these studies into LLM-based and CLIP/T5-based methods. Then, we summarize the various roles of LLMs in multimodal generation and exhaustively investigate the critical technical components behind these methods and the multimodal datasets utilized in these studies. Additionally, we dig into tool-augmented multimodal agents that can leverage existing generative models for human-computer interaction. Lastly, we discuss the advancements in the generative AI safety field, investigate emerging applications, and discuss future prospects. Our work provides a systematic and insightful overview of multimodal generation and processing, which is expected to advance the development of Artificial Intelligence for Generative Content (AIGC) and world models. A curated list of all related papers can be found at https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# 組立およびブールプリミティブによる凸分解の改善

Improved Convex Decomposition with Ensembling and Boolean Primitives ( http://arxiv.org/abs/2405.19569v2 )

ライセンス: Link先を確認
Vaibhav Vavilala, Florian Kluger, Seemandhar Jain, Bodo Rosenhahn, David Forsyth, (参考訳) プリミティブ(幾何学的に単純な形状で構造を正確に抽象化する)の観点でシーンを記述することは、確立されたビジョン問題である。 異なるシーンは異なる数のプリミティブを必要とし、プリミティブは強く相互作用するが、提案されたソリューションは推論時に評価することができる。 最先端の手法は、一定数のプリミティブからなる開始点を予測するための学習された回帰手順と、幾何を洗練させ、冗長プリミティブを除去する降下法を含む。 手法は深度, 正常予測, シーンセグメンテーションの精度で評価される。 本稿では,精度の大幅な向上が期待できることを示す。 (a)少数の負の原始体を取り入れて b) さまざまなレグレッション手順をまとめる。 組み立ては予測される各スタートポイントを精錬し、損失を埋め合わせることでベストを選択する。 標準データセットにおける大規模な実験により、負のプリミティブが多数の画像で有用であることが確認され、我々の精巧な選択選択戦略がより優れていることが確認され、適合問題が非常に難しいことが確認された。

Describing a scene in terms of primitives -- geometrically simple shapes that offer a parsimonious but accurate abstraction of structure -- is an established vision problem. This is a good model of a difficult fitting problem: different scenes require different numbers of primitives and primitives interact strongly, but any proposed solution can be evaluated at inference time. The state of the art method involves a learned regression procedure to predict a start point consisting of a fixed number of primitives, followed by a descent method to refine the geometry and remove redundant primitives. Methods are evaluated by accuracy in depth and normal prediction and in scene segmentation. This paper shows that very significant improvements in accuracy can be obtained by (a) incorporating a small number of negative primitives and (b) ensembling over a number of different regression procedures. Ensembling is by refining each predicted start point, then choosing the best by fitting loss. Extensive experiments on a standard dataset confirm that negative primitives are useful in a large fraction of images, and that our refine-then-choose strategy outperforms choose-then-refine, confirming that the fitting problem is very difficult.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# GasTrace:Ethereumでサンドウィッチ攻撃の悪意のあるアカウントを検知

GasTrace: Detecting Sandwich Attack Malicious Accounts in Ethereum ( http://arxiv.org/abs/2405.19971v2 )

ライセンス: Link先を確認
Zekai Liu, Xiaoqi Li, Hongli Peng, Wenkai Li, (参考訳) Ethereumトランザクションデータのオープン性と透明性により、悪意のある攻撃を実行して、任意のエンティティによって悪用されやすくなる。 サンドイッチ攻撃はAMM(Automated Market Maker)メカニズムを操作し、前払いまたは後払いの取引を通じて市場価格を操作することで利益を得る。 サンドイッチ攻撃を検知し防止するために,カスケード分類フレームワークであるGasTraceを提案する。 GasTraceはさまざまなトランザクション機能を分析して悪意のあるアカウントを検出する。 最初の分類では、サポートベクトルマシン(SVM)とラジアル基底関数(RBF)カーネルを用いて、予測されるアカウントの確率を生成し、さらに詳細なトランザクションネットワークを構築する。 その後、行動特徴は第2分類におけるグラフ注意ネットワーク(GAT)技術によってキャプチャされる。 カスケード分類によって、GasTraceはサンドイッチ攻撃を分析して分類することができる。 実験の結果,GasTraceは96.73%,F1スコア95.71%の精度でサンドイッチ攻撃アカウントを識別できることがわかった。

The openness and transparency of Ethereum transaction data make it easy to be exploited by any entities, executing malicious attacks. The sandwich attack manipulates the Automated Market Maker (AMM) mechanism, profiting from manipulating the market price through front or after-running transactions. To identify and prevent sandwich attacks, we propose a cascade classification framework GasTrace. GasTrace analyzes various transaction features to detect malicious accounts, notably through the analysis and modeling of Gas features. In the initial classification, we utilize the Support Vector Machine (SVM) with the Radial Basis Function (RBF) kernel to generate the predicted probabilities of accounts, further constructing a detailed transaction network. Subsequently, the behavior features are captured by the Graph Attention Network (GAT) technique in the second classification. Through cascade classification, GasTrace can analyze and classify the sandwich attacks. Our experimental results demonstrate that GasTrace achieves a remarkable detection and generation capability, performing an accuracy of 96.73% and an F1 score of 95.71% for identifying sandwich attack accounts.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# 多言語テキストスタイル変換:インド語のデータセットとモデル

Multilingual Text Style Transfer: Datasets & Models for Indian Languages ( http://arxiv.org/abs/2405.20805v2 )

ライセンス: Link先を確認
Sourabrata Mukherjee, Atul Kr. Ojha, Akanksha Bansal, Deepak Alok, John P. McCrae, Ondřej Dušek, (参考訳) テキストスタイル転送(TST)は、中核コンテンツを保持しながら、テキストの言語スタイルを変更することを含む。 本稿では,ヒンディー語,マガヒ語,マラヤラム語,マラヤラム語,マラタイ語,パンジャービ語,オディア語,テルグ語,ウルドゥー語にまたがるTSTサブタスク(Mukherjee et al ,2022a)について述べる。 これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。 次に,Llama2およびGPT-3.5大言語モデル(LLM)を含む並列,非並列,クロスランガル,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。 実験では,TSTにおける並列データの重要性を強調し,非並列手法におけるMasked Style Filling(MSF)アプローチ(Mukherjee et al , 2023)の有効性を実証した。 さらに、言語横断学習と共同学習は、特定の言語やタスク要求に合わせて最適なモデルを選択するための洞察を提供する。 我々の知る限りでは、この研究はTSTタスクを様々な言語にまたがる感情伝達として包括的に調査した初めての例である。

Text style transfer (TST) involves altering the linguistic style of a text while preserving its core content. This paper focuses on sentiment transfer, a vital TST subtask (Mukherjee et al., 2022a), across a spectrum of Indian languages: Hindi, Magahi, Malayalam, Marathi, Punjabi, Odia, Telugu, and Urdu, expanding upon previous work on English-Bangla sentiment transfer (Mukherjee et al., 2023). We introduce dedicated datasets of 1,000 positive and 1,000 negative style-parallel sentences for each of these eight languages. We then evaluate the performance of various benchmark models categorized into parallel, non-parallel, cross-lingual, and shared learning approaches, including the Llama2 and GPT-3.5 large language models (LLMs). Our experiments highlight the significance of parallel data in TST and demonstrate the effectiveness of the Masked Style Filling (MSF) approach (Mukherjee et al., 2023) in non-parallel techniques. Moreover, cross-lingual and joint multilingual learning methods show promise, offering insights into selecting optimal models tailored to the specific language and task requirements. To the best of our knowledge, this work represents the first comprehensive exploration of the TST task as sentiment transfer across a diverse set of languages.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# Few-shot Semantic Segmentationのための不確実性に基づく特徴拡張を用いたメモリ誘導ネットワーク

Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2406.00545v2 )

ライセンス: Link先を確認
Xinyue Chen, Miaojing Shi, (参考訳) 教師付きセマンティックセグメンテーション手法の性能は、大規模トレーニングデータの可用性に大きく依存している。 この依存を緩和するために、少数ショットセマンティックセマンティックセマンティクス(FSS)を導入し、ベースクラスでトレーニングされたモデルを、少ないデータで新しいクラスのセマンティクスに十分なデータで活用する。 FSS法は, 基本クラスと新規クラスの分布シフトにより, 新規クラスにおけるモデル一般化の課題に直面している。 そこで本研究では,学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。 これらのメモリベクトルは、トレーニング中も推論中もクエリ機能を再エンコードしながら、ベースクラスから要素オブジェクトパターンを学習し、ベースクラスと新規クラスの分散アライメントを改善する。 さらに,画像間のクラス内分散による性能劣化に対処するために,モデルの堅牢性向上のためのトレーニング中に多様なクエリ特徴を生成する不確実性ベースの特徴拡張(UFA)モジュールを導入する。 我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$^i$とCOCO-20$^i$データセットを用いて、最先端技術よりも優れた性能を示す実験結果を得た。

The performance of supervised semantic segmentation methods highly relies on the availability of large-scale training data. To alleviate this dependence, few-shot semantic segmentation (FSS) is introduced to leverage the model trained on base classes with sufficient data into the segmentation of novel classes with few data. FSS methods face the challenge of model generalization on novel classes due to the distribution shift between base and novel classes. To overcome this issue, we propose a class-shared memory (CSM) module consisting of a set of learnable memory vectors. These memory vectors learn elemental object patterns from base classes during training whilst re-encoding query features during both training and inference, thereby improving the distribution alignment between base and novel classes. Furthermore, to cope with the performance degradation resulting from the intra-class variance across images, we introduce an uncertainty-based feature augmentation (UFA) module to produce diverse query features during training for improving the model's robustness. We integrate CSM and UFA into representative FSS works, with experimental results on the widely-used PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrating the superior performance of ours over state of the art.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-09
# 言語モデルを用いた音楽生成における独立促進的損失

An Independence-promoting Loss for Music Generation with Language Models ( http://arxiv.org/abs/2406.02315v2 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Simon Rouard, Jade Copet, Yossi Adi, Alexandre Défossez, (参考訳) 言語モデリングを用いた音楽生成スキームは音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。 マルチステージ量子化器はしばしばこれらのトークンを生成するために使用されるため、トークン予測に使用される復号戦略は、複数のコードブックを考慮に入れなければならない。 共同分布をモデル化するには、自動回帰ステップの回数が高価に増加し、符号ブックが相互に独立でない限り、限界値の積が不正確なモデルになる。 本研究では,音楽生成のための言語モデルにおいて,自動エンコーダをトークン化するための独立性向上の損失を導入する。 提案した損失は、再現可能なカーネルヒルベルト空間に適用された最大平均誤差原理に基づく相互情報のプロキシである。 我々の基準は実装と訓練が簡単であり、他のマルチストリームコーデックにも一般化可能である。 自動符号化において,コードブック間の統計的依存を低減できることを示す。 これにより、限界分布の積をモデル化しながら、共同分布モデルよりもはるかに高速な音声を生成する際に、生成された音楽品質が向上する。

Music generation schemes using language modeling rely on a vocabulary of audio tokens, generally provided as codes in a discrete latent space learnt by an auto-encoder. Multi-stage quantizers are often employed to produce these tokens, therefore the decoding strategy used for token prediction must be adapted to account for multiple codebooks: either it should model the joint distribution over all codebooks, or fit the product of the codebook marginal distributions. Modelling the joint distribution requires a costly increase in the number of auto-regressive steps, while fitting the product of the marginals yields an inexact model unless the codebooks are mutually independent. In this work, we introduce an independence-promoting loss to regularize the auto-encoder used as the tokenizer in language models for music generation. The proposed loss is a proxy for mutual information based on the maximum mean discrepancy principle, applied in reproducible kernel Hilbert spaces. Our criterion is simple to implement and train, and it is generalizable to other multi-stream codecs. We show that it reduces the statistical dependence between codebooks during auto-encoding. This leads to an increase in the generated music quality when modelling the product of the marginal distributions, while generating audio much faster than the joint distribution model.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-09
# 氷チャートに基づく海氷分類のための氷損失を用いた部分ラベル学習

Partial Label Learning with Focal Loss for Sea Ice Classification Based on Ice Charts ( http://arxiv.org/abs/2406.03645v2 )

ライセンス: Link先を確認
Behzad Vahedi, Benjamin Lucas, Farnoush Banaei-Kashani, Andrew P. Barrett, Walter N. Meier, Siri Jodha Khalsa, Morteza Karimzadeh, (参考訳) 北極と地球の気候にとって重要な海氷は、一貫した監視と高解像度のマッピングを必要とする。 しかし、手動の海氷マッピングは時間がかかり、主観的であり、自動化された深層学習に基づく分類アプローチの必要性を喚起する。 しかし、これらのアルゴリズムの訓練は、訓練データとして一般的に使用される専門家による氷のチャートは、単一の氷のタイプではなく、複数の氷のタイプでポリゴンのマッピングを行うため、困難である。 さらに、これらのチャートにおける様々な氷種の分布は、しばしば不均衡であり、支配階級に対する性能バイアスをもたらす。 本稿では,複数のラベルとクラス不均衡に対処するための信頼度を明示した部分的ラベル学習タスクとして定式化することで,海氷分類のトレーニングを行う新しいGeoAI手法を提案する。 我々は、ポリゴンレベルのラベルを候補部分ラベルとして扱い、対応する氷濃度を各候補ラベルの信頼性スコアとして割り当て、焦点損失と統合して畳み込みニューラルネットワーク(CNN)を訓練する。 提案手法により, セチネル-1二重偏極SAR画像の海氷分類性能の向上が図られ, 分類精度が87%から92%に向上し, 平均F-1スコアが90%から93%に向上した。 また6つの海氷クラスのうち4つのF-1スコアも改善されている。

Sea ice, crucial to the Arctic and Earth's climate, requires consistent monitoring and high-resolution mapping. Manual sea ice mapping, however, is time-consuming and subjective, prompting the need for automated deep learning-based classification approaches. However, training these algorithms is challenging because expert-generated ice charts, commonly used as training data, do not map single ice types but instead map polygons with multiple ice types. Moreover, the distribution of various ice types in these charts is frequently imbalanced, resulting in a performance bias towards the dominant class. In this paper, we present a novel GeoAI approach to training sea ice classification by formalizing it as a partial label learning task with explicit confidence scores to address multiple labels and class imbalance. We treat the polygon-level labels as candidate partial labels, assign the corresponding ice concentrations as confidence scores to each candidate label, and integrate them with focal loss to train a Convolutional Neural Network (CNN). Our proposed approach leads to enhanced performance for sea ice classification in Sentinel-1 dual-polarized SAR images, improving classification accuracy (from 87% to 92%) and weighted average F-1 score (from 90% to 93%) compared to the conventional training approach of using one-hot encoded labels and Categorical Cross-Entropy loss. It also improves the F-1 score in 4 out of the 6 sea ice classes.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-09
# 61A-Bot: CS1のAI宿題支援は高速で安価ですが、役に立ちますか?

61A-Bot: AI homework assistance in CS1 is fast and cheap -- but is it helpful? ( http://arxiv.org/abs/2406.05600v1 )

ライセンス: Link先を確認
J. D. Zamfirescu-Pereira, Laryn Qi, Björn Hartmann, John DeNero, Narges Norouzi, (参考訳) LLM用のチャットボットインタフェースを使えば、学生はすぐに対話的で宿題を手伝うことができるが、思慮深く設計されたボットでさえ、すべての教育的目標を達成できないかもしれない。 本稿では,大規模CS1コースの学生を対象に,GPT-4ベースの対話型宿題アシスタント「61A-Bot」の開発と展開について報告する。 私たちのアシスタントは、人気のあるコードエディタ内の"Get Help"ボタンとコマンドラインオートグレーダ内の"get feedback"機能を通じて、ワンショット、コンテキストフィードバックを提供します。 これらのトリガーは、生徒のコードを独自のプロンプトでラップし、教育的な目標をサポートし、ソリューションを直接提供しないようにします。 開発プロセスと展開について検討し,学生のフィードバックや宿題の完了に要する時間などを通じて,ボットが学生に与える影響を分析した。 61A-Botへのアクセスは、宿題の完了時間とその後のコースのパフォーマンスにどのように影響しますか? コースフォーラムにおける宿題関連質問率の削減に加えて,宿題完了時間を大幅に短縮した。 これらは50~80年生の生徒にとって最も顕著であり、30分以上、標準偏差は4回以上も前学期よりも速い。 しかしながら、これらのエフェクトがBotが利用できない割り当てコンテキストに転送されるかどうかは不明だ。いくつかのコンテキストではスピードアップが観察され、他のコンテキストでは変更されない。 我々はこれらの効果を解き放つようになったが、さらなる研究が必要である。

Chatbot interfaces for LLMs enable students to get immediate, interactive help on homework assignments, but even a thoughtfully-designed bot may not serve all pedagogical goals. In this paper, we report on the development and deployment of a GPT-4-based interactive homework assistant ("61A-Bot") for students in a large CS1 course; over 2000 students made over 100,000 requests of our bot across two semesters. Our assistant offers one-shot, contextual feedback, through both a "Get Help" button within a popular code editor, as well as a "get feedback" feature within our command-line autograder. These triggers wrap student code in a custom prompt that supports our pedagogical goals and avoids providing solutions directly. We discuss our development process and deployment, then analyze possible impacts of our Bot on students, primarily through student feedback and how long it takes students to complete homework problems. We ask: how does access to 61A-Bot impact homework completion time and subsequent course performance? In addition to reductions in homework-related question rates in our course forum, we find substantial reductions in homework completion time. These are most pronounced for students in the 50th-80th percentile, with reductions of over 30 minutes, over 4 standard deviations faster than the mean in prior semesters. However, it is not clear that these effects transfer to assignment contexts where the Bot is not available: we observe speedups in some contexts, no change in others, and some assignments later in the semester even show a slowdown instead. Though we have begun to disentangle these effects, further research is needed.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# Prompt Modifiers Control Bias? : テキスト・画像生成モデルの比較分析

Can Prompt Modifiers Control Bias? A Comparative Analysis of Text-to-Image Generative Models ( http://arxiv.org/abs/2406.05602v1 )

ライセンス: Link先を確認
Philip Wootaek Shin, Jihyun Janice Ahn, Wenpeng Yin, Jack Sampson, Vijaykrishnan Narayanan, (参考訳) 多くの生成モデルが社会的バイアスを継承し増幅していることが示されている。 現在、これらのバイアスを制御/調整するための統一/体系的な標準は存在しない。 本研究では,主要なテキスト・画像モデルであるStable Diffusion, DALL-E 3, Adobe Fireflyにおける社会的バイアスの存在と操作について検討した。 基本プロンプトと修飾子とそれらのシークエンシングを組み合わせた包括的な分析を通じて、これらのAI技術が、性別、人種、地理、地域/文化の偏見をエンコードする方法を明らかにする。 我々の発見は、バイアス制御におけるエンジニアリングの課題と可能性を明らかにし、多様性と傾きを促進する倫理的AI開発の重要性を強調した。 この研究は、テキストから画像生成モデルにおけるバイアスの微妙なダイナミクスを明らかにするだけでなく、バイアスを制御するための新しい研究フレームワークを提供することによって、AI倫理を前進させる。 我々のコントリビューションパンニング比較分析、プロンプト修飾剤の戦略的利用、プロンプトシークエンシング効果の探索、バイアス感受性分類法の導入は、AIモデルが固有のバイアスに対応するために要求にどのように反応するかを評価するための共通の指標と標準分析の基盤となる。

It has been shown that many generative models inherit and amplify societal biases. To date, there is no uniform/systematic agreed standard to control/adjust for these biases. This study examines the presence and manipulation of societal biases in leading text-to-image models: Stable Diffusion, DALL-E 3, and Adobe Firefly. Through a comprehensive analysis combining base prompts with modifiers and their sequencing, we uncover the nuanced ways these AI technologies encode biases across gender, race, geography, and region/culture. Our findings reveal the challenges and potential of prompt engineering in controlling biases, highlighting the critical need for ethical AI development promoting diversity and inclusivity. This work advances AI ethics by not only revealing the nuanced dynamics of bias in text-to-image generation models but also by offering a novel framework for future research in controlling bias. Our contributions-panning comparative analyses, the strategic use of prompt modifiers, the exploration of prompt sequencing effects, and the introduction of a bias sensitivity taxonomy-lay the groundwork for the development of common metrics and standard analyses for evaluating whether and how future AI models exhibit and respond to requests to adjust for inherent biases.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# 知識コンポーネントに基づくAIアシスタント評価手法

A Knowledge-Component-Based Methodology for Evaluating AI Assistants ( http://arxiv.org/abs/2406.05603v1 )

ライセンス: Link先を確認
Laryn Qi, J. D. Zamfirescu-Pereira, Taehan Kim, Björn Hartmann, John DeNero, Narges Norouzi, (参考訳) 大規模言語モデルである GPT-4 を用いたCS1 プログラム代入のためのヒント自動生成手法の評価を行った。 本システムは,学生が短時間のプログラミング演習において,誤った解法をいかに改善できるか,という自然言語指導を提供する。 学生がテストケースに失敗するたびにヒントを要求できる。 RQ1: ヒントは学生のコード改善に役立つか? RQ2: ヒントは学生のコードの問題をどの程度効果的に捉えていますか? RQ3: 学生が解決する問題はヒントで解決する問題と同じでしょうか? これらの研究課題に定量的に対処するために、我々は一連のきめ細かい知識成分を特定し、それぞれのエクササイズ、不正解、および生成されたヒントにどの要素を適用するかを決定しました。 2つの大きなCS1オファリングのデータを比較すると、ヒントへのアクセスは、学生がコードでより迅速に問題に対処するのに役立つこと、ヒントは、学生のコードの最も押し寄せるエラーを一貫してキャプチャできること、そして、単一のバグではなく、一度にいくつかの問題に対処するヒントが、直接の生徒の進歩につながる可能性が高いこと、が分かりました。

We evaluate an automatic hint generator for CS1 programming assignments powered by GPT-4, a large language model. This system provides natural language guidance about how students can improve their incorrect solutions to short programming exercises. A hint can be requested each time a student fails a test case. Our evaluation addresses three Research Questions: RQ1: Do the hints help students improve their code? RQ2: How effectively do the hints capture problems in student code? RQ3: Are the issues that students resolve the same as the issues addressed in the hints? To address these research questions quantitatively, we identified a set of fine-grained knowledge components and determined which ones apply to each exercise, incorrect solution, and generated hint. Comparing data from two large CS1 offerings, we found that access to the hints helps students to address problems with their code more quickly, that hints are able to consistently capture the most pressing errors in students' code, and that hints that address a few issues at once rather than a single bug are more likely to lead to direct student progress.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# 眼の構造変化を用いた緑内障進展予測のための深層学習

Deep Learning to Predict Glaucoma Progression using Structural Changes in the Eye ( http://arxiv.org/abs/2406.05605v1 )

ライセンス: Link先を確認
Sayan Mandal, (参考訳) 緑内障は視神経症を特徴とする慢性眼疾患であり、不可逆的な視力喪失を引き起こす。 段階的に進行し、しばしば未診断のまま進行する。 早期発見は萎縮をモニターし、さらなる視力障害を防ぐ治療戦略を開発するために重要である。 データ中心の手法により、コンピュータ支援アルゴリズムによる緑内障の正確な診断が可能になった。 本研究では,深層学習モデルを用いて複雑な疾患の特徴と進行基準を同定し,緑内障の微妙な変化を検出する。 緑内障の進行過程における構造と機能の関係について検討し,構造眼の劣化から機能障害を予測する。 我々は,光学コヒーレンストモグラフィー(OCT)スキャンを用いた深層学習技術を含む統計的および機械学習手法を分析し,精度の高い進行予測を行う。 年齢変動,データ不均衡,ノイズラベルといった課題に対処し,新しい半教師付き時系列アルゴリズムを開発する。 1. 弱スーパービジョンの時系列学習: OCTスキャンから時空間的特徴をエンコードするCNN-LSTMモデルを作成する。 このアプローチは、金標準ラベルをバイパスする堅牢な擬似プログレス基準を確立するために、年齢関連の進歩と正の未ラベルデータを使用する。 2. 半教師付き時系列学習: 比較学習方式でガイドプログレクション分析(GPA)のラベルを用いて, CNN-LSTMアーキテクチャは, 潜在的に誤ラベル付きデータから学習し, 予測精度を向上させる。 本手法は,従来の技術および最先端技術より優れている。

Glaucoma is a chronic eye disease characterized by optic neuropathy, leading to irreversible vision loss. It progresses gradually, often remaining undiagnosed until advanced stages. Early detection is crucial to monitor atrophy and develop treatment strategies to prevent further vision impairment. Data-centric methods have enabled computer-aided algorithms for precise glaucoma diagnosis. In this study, we use deep learning models to identify complex disease traits and progression criteria, detecting subtle changes indicative of glaucoma. We explore the structure-function relationship in glaucoma progression and predict functional impairment from structural eye deterioration. We analyze statistical and machine learning methods, including deep learning techniques with optical coherence tomography (OCT) scans for accurate progression prediction. Addressing challenges like age variability, data imbalances, and noisy labels, we develop novel semi-supervised time-series algorithms: 1. Weakly-Supervised Time-Series Learning: We create a CNN-LSTM model to encode spatiotemporal features from OCT scans. This approach uses age-related progression and positive-unlabeled data to establish robust pseudo-progression criteria, bypassing gold-standard labels. 2. Semi-Supervised Time-Series Learning: Using labels from Guided Progression Analysis (GPA) in a contrastive learning scheme, the CNN-LSTM architecture learns from potentially mislabeled data to improve prediction accuracy. Our methods outperform conventional and state-of-the-art techniques.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# GrowOver: LLMはどのようにして現実世界の知識を成長させるのか?

GrowOVER: How Can LLMs Adapt to Growing Real-World Knowledge? ( http://arxiv.org/abs/2406.05606v1 )

ライセンス: Link先を確認
Dayoon Ko, Jinyoung Kim, Hahyeon Choi, Gunhee Kim, (参考訳) 現実の世界では、知識は常に進化しており、既存の知識ベースのデータセットを時代遅れにすることができる。 この信頼性の欠如は、知識集約的なタスクの正確性と関連性の両方を保証するために、継続的更新が不可欠であることを強調します。 これを解決するために、我々はGrowOVER-QAとGrowOVER-Dialogue、動的オープンドメインQAと対話ベンチマークを提案する。 本研究は,検索強化言語モデル(RaLM)が,まだトレーニングされていない知識や最近更新されていない知識に悩まされていることを示唆している。 そこで我々は,新たな検索対話型言語モデルフレームワークを導入する。 我々の徹底的な実験は、トレーニング不要のフレームワークが既存の手法を大幅に改善し、継続的に訓練された言語モデルに相容れないか、あるいは超えていることを示している。

In the real world, knowledge is constantly evolving, which can render existing knowledge-based datasets outdated. This unreliability highlights the critical need for continuous updates to ensure both accuracy and relevance in knowledge-intensive tasks. To address this, we propose GrowOVER-QA and GrowOVER-Dialogue, dynamic open-domain QA and dialogue benchmarks that undergo a continuous cycle of updates, keeping pace with the rapid evolution of knowledge. Our research indicates that retrieval-augmented language models (RaLMs) struggle with knowledge that has not been trained on or recently updated. Consequently, we introduce a novel retrieval-interactive language model framework, where the language model evaluates and reflects on its answers for further re-retrieval. Our exhaustive experiments demonstrate that our training-free framework significantly improves upon existing methods, performing comparably to or even surpassing continuously trained language models.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# 単一強磁性ジグザグエッジを有するジャナスグラフェンナノリボン

Janus graphene nanoribbons with a single ferromagnetic zigzag edge ( http://arxiv.org/abs/2406.05608v1 )

ライセンス: Link先を確認
Shaotang Song, Yu Teng, Weichen Tang, Zhen Xu, Yuanyuan He, Jiawei Ruan, Takahiro Kojima, Wenping Hu, Franz J Giessibl, Hiroshi Sakaguchi, Steven G Louie, Jiong Lu, (参考訳) ジグザグ縁グラフェンナノリボン(ZGNR)中のπ電子のトポロジー設計は、豊富な磁気量子現象とエキゾチック量子相をもたらす。 対称ZGNRは一般的に反強磁性結合のスピン秩序エッジ状態を示す。 ZGNRにおけるクロスエッジ磁気カップリングの排除は、新しい種類の強磁性量子スピン鎖の実現を可能にし、量子スピン物理学の探索と1次元極限における複数の量子ビットの絡み合いを可能にするだけでなく、GNRベースの量子エレクトロニクスの究極的なスケーリングのために重要な炭素ベースの強磁性輸送チャネルを確立する。 しかし、そのようなGNRの設計には、構造対称性とスピン対称性の同時破壊や、反応性ジグザグエッジの非対称化のためのエレガントな前駆体の設計など、困難な課題を克服する必要がある。 本稿では、2つの異なるエッジ構成を持つJanus GNRの形で、そのような強磁性GNRを設計および製造するための一般的なアプローチについて報告する。 リーブの定理と位相分類理論により、2つのJGNRを非対称にベンゼンモチーフの位相的欠陥配列を1つのジグザグエッジに導入し、反対のジグザグエッジを一定に保ちながら考案した。 これは構造対称性を破り、各単位セル内で亜格子不均衡を生じさせ、スピン対称性の破れを開始する。 3つのZ字型前駆体は、1つの親ZGNRと2つのJGNRを、欠陥エッジにおける磁気エッジ状態の完全クエンチに対して、欠陥アレイの最適格子間隔で作製するように設計されている。 走査型プローブ顕微鏡・分光法および第1原理密度汎関数理論によるキャラクタリゼーションにより、原始ジグザグ縁に沿って非局在化された強磁性基底状態を持つヤヌスGNRの創成に成功したことが確認された。

Topological design of pi-electrons in zigzag-edged graphene nanoribbons (ZGNRs) leads to a wealth of magnetic quantum phenomena and exotic quantum phases. Symmetric ZGNRs typically exhibit antiferromagnetically coupled spin-ordered edge states. Eliminating cross-edge magnetic coupling in ZGNRs not only enables the realization of a new class of ferromagnetic quantum spin chains, enabling the exploration of quantum spin physics and entanglement of multiple qubits in the 1D limit, but also establishes a long-sought carbon-based ferromagnetic transport channel, pivotal for ultimate scaling of GNR-based quantum electronics. However, designing such GNRs entails overcoming daunting challenges, including simultaneous breaking of structural and spin symmetries, and designing elegant precursors for asymmetric fabrication of reactive zigzag edges. Here, we report a general approach for designing and fabricating such ferromagnetic GNRs in the form of Janus GNRs with two distinct edge configurations. Guided by Lieb's theorem and topological classification theory, we devised two JGNRs by asymmetrically introduced a topological defect array of benzene motifs to one zigzag edge, while keeping the opposing zigzag edge unchanged. This breaks structural symmetry and creates a sublattice imbalance within each unit cell, initiating a spin symmetry breaking. Three Z-shape precursors are designed to fabricate one parent ZGNR and two JGNRs with an optimal lattice spacing of the defect array for a complete quench of the magnetic edge states at the defective edge. Characterization via scanning probe microscopy/spectroscopy and first-principles density functional theory confirms the successful fabrication of Janus GNRs with ferromagnetic ground state delocalised along the pristine zigzag edge.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# どのバックボーンを使うべきか:コンピュータビジョンのためのリソース効率の良いドメイン特化比較

Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision ( http://arxiv.org/abs/2406.05612v1 )

ライセンス: Link先を確認
Pranav Jeevan, Amit Sethi, (参考訳) 現代のコンピュータビジョンアプリケーション、特に画像分類において、ImageNetのような大規模なデータセットで事前訓練されたアーキテクチャバックボーンは、一般的に特徴抽出器として使用される。 これらの事前訓練された畳み込みニューラルネットワーク(CNN)が広く使用されているにもかかわらず、さまざまなドメインやデータセットサイズにわたる、リソース効率のよいバックボーンのパフォーマンスを理解するには、依然としてギャップがある。 本研究は,自然画像,医用画像,銀河画像,リモートセンシング画像など,さまざまなデータセットに対して一貫したトレーニング設定の下で,複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。 この包括的な分析は、機械学習の実践者が特定の問題に最も適したバックボーンを選択するのを助けることを目的としている。 注目に基づくアーキテクチャが人気を博しているが、CNNに比べて低いデータ微調整作業では性能が低い傾向が見られた。 また、ConvNeXt、RegNet、EfficientNetなどのCNNアーキテクチャは、さまざまなドメインセットにおいて、他のアーキテクチャと比較して、一貫したパフォーマンスを保っています。 本研究は,様々なバックボーンの性能トレードオフと有効性に関する実用的な知見を提供し,コンピュータビジョン領域の幅広い領域におけるモデル選択における情報決定を容易にする。 私たちのコードはここにある。 https://github.com/pranavphoenix/Backbones

In contemporary computer vision applications, particularly image classification, architectural backbones pre-trained on large datasets like ImageNet are commonly employed as feature extractors. Despite the widespread use of these pre-trained convolutional neural networks (CNNs), there remains a gap in understanding the performance of various resource-efficient backbones across diverse domains and dataset sizes. Our study systematically evaluates multiple lightweight, pre-trained CNN backbones under consistent training settings across a variety of datasets, including natural images, medical images, galaxy images, and remote sensing images. This comprehensive analysis aims to aid machine learning practitioners in selecting the most suitable backbone for their specific problem, especially in scenarios involving small datasets where fine-tuning a pre-trained network is crucial. Even though attention-based architectures are gaining popularity, we observed that they tend to perform poorly under low data finetuning tasks compared to CNNs. We also observed that some CNN architectures such as ConvNeXt, RegNet and EfficientNet performs well compared to others on a diverse set of domains consistently. Our findings provide actionable insights into the performance trade-offs and effectiveness of different backbones, facilitating informed decision-making in model selection for a broad spectrum of computer vision domains. Our code is available here: https://github.com/pranavphoenix/Backbones
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# ビデオ言語理解: モデルアーキテクチャ、モデルトレーニング、データの観点からの調査

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives ( http://arxiv.org/abs/2406.05615v1 )

ライセンス: Link先を確認
Thong Nguyen, Yi Bin, Junbin Xiao, Leigang Qu, Yicong Li, Jay Zhangjie Wu, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan, (参考訳) 人間は環境を理解するために複数の感覚を使う。 視覚と言語は、私たちの思考を簡単に伝え、周りの世界を知覚できるため、最も重要な感覚の2つです。 ビデオ言語ペアは、我々の言語媒体と視覚環境の両方を時間的ダイナミクスで模倣できるので、ヒューマンライクな感覚でビデオ言語理解システムを構築することには、多くの関心が寄せられている。 本調査では,これらのシステムの主要な課題を概観し,関連する課題について紹介する。 課題に基づき、モデルアーキテクチャ、モデルトレーニング、データの観点からそれらの手法を要約する。 また,本手法の性能比較を行い,今後の研究の方向性について論じる。

Humans use multiple senses to comprehend the environment. Vision and language are two of the most vital senses since they allow us to easily communicate our thoughts and perceive the world around us. There has been a lot of interest in creating video-language understanding systems with human-like senses since a video-language pair can mimic both our linguistic medium and visual environment with temporal dynamics. In this survey, we review the key tasks of these systems and highlight the associated challenges. Based on the challenges, we summarize their methods from model architecture, model training, and data perspectives. We also conduct performance comparison among the methods, and discuss promising directions for future research.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# 領域一般化のための領域非依存条件不変予測

Domain Agnostic Conditional Invariant Predictions for Domain Generalization ( http://arxiv.org/abs/2406.05616v1 )

ライセンス: Link先を確認
Zongbin Wang, Bin Pan, Zhenwei Shi, (参考訳) ドメインの一般化は、複数のソースドメインから学習することで、目に見えないターゲットドメインでうまく機能するモデルを開発することを目的としている。 しかし、最近提案されたドメイン一般化モデルは通常、多くの実世界のシナリオでは利用できないようなドメインラベルに依存している。 この課題に対処するために,識別リスク最小化(DRM)理論とそれに対応するアルゴリズムを提案する。 DRM理論では、ソース領域全体とそのサブセット間の予測分布の相違が、不変な特徴の獲得に寄与することを証明する。 DRM理論を適用するために,ベイズ推論とカテゴリー識別リスク(CDR)と呼ばれる新たなペナルティからなるアルゴリズムを開発した。 ベイズ推定では、モデルの出力を確率分布に変換し、理論的な仮定と整合する。 我々は、モデル全体の予測分布を近似するためにスライディング更新アプローチを採用し、CDRペナルティを得られるようにした。 また,これらの成分が不変特徴の発見に有効であることを示す。 我々は,複数の実世界のデータセット上での領域一般化手法に対するアルゴリズムの評価を行い,その理論を実証的に支援する。

Domain generalization aims to develop a model that can perform well on unseen target domains by learning from multiple source domains. However, recent-proposed domain generalization models usually rely on domain labels, which may not be available in many real-world scenarios. To address this challenge, we propose a Discriminant Risk Minimization (DRM) theory and the corresponding algorithm to capture the invariant features without domain labels. In DRM theory, we prove that reducing the discrepancy of prediction distribution between overall source domain and any subset of it can contribute to obtaining invariant features. To apply the DRM theory, we develop an algorithm which is composed of Bayesian inference and a new penalty termed as Categorical Discriminant Risk (CDR). In Bayesian inference, we transform the output of the model into a probability distribution to align with our theoretical assumptions. We adopt sliding update approach to approximate the overall prediction distribution of the model, which enables us to obtain CDR penalty. We also indicate the effectiveness of these components in finding invariant features. We evaluate our algorithm against various domain generalization methods on multiple real-world datasets, providing empirical support for our theory.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# 変分量子回路デカップリング

Variational Quantum Circuit Decoupling ( http://arxiv.org/abs/2406.05619v1 )

ライセンス: Link先を確認
Ximing Wang, Chengran Yang, Mile Gu, (参考訳) システムを独立して進化するコンポーネントに分離するには、一見複雑なシステムを単純化する長い歴史がある。 これにより、基礎となるダイナミクスや因果構造をよりよく理解し、コンピュータ上でそのようなプロセスをシミュレートするより効率的な手段を提供することができる。 ここでは、ユニタリ量子力学を分離する変分分解アルゴリズムの概要を述べる。これにより、与えられた$n$-qubitのユニタリゲートを独立に進化する複数のサブコンポーネントに分解することができる。 本手法は量子回路合成に応用し、ターゲットユニタリダイナミクスの量子回路実装を発見する。 数値解析により,従来の変分回路が到達できない忠実度に一般の2ドルおよび4ドルキュービットゲートを合成できることが示唆された。

Decoupling systems into independently evolving components has a long history of simplifying seemingly complex systems. They enable a better understanding of the underlying dynamics and causal structures while providing more efficient means to simulate such processes on a computer. Here we outline a variational decoupling algorithm for decoupling unitary quantum dynamics -- allowing us to decompose a given $n$-qubit unitary gate into multiple independently evolving sub-components. We apply this approach to quantum circuit synthesis - the task of discovering quantum circuit implementations of target unitary dynamics. Our numerical studies illustrate significant benefits, showing that variational decoupling enables us to synthesize general $2$ and $4$-qubit gates to fidelity that conventional variational circuits cannot reach.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# Beat: テキスト検索のための双方向ワン・ツー・マン・エンベディング・アライメント

Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval ( http://arxiv.org/abs/2406.05620v1 )

ライセンス: Link先を確認
Yiwei Ma, Xiaoshuai Sun, Jiayi Ji, Guannan Jiang, Weilin Zhuang, Rongrong Ji, (参考訳) テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。 視覚と言語の間のギャップを埋めようというかなりの努力にもかかわらず、これらのモダリティの間には大きな違いがある。 従来の手法では、モーダルシェード空間におけるテキストと画像サンプルの整列を試みたが、モダリティの両方の可動性やTPRデータセットにおける画像-テキスト対の1対1の関係を考慮できないため、最適化方向の不確かさに直面した。 この問題に対処するため、各サンプルに対して明確な最適化方向を提供する効果的な双方向一対多埋め込みパラダイムを提案し、最適化問題を緩和する。 さらに、この埋め込み方式は、トレーニング可能なパラメータを導入することなく、各サンプルに対して複数の特徴を生成するため、複数の正のサンプルと整合しやすくなる。 このパラダイムに基づいて、TPRタスクに対処する新しい双方向一対多埋め込みアライメント(Beat)モデルを提案する。 実験の結果,提案手法はCUHK-PEDES (65.61 R@1), ICFG-PEDES (58.25 R@1), RSTPReID (48.10 R@1) の3つのTPRデータセットに対して,最先端の性能を達成できた。 さらに、MS-COCO、CUB、Flowersデータセットのさらなる実験は、他の画像テキスト検索タスクに適用されるBeatsの可能性をさらに示している。

Text-based person retrieval (TPR) is a challenging task that involves retrieving a specific individual based on a textual description. Despite considerable efforts to bridge the gap between vision and language, the significant differences between these modalities continue to pose a challenge. Previous methods have attempted to align text and image samples in a modal-shared space, but they face uncertainties in optimization directions due to the movable features of both modalities and the failure to account for one-to-many relationships of image-text pairs in TPR datasets. To address this issue, we propose an effective bi-directional one-to-many embedding paradigm that offers a clear optimization direction for each sample, thus mitigating the optimization problem. Additionally, this embedding scheme generates multiple features for each sample without introducing trainable parameters, making it easier to align with several positive samples. Based on this paradigm, we propose a novel Bi-directional one-to-many Embedding Alignment (Beat) model to address the TPR task. Our experimental results demonstrate that the proposed Beat model achieves state-of-the-art performance on three popular TPR datasets, including CUHK-PEDES (65.61 R@1), ICFG-PEDES (58.25 R@1), and RSTPReID (48.10 R@1). Furthermore, additional experiments on MS-COCO, CUB, and Flowers datasets further demonstrate the potential of Beat to be applied to other image-text retrieval tasks.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# Cross Language Soccer Framework:RoboCup 2Dサッカーシミュレーションのためのオープンソースフレームワーク

Cross Language Soccer Framework: An Open Source Framework for the RoboCup 2D Soccer Simulation ( http://arxiv.org/abs/2406.05621v1 )

ライセンス: Link先を確認
Nader Zare, Aref Sayareh, Alireza Sadraii, Arad Firouzkouhi, Amilcar Soares, (参考訳) RoboCup Soccer Simulation 2D (SS2D) の研究は、Helios、Cyrus、Glidersといった既存のCppベースのコードの複雑さによって妨げられている。 本稿では,ハイパフォーマンスなHeliosベースコードとシームレスに統合する,gRPCベースの言語に依存しないトランスフォーメーションソリューションを提案する。 このアプローチは、CSharp、JavaScript、Pythonなどの多様なプログラミング言語の使用を促進するだけでなく、SS2Dにおけるリアルタイム意思決定に不可欠な計算効率も維持している。 言語障壁を断ち切ることによって、我々のフレームワークは、協力的な可能性と柔軟性を大幅に向上させ、研究者が広範なベースコードの習得や開発をオーバーヘッドなく革新することを可能にします。 我々は,MITライセンス下で公開されているクロス言語サッカー(CLS)フレームワークを利用して,サッカーシミュレーションにおけるマルチエージェントシステムの能力を推し進めるために,グローバル研究コミュニティを招待する。

RoboCup Soccer Simulation 2D (SS2D) research is hampered by the complexity of existing Cpp-based codes like Helios, Cyrus, and Gliders, which also suffer from limited integration with modern machine learning frameworks. This development paper introduces a transformative solution a gRPC-based, language-agnostic framework that seamlessly integrates with the high-performance Helios base code. This approach not only facilitates the use of diverse programming languages including CSharp, JavaScript, and Python but also maintains the computational efficiency critical for real time decision making in SS2D. By breaking down language barriers, our framework significantly enhances collaborative potential and flexibility, empowering researchers to innovate without the overhead of mastering or developing extensive base codes. We invite the global research community to leverage and contribute to the Cross Language Soccer (CLS) framework, which is openly available under the MIT License, to drive forward the capabilities of multi-agent systems in soccer simulations.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# CYRUSサッカーシミュレーション2DチームによるRoboCup 2024の観測

Observation Denoising in CYRUS Soccer Simulation 2D Team For RoboCup 2024 ( http://arxiv.org/abs/2406.05623v1 )

ライセンス: Link先を確認
Nader Zare, Aref Sayareh, Sadra Khanjari, Arad Firouzkouhi, (参考訳) サッカーシミュレーション2D環境では、効果的な意思決定には正確な観察が不可欠である。 しかし、部分的な観測やノイズの多いデータといった課題は性能を損なう可能性がある。 これらの問題に対処するために,予測モデリングと交叉解析を活用して観測精度を向上する復調アルゴリズムを提案する。 提案手法は,ノイズや部分的データの影響を緩和し,ゲームプレイ性能を向上させることを目的としている。 本稿では,このアルゴリズムのフレームワーク,実装,および予備的な結果について述べる。 Cyrus 2D TeamはHelios、Gliders、Cyrusベースコードの組み合わせを使用している。

In the Soccer Simulation 2D environment, accurate observation is crucial for effective decision making. However, challenges such as partial observation and noisy data can hinder performance. To address these issues, we propose a denoising algorithm that leverages predictive modeling and intersection analysis to enhance the accuracy of observations. Our approach aims to mitigate the impact of noise and partial data, leading to improved gameplay performance. This paper presents the framework, implementation, and preliminary results of our algorithm, demonstrating its potential in refining observations in Soccer Simulation 2D. Cyrus 2D Team is using a combination of Helios, Gliders, and Cyrus base codes.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# ATLAS: 属性ベースの制御による遅延要約の改善

ATLAS: Improving Lay Summarisation with Attribute-based Control ( http://arxiv.org/abs/2406.05625v1 )

ライセンス: Link先を確認
Zhihao Zhang, Tomas Goldsack, Carolina Scarton, Chenghua Lin, (参考訳) レイ・サマリゼーション(Lay summarisation)は、専門家でない聴衆に理解しやすい科学論文の要約を作成することを目的としている。 しかしながら、以前の作業では、生成した要約の内容とスタイルが、モデルをトレーニングするために使用されるデータに完全に依存する、オールサイズのアプローチを前提としている。 実際には、異なるレベルの専門知識を持つオーディエンスには、特定のニーズがあり、どのコンテンツがレイトサマリーに表示されるべきか、どのように提示されるべきかに影響を与えます。 そこで本研究では,対象とする制御属性を用いて,生成した要約の全体的「遅延性」に寄与する様々な特性を制御可能な,抽象的な要約手法ATLASを提案する。 バイオメディカル・レイ・サマライゼーション・データセットと組み合わせてATLASを評価し, 主流のサマライゼーション・メトリクスを用いて最先端のベースラインを上回った。 選択した制御可能な属性の識別力および創発的影響に関する追加分析により,我々のアプローチの有効性がさらに証明された。

Lay summarisation aims to produce summaries of scientific articles that are comprehensible to non-expert audiences. However, previous work assumes a one-size-fits-all approach, where the content and style of the produced summary are entirely dependent on the data used to train the model. In practice, audiences with different levels of expertise will have specific needs, impacting what content should appear in a lay summary and how it should be presented. Aiming to address this, we propose ATLAS, a novel abstractive summarisation approach that can control various properties that contribute to the overall "layness" of the generated summary using targeted control attributes. We evaluate ATLAS on a combination of biomedical lay summarisation datasets, where it outperforms state-of-the-art baselines using mainstream summarisation metrics. Additional analyses provided on the discriminatory power and emergent influence of our selected controllable attributes further attest to the effectiveness of our approach.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# 大規模事前学習によるドメインの一般化

Domain Generalization Guided by Large-Scale Pre-Trained Priors ( http://arxiv.org/abs/2406.05628v1 )

ライセンス: Link先を確認
Zongbin Wang, Bin Pan, Shiyu Shen, Tianyang Shi, Zhenwei Shi, (参考訳) ドメイン一般化(DG)は、限られたソースドメインからモデルをトレーニングすることを目的としており、未知のターゲットドメインに一般化することができる。 通常、DGモデルは微調整の初期化時にのみ大規模な事前訓練モデルを使用する。 しかし、大規模な事前訓練モデルはすでにドメインシフトに抵抗する能力を持っている。 この能力を維持するために微調整中に事前訓練されたモデルを継続的に参照すれば、DGモデルの一般化能力をさらに高めることができる。 そこで本研究では,事前学習したモデルをDGファインチューニングプロセスに組み込んだFT-LP(Fin-Tune with Large-scale Pre-trained Priors)を提案する。 FT-LPは理論的な枠組みと単純な実装戦略から構成される。 理論上, FT-LP の有理性は, DG の事前学習先と結びついた一般化誤差を導入することによって検証する。 実装では、モデル分布をシミュレートするためにエンコーダを使用し、事前訓練された重みのみを利用できる場合、FT-LPを使用できる。 要約すると、我々はDGアルゴリズムのための新しい微調整方法を提供し、微調整プロセスを通して事前訓練されたモデルを利用する。 各種データセットとDGモデルを用いた実験により,提案手法の有効性が示唆された。

Domain generalization (DG) aims to train a model from limited source domains, allowing it to generalize to unknown target domains. Typically, DG models only employ large-scale pre-trained models during the initialization of fine-tuning. However, large-scale pre-trained models already possess the ability to resist domain shift. If we reference pre-trained models continuously during fine-tuning to maintain this ability, it could further enhance the generalization ability of the DG model. For this purpose, we introduce a new method called Fine-Tune with Large-scale pre-trained Priors (FT-LP), which incorporates the pre-trained model as a prior into the DG fine-tuning process, ensuring that the model refers to its pre-trained model at each optimization step. FT-LP comprises a theoretical framework and a simple implementation strategy. In theory, we verify the rationality of FT-LP by introducing a generalization error bound with the pre-trained priors for DG. In implementation, we utilize an encoder to simulate the model distribution, enabling the use of FT-LP when only pre-trained weights are available. In summary, we offer a new fine-tuning method for DG algorithms to utilize pre-trained models throughout the fine-tuning process. Through experiments on various datasets and DG models, our proposed method exhibits significant improvements, indicating its effectiveness.
翻訳日:2024-06-11 18:56:27 公開日:2024-06-09
# チャット」から「チャープ」を分離する:音と言語の自己教師型視覚的接地

Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language ( http://arxiv.org/abs/2406.05629v1 )

ライセンス: Link先を確認
Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman, (参考訳) DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。 本研究では,DenseAV が単語の ` ` meaning'' と音の ` `location' を明示的局所化の監督なしに発見できることを示す。 さらに、これら2種類の関連を監督せずに自動的に発見・識別する。 DenseAVのローカライゼーション能力は、コントラスト学習のための濃密な画像と音声の表現を直接比較する新しいマルチヘッド特徴集約演算子から生じることを示す。 対照的に、‘global’の音声およびビデオ表現を学習する他の多くのシステムは、単語や音声をローカライズできない。 最後に、音声と音声によるセマンティックセグメンテーションによるAV表現の評価を改善するために、2つの新しいデータセットをコントリビュートする。 これらおよび他のデータセットでは、DenseAVが音声や音声のセマンティックセグメンテーションの先行技術よりも劇的に優れていることを示す。 DenseAVは、それまでの最先端のImageBindよりも、パラメータの半数未満を使用して、クロスモーダル検索に優れています。 プロジェクトページ: \href{https://aka.ms/denseav}{https://aka.ms/denseav}

We present DenseAV, a novel dual encoder grounding architecture that learns high-resolution, semantically meaningful, and audio-visually aligned features solely through watching videos. We show that DenseAV can discover the ``meaning'' of words and the ``location'' of sounds without explicit localization supervision. Furthermore, it automatically discovers and distinguishes between these two types of associations without supervision. We show that DenseAV's localization abilities arise from a new multi-head feature aggregation operator that directly compares dense image and audio representations for contrastive learning. In contrast, many other systems that learn ``global'' audio and video representations cannot localize words and sound. Finally, we contribute two new datasets to improve the evaluation of AV representations through speech and sound prompted semantic segmentation. On these and other datasets we show DenseAV dramatically outperforms the prior art on speech and sound prompted semantic segmentation. DenseAV outperforms the previous state-of-the-art, ImageBind, on cross-modal retrieval using fewer than half of the parameters. Project Page: \href{https://aka.ms/denseav}{https://aka.ms/denseav}
翻訳日:2024-06-11 18:46:43 公開日:2024-06-09
# Ctrl-V:バウンディングボックス制御オブジェクトモーションによる高忠実度映像生成

Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion ( http://arxiv.org/abs/2406.05630v1 )

ライセンス: Link先を確認
Ge Ya Luo, Zhi Hao Luo, Anthony Gosselin, Alexia Jolicoeur-Martineau, Christopher Pal, (参考訳) 近年の映像予測の進歩により、制御可能な映像生成が注目されている。 単純でフレキシブルな条件付けによる高忠実度ビデオの生成は特に興味深い。 そこで本研究では,2次元または3次元境界ボックスの画素レベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。 さらに,初期フレームと終端フレームのバウンディングボックスを考慮すれば,フレーム毎に最大15個のバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器も作成した。 私たちは、KITTI、Virtual-KITTI 2、BDD100kという3つの有名なAVビデオデータセットで実験を行います。

With recent advances in video prediction, controllable video generation has been attracting more attention. Generating high fidelity videos according to simple and flexible conditioning is of particular interest. To this end, we propose a controllable video generation model using pixel level renderings of 2D or 3D bounding boxes as conditioning. In addition, we also create a bounding box predictor that, given the initial and ending frames' bounding boxes, can predict up to 15 bounding boxes per frame for all the frames in a 25-frame clip. We perform experiments across 3 well-known AV video datasets: KITTI, Virtual-KITTI 2 and BDD100k.
翻訳日:2024-06-11 18:46:43 公開日:2024-06-09
# CCSI:データフリー・インクリメンタル・ラーニングのための連続的なクラス特化表現

CCSI: Continual Class-Specific Impression for Data-free Class Incremental Learning ( http://arxiv.org/abs/2406.05631v1 )

ライセンス: Link先を確認
Sana Ayromlou, Teresa Tsang, Purang Abolmaesumi, Xiaoxiao Li, (参考訳) 実世界の臨床環境では、従来のディープラーニングに基づく分類手法は、オフライントレーニングのためにすべての病気のクラスからのサンプルを必要とするため、新しく導入された病気のタイプを診断するのに苦労する。 クラスインクリメンタル学習は、特定の病気クラスで訓練されたディープネットワークを新しい病気に適応することで、有望なソリューションを提供する。 しかし、破滅的な忘れ込みが起こり、新しいデータにモデルを適用する際に、初期のクラスの性能が低下する。 以前に提案された手法では、以前のサンプルを永久に保存する必要があるため、医療におけるプライバシーや保管規制に関して潜在的に懸念される可能性がある。 そこで本研究では,従来の学習クラスからのデータストレージではなく,学習クラス上でのデータ合成を利用する,新しいデータ自由クラスインクリメンタルラーニングフレームワークを提案する。 我々の重要な貢献は、それまでアクセス不能であったクラスに対して、連続クラス印象(CCSI)と呼ばれる合成データを取得し、新しいクラスを導入する際に、このデータを効果的に活用するための方法論を提示することである。 医用画像間で共有される共通のランドマークにインスパイアされた各クラスの平均画像から始まり、この画素ワイド最適化プロセスにおいて、連続正規化層統計を正規化器として利用することにより、トレーニング済み分類モデルの勾配に対するデータ反転を利用してCCSIを得る。 その後、合成データと新しいクラスデータを組み合わせることでネットワークを更新し、ドメイン内コントラスト損失を具体化し、合成データに基づいて訓練されたディープネットワークを実データに一般化する、マージン損失を前のクラスと新しいクラス間の分離を増大させる、コサイン正規化されたクロスエントロピー損失をトレーニングデータにおける不均衡分布の悪影響を軽減する、といった、いくつかの損失を伴って、ネットワークを更新する。

In real-world clinical settings, traditional deep learning-based classification methods struggle with diagnosing newly introduced disease types because they require samples from all disease classes for offline training. Class incremental learning offers a promising solution by adapting a deep network trained on specific disease classes to handle new diseases. However, catastrophic forgetting occurs, decreasing the performance of earlier classes when adapting the model to new data. Prior proposed methodologies to overcome this require perpetual storage of previous samples, posing potential practical concerns regarding privacy and storage regulations in healthcare. To this end, we propose a novel data-free class incremental learning framework that utilizes data synthesis on learned classes instead of data storage from previous classes. Our key contributions include acquiring synthetic data known as Continual Class-Specific Impression (CCSI) for previously inaccessible trained classes and presenting a methodology to effectively utilize this data for updating networks when introducing new classes. We obtain CCSI by employing data inversion over gradients of the trained classification model on previous classes starting from the mean image of each class inspired by common landmarks shared among medical images and utilizing continual normalization layers statistics as a regularizer in this pixel-wise optimization process. Subsequently, we update the network by combining the synthesized data with new class data and incorporate several losses, including an intra-domain contrastive loss to generalize the deep network trained on the synthesized data to real data, a margin loss to increase separation among previous classes and new ones, and a cosine-normalized cross-entropy loss to alleviate the adverse effects of imbalanced distributions in training data.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# パネルデータの不均一処理効果

Heterogeneous Treatment Effects in Panel Data ( http://arxiv.org/abs/2406.05633v1 )

ライセンス: Link先を確認
Retsef Levi, Elisabeth Paulson, Georgia Perakis, Emily Zhang, (参考訳) 我々は、一般的な治療パターンを用いたパネルデータを用いた不均一な治療効果の推定という、因果推論における中核的な問題に対処する。 多くの既存の手法では、パネルデータの潜在的な基盤構造を利用していないか、許容可能な処理パターンに制限がある。 本研究では、まず、回帰木を用いて、観測結果を類似した処理効果で解離クラスタに分割し、次に、パネルデータの(仮定された)低ランク構造を利用して各クラスタの平均処理効果を推定する新しい手法を提案し、評価する。 我々の理論的結果は、結果の見積もりを真の治療効果に収束させるものである。 半合成データを用いた計算実験により,40葉未満の回帰木を用いて,本手法は代替手法よりも精度が高いことを示した。 したがって,本手法は代替手法よりも精度が高く解釈可能な推定値を提供する。

We address a core problem in causal inference: estimating heterogeneous treatment effects using panel data with general treatment patterns. Many existing methods either do not utilize the potential underlying structure in panel data or have limitations in the allowable treatment patterns. In this work, we propose and evaluate a new method that first partitions observations into disjoint clusters with similar treatment effects using a regression tree, and then leverages the (assumed) low-rank structure of the panel data to estimate the average treatment effect for each cluster. Our theoretical results establish the convergence of the resulting estimates to the true treatment effects. Computation experiments with semi-synthetic data show that our method achieves superior accuracy compared to alternative approaches, using a regression tree with no more than 40 leaves. Hence, our method provides more accurate and interpretable estimates than alternative methods.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# 私の量子コンピュータは、何が良いのか?物理を意識したニューラルネットワークによる量子能力学習

What is my quantum computer good for? Quantum capability learning with physics-aware neural networks ( http://arxiv.org/abs/2406.05636v1 )

ライセンス: Link先を確認
Daniel Hothem, Ashe Miller, Timothy Proctor, (参考訳) 量子コンピュータは、量子化学、材料科学、機械学習など様々な分野に革命をもたらす可能性がある。 しかし、現代の量子コンピュータは、しばしばそれら上で実行される量子プログラムが失敗するエラーを経験する。 量子コンピュータが大きな量子プログラムを確実に実行できるようになるまで、ステークホルダーは量子コンピュータの能力を評価するための高速で信頼性の高い方法、すなわち、実行可能なプログラム、そしてそれがどれだけうまく実行できるかを評価する必要がある。 従来、既製のニューラルネットワークアーキテクチャは量子コンピュータの能力をモデル化するために用いられてきたが、実際の量子コンピュータのエラーを決定する複雑な量子物理学を学ばなかったため、成功は限られていた。 我々は、学習能力モデルのための新しい量子物理対応ニューラルネットワークアーキテクチャで、この欠点に対処する。 我々のアーキテクチャは、量子プログラムにおけるエラーの物理に対する効率的な近似とグラフニューラルネットワークの側面を組み合わせる。 このアプローチは、畳み込みニューラルネットワークに基づく最先端モデルに対して、実験データとシミュレーションデータの両方の平均絶対誤差を最大$\sim50\%$還元する。

Quantum computers have the potential to revolutionize diverse fields, including quantum chemistry, materials science, and machine learning. However, contemporary quantum computers experience errors that often cause quantum programs run on them to fail. Until quantum computers can reliably execute large quantum programs, stakeholders will need fast and reliable methods for assessing a quantum computer's capability-i.e., the programs it can run and how well it can run them. Previously, off-the-shelf neural network architectures have been used to model quantum computers' capabilities, but with limited success, because these networks fail to learn the complex quantum physics that determines real quantum computers' errors. We address this shortcoming with a new quantum-physics-aware neural network architecture for learning capability models. Our architecture combines aspects of graph neural networks with efficient approximations to the physics of errors in quantum programs. This approach achieves up to $\sim50\%$ reductions in mean absolute error on both experimental and simulated data, over state-of-the-art models based on convolutional neural networks.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# Chung's Lemmaの一般化版とその応用

A Generalized Version of Chung's Lemma and its Applications ( http://arxiv.org/abs/2406.05637v1 )

ライセンス: Link先を確認
Li Jiang, Xiao Li, Andre Milzarek, Junwen Qiu, (参考訳) チャンの補題(Chung's lemma)は、強い凸性型仮定と適切な多項式減少ステップサイズの下で(確率的な)最適化手法の漸近収束率を確立する古典的なツールである。 本研究では、より一般的なステップサイズルールの族に対する単純な非漸近収束フレームワークを提供する、Chung's lemmaの一般化版を開発する。 本研究では,多種多様な確率的手法に対する厳密な非漸近収束率を導出することにより,Chung's lemmaの広範な適用性を示す。 特に,確率的勾配降下やランダムリシャッフルといった確率的最適化手法に対して,一般の$(\theta,\mu)$-Polyak-Lojasiewicz (PL)条件の下で,多項式,定数,指数,余弦的なステップサイズルールを含む様々なステップサイズ戦略に対して,部分的に新しい非漸近的複雑性結果を得る。 特に、我々の分析の副産物として、指数的なステップサイズが目的関数の幾何に適応し、基礎となる景観の正確な知識を必要とせずに最適な収束率を達成することができることを観察する。 以上の結果から,Chung's lemma の展開した変種は,一般的なステップサイズルールの下での非漸近収束率を確立するために,多種多様で体系的かつ合理的なアプローチを提供することが示された。

Chung's lemma is a classical tool for establishing asymptotic convergence rates of (stochastic) optimization methods under strong convexity-type assumptions and appropriate polynomial diminishing step sizes. In this work, we develop a generalized version of Chung's lemma, which provides a simple non-asymptotic convergence framework for a more general family of step size rules. We demonstrate broad applicability of the proposed generalized Chung's lemma by deriving tight non-asymptotic convergence rates for a large variety of stochastic methods. In particular, we obtain partially new non-asymptotic complexity results for stochastic optimization methods, such as stochastic gradient descent and random reshuffling, under a general $(\theta,\mu)$-Polyak-Lojasiewicz (PL) condition and for various step sizes strategies, including polynomial, constant, exponential, and cosine step sizes rules. Notably, as a by-product of our analysis, we observe that exponential step sizes can adapt to the objective function's geometry, achieving the optimal convergence rate without requiring exact knowledge of the underlying landscape. Our results demonstrate that the developed variant of Chung's lemma offers a versatile, systematic, and streamlined approach to establish non-asymptotic convergence rates under general step size rules.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# 自動プログラム修復におけるパラメータ効率の良いファインチューニングの総合評価

A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Automated Program Repair ( http://arxiv.org/abs/2406.05639v1 )

ライセンス: Link先を確認
Guochang Li, Chen Zhi, Jialiang Chen, Junxiao Han, Shuiguang Deng, (参考訳) 自動プログラム修正(APR)は、パッチを生成することでバグを修正することを目的としている。 既存の研究は、"事前トレーニングと微調整"パラダイムによって、大規模言語モデル(LLM)がAPRの修正機能を改善することを実証している。 しかし、既存の研究は主にAPRのためのフルモデルファインチューニング(FMFT)に焦点を当てており、APRのためのパラメータ効率の高いファインチューニング(PEFT)の実行に基づく評価について限定的な研究がなされている。 FMFTと比較すると、PEFTは性能を損なうことなく計算資源の消費を減らすことができ、他のソフトウェア工学のタスクにも広く採用されている。 このギャップを埋めるために、私たちはプロンプトエンジニアリングを用いて既存のAPRデータセットを強化し、最初は命令データセットであるAPR-INSTRUCTIONを作成しました。 次に,APR-InstructuCTION を用いた4種類のPEFT法を用いて,事前学習した4つのLPMを微調整する。 最高の微調整モデルでは、最先端のLLMベースのAPR技術よりも58%多くのバグが修正されている。 また,(IA)^3$は細調整によりLCMのクリエイティビティを向上し,他の3つのPEFT法と比較して高い固定性が得られることを示した。 第3に,PEFTハイパーパラメータの最適設定について検討し,命令データセットサイズの影響について検討し,多数のパラメータとより大きなトレーニングデータセットがPEFTの性能向上に必ずしも寄与しないことを示す。 最後に,ピークメモリ使用量とトレーニング可能なパラメータを分析し,PEFTの効率性を示す。 この研究は、PEFTをAPRで包括的に調査し、他のソフトウェアエンジニアリングの下流タスクに拡張するための有望な方向性を示唆している。 APR-INSTRUCTION、PEFTの重み付け、微調整コードはオープンソースリソースとして公開されている。

Automated Program Repair (APR) aims to fix bugs by generating patches. And existing work has demonstrated that "pre-training and fine-tuning" paradigm enables Large Language Models (LLMs) improve fixing capabilities on APR. However, existing work mainly focuses on Full-Model Fine-Tuning (FMFT) for APR and limited research has been conducted on the execution-based evaluation of Parameter-Efficient Fine-Tuning (PEFT) for APR. Comparing to FMFT, PEFT can reduce computing resource consumption without compromising performance and has been widely adopted to other software engineering tasks. To fill this gap, we enhance the existing APR dataset by employing prompt engineering to create an instruction dataset, APR-INSTRUCTION, at first. Secondly, we fine-tune four pre-trained LLMs using four different PEFT methods with APR-INSTRUCTION. The best fine-tuned model fixes 58% more bugs than the state-of-the-art LLM-based APR techniques. The results also show that $(IA)^3$ improves the creativity of LLMs more effectively through fine-tuning and achieves the highest fixing capability compared to the other three PEFT methods. Thirdly, we explore the optimal configuration of PEFT hyperparameters, and assess the impact of instruction dataset size, showing that a larger number of parameters and a larger training dataset do not necessarily result in better performance for PEFT. Lastly, we analyze peak memory usage and trainable parameters to show the efficiency of PEFT. This work provides a comprehensive exploration of PEFT on APR and suggests potentially promising directions for extension to other software engineering downstream tasks. APR-INSTRUCTION, PEFT weights, and the fine-tuning code are publicly available as open-source resources.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# PaRa:パラメータランクの低減によるテキストと画像の拡散のパーソナライズ

PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction ( http://arxiv.org/abs/2406.05641v1 )

ライセンス: Link先を確認
Shangyu Chen, Zizheng Pan, Jianfei Cai, Dinh Phung, (参考訳) 大規模な事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルのパーソナライズは、トレーニングデータ分布とターゲット分布との適切なトレードオフ、すなわち、少数のターゲットイメージで新しい概念を学習し、(パーソナライズされたターゲットに合わせて)テキストの編集性を維持しながらパーソナライズ(パーソナライズされたターゲット)を達成するのに苦労しているため、難しい。 本稿では,T2Iモデルパーソナライズのための効果的かつ効率的なパラメータランク削減手法であるPaRaを提案し,拡散モデルパラメータのランクを明示的に制御し,初期多様な生成空間を小さくバランスの取れたターゲット空間に制限する。 我々のデザインは、T2Iモデルを特定の芸術スタイルのような新しい概念に応用することは、小さな世代空間を意味するという事実に動機づけられている。 この目的のために、ファインタニング中のモデルパラメータのランクを下げることにより、デノナイジングサンプリング軌跡のターゲットに対する空間を効果的に制限することができる。 包括的実験により、PaRaは、単一/複数オブジェクト生成における既存の微調整アプローチと、単一画像編集において大きな利点を享受できることが示されている。 特に、一般的な微調整技術であるLoRAと比較して、PaRaはより優れたパラメータ効率(2倍少ない学習可能なパラメータ)とより優れたターゲット画像アライメントを実現している。

Personalizing a large-scale pretrained Text-to-Image (T2I) diffusion model is challenging as it typically struggles to make an appropriate trade-off between its training data distribution and the target distribution, i.e., learning a novel concept with only a few target images to achieve personalization (aligning with the personalized target) while preserving text editability (aligning with diverse text prompts). In this paper, we propose PaRa, an effective and efficient Parameter Rank Reduction approach for T2I model personalization by explicitly controlling the rank of the diffusion model parameters to restrict its initial diverse generation space into a small and well-balanced target space. Our design is motivated by the fact that taming a T2I model toward a novel concept such as a specific art style implies a small generation space. To this end, by reducing the rank of model parameters during finetuning, we can effectively constrain the space of the denoising sampling trajectories towards the target. With comprehensive experiments, we show that PaRa achieves great advantages over existing finetuning approaches on single/multi-subject generation as well as single-image editing. Notably, compared to the prevailing fine-tuning technique LoRA, PaRa achieves better parameter efficiency (2x fewer learnable parameters) and much better target image alignment.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# アライメントとジェイルブレイクの仕組み: 中間的隠蔽状態によるLCMの安全性の説明

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States ( http://arxiv.org/abs/2406.05644v1 )

ライセンス: Link先を確認
Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Yongbin Li, (参考訳) 大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。 残念なことに、ジェイルブレイクは安全ガードレールを回避できるため、LSMは有害なコンテンツを生成し、LSMの安全性に対する懸念を高めることになる。 しばしばブラックボックスと見なされる言語モデルのため、アライメントとジェイルブレイクのメカニズムは解明が難しい。 本稿では,LLMの安全性を中間隠蔽状態を通して説明するために弱い分類器を用いる。 まず、LCMがアライメントではなく事前学習中に倫理的概念を学習し、初期層における悪意のある入力と正常な入力を識別できることを確認した。 アライメントは、初期の概念と中層における感情の推測を関連付け、安全な世代のために特定の拒否トークンに洗練します。 脱獄は初期の非倫理的な分類から否定的な感情への転換を妨げている。 7Bから70Bまでのモデルに対して,様々なモデルファミリで実験を行い,その結論を実証する。 本稿は, LLMの安全性の本質的なメカニズムと, ジェイルブレイクによる安全ガードレールの回避方法を示し, LLMの安全性と懸念軽減の新たな視点を提供する。

Large language models (LLMs) rely on safety alignment to avoid responding to malicious user inputs. Unfortunately, jailbreak can circumvent safety guardrails, resulting in LLMs generating harmful content and raising concerns about LLM safety. Due to language models with intensive parameters often regarded as black boxes, the mechanisms of alignment and jailbreak are challenging to elucidate. In this paper, we employ weak classifiers to explain LLM safety through the intermediate hidden states. We first confirm that LLMs learn ethical concepts during pre-training rather than alignment and can identify malicious and normal inputs in the early layers. Alignment actually associates the early concepts with emotion guesses in the middle layers and then refines them to the specific reject tokens for safe generations. Jailbreak disturbs the transformation of early unethical classification into negative emotions. We conduct experiments on models from 7B to 70B across various model families to prove our conclusion. Overall, our paper indicates the intrinsical mechanism of LLM safety and how jailbreaks circumvent safety guardrails, offering a new perspective on LLM safety and reducing concerns.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# 産業シナリオにおける異常なマルチクラス化:Few-shot Learningを新しいタスクに移行する

Anomaly Multi-classification in Industrial Scenarios: Transferring Few-shot Learning to a New Task ( http://arxiv.org/abs/2406.05645v1 )

ライセンス: Link先を確認
Jie Liu, Yao Wu, Xiaotong Luo, Zongze Wu, (参考訳) 産業シナリオでは、異常項目を識別するだけでなく、異常の種類を分類することが重要である。 しかし、異常な多重分類の研究はほとんど未発見のままである。 本稿では,異常多型化という,新規で価値のある研究課題を提案する。 このタスクに数発の学習を適用する際の課題として,限られたトレーニングデータと異常画像の特徴から,RelationNetとPatchCoreを組み合わせたベースラインモデルを導入する。 本稿では,擬似クラスとそれに対応するプロキシタスクを生成するデータ生成手法を提案する。 さらに、コントラスト学習を利用してバニラベースラインを改善し、ResNetを直接微調整するよりもはるかに優れたパフォーマンスを実現する。 MvTec AD と MvTec3D AD を用いた実験により,本課題において本手法が優れた性能を示した。

In industrial scenarios, it is crucial not only to identify anomalous items but also to classify the type of anomaly. However, research on anomaly multi-classification remains largely unexplored. This paper proposes a novel and valuable research task called anomaly multi-classification. Given the challenges in applying few-shot learning to this task, due to limited training data and unique characteristics of anomaly images, we introduce a baseline model that combines RelationNet and PatchCore. We propose a data generation method that creates pseudo classes and a corresponding proxy task, aiming to bridge the gap in transferring few-shot learning to industrial scenarios. Furthermore, we utilize contrastive learning to improve the vanilla baseline, achieving much better performance than directly fine-tune a ResNet. Experiments conducted on MvTec AD and MvTec3D AD demonstrate that our approach shows superior performance in this novel task.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# ICU-Sepsis: 実際の医療データから構築されたベンチマークMDP

ICU-Sepsis: A Benchmark MDP Built from Real Medical Data ( http://arxiv.org/abs/2406.05646v1 )

ライセンス: Link先を確認
Kartik Choudhary, Dhawal Gupta, Philip S. Thomas, (参考訳) 本稿では、強化学習(RL)アルゴリズムを評価するためのベンチマークで使用できるICU-Sepsisについて述べる。 近年, セプシス管理は応用RL研究において重要な課題となっている。 したがって、セプシス管理をモデル化したMDPは、実世界の課題に対してRLアルゴリズムを評価するベンチマークの一部として機能する。 しかし、ICUにおける敗血症ケアをシミュレートする有用なMDPを作成することは、患者のデータの取得と処理にまつわる複雑さのため、依然として課題である。 ICU-Sepsisは、ICUにおける敗血症患者のパーソナライズされたケアをモデル化する軽量環境である。 この環境は、広く互換性があり、最先端のRLアルゴリズムでさえも困難であり、パフォーマンスをベンチマークするための貴重なツールである。 しかし、ICU-SepsisはRLアルゴリズムを評価するための標準化された環境を提供するが、医療実践の指針となる結論を引き出すには使用すべきではない。

We present ICU-Sepsis, an environment that can be used in benchmarks for evaluating reinforcement learning (RL) algorithms. Sepsis management is a complex task that has been an important topic in applied RL research in recent years. Therefore, MDPs that model sepsis management can serve as part of a benchmark to evaluate RL algorithms on a challenging real-world problem. However, creating usable MDPs that simulate sepsis care in the ICU remains a challenge due to the complexities involved in acquiring and processing patient data. ICU-Sepsis is a lightweight environment that models personalized care of sepsis patients in the ICU. The environment is a tabular MDP that is widely compatible and is challenging even for state-of-the-art RL algorithms, making it a valuable tool for benchmarking their performance. However, we emphasize that while ICU-Sepsis provides a standardized environment for evaluating RL algorithms, it should not be used to draw conclusions that guide medical practice.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# GTR:幾何学とテクスチャリファインメントによる大規模3次元再構成モデルの改善

GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement ( http://arxiv.org/abs/2406.05649v1 )

ライセンス: Link先を確認
Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee, (参考訳) マルチビュー画像から3次元メッシュを再構成する手法を提案する。 提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いて, マルチビュー画像から学習したLRMのような大規模再構成モデルから着想を得たものである。 しかし,本手法では3次元再構成の精度を大幅に向上させることができる重要な改良がいくつか導入されている。 まず、元のLEMアーキテクチャを調べ、いくつかの欠点を見出す。 その後,LRMアーキテクチャに改良を加え,マルチビュー画像表現の改善と,より効率的なトレーニングを実現する。 第二に、幾何再構成を改善し、全像解像度での監視を可能にするために、NeRFフィールドから異なる方法でメッシュを抽出し、メッシュレンダリングによりNeRFモデルを微調整する。 これらの修正により、Google Scanned Objects(GSO)データセット上のPSNR28.67のような、2Dおよび3D評価メトリクスの最先端のパフォーマンスを実現できます。 これらの優れた結果にもかかわらず、我々のフィードフォワードモデルは、資産上のテキストや肖像画のような複雑なテクスチャの再構築に苦慮している。 この問題に対処するため,我々は軽量なインスタンス・テクスチャ・リファインメント・プロシージャを導入する。 この手法は入力されたマルチビュー画像を用いてメッシュ表面のトリプレーン表現とNeRF色推定モデルをわずか4秒で微調整する。 この改良はPSNRを29.79に改善し、テキストのような複雑なテクスチャを忠実に再構築する。 さらに,本手法は,テキストや画像から3D生成など,さまざまなダウンストリームアプリケーションを実現する。

We propose a novel approach for 3D mesh reconstruction from multi-view images. Our method takes inspiration from large reconstruction models like LRM that use a transformer-based triplane generator and a Neural Radiance Field (NeRF) model trained on multi-view images. However, in our method, we introduce several important modifications that allow us to significantly enhance 3D reconstruction quality. First of all, we examine the original LRM architecture and find several shortcomings. Subsequently, we introduce respective modifications to the LRM architecture, which lead to improved multi-view image representation and more computationally efficient training. Second, in order to improve geometry reconstruction and enable supervision at full image resolution, we extract meshes from the NeRF field in a differentiable manner and fine-tune the NeRF model through mesh rendering. These modifications allow us to achieve state-of-the-art performance on both 2D and 3D evaluation metrics, such as a PSNR of 28.67 on Google Scanned Objects (GSO) dataset. Despite these superior results, our feed-forward model still struggles to reconstruct complex textures, such as text and portraits on assets. To address this, we introduce a lightweight per-instance texture refinement procedure. This procedure fine-tunes the triplane representation and the NeRF color estimation model on the mesh surface using the input multi-view images in just 4 seconds. This refinement improves the PSNR to 29.79 and achieves faithful reconstruction of complex textures, such as text. Additionally, our approach enables various downstream applications, including text- or image-to-3D generation.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# 大規模言語モデルを用いた自律走行におけるスーパーアライメントフレームワーク

A Superalignment Framework in Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2406.05651v1 )

ライセンス: Link先を確認
Xiangrui Kong, Thomas Braunl, Marco Fahmi, Yue Wang, (参考訳) 昨年、大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の領域において、特に自動運転への応用において大きな進歩が見られた。 これらのモデルは複雑な情報の処理と相互作用において顕著な能力を示した。 自動運転において、LSMとMLLMは広範囲に使われており、正確な位置、画像、道路条件などの機密データにアクセスする必要がある。 これらのデータは、高度な解析のためにLLMベースの推論クラウドに送信される。 しかし、データやプライバシー侵害に対する保護はLLM固有のセキュリティ対策に大きく依存するため、データセキュリティに関する懸念が生じる。 その重要性にもかかわらず、自動運転におけるLLMのセキュリティ面はいまだに解明されていない。 このギャップに対処するため,本研究では,マルチエージェントLLMアプローチを用いて,自動運転車の新たなセキュリティフレームワークを導入する。 このフレームワークは、自動運転車に関連する機密情報を潜在的リークから保護するとともに、LCM出力が運転規制に準拠し、人間の価値観に適合することを保証するように設計されている。 それは、無関係なクエリをフィルタリングし、LLM出力の安全性と信頼性を検証するメカニズムを含んでいる。 このフレームワークを利用することで、11の大規模言語モデル駆動自動運転キューのセキュリティ、プライバシ、コスト面を評価した。 さらに,これら駆動プロンプトのQA試験を行い,本フレームワークの有効性を実証した。

Over the last year, significant advancements have been made in the realms of large language models (LLMs) and multi-modal large language models (MLLMs), particularly in their application to autonomous driving. These models have showcased remarkable abilities in processing and interacting with complex information. In autonomous driving, LLMs and MLLMs are extensively used, requiring access to sensitive vehicle data such as precise locations, images, and road conditions. These data are transmitted to an LLM-based inference cloud for advanced analysis. However, concerns arise regarding data security, as the protection against data and privacy breaches primarily depends on the LLM's inherent security measures, without additional scrutiny or evaluation of the LLM's inference outputs. Despite its importance, the security aspect of LLMs in autonomous driving remains underexplored. Addressing this gap, our research introduces a novel security framework for autonomous vehicles, utilizing a multi-agent LLM approach. This framework is designed to safeguard sensitive information associated with autonomous vehicles from potential leaks, while also ensuring that LLM outputs adhere to driving regulations and align with human values. It includes mechanisms to filter out irrelevant queries and verify the safety and reliability of LLM outputs. Utilizing this framework, we evaluated the security, privacy, and cost aspects of eleven large language model-driven autonomous driving cues. Additionally, we performed QA tests on these driving prompts, which successfully demonstrated the framework's efficacy.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# 深層学習技術を用いた心臓音のセグメンテーション

Heart Sound Segmentation Using Deep Learning Techniques ( http://arxiv.org/abs/2406.05653v1 )

ライセンス: Link先を確認
Manas Madine, (参考訳) 心臓病は世界中で死に至る主要な原因である。 心電図(Phonocardiogram, PCG)信号を用いたコンピュータ支援分析により, 心音の聴取過程が向上する。 本稿では,S1 (LUB) とS2 (DUB) に心音区分けと分類を行う新しい手法を提案する。 我々は、FFTに基づくフィルタリング、イベント検出のための動的プログラミング、ロバストな分類のためのSiameseネットワークを採用している。 本手法は,既存手法と比較して,PASCALの心臓音響データセットに優れた性能を示す。

Heart disease remains a leading cause of mortality worldwide. Auscultation, the process of listening to heart sounds, can be enhanced through computer-aided analysis using Phonocardiogram (PCG) signals. This paper presents a novel approach for heart sound segmentation and classification into S1 (LUB) and S2 (DUB) sounds. We employ FFT-based filtering, dynamic programming for event detection, and a Siamese network for robust classification. Our method demonstrates superior performance on the PASCAL heart sound dataset compared to existing approaches.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# DomainRAG: ドメイン固有検索拡張世代評価のための中国語ベンチマーク

DomainRAG: A Chinese Benchmark for Evaluating Domain-specific Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.05654v1 )

ライセンス: Link先を確認
Shuting Wang, Jiongnan Liu Shiren Song, Jiehan Cheng, Yuqi Fu, Peidong Guo, Kun Fang, Yutao Zhu, Zhicheng Dou, (参考訳) Retrieval-Augmented Generation (RAG) は,幻覚やリアルタイム更新の維持の難しさといった,Large Language Models (LLM) のさまざまな制限に対処する,有望なソリューションを提供する。 LLMが専門家の知識をカバーするのに苦労する専門家やドメイン固有のアプリケーションでは、このアプローチは特に重要である。 したがって、このようなシナリオにおけるRAGモデルの評価は極めて重要であるが、最近の研究は、共通センスの問題を解決する際のモデルの能力を評価するために、ウィキペディアのような一般的な知識ソースに依存していることが多い。 本稿では,ドメイン固有の文脈,大学入学におけるRAG設定によるLCMの評価を行った。 RAGモデルに必要な機能として,会話RAGの能力,構造情報の分析,外部知識への忠実さ,妄想,時間依存問題の解決,多文書間相互作用の理解など6つを同定した。 各機能は、RAGモデルのパフォーマンスを評価するために、共有コーパスに関連付けられたデータセットを持つ。 Llama,Baichuan,ChatGLM,GPTモデルなどのLLMの評価を行った。 実験の結果,既存の閉書 LLM はドメイン固有の問題に悩まされており,専門家の問題を解決するためのRAG モデルの必要性を強調している。 さらに、RAGモデルは、会話履歴の理解、構造情報の分析、装飾、多文書間相互作用の処理、専門家の知識への忠実さなどの能力を向上させる余地がある。 今後の研究がこれらの問題をよりよく解決することを期待している。

Retrieval-Augmented Generation (RAG) offers a promising solution to address various limitations of Large Language Models (LLMs), such as hallucination and difficulties in keeping up with real-time updates. This approach is particularly critical in expert and domain-specific applications where LLMs struggle to cover expert knowledge. Therefore, evaluating RAG models in such scenarios is crucial, yet current studies often rely on general knowledge sources like Wikipedia to assess the models' abilities in solving common-sense problems. In this paper, we evaluated LLMs by RAG settings in a domain-specific context, college enrollment. We identified six required abilities for RAG models, including the ability in conversational RAG, analyzing structural information, faithfulness to external knowledge, denoising, solving time-sensitive problems, and understanding multi-document interactions. Each ability has an associated dataset with shared corpora to evaluate the RAG models' performance. We evaluated popular LLMs such as Llama, Baichuan, ChatGLM, and GPT models. Experimental results indicate that existing closed-book LLMs struggle with domain-specific questions, highlighting the need for RAG models to solve expert problems. Moreover, there is room for RAG models to improve their abilities in comprehending conversational history, analyzing structural information, denoising, processing multi-document interactions, and faithfulness in expert knowledge. We expect future studies could solve these problems better.
翻訳日:2024-06-11 18:46:42 公開日:2024-06-09
# 2つの未検出光子を用いた位相サブトラクティブ干渉とノイズ抵抗量子イメージング

Phase-Subtractive Interference and Noise-Resistant Quantum Imaging with Two Undetected Photons ( http://arxiv.org/abs/2406.05656v1 )

ライセンス: Link先を確認
Chandler Tarrant, Mayukh Lahiri, (参考訳) 本稿では、2つの独立した源によって生成される4光子量子状態を用いて、2つの光子を検出することなく2光子干渉パターンを生成する量子干渉現象について述べる。 共通認識とは対照的に、干渉パターンは、検出された光子によって得られる位相と完全に独立にすることができる。 しかし、2つの未検出光子によって取得された空間依存相に関する情報は、いまだに含まれていない。 この現象はフェルミオン粒子でも観測できる。 本研究では、干渉計における制御不能な位相変動に免疫し、物体を照らす光子を検出することなく画像の取得が可能な干渉計測量子位相イメージング技術を開発するために、この現象を適用することができることを示す。

We present a quantum interference phenomenon in which four-photon quantum states generated by two independent sources are used to create a two-photon interference pattern without detecting two of the photons. Contrary to the common perception, the interference pattern can be made fully independent of phases acquired by the photons detected to construct it. However, it still contains information about spatially dependent phases acquired by the two undetected photons. This phenomenon can also be observed with fermionic particles. We show that the phenomenon can be applied to develop an interferometric, quantum phase imaging technique that is immune to uncontrollable phase fluctuations in the interferometer and allows image acquisition without detecting the photons illuminating the object.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 連続学習のためのNull空間におけるビジュアルプロンプトチューニング

Visual Prompt Tuning in Null Space for Continual Learning ( http://arxiv.org/abs/2406.05658v1 )

ライセンス: Link先を確認
Yue Lu, Shizhou Zhang, De Cheng, Yinghui Xing, Nannan Wang, Peng Wang, Yanning Zhang, (参考訳) 既存のプロンプトチューニング手法は、視覚変換モデルにおいて関連するプロンプトを選択して更新することにより、連続学習(CL)における印象的なパフォーマンスを示す。 一方,本論文は,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整して各タスクを学習することを目的としており,CLにおける破滅的な忘れを克服するために学習されたタスクに対する干渉を確実にすることを目的としている。 しかし、従来のCNNアーキテクチャの直交射影と異なり、ViTアーキテクチャの急進勾配直交射影は、全く異なる、より大きな挑戦を示す。 1) 高次非直線自己注意操作 2) 変圧器ブロック内のLayerNormによってもたらされるプロンプト分布のドリフト。 理論的には、2つの整合性条件を導出し、直交直交射影を高速に達成し、視覚的インパルスチューニングにおいて自己認識機構を介して学習した知識に対する干渉を排除できる理論的保証を提供する。 実際、急勾配直交射影を実装するために、実効的なヌル空間に基づく近似解が提案されている。 各種ベースラインモデルを用いた4つのクラスインクリメンタルベンチマークにおけるアンチフォッゲッティングの有効性を実験的に検証し,本手法は最先端手法よりも優れた性能を実現する。 私たちのコードは補足資料で利用可能です。

Existing prompt-tuning methods have demonstrated impressive performances in continual learning (CL), by selecting and updating relevant prompts in the vision-transformer models. On the contrary, this paper aims to learn each task by tuning the prompts in the direction orthogonal to the subspace spanned by previous tasks' features, so as to ensure no interference on tasks that have been learned to overcome catastrophic forgetting in CL. However, different from the orthogonal projection in the traditional CNN architecture, the prompt gradient orthogonal projection in the ViT architecture shows completely different and greater challenges, i.e., 1) the high-order and non-linear self-attention operation; 2) the drift of prompt distribution brought by the LayerNorm in the transformer block. Theoretically, we have finally deduced two consistency conditions to achieve the prompt gradient orthogonal projection, which provide a theoretical guarantee of eliminating interference on previously learned knowledge via the self-attention mechanism in visual prompt tuning. In practice, an effective null-space-based approximation solution has been proposed to implement the prompt gradient orthogonal projection. Extensive experimental results demonstrate the effectiveness of anti-forgetting on four class-incremental benchmarks with diverse pre-trained baseline models, and our approach achieves superior performances to state-of-the-art methods. Our code is available in the supplemental material.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# LLMは人間ライクな推論を禁止しているか? オープンエンド応答のためのLLMにおける心の理論の評価

Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses ( http://arxiv.org/abs/2406.05659v1 )

ライセンス: Link先を確認
Maryam Amirizaniani, Elias Martin, Maryna Sivachenko, Afra Mashhadi, Chirag Shah, (参考訳) 心の理論(Theory of Mind、ToM)は、他者が自身の思考過程を導くのに不可欠である自身の意図、感情、思考を持っていると認識することを必要とする。 大きな言語モデル(LLM)は要約や質問応答、翻訳といったタスクに優れていますが、特にオープンな質問ではToM推論の課題に直面しています。 進歩にもかかわらず、LLMがToM推論を本当に理解している範囲と、それが人間のToM推論とどの程度密接に一致しているかは、未解決のシナリオで不適切に調査されている。 このギャップによって、オープンエンドの質問において、人間の意図や感情をToM推論プロセスに統合するLLMの能力を評価する。 私たちの研究はRedditのChangeMyViewプラットフォームからの投稿を利用しています。 我々の分析は、人間とLLMが生成した応答のセマンティックな類似度と語彙的重複度を比較することで、オープンエンド質問におけるToM推論能力の明確な相違を明らかにし、最も高度なモデルでさえも顕著な限界を示している。 LLMの能力を高めるために,人間の意図や感情を組み込んだプロンプトチューニング手法を実装し,結果としてToM推論性能が向上した。 しかし、これらの改善にもかかわらず、強化は人間のような推論を完全に達成するには至っていない。 この研究は、LLMの社会的推論の欠陥を強調し、人間の意図と感情の統合が、その効果をいかに促進するかを示す。

Theory of Mind (ToM) reasoning entails recognizing that other individuals possess their own intentions, emotions, and thoughts, which is vital for guiding one's own thought processes. Although large language models (LLMs) excel in tasks such as summarization, question answering, and translation, they still face challenges with ToM reasoning, especially in open-ended questions. Despite advancements, the extent to which LLMs truly understand ToM reasoning and how closely it aligns with human ToM reasoning remains inadequately explored in open-ended scenarios. Motivated by this gap, we assess the abilities of LLMs to perceive and integrate human intentions and emotions into their ToM reasoning processes within open-ended questions. Our study utilizes posts from Reddit's ChangeMyView platform, which demands nuanced social reasoning to craft persuasive responses. Our analysis, comparing semantic similarity and lexical overlap metrics between responses generated by humans and LLMs, reveals clear disparities in ToM reasoning capabilities in open-ended questions, with even the most advanced models showing notable limitations. To enhance LLM capabilities, we implement a prompt tuning method that incorporates human intentions and emotions, resulting in improvements in ToM reasoning performance. However, despite these improvements, the enhancement still falls short of fully achieving human-like reasoning. This research highlights the deficiencies in LLMs' social reasoning and demonstrates how integrating human intentions and emotions can boost their effectiveness.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# ディープラーニングと言語モデルに検出不能なバックドアを注入する

Injecting Undetectable Backdoors in Deep Learning and Language Models ( http://arxiv.org/abs/2406.05660v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Amin Karbasi, Argyris Oikonomou, Katerina Sotiraki, Grigoris Velegkas, Manolis Zampetakis, (参考訳) MLモデルはますます複雑になり、金融や医療といった高額な領域に不可欠なものになりつつあり、また、高度な敵の攻撃を受けやすいものになっている。 我々は、悪質な外部の専門家会社によって開発されたモデルにおいて、検出不能なバックドアによって引き起こされる脅威を調査する。 このようなバックドアが存在する場合、モデルのデザイナは、入力の最小のビットを慎重に摂動して、分類結果を好ましいものに変更する方法に関する情報をユーザに販売することができる。 モデルウェイトとアーキテクチャがアクセス可能であったとしても、バックドアの存在は検出不可能であることを保証しながら、ニューラルネットワークにバックドアを植える一般的な戦略を開発する。 これを実現するために,暗号署名や不明瞭な難読化といった暗号技術を利用する。 さらに、検出不能なバックドアの概念を言語モデルに導入し、ステガノグラフィー機能の存在に基づいて、ニューラルネットワークのバックドア攻撃をそのようなモデルに拡張する。

As ML models become increasingly complex and integral to high-stakes domains such as finance and healthcare, they also become more susceptible to sophisticated adversarial attacks. We investigate the threat posed by undetectable backdoors in models developed by insidious external expert firms. When such backdoors exist, they allow the designer of the model to sell information to the users on how to carefully perturb the least significant bits of their input to change the classification outcome to a favorable one. We develop a general strategy to plant a backdoor to neural networks while ensuring that even if the model's weights and architecture are accessible, the existence of the backdoor is still undetectable. To achieve this, we utilize techniques from cryptography such as cryptographic signatures and indistinguishability obfuscation. We further introduce the notion of undetectable backdoors to language models and extend our neural network backdoor attacks to such models based on the existence of steganographic functions.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# MS-HuBERT:音声表現学習のためのマスケ言語モデルにおける事前学習と推論ミスマッチの軽減

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations ( http://arxiv.org/abs/2406.05661v1 )

ライセンス: Link先を確認
Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah, (参考訳) 近年, 自己指導型事前学習法は, 生音声から高次情報を学習する上で大きな牽引力となっている。 これらの手法の中で,HuBERTは自動音声認識(ASR)におけるSOTA性能を実証した。 しかし、HuBERTのパフォーマンスは、事前トレーニング戦略の相違により、Data2vecに遅れている。 本稿では,本稿で提案する。 i) HuBERT および HuBERT で観測された事前学習及び推論ミスマッチに対処するスワップ法 (II)モデルキャパシティをより効果的に活用するために、マルチクラスタマスクによる予測損失を組み込んだ。 結果として得られたMS-HuBERTは、堅牢な音声表現を学習するためのエンドツーエンドの自己教師付き事前学習手法である。 ASR Librispeechベンチマークでバニラの HuBERT を平均5%の差で上回っている。 さらに,ASRなどのコンテンツベースタスクの性能向上のために,事前学習中に得られた学習した埋め込みが必須情報をエンコードしていることを示す。

In recent years, self-supervised pre-training methods have gained significant traction in learning high-level information from raw speech. Among these methods, HuBERT has demonstrated SOTA performance in automatic speech recognition (ASR). However, HuBERT's performance lags behind data2vec due to disparities in pre-training strategies. In this paper, we propose (i) a Swap method to address pre-training and inference mismatch observed in HuBERT and (ii) incorporates Multicluster masked prediction loss for more effective utilization of the models capacity. The resulting method is, MS-HuBERT, an end-to-end self-supervised pre-training method for learning robust speech representations. It beats vanilla HuBERT on the ASR Librispeech benchmark on average by a 5% margin when evaluated on different finetuning splits. Additionally, we demonstrate that the learned embeddings obtained during pre-training encode essential information for improving performance of content based tasks such as ASR.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 一般配電学習 : ディープラーニングの理論的枠組み

General Distribution Learning: A theoretical framework for Deep Learning ( http://arxiv.org/abs/2406.05666v1 )

ライセンス: Link先を確認
Binchuan Qi, Li Li, Wei Gong, (参考訳) 古典的学習理論フレームワークには、深層学習(DL)に関する未解決の研究質問が数多く残されている。 これには、過度にパラメータ化されたニューラルネットワーク(NN)の顕著な一般化機能、目的の非凸性にもかかわらず効率的な最適化性能、一般化におけるフラットミニマのメカニズム、ディープアーキテクチャの例外的なパフォーマンスなどが含まれる。 本稿では,一般分布学習(General Distribution Learning, GD Learning)と呼ばれる新しい理論学習フレームワークを提案する。 統計的機械学習とは別に、GD Learningは真の基礎となる分布に焦点を当てている。 GDラーニングでは、古典的な統計学習フレームワークにおける予測誤差に対応する学習誤差を、モデルと適合アルゴリズムによる適合誤差と、限られたサンプリングデータによって導入されたサンプリング誤差に分割する。 このフレームワークは、特にデータ不足を特徴とするシナリオにおいて、事前の知識を著しく取り入れている。 この外部知識の統合は、データセット全体の学習エラーを最小限にし、パフォーマンスを向上させるのに役立つ。 GD Learning フレームワークでは,モデルのヤコビ行列の固有値の勾配ノルムと不均一性を最小化することにより,非凸最適化問題に対する大域的最適解,例えば嵌合誤差の最小化が可能であることを示す。 この知見は勾配構造制御アルゴリズムの開発につながった。 GD Learningはまた、オーバーパラメータ化や非凸最適化、バイアス分散トレードオフ、フラットミニマのメカニズムなど、ディープラーニングに関する質問に対して、新たな視点を提供する。

There remain numerous unanswered research questions on deep learning (DL) within the classical learning theory framework. These include the remarkable generalization capabilities of overparametrized neural networks (NNs), the efficient optimization performance despite non-convexity of objectives, the mechanism of flat minima in generalization, and the exceptional performance of deep architectures, among others. This paper introduces a novel theoretical learning framework known as General Distribution Learning (GD Learning), which is designed to address a comprehensive range of machine learning and statistical tasks, including classification, regression and parameter estimation. Departing from statistical machine learning, GD Learning focuses on the true underlying distribution. In GD Learning, learning error, corresponding to the expected error in classical statistical learning framework, is divided into fitting errors caused by models and fitting algorithms, as well as sampling errors introduced by limited sampling data. The framework significantly incorporates prior knowledge, especially in scenarios characterized by data scarcity. This integration of external knowledge helps to minimize learning errors across the entire dataset, thereby enhancing performance. Within the GD Learning framework, we demonstrate that the global optimal solution to non-convex optimization problems, such as minimizing fitting error, can be approached by minimizing the gradient norm and the non-uniformity of the eigenvalues of the model's Jacobian matrix. This insight has led to the development of the gradient structure control algorithm. GD Learning also offers a fresh perspective on the questions on deep learning, including overparameterization and non-convex optimizations, bias-variance trade-off, and the mechanism of flat minima.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# SRC-Net:変更検出のための時空間関係ネットワーク

SRC-Net: Bi-Temporal Spatial Relationship Concerned Network for Change Detection ( http://arxiv.org/abs/2406.05668v1 )

ライセンス: Link先を確認
Hongjia Chen, Xin Xu, Fangling Pu, (参考訳) リモートセンシング画像における変化検出(CD)は, 環境モニタリング, 都市開発, 災害管理における重要な課題である。 CDは、時間とともに変化する変化を特定するために、バイテンポラルなイメージを利用する。 異なるタイミングで同じ位置にある特徴間の時間的空間的関係は、このプロセスにおいて重要な役割を果たす。 しかし、既存の変化検出ネットワークは、時間的特徴抽出と融合の間、これらの空間的関係を完全に活用しないことが多い。 本研究では,CDのための時空間関係ネットワークであるSRC-Netを提案する。 提案するSRC-Netは,空間的関係を組み込んだ知覚・相互作用モジュールを備え,特徴抽出の精度と堅牢性を高めるクロスブランチ認識機構を確立する。 さらに,現在の手法における情報損失に対応するために,Patch-Mode 共同機能融合モジュールが導入された。 異なる変化モードと空間的関係に対する関心を考慮し、より表現力のある融合特徴をもたらす。 さらに,これら2つの関係モジュールを用いて新しいネットワークを構築し,LEVIR-CDとWHUビルディングデータセットを用いて実験を行った。 実験結果から,本ネットワークはパラメータ数を一定に保ちながら,最先端(SOTA)手法より優れていることが示された。 我々は、我々のアプローチが変化検出の新しいパラダイムを定めており、この分野のさらなる進歩を促すだろうと考えている。 コードとモデルはhttps://github.com/Chnja/SRCNetで公開されている。

Change detection (CD) in remote sensing imagery is a crucial task with applications in environmental monitoring, urban development, and disaster management. CD involves utilizing bi-temporal images to identify changes over time. The bi-temporal spatial relationships between features at the same location at different times play a key role in this process. However, existing change detection networks often do not fully leverage these spatial relationships during bi-temporal feature extraction and fusion. In this work, we propose SRC-Net: a bi-temporal spatial relationship concerned network for CD. The proposed SRC-Net includes a Perception and Interaction Module that incorporates spatial relationships and establishes a cross-branch perception mechanism to enhance the precision and robustness of feature extraction. Additionally, a Patch-Mode joint Feature Fusion Module is introduced to address information loss in current methods. It considers different change modes and concerns about spatial relationships, resulting in more expressive fusion features. Furthermore, we construct a novel network using these two relationship concerned modules and conducted experiments on the LEVIR-CD and WHU Building datasets. The experimental results demonstrate that our network outperforms state-of-the-art (SOTA) methods while maintaining a modest parameter count. We believe our approach sets a new paradigm for change detection and will inspire further advancements in the field. The code and models are publicly available at https://github.com/Chnja/SRCNet.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# グラディエント・トレーニングにおけるデータ中毒に対する認証ロバスト性

Certified Robustness to Data Poisoning in Gradient-Based Training ( http://arxiv.org/abs/2406.05670v1 )

ライセンス: Link先を確認
Philip Sosnin, Mark N. Müller, Maximilian Baader, Calvin Tsay, Matthew Wicker, (参考訳) 現代の機械学習パイプラインは大量の公開データを活用するため、データ品質を保証できなくなり、毒やバックドア攻撃のモデルが開放される。 しかし、そのような攻撃の下でモデル動作を確実に束縛することは、未解決の問題である。 本研究では、この課題に対処し、潜在的に操作されたデータでトレーニングされたモデルの振る舞いを証明可能な保証を提供する最初のフレームワークを開発する。 特に,本フレームワークは,未標的および標的の毒殺に対する堅牢性,および入力操作とラベル操作の両方に対するバックドアアタックを証明している。 提案手法は凸緩和を利用して,所定の汚染脅威モデルに対して可能な全てのパラメータの集合を過剰に近似し,任意の勾配に基づく学習アルゴリズムに対して到達可能なパラメータの集合を束縛する。 このパラメータセットを考えると、モデルのパフォーマンスやバックドアの成功率など、最悪の場合の振る舞いのバウンダリを提供します。 我々は、エネルギー消費、医療画像、自律運転などの応用から、複数の実世界のデータセットに対するアプローチを実証する。

Modern machine learning pipelines leverage large amounts of public data, making it infeasible to guarantee data quality and leaving models open to poisoning and backdoor attacks. However, provably bounding model behavior under such attacks remains an open problem. In this work, we address this challenge and develop the first framework providing provable guarantees on the behavior of models trained with potentially manipulated data. In particular, our framework certifies robustness against untargeted and targeted poisoning as well as backdoor attacks for both input and label manipulations. Our method leverages convex relaxations to over-approximate the set of all possible parameter updates for a given poisoning threat model, allowing us to bound the set of all reachable parameters for any gradient-based learning algorithm. Given this set of parameters, we provide bounds on worst-case behavior, including model performance and backdoor success rate. We demonstrate our approach on multiple real-world datasets from applications including energy consumption, medical imaging, and autonomous driving.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 推論の流れ:ダイバージェント思考によるLCM政策の効率的な学習

Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking ( http://arxiv.org/abs/2406.05673v1 )

ライセンス: Link先を確認
Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin, (参考訳) 多様なソリューションを生み出す認知的プロセスであるダイバージェント思考は、人間の創造性と問題解決の目印である。 機械にとって、複雑な推論問題における多様な解軌跡のサンプリングは、堅牢な結果、データ拡張、モデル一般化の強化に不可欠である。 大きな言語モデル(LLM)は、しばしば高品質で多様な推論を生成するのに苦労する。 教師付き微調整は品質に役立つが、ソリューションの完全な多様性を捉えるためには広範な監視データが必要である。 あるいは、PPOのような強化学習手法は、収束思考と同様に、解の多様性を無視しながら、限られた高次解を見つけることを目的としている。 これらの制限に対処するために、我々は、最小限のデータで多様な推論を可能にする効率的なLLMトレーニングアプローチであるFlow of Reasoning (FoR)を提案する。 FoR は初期状態から終状態へのマルコフフローとして多段階 LLM 推論を定式化する。 この定式化により、原則化されたGFlowNetアプローチをポリシーとしてLLMを訓練し、非正規化された報酬に比例する確率を持つ複数の推論経路をサンプリングすることができる。 実験の結果、限られたトレーニングデータ(例:15例)を用いて、FoRは、具体的推論(BlocksWorld)、算術パズル解(Game24)、論理的推論(PrOntoQA)を含む3つのタスクにまたがる最先端の手法よりもはるかに優れた多様な高品質のソリューションを発見できることがわかった。 コードはhttps://github.com/Yu-Fangxu/FoR.comで入手できる。

Divergent thinking, the cognitive process of generating diverse solutions, is a hallmark of human creativity and problem-solving. For machines, sampling diverse solution trajectories in complex reasoning problems is crucial for robust outcomes, data augmentation, and enhanced model generalization. Large language models (LLMs) often struggle with generating high-quality, diverse reasoning. While supervised fine-tuning helps with quality, it requires extensive supervision data to capture the full diversity of solutions. Alternatively, reinforcement learning methods like PPO aim to find limited highest-reward solutions while neglecting the solution diversity, akin to convergent thinking. To address these limitations, we propose Flow of Reasoning (FoR) -- an efficient LLM training approach enabling diverse reasoning with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow from an initial state to terminal states. The formulation allows to adapt principled GFlowNet approaches to train the LLM as a policy, which is able to sample multiple reasoning paths with probabilities proportional to the unnormalized reward. Empirical results show that, with limited training data (e.g., 15 examples), FoR can discover diverse high-quality solutions that excel greatly beyond current state-of-the-art methods across three tasks, including embodied reasoning (BlocksWorld), math puzzle solving (Game24), and logical reasoning (PrOntoQA). Code is available at https://github.com/Yu-Fangxu/FoR.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 医用画像分類のための進化認識可変(EVA)コアセット選択

Evolution-aware VAriance (EVA) Coreset Selection for Medical Image Classification ( http://arxiv.org/abs/2406.05677v1 )

ライセンス: Link先を確認
Yuxin Hong, Xiao Zhang, Xin Zhang, Joey Tianyi Zhou, (参考訳) 医療分野では、特に遠隔医療施設やモバイルデバイスなどの資源限定環境において、高次元の大規模医療画像データを管理し、信頼性の高い医療分析を行うことが重要な課題である。 これは、ストレージ、送信、計算コストを削減するために効率的なデータセット圧縮技術を必要とする。 しかし、既存のコアセット選択方法は、主に自然画像データセット用に設計されており、クラス内変異やクラス間の類似性といった課題により、医療画像データセットに適用した場合に疑わしい効果を示す。 本稿では, モデル学習の進化過程を二重ウィンドウアプローチで捉え, 分散測定によりより正確にサンプル重要度の変動を反映する, 進化認識バリアンス (EVA) と呼ばれる新しいコアセット選択戦略を提案する。 医用画像データセットの大規模な実験は、従来のSOTA法、特に高い圧縮速度での戦略の有効性を実証している。 EVAは10%のトレーニングデータで98.27%の精度を達成しているが、完全なトレーニングセットでは97.20%である。 一方、EVAはRandomを5.61%上回り、効率的な医用画像解析の可能性を示している。

In the medical field, managing high-dimensional massive medical imaging data and performing reliable medical analysis from it is a critical challenge, especially in resource-limited environments such as remote medical facilities and mobile devices. This necessitates effective dataset compression techniques to reduce storage, transmission, and computational cost. However, existing coreset selection methods are primarily designed for natural image datasets, and exhibit doubtful effectiveness when applied to medical image datasets due to challenges such as intra-class variation and inter-class similarity. In this paper, we propose a novel coreset selection strategy termed as Evolution-aware VAriance (EVA), which captures the evolutionary process of model training through a dual-window approach and reflects the fluctuation of sample importance more precisely through variance measurement. Extensive experiments on medical image datasets demonstrate the effectiveness of our strategy over previous SOTA methods, especially at high compression rates. EVA achieves 98.27% accuracy with only 10% training data, compared to 97.20% for the full training set. None of the compared baseline methods can exceed Random at 5% selection rate, while EVA outperforms Random by 5.61%, showcasing its potential for efficient medical image analysis.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# SinkLoRA: 長期的大規模言語モデルにおける効率性とチャット機能の向上

SinkLoRA: Enhanced Efficiency and Chat Capabilities for Long-Context Large Language Models ( http://arxiv.org/abs/2406.05678v1 )

ライセンス: Link先を確認
Hengyu Zhang, (参考訳) 長いシーケンス長に対応するためにTransformerモデルの機能を拡張することは、重要な課題となっている。 この拡張は、言語翻訳や長文処理などのタスクの改善だけでなく、チャットボット、コード生成、マルチメディアコンテンツ生成といった新しいアプリケーションの実現にも不可欠である。 第一の障害は自己保持機構であり、計算時間とメモリ要求の観点から、シーケンス長を2次にスケールする。 LongLoRAはスパースアテンション(S\(^2\)-Attn)を導入し、コンテキスト拡張を効果的に実現し、バニラアテンションによる微調整に類似した性能を持つ非自明な計算を省いた。 しかしながら、LongLoRAは、バニラの注意ほど効率的ではないため、完全な注意に比べて、難易度の改善の39倍にしか達していない。 この非効率性は、異なるアテンションヘッドパターンに適用される循環シフトによって、アテンションヘッド構造におけるカオスやトークングループ間の不要な情報交換を引き起こす。 これらの問題に対処するために、より優れた作業分割を特徴とする \textbf{SinkLoRA} を提案する。 具体的には, SF-Attnをセグメント化, 再組換えアルゴリズムを用いて, 非シフト状態に周期的にシフトしたグループを「シンク・アテンション・トークン」のグローバルな注目とともに比例的に返却し, 微調整後のフルアテンションに比べて92倍のパープレキシティ改善を実現し, 2) SOTA KVキャッシュ圧縮アルゴリズムH$_2$Oを適用して推論を高速化した。 さらに,自己収集したLongAlpaca-plusデータセットを用いて,SinkLoRAを用いた教師あり微調整を行った。 コード、モデル、データセット、デモはすべて、 \url{https://github.com/Dexter-GT-86/SinkLoRA}で利用可能です。

Extending the functionality of the Transformer model to accommodate longer sequence lengths has become a critical challenge. This extension is crucial not only for improving tasks such as language translation and long-context processing but also for enabling novel applications like chatbots, code generation, and multimedia content creation. The primary obstacle is the self-attention mechanism, which scales quadratically with sequence length in terms of computation time and memory requirements. LongLoRA proposed shifted sparse attention (S\(^2\)-Attn), effectively enabling context extension and leading to non-trivial computation savings with similar performance to fine-tuning with vanilla attention. However, LongLoRA is still not as efficient as vanilla attention, reaching only 39\% of the perplexity improvement compared to full attention. This inefficiency is due to the cyclic shift applied within different attention head patterns, causing either chaos in the attention head structure or unnecessary information exchange between token groups. To address these issues, We propose \textbf{SinkLoRA}, which features better work partitioning. Specifically, (1) we developed SF-Attn with a segmentation and reassembly algorithm to proportionally return cyclically shifted groups of attention heads to their un-shifted state together with global attention of "sink attention tokens", achieving 92\% of the perplexity improvement compared to full attention after fine tuning, and (2) applied a SOTA KV cache compression algorithm H$_2$O to accelerate inference. Furthermore, We conducted supervised fine-tuning with SinkLoRA using a self collected LongAlpaca-plus dataset. All our code, models, datasets, and demos are available at \url{https://github.com/Dexter-GT-86/SinkLoRA}.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 基本的特徴から追加的特徴へ:高信号変換器プレトレイン・then-Finetuning による EHR の平衡臨床予測

From Basic to Extra Features: Hypergraph Transformer Pretrain-then-Finetuning for Balanced Clinical Predictions on EHR ( http://arxiv.org/abs/2406.05682v1 )

ライセンス: Link先を確認
Ran Xu, Yiwen Lu, Chang Liu, Yong Chen, Yan Sun, Xiao Hu, Joyce C Ho, Carl Yang, (参考訳) 電子健康記録 (Electronic Health Records, EHRs) は、豊富な患者情報を含んでおり、臨床研究や診療に不可欠である。 近年では、深層学習モデルがEHRに適用されているが、多くの場合、すべての患者に簡単には利用できないような大量の機能に依存している。 本稿では,HTP-Starを提案する。このHTP-Starは,EHRデータモデリングのための事前トレーニング-then-finetuneフレームワークでハイパーグラフ構造を活用することで,追加機能のシームレスな統合を実現する。 さらに,(1)平滑化誘導正則化と(2)群バランス再重み付けという2つの手法を設計し,微調整時のモデルの堅牢性を高める。 2つの実EHRデータセットを用いて行った実験により、HTP-Starは、基本的特徴を持つ患者と追加的特徴を持つ患者のバランスを保ちながら、様々なベースラインを一貫して上回ることを示した。

Electronic Health Records (EHRs) contain rich patient information and are crucial for clinical research and practice. In recent years, deep learning models have been applied to EHRs, but they often rely on massive features, which may not be readily available for all patients. We propose HTP-Star, which leverages hypergraph structures with a pretrain-then-finetune framework for modeling EHR data, enabling seamless integration of additional features. Additionally, we design two techniques, namely (1) Smoothness-inducing Regularization and (2) Group-balanced Reweighting, to enhance the model's robustness during fine-tuning. Through experiments conducted on two real EHR datasets, we demonstrate that HTP-Star consistently outperforms various baselines while striking a balance between patients with basic and extra features.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 量子コンピュータにおけるパーティションフラグメンテーションのシミュレーション

Simulating Parton Fragmentation on Quantum Computers ( http://arxiv.org/abs/2406.05683v1 )

ライセンス: Link先を確認
Tianyin Li, Hongxi Xing, Dan-Bo Zhang, (参考訳) 粒子フラグメンテーション関数(FF)は、高エネルギー衝突においてユビキタスに存在するハドロン生成の過程を理解するのに必須であるが、従来の格子法を用いて演算子定義を符号化することが難しいため、その第一原理決定は実現されていない。 本稿では、量子コンピューティング手法を用いてFFを評価するための第一歩となるフレームワークを提案する。 鍵となる要素は、量子状態に符号化された粒子の集まりにおいて、所望の型のハドロンをフィルタリングする半包含ハドロン演算子を構築することである。 数値シミュレーションを用いて,Nambu-Jona-Lasinioモデルを用いてその枠組みを説明する。 興味深いことに、半包摂ハドロン作用素は変分量子アルゴリズムを用いて効率的に構築できることが示されている。 さらに,量子ノイズの存在下でのFFを正確に計算するための誤差軽減手法を開発した。 我々の研究は、短期量子コンピュータ上でのQCDハドロン化を調査するための新たな道を開く。

Parton fragmentation functions (FFs) are indispensable for understanding processes of hadron production ubiquitously existing in high-energy collisions, but their first principle determination has never been realized due to the insurmountable difficulties in encoding their operator definition using traditional lattice methodology. We propose a framework that makes a first step for evaluating FFs utilizing quantum computing methodology. The key element is to construct a semi-inclusive hadron operator for filtering out hadrons of desired types in a collection of particles encoded in the quantum state. We illustrate the framework by elaborating on the Nambu-Jona-Lasinio model with numeral simulations. Remarkably, We show that the semi-inclusive hadron operator can be constructed efficiently with a variational quantum algorithm. Moreover, we develop error mitigation techniques tailed for accurately calculating the FFs in the presence of quantum noises. Our work opens a new avenue for investigating QCD hadronization on near-term quantum computers.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 人気のある機械学習ライブラリにおけるオープンソースコントリビュータプロファイルの理解

Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries ( http://arxiv.org/abs/2406.05685v1 )

ライセンス: Link先を確認
Jiawen Liu, Haoxiang Zhang, Ying Zou, (参考訳) 機械学習(ML)の人気が高まり、多くのオープンソースソフトウェア(OSS)コントリビュータがMLアプローチの開発と採用に興味を持っている。 MLコントリビュータの全体的な理解は、ML OSSの開発とメンテナンスの成功に不可欠である。 このような知識がなければ、ML OSSプロジェクトで非効率なリソース割り当てとコラボレーションを妨げるリスクがある。 既存の研究は、ユーザ調査によってMLコントリビュータが認識する困難と課題を理解することに焦点を当てている。 ソフトウェアリポジトリから追跡されたアクティビティに基づいたMLコントリビュータの理解の欠如。 本稿では,MLライブラリのコントリビュータプロファイルを識別することで,MLコントリビュータを理解することを目的とする。 さらに、ワークロードの構成、仕事の好み、技術的重要性の3つの側面から、コントリビュータのOSSエンゲージメントについて研究する。 6つの有名なMLライブラリ(TensorFlow、PyTorch、Keras、MXNet、Theano、ONNX)から7,640人のコントリビュータを調査して、Core-Afterhour、Core-Workhour、Peripheral-Afterhour、Peripheral-Workhourの4つのコントリビュータプロファイルを特定した。 以下に示す。 1) プロジェクト体験,登録ファイル,共同作業,地理的位置は,すべてのプロファイルの重要な特徴である。 2)コアプロファイルのコントリビュータは,周辺プロファイルと比較してOSSエンゲージメントが著しく異なる。 3)コントリビュータの作業好みと作業負荷構成がプロジェクトの人気に大きく影響します。 4) 長期的なコントリビュータは、少ない、一定の、バランスのとれた、少ない技術的コントリビューションへと進化します。

With the increasing popularity of machine learning (ML), many open-source software (OSS) contributors are attracted to developing and adopting ML approaches. Comprehensive understanding of ML contributors is crucial for successful ML OSS development and maintenance. Without such knowledge, there is a risk of inefficient resource allocation and hindered collaboration in ML OSS projects. Existing research focuses on understanding the difficulties and challenges perceived by ML contributors by user surveys. There is a lack of understanding of ML contributors based on their activities tracked from software repositories. In this paper, we aim to understand ML contributors by identifying contributor profiles in ML libraries. We further study contributors' OSS engagement from three aspects: workload composition, work preferences, and technical importance. By investigating 7,640 contributors from 6 popular ML libraries (TensorFlow, PyTorch, Keras, MXNet, Theano, and ONNX), we identify four contributor profiles: Core-Afterhour, Core-Workhour, Peripheral-Afterhour, and Peripheral-Workhour. We find that: 1) project experience, authored files, collaborations, and geographical location are significant features of all profiles; 2) contributors in Core profiles exhibit significantly different OSS engagement compared to Peripheral profiles; 3) contributors' work preferences and workload compositions significantly impact project popularity; 4) long-term contributors evolve towards making fewer, constant, balanced and less technical contributions.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 公正な自己教師型コントラスト学習のための確率的最適化

Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning ( http://arxiv.org/abs/2406.05686v1 )

ライセンス: Link先を確認
Qi Qi, Quanqi Hu, Qihang Lin, Tianbao Yang, (参考訳) 本稿では,自己教師付き学習(SSL)環境におけるフェアエンコーダの学習について検討する。 このシナリオには、ラベルのないデータに対するコントラスト損失を最小限に抑えつつ、機密属性を持つデータに対するセンシティブ属性予測の逆損失を最大化することにより、敵対的公正表現学習が適している。 それにもかかわらず、対向的公正表現学習の最適化は、非凸なミニマックスゲームを解決するために重要な課題を提示する。 この複雑さは、各アンカーデータポイントと他のすべての例とを対比する、グローバルなコントラスト損失を組み込むことで、より深くなります。 先進的な最適化手法をベースとして,大規模なバッチサイズを伴わずに,妥当な条件下で収束解析を行う確率論的アルゴリズムSoFCLRを提案する。 本研究では,8つのフェアネス概念を用いた下流分類における提案手法の有効性を示すため,広範囲な実験を行った。

This paper studies learning fair encoders in a self-supervised learning (SSL) setting, in which all data are unlabeled and only a small portion of them are annotated with sensitive attribute. Adversarial fair representation learning is well suited for this scenario by minimizing a contrastive loss over unlabeled data while maximizing an adversarial loss of predicting the sensitive attribute over the data with sensitive attribute. Nevertheless, optimizing adversarial fair representation learning presents significant challenges due to solving a non-convex non-concave minimax game. The complexity deepens when incorporating a global contrastive loss that contrasts each anchor data point against all other examples. A central question is ``{\it can we design a provable yet efficient algorithm for solving adversarial fair self-supervised contrastive learning}?'' Building on advanced optimization techniques, we propose a stochastic algorithm dubbed SoFCLR with a convergence analysis under reasonable conditions without requring a large batch size. We conduct extensive experiments to demonstrate the effectiveness of the proposed approach for downstream classification with eight fairness notions.
翻訳日:2024-06-11 18:36:48 公開日:2024-06-09
# 役割に基づく対話を伴う多言語・長期対話としてのピアレビュー

Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions ( http://arxiv.org/abs/2406.05688v1 )

ライセンス: Link先を確認
Cheng Tan, Dongxin Lyu, Siyuan Li, Zhangyang Gao, Jingxuan Wei, Siqi Ma, Zicheng Liu, Stan Z. Li, (参考訳) 大規模言語モデル (LLM) は、様々な分野にわたる幅広い応用を実証し、学術的なピアレビュープロセスにおいて大きな可能性を示している。 しかし、既存のアプリケーションは、提出された論文に基づく静的レビュー生成に限られており、現実のピアレビューの動的かつ反復的な性質を捉えていない。 本稿では、著者、レビュアー、意思決定者に対して異なる役割を担いながら、ピアレビュープロセスをマルチターン長文対話として再構築する。 我々は,トップレベルのカンファレンスや有名なジャーナルなど,複数の情報源から収集された92,017件のレビューを含む,26,841件以上の論文を含む包括的なデータセットを構築した。 このデータセットは、マルチターン対話におけるLLMの活用を促進するために慎重に設計されており、完全なピアレビュープロセスを効果的にシミュレートしている。 さらに、この改訂されたピアレビュー設定の下で、各ロールに対するLCMの性能を評価するための一連の指標を提案し、公正かつ包括的な評価を確実にする。 この研究は、動的、ロールベースの相互作用を取り入れることで、LLM駆動のピアレビュープロセスを強化する上で有望な視点を提供すると考えている。 それは、現実世界の学術的査読の反復的でインタラクティブな性質と密接に一致し、この分野における将来の研究と開発のための堅牢な基盤を提供する。 データセットはhttps://github.com/chengtan9907/ReviewMT.comで公開しています。

Large Language Models (LLMs) have demonstrated wide-ranging applications across various fields and have shown significant potential in the academic peer-review process. However, existing applications are primarily limited to static review generation based on submitted papers, which fail to capture the dynamic and iterative nature of real-world peer reviews. In this paper, we reformulate the peer-review process as a multi-turn, long-context dialogue, incorporating distinct roles for authors, reviewers, and decision makers. We construct a comprehensive dataset containing over 26,841 papers with 92,017 reviews collected from multiple sources, including the top-tier conference and prestigious journal. This dataset is meticulously designed to facilitate the applications of LLMs for multi-turn dialogues, effectively simulating the complete peer-review process. Furthermore, we propose a series of metrics to evaluate the performance of LLMs for each role under this reformulated peer-review setting, ensuring fair and comprehensive evaluations. We believe this work provides a promising perspective on enhancing the LLM-driven peer-review process by incorporating dynamic, role-based interactions. It aligns closely with the iterative and interactive nature of real-world academic peer review, offering a robust foundation for future research and development in this area. We open-source the dataset at https://github.com/chengtan9907/ReviewMT.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# MoPS:オープンエンディング自動ストーリー生成のためのモジュールストーリープリミズ合成

MoPS: Modular Story Premise Synthesis for Open-Ended Automatic Story Generation ( http://arxiv.org/abs/2406.05690v1 )

ライセンス: Link先を確認
Yan Ma, Yu Qiao, Pengfei Liu, (参考訳) ストーリーの前提は、ストーリーの主観、基礎、軌跡を簡潔に定義する。 自動ストーリ生成の初期トリガとして機能する。 既存のストーリ前提のソースは、多様性の欠如、不均一な品質、そしてスケーラビリティを難しくするコストによって制限されています。 そこで本研究では,ストーリーの前提を背景やペルソナなどのモジュールに分割して自動設計と生成を行うMoPS(Modular Story Premise Synthesis)を提案する。 MoPSは3つのフェーズから構成される: 1) ネストした辞書を形成するために各モジュールに対して一貫した候補セットをプリコンパイルする。 2) 前提設計としてネスト辞書からキーパスを抽出する。 (3) LLM に設計を一貫性のある前提文に統合するように指示する。 より詳細な評価により、我々の合成された施設は、大規模な言語モデルから引き起こされ、公開ストーリーデータセットから得られたものと比較して多様性、魅力、完全性、独創性に優れていたことが示される。 同様に、我々の施設から生成された拡張小説や脚本も、より高い品質を示している。 補足的な資料では、MoPSコードスイートと7.6kの生成した前提と1kの拡張ストーリーを提供しています。 コード:https://github.com/GAIR-NLP/MoPS。

A story premise succinctly defines a story's main idea, foundation, and trajectory. It serves as the initial trigger in automatic story generation. Existing sources of story premises are limited by a lack of diversity, uneven quality, and high costs that make them difficult to scale. In response, we introduce Modular Story Premise Synthesis (MoPS) which breaks down story premises into modules like background and persona for automated design and generation. MoPS consists of three phases: (1) Precollect a consistent set of candidates for each module to form a nested dictionary. (2) Extract a key path from the nested dictionary as the premise design. (3) Instruct an LLM to integrate the design into a coherent premise sentence. Thorough evaluations demonstrate that our synthesized premises excel in diversity, fascination, completeness, and originality compared to those induced from large language models and captured from public story datasets. Similarly, the extended novels and scripts generated from our premises also exhibit higher quality. In supplementary materials, we provide the MoPS code suite, along with 7.6k generated premises and 1k extended stories. Code: https://github.com/GAIR-NLP/MoPS.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# 疎結合構造に基づくシーンにおける多次元ヒューマンポース生成

Diverse 3D Human Pose Generation in Scenes based on Decoupled Structure ( http://arxiv.org/abs/2406.05691v1 )

ライセンス: Link先を確認
Bowen Dang, Xi Zhao, (参考訳) 本稿では,セマンティックコントロールによるシーン内の多様な3次元ポーズを生成する新しい手法を提案する。 既存の手法は人間とシーンのインタラクションデータセットに大きく依存しており、それによって生成された人間のポーズの多様性が制限される。 この課題を克服するために、ポーズとインタラクションの生成プロセスを分離することを提案する。 私たちのアプローチは、ポーズ生成、コンタクト生成、シーンに人間を配置する3つのステージで構成されています。 我々は、人間のデータセットにポーズジェネレータをトレーニングし、よりリッチなポーズを学習し、人間とシーンのインタラクションデータセットにコンタクトジェネレータをトレーニングし、人間とシーンの接触を事前に学習する。 最後に、配置モジュールは人体を適切な自然の方法でシーンに配置する。 PROXデータセットを用いた実験結果から,本手法はより物理的に妥当な相互作用を生み出し,より多様な人間のポーズを示すことが示された。 さらに,MP3D-Rデータセットを用いた実験により,本手法の一般化能力をさらに検証した。

This paper presents a novel method for generating diverse 3D human poses in scenes with semantic control. Existing methods heavily rely on the human-scene interaction dataset, resulting in a limited diversity of the generated human poses. To overcome this challenge, we propose to decouple the pose and interaction generation process. Our approach consists of three stages: pose generation, contact generation, and putting human into the scene. We train a pose generator on the human dataset to learn rich pose prior, and a contact generator on the human-scene interaction dataset to learn human-scene contact prior. Finally, the placing module puts the human body into the scene in a suitable and natural manner. The experimental results on the PROX dataset demonstrate that our method produces more physically plausible interactions and exhibits more diverse human poses. Furthermore, experiments on the MP3D-R dataset further validates the generalization ability of our method.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# エントロピー解の低ランクニューラル表現

A Low Rank Neural Representation of Entropy Solutions ( http://arxiv.org/abs/2406.05694v1 )

ライセンス: Link先を確認
Donsub Rim, Gerrit Welper, (参考訳) 本研究では, 平滑な凸束関数を持つ非線形スカラー保存法則に対するエントロピー解の新しい表現を構築した。 この表現は特徴の方法の一般化であり、構成形式に当てはまる。 非線形表現であるが、時間変数における解の埋め込み力学は線型である。 この表現は、フィードフォワードニューラルネットワークアーキテクチャが低階構造を持つ暗黙のニューラルネットワーク表現の多様体として識別される。 最後に, 衝撃トポロジーの複雑さによらず, 一定の層数と少数の係数を持つ低階神経表現は, 埋め込み力学の線形性を維持しつつ, エントロピー解を近似することができることを示す。

We construct a new representation of entropy solutions to nonlinear scalar conservation laws with a smooth convex flux function in a single spatial dimension. The representation is a generalization of the method of characteristics and posseses a compositional form. While it is a nonlinear representation, the embedded dynamics of the solution in the time variable is linear. This representation is then discretized as a manifold of implicit neural representations where the feedforward neural network architecture has a low rank structure. Finally, we show that the low rank neural representation with a fixed number of layers and a small number of coefficients can approximate any entropy solution regardless of the complexity of the shock topology, while retaining the linearity of the embedded dynamics.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# フローマッチングに基づくゼロショットTSにおけるノイズロバスト性の検討

An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS ( http://arxiv.org/abs/2406.05699v1 )

ライセンス: Link先を確認
Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Yufei Xia, Jinzhu Li, Sheng Zhao, Jinyu Li, Naoyuki Kanda, (参考訳) 近年,短い音声プロンプトから任意の話者の声を合成できるゼロショット音声合成システム(TTS)が急速に進歩している。 しかし、音声のプロンプトにノイズが含まれている場合、生成音声の品質は著しく低下し、この問題に対処するための限定的な研究がなされている。 本稿では,フローマッチングに基づくゼロショットTSの文脈において,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討した。 本研究は、マスク付き音声認識による教師なし事前学習、事前学習データに基づくマルチスピーカ検出とDNSMOSに基づくデータフィルタリング、ランダムノイズミキシングによる微調整を含む総合的なトレーニング戦略を含む。 実験の結果,音声プロンプトへの音声強調のアプローチと比較して,インテリジェンス,話者の類似性,音声品質の大幅な改善が示された。

Recently, zero-shot text-to-speech (TTS) systems, capable of synthesizing any speaker's voice from a short audio prompt, have made rapid advancements. However, the quality of the generated speech significantly deteriorates when the audio prompt contains noise, and limited research has been conducted to address this issue. In this paper, we explored various strategies to enhance the quality of audio generated from noisy audio prompts within the context of flow-matching-based zero-shot TTS. Our investigation includes comprehensive training strategies: unsupervised pre-training with masked speech denoising, multi-speaker detection and DNSMOS-based data filtering on the pre-training data, and fine-tuning with random noise mixing. The results of our experiments demonstrate significant improvements in intelligibility, speaker similarity, and overall audio quality compared to the approach of applying speech enhancement to the audio prompt.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# HDMba: 状態空間モデルによるハイパースペクトルリモートセンシング画像のデハジング

HDMba: Hyperspectral Remote Sensing Imagery Dehazing with State Space Model ( http://arxiv.org/abs/2406.05700v1 )

ライセンス: Link先を確認
Hang Fu, Genyun Sun, Yinhe Li, Jinchang Ren, Aizhu Zhang, Cheng Jing, Pedram Ghamisi, (参考訳) ハイパースペクトルリモートセンシング画像(HSI)におけるヘイズ汚染は、空間的な可視性劣化とスペクトル歪みを引き起こす。 HSIのヘイズは、空間的不規則性と不均一なスペクトル分布を示し、デハジングネットワークはほとんど利用できない。 現在のCNNとTransformerベースのデハージング手法は、グローバルシーンの回復、局所的な詳細保持、計算効率のバランスが取れない。 線形複雑性を伴う長距離依存性をモデル化するMambaの能力に触発されて,HSI脱ハージングの可能性を探り,HSI脱ハージングMamba(HDMba)ネットワークを提案する。 具体的には、ウィンドウ内の局所的依存関係とウィンドウ間の大域的相関を分割してキャプチャする新しいウィンドウ選択スキャンモジュール(WSSM)を設計する。 このアプローチは,局所特徴抽出における従来のマンバの能力を向上させる。 局所的および大域的スペクトル空間情報フローをモデル化することにより,ハジー領域の包括的解析を実現する。 WSSM によって構築された DehazeMamba 層 (DML) と DML から構成される残余な DehazeMamba (RDM) ブロックは HDMba フレームワークの中核コンポーネントである。 これらの成分は、シーンの再構築と脱ヘイを支援するHSIにおけるヘイズの複雑な分布を効果的に特徴づける。 Gaofen-5 HSIデータセットの実験結果から、HDMbaは他の最先端手法よりも性能が優れていることが示された。 コードはhttps://github.com/RsAI-lab/HDMba.comで入手できる。

Haze contamination in hyperspectral remote sensing images (HSI) can lead to spatial visibility degradation and spectral distortion. Haze in HSI exhibits spatial irregularity and inhomogeneous spectral distribution, with few dehazing networks available. Current CNN and Transformer-based dehazing methods fail to balance global scene recovery, local detail retention, and computational efficiency. Inspired by the ability of Mamba to model long-range dependencies with linear complexity, we explore its potential for HSI dehazing and propose the first HSI Dehazing Mamba (HDMba) network. Specifically, we design a novel window selective scan module (WSSM) that captures local dependencies within windows and global correlations between windows by partitioning them. This approach improves the ability of conventional Mamba in local feature extraction. By modeling the local and global spectral-spatial information flow, we achieve a comprehensive analysis of hazy regions. The DehazeMamba layer (DML), constructed by WSSM, and residual DehazeMamba (RDM) blocks, composed of DMLs, are the core components of the HDMba framework. These components effectively characterize the complex distribution of haze in HSIs, aiding in scene reconstruction and dehazing. Experimental results on the Gaofen-5 HSI dataset demonstrate that HDMba outperforms other state-of-the-art methods in dehazing performance. The code will be available at https://github.com/RsAI-lab/HDMba.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# 階層的特徴: 改良されたデータセット蒸留のためのGAN事前探索

Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation ( http://arxiv.org/abs/2406.05704v1 )

ライセンス: Link先を確認
Xinhao Zhong, Hao Fang, Bin Chen, Xulin Gu, Tao Dai, Meikang Qiu, Shu-Tao Xia, (参考訳) データセット蒸留は、タスク精度を維持しながら大規模データセットを凝縮する、新たなデータセット削減手法である。 現在の手法は、最適化空間をピクセルから他の情報的特徴領域にシフトさせることで、合成データセットのパフォーマンスを向上させるために、パラメータ化技術を統合している。 しかし、これらは蒸留のための固定された最適化空間に制限され、様々な情報的潜在空間にわたる多様なガイダンスを無視している。 この制限を克服するために,GAN内の階層層を体系的に探索する階層的生成遅延蒸留(H-GLaD)と呼ばれる新しいパラメータ化手法を提案する。 これにより、初期潜在空間から最終ピクセル空間へ徐々に広がることができる。 さらに,合成データセット評価に伴う計算負担を軽減し,合成データセットとオリジナルデータセットのギャップを埋めるために,新しいクラス関連特徴距離尺度を導入する。 実験結果から,提案したH-GLaDは同一アーキテクチャと相互アーキテクチャの両方の性能を同等の時間消費で向上することが示された。

Dataset distillation is an emerging dataset reduction method, which condenses large-scale datasets while maintaining task accuracy. Current methods have integrated parameterization techniques to boost synthetic dataset performance by shifting the optimization space from pixel to another informative feature domain. However, they limit themselves to a fixed optimization space for distillation, neglecting the diverse guidance across different informative latent spaces. To overcome this limitation, we propose a novel parameterization method dubbed Hierarchical Generative Latent Distillation (H-GLaD), to systematically explore hierarchical layers within the generative adversarial networks (GANs). This allows us to progressively span from the initial latent space to the final pixel space. In addition, we introduce a novel class-relevant feature distance metric to alleviate the computational burden associated with synthetic dataset evaluation, bridging the gap between synthetic and original datasets. Experimental results demonstrate that the proposed H-GLaD achieves a significant improvement in both same-architecture and cross-architecture performance with equivalent time consumption.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# QGEval: 質問生成評価ベンチマーク

QGEval: A Benchmark for Question Generation Evaluation ( http://arxiv.org/abs/2406.05707v1 )

ライセンス: Link先を確認
Weiping Fu, Bifan Wei, Jianxiang Hu, Zhongmin Cai, Jun Liu, (参考訳) 自動生成された質問は、しばしば不明瞭な表現や事実的不正確さのような問題に悩まされ、その品質の信頼性と包括的な評価を必要とする。 人間の評価は質問生成(QG)の分野で頻繁に使われており、最も正確な評価方法の1つである。 また、自動メトリクスの標準としても機能する。 しかし、統一評価基準が欠如しており、QG技術と自動評価手法の両方の開発を妨げている。 そこで本研究では,質問生成のための多次元評価ベンチマークであるQGEvalを提案する。このベンチマークは,生成した質問と既存の7次元にわたる自動メトリクス(流速,明瞭度,簡潔性,妥当性,一貫性,応答性,応答性)を評価する。 これらの次元の妥当性を,それらの相関関係と相違点を調べて示す。 QGEvalによる分析が明らかに 1)ほとんどのQGモデルは、応答可能性と応答整合性の観点から不満足に機能し、 2) 既存の指標は、7次元にわたって生成された質問を評価する際に、人間の評価とうまく一致しない。 この作業は、QG技術とQGのための自動メトリクスの両方の開発を促進することが期待されている。

Automatically generated questions often suffer from problems such as unclear expression or factual inaccuracies, requiring a reliable and comprehensive evaluation of their quality. Human evaluation is frequently used in the field of question generation (QG) and is one of the most accurate evaluation methods. It also serves as the standard for automatic metrics. However, there is a lack of unified evaluation criteria, which hampers the development of both QG technologies and automatic evaluation methods. To address this, we propose QGEval, a multi-dimensional Evaluation benchmark for Question Generation, which evaluates both generated questions and existing automatic metrics across 7 dimensions: fluency, clarity, conciseness, relevance, consistency, answerability, and answer consistency. We demonstrate the appropriateness of these dimensions by examining their correlations and distinctions. Analysis with QGEval reveals that 1) most QG models perform unsatisfactorily in terms of answerability and answer consistency, and 2) existing metrics fail to align well with human assessments when evaluating generated questions across the 7 dimensions. We expect this work to foster the development of both QG technologies and automatic metrics for QG.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# TR2MTL:LLMを用いた交通ルールの時空間論理形式化のためのフレームワーク

TR2MTL: LLM based framework for Metric Temporal Logic Formalization of Traffic Rules ( http://arxiv.org/abs/2406.05709v1 )

ライセンス: Link先を確認
Kumar Manas, Stefan Zwicklbauer, Adrian Paschke, (参考訳) 交通規則の定式化は、自動運転車(AV)のコンプライアンスと安全性を検証するために重要である。 しかし、自然言語のトラフィックルールを形式的な仕様として手動で翻訳するにはドメイン知識と論理の専門知識が必要であるため、適応は制限される。 本稿では,大規模言語モデル(LLM)を用いて,交通ルール(TR)を計量時間論理(MTL)に自動翻訳するフレームワークであるTR2MTLを紹介する。 AVルールの形式化のためのヒューマン・イン・ループ・システムとして構想されている。 チェーン・オブ・コンテクスト・ラーニング・アプローチを用いて、LLMをステップバイステップの翻訳でガイドし、有効で文法的に正しいMTL式を生成する。 時間論理や規則の様々な形式に拡張することができる。 このフレームワークを,様々なソースから作成したトラフィックルールの挑戦的データセット上で評価し,異なるコンテキスト内学習手法を用いてLLMと比較した。 その結果、TR2MTLはドメインに依存しないため、小さなデータセットであっても高い精度と一般化能力が得られることがわかった。 さらに,非構造化交通規則における論理的・意味的構造が変化する公式を効果的に予測する。

Traffic rules formalization is crucial for verifying the compliance and safety of autonomous vehicles (AVs). However, manual translation of natural language traffic rules as formal specification requires domain knowledge and logic expertise, which limits its adaptation. This paper introduces TR2MTL, a framework that employs large language models (LLMs) to automatically translate traffic rules (TR) into metric temporal logic (MTL). It is envisioned as a human-in-loop system for AV rule formalization. It utilizes a chain-of-thought in-context learning approach to guide the LLM in step-by-step translation and generating valid and grammatically correct MTL formulas. It can be extended to various forms of temporal logic and rules. We evaluated the framework on a challenging dataset of traffic rules we created from various sources and compared it against LLMs using different in-context learning methods. Results show that TR2MTL is domain-agnostic, achieving high accuracy and generalization capability even with a small dataset. Moreover, the method effectively predicts formulas with varying degrees of logical and semantic structure in unstructured traffic rules.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# 重り付きバンドのほぼ最適レグレットを用いたデータ駆動上層信頼境界

Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits ( http://arxiv.org/abs/2406.05710v1 )

ライセンス: Link先を確認
Ambrus Tamás, Szabolcs Szentpéteri, Balázs Csanád Csáji, (参考訳) 確率的マルチアームバンディット(MAB)は、不確実な環境でのシーケンシャルな意思決定を研究するための基本的な強化学習モデルを提供する。 上位信頼境界(UCB)アルゴリズムは、様々なモーメント仮定の下でほぼ最適の後悔率を達成するため、帯域幅アルゴリズムのルネッサンスを生んだ。 近年まで、ほとんどの UCB 法は濃度不等式に依存しており、実際には知られていない分散プロキシのようなモーメントパラメータに依存する信頼境界に繋がる。 本稿では,対称な報酬分布のための分布自由データ駆動型UPBアルゴリズムを提案し,モーメント情報を必要としない。 鍵となるアイデアは、最近開発されたRMM(resampled central-of-means)法の洗練された片側バージョンと UCB を組み合わせることである。 パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。

Stochastic multi-armed bandits (MABs) provide a fundamental reinforcement learning model to study sequential decision making in uncertain environments. The upper confidence bounds (UCB) algorithm gave birth to the renaissance of bandit algorithms, as it achieves near-optimal regret rates under various moment assumptions. Up until recently most UCB methods relied on concentration inequalities leading to confidence bounds which depend on moment parameters, such as the variance proxy, that are usually unknown in practice. In this paper, we propose a new distribution-free, data-driven UCB algorithm for symmetric reward distributions, which needs no moment information. The key idea is to combine a refined, one-sided version of the recently developed resampled median-of-means (RMM) method with UCB. We prove a near-optimal regret bound for the proposed anytime, parameter-free RMM-UCB method, even for heavy-tailed distributions.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# データ駆動状態表現による未知の量子状態の制御

Controlling Unknown Quantum States via Data-Driven State Representations ( http://arxiv.org/abs/2406.05711v1 )

ライセンス: Link先を確認
Yan Zhu, Tailong Xiao, Guihua Zeng, Giulio Chiribella, Yadong Wu, (参考訳) 量子状態の正確な制御は、量子コンピューティングや他の量子技術にとって重要である。 基本的なシナリオでは、そのタスクは、制御操作のシーケンスを通じて、量子システムを目標状態に向けて操ることである。 しかし、適切な操作を決定するには、一般にシステムの初期状態に関する情報が必要となる。 初期状態が既知でない場合、この情報を集めることは、一般にサイズが大きくなる量子系にとって困難である。 この問題に対処するために,少量の測定データを用いてシステム状態の表現を構築する機械学習アルゴリズムを開発した。 このアルゴリズムは、このデータ駆動表現と対象状態の表現を比較し、強化学習を用いて適切な制御操作を出力し、未知の多体量子状態と非ガウス連続変数状態の正確な制御を実現するアルゴリズムの有効性を示す。

Accurate control of quantum states is crucial for quantum computing and other quantum technologies. In the basic scenario, the task is to steer a quantum system towards a target state through a sequence of control operations. Determining the appropriate operations, however, generally requires information about the initial state of the system. When the initial state is not {\em a priori} known, gathering this information is generally challenging for quantum systems of increasing size. To address this problem, we develop a machine-learning algorithm that uses a small amount of measurement data to construct a representation of the system's state. The algorithm compares this data-driven representation with the representation of the target state, and uses reinforcement learning to output the appropriate control operations.We illustrate the effectiveness of the algorithm showing that it achieves accurate control of unknown many-body quantum states and non-Gaussian continuous-variable states using data from a limited set of quantum measurements.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# スマートコントラクトアップグレードの特性のデミステレーション

Demystifying the Characteristics for Smart Contract Upgrades ( http://arxiv.org/abs/2406.05712v1 )

ライセンス: Link先を確認
Ye Liu, Shuo Li, Xiuheng Wu, Yi Li, Zhiyang Chen, David Lo, (参考訳) アップデート可能なスマートコントラクトは、定期的なメンテナンス、セキュリティパッチ、機能追加をサポートするために、分散アプリケーションエコシステムにおいて重要な役割を果たす。 本稿では,契約更新の特徴を理解するために,プロキシベースのアップグレード可能なスマートコントラクトに関する実証的研究を行う。 57,118のオープンソースプロキシ契約に関する調査を通じて、583のコントラクトがEthereumにアップグレードされたことが分かりました。 結果として、開発者はしばしば、機能の追加と更新が最も頻繁に行われるアップグレードの意図である、アップグレード時にコントラクトのユーザビリティを改善するつもりであることを示している。 互換性問題やストレージの衝突,セキュリティ上の脆弱性につながる初期化リスクの原因となる変更の破滅など,契約アップグレードの実践的影響について検討した。 結果として、276のプロキシのアップグレードによる4,334のABIの破壊的変更があり、ブロックチェーンが目撃した584トランザクション内で実際の使用が壊れた。

Upgradable smart contracts play an important role in the decentralized application ecosystem, to support routine maintenance, security patching, and feature additions. In this paper, we conduct an empirical study on proxy-based upgradable smart contracts to understand the characteristics of contract upgrading. Through our study on 57,118 open source proxy contracts, we found that 583 contracts have ever been upgraded on Ethereum, involving 973 unique implementation contract versions. The results show that developers often intend to improve usability of contracts if upgrading, where functionality addition and update are the most frequent upgrade intentions. We investigated the practical impacts of contract upgrades, e.g., breaking changes causing compatibility issues, storage collisions and initialization risks leading to security vulnerabilities. The results demonstrate that there are 4,334 ABI breaking changes due to the upgrades of 276 proxies, causing real-world broken usages within 584 transactions witnessed by the blockchain; 36 contract upgrades had storage collisions and five proxies with 59 implementation contracts are vulnerable to initialization attacks.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# コンテキスト連続帯域:静的Versus動的レグレット

Contextual Continuum Bandits: Static Versus Dynamic Regret ( http://arxiv.org/abs/2406.05714v1 )

ライセンス: Link先を確認
Arya Akhavan, Karim Lounici, Massimiliano Pontil, Alexandre B. Tsybakov, (参考訳) 本研究では,学習者が側情報ベクトルを逐次受信し,コンベックスセットのアクションを選択する場合のコンテキスト連続帯域幅問題について検討し,コンテキストに関連付けられた関数を最小化する。 目標は、受信したコンテキストのすべての基礎となる関数を最小化することであり、標準的な静的な後悔よりも強い、動的な(コンテキスト的な)後悔の概念に繋がる。 目的関数が文脈に関して「より古い」と仮定すると、線形な静的な後悔を達成するアルゴリズムは、線形な動的後悔を達成するために拡張可能であることを示す。 さらに,観測がうるさい場合の凸面と滑らかな関数について検討した。 インテリアポイント法にインスパイアされ,自己協和障壁を用いるアルゴリズムを提案する。 最後に、2つの重要な事実を暗示するミニマックス下界を示す。 第一に、文脈に関して連続でない関数に対して線形な動的後悔を達成するアルゴリズムは存在しない。 第二に、強い凸と滑らかな関数に対して、提案するアルゴリズムは対数係数まで、クエリ数の関数としての動的後悔の最小値である。

We study the contextual continuum bandits problem, where the learner sequentially receives a side information vector and has to choose an action in a convex set, minimizing a function associated to the context. The goal is to minimize all the underlying functions for the received contexts, leading to a dynamic (contextual) notion of regret, which is stronger than the standard static regret. Assuming that the objective functions are H\"older with respect to the contexts, we demonstrate that any algorithm achieving a sub-linear static regret can be extended to achieve a sub-linear dynamic regret. We further study the case of strongly convex and smooth functions when the observations are noisy. Inspired by the interior point method and employing self-concordant barriers, we propose an algorithm achieving a sub-linear dynamic regret. Lastly, we present a minimax lower bound, implying two key facts. First, no algorithm can achieve sub-linear dynamic regret over functions that are not continuous with respect to the context. Second, for strongly convex and smooth functions, the algorithm that we propose achieves, up to a logarithmic factor, the minimax optimal rate of dynamic regret as a function of the number of queries.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# VillagerAgent:Minecraftの複雑なタスク依存をコーディネートするためのグラフベースのマルチエージェントフレームワーク

VillagerAgent: A Graph-Based Multi-Agent Framework for Coordinating Complex Task Dependencies in Minecraft ( http://arxiv.org/abs/2406.05720v1 )

ライセンス: Link先を確認
Yubo Dong, Xukun Zhu, Zhengzhe Pan, Linchao Zhu, Yi Yang, (参考訳) 本稿では,空間的,因果的,時間的制約を含む複雑な依存関係に対して,マルチエージェントシステムを評価することを目的とする。 VillagerBenchは,ワークロードの分散から動的適応,同期タスクの実行に至るまで,マルチエージェントコラボレーションのさまざまな側面をテストするために開発された多様なタスクから構成される。 第2に、複雑なエージェント間の依存関係を解消し、協調効率を高めるための、非巡回グラフ多エージェントフレームワーク VillagerAgent を導入する。 本ソリューションは、構造化されたタスク管理のための有向非循環グラフ(DAG)を作成するタスクデコンパイラ、タスク分散のためのエージェントコントローラ、環境およびエージェントデータを追跡する状態マネージャを含む。 VillagerBenchに関する実証的な評価は、VillierAgentが既存のAgentVerseモデルより優れ、幻覚を減らし、タスクの分解効率を向上させることを示した。 この結果は、動的環境においてスケーラブルで一般化可能なソリューションを提供する、マルチエージェントコラボレーションの進展におけるVillierAgentの可能性を裏付けている。 ソースコードはGitHubで公開されている(https://github.com/cnsdqd-dyb/VillagerAgent)。

In this paper, we aim to evaluate multi-agent systems against complex dependencies, including spatial, causal, and temporal constraints. First, we construct a new benchmark, named VillagerBench, within the Minecraft environment.VillagerBench comprises diverse tasks crafted to test various aspects of multi-agent collaboration, from workload distribution to dynamic adaptation and synchronized task execution. Second, we introduce a Directed Acyclic Graph Multi-Agent Framework VillagerAgent to resolve complex inter-agent dependencies and enhance collaborative efficiency. This solution incorporates a task decomposer that creates a directed acyclic graph (DAG) for structured task management, an agent controller for task distribution, and a state manager for tracking environmental and agent data. Our empirical evaluation on VillagerBench demonstrates that VillagerAgent outperforms the existing AgentVerse model, reducing hallucinations and improving task decomposition efficacy. The results underscore VillagerAgent's potential in advancing multi-agent collaboration, offering a scalable and generalizable solution in dynamic environments. The source code is open-source on GitHub (https://github.com/cnsdqd-dyb/VillagerAgent).
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# ALGO:オープンワールド・エゴセントリックな行動認識のためのオブジェクト指向ビジュアルコモンセンス推論

ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition ( http://arxiv.org/abs/2406.05722v1 )

ライセンス: Link先を確認
Sanjoy Kundu, Shubham Trehan, Sathyanarayanan N. Aakur, (参考訳) オープンな世界でラベルを推論すること、すなわち「ラベル」が未知の環境で学習することは、自主性を達成する上で重要な特徴である。 膨大なデータに基づいて事前訓練された基礎モデルは、特にゼロショット推論において、プロンプトを通じて顕著な一般化スキルを示してきた。 しかし、その性能は対象ラベルの検索空間の正しさに制限される。 オープンな世界では、この対象の探索空間は未知あるいは例外的に巨大であり、そのようなモデルの性能を著しく制限する。 この課題に対処するために,大規模知識ベースに蓄積された記号的知識を用いて,二つのステップを用いて限定的な監視を行う,ALGO-Action Learning with Grounded Object Recognitionというニューロシンボリックフレームワークを提案する。 まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。 第2に、事前のコモンセンス知識によって、エネルギーに基づくシンボリックパターン理論の枠組みを通して、プラプティブルな活動を発見し、ビデオ内の知識に基づく行動(動詞)の概念を学習する。 公開データセット(EPIC-Kitchens、GTEA Gaze、GTEA Gaze Plus)に関する大規模な実験は、オープンワールドのアクティビティ推論のパフォーマンスを実証している。

Learning to infer labels in an open world, i.e., in an environment where the target "labels" are unknown, is an important characteristic for achieving autonomy. Foundation models pre-trained on enormous amounts of data have shown remarkable generalization skills through prompting, particularly in zero-shot inference. However, their performance is restricted to the correctness of the target label's search space. In an open world, this target search space can be unknown or exceptionally large, which severely restricts the performance of such models. To tackle this challenging problem, we propose a neuro-symbolic framework called ALGO - Action Learning with Grounded Object recognition that uses symbolic knowledge stored in large-scale knowledge bases to infer activities in egocentric videos with limited supervision using two steps. First, we propose a neuro-symbolic prompting approach that uses object-centric vision-language models as a noisy oracle to ground objects in the video through evidence-based reasoning. Second, driven by prior commonsense knowledge, we discover plausible activities through an energy-based symbolic pattern theory framework and learn to ground knowledge-based action (verb) concepts in the video. Extensive experiments on four publicly available datasets (EPIC-Kitchens, GTEA Gaze, GTEA Gaze Plus) demonstrate its performance on open-world activity inference.
翻訳日:2024-06-11 18:27:03 公開日:2024-06-09
# 画像超解像に対する二元拡散モデル

Binarized Diffusion Model for Image Super-Resolution ( http://arxiv.org/abs/2406.05723v1 )

ライセンス: Link先を確認
Zheng Chen, Haotong Qin, Yong Guo, Xiongfei Su, Xin Yuan, Linghe Kong, Yulun Zhang, (参考訳) 高度な拡散モデル(DM)は、画像超解像(SR)において顕著に機能するが、高いメモリと計算コストは、その展開を妨げる。 超圧縮アルゴリズムであるバイナリ化は、効果的にDMを加速する可能性を提供する。 それにもかかわらず、モデル構造とDMの多段階反復特性により、既存の二項化法は性能を著しく低下させる。 本稿では,画像SRのための新しい二項化拡散モデルBI-DiffSRを提案する。 まず、モデル構造について、二項化に最適化されたUNetアーキテクチャを設計する。 本研究では,一貫した画素ダウンサンプル (CP-Down) と一貫したピクセルアップサンプル (CP-Up) を提案する。 一方,通信路シャッフル融合(CS-Fusion)を設計し,スキップ接続における機能融合を強化する。 第2に、タイムステップ間のアクティベーション差に対して、タイムステップ対応再分配(TaR)とアクティベーション機能(TaA)を設計する。 TaRとTaAは、異なるタイムステップに基づいてアクティベーションの分布を動的に調整し、二項化モジュールの柔軟性と表現性を向上させる。 BI-DiffSRが既存のバイナライゼーション法より優れていることを示す総合実験を行った。 コードはhttps://github.com/zhengchen 1999/BI-DiffSRで公開されている。

Advanced diffusion models (DMs) perform impressively in image super-resolution (SR), but the high memory and computational costs hinder their deployment. Binarization, an ultra-compression algorithm, offers the potential for effectively accelerating DMs. Nonetheless, due to the model structure and the multi-step iterative attribute of DMs, existing binarization methods result in significant performance degradation. In this paper, we introduce a novel binarized diffusion model, BI-DiffSR, for image SR. First, for the model structure, we design a UNet architecture optimized for binarization. We propose the consistent-pixel-downsample (CP-Down) and consistent-pixel-upsample (CP-Up) to maintain dimension consistent and facilitate the full-precision information transfer. Meanwhile, we design the channel-shuffle-fusion (CS-Fusion) to enhance feature fusion in skip connection. Second, for the activation difference across timestep, we design the timestep-aware redistribution (TaR) and activation function (TaA). The TaR and TaA dynamically adjust the distribution of activations based on different timesteps, improving the flexibility and representation alability of the binarized module. Comprehensive experiments demonstrate that our BI-DiffSR outperforms existing binarization methods. Code is available at https://github.com/zhengchen1999/BI-DiffSR.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 人工知能を用いた認識分析 : 学際的視点

Deception Analysis with Artificial Intelligence: An Interdisciplinary Perspective ( http://arxiv.org/abs/2406.05724v1 )

ライセンス: Link先を確認
Stefan Sarkadi, (参考訳) 人間と機械は、これまで以上に頻繁に対話し、私たちの社会はますますハイブリッドになりつつある。 このハイブリダイゼーションの結果は、AIによる詐欺の頻度による社会的信頼の低下である。 しかし、近年のAIにおける信頼の役割について理解しているにもかかわらず、この文脈で嘘が果たす役割を完全に理解し説明できる計算理論はいまだに存在しない。 ハイブリッド社会における騙しを説明する能力が遅れている一方で、AIエージェントの設計は、完全に自律的な騙しマシンへと進み続ける可能性があるため、騙しに対処する上で新たな課題が生じる可能性があるため、これは問題である。 本稿では,疑似AIに関するタイムリーかつ有意義な学際的視点を構築し,疑似認知モデルと分析のための総合的マルチエージェントシステム(MAS)フレームワークであるDAAS(DAMAS)の開発を提案する。 ここでは,コンピュータ科学,哲学,心理学,倫理,情報分析の観点から,AIアプローチによる騙しのモデル化と説明について述べる。

Humans and machines interact more frequently than ever and our societies are becoming increasingly hybrid. A consequence of this hybridisation is the degradation of societal trust due to the prevalence of AI-enabled deception. Yet, despite our understanding of the role of trust in AI in the recent years, we still do not have a computational theory to be able to fully understand and explain the role deception plays in this context. This is a problem because while our ability to explain deception in hybrid societies is delayed, the design of AI agents may keep advancing towards fully autonomous deceptive machines, which would pose new challenges to dealing with deception. In this paper we build a timely and meaningful interdisciplinary perspective on deceptive AI and reinforce a 20 year old socio-cognitive perspective on trust and deception, by proposing the development of DAMAS -- a holistic Multi-Agent Systems (MAS) framework for the socio-cognitive modelling and analysis of deception. In a nutshell this paper covers the topic of modelling and explaining deception using AI approaches from the perspectives of Computer Science, Philosophy, Psychology, Ethics, and Intelligence Analysis.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 学習画像圧縮の匿名化における関心喪失領域

Region of Interest Loss for Anonymizing Learned Image Compression ( http://arxiv.org/abs/2406.05726v1 )

ライセンス: Link先を確認
Christoph Liebender, Ranulfo Bezerra, Kazunori Ohno, Satoshi Tadokoro, (参考訳) 公共空間におけるAIの使用は、プライバシーと機密データの保護に対する懸念を継続的に高める。 例として、人間に対する検出と認識の方法の展開があり、監視カメラによって画像が提供される。 このようなカメラによって撮影された画像のキャプチャと送信は、ネットワーク上のサーバによって受信されるため、大量の機密データを取得することになる。 しかし、多くのアプリケーションは、シーン内の特定の人物のアイデンティティを明示的に必要とせず、シーン内の人物のコンテキストを保ちながら、その人物の位置に関する情報を含む匿名化された表現が十分である。 学習画像圧縮のためのエンドツーエンド最適化オートエンコーダを訓練し、学習した解析の柔軟性を活用し、圧縮結果の一部を変更するタスクに再構成変換を施すことにより、関心領域(ROI)にカスタマイズされた損失関数を用いることで、人間の顔が検知不能になるような十分な匿名化を実現する方法を示す。 このアプローチは、ネットワーク越しに機密性の高い匿名化データを送信するのではなく、キャプチャデバイス上の1ステップで圧縮と匿名化を可能にする。 さらに、この匿名化が、非ANN法と比較して、事前学習した基礎モデルの平均精度が顔検出(MTCNN)と人間検出(YOLOv8)に与える影響を、圧縮率と遅延を考慮して評価する。

The use of AI in public spaces continually raises concerns about privacy and the protection of sensitive data. An example is the deployment of detection and recognition methods on humans, where images are provided by surveillance cameras. This results in the acquisition of great amounts of sensitive data, since the capture and transmission of images taken by such cameras happens unaltered, for them to be received by a server on the network. However, many applications do not explicitly require the identity of a given person in a scene; An anonymized representation containing information of the person's position while preserving the context of them in the scene suffices. We show how using a customized loss function on region of interests (ROI) can achieve sufficient anonymization such that human faces become unrecognizable while persons are kept detectable, by training an end-to-end optimized autoencoder for learned image compression that utilizes the flexibility of the learned analysis and reconstruction transforms for the task of mutating parts of the compression result. This approach enables compression and anonymization in one step on the capture device, instead of transmitting sensitive, nonanonymized data over the network. Additionally, we evaluate how this anonymization impacts the average precision of pre-trained foundation models on detecting faces (MTCNN) and humans (YOLOv8) in comparison to non-ANN based methods, while considering compression rate and latency.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# フォトニック・ユニタリ演算子学習のための変分的アプローチ

A Variational Approach to Learning Photonic Unitary Operators ( http://arxiv.org/abs/2406.05727v1 )

ライセンス: Link先を確認
Hadrian Bezuidenhout, Mwezi Koni, Jonathan Leach, Paola Concha Obando, Andrew Forbes, Isaac Nape, (参考訳) 内部自由度に合わせた構造光は、多くの量子情報処理プロトコルや古典情報処理プロトコルにおいて話題となっている。 本研究では, 空間的自由度に変調された構造光の高次元特性を利用して, ユニタリ演算を学習するための適応的スキームを実現する。 提案手法は,探索や最適化の問題を与えられたエネルギー/ゴール関数に対して最小基底状態エネルギーを求めるタスクにマッピングする,変分量子コンピューティングの概念を取り入れたものである。 本研究では, 1次演算のパラメータ空間上の擬似ランダムウォーク法を用いて, ガウスモードのアレイ上に実装された光行列ベクトル乗法を用いて, 筒状レンズの部分フーリエ変換能力を, 測定の自由度で利用することによって実現した。 この概念を理論的に概説し、次元 d = 2, 4, 8, 16 の光学的ユニタリ行列を平均忠実度 90% で学習できることを実験的に実証した。 我々の研究は高次元情報処理を推進し、未知の状態とチャネルのプロセスおよび量子状態トモグラフィーに適応することができる。

Structured light, light tailored in its internal degrees of freedom, has become topical in numerous quantum and classical information processing protocols. In this work, we harness the high dimensional nature of structured light modulated in the transverse spatial degree of freedom to realise an adaptable scheme for learning unitary operations. Our approach borrows from concepts in variational quantum computing, where a search or optimisation problem is mapped onto the task of finding a minimum ground state energy for a given energy/goal function. We achieve this by a pseudo-random walk procedure over the parameter space of the unitary operation, implemented with optical matrix-vector multiplication enacted on arrays of Gaussian modes by exploiting the partial Fourier transforming capabilities of a cylindrical lens in the transverse degree of freedom for the measurement. We outline the concept theoretically, and experimentally demonstrate that we are able to learn optical unitary matrices for dimensions d = 2, 4, 8 and 16 with average fidelities of >90%. Our work advances high dimensional information processing and can be adapted to both process and quantum state tomography of unknown states and channels.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# MrRank:マルチ結果ランキングモデルによる検索システムの改善

MrRank: Improving Question Answering Retrieval System through Multi-Result Ranking Model ( http://arxiv.org/abs/2406.05733v1 )

ライセンス: Link先を確認
Danupat Khamnuansin, Tawunrat Chalothorn, Ekapol Chuangsuwanich, (参考訳) 大型言語モデル(LLM)は幻覚や古い情報に悩まされることが多い。 これを解決するために、情報検索(IR)システムを使用して、最新の知識を持つLLMを拡張できる。 しかし、既存のIR技術には欠陥があり、パフォーマンスのボトルネックが生じる。 広範囲にわたるIRシステムを考えると、多様なアプローチを組み合わせることで、実行可能な戦略が提示される。 それにもかかわらず、以前の試みは制限された有効性をもたらした。 本研究では,異種IRシステムを組み合わせるために,学習からランクへのアプローチを提案する。 本稿では,2つの検索質問応答(ReQA)タスクについて示す。 ReQA SQuADで得られた実験結果から, 優れた性能向上, 従来の手法より優れ, 最先端の成果が得られた。

Large Language Models (LLMs) often struggle with hallucinations and outdated information. To address this, Information Retrieval (IR) systems can be employed to augment LLMs with up-to-date knowledge. However, existing IR techniques contain deficiencies, posing a performance bottleneck. Given the extensive array of IR systems, combining diverse approaches presents a viable strategy. Nevertheless, prior attempts have yielded restricted efficacy. In this work, we propose an approach that leverages learning-to-rank techniques to combine heterogeneous IR systems. We demonstrate the method on two Retrieval Question Answering (ReQA) tasks. Our empirical findings exhibit a significant performance enhancement, outperforming previous approaches and achieving state-of-the-art results on ReQA SQuAD.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# モジュラーエンタングルメントに基づく量子コンピュータアーキテクチャ

A modular entanglement-based quantum computer architecture ( http://arxiv.org/abs/2406.05735v1 )

ライセンス: Link先を確認
Ferran Riera-Sàbat, Wolfgang Dür, (参考訳) マルチパーティの絡み合いを利用したモジュラー量子計算アーキテクチャを提案する。 各モジュールは、データ、メモリ、相互作用キュービットからなる小さな量子コンピュータで構成されている。 相互作用量子ビットは、内部の量子状態を適切に調整することで、相互作用強度を高めて異なるモジュールを選択的に結合するために用いられる。 このようにして、モジュール間で共有される特定の絡み合い構造を持つ異なるマルチパーティント絡み状態が生成され、メモリ量子ビットに格納される。 これらの状態は、任意の相互作用パターンを持つ並列制御Zゲート、マルチキュービットゲートまたはクリフォード回路を含む、要求に応じてモジュール間の特定のゲートまたは回路のクラスを決定的に実行するために使用される。 ベル対ではなく様々な種類のマルチパーティ・エンタングルメントを使用することで、モジュール間のより効率的で柔軟な結合が可能になり、スケーラブルな量子計算アーキテクチャが実現される。

We propose a modular quantum computation architecture based on utilizing multipartite entanglement. Each module consists of a small-scale quantum computer comprising data, memory and interaction qubits. Interaction qubits are used to selectively couple different modules by enhancing interaction strengths via properly adjusting their internal quantum state, where some non-controllable, distance-dependent coupling is used. In this way, different multipartite entangled states with specific entanglement structures shared between modules are generated, and stored in memory qubits. These states are utilized to deterministically perform certain classes of gates or circuits between modules on demand, including parallel controlled-Z gates with arbitrary interaction patterns, multi-qubit gates or whole Clifford circuits, depending on their entanglement structure. The usage of different kinds of multipartite entanglement rather than Bell pairs allows for more efficient and flexible coupling between modules, leading to a scalable quantum computation architecture.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# Smiles2Dock:MLに基づく分子ドッキングのための大規模マルチタスクオープンデータセット

Smiles2Dock: an open large-scale multi-task dataset for ML-based molecular docking ( http://arxiv.org/abs/2406.05738v1 )

ライセンス: Link先を確認
Thomas Le Menestrel, Manuel Rivas, (参考訳) ドッキングは、小さな分子と標的タンパク質の結合コンホメーションと親和性を予測することを目的とした薬物発見において重要な要素である。 MLベースのドッキングは、最近顕著なアプローチとして現れ、分子ライブラリのスケールと複雑さの増大に対処する上で、DOCKやAutoDock Vinaといった従来の手法よりも優れている。 しかし、MLベースのドッキングアルゴリズムのトレーニングとベンチマークのために、包括的でユーザフレンドリなデータセットが利用可能であることは、依然として限られている。 分子ドッキングのための大規模マルチタスクデータセットであるSmiles2Dockを紹介する。 我々はP2RankとAutoDock Vinaを組み合わせて、ChEMBLデータベースから15のAlphaFoldタンパク質に170万のリガンドをドッキングし、2500万以上のタンパク質-リガンド結合スコアを与えました。 このデータセットは、幅広い精度のAlphaFoldタンパク質モデルを活用し、多様な生物学的関連化合物を包含し、研究者はGraph、Transformer、CNNベースのメソッドなどのMLベースのドッキングのための主要なアプローチをベンチマークすることができる。 また、スコア予測をドッキングするための新しいTransformerベースのアーキテクチャを導入し、データセットの初期ベンチマークとして設定する。 我々のデータセットとコードは、この分野での科学的研究を進めるために、分子ドッキングのための新しいMLベースの手法の開発を支援するために公開されています。

Docking is a crucial component in drug discovery aimed at predicting the binding conformation and affinity between small molecules and target proteins. ML-based docking has recently emerged as a prominent approach, outpacing traditional methods like DOCK and AutoDock Vina in handling the growing scale and complexity of molecular libraries. However, the availability of comprehensive and user-friendly datasets for training and benchmarking ML-based docking algorithms remains limited. We introduce Smiles2Dock, an open large-scale multi-task dataset for molecular docking. We created a framework combining P2Rank and AutoDock Vina to dock 1.7 million ligands from the ChEMBL database against 15 AlphaFold proteins, giving us more than 25 million protein-ligand binding scores. The dataset leverages a wide range of high-accuracy AlphaFold protein models, encompasses a diverse set of biologically relevant compounds and enables researchers to benchmark all major approaches for ML-based docking such as Graph, Transformer and CNN-based methods. We also introduce a novel Transformer-based architecture for docking scores prediction and set it as an initial benchmark for our dataset. Our dataset and code are publicly available to support the development of novel ML-based methods for molecular docking to advance scientific research in this field.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 大規模言語モデルを用いたディジタルビジネスモデル解析

Digital Business Model Analysis Using a Large Language Model ( http://arxiv.org/abs/2406.05741v1 )

ライセンス: Link先を確認
Masahiro Watanabe, Naoshi Uchihira, (参考訳) デジタルトランスフォーメーション(DX)は、人工知能やモノのインターネットといった最新のデジタル技術を簡単に活用できるため、近年、多くの企業にとってプレッシャーとなっている。 しかし、新しいビジネスモデルを考案することは、コンパニーにとって容易ではないが、デジタル技術によって運営を改善することができる。 このように、デジタル技術学の専門知識が欠如している人には、ビジネスモデル設計支援方法が必要である。 対照的に、ChatGPTで表される大規模言語モデル(LLM)とLLMを用いた自然言語処理が革命的に開発された。 これらの技術を利用するビジネスモデル設計支援システムは大きな可能性を秘めている。 しかし、この地域の研究は乏しい。 そこで本研究では, LLM を利用したビジネスモデル設計支援に向けた第一歩として, 異なる事業者の類似企業を比較し, 分析する LLM 手法を提案する。 この方法は、デジタルビジネスモデル設計におけるアイデア生成を支援することができる。

Digital transformation (DX) has recently become a pressing issue for many companies as the latest digital technologies, such as artificial intelligence and the Internet of Things, can be easily utilized. However, devising new business models is not easy for compa-nies, though they can improve their operations through digital technologies. Thus, business model design support methods are needed by people who lack digital tech-nology expertise. In contrast, large language models (LLMs) represented by ChatGPT and natural language processing utilizing LLMs have been developed revolutionarily. A business model design support system that utilizes these technologies has great potential. However, research on this area is scant. Accordingly, this study proposes an LLM-based method for comparing and analyzing similar companies from different business do-mains as a first step toward business model design support utilizing LLMs. This method can support idea generation in digital business model design.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 進化的多目的最適化によるペプチドワクチンの設計

Peptide Vaccine Design by Evolutionary Multi-Objective Optimization ( http://arxiv.org/abs/2406.05743v1 )

ライセンス: Link先を確認
Dan-Xuan Liu, Yi-Heng Xu, Chao Qian, (参考訳) ペプチドワクチンは様々な病気と闘う上で重要である。 機械学習は免疫反応を誘発するペプチドの同定を改善しており、ペプチドワクチンの設計の主な課題は、個人間でのアレルの多様性によるペプチドの効果的なサブセットを選択することである。 従来の研究は、この課題を制約付き最適化問題として定式化しており、様々なペプチドのサブセットを限られたサイズで選択することで、幅広い集団にわたるペプチド-マヨルヒストコンパチビリティ複合体(ペプチド-MHC)結合の期待数を最大化することを目的としていた。 本稿では,進化的多目的最適化に基づく新しいフレームワークPVD-EMOを提案する。これは,ペプチド-MHC結合の期待数を最大化し,選択したペプチドの数を同時に最小化し,その問題を解決するためにMOEA(Multi-Objective Evolutionary Algorithm)を採用している。 また、暖房と修理の戦略をMOEAに組み込んで効率と性能を改善します。 ウォームスタート戦略は,PVD-EMOが前回のグレディアルゴリズムと同じ最悪の近似を保っていることを保証するとともに,EMOフレームワークは局所最適化を回避するのに有効であることを示す。 SARS-CoV-2ウイルスによる新型コロナウイルスのペプチドワクチン設計の実験は、PVD-EMOの優位性を実証している。

Peptide vaccines are growing in significance for fighting diverse diseases. Machine learning has improved the identification of peptides that can trigger immune responses, and the main challenge of peptide vaccine design now lies in selecting an effective subset of peptides due to the allelic diversity among individuals. Previous works mainly formulated this task as a constrained optimization problem, aiming to maximize the expected number of peptide-Major Histocompatibility Complex (peptide-MHC) bindings across a broad range of populations by selecting a subset of diverse peptides with limited size; and employed a greedy algorithm, whose performance, however, may be limited due to the greedy nature. In this paper, we propose a new framework PVD-EMO based on Evolutionary Multi-objective Optimization, which reformulates Peptide Vaccine Design as a bi-objective optimization problem that maximizes the expected number of peptide-MHC bindings and minimizes the number of selected peptides simultaneously, and employs a Multi-Objective Evolutionary Algorithm (MOEA) to solve it. We also incorporate warm-start and repair strategies into MOEAs to improve efficiency and performance. We prove that the warm-start strategy ensures that PVD-EMO maintains the same worst-case approximation guarantee as the previous greedy algorithm, and meanwhile, the EMO framework can help avoid local optima. Experiments on a peptide vaccine design for COVID-19, caused by the SARS-CoV-2 virus, demonstrate the superiority of PVD-EMO.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 構成系列干渉の構造化学習

Structured Learning of Compositional Sequential Interventions ( http://arxiv.org/abs/2406.05745v1 )

ライセンス: Link先を確認
Jialin Yu, Andreas Koukorinis, Nicolò Colombo, Yuchen Zhu, Ricardo Silva, (参考訳) 我々は、各ユニットが時間の経過とともに介入の組み合わせに晒される、逐次的な治療体制について考察する。 介入が「パンデミックによる1ヶ月の閉校」や「今週中にこのポッドキャストを利用者に提供」といった定性的なラベルによって説明される場合、適切な構造的仮定が、以前に見つからなかった組み合わせシーケンスに対する行動予測の一般化を可能にするかどうかは不明である。 標準ブラックボックスは、カテゴリ変数の列を出力にマッピングする手法が適用可能であるが、それらがいかに信頼性の高い一般化が得られるかの理解が不十分な仮定に依存しており、スパースシーケンス、時間的変動性、大きなアクション空間の下では性能が劣る可能性がある。 そこで我々は, 逐次的介入の効果をモジュールに分離し, 異なる単位と時間ステップで組み合わせた効果をどのデータ条件で識別できるかを明らかにする。 本研究では,因果行列分解法の進歩に触発された構成モデルの同定特性を示すとともに,行列完了タスクの代わりに介入の新たな構成の予測モデルと因果効果推定に焦点をあてる。 フレキシブルだが汎用的なブラックボックスモデルに対する我々のアプローチを比較して、構造がスパースデータ条件の予測にどのように役立つかを説明する。

We consider sequential treatment regimes where each unit is exposed to combinations of interventions over time. When interventions are described by qualitative labels, such as ``close schools for a month due to a pandemic'' or ``promote this podcast to this user during this week'', it is unclear which appropriate structural assumptions allow us to generalize behavioral predictions to previously unseen combinatorial sequences. Standard black-box approaches mapping sequences of categorical variables to outputs are applicable, but they rely on poorly understood assumptions on how reliable generalization can be obtained, and may underperform under sparse sequences, temporal variability, and large action spaces. To approach that, we pose an explicit model for \emph{composition}, that is, how the effect of sequential interventions can be isolated into modules, clarifying which data conditions allow for the identification of their combined effect at different units and time steps. We show the identification properties of our compositional model, inspired by advances in causal matrix factorization methods but focusing on predictive models for novel compositions of interventions instead of matrix completion tasks and causal effect estimation. We compare our approach to flexible but generic black-box models to illustrate how structure aids prediction in sparse data conditions.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 説明可能性と不変性を有する臨床診断のためのダイナミック不確かさグラフの方法論と実世界の応用

Methodology and Real-World Applications of Dynamic Uncertain Causality Graph for Clinical Diagnosis with Explainability and Invariance ( http://arxiv.org/abs/2406.05746v1 )

ライセンス: Link先を確認
Zhan Zhang, Qin Zhang, Yang Jiao, Lin Lu, Lin Ma, Aihua Liu, Xiao Liu, Juan Zhao, Yajun Xue, Bing Wei, Mingxia Zhang, Ru Gao, Hong Zhao, Jie Lu, Fan Li, Yang Zhang, Yiming Wang, Lei Zhang, Fengwei Tian, Jie Hu, Xin Gou, (参考訳) 医療分野ではAIによる臨床診断が望まれる。 既存のディープラーニングモデルには説明可能性がなく、主に画像解析に焦点を当てている。 最近開発されたDynamic Uncertain Causality Graph (DUCG)アプローチは、データ収集、ラベル付け、フィッティング、プライバシ、バイアス、一般化、高コスト、高エネルギー消費の問題なく、さまざまなアプリケーションシナリオで因果駆動、説明可能、不変である。 臨床専門家とDuCG技術者の密接なコラボレーションを通じて,54件の主訴を含む46件のDUCGモデルを構築した。 1000以上の病気がトリアージなしで診断できる。 実世界で適用される前に、46のDUCGモデルは、第三者の病院によって遡及的に検証された。 診断精度は95%以下で, 異常例を含むすべての疾患の診断精度は80%以下であった。 検証後、46個のDUCGモデルを中国の現実世界に適用した。 実際の診断は100万件以上行われており、誤診断は17例に過ぎなかった。 DUCGの透明性のため、誤診の原因となる誤りが発見され修正された。 DUCGを多用した臨床医の診断能力は有意に改善した。 先に提示したDUCG手法の導入に続いて、潜在的な医療チェックの推薦アルゴリズムを提示し、DUCGのキーアイデアを抽出する。

AI-aided clinical diagnosis is desired in medical care. Existing deep learning models lack explainability and mainly focus on image analysis. The recently developed Dynamic Uncertain Causality Graph (DUCG) approach is causality-driven, explainable, and invariant across different application scenarios, without problems of data collection, labeling, fitting, privacy, bias, generalization, high cost and high energy consumption. Through close collaboration between clinical experts and DUCG technicians, 46 DUCG models covering 54 chief complaints were constructed. Over 1,000 diseases can be diagnosed without triage. Before being applied in real-world, the 46 DUCG models were retrospectively verified by third-party hospitals. The verified diagnostic precisions were no less than 95%, in which the diagnostic precision for every disease including uncommon ones was no less than 80%. After verifications, the 46 DUCG models were applied in the real-world in China. Over one million real diagnosis cases have been performed, with only 17 incorrect diagnoses identified. Due to DUCG's transparency, the mistakes causing the incorrect diagnoses were found and corrected. The diagnostic abilities of the clinicians who applied DUCG frequently were improved significantly. Following the introduction to the earlier presented DUCG methodology, the recommendation algorithm for potential medical checks is presented and the key idea of DUCG is extracted.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 幾何学における接地連続表現:等変ニューラル場

Grounding Continuous Representations in Geometry: Equivariant Neural Fields ( http://arxiv.org/abs/2406.05753v1 )

ライセンス: Link先を確認
David R Wessels, David M Knigge, Samuele Papa, Riccardo Valperga, Sharvaree Vadgama, Efstratios Gavves, Erik J Bekkers, (参考訳) 近年,ニューラルフィールドは連続的な信号を表現するための強力なモデリングパラダイムとして出現している。 条件付きニューラルネットワークでは、フィールドはNeFを条件とする潜在変数で表現され、そのパラメータはデータセット全体にわたって共有される。 クロスアテンション・トランスフォーマーをベースとした同変ニューラル場を提案する。NeFは、ラテント点雲である幾何条件変数に条件付けされ、ラテント点からフィールドへの同変復号を可能にする。 我々の同変的アプローチは、場と潜伏剤の両方が幾何学的に接地され、場が変換されたときの変換法則に従属するステアビリティ特性を誘導する。 重要なこととして、等式関係は、(1)被写体が幾何学的パターンをファイトフリーに表現でき、(2)被写体空間における幾何学的推論が可能であること、(2)空間的に類似したパターンを重み分けできること、およびフィールドのデータセットの効率的な学習を可能にすることを保証する。 これらの主な特性は、他の非同変NeFアプローチと比較して、分類実験とデータセット全体を適合させる能力の検証によって検証される。 さらに,一意な局所フィールド編集特性を示すことで,ENFの可能性を検証した。

Recently, Neural Fields have emerged as a powerful modelling paradigm to represent continuous signals. In a conditional neural field, a field is represented by a latent variable that conditions the NeF, whose parametrisation is otherwise shared over an entire dataset. We propose Equivariant Neural Fields based on cross attention transformers, in which NeFs are conditioned on a geometric conditioning variable, a latent point cloud, that enables an equivariant decoding from latent to field. Our equivariant approach induces a steerability property by which both field and latent are grounded in geometry and amenable to transformation laws if the field transforms, the latent represents transforms accordingly and vice versa. Crucially, the equivariance relation ensures that the latent is capable of (1) representing geometric patterns faitfhully, allowing for geometric reasoning in latent space, (2) weightsharing over spatially similar patterns, allowing for efficient learning of datasets of fields. These main properties are validated using classification experiments and a verification of the capability of fitting entire datasets, in comparison to other non-equivariant NeF approaches. We further validate the potential of ENFs by demonstrate unique local field editing properties.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# 専門家による予測に基づくPDEの数値解法

Numerical solution of a PDE arising from prediction with expert advice ( http://arxiv.org/abs/2406.05754v1 )

ライセンス: Link先を確認
Jeff Calder, Nadejda Drenska, Drisana Mosaphir, (参考訳) 本研究は,関係する偏微分方程式の数値解析,実験を通じて,専門家のアドバイスによるオンライン機械学習問題について,対角的環境下での予測問題について検討する。 問題は、相手の環境において、nドルの専門家に通知された各ステップで意思決定を行う2対1のゲームである。 このゲームの多くのステップに対する連続極限は、この解が両方のプレイヤーにとって最適な戦略を符号化する退化楕円型方程式である。 我々は,この方程式の解を比較的高次元(n\leq 10$)で近似するための数値計算法を開発した。 数値的な結果に基づいて、様々な敵戦略の最適性、特にCOMB戦略の非最適性について、多くの予想を立てる。

This work investigates the online machine learning problem of prediction with expert advice in an adversarial setting through numerical analysis of, and experiments with, a related partial differential equation. The problem is a repeated two-person game involving decision-making at each step informed by $n$ experts in an adversarial environment. The continuum limit of this game over a large number of steps is a degenerate elliptic equation whose solution encodes the optimal strategies for both players. We develop numerical methods for approximating the solution of this equation in relatively high dimensions ($n\leq 10$) by exploiting symmetries in the equation and the solution to drastically reduce the size of the computational domain. Based on our numerical results we make a number of conjectures about the optimality of various adversarial strategies, in particular about the non-optimality of the COMB strategy.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# タイニー物体検出のための変圧器R-CNNを用いたFPNのデノベート

A DeNoising FPN With Transformer R-CNN for Tiny Object Detection ( http://arxiv.org/abs/2406.05755v1 )

ライセンス: Link先を確認
Hou-I Liu, Yu-Wen Tseng, Kai-Cheng Chang, Pin-Jyun Wang, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) コンピュータビジョンの分野で顕著な進歩があったにもかかわらず、小さな物体の正確な検出は、画像データの中でこれらの物体に割り当てられた極小ピクセルの表現のために、大きな課題となっている。 この課題は、地球科学とリモートセンシングの分野において深く反響し、小さな物体の高忠実度検出は、都市計画から環境監視まで、無数の応用を促進する。 本稿では,小型物体検出の性能向上のため,Trans R-CNN (DNTR) を用いた新しいフレームワークであるDeNoising FPNを提案する。 DNTRは、簡単なプラグイン設計、DeNoising FPN (DN-FPN)、効果的なTransformerベースの検出器であるTrans R-CNNで構成されている。 具体的には,マルチスケールオブジェクトの検出において,特徴ピラミッドネットワークにおける特徴融合が重要である。 しかし、異なるスケールの特徴の間に規則化がないため、核融合プロセス中にノイズが生じる可能性がある。 そこで本稿では,FPNの上位ダウンパスにおける各レベルの特徴の雑音を抑制するために,コントラスト学習を利用するDN-FPNモジュールを提案する。 第二に、この2段階の枠組みに基づいて、老朽化したR-CNN検出器を新しいトランスR-CNN検出器に置き換え、自己注意を伴う小さな物体の表現に焦点を当てる。 実験結果から,我々のDNTRはAI-TODデータセットのAPvtでは少なくとも17.4\%,VisDroneデータセットのAPでは9.6\%でベースラインを上回っていることがわかった。 私たちのコードは、この \href{this https URL}{https://github.com/hoiliu-0801/DNTR} で利用可能です。

Despite notable advancements in the field of computer vision, the precise detection of tiny objects continues to pose a significant challenge, largely owing to the minuscule pixel representation allocated to these objects in imagery data. This challenge resonates profoundly in the domain of geoscience and remote sensing, where high-fidelity detection of tiny objects can facilitate a myriad of applications ranging from urban planning to environmental monitoring. In this paper, we propose a new framework, namely, DeNoising FPN with Trans R-CNN (DNTR), to improve the performance of tiny object detection. DNTR consists of an easy plug-in design, DeNoising FPN (DN-FPN), and an effective Transformer-based detector, Trans R-CNN. Specifically, feature fusion in the feature pyramid network is important for detecting multiscale objects. However, noisy features may be produced during the fusion process since there is no regularization between the features of different scales. Therefore, we introduce a DN-FPN module that utilizes contrastive learning to suppress noise in each level's features in the top-down path of FPN. Second, based on the two-stage framework, we replace the obsolete R-CNN detector with a novel Trans R-CNN detector to focus on the representation of tiny objects with self-attention. Experimental results manifest that our DNTR outperforms the baselines by at least 17.4\% in terms of APvt on the AI-TOD dataset and 9.6\% in terms of AP on the VisDrone dataset, respectively. Our code will be available at this \href{this https URL}{https://github.com/hoiliu-0801/DNTR}.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# EmbSpatial-Bench:大規模視覚言語モデルを用いた身体的タスクの空間的理解のベンチマーク

EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language Models ( http://arxiv.org/abs/2406.05756v1 )

ライセンス: Link先を確認
Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei, (参考訳) 近年のLVLM(Large Vision-Language Models)の急速な発展は,その実現可能性を示しているが,実環境における空間理解の重要なスキルは十分に評価されていない。 そこで我々は,LVLMの具体的空間理解を評価するベンチマークであるEmbSpatial-Benchを構築し,エゴセントリックな視点から6つの空間関係をカバーし,現在のLVLMの不十分な能力(GPT-4V)を明らかにする。 さらに、LVLMの具体的空間理解を改善するために設計された命令調整データセットであるEmbSpatial-SFTについて述べる。

The recent rapid development of Large Vision-Language Models (LVLMs) has indicated their potential for embodied tasks.However, the critical skill of spatial understanding in embodied environments has not been thoroughly evaluated, leaving the gap between current LVLMs and qualified embodied intelligence unknown. Therefore, we construct EmbSpatial-Bench, a benchmark for evaluating embodied spatial understanding of LVLMs.The benchmark is automatically derived from embodied scenes and covers 6 spatial relationships from an egocentric perspective.Experiments expose the insufficient capacity of current LVLMs (even GPT-4V). We further present EmbSpatial-SFT, an instruction-tuning dataset designed to improve LVLMs' embodied spatial understanding.
翻訳日:2024-06-11 18:17:07 公開日:2024-06-09
# Vision Mamba : 3次元MRIによるアルツハイマー病の診断

Vision Mamba: Cutting-Edge Classification of Alzheimer's Disease with 3D MRI Scans ( http://arxiv.org/abs/2406.05757v1 )

ライセンス: Link先を確認
Muthukumar K A, Amit Gurung, Priya Ranjan, (参考訳) アルツハイマー病の早期発見のための3次元MRI画像の分類は、医用画像において重要な課題である。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーを用いた従来のアプローチは、この領域で重要な課題に直面している。 CNNは、局所的な空間的特徴を捉えるのに効果的であるが、長距離依存に苦慮し、高解像度の3Dデータに広範な計算資源を必要とすることが多い。 一方、トランスフォーマーは、グローバルなコンテキストを捉えるのに優れていますが、推論時間の二次的な複雑さに悩まされ、かなりのメモリを必要とするため、大規模な3D MRIデータでは効率が悪くなります。 これらの制約に対処するために、我々は、アルツハイマー病を検出するために3次元MRI画像の分類に、状態空間モデル(SSM)に基づく高度なモデルであるビジョン・マンバ(Vision Mamba)を提案する。 Vision Mambaは動的状態表現と選択的スキャンアルゴリズムを活用し、3Dボリュームで重要な空間情報を効率的にキャプチャし保持する。 入力特徴に基づいて状態遷移を動的に調整することにより、Vision Mambaは関連する情報を選択的に保持し、3D MRIデータのより正確で効率的な処理を実現する。 我々の手法は、訓練中の畳み込み操作の並列化可能な性質と、推論中の状態の効率的かつ反復的な処理を組み合わせる。 このアーキテクチャは計算効率を向上するだけでなく、3次元医用画像内の長距離依存を処理する能力も強化する。 実験の結果、Vision Mambaは従来のCNNモデルとTransformerモデルよりも優れており、3D MRIデータを用いてアルツハイマー病を早期に検出できる有望なツールであることがわかった。

Classifying 3D MRI images for early detection of Alzheimer's disease is a critical task in medical imaging. Traditional approaches using Convolutional Neural Networks (CNNs) and Transformers face significant challenges in this domain. CNNs, while effective in capturing local spatial features, struggle with long-range dependencies and often require extensive computational resources for high-resolution 3D data. Transformers, on the other hand, excel in capturing global context but suffer from quadratic complexity in inference time and require substantial memory, making them less efficient for large-scale 3D MRI data. To address these limitations, we propose the use of Vision Mamba, an advanced model based on State Space Models (SSMs), for the classification of 3D MRI images to detect Alzheimer's disease. Vision Mamba leverages dynamic state representations and the selective scan algorithm, allowing it to efficiently capture and retain important spatial information across 3D volumes. By dynamically adjusting state transitions based on input features, Vision Mamba can selectively retain relevant information, leading to more accurate and computationally efficient processing of 3D MRI data. Our approach combines the parallelizable nature of convolutional operations during training with the efficient, recurrent processing of states during inference. This architecture not only improves computational efficiency but also enhances the model's ability to handle long-range dependencies within 3D medical images. Experimental results demonstrate that Vision Mamba outperforms traditional CNN and Transformer models accuracy, making it a promising tool for the early detection of Alzheimer's disease using 3D MRI data.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# 野生におけるアラビア語のダイアクリティカル : ダイアクリティカル化をめざして

Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization ( http://arxiv.org/abs/2406.05760v1 )

ライセンス: Link先を確認
Salman Elgamal, Ossama Obeid, Tameem Kabbani, Go Inoue, Nizar Habash, (参考訳) アラビア語のテキストにダイアクリティカルマークが広く存在しないことは、アラビア語の自然言語処理(NLP)にとって重要な課題となっている。 本稿では,自然発生のダイアクリティカルティクスを「野生のダイアクリティカルティクス」と呼び,ニュース記事,小説,児童書,詩,政治文書,チャットGPTアウトプットといった6つのジャンルにまたがるパターンと潜伏した情報を明らかにする。 そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。 さらに、アラビアNLPにおける分析・曖昧化アプローチの拡張により、これらのダイアクリティカルティクスを活用することにより、顕著な改善がもたらされる。 コントリビューションには、詳細な分析、貴重なデータセット、拡張ダイアクリタイズアルゴリズムが含まれています。 コードとデータセットをオープンソースとしてリリースしています。

The widespread absence of diacritical marks in Arabic text poses a significant challenge for Arabic natural language processing (NLP). This paper explores instances of naturally occurring diacritics, referred to as "diacritics in the wild," to unveil patterns and latent information across six diverse genres: news articles, novels, children's books, poetry, political documents, and ChatGPT outputs. We present a new annotated dataset that maps real-world partially diacritized words to their maximal full diacritization in context. Additionally, we propose extensions to the analyze-and-disambiguate approach in Arabic NLP to leverage these diacritics, resulting in notable improvements. Our contributions encompass a thorough analysis, valuable datasets, and an extended diacritization algorithm. We release our code and datasets as open source.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# BiGGen Bench: 言語モデルを用いた言語モデルのきめ細かい評価のための原則付きベンチマーク

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models ( http://arxiv.org/abs/2406.05761v1 )

ライセンス: Link先を確認
Seungone Kim, Juyoung Suk, Ji Yong Cho, Shayne Longpre, Chaeeun Kim, Dongkeun Yoon, Guijin Son, Yejin Cho, Sheikh Shafayat, Jinheon Baek, Sue Hyun Park, Hyeonbin Hwang, Jinkyung Jo, Hyowon Cho, Haebin Shin, Seongyun Lee, Hanseok Oh, Noah Lee, Namgyu Ho, Se June Joo, Miyoung Ko, Yoonjoo Lee, Hyungjoo Chae, Jamin Shin, Joel Jang, Seonghyeon Ye, Bill Yuchen Lin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo, (参考訳) 言語モデル(LM)が幅広いタスクを処理できるようになり、その評価は開発と同じくらい難しくなってきている。 現在、ほとんどの世代のベンチマークは、人間の評価の柔軟性と粒度に欠ける、有用性や無害性といった抽象的な評価基準を用いてLMを評価する。 さらに、これらのベンチマークは命令フォローのような特定の機能に不均等に焦点を合わせ、カバレッジバイアスを引き起こす傾向がある。 この制限を克服するため,77種類のタスクにまたがるLMの9つの特徴を徹底的に評価する原理的生成ベンチマークであるBiGGen Benchを紹介した。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。 このベンチマークを5つの評価器LMを用いて103のフロンティアLMを評価する。 私たちのコード、データ、評価結果は、https://github.com/prometheus-eval/prometheus-eval/tree/main/BiGGen-Benchで公開されています。

As language models (LMs) become capable of handling a wide range of tasks, their evaluation is becoming as challenging as their development. Most generation benchmarks currently assess LMs using abstract evaluation criteria like helpfulness and harmlessness, which often lack the flexibility and granularity of human assessment. Additionally, these benchmarks tend to focus disproportionately on specific capabilities such as instruction following, leading to coverage bias. To overcome these limitations, we introduce the BiGGen Bench, a principled generation benchmark designed to thoroughly evaluate nine distinct capabilities of LMs across 77 diverse tasks. A key feature of the BiGGen Bench is its use of instance-specific evaluation criteria, closely mirroring the nuanced discernment of human evaluation. We apply this benchmark to assess 103 frontier LMs using five evaluator LMs. Our code, data, and evaluation results are all publicly available at https://github.com/prometheus-eval/prometheus-eval/tree/main/BiGGen-Bench.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# ベイズネットワークにおける不確かさパラメータの大域的感度解析

Global Sensitivity Analysis of Uncertain Parameters in Bayesian Networks ( http://arxiv.org/abs/2406.05764v1 )

ライセンス: Link先を確認
Rafael Ballester-Ripoll, Manuele Leonelli, (参考訳) 伝統的に、ベイズネットワークの感度解析は、条件付き確率表のエントリを1対1(OAT)方式で個別に修正する影響を研究する。 しかし、2つ以上のパラメータの同時摂動は、OAT分析では捉えられない高次効果を伴うことが多いため、このアプローチでは、各入力の関連性に関する包括的な説明が得られない。 そこで本研究では,グローバルな分散に基づく感度分析を行い,パラメータを一度に不確実とみなし,その重要性を共同で評価する。 我々の方法は不確実性をネットワークの$n$追加変数としてエンコードすることで機能する。 これらの次元を追加しながら次元の呪いを防ぐため、我々は低ランクテンソル分解を用いて新しいポテンシャルを小さな要素に分解する。 最後に、結果のネットワークにSobolの手法を適用して、グローバルな感度指標を$n$とする。 専門家によるベイジアンネットワークと学習されたベイジアンネットワークのベンチマークアレイを用いて、ソボル指標がOAT指標と大きく異なることを示し、不確実なパラメータとその相互作用の真の影響を明らかにする。

Traditionally, the sensitivity analysis of a Bayesian network studies the impact of individually modifying the entries of its conditional probability tables in a one-at-a-time (OAT) fashion. However, this approach fails to give a comprehensive account of each inputs' relevance, since simultaneous perturbations in two or more parameters often entail higher-order effects that cannot be captured by an OAT analysis. We propose to conduct global variance-based sensitivity analysis instead, whereby $n$ parameters are viewed as uncertain at once and their importance is assessed jointly. Our method works by encoding the uncertainties as $n$ additional variables of the network. To prevent the curse of dimensionality while adding these dimensions, we use low-rank tensor decomposition to break down the new potentials into smaller factors. Last, we apply the method of Sobol to the resulting network to obtain $n$ global sensitivity indices. Using a benchmark array of both expert-elicited and learned Bayesian networks, we demonstrate that the Sobol indices can significantly differ from the OAT indices, thus revealing the true influence of uncertain parameters and their interactions.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# Gentle-CLIP: ソフトアライメントによる低品質マルチモーダルデータにおけるアライメントセマンティック探索

Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment ( http://arxiv.org/abs/2406.05766v1 )

ライセンス: Link先を確認
Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Jiangbin Zheng, Kaicheng yu, Wanyu Chen, Stan Z. Li, (参考訳) マルチモーダル融合は様々なモダリティの間の障壁を突破し、すでに多くの印象的なパフォーマンスを生み出している。 しかし、様々な専門分野において、従来のエレガントなモデルの使用を著しく制限する訓練プロセスのための十分なアライメントデータを得るのに苦労している。 このように、半教師付き学習は、マッチングの少ないペアでマルチモーダルアライメントを実現しようとするが、ラベル情報を持たないドメインに擬似ラベルのような従来の手法を適用することは困難である。 これらの問題に対処するため、半教師付きマルチモーダルアライメントを多様体マッチング問題に変換し、Gentle-CLIPというCLIPに基づく新しい手法を提案する。 具体的には,不適合なマルチモーダルデータから暗黙的なセマンティックアライメント情報を求めるために,潜在表現分布を細粒度に制限することにより,多数の厳密なマッチングペアの必要性を排除し,新しいセマンティックアライメント分布の損失を設計する。 一方、マルチカーネルの最大平均誤差と自己教師付きコントラスト損失を導入し、各モード分布を近づき、表現分布の安定性を高める。 さらに、CLIPで使用されるコントラスト損失を教師付きマッチングデータに適用し、負の最適化を防止する。 タンパク質, リモートセンシング, 一般視覚言語など, 様々な分野のタスクにおいて, 広範囲にわたる実験を行い, 提案したGentle-CLIPの有効性を実証した。

Multimodal fusion breaks through the barriers between diverse modalities and has already yielded numerous impressive performances. However, in various specialized fields, it is struggling to obtain sufficient alignment data for the training process, which seriously limits the use of previously elegant models. Thus, semi-supervised learning attempts to achieve multimodal alignment with fewer matched pairs but traditional methods like pseudo-labeling are difficult to apply in domains with no label information. To address these problems, we transform semi-supervised multimodal alignment into a manifold matching problem and propose a new method based on CLIP, named Gentle-CLIP. Specifically, we design a novel semantic density distribution loss to explore implicit semantic alignment information from unpaired multimodal data by constraining the latent representation distribution with fine granularity, thus eliminating the need for numerous strictly matched pairs. Meanwhile, we introduce multi-kernel maximum mean discrepancy as well as self-supervised contrastive loss to pull separate modality distributions closer and enhance the stability of the representation distribution. In addition, the contrastive loss used in CLIP is employed on the supervised matched data to prevent negative optimization. Extensive experiments conducted on a range of tasks in various fields, including protein, remote sensing, and the general vision-language field, demonstrate the effectiveness of our proposed Gentle-CLIP.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# MLCM:潜在拡散モデルの多段階連続蒸留

MLCM: Multistep Consistency Distillation of Latent Diffusion Model ( http://arxiv.org/abs/2406.05768v1 )

ライセンス: Link先を確認
Qingsong Xie, Zhenyi Liao, Zhijie Deng, Chen chen, Shixiang Tang, Haonan Lu, (参考訳) 大きな潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。 しかし、既存の手法のほとんどはジレンマに直面している。 一 異なるサンプリング予算のための複数の個別蒸留モデルに依存し、又は (i)限られた(eg,2-4)および/または適度な(eg,5-8)サンプリングステップによる犠牲生成の品質。 これらの問題に対処するため、我々は最近の多段階連続蒸留(MCD)戦略を代表的LCDに拡張し、低コストで高品質な画像合成を行うための多段階潜時整合モデル(MLCM)アプローチを確立した。 MLCMは、MDDの約束により、様々なサンプリングステップの統一モデルとして機能する。 段階間整合性を高めるため, 段階間整合性を高め, 段階間整合性を高めるためのプログレッシブトレーニング戦略により, MCDをさらに強化する。 我々は,教師モデルのサンプリング軌跡から得られた状態をMLCMのトレーニングデータとして捉え,高品質なトレーニングデータセットの要件を引き上げ,蒸留モデルのトレーニングと推論のギャップを埋める。 MLCMは、視覚的品質と美的魅力をさらに向上させるために、嗜好学習戦略と互換性がある。 実証的に、MLCMは2~8ステップのサンプリングで高品質で楽しい画像を生成することができる。 MSCOCO-2017 5Kベンチマークでは、SDXLから蒸留したMLCMは、CLIPスコア33.30、Aesthetic Score6.19、Image Reward1.20の4ステップで、4ステップのLCM[23]、8ステップのSDXL-Lightning[17]、8ステップのHyperSD[33]を大きく上回る。 また、制御可能な生成、画像スタイル転送、中国画像生成を含むアプリケーションにおけるMLCMの汎用性を示す。

Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# CorrMAE: Masked Autoencoder による事前学習対応対応変換器

CorrMAE: Pre-training Correspondence Transformers with Masked Autoencoder ( http://arxiv.org/abs/2406.05773v1 )

ライセンス: Link先を確認
Tangfei Liao, Xiaoqin Zhang, Guobao Xiao, Min Li, Tao Wang, Mang Ye, (参考訳) プレトレーニングは、様々な領域にわたる表現学習のためのシンプルだが強力な方法論として登場した。 しかし,高額なトレーニングコストとデータ制限のため,通信プルーニングでは事前学習が広く研究されていない。 これらの課題に対処するために、マスク付き対応を再構築し、下流タスクの強力な初期表現を提供することにより、一般的な不整合表現を取得するための事前学習手法を提案する。 この目的に向けて、真の対応のモチーフは自然に入力として機能し、事前学習のオーバーヘッドを大幅に減少させる。 実際には,通信プルーニングの事前学習に適したマスクオートエンコーダフレームワークであるCorrMAEを導入する。 CorrMAEは2つの主要なフェーズ、すなわち「ie対応学習」と「マッチングポイント再構築」を伴い、可視対応の学習を通じてマスク付き対応の再構築を導く。 ここでは,非順序および不規則な対応を再構成するために,創発的な位置符号化を備えた二重分岐構造を用いる。 また, 整合性学習能力と伝達性を向上させる, 対応学習のためのバイレベル設計エンコーダを提案する。 大規模な実験では、CorrMAEで事前訓練されたモデルは、複数の挑戦的なベンチマークで以前の作業より優れていることが示されている。 一方、私たちのCorrMAEは主にタスク駆動の事前トレーニング手法であり、ターゲットデータセットで事前トレーニングすることで、下流タスクの顕著な改善を実現できます。 この作業が,事前学習を行う通信プルーニングの出発点となることを願っている。

Pre-training has emerged as a simple yet powerful methodology for representation learning across various domains. However, due to the expensive training cost and limited data, pre-training has not yet been extensively studied in correspondence pruning. To tackle these challenges, we propose a pre-training method to acquire a generic inliers-consistent representation by reconstructing masked correspondences, providing a strong initial representation for downstream tasks. Toward this objective, a modicum of true correspondences naturally serve as input, thus significantly reducing pre-training overhead. In practice, we introduce CorrMAE, an extension of the mask autoencoder framework tailored for the pre-training of correspondence pruning. CorrMAE involves two main phases, \ie correspondence learning and matching point reconstruction, guiding the reconstruction of masked correspondences through learning visible correspondence consistency. Herein, we employ a dual-branch structure with an ingenious positional encoding to reconstruct unordered and irregular correspondences. Also, a bi-level designed encoder is proposed for correspondence learning, which offers enhanced consistency learning capability and transferability. Extensive experiments have shown that the model pre-trained with our CorrMAE outperforms prior work on multiple challenging benchmarks. Meanwhile, our CorrMAE is primarily a task-driven pre-training method, and can achieve notable improvements for downstream tasks by pre-training on the targeted dataset. We hope this work can provide a starting point for correspondence pruning pre-training.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# VCR-GauS:ガウス表面再構成のための連続深さ正規化器

VCR-GauS: View Consistent Depth-Normal Regularizer for Gaussian Surface Reconstruction ( http://arxiv.org/abs/2406.05774v1 )

ライセンス: Link先を確認
Hanlin Chen, Fangyin Wei, Chen Li, Tianxin Huang, Yunsong Wang, Gim Hee Lee, (参考訳) 3Dガウススプラッティングは、現実的で効率的なノベルビュー合成のために広く研究されてきたが、ポイントベース表現から高品質な表面を抽出することは依然として困難である。 既往の研究は、既成の正規推定器から幾何的事前を組み込むことで表面を改良した。 しかし、主な制限は2つある。 1) 3次元ガウスからの正規化の監督は,他の幾何学的パラメータを無視しながら回転パラメータのみを更新する。 2)複数の視点にまたがる予測された正規地図の不整合は, 深刻な復元物に繋がる可能性がある。 本稿では,通常のパラメータと他のパラメータを直接結合するDepth-Normal正則化器を提案する。 さらに,複数の視点にまたがる正規予測の不整合を緩和する信頼性項を提案する。 さらに,より正確な表面モデリングのための3次元ガウス多様体のサイズと分布を正規化するための密度化と分割戦略も導入する。 ガウスベースのベースラインと比較すると,提案手法はより優れた再構築品質を得るとともに,より高速なトレーニング速度と100以上のFPSレンダリングにおいて,競争力のある外観品質を維持することができる。 私たちのコードは、論文の受理によってオープンソースにされます。

Although 3D Gaussian Splatting has been widely studied because of its realistic and efficient novel-view synthesis, it is still challenging to extract a high-quality surface from the point-based representation. Previous works improve the surface by incorporating geometric priors from the off-the-shelf normal estimator. However, there are two main limitations: 1) Supervising normal rendered from 3D Gaussians updates only the rotation parameter while neglecting other geometric parameters; 2) The inconsistency of predicted normal maps across multiple views may lead to severe reconstruction artifacts. In this paper, we propose a Depth-Normal regularizer that directly couples normal with other geometric parameters, leading to full updates of the geometric parameters from normal regularization. We further propose a confidence term to mitigate inconsistencies of normal predictions across multiple views. Moreover, we also introduce a densification and splitting strategy to regularize the size and distribution of 3D Gaussians for more accurate surface modeling. Compared with Gaussian-based baselines, experiments show that our approach obtains better reconstruction quality and maintains competitive appearance quality at faster training speed and 100+ FPS rendering. Our code will be made open-source upon paper acceptance.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# グラウンドドSAMを用いた自己教師型フラッグスカモフラーグ法によるヒト検出

Utilizing Grounded SAM for self-supervised frugal camouflaged human detection ( http://arxiv.org/abs/2406.05776v1 )

ライセンス: Link先を確認
Matthias Pijarowski, Alexander Wolpert, Martin Heckmann, Michael Teutsch, (参考訳) カモフラージュされた物体を視覚的に検出することは、人間とコンピュータの視覚アルゴリズムの両方にとって難しい問題である。 オブジェクトと背景の外観の強い類似性は、従来のオブジェクト検出やセグメンテーションタスクよりもタスクを著しく困難にします。 現在の最先端モデルは、畳み込みニューラルネットワークまたは視覚変換器を特徴抽出器として使用している。 完全に教師された方法でトレーニングされるので、大量のラベル付きトレーニングデータが必要です。 本稿では,カモフラーゲ型物体検出(COD)の課題に対して,自己教師型学習法とフラッグ型学習法の両方を導入する。 全体的なゴールは、2つのCOD参照メソッド、すなわちSINet-V2とHitNetを微調整することである。 そこで,森林環境下でカモフラージュした人間を含む公共データセットCPD1Kを用いた。 微調整作業のための教師付きフラジカルトランスファー学習を用いて,強力なベースラインを作成する。 そこで我々は,3つの擬似ラベル手法を自己教師付き手法で解析し,微調整作業を行う。 本実験は, フル教師付きフラガラル学習と比較して, 純粋な自己超越によって同様の性能が得られることを示す。

Visually detecting camouflaged objects is a hard problem for both humans and computer vision algorithms. Strong similarities between object and background appearance make the task significantly more challenging than traditional object detection or segmentation tasks. Current state-of-the-art models use either convolutional neural networks or vision transformers as feature extractors. They are trained in a fully supervised manner and thus need a large amount of labeled training data. In this paper, both self-supervised and frugal learning methods are introduced to the task of Camouflaged Object Detection (COD). The overall goal is to fine-tune two COD reference methods, namely SINet-V2 and HitNet, pre-trained for camouflaged animal detection to the task of camouflaged human detection. Therefore, we use the public dataset CPD1K that contains camouflaged humans in a forest environment. We create a strong baseline using supervised frugal transfer learning for the fine-tuning task. Then, we analyze three pseudo-labeling approaches to perform the fine-tuning task in a self-supervised manner. Our experiments show that we achieve similar performance by pure self-supervision compared to fully supervised frugal learning.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# 勾配情報を利用したクロップエッジ検出の学習

Learning to utilize gradient information for crisp edge detection ( http://arxiv.org/abs/2406.05779v1 )

ライセンス: Link先を確認
Changsong Liu, Wei Zhang, Yanyan Liu, Yuming Li, Wenlin Li, Yimeng Fan, Liang Zhang, (参考訳) エッジ検出はコンピュータビジョンの基本課題であり、ディープ畳み込みニューラルネットワーク(DCNN)の開発の下で大きな進歩を遂げた。 しかし,近年のエッジ検出手法では,厚くぼやけたエッジ線を生成する傾向にある。 本研究では,この問題を効果的に解決する手法を提案する。 提案手法は,軽量な事前学習バックボーン,マルチスケールコンテキスト拡張モジュール集約勾配情報(MCGI),境界補正モジュール(BCM),境界修正モジュール(BRM)から構成される。 さらに,不均衡な画素分布の問題を解くために,Tversky指数に基づく新たなハイブリッド損失関数を構築した。 提案手法を3つの標準ベンチマークで検証した結果,提案手法はエッジマップの視覚的効果を改善し,BSDS500データセット(標準評価ではODS Fスコア0.720),NYUD-V2データセット(標準評価ではODS Fスコア0.768),BIPEDデータセット(標準評価ではODS Fスコア0.903)上での最先端性能を実現することが示された。

Edge detection is a fundamental task in computer vision and it has made great progress under the development of deep convolutional neural networks (DCNNs), some of them have achieved a beyond human-level performance. However, recent top-performing edge detection methods tend to generate thick and blurred edge lines. In this work, we propose an effective method to solve this problem. Our approach consists of a lightweight pre-trained backbone, multi-scale contextual enhancement module aggregating gradient information (MCGI), boundary correction module (BCM), and boundary refinement module (BRM). In addition to this, we construct a novel hybrid loss function based on the Tversky index for solving the issue of imbalanced pixel distribution. We test our method on three standard benchmarks and the experiment results illustrate that our method improves the visual effect of edge maps and achieves a top performance among several state-of-the-art methods on the BSDS500 dataset (ODS F-score in standard evaluation is 0.829, in crispness evaluation is 0.720), NYUD-V2 dataset (ODS F-score in standard evaluation is 0.768, in crispness evaluation is \textbf{0.546}), and BIPED dataset (ODS F-score in standard evaluation is 0.903).
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# 多段階音声分類の最適化:自動評価における効率的なパラメータ削減のためのウィスパーエンコーダの活用

Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment ( http://arxiv.org/abs/2406.05784v1 )

ライセンス: Link先を確認
Huma Ameer, Seemab Latif, Rabia Latif, (参考訳) 発声音声の自動分類は、言語病理学者に支援を提供するタイムリーアセスメントに重要な意味を持つ。 この分野の顕著な進歩にもかかわらず、発話中に複数の不一致が発生した場合、注意が必要である。 我々は、このギャップを埋めるために、より効率的にマルチスタッタ音声を分類することで、進歩的なアプローチをとってきた。 この問題は、まずSEP-28kオーディオクリップからマルチスタッタ分散のデータセットをキュレートすることで解決されている。 第二に、最先端の音声認識モデルであるWhisperを用いて、エンコーダを用いて問題をマルチラベル分類する。 第3に、6エンコーダ層Whisperを用いて様々な層凍結戦略を実験し、そのモデルの計算効率の良い構成を同定した。 提案した構成はマイクロ、マクロ、重み付けされたF1スコアの0.88、0.85、0.87を外部テストデータセット、すなわちFluency-Bankで達成した。 さらに、層の凍結戦略を通じて、上記の結果を達成するために、単一のエンコーダ層を微調整し、モデルのトレーニング可能なパラメータを2027万から329万に減らした。 本研究では,最後のエンコーダ層が発声音声における不一致の同定に寄与していることを明らかにする。 その結果、様々な方言や言語に適応しやすくする計算効率のよいアプローチが導かれた。

The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi-label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1- scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model's trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach which makes the model more adaptable for various dialects and languages.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# テキスト誘導型3次元視覚接地に関する調査:要素,最近の進歩,今後の方向性

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions ( http://arxiv.org/abs/2406.05785v1 )

ライセンス: Link先を確認
Daizong Liu, Yang Liu, Wencan Huang, Wei Hu, (参考訳) 複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としたテキスト誘導型3Dビジュアルグラウンドティング(T-3DVG)は,ここ数年で注目を集めている。 データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。 本調査では,T-3DVGの進展,その基本要素,最近の研究動向,今後の研究方向性などを概観する。 我々の知る限りでは、これがT-3DVGタスクに関する最初の体系的な調査である。 具体的には、まずT-3DVGパイプラインの一般的な構成とチュートリアルスタイルの詳細なコンポーネントを提供し、完全な背景概要を提示する。 次に、既存のT-3DVGアプローチを異なるカテゴリにまとめ、その長所と短所を解析する。 また、ベンチマークデータセットと評価指標を提示し、その性能を評価する。 最後に、既存のT-3DVGの潜在的な限界について議論し、いくつかの有望な研究方向性についての洞察を共有する。 最新の論文はhttps://github.com/liudaizong/Awesome-3D-Visual-Grounding.comで継続的に収集されている。

Text-guided 3D visual grounding (T-3DVG), which aims to locate a specific object that semantically corresponds to a language query from a complicated 3D scene, has drawn increasing attention in the 3D research community over the past few years. Compared to 2D visual grounding, this task presents great potential and challenges due to its closer proximity to the real world and the complexity of data collection and 3D point cloud source processing. In this survey, we attempt to provide a comprehensive overview of the T-3DVG progress, including its fundamental elements, recent research advances, and future research directions. To the best of our knowledge, this is the first systematic survey on the T-3DVG task. Specifically, we first provide a general structure of the T-3DVG pipeline with detailed components in a tutorial style, presenting a complete background overview. Then, we summarize the existing T-3DVG approaches into different categories and analyze their strengths and weaknesses. We also present the benchmark datasets and evaluation metrics to assess their performances. Finally, we discuss the potential limitations of existing T-3DVG and share some insights on several promising research directions. The latest papers are continually collected at https://github.com/liudaizong/Awesome-3D-Visual-Grounding.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# コンボリューションと無注意マンバ型心臓画像分割

Convolution and Attention-Free Mamba-based Cardiac Image Segmentation ( http://arxiv.org/abs/2406.05786v1 )

ライセンス: Link先を確認
Abbas Khan, Muhammad Asad, Martin Benning, Caroline Roney, Gregory Slabaugh, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの自己アテンションモデルは、医療画像セグメンテーションの標準となっている。 本稿では、畳み込みと自己意識が、広く使われているが、セグメンテーションに有効な方法ではないことを実証する。 CAF-MambaSegNetという,コンボリューションと自己認識型マンバに基づくセマンティックセマンティックセグメンテーションネットワークを提案する。 具体的には,各エンコーダ・デコーダ段階で独立して適用される,マンバ型チャネルアグリゲータと空間アグリゲータを設計する。 Channel Aggregatorは異なるチャネルにまたがる情報を抽出し、Spatial Aggregatorは異なる空間位置にわたる特徴を学習する。 また、2つの因子化マンバブロック間の非線形性を導入することにより、マンバの計算複雑性を低減し、その決定機能を向上させるために、線形連結係数化マンバブロック(LIFM)を提案する。 我々のゴールは、最先端の結果を上回ることではなく、この革新的な、畳み込み、自己注意のない手法が、確立されたCNNやトランスフォーマーを超えてさらなる研究を刺激し、線形複雑性を達成し、パラメータの数を減らすことである。 ソースコードと事前訓練されたモデルが公開される。

Convolutional Neural Networks (CNNs) and Transformer-based self-attention models have become standard for medical image segmentation. This paper demonstrates that convolution and self-attention, while widely used, are not the only effective methods for segmentation. Breaking with convention, we present a Convolution and self-Attention Free Mamba-based semantic Segmentation Network named CAF-MambaSegNet. Specifically, we design a Mamba-based Channel Aggregator and Spatial Aggregator, which are applied independently in each encoder-decoder stage. The Channel Aggregator extracts information across different channels, and the Spatial Aggregator learns features across different spatial locations. We also propose a Linearly Interconnected Factorized Mamba (LIFM) Block to reduce the computational complexity of a Mamba and to enhance its decision function by introducing a non-linearity between two factorized Mamba blocks. Our goal is not to outperform state-of-the-art results but to show how this innovative, convolution and self-attention-free method can inspire further research beyond well-established CNNs and Transformers, achieving linear complexity and reducing the number of parameters. Source code and pre-trained models will be publicly available.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# OD-DETR:オンライン蒸留による検出変圧器の安定化

OD-DETR: Online Distillation for Stabilizing Training of Detection Transformer ( http://arxiv.org/abs/2406.05791v1 )

ライセンス: Link先を確認
Shengjian Wu, Li Sun, Qingli Li, (参考訳) 検出TR(Detection TRansformer)は、主に高精度で後処理のない共通アーキテクチャのため、主流のパラダイムとなっている。 しかし、DETRは不安定なトレーニングダイナミクスに悩まされている。 CNNベースの検出器と比較して、より多くのデータとエポックを消費する。 本稿では,オンライン蒸留によるDETRトレーニングの安定化を目的とする。 EMA(Exponential moving Average)によって蓄積された教師モデルを使用し、その知識を3つの側面からオンラインモデルに抽出する。 まず, 教師の学習指導において, 対象クエリと接地真理(GT)ボックスとのマッチング関係を利用して, 生徒内のクエリは, 生徒自身の予測に基づいてラベルを割り当てるだけでなく, 教師のマッチング結果も参照する。 第2に、教師の最初の質問は、オンライン学生に与えられ、その予測は、教師からの対応する出力によって直接拘束される。 最後に、教師の異なる復号段階からのオブジェクトクエリを使用して、収束を加速する補助グループを構築する。 各GTに対して、最小整合コストの2つのクエリがこの余剰グループに選択され、GTボックスを予測して最適化に参加する。 大規模実験により,提案したOD-DETRはトレーニングを安定させ,パラメータを増やすことなく性能を大幅に向上させることができた。

DEtection TRansformer (DETR) becomes a dominant paradigm, mainly due to its common architecture with high accuracy and no post-processing. However, DETR suffers from unstable training dynamics. It consumes more data and epochs to converge compared with CNN-based detectors. This paper aims to stabilize DETR training through the online distillation. It utilizes a teacher model, accumulated by Exponential Moving Average (EMA), and distills its knowledge into the online model in following three aspects. First, the matching relation between object queries and ground truth (GT) boxes in the teacher is employed to guide the student, so queries within the student are not only assigned labels based on their own predictions, but also refer to the matching results from the teacher. Second, the teacher's initial query is given to the online student, and its prediction is directly constrained by the corresponding output from the teacher. Finally, the object queries from teacher's different decoding stages are used to build the auxiliary groups to accelerate the convergence. For each GT, two queries with the least matching costs are selected into this extra group, and they predict the GT box and participate the optimization. Extensive experiments show that the proposed OD-DETR successfully stabilizes the training, and significantly increases the performance without bringing in more parameters.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# RE-RAG:Retrieval-Augmented Generationにおけるrelevance EstimatorによるオープンドメインQA性能と解釈性の向上

RE-RAG: Improving Open-Domain QA Performance and Interpretability with Relevance Estimator in Retrieval-Augmented Generation ( http://arxiv.org/abs/2406.05794v1 )

ライセンス: Link先を確認
Kiseung Kim, Jay-Yoon Lee, (参考訳) Retrieval-augmented Generation (RAG) フレームワークは、外部知識を参照して、オープンドメイン質問応答タスクにおける最先端のパフォーマンスを示している。 しかし、RAGシステムは、低い関連性のコンテキストが供給される場合や、入力コンテキスト間の相対的関連性が不正確な場合、性能劣化に直面する。 本稿では,RAGシステムに明示的文脈関連性推定器(RE)を注入するRE-RAGフレームワークを提案する。 RE-RAGは、検索したコンテキストを提案コンテキストREで再評価し、関連するコンテキストとそれらの測定重要性をジェネレータに渡す。 文脈REの学習にはラベル付き文書ランキングデータを使用しない教師なし学習法を提案する。 本稿では,RE-RAGの有効性を検討するために,Natural QuestionsとTriviaQAデータセットの性能について検討する。 RE-RAGは、より少ないコンテキスト(0.25x)を使用しながら、FiDの変種と比較してオンパー性能を達成する。 提案した文脈REは,NQ (+6.4EM) とTQA (+2.8EM) の性能を改善し,LLM(ChatGPT) を用いたRAGにも適用可能であることを示す。 最後に、REスコアがRE-RAG精度と高い相関関係にあるため、REはRAGフレームワークに解釈可能性を加えることができることを示す。 したがって、REは、検索されたコンテキストのセットを調べるだけで38.9%-51.3%の精度で応答を含まない、解決不可能なシナリオをフィルタリングするために利用できる。

Retrieval-augmented generation (RAG) frame work is showing state-of-the-art performance on open-domain question answering tasks by referencing external knowledge. However, the RAG system faces challenges with performance degradation when it is fed contexts of low relevance or when the relative relevance among the input contexts is inaccurately assessed. In this work, we propose a RE-RAG framework that injects an explicit context relevance estimator (RE) into the RAG system. RE-RAG re-evaluates the retrieved contexts with the proposed context RE and passes the more relevant contexts along with their measure importance to the generator. To train context RE, we propose an unsupervised learning method, which does not utilize any labeled document ranking data to train the context RE. To examine the efficacy of RE-RAG, we examine its performance on Natural Questions and TriviaQA datasets. RE-RAG achieves on-par performance compared to the FiD variants while utilizing fewer contexts (0.25x). We show that the proposed context RE, which was trained with the T5 model, is also applicable to RAG with LLMs(ChatGPT) by improving the performance on NQ (+6.4EM) and TQA (+2.8EM), respecitvely. Lastly, we display that RE can add interpretability to RAG framework as RE score highly correlates with the RE-RAG accuracy. Consequently, RE can be utilized to filter out unanswerable scenarios where context does not contain answers with 38.9%-51.3% accuracy just by examining a set of retrieved contexts.
翻訳日:2024-06-11 18:07:23 公開日:2024-06-09
# 空間的部分領域における相対論的量子場の時間進化

Time Evolution of Relativistic Quantum Fields in Spatial Subregions ( http://arxiv.org/abs/2406.05795v1 )

ライセンス: Link先を確認
Markus Schröfl, Stefan Floerchinger, (参考訳) 相対論的場の量子論の状態の時間的進化を空間的部分領域$\Omega$に制限する。 より正確には、ファインマン=ヴァーノンの函数形式論(英語版)(Feynman-Vernon influence functional formalism)を用いて、外界における自由度を積分した後に生じる$\Omega$の内部における場の理論の力学を記述する。 環境の影響を境界項でエンコードする方法を示す。 さらに,内部の場期待値に対する確率的運動方程式を導出する。 この方法で得られる境界条件は、空間と時間におけるエネルギー非保存と非局所である。 その結果、相対論的場の量子論における局所熱化の出現と、場の量子論と相対論的流体力学の関係を理解するために応用できることがわかった。

We study the time evolution of a state of a relativistic quantum field theory restricted to a spatial subregion $\Omega$. More precisely, we use the Feynman-Vernon influence functional formalism to describe the dynamics of the field theory in the interior of $\Omega$ arising after integrating out the degrees of freedom in the exterior. We show how the influence of the environment gets encoded in a boundary term. Furthermore, we derive a stochastic equation of motion for the field expectation value in the interior. We find that the boundary conditions obtained in this way are energy non-conserving and non-local in space and time. Our results find applications in understanding the emergence of local thermalization in relativistic quantum field theories and the relationship between quantum field theory and relativistic fluid dynamics.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# ProFeAT:ロバスト表現の自己教師付き学習のための特徴反転学習計画

ProFeAT: Projected Feature Adversarial Training for Self-Supervised Learning of Robust Representations ( http://arxiv.org/abs/2406.05796v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Priyam Dey, R. Venkatesh Babu, (参考訳) 教師付きAdversarial Training (AT) におけるラベル付きデータの必要性は,ATによる自己監督学習(SSL)技術の利用を促している。 しかし、既存のSSLメソッドの対向トレーニングへの直接適用は、SSLとATを組み合わせたトレーニングの複雑さが増大しているため、準最適である。 最近のアプローチであるDeACLは、標準的なSSL教師の蒸留環境での監督を利用して、監督されたATを模倣することでこれを緩和する。 しかし,特に大規模モデルでは,教師付き対人訓練に比べ,まだ大きな性能差があることが判明した。 本稿では,このギャップの主な原因について検討し,ProFeAT(Projected Feature Adversarial Training)を提案する。 本研究は,教師と生徒の学習目標におけるミスマッチの結果,教師と生徒の指導目標に対する準最適蒸留性能が得られたことを示し,教師と異なる反対に頑健な表現を学習しながら,教師の弱い監督を活用できるプロジェクションヘッドを学生に提案する。 さらに,教師と生徒の弱体化と強体化を兼ね備えた特徴とプロジェクタに対する適切な攻撃と防御の損失を提案し,トレーニングの複雑さを増大させることなく,トレーニングデータの多様性を向上させる。 いくつかのベンチマークデータセットとモデルに関する広範な実験を通じて、既存のSSL-ATメソッドと比較してクリーンでロバストな精度の両方が大幅に改善され、新たな最先端技術が確立された。 さらに,一般的な教師付きAT法であるTRADESと比較して,性能が向上したことを報告した。

The need for abundant labelled data in supervised Adversarial Training (AT) has prompted the use of Self-Supervised Learning (SSL) techniques with AT. However, the direct application of existing SSL methods to adversarial training has been sub-optimal due to the increased training complexity of combining SSL with AT. A recent approach, DeACL, mitigates this by utilizing supervision from a standard SSL teacher in a distillation setting, to mimic supervised AT. However, we find that there is still a large performance gap when compared to supervised adversarial training, specifically on larger models. In this work, investigate the key reason for this gap and propose Projected Feature Adversarial Training (ProFeAT) to bridge the same. We show that the sub-optimal distillation performance is a result of mismatch in training objectives of the teacher and student, and propose to use a projection head at the student, that allows it to leverage weak supervision from the teacher while also being able to learn adversarially robust representations that are distinct from the teacher. We further propose appropriate attack and defense losses at the feature and projector, alongside a combination of weak and strong augmentations for the teacher and student respectively, to improve the training data diversity without increasing the training complexity. Through extensive experiments on several benchmark datasets and models, we demonstrate significant improvements in both clean and robust accuracy when compared to existing SSL-AT methods, setting a new state-of-the-art. We further report on-par/ improved performance when compared to TRADES, a popular supervised-AT method.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# 3D-MolT5:3次元分子トークン化を用いた統一3次元分子テキストモデリングを目指して

3D-MolT5: Towards Unified 3D Molecule-Text Modeling with 3D Molecular Tokenization ( http://arxiv.org/abs/2406.05797v1 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Rui Yan, (参考訳) 分子と言語の統合は分子科学の注目を集めている。 言語モデル(LM)の最近の進歩は、分子と言語の包括的なモデリングの可能性を示している。 しかし、現存する作品には顕著な限界がある。 既存の研究の多くは、分子構造や機能を理解するのに不可欠である3D情報のモデリングを見落としている。 3次元分子情報をLMに注入するためにモジュールをコードする外部構造を利用する試みがあるが、分子構造と言語文の統合を妨げる明らかな困難がある。 このギャップを埋めるために,1次元分子配列と3次元分子構造の両方をモデル化する統合フレームワークである3D-MolT5を提案する。 重要な革新は、3D-MolT5の特別な3Dトークン語彙に微細な3Dサブ構造表現(3D分子指紋に基づく)をマッピングする手法である。 この3D構造トークン語彙は、トークン化された形式で1D配列と3D構造表現をシームレスに組み合わせることを可能にし、3D-MolT5は、統一されたアーキテクチャ内で分子配列(SELFIES)、分子構造、およびテキストシーケンスをエンコードすることができる。 さらに1次元と3次元の関節前訓練を導入し、これらの多彩なモーダルの理解を深め、基礎モデルの様々なタスクにより良い一般化を図る。 提案する3D-MolT5は,複数の下流データセットのインストラクションチューニングにより,分子特性予測や分子キャプション,テキストベースの分子生成タスクにおいて,既存の手法よりも優れた性能を示す。 私たちのコードは近いうちにGitHubで利用可能になります。

The integration of molecule and language has garnered increasing attention in molecular science. Recent advancements in Language Models (LMs) have demonstrated potential for the comprehensive modeling of molecule and language. However, existing works exhibit notable limitations. Most existing works overlook the modeling of 3D information, which is crucial for understanding molecular structures and also functions. While some attempts have been made to leverage external structure encoding modules to inject the 3D molecular information into LMs, there exist obvious difficulties that hinder the integration of molecular structure and language text, such as modality alignment and separate tuning. To bridge this gap, we propose 3D-MolT5, a unified framework designed to model both 1D molecular sequence and 3D molecular structure. The key innovation lies in our methodology for mapping fine-grained 3D substructure representations (based on 3D molecular fingerprints) to a specialized 3D token vocabulary for 3D-MolT5. This 3D structure token vocabulary enables the seamless combination of 1D sequence and 3D structure representations in a tokenized format, allowing 3D-MolT5 to encode molecular sequence (SELFIES), molecular structure, and text sequences within a unified architecture. Alongside, we further introduce 1D and 3D joint pre-training to enhance the model's comprehension of these diverse modalities in a joint representation space and better generalize to various tasks for our foundation model. Through instruction tuning on multiple downstream datasets, our proposed 3D-MolT5 shows superior performance than existing methods in molecular property prediction, molecule captioning, and text-based molecule generation tasks. Our code will be available on GitHub soon.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# 隠れホール:言語モデルのトポロジ的側面

Hidden Holes: topological aspects of language models ( http://arxiv.org/abs/2406.05798v1 )

ライセンス: Link先を確認
Stephen Fitz, Peter Romero, Jiyan Jonas Schneider, (参考訳) 生テキストデータに基づいて学習した自己回帰型ニューラルネットワークモデルにおける表現多様体の位相について検討する。 それらの性質を研究するために、我々は、トポロジ的複雑性の尺度として使用する計算代数的トポロジ(英語版)のツールを導入し、これをパーフォレーション(英語版)と呼ぶ。 本研究では,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達を,学習中の深さと時間にわたって研究する。 次に、これらをゲート型リカレントモデルと比較し、後者は、すべての自然言語に共通する変化パターンを持つが、合成的に生成されたデータがない、よりトポロジ的な複雑さを示すことを示す。 本稿では,これらのモデルにより導出される表現多様体について,自然言語テキストのコーパスの文に条件付けされたベクトル雲の形状について,詳細な解析を行った。 本研究で開発された手法は,対象者には馴染みのない数学的手法を基礎として,この分野における斬新な手法である。 そのために最低限必要な理論を導入し、付録に付加的な視覚化を提供する。 この論文の主な貢献は、LSTMに基づくニューラルネットワークと比較して、トランスのトポロジカルな構造に関する顕著な観察である。 これらのニューラルネットワークの数学的性質に関するさらなる研究は、大きなトランスフォーマー言語モデルの操作を理解するために必要である。 この取り組みがNLPコミュニティ内のこの方向をさらに探究することを期待しています。

We explore the topology of representation manifolds arising in autoregressive neural language models trained on raw text data. In order to study their properties, we introduce tools from computational algebraic topology, which we use as a basis for a measure of topological complexity, that we call perforation. Using this measure, we study the evolution of topological structure in GPT based large language models across depth and time during training. We then compare these to gated recurrent models, and show that the latter exhibit more topological complexity, with a distinct pattern of changes common to all natural languages but absent from synthetically generated data. The paper presents a detailed analysis of the representation manifolds derived by these models based on studying the shapes of vector clouds induced by them as they are conditioned on sentences from corpora of natural language text. The methods developed in this paper are novel in the field and based on mathematical apparatus that might be unfamiliar to the target audience. To help with that we introduce the minimum necessary theory, and provide additional visualizations in the appendices. The main contribution of the paper is a striking observation about the topological structure of the transformer as compared to LSTM based neural architectures. It suggests that further research into mathematical properties of these neural networks is necessary to understand the operation of large transformer language models. We hope this work inspires further explorations in this direction within the NLP community.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# SlowPerception: 自律運転における視覚知覚に対する物理的世界遅延攻撃

SlowPerception: Physical-World Latency Attack against Visual Perception in Autonomous Driving ( http://arxiv.org/abs/2406.05800v1 )

ライセンス: Link先を確認
Chen Ma, Ningfei Wang, Zhengyu Zhao, Qi Alfred Chen, Chao Shen, (参考訳) 自律運転(AD)システムは、安全運転を確保するために、リアルタイム物体検出と複数物体追跡(MOT)の視覚的認識に極めて依存する。 しかし、これらの視覚的知覚成分の高遅延は、車両衝突のような重大な安全リスクを引き起こす可能性がある。 従来の研究では、デジタル領域内での遅延攻撃について広範囲に研究されてきたが、これらの手法を物理的世界に効果的に翻訳することは課題を提起している。 例えば、既存の攻撃は、空のような領域に影響を及ぼす敵の摂動や、カメラの視界の大部分を隠蔽する大きなパッチを必要とするなど、ADにとって非現実的または非現実的な摂動に依存しているため、現実世界で効果的に実施することは不可能である。 本稿では、プロジェクタベースの普遍摂動を生成することによって、AD知覚に対する最初の物理世界遅延攻撃であるSlowPerceptionを紹介する。 SlowPerceptionは、環境の様々な面に多数のファントムオブジェクトを戦略的に生成し、非最大抑圧(NMS)とMOTの計算負荷を大幅に増加させ、実質的な遅延を引き起こす。 当社のSlowPerceptionでは,AD認識システム,シナリオ,ハードウェア構成で平均2.5秒のレイテンシで,物理世界の第2レベルのレイテンシを実現しています。 このパフォーマンスは、既存の最先端のレイテンシアタックよりも大幅に優れています。 さらに,車体衝突などのADレベルの影響評価を,生産レベルのADシミュレータを用いた業界レベルのADシステムを用いて,平均97%の速度で実施する。 この重要な領域において、我々の分析がさらなる研究を刺激し、新たな脆弱性に対するADシステムの堅牢性を高めることを願っている。

Autonomous Driving (AD) systems critically depend on visual perception for real-time object detection and multiple object tracking (MOT) to ensure safe driving. However, high latency in these visual perception components can lead to significant safety risks, such as vehicle collisions. While previous research has extensively explored latency attacks within the digital realm, translating these methods effectively to the physical world presents challenges. For instance, existing attacks rely on perturbations that are unrealistic or impractical for AD, such as adversarial perturbations affecting areas like the sky, or requiring large patches that obscure most of a camera's view, thus making them impossible to be conducted effectively in the real world. In this paper, we introduce SlowPerception, the first physical-world latency attack against AD perception, via generating projector-based universal perturbations. SlowPerception strategically creates numerous phantom objects on various surfaces in the environment, significantly increasing the computational load of Non-Maximum Suppression (NMS) and MOT, thereby inducing substantial latency. Our SlowPerception achieves second-level latency in physical-world settings, with an average latency of 2.5 seconds across different AD perception systems, scenarios, and hardware configurations. This performance significantly outperforms existing state-of-the-art latency attacks. Additionally, we conduct AD system-level impact assessments, such as vehicle collisions, using industry-grade AD systems with production-grade AD simulators with a 97% average rate. We hope that our analyses can inspire further research in this critical domain, enhancing the robustness of AD systems against emerging vulnerabilities.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# SAM-PM:時空間アテンションを用いたビデオカモフラージュ物体検出の実現

SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention ( http://arxiv.org/abs/2406.05802v1 )

ライセンス: Link先を確認
Muhammad Nawfal Meeran, Gokul Adethya T, Bhanu Pratyush Mantha, (参考訳) 大規模ファンデーションモデルの分野では、SAM(Segment Anything Model)は画像セグメンテーションにおける異常な性能で注目されている。 しかし、ビデオカモフラージュオブジェクト検出(VCOD)タスクに対処することは、ユニークな課題である。 カモフラージュされた物体は一般的に背景に溶け込み、静止画では区別が難しい。 さらに、この文脈における時間的一貫性を確保することは難しい問題である。 その結果、SAMは制限に遭遇し、VCODタスクに適用されると不足する。 これらの課題を克服するために,SAM Propagation Module (SAM-PM) と呼ばれる新しい手法を提案する。 我々の伝搬モジュールは、時空間的相互保持機構を用いてSAM内の時間的一貫性を強制する。 さらに、SAMネットワークの重みを凍結させながら伝播モジュールのみをトレーニングし、タスク固有の洞察と大きなモデルが蓄積した膨大な知識を統合できるようにします。 本手法は,SAMのパラメータの1%未満の追加で,時間的一貫性とドメイン固有の専門知識をセグメンテーションネットワークに効果的に組み込む。 大規模な実験では、最新の最先端技術と比較してVCODベンチマークのパフォーマンスが大幅に向上している。 コードと事前トレーニングされたウェイトはhttps://github.com/SpiderNitt/SAM-PMでオープンソース化される

In the domain of large foundation models, the Segment Anything Model (SAM) has gained notable recognition for its exceptional performance in image segmentation. However, tackling the video camouflage object detection (VCOD) task presents a unique challenge. Camouflaged objects typically blend into the background, making them difficult to distinguish in still images. Additionally, ensuring temporal consistency in this context is a challenging problem. As a result, SAM encounters limitations and falls short when applied to the VCOD task. To overcome these challenges, we propose a new method called the SAM Propagation Module (SAM-PM). Our propagation module enforces temporal consistency within SAM by employing spatio-temporal cross-attention mechanisms. Moreover, we exclusively train the propagation module while keeping the SAM network weights frozen, allowing us to integrate task-specific insights with the vast knowledge accumulated by the large model. Our method effectively incorporates temporal consistency and domain-specific expertise into the segmentation network with an addition of less than 1% of SAM's parameters. Extensive experimentation reveals a substantial performance improvement in the VCOD benchmark when compared to the most recent state-of-the-art techniques. Code and pre-trained weights are open-sourced at https://github.com/SpiderNitt/SAM-PM
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# LLMに基づくエージェントワークフローとLLMプロファイリングコンポーネントの検討

A Survey on LLM-Based Agentic Workflows and LLM-Profiled Components ( http://arxiv.org/abs/2406.05804v1 )

ライセンス: Link先を確認
Xinzhe Li, (参考訳) 近年のLarge Language Models (LLM) の発展は、従来の単一パスであるChain-of-Thought (CoT) よりも改善された、高度なエージェントワークフローの開発を触媒にしている。 この調査では、LLM-Profiled Components(LMPC)と非LLMコンポーネントの無知を中心に、一般的なワークフローを要約した。 このような探索の背景にあるのは、LLMの役割を明確に理解し、LMPCがいかに再利用されるかを確認するためである。

Recent advancements in Large Language Models (LLMs) have catalyzed the development of sophisticated agentic workflows, offering improvements over traditional single-path, Chain-of-Thought (CoT) prompting techniques. This survey summarize the common workflows, with the particular focus on LLM-Profiled Components (LMPCs) and ignorance of non-LLM components. The reason behind such exploration is to facilitate a clearer understanding of LLM roles and see how reusabile of the LMPCs.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# 終末共同設立者による要約因果グラフにおける全効果の識別可能性--前室基準の拡張に向けて

Toward identifiability of total effects in summary causal graphs with latent confounders: an extension of the front-door criterion ( http://arxiv.org/abs/2406.05805v1 )

ライセンス: Link先を確認
Charles K. Assaad, (参考訳) 総効果を見積もる実験を行うことは、コスト、倫理的懸念、実用的な制限のために困難である。 代替として、研究者はしばしば因果グラフを使って、観測データからこれらの効果を特定できるかどうかを判断する。 完全に規定された非時間因果グラフにおける全効果の同定にはかなりの注意が払われており、パールのフロントドア基準により、可変集合が調整に十分でない場合でも、潜伏の存在下での総効果の同定が可能である。 しかし、多くの領域において完全な因果グラフを特定することは困難である。 これらの識別可能性の結果を部分的に指定されたグラフに拡張することは、特に因果関係が時間とともに進化する力学系において重要である。 本稿では, 因果関係間の時間的遅延を規定せず, 周期を含むことができる, 要約因果グラフと呼ばれる動的システムにおいて, 特定かつよく知られた部分的特定グラフを用いて, 全効果を同定する課題について述べる。 特に,観測データから全体効果を同定するための十分なグラフィカルな条件を,隠れたコンファウンディングの存在や,調整に十分な変数セットが存在しない場合においても提示し,要約因果グラフを用いて観測データから因果効果を理解し推定するための継続的な取り組みに寄与する。

Conducting experiments to estimate total effects can be challenging due to cost, ethical concerns, or practical limitations. As an alternative, researchers often rely on causal graphs to determine if it is possible to identify these effects from observational data. Identifying total effects in fully specified non-temporal causal graphs has garnered considerable attention, with Pearl's front-door criterion enabling the identification of total effects in the presence of latent confounding even when no variable set is sufficient for adjustment. However, specifying a complete causal graph is challenging in many domains. Extending these identifiability results to partially specified graphs is crucial, particularly in dynamic systems where causal relationships evolve over time. This paper addresses the challenge of identifying total effects using a specific and well-known partially specified graph in dynamic systems called a summary causal graph, which does not specify the temporal lag between causal relations and can contain cycles. In particular, this paper presents sufficient graphical conditions for identifying total effects from observational data, even in the presence of hidden confounding and when no variable set is sufficient for adjustment, contributing to the ongoing effort to understand and estimate causal effects from observational data using summary causal graphs.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# プロンプトは本当にプロンプトか? ウィスパーの能力を理解するプロンプトを探る

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper ( http://arxiv.org/abs/2406.05806v1 )

ライセンス: Link先を確認
Chih-Kai Yang, Kuan-Po Huang, Hung-yi Lee, (参考訳) 本研究では,ハイパフォーマンス音声認識モデルであるWhisperとプロンプト情報との相互作用について検討する。 我々の結果は、Whisperが予想したようなテキストのプロンプトを完全に把握できないことを示している。 さらに,テキストのプロンプトでトピック情報に強く依存しても,性能改善は保証されないことがわかった。 また、英語のプロンプトが両方の言語のデータセットで一般的にマンダリンよりも優れていることも指摘されている。 逆に,Whisper は誤った言語トークンを効果的に無視し,正しい言語トークンに注目することで,言語トークンにおける誤解を招く情報に対する認識を示す。 要約すると、この研究はウィスパーの迅速な理解能力に関する疑問を提起し、さらなる研究を促している。

This research explores the interaction between Whisper, a high-performing speech recognition model, and information in prompts. Our results unexpectedly show that Whisper may not fully grasp textual prompts as anticipated. Additionally, we find that performance improvement is not guaranteed even with stronger adherence to the topic information in textual prompts. It is also noted that English prompts generally outperform Mandarin ones on datasets of both languages, likely due to differences in training data distributions for these languages. Conversely, we discover that Whisper exhibits awareness of misleading information in language tokens by effectively ignoring incorrect language tokens and focusing on the correct ones. In summary, this work raises questions about Whisper's prompt understanding capability and encourages further studies.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# ControlLoc: 自律運転における視覚知覚に対する物理世界のハイジャック攻撃

ControlLoc: Physical-World Hijacking Attack on Visual Perception in Autonomous Driving ( http://arxiv.org/abs/2406.05810v1 )

ライセンス: Link先を確認
Chen Ma, Ningfei Wang, Zhengyu Zhao, Qian Wang, Qi Alfred Chen, Chao Shen, (参考訳) 近年の対向機械学習の研究は、自律運転(AD)における視覚的知覚に焦点を当てており、印刷された対向パッチが物体検出装置を攻撃できることが示されている。 しかし、ADの視覚的知覚は単なる物体検出以上のものを含んでいることに注意する必要がある。 MOTは、トラッキング結果と駆動決定に影響を与える前に、オブジェクト検出エラーを補償し、複数のフレームにわたって一貫したオブジェクト検出結果を必要とすることにより、ロバスト性を高める。 したがって、MOTはオブジェクト検出のみを効果的に攻撃する。 このような堅牢なAD視覚認識を攻撃するために、危険な運転シナリオを引き起こすためにデジタルハイジャック攻撃が提案されている。 しかし、この攻撃は効果が限られている。 本稿では,AD視覚認識におけるハイジャック脆弱性の活用を目的とした,新たな物理世界対応パッチアタックであるControlLocを紹介する。 ControlLocは2段階のプロセスを使用しており、最初は敵パッチの最適な位置を特定し、次に最適な位置で認識されたオブジェクトの位置と形状を変更するパッチを生成する。 広範囲な評価は、既存のハイジャック攻撃の4倍の有効性を持つ様々なAD視覚認識とデータセットに対して、印象的な平均攻撃成功率約98.1%を達成したコントロールロックの優れたパフォーマンスを示している。 ControlLocの有効性は、屋外の光条件や平均攻撃成功率77.5%といった異なる条件下での実車試験を含む、物理世界の条件でさらに検証されている。 ADシステムレベルの影響評価には、自動車衝突、業界レベルのADシステム、平均車両衝突率と不要緊急停止率81.3%のADシミュレータなどが含まれる。

Recent research in adversarial machine learning has focused on visual perception in Autonomous Driving (AD) and has shown that printed adversarial patches can attack object detectors. However, it is important to note that AD visual perception encompasses more than just object detection; it also includes Multiple Object Tracking (MOT). MOT enhances the robustness by compensating for object detection errors and requiring consistent object detection results across multiple frames before influencing tracking results and driving decisions. Thus, MOT makes attacks on object detection alone less effective. To attack such robust AD visual perception, a digital hijacking attack has been proposed to cause dangerous driving scenarios. However, this attack has limited effectiveness. In this paper, we introduce a novel physical-world adversarial patch attack, ControlLoc, designed to exploit hijacking vulnerabilities in entire AD visual perception. ControlLoc utilizes a two-stage process: initially identifying the optimal location for the adversarial patch, and subsequently generating the patch that can modify the perceived location and shape of objects with the optimal location. Extensive evaluations demonstrate the superior performance of ControlLoc, achieving an impressive average attack success rate of around 98.1% across various AD visual perceptions and datasets, which is four times greater effectiveness than the existing hijacking attack. The effectiveness of ControlLoc is further validated in physical-world conditions, including real vehicle tests under different conditions such as outdoor light conditions with an average attack success rate of 77.5%. AD system-level impact assessments are also included, such as vehicle collision, using industry-grade AD systems and production-grade AD simulators with an average vehicle collision rate and unnecessary emergency stop rate of 81.3%.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# スペイン語大言語モデルのための17世紀スペインの表記法

Seventeenth-Century Spanish American Notary Records for Fine-Tuning Spanish Large Language Models ( http://arxiv.org/abs/2406.05812v1 )

ライセンス: Link先を確認
Shraboni Sarker, Ahmad Tamim Hamad, Hulayyil Alshammari, Viviana Grieco, Praveen Rao, (参考訳) 大規模な言語モデルは、電子商取引、金融、医療、教育などの分野で大きな人気を集めている。 ファインチューニングは、望ましいダウンストリームタスクのために、ドメイン固有のデータセット上でLLMをカスタマイズする一般的なアプローチである。 本稿では,分類,マスク付き言語モデリング,クラスタリングなど,さまざまなタスクを実行するためにスペイン語用に開発された微調整LDMのための貴重な資源について述べる。 我々の資料は、アルゼンチン国立公文書館から入手した17世紀の手書きの記譜集である。 このコレクションには、約400年前にエステンバン・アグレダ・デ・ヴェルガラ (Estenban Agreda de Vergara) とニコラ・デ・バルディビア・イ・ブリスエラ (Nicolas de Valdivia y Brisuela) という2つの記譜によって手書きされた160以上のページの原画像と書き起こされたテキスト(およびメタデータ)の組み合わせが含まれている。 経験的評価により、我々のコレクションは、分類やマスキング言語モデリングなどのタスクにスペイン語 LLM の微調整に利用でき、事前訓練されたスペイン語モデルやChatGPT-3.5/ChatGPT-4o よりも優れることを示した。 私たちのリソースは、過去のテキスト分析の貴重なリソースであり、GitHubで公開されています。

Large language models have gained tremendous popularity in domains such as e-commerce, finance, healthcare, and education. Fine-tuning is a common approach to customize an LLM on a domain-specific dataset for a desired downstream task. In this paper, we present a valuable resource for fine-tuning LLMs developed for the Spanish language to perform a variety of tasks such as classification, masked language modeling, clustering, and others. Our resource is a collection of handwritten notary records from the seventeenth century obtained from the National Archives of Argentina. This collection contains a combination of original images and transcribed text (and metadata) of 160+ pages that were handwritten by two notaries, namely, Estenban Agreda de Vergara and Nicolas de Valdivia y Brisuela nearly 400 years ago. Through empirical evaluation, we demonstrate that our collection can be used to fine-tune Spanish LLMs for tasks such as classification and masked language modeling, and can outperform pre-trained Spanish models and ChatGPT-3.5/ChatGPT-4o. Our resource will be an invaluable resource for historical text analysis and is publicly available on GitHub.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# 統一テキスト・ツー・イメージ生成と検索

Unified Text-to-Image Generation and Retrieval ( http://arxiv.org/abs/2406.05814v1 )

ライセンス: Link先を確認
Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua, (参考訳) 人間が画像の効率よく、効果的に取得する方法は、常に長年にわたる問題だった。 典型的な解決策は、テキストクエリが与えられた場合の既存のデータベースからのテキスト・ツー・イメージの検索であるが、制限されたデータベースは創造性に欠ける。 対照的に、最近のテキスト・画像生成のブレークスルーにより、派手で多様な視覚コンテンツが作成できるようになったが、知識集約的な画像の合成の課題に直面している。 本研究では,テキスト・画像生成と検索の関係を再考し,MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。 具体的には,MLLMの本質的な識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。 その後、自動回帰生成方式で生成と検索を統一し、テキストクエリに対する応答として、生成した画像と検索した画像の間で最適なマッチングを選択できる自律的決定モジュールを提案する。 さらに、創造的で知識集約的なドメインを含むTIGeR-Benchと呼ばれるベンチマークを構築し、統一されたテキスト・画像生成と検索の評価を標準化する。 TIGeR-Bench と Flickr30K と MS-COCO の総合的な実験結果から,提案手法の優位性と有効性を示した。

How humans can efficiently and effectively acquire images has always been a perennial question. A typical solution is text-to-image retrieval from an existing database given the text query; however, the limited database typically lacks creativity. By contrast, recent breakthroughs in text-to-image generation have made it possible to produce fancy and diverse visual content, but it faces challenges in synthesizing knowledge-intensive images. In this work, we rethink the relationship between text-to-image generation and retrieval and propose a unified framework in the context of Multimodal Large Language Models (MLLMs). Specifically, we first explore the intrinsic discriminative abilities of MLLMs and introduce a generative retrieval method to perform retrieval in a training-free manner. Subsequently, we unify generation and retrieval in an autoregressive generation way and propose an autonomous decision module to choose the best-matched one between generated and retrieved images as the response to the text query. Additionally, we construct a benchmark called TIGeR-Bench, including creative and knowledge-intensive domains, to standardize the evaluation of unified text-to-image generation and retrieval. Extensive experimental results on TIGeR-Bench and two retrieval benchmarks, i.e., Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our proposed method.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# グラフによる機械学習のための状態空間モデルから何が学べるか?

What Can We Learn from State Space Models for Machine Learning on Graphs? ( http://arxiv.org/abs/2406.05815v1 )

ライセンス: Link先を確認
Yinan Huang, Siqi Miao, Pan Li, (参考訳) グラフ上の機械学習は、最近、ドメインにまたがる広範なアプリケーションを発見した。 しかし、一般的に使用されるMPNN(Message Passing Neural Networks)は、表現力の制限と長距離依存関係の取得に苦慮している。 グラフトランスフォーマーは、グローバルなアテンションメカニズムのために強力な代替手段を提供するが、特に大きなグラフの場合、計算オーバーヘッドが非常に大きい。 近年、状態空間モデル (State Space Models, SSM) は、シーケンシャルデータをモデル化するためにトランスフォーマーの完全な注意を置き換えるための魅力的なアプローチとして出現している。 RNNとCNNの強みを融合して提供する a) 効率的な計算 b) 長距離の依存関係を捕捉する能力,及び c) 様々な長さの列にまたがる優れた一般化 しかし、SSMをグラフ構造データに拡張することは、グラフにおける標準ノードの順序付けが欠如しているため、ユニークな課題である。 本研究では,グラフ構造化データに対するSSMの原則拡張として,GSSC(Graph State Space Convolution)を提案する。 グローバルな置換同変集合アグリゲーションと、相対ノード距離に依存する分解可能なグラフカーネルを畳み込みカーネルとして利用することにより、GSSCはSSMの3つの利点を全て保持する。 グラフサブストラクチャのカウントにおいて,GSSCがMPNNよりも圧倒的に強い表現力を示し,その効果を実世界の10のベンチマークデータセットで示し,GSSCは10のデータセット中7のベストを達成している。 グラフ機械学習のパワフルでスケーラブルなモデルとしてのGSSCの可能性を明らかにする。 私たちのコードはhttps://github.com/Graph-COM/GSSC.orgで公開されています。

Machine learning on graphs has recently found extensive applications across domains. However, the commonly used Message Passing Neural Networks (MPNNs) suffer from limited expressive power and struggle to capture long-range dependencies. Graph transformers offer a strong alternative due to their global attention mechanism, but they come with great computational overheads, especially for large graphs. In recent years, State Space Models (SSMs) have emerged as a compelling approach to replace full attention in transformers to model sequential data. It blends the strengths of RNNs and CNNs, offering a) efficient computation, b) the ability to capture long-range dependencies, and c) good generalization across sequences of various lengths. However, extending SSMs to graph-structured data presents unique challenges due to the lack of canonical node ordering in graphs. In this work, we propose Graph State Space Convolution (GSSC) as a principled extension of SSMs to graph-structured data. By leveraging global permutation-equivariant set aggregation and factorizable graph kernels that rely on relative node distances as the convolution kernels, GSSC preserves all three advantages of SSMs. We demonstrate the provably stronger expressiveness of GSSC than MPNNs in counting graph substructures and show its effectiveness across 10 real-world, widely used benchmark datasets, where GSSC achieves best results on 7 out of 10 datasets with all significant improvements compared to the state-of-the-art baselines and second-best results on the other 3 datasets. Our findings highlight the potential of GSSC as a powerful and scalable model for graph machine learning. Our code is available at https://github.com/Graph-COM/GSSC.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# Hypernetworkとしての注意

Attention as a Hypernetwork ( http://arxiv.org/abs/2406.05816v1 )

ライセンス: Link先を確認
Simon Schug, Seijin Kobayashi, Yassir Akram, João Sacramento, Razvan Pascanu, (参考訳) トランスフォーマーは、ある状況下では、トレーニング中に構成部品に遭遇したかもしれないが、構成が存在しない新しい問題事例に一般化することができる。 この構成一般化能力を実現するメカニズムは何か? マルチヘッドアテンションをハイパーネットワークとして再構成することにより、低次元の潜伏符号がキークエリの特定の操作を規定していることを明らかにする。 この潜在コードは高度に構造化されており、ネットワークによって実行されるサブタスクに関する情報をキャプチャする。 注意の枠組みをハイパーネットワークとして用い,抽象的推論タスクの多頭部線形注意の簡易な修正を提案する。 特に,Raven Progressive Matricesヒューマンインテリジェンステストのシンボリックバージョンを紹介し,モデルサイズとデータのスケーリングによって構成一般化が可能になり,トランスフォーマーに機能的に構造化された潜在コードが発生することを示す。

Transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training but whose compositions have not. What mechanisms underlie this ability for compositional generalization? By reformulating multi-head attention as a hypernetwork, we reveal that a low-dimensional latent code specifies key-query specific operations. We find empirically that this latent code is highly structured, capturing information about the subtasks performed by the network. Using the framework of attention as a hypernetwork we further propose a simple modification of multi-head linear attention that strengthens the ability for compositional generalization on a range of abstract reasoning tasks. In particular, we introduce a symbolic version of the Raven Progressive Matrices human intelligence test on which we demonstrate how scaling model size and data enables compositional generalization and gives rise to a functionally structured latent code in the transformer.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# F-LMM:凍結型大規模マルチモーダルモデル

F-LMM: Grounding Frozen Large Multimodal Models ( http://arxiv.org/abs/2406.05821v1 )

ライセンス: Link先を確認
Size Wu, Sheng Jin, Wenwei Zhang, Lumin Xu, Wentao Liu, Wei Li, Chen Change Loy, (参考訳) 視覚的接地能力を備えた大規模マルチモーダルモデル(LMM)の活用は、視覚世界に対するAIの理解と人間との相互作用を著しく向上させる。 しかし、既存の手法では、LMMのパラメータを微調整して、追加のセグメンテーショントークンを学習し、グラウンドとセグメンテーションデータセットを過度に適合させるのが一般的である。 このような設計は、一般的なAIアシスタントの必須の会話能力において、必然的に壊滅的な縮小を引き起こすだろう。 本稿では,マルチモーダルな質問応答ベンチマークを用いて,一般知識の理解の消失と命令追従能力の弱化を示す顕著な性能低下を観察し,最先端のLMMを網羅的に評価する。 この問題に対処するために、F-LMM(F-LMM)という、人間とAIの会話において、解凍した既成のLMMをグラウンド化する -- は、十分に訓練されたLMMの注意重みに本質的に視覚的接地によって導かれる単語-ピクセル対応が本質的に存在するという事実に基づいて、単純かつ効果的な設計である。 トレーニング可能なCNN層を少しだけ使用すれば、ワードピクセルの注意重みをマスクロジットに変換することができ、SAMベースのマスクリファインダはさらに最適化できる。 我々のF-LMMは、特別なセグメンテーショントークンを学習したり、高品質なグラウンドトレーニングデータを利用したりはしないが、LMMの本来の会話能力を完全に保ちながら、表現セグメンテーションとパノプティックな物語グラウンドニングベンチマークの参照において競合性能を達成する。 さらに,F-LMMでは,指示追従能力の保持と接地能力の確保により,視覚的連鎖推論を行え,対物幻覚に対する抵抗性が向上する。

Endowing Large Multimodal Models (LMMs) with visual grounding capability can significantly enhance AIs' understanding of the visual world and their interaction with humans. However, existing methods typically fine-tune the parameters of LMMs to learn additional segmentation tokens and overfit grounding and segmentation datasets. Such a design would inevitably cause a catastrophic diminution in the indispensable conversational capability of general AI assistants. In this paper, we comprehensively evaluate state-of-the-art grounding LMMs across a suite of multimodal question-answering benchmarks, observing pronounced performance drops that indicate vanishing general knowledge comprehension and weakened instruction following ability. To address this issue, we present F-LMM -- grounding frozen off-the-shelf LMMs in human-AI conversations -- a straightforward yet effective design based on the fact that word-pixel correspondences conducive to visual grounding inherently exist in the attention weights of well-trained LMMs. Using only a few trainable CNN layers, we can translate word-pixel attention weights to mask logits, which a SAM-based mask refiner can further optimise. Our F-LMM neither learns special segmentation tokens nor utilises high-quality grounded instruction-tuning data, but achieves competitive performance on referring expression segmentation and panoptic narrative grounding benchmarks while completely preserving LMMs' original conversational ability. Additionally, with instruction-following ability preserved and grounding ability obtained, our F-LMM can perform visual chain-of-thought reasoning and better resist object hallucinations.
翻訳日:2024-06-11 17:57:33 公開日:2024-06-09
# ReLUサンプリングによる対称行列補完

Symmetric Matrix Completion with ReLU Sampling ( http://arxiv.org/abs/2406.05822v1 )

ライセンス: Link先を確認
Huikang Liu, Peng Wang, Longxiu Huang, Qing Qu, Laura Balzano, (参考訳) 本稿では, 決定論的エントリー依存サンプリングを用いた対称正半定値低ランク行列補完(MC)の問題について検討する。 特に,正の成分のみを観測する修正線形単位(ReLU)サンプリングや,しきい値に基づくサンプリングの一般化について検討する。 ランダム初期化を伴う勾配降下(GD)は、一般に大域的に最適でない定常点に収束する。 それでも、小さいランクの行列因子が穏やかな仮定を満たすとき、非凸目的関数は、植込みされた低ランク行列の近傍の商多様体上の測地的に強い凸であることを示す。 さらに、我々の仮定は、すなわちガウス成分を持つ行列因子によって満たされることを示す。 最後に、我々は、GD が研究された定式化を解くためのテーラー設計初期化を開発し、これは常に大域ミニマへの収束を経験的に達成する。 また, 初期化, 騒音レベル, 寸法, ランクに関して, コンバージェンスと完了性能について検討し, MC法との比較を行った。

We study the problem of symmetric positive semi-definite low-rank matrix completion (MC) with deterministic entry-dependent sampling. In particular, we consider rectified linear unit (ReLU) sampling, where only positive entries are observed, as well as a generalization to threshold-based sampling. We first empirically demonstrate that the landscape of this MC problem is not globally benign: Gradient descent (GD) with random initialization will generally converge to stationary points that are not globally optimal. Nevertheless, we prove that when the matrix factor with a small rank satisfies mild assumptions, the nonconvex objective function is geodesically strongly convex on the quotient manifold in a neighborhood of a planted low-rank matrix. Moreover, we show that our assumptions are satisfied by a matrix factor with i.i.d. Gaussian entries. Finally, we develop a tailor-designed initialization for GD to solve our studied formulation, which empirically always achieves convergence to the global minima. We also conduct extensive experiments and compare MC methods, investigating convergence and completion performance with respect to initialization, noise level, dimension, and rank.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# PSBD: 予測シフトの不確かさがバックドア検出をアンロック

PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection ( http://arxiv.org/abs/2406.05826v1 )

ライセンス: Link先を確認
Wei Li, Pin-Yu Chen, Sijia Liu, Ren Wang, (参考訳) ディープニューラルネットワークはバックドア攻撃の影響を受けやすく、敵はトレーニングデータに悪意あるサンプルを挿入することでモデル予測を操作する。 現在、疑わしいトレーニングデータを同定し、潜在的なバックドアサンプルを明らかにするための直接フィルタリング方法が不足している。 本稿では,未ラベルのクリーンな検証データを最小限に抑えた不確実性に基づく手法である予測シフトバックドア検出(PSBD)を提案する。 PSBDは興味深い予測シフト(PS)現象によって動機付けられており、汚染されたモデルによるクリーンなデータに対する予測は、推論中にドロップアウトを施した真のラベルから、推論時に他のラベルへとシフトすることが多い。 我々は、ニューロンバイアス効果によるPS結果の仮説を立て、特定のクラスの特徴をニューロンに好ませる。 PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。 本研究は,PSBDの有効性と有効性を検証し,本研究の主流となる検出手法について検討した。

Deep neural networks are susceptible to backdoor attacks, where adversaries manipulate model predictions by inserting malicious samples into the training data. Currently, there is still a lack of direct filtering methods for identifying suspicious training data to unveil potential backdoor samples. In this paper, we propose a novel method, Prediction Shift Backdoor Detection (PSBD), leveraging an uncertainty-based approach requiring minimal unlabeled clean validation data. PSBD is motivated by an intriguing Prediction Shift (PS) phenomenon, where poisoned models' predictions on clean data often shift away from true labels towards certain other labels with dropout applied during inference, while backdoor samples exhibit less PS. We hypothesize PS results from neuron bias effect, making neurons favor features of certain classes. PSBD identifies backdoor training samples by computing the Prediction Shift Uncertainty (PSU), the variance in probability values when dropout layers are toggled on and off during model inference. Extensive experiments have been conducted to verify the effectiveness and efficiency of PSBD, which achieves state-of-the-art results among mainstream detection methods.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 多段階乳がん画像分割のための多段階多段階畳み込みネットワーク

Multi-Stain Multi-Level Convolutional Network for Multi-Tissue Breast Cancer Image Segmentation ( http://arxiv.org/abs/2406.05828v1 )

ライセンス: Link先を確認
Akash Modi, Sumit Kumar Jha, Purnendu Mishra, Rajiv Kumar, Kiran Aatre, Gursewak Singh, Shubham Mathur, (参考訳) デジタル病理学と顕微鏡画像解析は、主に腫瘍の存在を示唆するがんおよびピンポイント領域(ROI)を特定するために、デジタルスキャンされたICCスライドのセグメンテーションに広く用いられている。 しかし、現在のROIセグメンテーションモデルでは、染色プロトコルが異なるか、複数の研究室にまたがるモダリティが原因で、染色やスキャナのばらつきに悩まされている。 また、シトゥの直腸癌(DCIS)やアシニなどの組織は、その構造的類似性や色組成から、しばしば腫瘍に分類される。 本稿では, 腫瘍, 腺, DCIS, 扁平上皮, 血管, 壊死などの他の組織領域を別クラスとして分類し, 分類する, 病理組織全スライドのための新しい畳み込みニューラルネットワーク (CNN) を用いたマルチクラス組織分割モデルを提案する。 空間分解能にまたがる特異な画素アライメント非線形マージは、局所的および大域的視野を持つモデルに様々なクラスを正確に検出する権限を与える。 提案モデルは,WSIの異なる解像度から多段階のコンテキストを用いて,折り畳み,アーティファクト,ぼやけた領域,バブルなどの悪い領域を組織領域から分離することができる。 513個のスライドから部分的および雑音的なアノテーションを付加した多段階汎用モデルを効率よく訓練するために,文脈認識の強化と雑音増大を伴う多段階反復訓練を用いた。 トレーニングパイプラインでは、コンテキスト認識の強化を使用して生成された1200万のパッチを使用して、モデルステンドとスキャナをデータソース間で不変にしました。 染色およびスキャナの非分散を解析するために,異なる研究室の全く新しいスキャナー(Motic)から完全に新しい染色(ヘマトキシリンとエオシン)を23,000パッチで評価した。 IOUの平均値は0.72で、他のデータソースやスキャナーのモデルの性能と同等である。

Digital pathology and microscopy image analysis are widely employed in the segmentation of digitally scanned IHC slides, primarily to identify cancer and pinpoint regions of interest (ROI) indicative of tumor presence. However, current ROI segmentation models are either stain-specific or suffer from the issues of stain and scanner variance due to different staining protocols or modalities across multiple labs. Also, tissues like Ductal Carcinoma in Situ (DCIS), acini, etc. are often classified as Tumors due to their structural similarities and color compositions. In this paper, we proposed a novel convolutional neural network (CNN) based Multi-class Tissue Segmentation model for histopathology whole-slide Breast slides which classify tumors and segments other tissue regions such as Ducts, acini, DCIS, Squamous epithelium, Blood Vessels, Necrosis, etc. as a separate class. Our unique pixel-aligned non-linear merge across spatial resolutions empowers models with both local and global fields of view for accurate detection of various classes. Our proposed model is also able to separate bad regions such as folds, artifacts, blurry regions, bubbles, etc. from tissue regions using multi-level context from different resolutions of WSI. Multi-phase iterative training with context-aware augmentation and increasing noise was used to efficiently train a multi-stain generic model with partial and noisy annotations from 513 slides. Our training pipeline used 12 million patches generated using context-aware augmentations which made our model stain and scanner invariant across data sources. To extrapolate stain and scanner invariance, our model was evaluated on 23000 patches which were for a completely new stain (Hematoxylin and Eosin) from a completely new scanner (Motic) from a different lab. The mean IOU was 0.72 which is on par with model performance on other data sources and scanners.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 予算制約を考慮したブラックボックス二元最適化の確率論的アプローチ:センサ配置への応用

Probabilistic Approach to Black-Box Binary Optimization with Budget Constraints: Application to Sensor Placement ( http://arxiv.org/abs/2406.05830v1 )

ライセンス: Link先を確認
Ahmed Attia, (参考訳) ブラックボックスの目的関数と予算制約による二項最適化問題に対する完全確率的アプローチを提案する。 確率論的アプローチでは、最適化変数はランダム変数と見なされ、パラメトリック確率分布と関連付けられる。 元の最適化問題は、元の目的の期待値に対する最適化に置き換えられ、確率分布パラメータに対して最適化される。 得られた最適パラメータ(最適ポリシー)は、元の二項最適化問題の最適解の見積もりを生成するために二項空間をサンプリングするために用いられる。 確率分布は最適化変数がバイナリであるため、ベルヌーイモデルの族から選択される。 最適化の制約は一般に実現可能性領域を制限する。 これは、制約が満足できる条件分布を持つ確率変数をモデル化することで実現できる。 したがって、本研究では、非ゼロ成分の総数、すなわち予算制約によって条件付けられたランダム変数をモデル化する条件付きベルヌーイ分布を開発する。 このアプローチ a) 一般に、非確率的ブラックボックス目的関数と予算制約による二項最適化問題に適用できる。 (b)実現可能な領域のみをサンプリングし、ソフト制約を採用する場合と比較して計算コストを大幅に削減する条件付き確率を用いて予算制約を考慮に入れること。 (c) はソフト制約を適用せず、例えば、センサ配置最適化問題において困難である疎性を促進するために、正規化パラメータのチューニングを必要としない。 提案手法は理想化された双線形二元最適化問題を用いて数値的に検証し,パラメータ識別装置におけるセンサ配置実験を用いて検証する。

We present a fully probabilistic approach for solving binary optimization problems with black-box objective functions and with budget constraints. In the probabilistic approach, the optimization variable is viewed as a random variable and is associated with a parametric probability distribution. The original optimization problem is replaced with an optimization over the expected value of the original objective, which is then optimized over the probability distribution parameters. The resulting optimal parameter (optimal policy) is used to sample the binary space to produce estimates of the optimal solution(s) of the original binary optimization problem. The probability distribution is chosen from the family of Bernoulli models because the optimization variable is binary. The optimization constraints generally restrict the feasibility region. This can be achieved by modeling the random variable with a conditional distribution given satisfiability of the constraints. Thus, in this work we develop conditional Bernoulli distributions to model the random variable conditioned by the total number of nonzero entries, that is, the budget constraint. This approach (a) is generally applicable to binary optimization problems with nonstochastic black-box objective functions and budget constraints; (b) accounts for budget constraints by employing conditional probabilities that sample only the feasible region and thus considerably reduces the computational cost compared with employing soft constraints; and (c) does not employ soft constraints and thus does not require tuning of a regularization parameter, for example to promote sparsity, which is challenging in sensor placement optimization problems. The proposed approach is verified numerically by using an idealized bilinear binary optimization problem and is validated by using a sensor placement experiment in a parameter identification setup.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 拡散モデルにおけるフォースガイドサンプリングによる抗体設計の改善

Improving Antibody Design with Force-Guided Sampling in Diffusion Models ( http://arxiv.org/abs/2406.05832v1 )

ライセンス: Link先を確認
Paulina Kulytė, Francisco Vargas, Simon Valentin Mathis, Yu Guang Wang, José Miguel Hernández-Lobato, Pietro Liò, (参考訳) 免疫防御に不可欠な抗体は、ウイルスなどの抗原を結合・中和するために主に相補性決定領域(CDR)に依存する。 これらのCDRの設計は、抗体の標的に対する親和性と特異性を決定する。 生成モデル、特に拡散確率モデル(DDPM)は、CDR領域の構造に基づく設計を前進させる可能性を示している。 しかし、限定的な抗体-抗原構造のデータセットのみが利用可能であり、配布外インタフェースへの一般化は依然として課題である。 原子間相互作用を近似した物理ベースの力場は、ターゲットインターフェースの設計をより良く形成するために、粗いが普遍的な情報源を提供する。 この基礎情報を拡散モデルに統合することは、非常に望ましい。 本稿では、力場エネルギーに基づくフィードバックを統合することで拡散モデルのサンプリングプロセスを強化する新しい手法を提案する。 我々のモデルであるDiffForceは、拡散サンプリングプロセスの導出に力を使い、2つの分布を効果的にブレンドする。 より広範な実験により,本手法はCDRを低エネルギーでサンプリングし,生成した抗体の構造と配列を増強する。

Antibodies, crucial for immune defense, primarily rely on complementarity-determining regions (CDRs) to bind and neutralize antigens, such as viruses. The design of these CDRs determines the antibody's affinity and specificity towards its target. Generative models, particularly denoising diffusion probabilistic models (DDPMs), have shown potential to advance the structure-based design of CDR regions. However, only a limited dataset of bound antibody-antigen structures is available, and generalization to out-of-distribution interfaces remains a challenge. Physics based force-fields, which approximate atomic interactions, offer a coarse but universal source of information to better mold designs to target interfaces. Integrating this foundational information into diffusion models is, therefore, highly desirable. Here, we propose a novel approach to enhance the sampling process of diffusion models by integrating force field energy-based feedback. Our model, DiffForce, employs forces to guide the diffusion sampling process, effectively blending the two distributions. Through extensive experiments, we demonstrate that our method guides the model to sample CDRs with lower energy, enhancing both the structure and sequence of the generated antibodies.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# BOSC:空中画像マッピングのためのツールボックス

BOSC: A toolbox for aerial imagery mapping ( http://arxiv.org/abs/2406.05833v1 )

ライセンス: Link先を確認
Ricard Durall, Laura Montilla, Esteban Durall, (参考訳) 正確な航空画像のラベル付けは、作物の種類や土地利用パターンの定式化など、情報的意思決定や資源配分に不可欠である。 航空画像の操作・注釈を行う包括的ツールボックスの開発は、リモートセンシングと空間分析において大きな飛躍となる。 本稿では,研究者や実践者がこれまでにない精度と効率で行動可能な洞察を抽出するツールボックスBOSCを紹介する。 詳しい情報やBOSCの探索については、私たちのリポジトリを参照してください。

Accurate and efficient label of aerial images is essential for informed decision-making and resource allocation, whether in identifying crop types or delineating land-use patterns. The development of a comprehensive toolbox for manipulating and annotating aerial imagery represents a significant leap forward in remote sensing and spatial analysis. In this report, we introduce BOSC, a toolbox that enables researchers and practitioners to extract actionable insights with unprecedented accuracy and efficiency, addressing a critical need in today's abundance of drone and satellite resources. For more information or to explore BOSC, please visit our repository.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# Mamba YOLO:オブジェクト検出のためのSSMベースのYOLO

Mamba YOLO: SSMs-Based YOLO For Object Detection ( http://arxiv.org/abs/2406.05835v1 )

ライセンス: Link先を確認
Zeyu Wang, Chen Li, Huiying Xu, Xinzhong Zhu, (参考訳) ディープラーニング技術の急速な進歩により、YOLOシリーズはリアルタイム物体検出のための新しいベンチマークを作成した。 研究者は、YOLOの基礎の上に、再パラメータ化、効率的な層凝集ネットワーク、アンカーフリー技術といった革新的な応用を継続的に研究してきた。 検出性能をさらに向上するため、トランスフォーマーベースの構造を導入し、モデルの受容領域を大幅に拡張し、顕著な性能向上を実現した。 しかし、自己注意機構の二次的な複雑さがモデルの計算負担を増大させるため、このような改善はコストがかかる。 幸いなことに、革新的な技術としてのステートスペースモデル(SSM)の出現は、2次複雑さに起因する問題を効果的に緩和してきた。 これらの進歩を踏まえて,SSMに基づく新しい物体検出モデルであるマンバヨロを紹介する。 Mamba-YOLOはSSMファウンデーションを最適化するだけでなく、特にオブジェクト検出タスクに適応する。 シーケンスモデリングにおけるSSMの潜在的な限界、例えば受容場が不十分で画像の局所性が弱いことを考慮し、LSBlockとRGBlockを設計した。 これらのモジュールは、より正確な画像依存のキャプチャを可能にし、モデルの堅牢性を大幅に向上させる。 公開されているベンチマークデータセットであるCOCOとVOCの大規模な実験結果によると、Mamba-YOLOは、パフォーマンスと競争性の両方において、既存のYOLOシリーズモデルを上回っている。

Propelled by the rapid advancement of deep learning technologies, the YOLO series has set a new benchmark for real-time object detectors. Researchers have continuously explored innovative applications of reparameterization, efficient layer aggregation networks, and anchor-free techniques on the foundation of YOLO. To further enhance detection performance, Transformer-based structures have been introduced, significantly expanding the model's receptive field and achieving notable performance gains. However, such improvements come at a cost, as the quadratic complexity of the self-attention mechanism increases the computational burden of the model. Fortunately, the emergence of State Space Models (SSM) as an innovative technology has effectively mitigated the issues caused by quadratic complexity. In light of these advancements, we introduce Mamba-YOLO a novel object detection model based on SSM. Mamba-YOLO not only optimizes the SSM foundation but also adapts specifically for object detection tasks. Given the potential limitations of SSM in sequence modeling, such as insufficient receptive field and weak image locality, we have designed the LSBlock and RGBlock. These modules enable more precise capture of local image dependencies and significantly enhance the robustness of the model. Extensive experimental results on the publicly available benchmark datasets COCO and VOC demonstrate that Mamba-YOLO surpasses the existing YOLO series models in both performance and competitiveness, showcasing its substantial potential and competitive edge.The PyTorch code is available at:\url{https://github.com/HZAI-ZJNU/Mamba-YOLO}
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 全気象セマンティックセグメンテーションにおけるCVPR 2024 UG2+チャレンジトラックの解法

Solution for CVPR 2024 UG2+ Challenge Track on All Weather Semantic Segmentation ( http://arxiv.org/abs/2406.05837v1 )

ライセンス: Link先を確認
Jun Yu, Yunxiang Zhang, Fengzhao Sun, Leilei Wang, Renjie Lu, (参考訳) 本報告では, CVPR 2024におけるUG2+ Challengeにおいて, 悪天候における意味的セグメンテーションの解決法について述べる。 各種気象条件にまたがる堅牢かつ正確なセグメンテーション結果を達成するため,大規模関節データセットから事前訓練した重み付きInternImage-Hバックボーンを初期化し,最先端のUpernetセグメンテーション法で強化した。 具体的には、オフラインおよびオンラインデータ拡張アプローチを使用して、列車の集合を拡張し、セグメンタの性能をさらに向上するのに役立つ。 その結果,提案手法はテストセットの高度な性能を示し,この課題において第3位を達成している。

In this report, we present our solution for the semantic segmentation in adverse weather, in UG2+ Challenge at CVPR 2024. To achieve robust and accurate segmentation results across various weather conditions, we initialize the InternImage-H backbone with pre-trained weights from the large-scale joint dataset and enhance it with the state-of-the-art Upernet segmentation method. Specifically, we utilize offline and online data augmentation approaches to extend the train set, which helps us to further improve the performance of the segmenter. As a result, our proposed solution demonstrates advanced performance on the test set and achieves 3rd position in this challenge.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# MaLa-ASR:マルチメディアLLMベースのASR

MaLa-ASR: Multimedia-Assisted LLM-Based ASR ( http://arxiv.org/abs/2406.05839v1 )

ライセンス: Link先を確認
Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen, (参考訳) ビデオのような情報に富むデータがますます多くなり、音声タスクの強化にマルチモーダル補助情報を利用するようになり、研究の関心が高まっている。 LLMベースのオーディオモデルに関する最近の研究の急増は、オーディオタスクに取り組むための新しい視点を提供する。 LLMが複数の入力を柔軟に取り込み得ることを考慮し、会議内容の認識を改善するためにプレゼンテーションスライドから抽出したテキストキーワードを統合可能なLLMベースのASRモデルであるMaLa-ASRを提案する。 MaLa-ASR の平均 WER は L95 と S95 のサブセットで 9.4% と 11.7% であり、SlideSpeech で報告されたベースラインモデルよりも 27.9% と 44.7% の相対的な WER の減少を示している。 MaLa-ASRは、LLMの音声タスクにおける強い性能と補助情報を便利に統合する能力を強調している。 入力プロンプトにキーワードを追加することで、バイアス付き単語誤り率(B-WER)は46.0%と44.2%と相対的に減少し、このデータセットに新しいSOTAを確立する。

As more and more information-rich data like video become available, utilizing multi-modal auxiliary information to enhance audio tasks has sparked widespread research interest. The recent surge in research on LLM-based audio models provides fresh perspectives for tackling audio tasks. Given that LLM can flexibly ingest multiple inputs, we propose MaLa-ASR, an LLM-based ASR model that can integrate textual keywords extracted from presentation slides to improve recognition of conference content. MaLa-ASR yields average WERs of 9.4% and 11.7% on the L95 and S95 subsets of the SlideSpeech corpus, representing a significant relative WER drop of 27.9% and 44.7% over the baseline model reported in SlideSpeech. MaLa-ASR underscores LLM's strong performance in speech tasks and the capability to integrate auxiliary information conveniently. By adding keywords to the input prompt, the biased word error rate (B-WER) reduces relatively by 46.0% and 44.2%, establishing a new SOTA on this dataset.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# レプリカフリーケルディシュ形式におけるスピングラスのレプリカ対称性の破れ

Replica symmetry breaking in spin glasses in the replica-free Keldysh formalism ( http://arxiv.org/abs/2406.05842v1 )

ライセンス: Link先を確認
Johannes Lang, Subir Sachdev, Sebastian Diehl, (参考訳) 漸近的に遅くなると、ガラス相の持続的な緩やかな老化ダイナミクスから超測度が現れる。 平均場スピングラスにおけるレプリカ対称性の破れをケルディシュ経路積分を用いた時間発展の遅延限界から回復するのに十分であることを示す。 これは、動的定式化と厳密に結合することで、レプリカ対称性の破れに対する代替のアプローチを提供する。 これにより、定常スピングラスは自然に熱対称性を破ることや、大域的な熱平衡状態のKubo-Martin-Schwinger関係が理解される。 球面量子$p$-スピンモデルと、横方向場と縦方向場の存在下での量子シェリントン・カークパトリックモデルに対する一般的なステートメントを実証する。 その際、微視的な量子モデルから始まるギンズバーグ・ランダウ効果のケルディシュ作用も導出する。

At asymptotically late times ultrametricity can emerge from the persistent slow aging dynamics of the glass phase. We show that this suffices to recover the breaking of replica symmetry in mean-field spin glasses from the late time limit of the time evolution using the Keldysh path integral. This provides an alternative approach to replica symmetry breaking by connecting it rigorously to the dynamic formulation. Stationary spin glasses are thereby understood to spontaneously break thermal symmetry, or the Kubo-Martin-Schwinger relation of a state in global thermal equilibrium. We demonstrate our general statements for the spherical quantum $p$-spin model and the quantum Sherrington-Kirkpatrick model in the presence of transverse and longitudinal fields. In doing so, we also derive their dynamical Ginzburg-Landau effective Keldysh actions starting from microscopic quantum models.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# MedREQAL:質問応答による大規模言語モデルの医学的リコールの検討

MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering ( http://arxiv.org/abs/2406.05845v1 )

ライセンス: Link先を確認
Juraj Vladika, Phillip Schneider, Florian Matthes, (参考訳) 近年,Large Language Models (LLMs) は,大規模テキストコーパスの事前学習において,知識を符号化する能力を発揮している。 彼らはこの知識を質問応答(QA)のような下流のタスクに活用することができる。 将来的な臨床研究の促進の可能性を考えると、符号化された医療知識の質とLSMにおけるリコールの理解は重要な一歩である。 本研究では, 組織的レビューから得られた新しいデータセットを構築し, 特定の医学的質問に対するエビデンスベースの回答を合成する研究により, LLMが医療知識のリコールを示す能力について検討した。 厳密な体系的レビューから抽出した質問応答対からなる新しいMedREQALデータセットの実験を通じて、GPTとMixtralの6つのLCMを評価し、それらの分類と生成性能を分析した。 新たなバイオメディカルQAデータセット上でのLCM性能に関する実験結果から,この課題のまだ困難な性質が明らかとなった。

In recent years, Large Language Models (LLMs) have demonstrated an impressive ability to encode knowledge during pre-training on large text corpora. They can leverage this knowledge for downstream tasks like question answering (QA), even in complex areas involving health topics. Considering their high potential for facilitating clinical work in the future, understanding the quality of encoded medical knowledge and its recall in LLMs is an important step forward. In this study, we examine the capability of LLMs to exhibit medical knowledge recall by constructing a novel dataset derived from systematic reviews -- studies synthesizing evidence-based answers for specific medical questions. Through experiments on the new MedREQAL dataset, comprising question-answer pairs extracted from rigorous systematic reviews, we assess six LLMs, such as GPT and Mixtral, analyzing their classification and generation performance. Our experimental insights into LLM performance on the novel biomedical QA dataset reveal the still challenging nature of this task.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# モバイルビジョンのためのグラフ畳み込みのスケーリング

Scaling Graph Convolutions for Mobile Vision ( http://arxiv.org/abs/2406.05850v1 )

ライセンス: Link先を確認
William Avery, Mustafa Munir, Radu Marculescu, (参考訳) 既存のモバイルアーキテクチャと競合するために、MobileViGは、GNNの原則に基づいた高速なトークン混合演算子であるSparse Vision Graph Attention (SVGA)を導入した。 しかし、MobileViGはモデルサイズではスケールが悪く、同様のレイテンシを持つモデルよりも1%も遅れている。 本稿では、このスケーリング問題を解決するビジョングラフニューラルネットワーク(ViG)モジュールであるMobile Graph Convolution(MGC)を紹介する。 提案するモバイルビジョンアーキテクチャであるMobileViGv2は,MPCを用いて提案手法の有効性を実証する。 MGCは、グラフの空間性を高め、グラフ操作に条件付き位置エンコーディングを導入することでSVGAを改善する。 私たちの最小モデルであるMobileViGv2-Tiは、ImageNet-1Kで77.7%、MobileViG-Tiより2%高く、iPhone 13 Mini NPUで0.9msの推論遅延を達成した。 私たちの最大のモデルであるMobileViGv2-Bは、83.4%のトップ1の精度で、MobileViG-Bより0.8%高く、2.7msの推論遅延を実現しています。 画像分類の他に、MobileViGv2が他のタスクによく当てはまることを示す。 MS COCO 2017のオブジェクト検出とインスタンスセグメンテーションでは、MobileViGv2-Mは1.2$AP^{box}$と0.7$AP^{mask}$、MobileViGv2-Bは1.0$AP^{box}$と0.7$AP^{mask}$を上回る。 ADE20K上のセマンティックセグメンテーションでは、MobileViGv2-Mは42.9%$mIoU$、MobileViGv2-Bは44.3%$mIoU$となる。 我々のコードは \url{https://github.com/SLDGroup/MobileViGv2} にある。

To compete with existing mobile architectures, MobileViG introduces Sparse Vision Graph Attention (SVGA), a fast token-mixing operator based on the principles of GNNs. However, MobileViG scales poorly with model size, falling at most 1% behind models with similar latency. This paper introduces Mobile Graph Convolution (MGC), a new vision graph neural network (ViG) module that solves this scaling problem. Our proposed mobile vision architecture, MobileViGv2, uses MGC to demonstrate the effectiveness of our approach. MGC improves on SVGA by increasing graph sparsity and introducing conditional positional encodings to the graph operation. Our smallest model, MobileViGv2-Ti, achieves a 77.7% top-1 accuracy on ImageNet-1K, 2% higher than MobileViG-Ti, with 0.9 ms inference latency on the iPhone 13 Mini NPU. Our largest model, MobileViGv2-B, achieves an 83.4% top-1 accuracy, 0.8% higher than MobileViG-B, with 2.7 ms inference latency. Besides image classification, we show that MobileViGv2 generalizes well to other tasks. For object detection and instance segmentation on MS COCO 2017, MobileViGv2-M outperforms MobileViG-M by 1.2 $AP^{box}$ and 0.7 $AP^{mask}$, and MobileViGv2-B outperforms MobileViG-B by 1.0 $AP^{box}$ and 0.7 $AP^{mask}$. For semantic segmentation on ADE20K, MobileViGv2-M achieves 42.9% $mIoU$ and MobileViGv2-B achieves 44.3% $mIoU$. Our code can be found at \url{https://github.com/SLDGroup/MobileViGv2}.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# RefGaussian:リアルレンダリングのための3次元ガウススティングからの反射を遠ざける

RefGaussian: Disentangling Reflections from 3D Gaussian Splatting for Realistic Rendering ( http://arxiv.org/abs/2406.05852v1 )

ライセンス: Link先を確認
Rui Zhang, Tianyue Luo, Weidong Yang, Ben Fei, Jingyi Xu, Qingyuan Zhou, Keyi Liu, Ying He, (参考訳) 3D Gaussian Splatting (3D-GS)は、ニューラルレンダリング、3Dシーン再構成、新しいビュー合成の分野において顕著な進歩を遂げた。 それでも、3D-GSは、物理反射を正確に表現する上で、特に現実世界のシーンでよく見られる反射や半反射の場合、大きな課題に直面している。 この制限により、反射は物理的存在を持つ独立した要素として誤って扱われ、不正確な再構成をもたらす。 本稿では、3D-GSからの反射を現実的にモデル化するためにRefGaussianを提案する。 具体的には、シーンを伝送および反射するコンポーネントに分割し、2つの球高調波(SH)を用いてこれらのコンポーネントを表現することを提案する。 この分解が完全には決定されないことを前提として,伝送成分と反射成分の局所的滑らか性を確保するため,局所正規化技術を用いて3D-GSよりも高い分解結果を得る。 実験により,本手法はより優れた新規視点合成と精度の高い深度推定結果が得られることが示された。 さらに、シーン編集アプリケーションの利用を可能にし、高品質な結果と物理コヒーレンスの両方を保証する。

3D Gaussian Splatting (3D-GS) has made a notable advancement in the field of neural rendering, 3D scene reconstruction, and novel view synthesis. Nevertheless, 3D-GS encounters the main challenge when it comes to accurately representing physical reflections, especially in the case of total reflection and semi-reflection that are commonly found in real-world scenes. This limitation causes reflections to be mistakenly treated as independent elements with physical presence, leading to imprecise reconstructions. Herein, to tackle this challenge, we propose RefGaussian to disentangle reflections from 3D-GS for realistically modeling reflections. Specifically, we propose to split a scene into transmitted and reflected components and represent these components using two Spherical Harmonics (SH). Given that this decomposition is not fully determined, we employ local regularization techniques to ensure local smoothness for both the transmitted and reflected components, thereby achieving more plausible decomposition outcomes than 3D-GS. Experimental results demonstrate that our approach achieves superior novel view synthesis and accurate depth estimation outcomes. Furthermore, it enables the utilization of scene editing applications, ensuring both high-quality results and physical coherence.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 対物予測のための自己拡散型遠絡学習

Self-Distilled Disentangled Learning for Counterfactual Prediction ( http://arxiv.org/abs/2406.05855v1 )

ライセンス: Link先を確認
Xinshu Li, Mingling Gong, Lina Yao, (参考訳) 不整合表現学習の進歩は、機器変数、共同設立者、調整可能な変数を正確に制御することで、対実予測の精度を著しく向上させる。 これらの因子の独立分離を実現するための魅力的な方法は、特に高次元空間において、多くの機械学習シナリオにおける課題を示すタスクである相互情報の最小化である。 この課題を回避するために,SD^2$ と呼ばれる自己蒸留拡散フレームワークを提案する。 情報理論を基礎として、高次元表現のための複雑な相互情報推定器を設計することなく、理論上独立に不整合表現を鳴らすことを保証する。 我々の総合的な実験は、合成データセットと実世界のデータセットの両方で行われ、観察された共同設立者と観測されていない共同設立者の両方の存在下での対実的推論の促進における我々のアプローチの有効性を確認した。

The advancements in disentangled representation learning significantly enhance the accuracy of counterfactual predictions by granting precise control over instrumental variables, confounders, and adjustable variables. An appealing method for achieving the independent separation of these factors is mutual information minimization, a task that presents challenges in numerous machine learning scenarios, especially within high-dimensional spaces. To circumvent this challenge, we propose the Self-Distilled Disentanglement framework, referred to as $SD^2$. Grounded in information theory, it ensures theoretically sound independent disentangled representations without intricate mutual information estimator designs for high-dimensional representations. Our comprehensive experiments, conducted on both synthetic and real-world datasets, confirms the effectiveness of our approach in facilitating counterfactual inference in the presence of both observed and unobserved confounders.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 物理世界攻撃に対する単眼深度推定の自己教師付き対人訓練

Self-supervised Adversarial Training of Monocular Depth Estimation against Physical-World Attacks ( http://arxiv.org/abs/2406.05857v1 )

ライセンス: Link先を確認
Zhiyuan Cheng, Cheng Han, James Liang, Qifan Wang, Xiangyu Zhang, Dongfang Liu, (参考訳) 単眼深度推定(MDE)は自律運転などの応用において重要な役割を果たす。 しかし、様々な攻撃はMDEモデルをターゲットにしており、物理的攻撃はシステムのセキュリティに重大な脅威をもたらす。 接地木深度を欠くMDEモデルには, 接地木深度を必要とする従来の対地木深度学習法は直接適用されない。 いくつかの自己教師型モデル硬化技術(例えば、対照的な学習)は、MDEのドメイン知識を見落とし、準最適性能をもたらす。 本研究では,MDEモデルに対して,地底深度を必要とせずにビュー合成を活用する,新たな自己教師型対向訓練手法を提案する。 トレーニング中にL_0-norm-bounded perturbation(L_0-norm-bounded perturbation)を組み込むことにより,現実の攻撃に対する敵の堅牢性を高める。 MDEに特化して設計された教師付き学習ベースおよびコントラスト型学習ベースアプローチに対して,本手法の評価を行った。 2つの代表的MDEネットワークを用いた実験により,種々の敵攻撃に対する堅牢性が向上し,良質な性能への影響が最小限に抑えられた。

Monocular Depth Estimation (MDE) plays a vital role in applications such as autonomous driving. However, various attacks target MDE models, with physical attacks posing significant threats to system security. Traditional adversarial training methods, which require ground-truth labels, are not directly applicable to MDE models that lack ground-truth depth. Some self-supervised model hardening techniques (e.g., contrastive learning) overlook the domain knowledge of MDE, resulting in suboptimal performance. In this work, we introduce a novel self-supervised adversarial training approach for MDE models, leveraging view synthesis without the need for ground-truth depth. We enhance adversarial robustness against real-world attacks by incorporating L_0-norm-bounded perturbation during training. We evaluate our method against supervised learning-based and contrastive learning-based approaches specifically designed for MDE. Our experiments with two representative MDE networks demonstrate improved robustness against various adversarial attacks, with minimal impact on benign performance.
翻訳日:2024-06-11 17:47:48 公開日:2024-06-09
# 差別化プライバシによるフェデレーション学習:アルゴリズムとパフォーマンス分析」に関するコメント

Comments on "Federated Learning with Differential Privacy: Algorithms and Performance Analysis" ( http://arxiv.org/abs/2406.05858v1 )

ライセンス: Link先を確認
Mahtab Talaei, Iman Izadi, (参考訳) The paper by Wei et al (Federated Learning with Differential Privacy: Algorithms and Performance Analysis), the convergence performance of the proposed differential privacy algorithm in Federated Learning (FL), known as Noising before Model Aggregation FL (NbAFL)。 しかし、NbAFL (Theorem 2) の提示収束上限は誤りである。 このコメントは NbAFL の収束上界の正しい形式を示すことを目的としている。

In the paper by Wei et al. ("Federated Learning with Differential Privacy: Algorithms and Performance Analysis"), the convergence performance of the proposed differential privacy algorithm in federated learning (FL), known as Noising before Model Aggregation FL (NbAFL), was studied. However, the presented convergence upper bound of NbAFL (Theorem 2) is incorrect. This comment aims to present the correct form of the convergence upper bound for NbAFL.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# II-Bench: マルチモーダル大規模言語モデルのための画像意味理解ベンチマーク

II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2406.05862v1 )

ライセンス: Link先を確認
Ziqiang Liu, Feiteng Fang, Xi Feng, Xinrun Du, Chenhao Zhang, Zekun Wang, Yuelin Bai, Qixuan Zhao, Liyang Fan, Chengguang Gan, Hongquan Lin, Jiaming Li, Yuansheng Ni, Haihong Wu, Yaswanth Narsupalli, Zhigang Zheng, Chengming Li, Xiping Hu, Ruifeng Xu, Xiaojun Chen, Min Yang, Jiaheng Liu, Ruibo Liu, Wenhao Huang, Ge Zhang, Shiwen Ni, (参考訳) MLLM(Multimodal large language model)の開発における急速な進歩は、様々なベンチマークで新たなブレークスルーをもたらしている。 これに対し、MLLMの性能をより正確に評価するために、多くの挑戦的で包括的なベンチマークが提案されている。 しかし,MLLMの高次知覚能力の探索は困難である。 このギャップを埋めるために,モデルによる画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。 MLLMにおける II-Bench の広範囲な実験を通じて,本研究で有意な発見が得られた。 当初,II-ベンチ上でのMLLMとヒトの間には,実質的なギャップが見られた。 MLLMのピンナクル精度は74.8%、人間の精度は90%であり、印象的な98%に達する。 その後、MLLMは抽象的かつ複雑な画像に対して悪化し、ハイレベルなセマンティクスを理解し、画像の詳細をキャプチャする能力の限界を示唆する。 最後に、ほとんどのモデルでは、画像感性極性ヒントをプロンプトに組み込むと、精度が向上することが観察された。 この観察は、イメージ感情の固有の理解において、顕著な欠如を浮き彫りにしている。 我々は、II-Benchがコミュニティに次世代MLLMの開発を刺激し、専門家の汎用人工知能(AGI)への旅を進めていくと信じている。 II-Benchはhttps://huggingface.co/datasets/m-a-p/II-Benchで公開されている。

The rapid advancements in the development of multimodal large language models (MLLMs) have consistently led to new breakthroughs on various benchmarks. In response, numerous challenging and comprehensive benchmarks have been proposed to more accurately assess the capabilities of MLLMs. However, there is a dearth of exploration of the higher-order perceptual capabilities of MLLMs. To fill this gap, we propose the Image Implication understanding Benchmark, II-Bench, which aims to evaluate the model's higher-order perception of images. Through extensive experiments on II-Bench across multiple MLLMs, we have made significant findings. Initially, a substantial gap is observed between the performance of MLLMs and humans on II-Bench. The pinnacle accuracy of MLLMs attains 74.8%, whereas human accuracy averages 90%, peaking at an impressive 98%. Subsequently, MLLMs perform worse on abstract and complex images, suggesting limitations in their ability to understand high-level semantics and capture image details. Finally, it is observed that most models exhibit enhanced accuracy when image sentiment polarity hints are incorporated into the prompts. This observation underscores a notable deficiency in their inherent understanding of image sentiment. We believe that II-Bench will inspire the community to develop the next generation of MLLMs, advancing the journey towards expert artificial general intelligence (AGI). II-Bench is publicly available at https://huggingface.co/datasets/m-a-p/II-Bench.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# データスカース言語と雑音チャネルにおける話者検証のための音源自由領域適応

Source -Free Domain Adaptation for Speaker Verification in Data-Scarce Languages and Noisy Channels ( http://arxiv.org/abs/2406.05863v1 )

ライセンス: Link先を確認
Shlomo Salo Elia, Aviad Malachi, Vered Aharonson, Gadi Pinkas, (参考訳) ドメイン適応はしばしば、非常に小さなターゲットデータセットとアクセス不能なソースデータによって妨げられる。 これらの条件は、プライバシーポリシーや音声リソースが乏しい言語が十分なデータの入手を制限しているような、音声検証において一般的である。 本稿では,データスカース言語における話者検証のための限られたターゲット音声データセットへのソースフリー領域適応手法について検討する。 ソースとターゲット間の言語的ミスマッチとチャネル的ミスマッチについて検討した。 ラベル付き対象データの異なるサイズでファインチューニング法を評価し,比較した。 未ラベルのターゲットデータセットに対して,新しい反復的クラスタラーンアルゴリズムについて検討した。

Domain adaptation is often hampered by exceedingly small target datasets and inaccessible source data. These conditions are prevalent in speech verification, where privacy policies and/or languages with scarce speech resources limit the availability of sufficient data. This paper explored techniques of sourcefree domain adaptation unto a limited target speech dataset for speaker verificationin data-scarce languages. Both language and channel mis-match between source and target were investigated. Fine-tuning methods were evaluated and compared across different sizes of labeled target data. A novel iterative cluster-learn algorithm was studied for unlabeled target datasets.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# 量子ウォークにおける情報スクランブル

Information scrambling in quantum-walks ( http://arxiv.org/abs/2406.05865v1 )

ライセンス: Link先を確認
Himanshu Sahu, (参考訳) 離散時間量子ウォークにおいて、初期局所化された量子情報をシステムの様々な自由度に拡散する情報スクランブルを研究する。 我々は,時間外順序付き相関器 (OTOC) とK-複雑度を情報スクランブルの探索として検討する。 任意の方向の局所スピン作用素のOTOC は `shell-like' である光錐構造を持つ。 波面が通過するにつれて、OTOCは長時間の極限でゼロに近づき、スクランブルの兆候は示さない。 空間的または時間的障害の導入は、導波管の局所化に類似した光錐の形状を変化させる。 離散時間進化を伴う系のK-複雑度を定式化し、離散時間量子ウォークにおいて線形に成長することを示す。 障害の存在は、この成長をサブ線形に修正する。 本研究は,スクランブルを用いた離散時間量子ウォークにおける多体現象を探索する興味深い事例である。

We study information scrambling -- a spread of initially localized quantum information into the system's many degree of freedom -- in discrete-time quantum walks. We consider out-of-time-ordered correlators (OTOC) and K-complexity as probe of information scrambling. The OTOC for local spin operators in all directions has a light-cone structure which is ``shell-like''. As the wavefront passes, the OTOC approaches to zero in the long-time limit, showing no signature of scrambling. The introduction of spatial or temporal disorder changes the shape of the light-cone akin to localization of wavefuction. We formulate the K-complexity in system with discrete-time evolution, and show that it grows linearly in discrete-time quantum walk. The presence of disorder modifies this growth to sub-linear. Our study present interesting case to explore many-body phenomenon in discrete-time quantum walk using scrambling.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# Procrastinationは、浮動小数点、ポジット、対数数のための指数付き累積器

Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers ( http://arxiv.org/abs/2406.05866v1 )

ライセンス: Link先を確認
Vincenzo Liguori, (参考訳) 本稿では,浮動小数点数の長い列の和をシンプルかつ効果的に求める。 浮動小数点数のマニッサを指数で指数付けしたアキュムレータに付加する累積位相と、実際の総和結果が終了する再構成位相とからなる。 FPGAとASICの両方のアーキテクチャの詳細は、演算を乗算器で融合させ、効率的なMACを作成することを含む。 例えば、700 MHzのAMD FPGAで ~6,400 LUTs + 64 DSP48 を用いて、bfloat16 の2つの 4x4 行列を1クロックサイクル毎に乗算して蓄積できるテンソルコアなどである。 その後、メソッドはポジットと対数数に拡張される。

This paper discusses a simple and effective method for the summation of long sequences of floating point numbers. The method comprises two phases: an accumulation phase where the mantissas of the floating point numbers are added to accumulators indexed by the exponents and a reconstruction phase where the actual summation result is finalised. Various architectural details are given for both FPGAs and ASICs including fusing the operation with a multiplier, creating efficient MACs. Some results are presented for FPGAs, including a tensor core capable of multiplying and accumulating two 4x4 matrices of bfloat16 values every clock cycle using ~6,400 LUTs + 64 DSP48 in AMD FPGAs at 700+ MHz. The method is then extended to posits and logarithmic numbers.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# マルコフ連鎖を用いたエロレーティングシステムの解析

An Analysis of Elo Rating Systems via Markov Chains ( http://arxiv.org/abs/2406.05869v1 )

ライセンス: Link先を確認
Sam Olesker-Taylor, Luca Zanetti, (参考訳) 本稿では,オンライン環境におけるプレイヤーのスキルランキングの一般的な方法であるEloレーティングシステムについて理論的解析を行う。 特に、Bradley-Terry--Luceモデルの下でエロを研究し、マルコフ連鎖理論の手法を用いて、エロが最先端技術と競合する速度でモデルパラメータを学習していることを示す。 本結果は,効率的なトーナメントデザインの問題に適用し,最も高速なマルコフ連鎖問題との関連性について議論する。

We present a theoretical analysis of the Elo rating system, a popular method for ranking skills of players in an online setting. In particular, we study Elo under the Bradley--Terry--Luce model and, using techniques from Markov chain theory, show that Elo learns the model parameters at a rate competitive with the state of the art. We apply our results to the problem of efficient tournament design and discuss a connection with the fastest-mixing Markov chain problem.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# RAGに反対するマシン:Blockerドキュメントによる検索強化ジェネレーションのジャミング

Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents ( http://arxiv.org/abs/2406.05870v1 )

ライセンス: Link先を確認
Avital Shafran, Roei Schuster, Vitaly Shmatikov, (参考訳) Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。 我々は、潜在的に信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。 相手はデータベースに単一の ``blocker'' ドキュメントを追加して、特定のクエリに応答して検索する。さらに、RAGシステムはクエリに応答しない。 我々は、ターゲットRAGシステムで使用される埋め込みやLSMを知る必要のないブラックボックス最適化に基づく新しい手法や、ブロッカ文書を生成する補助LSMへのアクセスなど、ブロッカ文書を生成するためのいくつかの手法を記述し、分析する。 提案手法の有効性をいくつかのLCMおよび埋め込みに対して測定し,既存のLCMの安全性指標が妨害の危険性を捉えていないことを示す。 次に、ブロッカ文書に対する防御について論じる。

Retrieval-augmented generation (RAG) systems respond to queries by retrieving relevant documents from a knowledge database, then generating an answer by applying an LLM to the retrieved documents. We demonstrate that RAG systems that operate on databases with potentially untrusted content are vulnerable to a new class of denial-of-service attacks we call jamming. An adversary can add a single ``blocker'' document to the database that will be retrieved in response to a specific query and, furthermore, result in the RAG system not answering the query - ostensibly because it lacks the information or because the answer is unsafe. We describe and analyze several methods for generating blocker documents, including a new method based on black-box optimization that does not require the adversary to know the embedding or LLM used by the target RAG system, nor access to an auxiliary LLM to generate blocker documents. We measure the efficacy of the considered methods against several LLMs and embeddings, and demonstrate that the existing safety metrics for LLMs do not capture their vulnerability to jamming. We then discuss defenses against blocker documents.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# OmniControlNet: 条件付き画像生成のためのデュアルステージ統合

OmniControlNet: Dual-stage Integration for Conditional Image Generation ( http://arxiv.org/abs/2406.05871v1 )

ライセンス: Link先を確認
Yilin Wang, Haiyang Xu, Xiang Zhang, Zeyuan Chen, Zhizhou Sha, Zirui Wang, Zhuowen Tu, (参考訳) 外部条件生成アルゴリズムを1つの高密度予測手法に統合し、個別に訓練された画像生成プロセスを1つのモデルに組み込むことにより、広く採用されているControlNetの双方向統合を提供する。 その大きな成功にもかかわらず、2段階パイプラインのコントロールネットは、大きなモデル冗長性(異なるタイプの条件入力に対して個別に訓練されたモデル)で自己完結しない(例えば、外部条件生成アルゴリズムと呼ばれる)という制限を負っている。 提案するOmniControlNetの統合 1)タスク埋め込み指導の下での1つのマルチタスク密度予測アルゴリズムによる条件生成(例えば、HEDエッジ、深度マップ、ユーザスクリブル、動物のポーズ) 2) テキスト埋め込み指導における条件の異なる画像生成過程について検討した。 OmniControlNetは、条件付きテキスト・画像生成に匹敵する品質の画像を生成すると同時に、モデルの複雑さと冗長性を著しく低減する。

We provide a two-way integration for the widely adopted ControlNet by integrating external condition generation algorithms into a single dense prediction method and incorporating its individually trained image generation processes into a single model. Despite its tremendous success, the ControlNet of a two-stage pipeline bears limitations in being not self-contained (e.g. calls the external condition generation algorithms) with a large model redundancy (separately trained models for different types of conditioning inputs). Our proposed OmniControlNet consolidates 1) the condition generation (e.g., HED edges, depth maps, user scribble, and animal pose) by a single multi-tasking dense prediction algorithm under the task embedding guidance and 2) the image generation process for different conditioning types under the textual embedding guidance. OmniControlNet achieves significantly reduced model complexity and redundancy while capable of producing images of comparable quality for conditioned text-to-image generation.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# STARling:大規模言語モデルを用いたテキストベース強化学習エージェントの自己指導訓練

STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models ( http://arxiv.org/abs/2406.05872v1 )

ライセンス: Link先を確認
Shreyas Basavatia, Keerthiram Murugesan, Shivam Ratnakar, (参考訳) 対話型フィクションゲームは、言語に基づく強化学習(RL)エージェントの一般化能力向上のための重要な応用として登場した。 インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。 本研究では,テキストベースのRLエージェントを自動生成ゲーム(ゲームアイデアのシードセットに基づく)でブートストラップし,目標環境の目標を達成するために,自己教師型RL(STARling)のための対話型環境を提案する。 これらのゲームによって、エージェントは事前に定義されたタスクセットでスキルを磨くことができる。 我々は,大規模言語モデル(GPT-3)と対話型フィクションゲームエンジン(Inform7をベースとする)を用いたこの自動化フレームワークを用いて,100のゲームで環境を作成し,テストする。 ヒトの参加者とベースラインのテキストベースのRLエージェントの両方に基づく実験の結果、現在の最先端のテキストベースのRLエージェントは、人間ができるような新しい状況下で、以前に学んだスキルを使用できないことが明らかとなった。 これらの結果はSTARlingがサンドボックス環境として機能し、自己組織化されたテキストベースのRLについてさらなる研究を行う可能性を強要している。

Interactive fiction games have emerged as an important application to improve the generalization capabilities of language-based reinforcement learning (RL) agents. Existing environments for interactive fiction games are domain-specific or time-consuming to generate and do not train the RL agents to master a specific set of skills. In this work, we introduce an interactive environment for self-supervised RL, STARLING, for text-based games that bootstraps the text-based RL agents with automatically generated games (based on the seed set of game ideas) to boost the performance and generalization capabilities to reach a goal of the target environment. These games let the agent hone their skills on a predefined set of tasks. We create and test an environment with 100 games, generated using this automated framework that uses large language models (GPT-3) and an interactive fiction game engine (based on Inform7) to provide the user with the ability to generate more games under minimal human supervision. Experimental results based on both the human participants and baseline text-based RL agents reveal that current state-of-the-art text-based RL agents cannot use previously learned skills in new situations at the level humans can. These results enforce STARLING's potential to serve as a sandbox environment for further research in self-supervised text-based RL.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# 進化的生成アルゴリズムによる人間の創造性を維持する:音楽生成を事例として

Conserving Human Creativity with Evolutionary Generative Algorithms: A Case Study in Music Generation ( http://arxiv.org/abs/2406.05873v1 )

ライセンス: Link先を確認
Justin Kilb, Caroline Ellis, (参考訳) 本研究では,音楽制作における進化的生成アルゴリズムの適用について検討し,人間の創造性を保ち,向上させる。 人間のフィードバックを微分進化アルゴリズムに組み込むことで、国際レコードレーベルに提出された6曲を制作しました。 本稿では,これらの手法の商業的可能性をテストすることに加えて,進化的アルゴリズムと比較して,従来の機械学習手法によるコンテンツ生成の長期的影響について検討する。 特に、現在の生成技術が拡大を続けるにつれ、コンピュータ生成コンテンツが人間の創造を上回る可能性が高まっている。 この傾向は、人間の作成したトレーニングデータのプールを枯渇させ、生成機械学習モデルが新しいコンテンツを生成するためのランダムな入力機能にますます依存させてしまうリスクを生じさせる。 目的のないランダムな関数によって導かれるコンテンツ生成の未来とは対照的に、我々のアプローチは、創造的な個別化を可能にし、コンピュータ支援コンテンツ生成手法が時間を通して人間中心で文化的に関連があることを保証する。

This study explores the application of evolutionary generative algorithms in music production to preserve and enhance human creativity. By integrating human feedback into Differential Evolution algorithms, we produced six songs that were submitted to international record labels, all of which received contract offers. In addition to testing the commercial viability of these methods, this paper examines the long-term implications of content generation using traditional machine learning methods compared with evolutionary algorithms. Specifically, as current generative techniques continue to scale, the potential for computer-generated content to outpace human creation becomes likely. This trend poses a risk of exhausting the pool of human-created training data, potentially forcing generative machine learning models to increasingly depend on their random input functions for generating novel content. In contrast to a future of content generation guided by aimless random functions, our approach allows for individualized creative exploration, ensuring that computer-assisted content generation methods are human-centric and culturally relevant through time.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# イメージキャプション攻撃を狙ったステルスなバックドア攻撃

Stealthy Targeted Backdoor Attacks against Image Captioning ( http://arxiv.org/abs/2406.05874v1 )

ライセンス: Link先を確認
Wenshu Fan, Hongwei Li, Wenbo Jiang, Meng Hao, Shui Yu, Xiao Zhang, (参考訳) 近年,マルチモーダル学習は爆発的な成長を遂げている。 古典的なマルチモーダルタスクであるイメージキャプションは、有望な応用を実証し、広範な研究の注目を集めている。 しかし、最近の研究では、画像キャプションモデルがバックドア攻撃のようなセキュリティ上の脅威に弱いことが示されている。 既存の画像キャプションに対するバックドア攻撃は、通常、事前に定義された文または単一の単語を対象の出力として組み合わせるが、画像の内容とは無関係であり、人間の異常として容易に認識できる。 本稿では,従来の攻撃よりもステルス性が高い画像キャプションモデルに対して,標的となるバックドア攻撃を行う新しい手法を提案する。 具体的には、まず、オブジェクト検出に普遍的な摂動技術を活用して特別なトリガーを学習し、学習したトリガーを特定のソースオブジェクトの中心に配置し、出力キャプション内の対応するオブジェクト名を予め定義されたターゲット名に変更する。 予測フェーズにおいて、トリガー付き画像入力用バックドアモデルにより生成されたキャプションは、ソースオブジェクトを予め定義されたターゲットとして誤認識しながら、画像全体の意味情報を正確に伝達することができる。 大規模な実験により,本手法はモデルクリーニング性能に無視できない影響を与えながら,高い攻撃成功率を達成することができることが示された。 また,本手法は,画像領域とテキスト領域の両方のクリーンなサンプルと区別できないため,既存のバックドア防御を回避し,そのようなステルスなバックドア攻撃に対する防御機構の改善の必要性を強調した。

In recent years, there has been an explosive growth in multimodal learning. Image captioning, a classical multimodal task, has demonstrated promising applications and attracted extensive research attention. However, recent studies have shown that image caption models are vulnerable to some security threats such as backdoor attacks. Existing backdoor attacks against image captioning typically pair a trigger either with a predefined sentence or a single word as the targeted output, yet they are unrelated to the image content, making them easily noticeable as anomalies by humans. In this paper, we present a novel method to craft targeted backdoor attacks against image caption models, which are designed to be stealthier than prior attacks. Specifically, our method first learns a special trigger by leveraging universal perturbation techniques for object detection, then places the learned trigger in the center of some specific source object and modifies the corresponding object name in the output caption to a predefined target name. During the prediction phase, the caption produced by the backdoored model for input images with the trigger can accurately convey the semantic information of the rest of the whole image, while incorrectly recognizing the source object as the predefined target. Extensive experiments demonstrate that our approach can achieve a high attack success rate while having a negligible impact on model clean performance. In addition, we show our method is stealthy in that the produced backdoor samples are indistinguishable from clean samples in both image and text domains, which can successfully bypass existing backdoor defenses, highlighting the need for better defensive mechanisms against such stealthy backdoor attacks.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# 医療領域におけるゼロショットの終末質問応答

Zero-Shot End-To-End Spoken Question Answering In Medical Domain ( http://arxiv.org/abs/2406.05876v1 )

ライセンス: Link先を確認
Yanis Labrak, Adel Moumen, Richard Dufour, Mickael Rouvier, (参考訳) 音声質問応答(SQA)の急速な発展にともなって,大きな言語モデル(LLM)の統合が革新的発展として現れている。 従来のアプローチでは、問合せ音声の書き起こしと解答の選択に別々のモデルを使う場合が多く、リソース利用とエラーの蓄積が顕著である。 これらの課題に対処するため,医療領域におけるSQAのエンド・ツー・エンド(E2E)手法の有効性を検討する。 本研究は,従来のカスケードシステムと比較して,ゼロショットSQAアプローチを導入している。 8つの医療タスクと48時間の合成音声のオープンベンチマークで実施した総合的な評価により,本手法は1.55BパラメータASRモデルと組み合わせた1.3BパラメータLLMの最大14.7倍のリソースが必要であり,平均精度は0.5\%向上することを示した。 これらの知見は,資源制約条件下でのSQAに対するE2E法の可能性を明らかにするものである。

In the rapidly evolving landscape of spoken question-answering (SQA), the integration of large language models (LLMs) has emerged as a transformative development. Conventional approaches often entail the use of separate models for question audio transcription and answer selection, resulting in significant resource utilization and error accumulation. To tackle these challenges, we explore the effectiveness of end-to-end (E2E) methodologies for SQA in the medical domain. Our study introduces a novel zero-shot SQA approach, compared to traditional cascade systems. Through a comprehensive evaluation conducted on a new open benchmark of 8 medical tasks and 48 hours of synthetic audio, we demonstrate that our approach requires up to 14.7 times fewer resources than a combined 1.3B parameters LLM with a 1.55B parameters ASR model while improving average accuracy by 0.5\%. These findings underscore the potential of E2E methodologies for SQA in resource-constrained contexts.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# LGR2:階層的強化学習を加速するための言語ガイド付きリワードリラボ

LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2406.05881v1 )

ライセンス: Link先を確認
Utsav Singh, Pramit Bhattacharyya, Vinay P. Namboodiri, (参考訳) 複雑なロボット制御タスクを解決するために自然言語命令を活用するインタラクティブシステムを開発することは、ロボットコミュニティで長年望まれてきた目標だった。 大規模言語モデル(LLM)は論理的推論、文脈内学習、コード生成といった複雑なタスクを扱う際、例外的な能力を示している。 しかし,LLMを用いた低レベルのロボット動作の予測には大きな課題がある。 さらに、そのようなタスクの複雑さは、通常、様々なサブタスクを実行し、それらを組み合わせて最終的な目的を達成するためにポリシーの取得を要求する。 階層強化学習(Hierarchical Reinforcement Learning, HRL)は、時間的抽象化の直感的なメリットと探索の改善を提供する、このような課題を解決するためのエレガントなアプローチである。 しかし、HRLは不安定な低い原始的振る舞いのため、非定常性の繰り返しの問題に直面している。 本研究では,言語命令を利用した高レベルポリシーのための静的報酬関数を生成する新しいHRLフレームワークであるLGR2を提案する。 言語誘導報酬は、より低い原始的な振る舞いの影響を受けないため、LGR2は非定常性を軽減し、ロボット制御タスクを解決するために言語命令を活用するエレガントな方法である。 提案手法の有効性を明らかにするため,実験解析を行い,LGR2がHRLの非定常性を効果的に緩和することを示した。 我々のアプローチは、ベースラインが大きな進歩を達成できない、困難でスパースなロボットナビゲーションと操作環境において、70$\%以上の成功率を達成する。 さらに,実世界のロボット操作実験を行い,実世界のシナリオにおいてCRISPが顕著な一般化を示した。

Developing interactive systems that leverage natural language instructions to solve complex robotic control tasks has been a long-desired goal in the robotics community. Large Language Models (LLMs) have demonstrated exceptional abilities in handling complex tasks, including logical reasoning, in-context learning, and code generation. However, predicting low-level robotic actions using LLMs poses significant challenges. Additionally, the complexity of such tasks usually demands the acquisition of policies to execute diverse subtasks and combine them to attain the ultimate objective. Hierarchical Reinforcement Learning (HRL) is an elegant approach for solving such tasks, which provides the intuitive benefits of temporal abstraction and improved exploration. However, HRL faces the recurring issue of non-stationarity due to unstable lower primitive behaviour. In this work, we propose LGR2, a novel HRL framework that leverages language instructions to generate a stationary reward function for the higher-level policy. Since the language-guided reward is unaffected by the lower primitive behaviour, LGR2 mitigates non-stationarity and is thus an elegant method for leveraging language instructions to solve robotic control tasks. To analyze the efficacy of our approach, we perform empirical analysis and demonstrate that LGR2 effectively alleviates non-stationarity in HRL. Our approach attains success rates exceeding 70$\%$ in challenging, sparse-reward robotic navigation and manipulation environments where the baselines fail to achieve any significant progress. Additionally, we conduct real-world robotic manipulation experiments and demonstrate that CRISP shows impressive generalization in real-world scenarios.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# 最適輸送によるLLMの配向

Distributional Preference Alignment of LLMs via Optimal Transport ( http://arxiv.org/abs/2406.05882v1 )

ライセンス: Link先を確認
Igor Melnyk, Youssef Mroueh, Brian Belgodere, Mattia Rigotti, Apoorva Nitsure, Mikhail Yurochkin, Kristjan Greenewald, Jiri Navratil, Jerret Ross, (参考訳) 現在のLLMアライメント技術では、サンプルレベルでの人間の好みをペアで使うため、分布レベルでのアライメントは意味しない。 本稿では,LLMの分布選好アライメント法である最適輸送(AOT)によるアライメントを提案する。 AOTは、正のサンプルの報酬分布を、負のサンプルの分布の第1次において確率的に支配的に支配することにより、LLMを未ペアの選好データに整合させる。 我々は,この一階確率支配の凸緩和を導入し,円滑で凸なコストで最適な輸送問題とした。 結果として生じる最適輸送問題の1次元の性質とコストの凸性のおかげで、経験的測度をソートすることで閉形式解が得られる。 本研究の目的は, 正試料の報酬分布の確率的優位性の違反を負試料の報酬分布に課すことによってアライメントを可能にすることにある。 OT問題の双対性を考慮することにより,AOTのサンプル複雑性を解析し,パラメトリックレートで収束することを示す。 実験では, Open LLM Benchmarks と AlpacaEval を用いて評価すると, AOT が 7B モデルの最先端モデルに導く多種多様なアライメントデータセットと LLM について述べる。

Current LLM alignment techniques use pairwise human preferences at a sample level, and as such, they do not imply an alignment on the distributional level. We propose in this paper Alignment via Optimal Transport (AOT), a novel method for distributional preference alignment of LLMs. AOT aligns LLMs on unpaired preference data by making the reward distribution of the positive samples stochastically dominant in the first order on the distribution of negative samples. We introduce a convex relaxation of this first-order stochastic dominance and cast it as an optimal transport problem with a smooth and convex cost. Thanks to the one-dimensional nature of the resulting optimal transport problem and the convexity of the cost, it has a closed-form solution via sorting on empirical measures. We fine-tune LLMs with this AOT objective, which enables alignment by penalizing the violation of the stochastic dominance of the reward distribution of the positive samples on the reward distribution of the negative samples. We analyze the sample complexity of AOT by considering the dual of the OT problem and show that it converges at the parametric rate. Empirically, we show on a diverse set of alignment datasets and LLMs that AOT leads to state-of-the-art models in the 7B family of models when evaluated with Open LLM Benchmarks and AlpacaEval.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# 大規模言語モデルにおける政策アライメントのための情報理論的保証

Information Theoretic Guarantees For Policy Alignment In Large Language Models ( http://arxiv.org/abs/2406.05883v1 )

ライセンス: Link先を確認
Youssef Mroueh, (参考訳) 大きな言語モデルのポリシーアライメントは制約されたポリシー最適化を意味し、例えば$\mathsf{KL}$ divergenceのような$f$-divergenceに関して参照ポリシーに近づきながら報酬を最大化するために最適化される。 最高の$n$アライメントポリシーは、$n$独立サンプルの中で最大報酬を持つ参照ポリシーからサンプルを選択する。 どちらの場合も(政治的アライメントと$n$のベスト)、最近の研究は、$\sqrt{\mathsf{KL}}$のような参照ポリシー上のアライメントされたポリシーの報酬改善が、$\sqrt{\mathsf{KL}}$のように、$\mathsf{KL}$が$n$のベストなポリシーに対して明示的なバウンドを持つことを実証的に示した。 この論文では、$\sqrt{\mathsf{KL}}$ Information Theoretic upper bound が、参照ポリシーの下での報酬がガウス以下の尾を持つ場合、成り立つことを示す。 さらに、$n$ポリシーのベストを証明し、$\mathsf{KL}$上界は、オーダー統計のR'enyi表現とデータ処理の不等式による指数順序統計への還元によって、任意の$f$分割に対して得られることを証明した。 整合政策の尾部について追加情報が分かっている場合、R'enyiの発散によって報酬改善の厳密な制御が得られることを示す。 最後に、これらの上限値がプロキシ報酬からゴールデン報酬へどのように変換されるかを示し、これはプロキシ報酬の過大評価と近似誤差によるゴールデン報酬の改善を減少させる結果となる。

Policy alignment of large language models refers to constrained policy optimization, where the policy is optimized to maximize a reward while staying close to a reference policy with respect to an $f$-divergence such as the $\mathsf{KL}$ divergence. The best of $n$ alignment policy selects a sample from the reference policy that has the maximum reward among $n$ independent samples. For both cases (policy alignment and best of $n$), recent works showed empirically that the reward improvement of the aligned policy on the reference one scales like $\sqrt{\mathsf{KL}}$, with an explicit bound in $n$ on the $\mathsf{KL}$ for the best of $n$ policy. We show in this paper that the $\sqrt{\mathsf{KL}}$ information theoretic upper bound holds if the reward under the reference policy has sub-gaussian tails. Moreover, we prove for the best of $n$ policy, that the $\mathsf{KL}$ upper bound can be obtained for any $f$-divergence via a reduction to exponential order statistics owing to the R\'enyi representation of order statistics, and a data processing inequality. If additional information is known on the tails of the aligned policy we show that tighter control on the reward improvement can be obtained via the R\'enyi divergence. Finally we demonstrate how these upper bounds transfer from proxy rewards to golden rewards which results in a decrease in the golden reward improvement due to overestimation and approximation errors of the proxy reward.
翻訳日:2024-06-11 17:38:03 公開日:2024-06-09
# 大規模言語モデルは本当にテキストスタイルの転送が得意か?

Are Large Language Models Actually Good at Text Style Transfer? ( http://arxiv.org/abs/2406.05885v1 )

ライセンス: Link先を確認
Sourabrata Mukherjee, Atul Kr. Ojha, Ondřej Dušek, (参考訳) テキストスタイル転送(TST)における大規模言語モデル(LLM)の性能を解析し、特に3言語(英語、ヒンディー語、ベンガル語)の感情伝達とテキストデトキシ化に着目した。 テキストスタイル転送は、中核的な内容を保持しながら、テキストの言語スタイルを変更することを含む。 我々は、ゼロショットと少数ショットのプロンプトと、公開されているデータセットに対するパラメータ効率の微調整を用いて、事前訓練されたLLMの能力を評価する。 自動測定, GPT-4, 人体評価を用いて評価した結果, LLMは英語でよく機能するものもあるが, 他の言語(ヒンディー語, ベンガル語)での性能は依然として平均的であることがわかった。 しかし、ファインタニングはゼロショットや少数ショットのプロンプトに比べて結果が大幅に改善され、従来の最先端に匹敵する。 このことは、効率的なTSTのための専用のデータセットと特別なモデルの必要性を浮き彫りにしている。

We analyze the performance of large language models (LLMs) on Text Style Transfer (TST), specifically focusing on sentiment transfer and text detoxification across three languages: English, Hindi, and Bengali. Text Style Transfer involves modifying the linguistic style of a text while preserving its core content. We evaluate the capabilities of pre-trained LLMs using zero-shot and few-shot prompting as well as parameter-efficient finetuning on publicly available datasets. Our evaluation using automatic metrics, GPT-4 and human evaluations reveals that while some prompted LLMs perform well in English, their performance in on other languages (Hindi, Bengali) remains average. However, finetuning significantly improves results compared to zero-shot and few-shot prompting, making them comparable to previous state-of-the-art. This underscores the necessity of dedicated datasets and specialized models for effective TST.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# 伸長シリコン量子ドットと有限長量子線における電子ウィグナー分子高分子鎖

Electronic Wigner-Molecule Polymeric Chains in Elongated Silicon Quantum Dots and Finite-Length Quantum Wires ( http://arxiv.org/abs/2406.05886v1 )

ライセンス: Link先を確認
Arnon Goldberg, Constantine Yannouleas, Uzi Landman, (参考訳) シリコン量子ビット間の有線状準1次元(1D)量子ドット(EQD)結合体に閉じ込められた電子のスペクトル特性を、新しく開発されたバレー拡張未制限ハートリーフォック(va-UHF)法を用いて検討し、アイソスピンとして扱われるバレー自由度を含むように一般化し、多数の電子の計算を可能にした。 自己整合性一般化された多孔体-ネスベット方程式の低エネルギー対称性の解は、シリコンで実験的に作製されたものをモデルに、有限長の準1次元ワイヤの端で電荷蓄積を開始するウィグナー-分子性高分子(縦方向)鎖の形成を図った閉じこもりを示す。 閉包にロードされる電子の数が増えるにつれて、平行ジグザグ鎖の数が増加し、横調和閉じ込めの強さによって新たに付加された鎖の形成が決定される。 破れた対称性の va-UHF 解は、後に量子力学的に要求されるパリティ復元によって強化され、va-UHF の単一決定解を超えて、電荷分布が分裂対称性の解のジグザグ構造を消し去るウィグナー分子鎖の形成を予測する。 対称性に再構成されたva-UHF法は、シリコンやその他の材料(例えば、TMD材料の1Dドメイン壁)における将来の顕微鏡実験や量子情報利用を目的とした、多電子複合ナノスケールの閉じ込められた構造を体系的に研究することができる。

The spectral properties of electrons confined in a wire-like quasi-one-dimensional (1D) elongated quantum dot (EQD) coupler between silicon qubits, are investigated with a newly developed valley-augmented unrestricted Hartree-Fock (va-UHF) method, generalized to include the valley degree of freedom treated as an isospin, allowing calculations for a large number of electrons. The lower energy symmetry-broken solutions of the self-consistent generalized Pople-Nesbet equations exhibit, for a confinement that has been modeled after an experimentally fabricated one in silicon, formation of Wigner-molecular polymeric (longitudinal) chains, initiating through charge accumulation at the edges of the finite-length quasi-1D wire. An increasing number of parallel zig-zag chains form as the number of electrons loaded into the confinement is increased, with the formation of newly added chains determined by the strength of the transverse harmonic confinement. The broken-symmetry va-UHF solutions, subsequently augmented by the quantum-mechanically required parity-restoration, go beyond the va-UHF single-determinant solution, predicting formation of entangled Wigner-molecular chains whose charge distributions obliterate the zig-zag organization of the broken-symmetry solutions. The symmetry-restored va-UHF methodology enables systematic investigations of multi-electron complex nano-scale confined structures that could be targeted for future imaging microscopy experiments in silicon and other materials (e.g., 1D domain walls in TMD materials), and quantum information utilization.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# スマートグリッドにおけるデータスカシティ下での負荷予測 : メタラーニングアプローチ

Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach ( http://arxiv.org/abs/2406.05887v1 )

ライセンス: Link先を確認
Georgios Tsoumplekas, Christos L. Athanasiadis, Dimitrios I. Doukas, Antonios Chrysopoulos, Pericles A. Mitkas, (参考訳) スマートグリッドの急速な拡張と個々のコンシューマレベルでの大量のデータ収集にもかかわらず、正確な負荷予測モデルをトレーニングする適切なデータ収集が困難である、あるいは不可能である、など、さまざまなケースが存在する。 本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。 具体的には、最小限のトレーニングサンプルのみを用いて、任意の長さの未知の負荷時間列に迅速に適応し、一般化することができる。 この文脈では、メタラーニングモデルはベースレベルの学習者再帰ニューラルネットワークの初期パラメータの最適セットを学習する。 提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。 負荷系列の長さが短いにもかかわらず、転送学習およびタスク固有の機械学習手法よりも精度の高い予測を12.5\%$で生成する。 モデル評価におけるロバスト性や公平性を高めるため,MAPE測定値のバイアスを軽減する新しい平均ログパーセンテージ誤差を提案する。 最後に、異なるハイパーパラメータと時系列長でモデルのロバスト性を評価する一連の研究を行い、提案手法が他の全てのモデルより一貫して優れていることを示した。

Despite the rapid expansion of smart grids and large volumes of data at the individual consumer level, there are still various cases where adequate data collection to train accurate load forecasting models is challenging or even impossible. This paper proposes adapting an established model-agnostic meta-learning algorithm for short-term load forecasting in the context of few-shot learning. Specifically, the proposed method can rapidly adapt and generalize within any unknown load time series of arbitrary length using only minimal training samples. In this context, the meta-learning model learns an optimal set of initial parameters for a base-level learner recurrent neural network. The proposed model is evaluated using a dataset of historical load consumption data from real-world consumers. Despite the examined load series' short length, it produces accurate forecasts outperforming transfer learning and task-specific machine learning methods by $12.5\%$. To enhance robustness and fairness during model evaluation, a novel metric, mean average log percentage error, is proposed that alleviates the bias introduced by the commonly used MAPE metric. Finally, a series of studies to evaluate the model's robustness under different hyperparameters and time series lengths is also conducted, demonstrating that the proposed approach consistently outperforms all other models.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# Feriji: フランスのZarma Parallel Corpus, Glossary & Translator

Feriji: A French-Zarma Parallel Corpus, Glossary & Translator ( http://arxiv.org/abs/2406.05888v1 )

ライセンス: Link先を確認
Mamadou K. Keita, Elysabhete Amadou Ibrahim, Habibatou Abdoulaye Alfari, Christopher Homan, (参考訳) 近年,機械翻訳(MT)が急速に発展し,複数の言語を精度良く翻訳できるモデルの開発が進んでいる。 しかし、この分野におけるアフリカの言語の表現は、言語的な複雑さと限られた資源のために改善する必要がある。 これは、ニジェールと近隣諸国で500万人以上の人々が話していたソンハイ語(ニロ・サハラ語族)の方言であるザーマ語に当てはまる。 本稿では,Zarmaの61,085文,フランス語42,789文,および4,062語からなる用語集が,Zarmaのさらなるリソースの必要性に対処するための重要なステップであることを示す。 我々はデータセット上で3つの大きな言語モデルを微調整し、最高の性能モデルでBLEUスコア30.06を得る。 さらに, 流布, 理解, 可読性の人的判断に関するモデルと, コーパスとモデルの重要性と影響について検討した。 私たちの貢献は、重要な言語ギャップを埋め、本質的で見落とされたアフリカの先住民言語を促進するのに役立ちます。

Machine translation (MT) is a rapidly expanding field that has experienced significant advancements in recent years with the development of models capable of translating multiple languages with remarkable accuracy. However, the representation of African languages in this field still needs to improve due to linguistic complexities and limited resources. This applies to the Zarma language, a dialect of Songhay (of the Nilo-Saharan language family) spoken by over 5 million people across Niger and neighboring countries \cite{lewis2016ethnologue}. This paper introduces Feriji, the first robust French-Zarma parallel corpus and glossary designed for MT. The corpus, containing 61,085 sentences in Zarma and 42,789 in French, and a glossary of 4,062 words represent a significant step in addressing the need for more resources for Zarma. We fine-tune three large language models on our dataset, obtaining a BLEU score of 30.06 on the best-performing model. We further evaluate the models on human judgments of fluency, comprehension, and readability and the importance and impact of the corpus and models. Our contributions help to bridge a significant language gap and promote an essential and overlooked indigenous African language.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# GCtx-UNet: 医用画像分割のための効率的なネットワーク

GCtx-UNet: Efficient Network for Medical Image Segmentation ( http://arxiv.org/abs/2406.05891v1 )

ライセンス: Link先を確認
Khaled Alrfou, Tian Zhao, (参考訳) 医療画像のセグメンテーションは、疾患の診断とモニタリングに不可欠である。 有効ではあるが、UNetのような現在のセグメンテーションネットワークは、長距離機能のキャプチャに苦労している。 TransUNet、Swin-UNet、CS-UNetといったより正確なモデルは、計算の複雑さが高い。 この問題に対処するため,我々はGCtx-UNetを提案する。GCtx-UNetは,グローバルおよびローカルな画像特徴を,最先端のアプローチに匹敵する精度でキャプチャできる軽量セグメンテーションアーキテクチャである。 GCtx-UNetは、グローバルコンテキストの自己アテンションモジュールをローカルな自己アテンションと結合して長短の空間依存をモデル化するビジョントランスフォーマーを使用している。 GCtx-UNetは、Synapseの多臓器腹部CTデータセット、ACDCの心臓MRIデータセット、およびいくつかのポリープセグメンテーションデータセットで評価される。 Dice similarity Coefficient (DSC) と Hausdorff Distance (HD) のメトリクスでは、GCtx-UNet は CNN ベースと Transformer ベースのアプローチより優れており、複雑な解剖学的構造と小さな解剖学的構造のセグメンテーションにおいて顕著な利益を得ている。 さらに、GCtx-UNetは、より小さなモデルサイズ、より少ない計算負荷、より高速なトレーニングと推論速度を持つ最先端のアプローチよりもはるかに効率的であり、臨床応用には実用的な選択肢である。

Medical image segmentation is crucial for disease diagnosis and monitoring. Though effective, the current segmentation networks such as UNet struggle with capturing long-range features. More accurate models such as TransUNet, Swin-UNet, and CS-UNet have higher computation complexity. To address this problem, we propose GCtx-UNet, a lightweight segmentation architecture that can capture global and local image features with accuracy better or comparable to the state-of-the-art approaches. GCtx-UNet uses vision transformer that leverages global context self-attention modules joined with local self-attention to model long and short range spatial dependencies. GCtx-UNet is evaluated on the Synapse multi-organ abdominal CT dataset, the ACDC cardiac MRI dataset, and several polyp segmentation datasets. In terms of Dice Similarity Coefficient (DSC) and Hausdorff Distance (HD) metrics, GCtx-UNet outperformed CNN-based and Transformer-based approaches, with notable gains in the segmentation of complex and small anatomical structures. Moreover, GCtx-UNet is much more efficient than the state-of-the-art approaches with smaller model size, lower computation workload, and faster training and inference speed, making it a practical choice for clinical applications.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# 大規模言語モデルのマルチタスク自己指示ファインチューニングによるセキュリティ脆弱性検出

Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2406.05892v1 )

ライセンス: Link先を確認
Aidan Z. H. Yang, Haoye Tian, He Ye, Ruben Martins, Claire Le Goues, (参考訳) ソフトウェアセキュリティの脆弱性により、攻撃者は悪意ある活動を行い、ソフトウェア操作を妨害することができる。 近年のTransformerベースの言語モデルは,静的解析に基づくディープラーニングモデルよりもはるかに高度な脆弱性検出を実現している。 しかし、コードトークンにのみ訓練された言語モデルは、脆弱性タイプの説明やコードのデータフロー構造に関する情報を捉えていない。 本稿では,グラフニューラルネットワークとして符号化されたプログラム制御フローグラフとマルチタスクシーケンスからシーケンスへのLLMを統合し,シーケンスから分類への脆弱性検出を実現する手法を提案する。 脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。 実験の結果,MSIVDは最上位のLLMベースの脆弱性検出ベースライン(LineVul)より優れており,BigVulデータセットではF1スコアが0.92,PreciseBugsデータセットでは0.48であった。 脆弱なプログラムのコードと説明的メトリクスの組み合わせを使ってLLMとGNNを同時に訓練することにより、MSIVDはLLMベースの脆弱性検出を前進させる有望な方向を示し、未知のデータに一般化する。 この結果に基づき、最近のLCMでは、データセットの保持された評価データを見たり記憶したりするなど、新たなラベル付きセキュリティ脆弱性データセットの必要性をさらに議論する。

Software security vulnerabilities allow attackers to perform malicious activities to disrupt software operations. Recent Transformer-based language models have significantly advanced vulnerability detection, surpassing the capabilities of static analysis based deep learning models. However, language models trained solely on code tokens do not capture either the explanation of vulnerability type or the data flow structure information of code, both of which are crucial for vulnerability detection. We propose a novel technique that integrates a multitask sequence-to-sequence LLM with pro-gram control flow graphs encoded as a graph neural network to achieve sequence-to-classification vulnerability detection. We introduce MSIVD, multitask self-instructed fine-tuning for vulnerability detection, inspired by chain-of-thought prompting and LLM self-instruction. Our experiments demonstrate that MSIVD achieves superior performance, outperforming the highest LLM-based vulnerability detector baseline (LineVul), with a F1 score of 0.92 on the BigVul dataset, and 0.48 on the PreciseBugs dataset. By training LLMs and GNNs simultaneously using a combination of code and explanatory metrics of a vulnerable program, MSIVD represents a promising direction for advancing LLM-based vulnerability detection that generalizes to unseen data. Based on our findings, we further discuss the necessity for new labelled security vulnerability datasets, as recent LLMs have seen or memorized prior datasets' held-out evaluation data.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# 不完全な情報にもかかわらず事象予測と因果推論

Event prediction and causality inference despite incomplete information ( http://arxiv.org/abs/2406.05893v1 )

ライセンス: Link先を確認
Harrison Lam, Yuanjie Chen, Noboru Kanazawa, Mohammad Chowdhury, Anna Battista, Stephan Waldert, (参考訳) 我々は,データポイントのシーケンス内で発生した事象を予測し,説明する上での課題について検討した。 特に、イベントの発生を引き起こす未知のトリガーが、非攻撃的で、マスク付き、ノイズの多いデータポイントから成り立つシナリオに注目しました。 このシナリオは、基礎となるプロセスを理解したり、重要な情報にアクセスしたりすることなく、イベントの発生を予測し、説明する学習を行うエージェントに似ています。 このようなシナリオは、ゲノミクス、ハードウェアおよびソフトウェア検証、金融時系列予測など、さまざまな分野にまたがっている。 分析、シミュレーション、機械学習(ML)のアプローチを組み合わせて、この問題に対する調査、定量化、解決策を提供しました。 我々は、基礎となる課題のあらゆるバリエーションに適用可能な方程式を導出し、検証した。 これらの式を用いて、(1)様々なパラメータ(例えば、見かけと隠蔽状態の数、トリガー長、信頼度など)で複雑さのレベルがどう変化するかを説明し、(2)MLモデルをうまく訓練するために必要なデータを定量化した。 そして (3) ML ソリューションが学習し,未知のトリガを同定し,発生を予測した。 難題の複雑さが高すぎると、我々のMLソリューションは、調査中のシステムにインタラクティブに調査するトリガー候補を特定し、真のトリガーをブルートフォース法よりもはるかに効率的に決定する。 この結果を共有することで、同様の課題に対処する人たちを支援し、問題の複雑さ、必要なデータ、解決のためのソリューションを見積もることが可能になる。

We explored the challenge of predicting and explaining the occurrence of events within sequences of data points. Our focus was particularly on scenarios in which unknown triggers causing the occurrence of events may consist of non-consecutive, masked, noisy data points. This scenario is akin to an agent tasked with learning to predict and explain the occurrence of events without understanding the underlying processes or having access to crucial information. Such scenarios are encountered across various fields, such as genomics, hardware and software verification, and financial time series prediction. We combined analytical, simulation, and machine learning (ML) approaches to investigate, quantify, and provide solutions to this challenge. We deduced and validated equations generally applicable to any variation of the underlying challenge. Using these equations, we (1) described how the level of complexity changes with various parameters (e.g., number of apparent and hidden states, trigger length, confidence, etc.) and (2) quantified the data needed to successfully train an ML model. We then (3) proved our ML solution learns and subsequently identifies unknown triggers and predicts the occurrence of events. If the complexity of the challenge is too high, our ML solution can identify trigger candidates to be used to interactively probe the system under investigation to determine the true trigger in a way considerably more efficient than brute force methods. By sharing our findings, we aim to assist others grappling with similar challenges, enabling estimates on the complexity of their problem, the data required and a solution to solve it.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# InfoGaussian:軽量情報形成による動的ガウシアンの構造認識

InfoGaussian: Structure-Aware Dynamic Gaussians through Lightweight Information Shaping ( http://arxiv.org/abs/2406.05897v1 )

ライセンス: Link先を確認
Yunchao Zhang, Guandao Yang, Leonidas Guibas, Yanchao Yang, (参考訳) 3Dガウス人は、低レベルなシーンの表現として、一般的に数千から数百万のガウスを巻き込む。 これにより、独立したエンティティの数が典型的にはるかに少ない、基礎となる動的構造を反映する方法でシーンを制御するのが難しくなる。 特に、シーン内のオブジェクトをアニメーション化し、移動させることは困難であり、多くのガウス人との協調が必要である。 この問題に対処するため,我々は,移動ネットワークにおける相関ガウス間の移動共鳴を強制する相互情報形成手法を開発した。 このような相関関係は、異なる視点の2Dオブジェクトマスクから学習することができる。 運動のジャコビアンと相互情報を近似することにより、様々な摂動の下で異なる物体を構成するガウス人の一貫した動きを保証できる。 特に、動作ネットワークを形作るための軽量な最適化を施した効率的なコントラスト訓練パイプラインを開発し、動作シーケンス全体を通して再形成する必要がなくなる。 特に、我々のトレーニングはシーン内の全てのガウスのごく一部にしか触れていないが、基礎となる動的構造に従って所望の組成的挙動を達成している。 提案手法は難解な場面で評価され,低計算とメモリ要求を誘導しながら,一貫した動きと3次元オブジェクトセグメンテーションを促進する上で,大幅な性能向上を示す。

3D Gaussians, as a low-level scene representation, typically involve thousands to millions of Gaussians. This makes it difficult to control the scene in ways that reflect the underlying dynamic structure, where the number of independent entities is typically much smaller. In particular, it can be challenging to animate and move objects in the scene, which requires coordination among many Gaussians. To address this issue, we develop a mutual information shaping technique that enforces movement resonance between correlated Gaussians in a motion network. Such correlations can be learned from putative 2D object masks in different views. By approximating the mutual information with the Jacobians of the motions, our method ensures consistent movements of the Gaussians composing different objects under various perturbations. In particular, we develop an efficient contrastive training pipeline with lightweight optimization to shape the motion network, avoiding the need for re-shaping throughout the motion sequence. Notably, our training only touches a small fraction of all Gaussians in the scene yet attains the desired compositional behavior according to the underlying dynamic structure. The proposed technique is evaluated on challenging scenes and demonstrates significant performance improvement in promoting consistent movements and 3D object segmentation while inducing low computation and memory requirements.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# 広告配信最適化のための非同期学習型ユーザ埋め込み

Async Learned User Embeddings for Ads Delivery Optimization ( http://arxiv.org/abs/2406.05898v1 )

ライセンス: Link先を確認
Mingwei Tang, Meng Liu, Hong Li, Junjie Yang, Chenglin Wei, Boyang Li, Dai Li, Rengan Xu, Yifan Xu, Zehua Zhang, Xiangyu Wang, Linfeng Liu, Yuelei Xie, Chengye Liu, Labib Fawaz, Li Li, Hongnan Wang, Bill Zhu, Sri Reddy, (参考訳) 低次元ベクトルにおけるユーザの好みや振る舞いをキャプチャすることで、パーソナライズされたレコメンデーションの提供を支援するため、レコメンデーションシステムにはユーザ表現が不可欠である。 高品質なユーザ埋め込みは微妙な好みを捉え、正確な類似性計算を可能にし、時間とともに好みを変えて関連性を維持することができる。 推薦システムの有効性はユーザ埋め込みの品質に大きく依存する。 本稿では,Metaプラットフォームにおけるシーケンスベースのマルチモーダルユーザアクティビティから,トランスフォーマーのような大規模機能学習モジュールを通じて,毎日数十億のユーザに対する高忠実度ユーザ埋め込みを非同期に学習することを提案する。 非同期学習されたユーザ表現埋め込み(ALURE)はさらに、グラフ学習を通じてユーザ類似性グラフに変換され、ユーザリアルタイムアクティビティと組み合わせて、広告配信システム全体の高度に関連性の高い広告候補を検索する。 本手法は,オフライン実験とオンライン実験の両方において有意な効果を示した。

User representation is crucial for recommendation systems as it helps to deliver personalized recommendations by capturing user preferences and behaviors in low-dimensional vectors. High-quality user embeddings can capture subtle preferences, enable precise similarity calculations, and adapt to changing preferences over time to maintain relevance. The effectiveness of recommendation systems depends significantly on the quality of user embedding. We propose to asynchronously learn high fidelity user embeddings for billions of users each day from sequence based multimodal user activities in Meta platforms through a Transformer-like large scale feature learning module. The async learned user representations embeddings (ALURE) are further converted to user similarity graphs through graph learning and then combined with user realtime activities to retrieval highly related ads candidates for the entire ads delivery system. Our method shows significant gains in both offline and online experiments.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# 特異位置依存質量について

On the singular position-dependent mass ( http://arxiv.org/abs/2406.05899v1 )

ライセンス: Link先を確認
F. C. E. Lima, F. M. Belchior, C. A. S. Almeida, (参考訳) 位置依存質量(PDM)に関する問題を再考し,ベンダニエルとデュークが提唱した対称性について,一般的なPDMに対処するための適切な枠組みを再確認する。 この結果を達成するために、フォン・ルースによって提唱された実効的な質量ハミルトニアン(英語版)を採用し、シンメトリズド・キネマティック(英語版)(symmetrized kinematic)項によって補正される。 PDM問題に近づくための適切な順序を検証した後、特異なPDMによって記述された欠陥を持つ結晶格子を調査する。 特異質量プロファイルは、特異点の近傍に原子のクラスターが生じるときに興味深いことを証明している。 回復力が原子に作用することを考えると、収束したフン関数は量子状態を記述する。 さらに,有効質量分布が一定プロファイルとなると,高調波発振器に似た系を復元する。

Revisiting the issue associated with Position-Dependent Mass (PDM), we reaffirm that the appropriate framework for addressing a generic PDM is the symmetrization proposed by BenDaniel and Duke. To accomplish this result adopts the effective mass Hamiltonian proposed by von Roos, corrected by a symmetrized kinematic term. After verifying the appropriate ordering to approach the PDM issue, one investigates a crystalline lattice with a defect described by a singular PDM. The singular mass profile proves intriguing as it yields an atom's cluster in the neighborhood of the singularity. Considering that a restoring force acts on the atoms, one notes that the confluent Heun function describes the quantum states. Furthermore, one highlights that when the effective mass distribution tends to a constant profile, we recover a system similar to the harmonic oscillator.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# センサデータセットを記憶する大規模言語モデル! 人間の活動認識研究への示唆

Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research ( http://arxiv.org/abs/2406.05900v1 )

ライセンス: Link先を確認
Harish Haresamudram, Hrudhai Rajasekhar, Nikhil Murlidhar Shanbhogue, Thomas Ploetz, (参考訳) 自然言語処理(NLP)におけるLarge Language Models(LLMs)の成功は、ウェアラブルセンサーベースのHuman Activity Recognition(HAR)など、テキスト分析以外の多くのアプリケーション領域での利用を加速させた。 このようなシナリオでは、しばしばセンサーデータを LLM に直接入力し、モデルがアクティビティ分類を行うためのテキスト命令を出力する。 LLMをベースとしたHARシステムは,現場の標準ベンチマークで評価された場合,驚くべき結果が報告されている。 しかし,LLMに基づくHARシステムを従来の方法で評価するには,注意が必要である。 ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。 これにより、LCMが実際にそのようなベンチマーク実験で使用されるテストデータにアクセスできた可能性は低いが、その結果、トレーニングデータの汚染はこれらの実験評価を意味のないものにする。 本稿では,LLMがトレーニング中に標準HARデータセットにアクセスできたかどうかを検討する。 我々は、与えられたデータのスニペットを拡張するためにモデルを指示するLLMに記憶テストを適用する。 LLMの生成した出力と元のデータを比較すると、非無視の数の一致が見つかり、調査中のLCMが実際にトレーニング中にベンチマークデータセットからウェアラブルセンサーデータを見たことが示唆された。 特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。 本研究の報告とHAR研究への潜在的影響,特に実験評価の報告結果について検討する。

The astonishing success of Large Language Models (LLMs) in Natural Language Processing (NLP) has spurred their use in many application domains beyond text analysis, including wearable sensor-based Human Activity Recognition (HAR). In such scenarios, often sensor data are directly fed into an LLM along with text instructions for the model to perform activity classification. Seemingly remarkable results have been reported for such LLM-based HAR systems when they are evaluated on standard benchmarks from the field. Yet, we argue, care has to be taken when evaluating LLM-based HAR systems in such a traditional way. Most contemporary LLMs are trained on virtually the entire (accessible) internet -- potentially including standard HAR datasets. With that, it is not unlikely that LLMs actually had access to the test data used in such benchmark experiments.The resulting contamination of training data would render these experimental evaluations meaningless. In this paper we investigate whether LLMs indeed have had access to standard HAR datasets during training. We apply memorization tests to LLMs, which involves instructing the models to extend given snippets of data. When comparing the LLM-generated output to the original data we found a non-negligible amount of matches which suggests that the LLM under investigation seems to indeed have seen wearable sensor data from the benchmark datasets during training. For the Daphnet dataset in particular, GPT-4 is able to reproduce blocks of sensor readings. We report on our investigations and discuss potential implications on HAR research, especially with regards to reporting results on experimental evaluation
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# 人的フィードバックを活用したAIの公平さと公正さへの影響

Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback ( http://arxiv.org/abs/2406.05902v1 )

ライセンス: Link先を確認
Emilia Agis Lerner, Florian E. Dorner, Elliott Ash, Naman Goel, (参考訳) 機械学習システムのさまざまな側面を人間の価値観や好みと整合させるために、人間のフィードバックから学ぶことに注力している。 コンテンツモデレーションにおける公平性の設定について検討し、人間のフィードバックを使って2つのコメント(異なる機密属性グループを参照)をどのように扱うべきかを比較検討する。 ProlificとMTurkから収集された新しいデータセットでは、人種、年齢、政治的スタンス、教育レベル、LGBTQ+アノテータの同一性によって、公平さの選好に大きなギャップがある。 また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。 さらに、人間の嗜好を予測するために訓練された下流分類器にも相違があることが判明した。 最後に、異なる階層のアノテーションに基づいて訓練された分類器に等しい重量を与えるアンサンブルが、それぞれのアノテーションに等しい重量を与える単一の分類器と比較して、異なる階層の交点に対してより良い性能を発揮することを観察する。

There is a growing body of work on learning from human feedback to align various aspects of machine learning systems with human values and preferences. We consider the setting of fairness in content moderation, in which human feedback is used to determine how two comments -- referencing different sensitive attribute groups -- should be treated in comparison to one another. With a novel dataset collected from Prolific and MTurk, we find significant gaps in fairness preferences depending on the race, age, political stance, educational level, and LGBTQ+ identity of annotators. We also demonstrate that demographics mentioned in text have a strong influence on how users perceive individual fairness in moderation. Further, we find that differences also exist in downstream classifiers trained to predict human preferences. Finally, we observe that an ensemble, giving equal weight to classifiers trained on annotations from different demographics, performs better for different demographic intersections; compared to a single classifier that gives equal weight to each annotation.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# Aegis: 分散型拡張ブロックチェーン

Aegis: A Decentralized Expansion Blockchain ( http://arxiv.org/abs/2406.05904v1 )

ライセンス: Link先を確認
Yogev Bar-On, Roi Bar-Zur, Omer Ben-Porat, Nimrod Cohen, Ittay Eyal, Matan Sitbon, (参考訳) ブロックチェーンは、ノードの委員会によって運営される金融システムを実装する。 確立されたブロックチェーンの堅牢性は、インフラストラクチャを活用して拡張チェーンを作成する機会を提供する。 拡張チェーンは、プライマリチェーンのセキュリティとトークンの安定性から恩恵を受けながら、プライマリチェーンを活用または実装するプライマリチェーンに追加機能を提供する。 実際、EthereumのEigenLayerのようなツールは、ノードをプライマリチェーンに(担保として)張ることを可能にし、拡張チェーンを運用する責任を負う委員会を形成する。 しかし、これはこぼれだ。 古典的なプロトコルは正しいと仮定するが、よく知られたノードは無期限に正しいままである。 しかし、私たちの場合、その利害関係は正しさを動機付けます。 ノードがその利害関係を取り下げると、その正しさを仮定する根拠は存在しない。 新しい課題に対処するため、プライマリチェーンの利害関係に基づいた拡張チェーンであるAegisを、境界付きプライマリチェーンの書き込み時間として提示する。 Aegis は Aegis ブロックからプライマリブロックへの参照を使用して委員会を定義し、プライマリチェーンのチェックポイントで決定を継続し、前回が廃止された場合、プライマリチェーンにリセットして新しい委員会を設置する。 Aegisノード間のレイテンシが低い場合、常に安全と迅速な進捗を保証する。

Blockchains implement monetary systems operated by committees of nodes. The robustness of established blockchains presents an opportunity to leverage their infrastructure for creating expansion chains. Expansion chains can provide additional functionality to the primary chain they leverage or implement separate functionalities, while benefiting from the primary chain's security and the stability of its tokens. Indeed, tools like Ethereum's EigenLayer enable nodes to stake (deposit collateral) on a primary chain to form a committee responsible for operating an expansion chain. But here is the rub. Classical protocols assume correct, well-behaved nodes stay correct indefinitely. Yet in our case, the stake incentivizes correctness--it will be slashed (revoked) if its owner deviates. Once a node withdraws its stake, there is no basis to assume its correctness. To address the new challenge, we present Aegis, an expansion chain based on primary-chain stake, assuming a bounded primary-chain write time. Aegis uses references from Aegis blocks to primary blocks to define committees, checkpoints on the primary chain to perpetuate decisions, and resets on the primary chain to establish a new committee if the previous one becomes obsolete. It ensures safety at all times and rapid progress when latency among Aegis nodes is low.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# TTM-RE: メモリ拡張ドキュメンテーション-レベル関係抽出

TTM-RE: Memory-Augmented Document-Level Relation Extraction ( http://arxiv.org/abs/2406.05906v1 )

ライセンス: Link先を確認
Chufan Gao, Xuan Wang, Jimeng Sun, (参考訳) 文書レベルの関係抽出は、文書内の任意の2つのエンティティ間の関連を分類することを目的としている。 従来の文書レベルの関係抽出手法は,ノイズレベルの異なる大量のトレーニングデータの潜在能力を最大限に活用するには有効ではない。 例えば、ReDocREDベンチマークデータセットでは、大規模で、低品質で、遠くに監督されたトレーニングデータに基づいてトレーニングされた最先端のメソッドは、一般的に、より小さく、高品質で、人間にアノテートされたトレーニングデータのみにトレーニングされたトレーニングデータよりもパフォーマンスが良くない。 文書レベルの関係抽出のための大規模ノイズ学習データの可能性を最大限に活用するために,Token Turing Machineと呼ばれるトレーニング可能なメモリモジュールと,正のラベル付き設定を考慮に入れたノイズロス関数を統合したTTM-REを提案する。 文書レベルの関係抽出のためのベンチマークデータセットであるReDocREDの大規模な実験により、TTM-REは最先端のパフォーマンスを達成する(絶対的なF1スコアの改善は3%以上)。 アブレーション研究は、他のドメイン(バイオメディカルドメインのChemDisGeneデータセット)におけるTTM-REの優位性と、高度にラベル付けされていない設定下での優位性をさらに説明している。

Document-level relation extraction aims to categorize the association between any two entities within a document. We find that previous methods for document-level relation extraction are ineffective in exploiting the full potential of large amounts of training data with varied noise levels. For example, in the ReDocRED benchmark dataset, state-of-the-art methods trained on the large-scale, lower-quality, distantly supervised training data generally do not perform better than those trained solely on the smaller, high-quality, human-annotated training data. To unlock the full potential of large-scale noisy training data for document-level relation extraction, we propose TTM-RE, a novel approach that integrates a trainable memory module, known as the Token Turing Machine, with a noisy-robust loss function that accounts for the positive-unlabeled setting. Extensive experiments on ReDocRED, a benchmark dataset for document-level relation extraction, reveal that TTM-RE achieves state-of-the-art performance (with an absolute F1 score improvement of over 3%). Ablation studies further illustrate the superiority of TTM-RE in other domains (the ChemDisGene dataset in the biomedical domain) and under highly unlabeled settings.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# BD-SAT:高分解能土地利用土地被覆データセットと開発部門のベンチマーク結果:ダッカ、BD

BD-SAT: High-resolution Land Use Land Cover Dataset & Benchmark Results for Developing Division: Dhaka, BD ( http://arxiv.org/abs/2406.05912v1 )

ライセンス: Link先を確認
Ovi Paul, Abu Bakar Siddik Nayem, Anis Sarker, Amin Ahsan Ali, M Ashraful Amin, AKM Mahbubur Rahman, (参考訳) 深層学習を用いた衛星画像の土地利用土地被覆(LULC)解析は,開発途上国の地理,社会経済状況,貧困水準,都市スプロールを理解する上で極めて有用である。 近年の研究では、農地、組立地域、森林、牧草地、水域など、LULCクラスとのセグメンテーションが行われている。 衛星画像上でのディープラーニングの訓練には、LULCクラスを付加した大量の画像を必要とする。 しかし、開発途上国の注釈付きデータは、資金不足、専用の住宅・産業・経済地帯の欠如、人口の多さ、多様な建築資材のために不足している。 BD-SATは高解像度のデータセットを提供しており、ダッカ大都市圏や周辺農村部や都市部のLULCアノテーションを含んでいる。 厳密で標準化された手順を用いて、地上空間距離が2.22メートル/ピクセルであるBing衛星画像を用いて、地上の真理を作成する。 アノテーションの信頼性を保証するため、GISの専門家による3段階の明確に定義されたアノテーションプロセスが続いた。 ベンチマーク結果を確立するために,いくつかの実験を行った。 その結果, 注釈付きBD-SATは, 森林, 農地, 組立地域, 水域, 牧草地の5つの主要なLULCクラスに対して, 適切な精度で大規模深層学習モデルを訓練するのに十分であることが示唆された。

Land Use Land Cover (LULC) analysis on satellite images using deep learning-based methods is significantly helpful in understanding the geography, socio-economic conditions, poverty levels, and urban sprawl in developing countries. Recent works involve segmentation with LULC classes such as farmland, built-up areas, forests, meadows, water bodies, etc. Training deep learning methods on satellite images requires large sets of images annotated with LULC classes. However, annotated data for developing countries are scarce due to a lack of funding, absence of dedicated residential/industrial/economic zones, a large population, and diverse building materials. BD-SAT provides a high-resolution dataset that includes pixel-by-pixel LULC annotations for Dhaka metropolitan city and surrounding rural/urban areas. Using a strict and standardized procedure, the ground truth is created using Bing satellite imagery with a ground spatial distance of 2.22 meters per pixel. A three-stage, well-defined annotation process has been followed with support from GIS experts to ensure the reliability of the annotations. We performed several experiments to establish benchmark results. The results show that the annotated BD-SAT is sufficient to train large deep learning models with adequate accuracy for five major LULC classes: forest, farmland, built-up areas, water bodies, and meadows.
翻訳日:2024-06-11 17:28:18 公開日:2024-06-09
# Bits-to-Photon: 直接レンダリングのためのエンドツーエンド学習型スケーラブルポイントクラウド圧縮

Bits-to-Photon: End-to-End Learned Scalable Point Cloud Compression for Direct Rendering ( http://arxiv.org/abs/2406.05915v1 )

ライセンス: Link先を確認
Yueyu Hu, Ran Gong, Yao Wang, (参考訳) ポイントクラウドは、新興AR/VRアプリケーションにおけるボリュームストリーミングのための有望な3D表現である。 ポイントクラウド圧縮の最近の進歩にもかかわらず、圧縮された圧縮されたポイントクラウドから高品質なイメージをデコードしてレンダリングすることは、品質と複雑さという点で依然として困難であり、リアルタイムの6自由度ビデオストリーミングを実現するための大きな障害となっている。 本稿では,レンダリング可能な3Dガウスアンに直接デコード可能なビットストリームを生成するポイントクラウド圧縮スキームを開発することにより,この問題に対処する。 エンコーダとデコーダは、ビットレートとレンダリング品質の両方を考慮するように共同最適化されている。 既存のポイントクラウド圧縮手法と比較して、デコードやレンダリング時間を大幅に削減しながら、レンダリング品質を大幅に改善する。 さらに、提案手法はスケーラブルなビットストリームを生成し、異なるビットレート範囲で複数の詳細レベルを実現する。 提案手法は,高品質な点雲のリアルタイムカラーデコーディングとレンダリングをサポートし,自由視点でインタラクティブな3Dストリーミングアプリケーションを実現する。

Point cloud is a promising 3D representation for volumetric streaming in emerging AR/VR applications. Despite recent advances in point cloud compression, decoding and rendering high-quality images from lossy compressed point clouds is still challenging in terms of quality and complexity, making it a major roadblock to achieve real-time 6-Degree-of-Freedom video streaming. In this paper, we address this problem by developing a point cloud compression scheme that generates a bit stream that can be directly decoded to renderable 3D Gaussians. The encoder and decoder are jointly optimized to consider both bit-rates and rendering quality. It significantly improves the rendering quality while substantially reducing decoding and rendering time, compared to existing point cloud compression methods. Furthermore, the proposed scheme generates a scalable bit stream, allowing multiple levels of details at different bit-rate ranges. Our method supports real-time color decoding and rendering of high quality point clouds, thus paving the way for interactive 3D streaming applications with free view points.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# 量子グリッド形成の改革

Reforming Quantum Microgrid Formation ( http://arxiv.org/abs/2406.05916v1 )

ライセンス: Link先を確認
Chaofan Lin, Peng Zhang, Mikhail A. Bragin, Yacov A. Shamash, (参考訳) 本稿では、電力系統の効率的な運転最適化とレジリエンス向上を実現するために、新しいコンパクトでロスレスな量子マイクログリッド形成法(qMGF)を提案する。 これは、連続変数の冗長なエンコーディングを避けるためにグラフ理論を駆使した2進2進最適化(QUBO)を利用することで、古典的なMGFが生成したものと同等であることを示すために、ロスレスな再構成によって達成される。 さらに、qMGFアプローチは、他の量子法に比べてはるかに少ない量子ビットを必要とするコンパクトな定式化を利用することで、qMGFの短期量子コンピュータへの高精度で低複雑さな展開を可能にする。 実量子処理ユニット(QPU)のケーススタディでは、qMGFが古典的な結果と同じ精度で量子ビット数を著しく削減できることを示した。

This letter introduces a novel compact and lossless quantum microgrid formation (qMGF) approach to achieve efficient operational optimization of the power system and improvement of resilience. This is achieved through lossless reformulation to ensure that the results are equivalent to those produced by the classical MGF by exploiting graph-theory-empowered quadratic unconstrained binary optimization (QUBO) that avoids the need for redundant encoding of continuous variables. Additionally, the qMGF approach utilizes a compact formulation that requires significantly fewer qubits compared to other quantum methods thereby enabling a high-accuracy and low-complexity deployment of qMGF on near-term quantum computers. Case studies on real quantum processing units (QPUs) empirically demonstrated that qMGF can achieve the same high accuracy as classic results with a significantly reduced number of qubits.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# なぜプロンプトベースのフェアネスメトリクスが相関しないのか?

Why Don't Prompt-Based Fairness Metrics Correlate? ( http://arxiv.org/abs/2406.05918v1 )

ライセンス: Link先を確認
Abdelrahman Zayed, Goncalo Mordido, Ioana Baldini, Sarath Chandar, (参考訳) 大規模言語モデルの普及により、これらのモデルが学習する可能性のあるバイアスについて、重要な疑問が持ち上がっている。 このことが、これらのバイアスを評価し緩和することを目的としたいくつかのメトリクスの開発につながった。 本稿では,まず,プロンプトを用いたフェアネス評価の信頼性に関する重要な疑問を提起し,相関によって測定されるように,プロンプトに基づくフェアネス評価が不一致を示すことを示す。 そして、そのような相関が既存のメトリクスで観測される6つの関連する理由を概説する。 そこで本研究では,CAIRO(Correlated Fairness Output)と呼ばれる手法を提案する。 CAIROは、事前訓練された言語モデルを使用することで、与えられた公正度メトリックの元々のプロンプトを強化し、その後、メトリクス間の最も高い相関を達成する拡張プロンプトの組み合わせを選択する。 我々は,ジェンダーと宗教の偏見の指標から,ピアソンの相関関係を0.3と0.18から0.90と0.98に大きく改善した。 私たちのコードはhttps://github.com/chandar-lab/CAIRO.comで公開されています。

The widespread use of large language models has brought up essential questions about the potential biases these models might learn. This led to the development of several metrics aimed at evaluating and mitigating these biases. In this paper, we first demonstrate that prompt-based fairness metrics exhibit poor agreement, as measured by correlation, raising important questions about the reliability of fairness assessment using prompts. Then, we outline six relevant reasons why such a low correlation is observed across existing metrics. Based on these insights, we propose a method called Correlated Fairness Output (CAIRO) to enhance the correlation between fairness metrics. CAIRO augments the original prompts of a given fairness metric by using several pre-trained language models and then selects the combination of the augmented prompts that achieves the highest correlation across metrics. We show a significant improvement in Pearson correlation from 0.3 and 0.18 to 0.90 and 0.98 across metrics for gender and religion biases, respectively. Our code is available at https://github.com/chandar-lab/CAIRO.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# 合成音響ダッペルガンガーからのコントラスト学習

Contrastive Learning from Synthetic Audio Doppelgangers ( http://arxiv.org/abs/2406.05923v1 )

ライセンス: Link先を確認
Manuel Cherep, Nikhil Singh, (参考訳) 現在、ロバストな音声表現を学習するためには、現実世界の音声記録の広範なデータセットが必要である。 これらの記録に人工的な変換を適用することで、モデルは、対照的な学習のような技術を通じて微妙な変化にもかかわらず、類似性を認識することができる。 しかし、これらの変換は、声帯振動から楽器の共鳴まで、物理過程の複雑な相互作用によって生じる実世界の音の真の多様性の近似にすぎない。 合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。 音声合成器のパラメータをランダムに摂動することにより、音色、ピッチ、時間エンベロープを因果的に操作した音響ドッペルg\"angers-synthetic positive pairsを生成する。 これらのバリエーションは、既存のオーディオの変換によって達成が困難であり、コントラスト情報の豊富な情報源を提供する。 ランダムに生成された合成データへのシフトにもかかわらず,本手法は,標準音声分類ベンチマークにおける実データと競合する強力な表現を生成する。 特に、我々のアプローチは軽量で、データストレージを必要とせず、1つのハイパーパラメータしか持たない。 本手法は,音声のコントラスト学習のための既存の手法を補完するものであり,実践者のデータ負担を軽減するために合成音を用いたものである。

Learning robust audio representations currently demands extensive datasets of real-world sound recordings. By applying artificial transformations to these recordings, models can learn to recognize similarities despite subtle variations through techniques like contrastive learning. However, these transformations are only approximations of the true diversity found in real-world sounds, which are generated by complex interactions of physical processes, from vocal cord vibrations to the resonance of musical instruments. We propose a solution to both the data scale and transformation limitations, leveraging synthetic audio. By randomly perturbing the parameters of a sound synthesizer, we generate audio doppelg\"angers-synthetic positive pairs with causally manipulated variations in timbre, pitch, and temporal envelopes. These variations, difficult to achieve through transformations of existing audio, provide a rich source of contrastive information. Despite the shift to randomly generated synthetic data, our method produces strong representations, competitive with real data on standard audio classification benchmarks. Notably, our approach is lightweight, requires no data storage, and has only a single hyperparameter, which we extensively analyze. We offer this method as a complement to existing strategies for contrastive learning in audio, using synthesized sounds to reduce the data burden on practitioners.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# もしもし!LLMを利用した長期対話用パーソナライズドエージェント

Hello Again! LLM-powered Personalized Agent for Long-term Dialogue ( http://arxiv.org/abs/2406.05925v1 )

ライセンス: Link先を確認
Hao Li, Chenghao Yang, An Zhang, Yang Deng, Xiang Wang, Tat-Seng Chua, (参考訳) オープンドメイン対話システムは,大規模言語モデル(LLM)の開発によって顕著な進歩を遂げている。 それにもかかわらず、既存の対話システムのほとんどは、短期的なシングルセッションインタラクションに重点を置いており、長期的な協力やチャットボットとのパーソナライズされた対話に対する現実的な要求を無視している。 この現実世界のニーズに対処する上で重要なのは、イベントサマリとペルソナ管理であり、適切な長期対話応答の推論を可能にする。 LLMの人間的な認知と推論能力の最近の進歩は、LLMをベースとしたエージェントが、自動認識、意思決定、問題解決を著しく強化する可能性があることを示唆している。 この可能性に対応するために、イベント認識、ペルソナ抽出、応答生成に特化した3つの独立した調整可能なモジュールを組み込んだ、モデルに依存しない長期対話エージェント(LD-Agent)を導入する。 イベントメモリモジュールでは、長期記憶バンクを用いて、履歴および進行中のセッションを個別にフォーカスし、トピックベースの検索機構を導入して、メモリ検索の精度を高める。 さらに、ペルソナモジュールはユーザーとエージェントの両方に対して動的ペルソナモデリングを行う。 その後、検索した記憶と抽出されたペルソナの統合がジェネレータに送られ、適切な応答が誘導される。 LD-Agentの有効性、汎用性、クロスドメイン能力は、様々な実証的なベンチマーク、モデル、タスクで実証的に実証されている。 コードはhttps://github.com/leolee99/LD-Agent.comで公開されている。

Open-domain dialogue systems have seen remarkable advancements with the development of large language models (LLMs). Nonetheless, most existing dialogue systems predominantly focus on brief single-session interactions, neglecting the real-world demands for long-term companionship and personalized interactions with chatbots. Crucial to addressing this real-world need are event summary and persona management, which enable reasoning for appropriate long-term dialogue responses. Recent progress in the human-like cognitive and reasoning capabilities of LLMs suggests that LLM-based agents could significantly enhance automated perception, decision-making, and problem-solving. In response to this potential, we introduce a model-agnostic framework, the Long-term Dialogue Agent (LD-Agent), which incorporates three independently tunable modules dedicated to event perception, persona extraction, and response generation. For the event memory module, long and short-term memory banks are employed to separately focus on historical and ongoing sessions, while a topic-based retrieval mechanism is introduced to enhance the accuracy of memory retrieval. Furthermore, the persona module conducts dynamic persona modeling for both users and agents. The integration of retrieved memories and extracted personas is subsequently fed into the generator to induce appropriate responses. The effectiveness, generality, and cross-domain capabilities of LD-Agent are empirically demonstrated across various illustrative benchmarks, models, and tasks. The code is released at https://github.com/leolee99/LD-Agent.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# MeanSparse: 平均中心的特徴空間化によるトレーニング後のロバストネス向上

MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification ( http://arxiv.org/abs/2406.05927v1 )

ライセンス: Link先を確認
Sajjad Amini, Mohammadreza Teymoorianfard, Shiqing Ma, Amir Houmansadr, (参考訳) 本稿では,敵対的学習モデルの後処理により,畳み込みニューラルネットワーク(CNN)の強靭性を改善するための簡易かつ効果的な手法を提案する。 我々の技術であるMeanSparseは、平均中心特徴ベクトルをスパースする新しい演算子を持つ訓練モデルの活性化関数をカスケードする。 これは平均値の周りの特徴変動を減少させることと等価であり、そのような変動がモデルの有用性にのみ影響することを示しているが、敵の摂動を強く抑制し、攻撃者の成功率を低下させる。 我々の実験によると、RobostBenchのリーダーボードの上位モデルに適用すると、AutoAttackの精度で、CIFAR-10とImageNetの72.08%(71.07%から)と59.64%(59.56%から)の新しいロバスト性記録を達成する。 コードはhttps://github.com/SPIN-UMass/MeanSparseで入手できる。

We present a simple yet effective method to improve the robustness of Convolutional Neural Networks (CNNs) against adversarial examples by post-processing an adversarially trained model. Our technique, MeanSparse, cascades the activation functions of a trained model with novel operators that sparsify mean-centered feature vectors. This is equivalent to reducing feature variations around the mean, and we show that such reduced variations merely affect the model's utility, yet they strongly attenuate the adversarial perturbations and decrease the attacker's success rate. Our experiments show that, when applied to the top models in the RobustBench leaderboard, it achieves a new robustness record of 72.08% (from 71.07%) and 59.64% (from 59.56%) on CIFAR-10 and ImageNet, respectively, in term of AutoAttack accuracy. Code is available at https://github.com/SPIN-UMass/MeanSparse
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# Cyber-Sensorium: サイバー公衆衛生フレームワークの拡張

Cyber-sensorium: An Extension of the Cyber Public Health Framework ( http://arxiv.org/abs/2406.05929v1 )

ライセンス: Link先を確認
Robin Coupland, Nathan Taback, (参考訳) ますます高度なサイバー攻撃に対応するために、健康ベースのアプローチが、その影響を定義し評価するために使われています。 2つの重要なサイバーセキュリティワークショップがこの視点を育み、サイバー被害の理解を標準化することを目指している。 これらのワークショップのエキスパートは、加害者の意図、利用可能な手段、ターゲットの脆弱性に焦点をあてたサイバー脅威を分析するための、公衆衛生的なフレームワークに合意した。 本研究は,デジタルネットワークと人間の福祉に不可欠な生物学的神経系との類似性を引き出す,サイバーセンサーの概念との対話に貢献する。 このシステムに対するサイバー攻撃は深刻な世界的なリスクをもたらし、その保護の必要性を浮き彫りにした。

In response to increasingly sophisticated cyberattacks, a health-based approach is being used to define and assess their impact. Two significant cybersecurity workshops have fostered this perspective, aiming to standardize the understanding of cyber harm. Experts at these workshops agreed on a public health-like framework to analyze cyber threats focusing on the perpetrators' intent, the means available to them, and the vulnerability of targets. We contribute to this dialogue with the cyber sensorium concept, drawing parallels between the digital network and a biological nervous system essential to human welfare. Cyberattacks on this system present serious global risks, underlining the need for its protection.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# 半教師付きニューラルプロトランゲージ再構成

Semisupervised Neural Proto-Language Reconstruction ( http://arxiv.org/abs/2406.05930v1 )

ライセンス: Link先を確認
Liang Lu, Peirong Xie, David R. Mortensen, (参考訳) 祖先言語(原語)の比較再構成を行う既存の作業は通常、完全な監督を必要とする。 しかし、ラベル付きデータの限られた量でトレーニングできる場合、歴史的復元モデルは実用的価値しか持たない。 本稿では,少数のラベル付きデータ(プロトフォーム付きコガネート集合)と大量のラベル付きデータ(プロトフォームなしコガネート集合)に基づいて,モデルを訓練する半教師付き歴史復元タスクを提案する。 本稿では, 比較再構成のためのニューラルアーキテクチャ (DPD-BiReconstructor) を提案し, 言語学者の比較手法から重要な知見を取り入れ, 再構成された単語は, 娘の単語から再構成可能であるだけでなく, 決定論的に娘の単語に変換可能であることを提案する。 このアーキテクチャは、未ラベルのコグネート集合を利用して、この新しいタスクにおいて強い半教師付きベースラインを達成できることが示される。

Existing work implementing comparative reconstruction of ancestral languages (proto-languages) has usually required full supervision. However, historical reconstruction models are only of practical value if they can be trained with a limited amount of labeled data. We propose a semisupervised historical reconstruction task in which the model is trained on only a small amount of labeled data (cognate sets with proto-forms) and a large amount of unlabeled data (cognate sets without proto-forms). We propose a neural architecture for comparative reconstruction (DPD-BiReconstructor) incorporating an essential insight from linguists' comparative method: that reconstructed words should not only be reconstructable from their daughter words, but also deterministically transformable back into their daughter words. We show that this architecture is able to leverage unlabeled cognate sets to outperform strong semisupervised baselines on this novel task.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# サイバーセキュリティ脆弱性の脅威中心ランク付けに関する関連モデル

A Relevance Model for Threat-Centric Ranking of Cybersecurity Vulnerabilities ( http://arxiv.org/abs/2406.05933v1 )

ライセンス: Link先を確認
Corren McCoy, Ross Gore, Michael L. Nelson, Michele C. Weigle, (参考訳) 脆弱性の追跡と更新の絶え間ないプロセスは、サイバーセキュリティの専門家にとって最大の関心事だ。 鍵となる課題は、社内の組織的目標に特有の修復スキームを特定することです。 戦略がなければ、その結果は脆弱性の潮流に当てはまる修正のパッチワークになります。 少数の脆弱性が現実世界の攻撃の焦点であることを考えると、実際の修復戦略は、悪用される可能性のある脆弱性を特定し、これらの脆弱性を最初に修正する努力を集中させることである。 本研究の目的は,アクセスしやすい公開データソースの集約と合成によって,脆弱性管理戦略を優先する個人的かつ自動化されたレコメンデーションを提供することで,CVSS(Common Vulnerability Scoring System)の使用よりも大幅に改善されることを実証することである。 我々は、MITRE ATT&CKから派生した敵対的基準を用いた脅威の軽減に特化して、脆弱性管理のためのフレームワークを提供する。 6つの大学と4つの政府施設に関連するソフトウェアの脆弱性を特定することで、我々のアプローチをテストする。 ランク付けポリシー性能は正規化カウント累積ゲイン(nDCG)を用いて測定される。 我々の結果は、サイバー脅威のアクターが標的にし、悪用される可能性のある脆弱性の特定に向けた平均71.5%から91.3%の改善を示している。 当社の政策によるパッチ投資の収益率(ROI)は、年間費用の23.3%から25.5%の節減となる。 本研究は,大規模データセットをリンクしてセマンティッククエリを容易にし,データ駆動型フレキシブルなランキングポリシーを作成するための知識グラフの作成の有効性を示す。

The relentless process of tracking and remediating vulnerabilities is a top concern for cybersecurity professionals. The key challenge is trying to identify a remediation scheme specific to in-house, organizational objectives. Without a strategy, the result is a patchwork of fixes applied to a tide of vulnerabilities, any one of which could be the point of failure in an otherwise formidable defense. Given that few vulnerabilities are a focus of real-world attacks, a practical remediation strategy is to identify vulnerabilities likely to be exploited and focus efforts towards remediating those vulnerabilities first. The goal of this research is to demonstrate that aggregating and synthesizing readily accessible, public data sources to provide personalized, automated recommendations for organizations to prioritize their vulnerability management strategy will offer significant improvements over using the Common Vulnerability Scoring System (CVSS). We provide a framework for vulnerability management specifically focused on mitigating threats using adversary criteria derived from MITRE ATT&CK. We test our approach by identifying vulnerabilities in software associated with six universities and four government facilities. Ranking policy performance is measured using the Normalized Discounted Cumulative Gain (nDCG). Our results show an average 71.5% - 91.3% improvement towards the identification of vulnerabilities likely to be targeted and exploited by cyber threat actors. The return on investment (ROI) of patching using our policies results in a savings of 23.3% - 25.5% in annualized costs. Our results demonstrate the efficacy of creating knowledge graphs to link large data sets to facilitate semantic queries and create data-driven, flexible ranking policies.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# 未知多ノード干渉による線形因果表現学習

Linear Causal Representation Learning from Unknown Multi-node Interventions ( http://arxiv.org/abs/2406.05937v1 )

ライセンス: Link先を確認
Burak Varıcı, Emre Acartürk, Karthikeyan Shanmugam, Ali Tajer, (参考訳) 介入因果表現学習(CRL)の多面的進歩にもかかわらず、それらは主に単一ノード介入のスタイリングされた仮定に焦点を当てている。 この仮定は広範囲のアプリケーションでは有効ではなく、一般に、介入環境に介在するノードのサブセットは完全に不明である。 本稿では、未知のマルチノード干渉環境下での干渉CRLに着目し、確率的介入(ソフトまたはハード)および潜時から観測空間への線形変換の下で、一般的な潜時因果モデル(パラメトリックまたはノンパラメトリック)に対する最初の識別可能性を示す。 具体的には、十分に多様な介入環境が与えられている。 一 柔らかい介入のみを用いて祖先の身元を特定でき、 (二)ハード介入により完全識別が可能である。 注目すべきは、これらの保証はより制限的な単一ノードの介入において最もよく知られた結果と一致することである。 さらに、識別可能性を保証するためのCRLアルゴリズムも提供される。 これらのアルゴリズムの設計における中心的なステップは、UMN干渉CRLと異なる干渉環境の統計モデルに関連するスコア関数の関係を確立することである。 これらの関係を確立することは、識別可能性を保証するための建設的な証拠としても機能する。

Despite the multifaceted recent advances in interventional causal representation learning (CRL), they primarily focus on the stylized assumption of single-node interventions. This assumption is not valid in a wide range of applications, and generally, the subset of nodes intervened in an interventional environment is fully unknown. This paper focuses on interventional CRL under unknown multi-node (UMN) interventional environments and establishes the first identifiability results for general latent causal models (parametric or nonparametric) under stochastic interventions (soft or hard) and linear transformation from the latent to observed space. Specifically, it is established that given sufficiently diverse interventional environments, (i) identifiability up to ancestors is possible using only soft interventions, and (ii) perfect identifiability is possible using hard interventions. Remarkably, these guarantees match the best-known results for more restrictive single-node interventions. Furthermore, CRL algorithms are also provided that achieve the identifiability guarantees. A central step in designing these algorithms is establishing the relationships between UMN interventional CRL and score functions associated with the statistical models of different interventional environments. Establishing these relationships also serves as constructive proof of the identifiability guarantees.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# 混合整数)擬似プログラムのためのグラフニューラルネットワークの表現力

Expressive Power of Graph Neural Networks for (Mixed-Integer) Quadratic Programs ( http://arxiv.org/abs/2406.05938v1 )

ライセンス: Link先を確認
Ziang Chen, Xiaohan Chen, Jialin Liu, Xinshang Wang, Wotao Yin, (参考訳) 二次計画法 (QP) は非線形計画法において最も広く適用されている分野である。 多くのアプリケーションはリアルタイム/高速な解を必要とするが、必ずしも高精度であるとは限らない。 既存の方法は行列分解を含むか、事前条件付き共役勾配法を用いる。 比較的大規模なインスタンスの場合、これらのメソッドは効果的な前提条件がなければリアルタイムの要求を達成できない。 最近、グラフニューラルネットワーク(GNN)がQPの新しい可能性を公開した。 QPタスクにGNNを適用するための有望な実証研究は、GNNが最適化インスタンスの重要な特徴を捉え、問題解決プロセスにおける重要な構成に応じて適応的なガイダンスを提供するか、あるいは近似したソリューションを直接提供できることを示している。 顕著な経験的観察にもかかわらず、理論的な基礎はいまだに欠落している。 本研究では、ニューラルネットワーク理論の重要な側面であるGNNの表現力や代表力について、特にQPタスクの文脈において、連続的および混合的設定の両方で検討する。 本稿では,2次プログラムの重要な特性,実現可能性,最適目的値,最適解を確実に表現できるメッセージパスGNNの存在を実証する。 私たちの理論は数値的な結果によって検証される。

Quadratic programming (QP) is the most widely applied category of problems in nonlinear programming. Many applications require real-time/fast solutions, though not necessarily with high precision. Existing methods either involve matrix decomposition or use the preconditioned conjugate gradient method. For relatively large instances, these methods cannot achieve the real-time requirement unless there is an effective precondition. Recently, graph neural networks (GNNs) opened new possibilities for QP. Some promising empirical studies of applying GNNs for QP tasks show that GNNs can capture key characteristics of an optimization instance and provide adaptive guidance accordingly to crucial configurations during the solving process, or directly provide an approximate solution. Despite notable empirical observations, theoretical foundations are still lacking. In this work, we investigate the expressive or representative power of GNNs, a crucial aspect of neural network theory, specifically in the context of QP tasks, with both continuous and mixed-integer settings. We prove the existence of message-passing GNNs that can reliably represent key properties of quadratic programs, including feasibility, optimal objective value, and optimal solution. Our theory is validated by numerical results.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-09
# RATT:コヒーレントかつ正しいLLM推論のための思考構造

RATT: A Thought Structure for Coherent and Correct LLM Reasoning ( http://arxiv.org/abs/2406.02746v2 )

ライセンス: Link先を確認
Jinghan Zhang, Xiting Wang, Weijieying Ren, Lu Jiang, Dongjie Wang, Kunpeng Liu, (参考訳) 大きな言語モデル(LLM)は思考構造から実質的な推論と意思決定能力を得る。 しかし、思考の樹」や「検索された思考」のような既存の手法は、事実知識の局所的検索が不十分で、戦略のグローバルな選択が不十分なため、複雑なタスクでは不足することが多い。 これらの制限は、これらの手法が事実の精度と包括的な論理最適化を効果的にバランスさせることを困難にしている。 これらの制約に対処するため,思考過程の各段階における論理的健全性と事実的正当性を両立する新しい思考構造であるRetrieval Augmented Thought Tree(RATT)を導入する。 具体的には、思考枝の各点で、RATTは、複数の潜在的な推論ステップを探索し、評価するための計画と検討を行い、検索・拡張生成(RAG)の事実チェック能力とLLMの全体的な戦略を評価する能力を統合する。 この事実知識と戦略的実現性の組み合わせにより、RATTは思考木構造を調整・統合し、探索空間内で最も有望な枝を探索する。 この思考構造は、論理的推論におけるモデルの一貫性と意思決定効率を大幅に向上させ、思考構造に基づく信頼性の高い推論と決定を生成するLLMの能力の限界を増大させる。 様々な種類のタスクに関する幅広い実験により、RATT構造が既存の手法を事実的正当性と論理的整合性で著しく上回っていることが示されている。

Large Language Models (LLMs) gain substantial reasoning and decision-making capabilities from thought structures. However, existing methods such as Tree of Thought and Retrieval Augmented Thoughts often fall short in complex tasks due to the limitations of insufficient local retrieval of factual knowledge and inadequate global selection of strategies. These limitations make it challenging for these methods to balance factual accuracy and comprehensive logical optimization effectively. To address these limitations, we introduce the Retrieval Augmented Thought Tree (RATT), a novel thought structure that considers both overall logical soundness and factual correctness at each step of the thinking process. Specifically, at every point of a thought branch, RATT performs planning and lookahead to explore and evaluate multiple potential reasoning steps, and integrate the fact-checking ability of Retrieval-Augmented Generation (RAG) with LLM's ability to assess overall strategy. Through this combination of factual knowledge and strategic feasibility, the RATT adjusts and integrates the thought tree structure to search for the most promising branches within the search space. This thought structure significantly enhances the model's coherence in logical inference and efficiency in decision-making, and thus increases the limit of the capacity of LLM to generate reliable inferences and decisions based on thought structures. A broad range of experiments on different types of tasks showcases that the RATT structure significantly outperforms existing methods in factual correctness and logical coherence.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-09
# 言語モデルでは知識追跡が可能:言語モデルと知識追跡タスクを統合するシンプルだが効果的な方法

Language Model Can Do Knowledge Tracing: Simple but Effective Method to Integrate Language Model and Knowledge Tracing Task ( http://arxiv.org/abs/2406.02893v2 )

ライセンス: Link先を確認
Unggi Lee, Jiyeong Bae, Dohee Kim, Sookbun Lee, Jaekwon Park, Taekyung Ahn, Gunho Lee, Damji Stratton, Hyeoncheol Kim, (参考訳) KT(Knowledge Tracing)は、学生の知識を時間とともにモデリングするオンライン学習において重要なタスクである。 数列をデータとして依存するディープラーニングベースのKTモデルの成功にもかかわらず、既存のアプローチのほとんどは、質問や概念のテキストのリッチなセマンティック情報を活用することができない。 本稿では、事前学習された言語モデル(PLM)とKTメソッドを統合する新しいフレームワークである言語モデルに基づく知識追跡(LKT)を提案する。 セマンティック表現をキャプチャするために言語モデルのパワーを活用することで、LKTはテキスト情報を効果的に取り入れ、大規模なベンチマークデータセットで以前のKTモデルよりも大幅に優れている。 さらに,PLMが獲得した意味的知識を活用することで,LKTがKTのコールドスタート問題に効果的に対処できることを実証した。 LKTの解釈性は、テキストリッチなデータを使用するため、従来のKTモデルと比較して向上している。 そこで我々は,局所的解釈可能なモデルに依存しない説明手法と注意点の分析を行い,モデル性能をさらに解釈した。 我々の研究は、PLMとKTの統合の可能性を強調し、KTドメインにおける今後の研究の道を開くものである。

Knowledge Tracing (KT) is a critical task in online learning for modeling student knowledge over time. Despite the success of deep learning-based KT models, which rely on sequences of numbers as data, most existing approaches fail to leverage the rich semantic information in the text of questions and concepts. This paper proposes Language model-based Knowledge Tracing (LKT), a novel framework that integrates pre-trained language models (PLMs) with KT methods. By leveraging the power of language models to capture semantic representations, LKT effectively incorporates textual information and significantly outperforms previous KT models on large benchmark datasets. Moreover, we demonstrate that LKT can effectively address the cold-start problem in KT by leveraging the semantic knowledge captured by PLMs. Interpretability of LKT is enhanced compared to traditional KT models due to its use of text-rich data. We conducted the local interpretable model-agnostic explanation technique and analysis of attention scores to interpret the model performance further. Our work highlights the potential of integrating PLMs with KT and paves the way for future research in KT domain.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-09
# 一般音源追跡:実強調とフェイク分散戦略による新しいオーディオディープフェイクアルゴリズムの検出

Generalized Source Tracing: Detecting Novel Audio Deepfake Algorithm with Real Emphasis and Fake Dispersion Strategy ( http://arxiv.org/abs/2406.03240v2 )

ライセンス: Link先を確認
Yuankun Xie, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Xiaopeng Wang, Haonnan Cheng, Long Ye, Jianhua Tao, (参考訳) ディープフェイク音声の普及に伴い、その属性を調査する必要がある。 現在のソーストレース手法は、ID(In-distribution)カテゴリを効果的に識別することができる。 しかし、ディープフェイクアルゴリズムの急速な進化は、アウト・オブ・ディストリビューション(OOD)の新規ディープフェイクアルゴリズムの正確な同定において重要な課題となっている。 本稿では,音声ディープフェイク音声認識のためのReal Emphasis and Fake Dispersion(REFD)戦略を提案する。 OOD検出を効果的に行うために、我々はまず現在のポストホックOOD法を探索し、特徴とロジットのスコアの類似性を考慮して新しいディープフェイクアルゴリズムを識別する新しいOOD手法であるNSDを提案する。 REFDはAudio Deepfake Detection Challenge 2023 Track3で86.83%のF1スコアを達成した。

With the proliferation of deepfake audio, there is an urgent need to investigate their attribution. Current source tracing methods can effectively distinguish in-distribution (ID) categories. However, the rapid evolution of deepfake algorithms poses a critical challenge in the accurate identification of out-of-distribution (OOD) novel deepfake algorithms. In this paper, we propose Real Emphasis and Fake Dispersion (REFD) strategy for audio deepfake algorithm recognition, demonstrating its effectiveness in discriminating ID samples while identifying OOD samples. For effective OOD detection, we first explore current post-hoc OOD methods and propose NSD, a novel OOD approach in identifying novel deepfake algorithms through the similarity consideration of both feature and logits scores. REFD achieves 86.83% F1-score as a single system in Audio Deepfake Detection Challenge 2023 Track3, showcasing its state-of-the-art performance.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-09
# 前向きおよび逆PDE問題の解法のための潜在ニューラル演算子

Latent Neural Operator for Solving Forward and Inverse PDE Problems ( http://arxiv.org/abs/2406.03923v2 )

ライセンス: Link先を確認
Tian Wang, Chuang Wang, (参考訳) ニューラルネットワークは、観測されたサンプルの入力シーケンスから予測値へのマップを学習する明示的な方程式を知らずに、データからPDE問題を効果的に解く。 現存するほとんどの研究は、元の幾何学空間でモデルを構築し、サンプル点の数が大きければ高い計算コストをもたらす。 本稿では、潜時空間におけるPDEを解く潜時ニューラルネットワーク(LNO)を提案する。 具体的には、まず幾何学空間から潜在空間へ表現を変換し、次に潜在空間の演算子を学習し、最後に逆PhCA写像を介して実世界の幾何学空間を復元する物理クロスアテンション(PhCA)を提案する。 我々のモデルは、トレーニングセットで定義された位置に限定されない任意の位置で値をデコードできる柔軟性を保持しており、それゆえ、特に逆問題に有用な補間および補間処理を自然に行うことができる。 さらに,提案したLNOは予測精度と計算効率の両方を改善した。 実験によると、LNOはGPUメモリを50%削減し、トレーニングを1.8回スピードアップし、6つの前処理のベンチマークのうち4つと逆処理のベンチマークで最先端の精度に達する。

Neural operators effectively solve PDE problems from data without knowing the explicit equations, which learn the map from the input sequences of observed samples to the predicted values. Most existed works build the model in the original geometric space, leading to high computational costs when the number of sample points is large. We present the Latent Neural Operator (LNO) solving PDEs in the latent space. In particular, we first propose Physics-Cross-Attention (PhCA) transforming representation from the geometric space to the latent space, then learn the operator in the latent space, and finally recover the real-world geometric space via the inverse PhCA map. Our model retains flexibility that can decode values in any position not limited to locations defined in training set, and therefore can naturally perform interpolation and extrapolation tasks particularly useful for inverse problems. Moreover, the proposed LNO improves in both prediction accuracy and computational efficiency. Experiments show that LNO reduces the GPU memory by 50%, speeds up training 1.8 times, and reaches state-of-the-art accuracy on four out of six benchmarks for forward problems and a benchmark for inverse problem.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-09