このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241008となっている論文です。

PDF登録状況(公開日: 20241008)

TitleAuthorsAbstract論文公表日・翻訳日
# 拡散確率モデルによる翼流シミュレーションの不確実性を考慮したサロゲートモデル

Uncertainty-aware Surrogate Models for Airfoil Flow Simulations with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.05320v3 )

ライセンス: Link先を確認
Qiang Liu, Nils Thuerey, (参考訳) 乱流シミュレーションの代理モデルとしてニューラルネットワークを活用することは、関心が高まるトピックである。 同時に、代理モデルの予測にシミュレーションの本質的な不確かさを具現化することは非常に困難である。 本研究は,拡散確率モデル(DDPM)を用いて乱流シミュレーションのための不確実性を考慮した代理モデルを訓練する試みである。 その頻度から, 様々な形状の翼まわりの流れ, レイノルズ数, 攻撃角度のシミュレーションが学習目的として選択される。 その結果,DDPMは解全体の分布を正確に把握でき,その結果,シミュレーションの不確かさを正確に推定できることがわかった。 DDPMの性能は、ベイズニューラルネットワークとヘテロスセダティックモデルという形で、様々なベースラインと比較される。 実験により、DDPMは様々な精度の指標に関して他の手法よりも優れていることが示された。 さらに、パラメータセットを提供するのではなく、不確実性の完全な分布へのアクセスを提供するという利点もある。 そのため、溶液の分布から現実的で詳細なサンプルが得られる。 また,正規拡散モデルと比較して,新たな生成モデルであるフローマッチングの評価を行った。 その結果,拡散モデルに典型的に関連するサンプリング速度の遅い問題に,フローマッチングが対処できることが示唆された。 そのため、生成モデルによる不確実性定量化のための有望な新しいパラダイムを提供する。

Leveraging neural networks as surrogate models for turbulence simulation is a topic of growing interest. At the same time, embodying the inherent uncertainty of simulations in the predictions of surrogate models remains very challenging. The present study makes a first attempt to use denoising diffusion probabilistic models (DDPMs) to train an uncertainty-aware surrogate model for turbulence simulations. Due to its prevalence, the simulation of flows around airfoils with various shapes, Reynolds numbers, and angles of attack is chosen as the learning objective. Our results show that DDPMs can successfully capture the whole distribution of solutions and, as a consequence, accurately estimate the uncertainty of the simulations. The performance of DDPMs is also compared with varying baselines in the form of Bayesian neural networks and heteroscedastic models. Experiments demonstrate that DDPMs outperform the other methods regarding a variety of accuracy metrics. Besides, it offers the advantage of providing access to the complete distributions of uncertainties rather than providing a set of parameters. As such, it can yield realistic and detailed samples from the distribution of solutions. We also evaluate an emerging generative modeling variant, flow matching, in comparison to regular diffusion models. The results demonstrate that flow matching addresses the problem of slow sampling speed typically associated with diffusion models. As such, it offers a promising new paradigm for uncertainty quantification with generative models.
翻訳日:2024-11-09 09:16:50 公開日:2024-10-08
# データ駆動型室内音響モデル -学習遅延線付き微分フィードバック遅延ネットワーク-

Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines ( http://arxiv.org/abs/2404.00082v3 )

ライセンス: Link先を確認
Alessandro Ilic Mezza, Riccardo Giampiccolo, Enzo De Sena, Alberto Bernardini, (参考訳) 過去数十年にわたり、物理環境の室内音響をエミュレートすることを目的とした人工残響アルゴリズムの設計に、広範囲にわたる研究が費やされてきた。 大幅な進歩にもかかわらず、遅延ネットワークモデルの自動パラメータチューニングは未解決の課題である。 本稿では,FDN(Feedback Delay Network)のパラメータを,その出力が測定室のインパルス応答のターゲット属性を描画する新しい手法を提案する。 提案手法は、トレーニング可能な遅延線付き微分可能FDNの実装を伴い、バックプロパゲーションにより、各遅延ネットワークパラメータを同時に学習することができる。 反復最適化プロセスは、エネルギー減衰とエコー密度を考慮した微分可能な項を含む知覚的に動機付けられた時間領域損失関数を最小化する。 実験により,提案手法は所望の音響特性と密に一致できる時間不変周波数非依存FDNを生成し,遺伝的アルゴリズムと解析的FDN設計に基づく既存手法よりも優れていることを示す。

Over the past few decades, extensive research has been devoted to the design of artificial reverberation algorithms aimed at emulating the room acoustics of physical environments. Despite significant advancements, automatic parameter tuning of delay-network models remains an open challenge. We introduce a novel method for finding the parameters of a Feedback Delay Network (FDN) such that its output renders target attributes of a measured room impulse response. The proposed approach involves the implementation of a differentiable FDN with trainable delay lines, which, for the first time, allows us to simultaneously learn each and every delay-network parameter via backpropagation. The iterative optimization process seeks to minimize a perceptually-motivated time-domain loss function incorporating differentiable terms accounting for energy decay and echo density. Through experimental validation, we show that the proposed method yields time-invariant frequency-independent FDNs capable of closely matching the desired acoustical characteristics, and outperforms existing methods based on genetic algorithms and analytical FDN design.
翻訳日:2024-11-09 03:37:09 公開日:2024-10-08
# SciKnowEval:大規模言語モデルの多段階科学的知識の評価

SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models ( http://arxiv.org/abs/2406.09098v2 )

ライセンス: Link先を確認
Kehua Feng, Keyan Ding, Weijie Wang, Xiang Zhuang, Zeyuan Wang, Ming Qin, Yu Zhao, Jianhua Yao, Qiang Zhang, Huajun Chen, (参考訳) 大規模言語モデル (LLM) は科学研究で注目されているが、科学的知識の理解と習得の能力を評価するための総合的なベンチマークが欠如している。 SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの段階の科学的知識を体系的に評価する新しいフレームワークである。 これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。 具体的には, 生物学, 化学, 物理, 材料科学の分野において, 70Kの多段階の科学的問題と解を含む大規模評価データセットを構築した。 このデータセットを活用することで、ゼロショットと少数ショットのプロンプト戦略を使用して、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークします。 その結果,LLMの最先端性能にもかかわらず,特に科学的推論や応用に対処する上で,改善の余地は依然として大きいことが明らかとなった。 我々は,SciKnowEval が科学研究における LLM のベンチマーク標準を確立し,より強力な科学 LLM の開発を促進することを期待する。 データセットとコードはhttps://scimind.ai/sciknoweval.comで公開されている。

Large language models (LLMs) have gained increasing prominence in scientific research, but there is a lack of comprehensive benchmarks to fully evaluate their proficiency in understanding and mastering scientific knowledge. To address this need, we introduce the SciKnowEval benchmark, a novel framework that systematically evaluates LLMs across five progressive levels of scientific knowledge: studying extensively, inquiring earnestly, thinking profoundly, discerning clearly, and practicing assiduously. These levels aim to assess the breadth and depth of scientific knowledge in LLMs, including memory, comprehension, reasoning, discernment, and application. Specifically, we first construct a large-scale evaluation dataset encompassing 70K multi-level scientific problems and solutions in the domains of biology, chemistry, physics, and materials science. By leveraging this dataset, we benchmark 26 advanced open-source and proprietary LLMs using zero-shot and few-shot prompting strategies. The results reveal that despite the state-of-the-art performance of proprietary LLMs, there is still significant room for improvement, particularly in addressing scientific reasoning and applications. We anticipate that SciKnowEval will establish a standard for benchmarking LLMs in science research and promote the development of stronger scientific LLMs. The dataset and code are publicly available at https://scimind.ai/sciknoweval .
翻訳日:2024-11-09 01:33:31 公開日:2024-10-08
# TokenVerse:Transducer-based ASRによる音声とNLPタスクの統合を目指して

TokenVerse: Towards Unifying Speech and NLP Tasks via Transducer-based ASR ( http://arxiv.org/abs/2407.04444v2 )

ライセンス: Link先を確認
Shashi Kumar, Srikanth Madikeri, Juan Zuluaga-Gomez, Iuliia Thorbecke, Esaú Villatoro-Tello, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju, (参考訳) 従来の音声からの会話インテリジェンスでは、音声活動の検出、ダイアリゼーション、転写などのタスクと、セマンティックエンドポイントや名前付きエンティティ認識(NER)といったタスクのための異なるNLPモデルによるその後の処理を含むカスケードパイプラインが使用される。 本稿では,複数のタスクを処理するために設計された単一TransducerベースのモデルであるTokenVerseを紹介する。 これは、ASRモデルのトレーニング中にタスク固有のトークンを参照テキストに統合し、推論を合理化し、別個のNLPモデルの必要性を排除することで実現される。 ASRに加えて、話者変化検出、終端検出、NERという3つの異なるタスクについて実験を行う。 公開およびプライベートデータセットを用いた実験の結果,提案手法は相対的なWERにおいて最大7.7%向上し,個々のタスク性能においてカスケードパイプラインアプローチよりも優れていた。 https://github.com/idiap/tokenverse-unifying-speech-nlp

In traditional conversational intelligence from speech, a cascaded pipeline is used, involving tasks such as voice activity detection, diarization, transcription, and subsequent processing with different NLP models for tasks like semantic endpointing and named entity recognition (NER). Our paper introduces TokenVerse, a single Transducer-based model designed to handle multiple tasks. This is achieved by integrating task-specific tokens into the reference text during ASR model training, streamlining the inference and eliminating the need for separate NLP models. In addition to ASR, we conduct experiments on 3 different tasks: speaker change detection, endpointing, and NER. Our experiments on a public and a private dataset show that the proposed method improves ASR by up to 7.7% in relative WER while outperforming the cascaded pipeline approach in individual task performance. Our code is publicly available: https://github.com/idiap/tokenverse-unifying-speech-nlp
翻訳日:2024-11-08 23:46:45 公開日:2024-10-08
# オンラインサドルポイント問題の近点法

Proximal Point Method for Online Saddle Point Problem ( http://arxiv.org/abs/2407.04591v2 )

ライセンス: Link先を確認
Qing-xin Meng, Jian-wei Liu, (参考訳) 本稿では,2プレイヤの時間変動コンベックス・コンベレーブゲームの連続を含むオンラインサドル点問題に焦点を当てる。 環境の非定常性を考えると、アルゴリズム設計のパフォーマンス指標として双対性ギャップと動的ナッシュ均衡の後悔を採用する。 近位点法には,オンライン近位点法(OPPM),オプティミスティックOPPM(OptOPPM),複数の予測器を備えたオプトOPPMの3種類がある。 各アルゴリズムは、双対性ギャップと動的ナッシュ平衡の後悔の両方に対して上限を保証し、双対性ギャップに対して測定するとほぼ最適となる。 具体的には、定常的なペイオフ関数の列のような特定の良質な環境では、これらのアルゴリズムはほぼ一定の距離境界を維持している。 実験結果はこれらのアルゴリズムの有効性をさらに検証する。 最後に,動的ナッシュ平衡後悔を性能指標として用いた際の潜在的信頼性の懸念について論じる。 技術的な付録とコードはhttps://github.com/qingxin6174/PPM-for-OSPにある。

This paper focuses on the online saddle point problem, which involves a sequence of two-player time-varying convex-concave games. Considering the nonstationarity of the environment, we adopt the duality gap and the dynamic Nash equilibrium regret as performance metrics for algorithm design. We present three variants of the proximal point method: the Online Proximal Point Method (OPPM), the Optimistic OPPM (OptOPPM), and the OptOPPM with multiple predictors. Each algorithm guarantees upper bounds for both the duality gap and dynamic Nash equilibrium regret, achieving near-optimality when measured against the duality gap. Specifically, in certain benign environments, such as sequences of stationary payoff functions, these algorithms maintain a nearly constant metric bound. Experimental results further validate the effectiveness of these algorithms. Lastly, this paper discusses potential reliability concerns associated with using dynamic Nash equilibrium regret as a performance metric. The technical appendix and code can be found at https://github.com/qingxin6174/PPM-for-OSP.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-08
# MMSci: 大学院レベルのマルチディシプリッド・マルチモーダル科学理解のためのデータセット

MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding ( http://arxiv.org/abs/2407.04903v2 )

ライセンス: Link先を確認
Zekun Li, Xianjun Yang, Kyuri Choi, Wanrong Zhu, Ryan Hsieh, HyeonJung Kim, Jin Hyuk Lim, Sungyoung Ji, Byungju Lee, Xifeng Yan, Linda Ruth Petzold, Stephen D. Wilson, Woosang Lim, William Yang Wang, (参考訳) MLLM(Multimodal Large Language Models)の急速な発展により、AI駆動の科学アシスタントはますます実現可能になり、科学的な数字を解釈することが重要な課題となっている。 しかし、既存のデータセットとベンチマークは主に基本的なチャートと限られた科学分野に焦点を当てており、包括的な評価が欠如している。 これを解決するために、72の科学分野にまたがる、ピアレビューされたオープンアクセスなNature Communicationsの記事から、マルチモーダルで多分野のデータセットをキュレートした。 このデータセットには、スキーマ図、シミュレートされたイメージ、マクロ/顕微鏡写真、実験的な可視化(例:西部スロット)などの図が含まれている。 科学的フィギュアキャプションと複数選択質問のベンチマークを開発し、さまざまな設定で6つのプロプライエタリモデルと10以上のオープンソースモデルを評価した。 その結果、これらのタスクの難易度の高さと、モデル間の顕著なパフォーマンスギャップが浮き彫りになった。 多くのオープンソースモデルは偶然にマルチ選択タスクで実行されたが、一部のモデルはプロプライエタリなモデルのパフォーマンスと一致した。 しかし、そのギャップはキャプション作業でより顕著になった。 私たちのデータセットはトレーニングに貴重なリソースも提供しています。 タスク固有のマルチモーダルトレーニングデータを用いてQwen2-VL-2Bモデルを微調整し、その多重選択精度をGPT-4oに匹敵するレベルまで改善した。 本論文と図形データを用いたMLLMの連続事前学習により, 材料生成能力が向上し, 科学的知識の統合の可能性が示された。 データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。

The rapid development of Multimodal Large Language Models (MLLMs) is making AI-driven scientific assistants increasingly feasible, with interpreting scientific figures being a crucial task. However, existing datasets and benchmarks focus mainly on basic charts and limited science subjects, lacking comprehensive evaluations. To address this, we curated a multimodal, multidisciplinary dataset from peer-reviewed, open-access Nature Communications articles, spanning 72 scientific disciplines. This dataset includes figures such as schematic diagrams, simulated images, macroscopic/microscopic photos, and experimental visualizations (e.g., western blots), which often require graduate-level, discipline-specific expertise to interpret. We developed benchmarks for scientific figure captioning and multiple-choice questions, evaluating six proprietary and over ten open-source models across varied settings. The results highlight the high difficulty of these tasks and the significant performance gap among models. While many open-source models performed at chance level on the multiple-choice task, some matched the performance of proprietary models. However, the gap was more pronounced in the captioning task. Our dataset also provide valuable resource for training. Fine-tuning the Qwen2-VL-2B model with our task-specific multimodal training data improved its multiple-choice accuracy to a level comparable to GPT-4o, though captioning remains challenging. Continuous pre-training of MLLMs using our interleaved article and figure data enhanced their material generation capabilities, demonstrating potential for integrating scientific knowledge. The dataset and benchmarks will be released to support further research.
翻訳日:2024-11-08 23:35:45 公開日:2024-10-08
# ダイヤモンド量子センシングにおけるマイクロ波位相ノイズの影響

The impact of microwave phase noise on diamond quantum sensing ( http://arxiv.org/abs/2407.06465v2 )

ライセンス: Link先を確認
Andris Berzins, Maziar Saleh Ziabari, Yaser Silani, Ilja Fescenko, Joshua T. Damron, John F. Barry, Andrey Jarmola, Pauli Kehayias, Bryan A. Richards, Janis Smits, Victor M. Acosta, (参考訳) ダイヤモンド中の窒素空孔(NV)中心の電子スピン沈降の精密光学的測定は、多くの応用の基礎となっている。 フェムトテラ磁力計のような最も感度の高い応用は、サブミリヘルツレベルでのGHzスピン遷移周波数の変化を測定する能力を必要とする。 ここではマイクロ波(MW)位相雑音がNVセンサの応答に与える影響について検討する。 MW波形の位相のゆらぎは、NVスピン状態の望ましくない回転を引き起こす。 これらのゆらぎは光読み出し信号に印字され、残されているものは磁場ノイズと区別できない。 いくつかの商用MW発電機の位相ノイズは、MWキャリア周波数とパルスシーケンスの検出周波数によって変化する実効的なpT s^{1/2}レンジノイズフロアをもたらすことを示す。 データは、MW位相雑音スペクトルと検出プロトコルのフィルタ関数応答を組み込んだ周波数領域モデルにより記述される。 白とランダムウォークの位相ノイズを制御するために、観測されたNV磁気ノイズフロアは、パルスシーケンス長とπパルス数で正確にスケーリングをキャプチャする単純な解析式によって記述される。 MW位相雑音の影響を抑えるためのいくつかの戦略を概説し、グラジオメトリーに基づく10倍の抑制を実現するバージョンを実装した。 本研究は、高感度ダイヤモンド量子センサの追求において重要な課題であり、大きな遷移周波数を持つ他の量子ビット系にも適用可能であることを示す。

Precision optical measurements of the electron-spin precession of nitrogen-vacancy (NV) centers in diamond form the basis of numerous applications. The most sensitivity-demanding applications, such as femtotesla magnetometry, require the ability to measure changes in GHz spin transition frequencies at the sub-millihertz level, corresponding to a fractional resolution of better than 10^{-12}. Here we study the impact of microwave (MW) phase noise on the response of an NV sensor. Fluctuations of the phase of the MW waveform cause undesired rotations of the NV spin state. These fluctuations are imprinted in the optical readout signal and, left unmitigated, are indistinguishable from magnetic field noise. We show that the phase noise of several common commercial MW generators results in an effective pT s^{1/2}-range noise floor that varies with the MW carrier frequency and the detection frequency of the pulse sequence. The data are described by a frequency domain model incorporating the MW phase noise spectrum and the filter-function response of the sensing protocol. For controlled injection of white and random-walk phase noise, the observed NV magnetic noise floor is described by simple analytic expressions that accurately capture the scaling with pulse sequence length and the number of pi pulses. We outline several strategies to suppress the impact of MW phase noise and implement a version, based on gradiometry, that realizes a >10-fold suppression. Our study highlights an important challenge in the pursuit of sensitive diamond quantum sensors and is applicable to other qubit systems with a large transition frequency.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-08
# Occ Flow: 自己監督型3D作業フロー予測

Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction ( http://arxiv.org/abs/2407.07587v3 )

ライセンス: Link先を確認
Yili Liu, Linzhan Mou, Xuan Yu, Chenrui Han, Sitong Mao, Rong Xiong, Yue Wang, (参考訳) 動的環境の正確な認識は、自律運転とロボットシステムの基本課題である。 本稿では, カメラ入力のみを用いて, 3Dアノテーションの必要をなくし, 関節の3D占有率と占有率の予測を行う最初の自己教師型作業であるLet Occ Flowを紹介する。 本手法では,統合されたシーン表現のためのTPVと,特徴集約のための変形可能なアテンション層を利用して,動的オブジェクトの依存関係をキャプチャするための新しいアテンションベース時間融合モジュールと,詳細なボリューム表現のための3D洗練されたモジュールを組み込んだ。 さらに, 動的分解と運動最適化のために, ゼロショット2次元セグメンテーションと光学フローキューを活用することで, 3次元フロー場に微分可能レンダリングを拡張した。 nuScenesとKITTIデータセットに関する大規模な実験は、従来の最先端手法に対する我々のアプローチの競争性能を実証している。 私たちのプロジェクトページはhttps://eliliu2233.github.io/letoccflow/で公開されています。

Accurate perception of the dynamic environment is a fundamental task for autonomous driving and robot systems. This paper introduces Let Occ Flow, the first self-supervised work for joint 3D occupancy and occupancy flow prediction using only camera inputs, eliminating the need for 3D annotations. Utilizing TPV for unified scene representation and deformable attention layers for feature aggregation, our approach incorporates a novel attention-based temporal fusion module to capture dynamic object dependencies, followed by a 3D refine module for fine-gained volumetric representation. Besides, our method extends differentiable rendering to 3D volumetric flow fields, leveraging zero-shot 2D segmentation and optical flow cues for dynamic decomposition and motion optimization. Extensive experiments on nuScenes and KITTI datasets demonstrate the competitive performance of our approach over prior state-of-the-art methods. Our project page is available at https://eliliu2233.github.io/letoccflow/
翻訳日:2024-11-08 22:40:08 公開日:2024-10-08
# 行動モデルとしての生成画像

Generative Image as Action Models ( http://arxiv.org/abs/2407.07875v2 )

ライセンス: Link先を確認
Mohit Shridhar, Yat Long Lo, Stephen James, (参考訳) 画像生成拡散モデルは、画像編集や新しいビュー合成などの新機能を解放するために微調整されている。 ビジュモータ制御のための画像生成モデルも同じようにアンロックできますか? RGB画像のターゲットとして安定拡散を微調整する行動閉鎖剤GENIMAを提案する。 これらの画像は、視覚的目標をジョイントポジションのシーケンスにマッピングするコントローラに送られます。 RLBench 25 と実世界の操作タスク9 について GENIMA について検討した。 画像空間にアクションを持ち上げることで、インターネット事前学習拡散モデルは、特にシーンの摂動に対する堅牢性や新しいオブジェクトへの一般化において、最先端のビズモータアプローチより優れたポリシーを生成することができる。 提案手法は, 奥行き, キーポイント, 動きプランナーなどの先行性に欠けるにもかかわらず, 3次元エージェントと競合する。

Image-generation diffusion models have been fine-tuned to unlock new capabilities such as image-editing and novel view synthesis. Can we similarly unlock image-generation models for visuomotor control? We present GENIMA, a behavior-cloning agent that fine-tunes Stable Diffusion to 'draw joint-actions' as targets on RGB images. These images are fed into a controller that maps the visual targets into a sequence of joint-positions. We study GENIMA on 25 RLBench and 9 real-world manipulation tasks. We find that, by lifting actions into image-space, internet pre-trained diffusion models can generate policies that outperform state-of-the-art visuomotor approaches, especially in robustness to scene perturbations and generalizing to novel objects. Our method is also competitive with 3D agents, despite lacking priors such as depth, keypoints, or motion-planners.
翻訳日:2024-11-08 22:29:09 公開日:2024-10-08
# あなたのモデルは本当に良い数学的推論者なのか?チェックリストによる数学的推論の評価

Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist ( http://arxiv.org/abs/2407.08733v2 )

ライセンス: Link先を確認
Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang, (参考訳) 例外的数学的推論能力は、大きな言語モデル(LLM)のパワーを示す重要な特徴の1つである。 LLMの数学的能力を包括的に定義し評価し、現実のシナリオにおけるユーザエクスペリエンスを反映する方法が重要な問題となっている。 現在のベンチマークは、主に問題解決能力に集中しており、モデルオーバーフィットのかなりのリスクを示し、真の数学的推論能力の正確な測定に失敗している。 本稿では、モデルが本当に問題を理解しているなら、様々なタスクにまたがって堅牢に適用されるべきである、と論じる。 この目的のために,タスクの一般化とロバスト性推論のためのよく設計されたチェックリストであるMathCheckと,チェックリストを効率的に生成する自動ツールを紹介する。 MathCheckには複数の数学的推論タスクとロバストネステストが含まれており、数学的推論能力と振る舞いテストの両方の包括的な評価を容易にする。 MathCheckを利用することで、GSM8k、GeoQA、UniGeo、Geometry3Kなどのベンチマークのアップグレード版として、数学のテキスト推論とマルチモーダル推論能力を評価する。 我々は26LLMと17MLLMを評価するためにMathCheck-GSMとMathCheck-GEOを採用した。 以上の結果から, GPT-4o などのフロンティア LLM はチェックリスト上の様々な能力に優れ続けているが,他のモデルファミリーでは顕著な低下がみられた。 さらなる実験により、従来の数学ベンチマークと比較して、MathCheckは真の数学的能力をよりよく反映し、数学的知性をより線形に表現し、設計をサポートすることが示されている。 MathCheckを使えば、効率的に情報的行動分析を行い、モデルを深く研究することができる。 最後に、チェックリストのパラダイムが、他の推論タスクに容易に拡張できることを示します。

Exceptional mathematical reasoning ability is one of the key features that demonstrate the power of large language models (LLMs). How to comprehensively define and evaluate the mathematical abilities of LLMs, and even reflect the user experience in real-world scenarios, has emerged as a critical issue. Current benchmarks predominantly concentrate on problem-solving capabilities, presenting a substantial risk of model overfitting and fails to accurately measure the genuine mathematical reasoning abilities. In this paper, we argue that if a model really understands a problem, it should be robustly applied across a diverse array of tasks. To this end, we introduce MathCheck, a well-designed checklist for testing task generalization and reasoning robustness, as well as an automatic tool to generate checklists efficiently. MathCheck includes multiple mathematical reasoning tasks and robustness tests to facilitate a comprehensive evaluation of both mathematical reasoning ability and behavior testing. Utilizing MathCheck, we develop MathCheck-GSM and MathCheck-GEO to assess math textual reasoning and multi-modal reasoning abilities, respectively, serving as upgraded versions of benchmarks including GSM8k, GeoQA, UniGeo, and Geometry3K. We adopt MathCheck-GSM and MathCheck-GEO to evaluate 26 LLMs and 17 MLLMs. Our results demonstrate that while frontier LLMs like GPT-4o continue to excel in various abilities on the checklist, many other model families exhibit a significant decline. Further experiments indicate that, compared to traditional math benchmarks, MathCheck better reflects true mathematical abilities and represents mathematical intelligence more linearly, thereby supporting our design. Using MathCheck, we can efficiently conduct informative behavior analysis to deeply investigate models. Finally, we show that our checklist paradigm can easily extend to other reasoning tasks.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-08
# OptiBenchがReSocraticと会談 - 最適化モデリングのためのLLMの測定と改善

OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling ( http://arxiv.org/abs/2407.09887v2 )

ライセンス: Link先を確認
Zhicheng Yang, Yiwei Wang, Yinya Huang, Zhijiang Guo, Wei Shi, Xiongwei Han, Liang Feng, Linqi Song, Xiaodan Liang, Jing Tang, (参考訳) 大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。 応用シナリオにおける現実的な最適化(OPT)問題の解決には、高度な応用数学能力が必要である。 しかし、線形プログラミングを単に解くだけの現在のOPTベンチマークは、複雑な現実的な状況とは程遠い。 本研究では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。 OptiBenchには、グラフデータの有無にかかわらず線形および非線形プログラミングを含む、リッチな最適化問題が含まれており、LLMの問題解決能力を総合的に評価することができる。 我々のベンチマークでは、LLMは正確な数値回答を提供するために、コードソルバを呼び出す必要がある。 さらに、最適化問題に対するデータの不足を軽減し、小規模(例えばLlama-3-8b)のオープンソースLLMとクローズドソースLLM(例えばGPT-4)のギャップを埋めるため、ReSocraticというデータ合成手法を提案する。 質問から回答へと進む一般的なデータ合成方法とは異なり、\ReSocratic はまず、数学的定式化によって形式化された最適化のデモを段階的に合成し、生成したデモを質問に逆変換する。 これに基づいて、ReSocratic-29kデータセットを合成する。 さらに,複数のオープンソースモデル上でReSocratic-29kによる微調整を行う。 実験の結果,ReSocratic-29kはオープンソースモデルの性能を著しく向上させることがわかった。

Large language models (LLMs) have exhibited their problem-solving abilities in mathematical reasoning. Solving realistic optimization (OPT) problems in application scenarios requires advanced and applied mathematics ability. However, current OPT benchmarks that merely solve linear programming are far from complex realistic situations. In this work, we propose OptiBench, a benchmark for End-to-end optimization problem-solving with human-readable inputs and outputs. OptiBench contains rich optimization problems, including linear and nonlinear programming with or without tabular data, which can comprehensively evaluate LLMs' solving ability. In our benchmark, LLMs are required to call a code solver to provide precise numerical answers. Furthermore, to alleviate the data scarcity for optimization problems, and to bridge the gap between open-source LLMs on a small scale (e.g., Llama-3-8b) and closed-source LLMs (e.g., GPT-4), we further propose a data synthesis method namely ReSocratic. Unlike general data synthesis methods that proceed from questions to answers, \ReSocratic first incrementally synthesizes formatted optimization demonstration with mathematical formulations step by step and then back-translates the generated demonstrations into questions. Based on this, we synthesize the ReSocratic-29k dataset. We further conduct supervised fine-tuning with ReSocratic-29k on multiple open-source models. Experimental results show that ReSocratic-29k significantly improves the performance of open-source models.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-08
# OptiBenchがReSocraticと会談 - 最適化モデリングのためのLLMの測定と改善

OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling ( http://arxiv.org/abs/2407.09887v3 )

ライセンス: Link先を確認
Zhicheng Yang, Yiwei Wang, Yinya Huang, Zhijiang Guo, Wei Shi, Xiongwei Han, Liang Feng, Linqi Song, Xiaodan Liang, Jing Tang, (参考訳) 大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。 応用シナリオにおける現実的な最適化(OPT)問題の解決には、高度な応用数学能力が必要である。 しかし、線形プログラミングを単に解くだけの現在のOPTベンチマークは、複雑な現実的な状況とは程遠い。 本研究では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。 OptiBenchには、グラフデータの有無にかかわらず線形および非線形プログラミングを含む、リッチな最適化問題が含まれており、LLMの問題解決能力を総合的に評価することができる。 我々のベンチマークでは、LLMは正確な数値回答を提供するために、コードソルバを呼び出す必要がある。 さらに、最適化問題に対するデータの不足を軽減し、小規模(例えばLlama-3-8b)のオープンソースLLMとクローズドソースLLM(例えばGPT-4)のギャップを埋めるため、ReSocraticというデータ合成手法を提案する。 質問から回答へと進む一般的なデータ合成方法とは異なり、\ReSocratic はまず、数学的定式化によって形式化された最適化のデモを段階的に合成し、生成したデモを質問に逆変換する。 これに基づいて、ReSocratic-29kデータセットを合成する。 さらに,複数のオープンソースモデル上でReSocratic-29kによる微調整を行う。 実験の結果,ReSocratic-29kはオープンソースモデルの性能を著しく向上させることがわかった。

Large language models (LLMs) have exhibited their problem-solving abilities in mathematical reasoning. Solving realistic optimization (OPT) problems in application scenarios requires advanced and applied mathematics ability. However, current OPT benchmarks that merely solve linear programming are far from complex realistic situations. In this work, we propose OptiBench, a benchmark for End-to-end optimization problem-solving with human-readable inputs and outputs. OptiBench contains rich optimization problems, including linear and nonlinear programming with or without tabular data, which can comprehensively evaluate LLMs' solving ability. In our benchmark, LLMs are required to call a code solver to provide precise numerical answers. Furthermore, to alleviate the data scarcity for optimization problems, and to bridge the gap between open-source LLMs on a small scale (e.g., Llama-3-8b) and closed-source LLMs (e.g., GPT-4), we further propose a data synthesis method namely ReSocratic. Unlike general data synthesis methods that proceed from questions to answers, \ReSocratic first incrementally synthesizes formatted optimization demonstration with mathematical formulations step by step and then back-translates the generated demonstrations into questions. Based on this, we synthesize the ReSocratic-29k dataset. We further conduct supervised fine-tuning with ReSocratic-29k on multiple open-source models. Experimental results show that ReSocratic-29k significantly improves the performance of open-source models.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-08
# Think-on-Graph 2.0:知識誘導型検索生成による深層かつ忠実な大規模言語モデル推論

Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation ( http://arxiv.org/abs/2407.10805v4 )

ライセンス: Link先を確認
Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Cehao Yang, Jiaxin Mao, Jian Guo, (参考訳) Retrieval-augmented Generation (RAG)は、知識検索を用いて知識ギャップに対処することで、大規模言語モデル(LLM)を強化した。 しかしながら、既存のRAGアプローチは、取得した情報の深さと完全性を保証するのに失敗することが多い。 本稿では、構造化されていない知識ソースと構造化されていない知識ソースの両方から情報を密に統合して反復的に取得するハイブリッドRAGフレームワークThink-on-Graph 2.0(ToG-2)を提案する。 具体的には、知識グラフ(KG)を活用して、エンティティを介してドキュメントを接続し、深い知識を導いたコンテキストの検索を容易にする。 同時に、ドキュメントをエンティティコンテキストとして使用して、正確で効率的なグラフ検索を可能にする。 ToG-2は、グラフ検索とコンテキスト検索の交互に、質問に関連する深い手がかりを検索し、LCMが正確な回答を生成できるようにする。 ToG-2は、文脈検索とグラフ検索を緊密に統合し、文脈に基づいて信頼性の高いグラフ検索を可能にしながら、KGによるコンテキスト検索を強化し、(2)コンテキストとKGを統合する反復的知識検索プロセスを通じて、LLMの深い忠実な推論を実現し、(3)ToG-2は、プラグアンドプレイソリューションとして、様々なLCMとトレーニングフリーで互換性がある。 GPT-3.5を用いた7つの知識集約データセットのうち6つにおいて、ToG-2は最先端(SOTA)のパフォーマンスを達成し、より小さなモデル(例えば、LAMA-2-13B)の性能をGPT-3.5の直接的な推論のレベルまで高めることができる。

Retrieval-augmented generation (RAG) has enhanced large language models (LLMs) by using knowledge retrieval to address knowledge gaps. However, existing RAG approaches often fail to ensure the depth and completeness of the information retrieved, which is essential for complex reasoning tasks. In this work, we present Think-on-Graph 2.0 (ToG-2), a hybrid RAG framework that iteratively retrieves information from both unstructured and structured knowledge sources in a tightly integrated manner. Specifically, ToG-2 leverages knowledge graphs (KGs) to connect documents via entities, facilitating deep and knowledge-guided context retrieval. Simultaneously, it uses documents as entity contexts to enable precise and efficient graph retrieval. ToG-2 alternates between graph retrieval and context retrieval to search for in-depth clues relevant to the question, enabling LLMs to generate accurate answers. We conduct a series of experiments to demonstrate the following advantages of ToG-2: (1) ToG-2 tightly integrates context retrieval and graph retrieval, enhancing context retrieval through the KG while enabling reliable graph retrieval based on contexts; (2) it achieves deep and faithful reasoning in LLMs through an iterative knowledge retrieval process that integrates contexts and the KG; and (3) ToG-2 is training-free and compatible with various LLMs as a plug-and-play solution. Extensive experiments show that ToG-2 achieves state-of-the-art (SOTA) performance on 6 out of 7 knowledge-intensive datasets with GPT-3.5, and can elevate the performance of smaller models (e.g., LLAMA-2-13B) to the level of GPT-3.5's direct reasoning.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-08
# Think-on-Graph 2.0:知識誘導型検索生成による深層かつ忠実な大規模言語モデル推論

Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation ( http://arxiv.org/abs/2407.10805v5 )

ライセンス: Link先を確認
Shengjie Ma, Chengjin Xu, Xuhui Jiang, Muzhi Li, Huaren Qu, Cehao Yang, Jiaxin Mao, Jian Guo, (参考訳) Retrieval-augmented Generation (RAG)は、知識検索を用いて知識ギャップに対処することで、大規模言語モデル(LLM)を強化した。 しかしながら、既存のRAGアプローチは、取得した情報の深さと完全性を保証するのに失敗することが多い。 本稿では、構造化されていない知識ソースと構造化されていない知識ソースの両方から情報を密に統合して反復的に取得するハイブリッドRAGフレームワークThink-on-Graph 2.0(ToG-2)を提案する。 具体的には、知識グラフ(KG)を活用して、エンティティを介してドキュメントを接続し、深い知識を導いたコンテキストの検索を容易にする。 同時に、ドキュメントをエンティティコンテキストとして使用して、正確で効率的なグラフ検索を可能にする。 ToG-2は、グラフ検索とコンテキスト検索の交互に、質問に関連する深い手がかりを検索し、LCMが正確な回答を生成できるようにする。 ToG-2は、文脈検索とグラフ検索を緊密に統合し、文脈に基づいて信頼性の高いグラフ検索を可能にしながら、KGによるコンテキスト検索を強化し、(2)コンテキストとKGを統合する反復的知識検索プロセスを通じて、LLMの深い忠実な推論を実現し、(3)ToG-2は、プラグアンドプレイソリューションとして、様々なLCMとトレーニングフリーで互換性がある。 GPT-3.5を用いた7つの知識集約データセットのうち6つにおいて、ToG-2は最先端(SOTA)のパフォーマンスを達成し、より小さなモデル(例えば、LAMA-2-13B)の性能をGPT-3.5の直接的な推論のレベルまで高めることができる。

Retrieval-augmented generation (RAG) has enhanced large language models (LLMs) by using knowledge retrieval to address knowledge gaps. However, existing RAG approaches often fail to ensure the depth and completeness of the information retrieved, which is essential for complex reasoning tasks. In this work, we present Think-on-Graph 2.0 (ToG-2), a hybrid RAG framework that iteratively retrieves information from both unstructured and structured knowledge sources in a tightly integrated manner. Specifically, ToG-2 leverages knowledge graphs (KGs) to connect documents via entities, facilitating deep and knowledge-guided context retrieval. Simultaneously, it uses documents as entity contexts to enable precise and efficient graph retrieval. ToG-2 alternates between graph retrieval and context retrieval to search for in-depth clues relevant to the question, enabling LLMs to generate accurate answers. We conduct a series of experiments to demonstrate the following advantages of ToG-2: (1) ToG-2 tightly integrates context retrieval and graph retrieval, enhancing context retrieval through the KG while enabling reliable graph retrieval based on contexts; (2) it achieves deep and faithful reasoning in LLMs through an iterative knowledge retrieval process that integrates contexts and the KG; and (3) ToG-2 is training-free and compatible with various LLMs as a plug-and-play solution. Extensive experiments show that ToG-2 achieves state-of-the-art (SOTA) performance on 6 out of 7 knowledge-intensive datasets with GPT-3.5, and can elevate the performance of smaller models (e.g., LLAMA-2-13B) to the level of GPT-3.5's direct reasoning.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-08
# 小形変圧器の計数:注意層とフィードフォワード層との詳細な相互作用

Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers ( http://arxiv.org/abs/2407.11542v2 )

ライセンス: Link先を確認
Freya Behrens, Luca Biggio, Lenka Zdeborová, (参考訳) 異なるアーキテクチャ設計の選択は、トランスフォーマーが実装し学習できるソリューションの空間にどのように影響しますか? モデルの仮説空間を形成するために、異なるコンポーネントはどのように相互作用するのか? 固定語彙からの入力シーケンスにおける各項目の発生を数えて, ヒストグラム課題の解決に挑戦する場合に, 単純変圧器ブロックが実装できる解を特徴付けることにより, これらの疑問を解明する。 モデルの性能と語彙と埋め込みサイズ,トークン混合機構,フィードフォワードブロックの容量との間には,強い相互依存性があることを明らかにする。 本研究では,小型変圧器が理論的に実装できる2つの異なる計数戦略を特徴付ける。 どちらの戦略の出現も、ハイパーパラメータやコンポーネント間の微妙な相乗効果の影響を強く受けており、注意機構にソフトマックスが組み込まれているような、一見小さなアーキテクチャ上の変更に依存している。 ヒストグラムタスクで訓練されたモデルのイントロスペクションにより、実際に両方のメカニズムの形成を検証する。 簡単な設定であっても、モデル設計のわずかなバリエーションは、トランスフォーマーが学習するソリューションに大きな変化をもたらす可能性がある。

How do different architectural design choices influence the space of solutions that a transformer can implement and learn? How do different components interact with each other to shape the model's hypothesis space? We investigate these questions by characterizing the solutions simple transformer blocks can implement when challenged to solve the histogram task -- counting the occurrences of each item in an input sequence from a fixed vocabulary. Despite its apparent simplicity, this task exhibits a rich phenomenology: our analysis reveals a strong inter-dependence between the model's predictive performance and the vocabulary and embedding sizes, the token-mixing mechanism and the capacity of the feed-forward block. In this work, we characterize two different counting strategies that small transformers can implement theoretically: relation-based and inventory-based counting, the latter being less efficient in computation and memory. The emergence of either strategy is heavily influenced by subtle synergies among hyperparameters and components, and depends on seemingly minor architectural tweaks like the inclusion of softmax in the attention mechanism. By introspecting models trained on the histogram task, we verify the formation of both mechanisms in practice. Our findings highlight that even in simple settings, slight variations in model design can cause significant changes to the solutions a transformer learns.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-08
# VC証明書型効率的なTLS 1.3ハンドシェイクプロトコル

An Efficient TLS 1.3 Handshake Protocol with VC Certificate Type ( http://arxiv.org/abs/2407.12536v2 )

ライセンス: Link先を確認
Leonardo Perugini, Andrea Vesco, (参考訳) 本稿では,RFC-8446の完全準拠を維持しつつ,TLS 1.3のセキュリティ機能をすべて保持しつつ,検証認証(VC)の使用を可能にするトランスポート層セキュリティ(TLS)ハンドシェイクプロトコルの設計と実装について述べる。 これまでの作業に対する改善はハンドシェイク設計にある。TLS 1.3ですでに定義されているメッセージのみを使用するようになった。 設計はOpenSSLライブラリの変更を最小限にし、VCや分散ID(Decentralized IDentifier, DID)関連の操作を扱う新しい外部プロバイダに依存しています。 実験結果は、この設計の実現可能性を示し、Public Key Infrastructure (PKI)とX.509証明書に基づく元のソリューションに匹敵する性能を示した。 これらの結果は、大規模モノのインターネット(IoT)システムにおいて、自己主権のアイデンティティを採用するための道を開いた。

The paper presents a step forward in the design and implementation of a Transport Layer Security (TLS) handshake protocol that enables the use of Verifiable Credential (VC) while maintaining full compliance with RFC-8446 and preserving all the security features of TLS 1.3. The improvement over our previous work lies in the handshake design, which now only uses messages already defined for TLS 1.3. The design has an incredibly positive impact on the implementation, as we made minimal changes to the OpenSSL library and relied mostly on a novel external provider to handle VC and Decentralized IDentifier (DID) related operations. The experimental results prove the feasibility of the design and show comparable performance to the original solution based on Public Key Infrastructure (PKI) and X.509 certificates. These results pave the way for the adoption of Self-Sovereign Identity in large-scale Internet of Things (IoT) systems, with a clear benefit in terms of reducing the cost of identity management.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-08
# MetaTool: メタタスク拡張による大規模言語モデルをマスタツールにファシリテート

MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation ( http://arxiv.org/abs/2407.12871v2 )

ライセンス: Link先を確認
Xiaohan Wang, Dian Li, Yilin Zhao, Sinbadliu, Hui Wang, (参考訳) ツールをLLM(Large Language Models)で活用することは、現実世界のアプリケーションにおけるAIエージェントの基盤として不可欠である。 一般的なアプローチでは、デモやエキスパートアノテーションによる微調整など、数発のプロンプトがある。 しかし、単なるコンテキスト内デモでは、複雑なツールやタスクに関する十分な知識をカバーできない可能性がある。 ソリューションパスのトレーニングも、エキスパートアノテーションの高コストと、新しいツールへの一般化によって妨げられます。 一般化可能なツールの使用における中核的な課題は、因果関係や制約といったタスク間で伝達可能なツールの"メタ"や基本的な性質を理解することである。 本稿では,新しいツール学習手法であるMetaToolについて述べる。 提案手法は,一連のメタタスクから派生した自己教師付き拡張手法を取り入れたものである。 これには、ツール実行プロセスにおけるマスクされた要素の予測が含まれる。 自己監督の手順は、ツール理解の監視に役立つ高品質なQAデータをスケーラブルに生成することを可能にする。 タスク指向トレーニングにメタタスクデータを組み込むことで,オープンソースのLCMの性能を大幅に向上させ,ツールベースの計画とチャットのシナリオにおいてChatGPTに匹敵する結果を得る。 大規模な命令チューニングを通じて、MetaToolモデルは、新しいタスクに対する印象的なゼロショットの一般化性を実証する。

Utilizing tools with Large Language Models (LLMs) is essential for grounding AI agents in real-world applications. The prevailing approach involves few-shot prompting with demonstrations or fine-tuning with expert annotations. However, mere in-context demonstrations may fail to cover sufficient knowledge for complex tools and tasks. Training on solution paths is also hindered by the high cost of expert annotations and generalizing to new tools. A core challenge of generalizable tool use lies in understanding the "meta", or fundamental natures of tools that are transferable across tasks, such as causality and constraints. In this paper, we present MetaTool, a novel tool learning methodology designed to generalize across any reusable toolset. Our approach incorporates a self-supervised augmentation technique derived from a series of meta-tasks. This involves predicting masked elements in the tool execution process. The self-supervised procedure enables scalable generation of high-quality QA data, which is handy for supervising tool understanding. By incorporating meta-task data into task-oriented training, our method significantly enhances the performance of open-source LLMs, achieving results comparable to ChatGPT in both tool-based planning and chatting scenarios. Through large-scale instruction tuning, the MetaTool model demonstrates impressive zero-shot generalizability on new tasks.
翻訳日:2024-11-08 20:25:29 公開日:2024-10-08
# 確率的最適制御による決定論的軌道最適化

Deterministic Trajectory Optimization through Probabilistic Optimal Control ( http://arxiv.org/abs/2407.13316v2 )

ライセンス: Link先を確認
Mohammad Mahmoudi Filabadi, Tom Lefebvre, Guillaume Crevecoeur, (参考訳) 本稿では、離散時間決定論的有限水平非線形最適制御問題またはいわゆる軌道最適化問題に適した2つの新しいアルゴリズムを提案する。 どちらのアルゴリズムも確率的最適制御と呼ばれる新しい理論パラダイムにインスパイアされ、最適制御を等価な確率的推論問題として再構成する。 この観点は、期待最大化アルゴリズムを用いてこの問題に対処することができる。 このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの固定点反復が得られることを示す。 現状の不確実性定量化手法を用いて,2つの異なるアルゴリズムによる政策評価手法について検討した。 これらのアルゴリズムは、直接勾配評価を避けるために、ディファレンシャル・ダイナミック・プログラミング・アルゴリズムおよびシグマ・ポイント・メソッドを使用する関連手法と構造的に最も近いものである。 我々の研究の主な利点は、反復に対する探索と搾取のバランスの改善であり、数値安定性の向上と収束の加速につながります。 これらの性質は異なる非線形系で示される。

This article proposes two new algorithms tailored to discrete-time deterministic finite-horizon nonlinear optimal control problems or so-called trajectory optimization problems. Both algorithms are inspired by a novel theoretical paradigm known as probabilistic optimal control, that reformulates optimal control as an equivalent probabilistic inference problem. This perspective allows to address the problem using the Expectation-Maximization algorithm. We show that the application of this algorithm results in a fixed point iteration of probabilistic policies that converge to the deterministic optimal policy. Two strategies for policy evaluation are discussed, using state-of-the-art uncertainty quantification methods resulting into two distinct algorithms. The algorithms are structurally closest related to the differential dynamic programming algorithm and related methods that use sigma-point methods to avoid direct gradient evaluations. The main advantage of our work is an improved balance between exploration and exploitation over the iterations, leading to improved numerical stability and accelerated convergence. These properties are demonstrated on different nonlinear systems.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-08
# CXRイメージングにおけるリフィング結核検出:解釈可能性によるディープニューラルネットワークのバイアス対応

Refining Tuberculosis Detection in CXR Imaging: Addressing Bias in Deep Neural Networks via Interpretability ( http://arxiv.org/abs/2407.14064v2 )

ライセンス: Link先を確認
Özgür Acar Güler, Manuel Günther, André Anjos, (参考訳) 胸部X線画像からの活性結核の自動分類は、特に熟練した専門家が不足する低所得国や中所得国において、命を救う可能性がある。 このようなシステムをトレーニングするためのラベル付きデータが不足していることや、公開されているデータセットのバランスの取れていない性質を考えると、ディープラーニングモデルの信頼性は、たとえテストデータに対して完全な分類精度が得られたとしても、限定的であると論じる。 このようなシステムの信頼性を評価する方法の1つは、モデルが入力画像の同じ領域を医療専門家が予測するために使用することを保証することである。 本稿では、大規模プロキシタスク上でのディープニューラルネットワークの事前トレーニングと、事前トレーニングと微調整の異なるクラスのバランスをとる技術であるMOON(Mixed objective Optimization Network)を用いることにより、ターゲットデータセット上で直接訓練されたモデルと比較して、モデルと専門家間の決定基盤の整合性を改善することができることを示す。 同時に、これらの手法は、テストセット上の受信機動作特性曲線(AUROC)の領域に応じて完全な分類精度を維持し、独立して見えないデータセットの一般化を改善する。 再現性のため、ソースコードをオンラインで公開しています。

Automatic classification of active tuberculosis from chest X-ray images has the potential to save lives, especially in low- and mid-income countries where skilled human experts can be scarce. Given the lack of available labeled data to train such systems and the unbalanced nature of publicly available datasets, we argue that the reliability of deep learning models is limited, even if they can be shown to obtain perfect classification accuracy on the test data. One way of evaluating the reliability of such systems is to ensure that models use the same regions of input images for predictions as medical experts would. In this paper, we show that pre-training a deep neural network on a large-scale proxy task, as well as using mixed objective optimization network (MOON), a technique to balance different classes during pre-training and fine-tuning, can improve the alignment of decision foundations between models and experts, as compared to a model directly trained on the target dataset. At the same time, these approaches keep perfect classification accuracy according to the area under the receiver operating characteristic curve (AUROC) on the test set, and improve generalization on an independent, unseen dataset. For the purpose of reproducibility, our source code is made available online.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-08
# MIBench: 複数の画像上でのマルチモーダル大言語モデルの評価

MIBench: Evaluating Multimodal Large Language Models over Multiple Images ( http://arxiv.org/abs/2407.15272v2 )

ライセンス: Link先を確認
Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu, (参考訳) LLMの力に基づいて構築された多数のマルチモーダル大規模言語モデル(MLLM)は、近年、様々な視覚言語タスクにおいて顕著なパフォーマンスを達成している。 しかし、既存のMLLMやベンチマークのほとんどはシングルイメージの入力シナリオに重点を置いており、現実的な複数の画像を扱う際にMLLMのパフォーマンスが過小評価されている。 いくつかのベンチマークでは複数の画像を考慮しているが、評価の寸法やサンプルは非常に限られている。 本稿では,マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価するベンチマークMIBenchを提案する。 具体的には、MII(Multi-image instruction)、MKS(Multi-modal Knowledge-seeking)、MIC(Multi-modal in-context Learning)の3つのシナリオに分類し、合計で13のタスクを13のアノテーション付きサンプルで構成する。 データ構築中、MII と MKS は、手動のアノテーションから正しいオプションを抽出し、難解なインタプリタを作成し、複数の選択質問を得る。 MICでは、4つのサブタスクを設定し、元のデータセットをテキスト内学習形式に変換する。 提案するMIBench上で,複数のオープンソースおよびクローズドソースMLLMを評価した。 その結果、現在のモデルは単一画像タスクでは優れているが、細粒度知覚やマルチ画像推論、コンテキスト内学習能力など、複数画像入力に直面する場合の重大な欠点が明らかとなった。 MIBenchの注釈付きデータはhttps://huggingface.co/datasets/StarBottle/MIBenchで確認できる。

Built on the power of LLMs, numerous multimodal large language models (MLLMs) have recently achieved remarkable performance on various vision-language tasks. However, most existing MLLMs and benchmarks primarily focus on single-image input scenarios, leaving the performance of MLLMs when handling realistic multiple images underexplored. Although a few benchmarks consider multiple images, their evaluation dimensions and samples are very limited. In this paper, we propose a new benchmark MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in multi-image scenarios. Specifically, MIBench categorizes the multi-image abilities into three scenarios: multi-image instruction (MII), multimodal knowledge-seeking (MKS) and multimodal in-context learning (MIC), and constructs 13 tasks with a total of 13K annotated samples. During data construction, for MII and MKS, we extract correct options from manual annotations and create challenging distractors to obtain multiple-choice questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and transform the original datasets into in-context learning formats. We evaluate several open-source and closed-source MLLMs on the proposed MIBench. The results reveal that although current models excel in single-image tasks, they exhibit significant shortcomings when faced with multi-image inputs, such as limited fine-grained perception, multi-image reasoning and in-context learning abilities. The annotated data of MIBench is available at https://huggingface.co/datasets/StarBottle/MIBench.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-08
# テンソルネットワーク強化動的多産物式

Tensor Network enhanced Dynamic Multiproduct Formulas ( http://arxiv.org/abs/2407.17405v3 )

ライセンス: Link先を確認
Niall F. Robertson, Bibek Pokharel, Bryce Fuller, Eric Switzer, Oles Shtanko, Mirko Amico, Adam Byrne, Andrea D'Urbano, Salome Hayes-Shuptar, Albert Akhriev, Nathan Keenan, Sergey Bravyi, Sergiy Zhuk, (参考訳) テンソルネットワークと量子計算は、量子多体系のシミュレーションの最も強力なツールの1つである。 これらを競合するアプローチとして見るのではなく、ここではこれらの2つの手法がどのように機能するかを考察する。 本稿では,テンソルネットワークと量子計算を組み合わせた新しいアルゴリズムを提案する。 提案アルゴリズムは,Trotterの積公式を線形に結合してアルゴリズム誤差を低減する手法である多積式 (MPF) に基づいている。 我々のアルゴリズムは、量子コンピュータを用いて期待値とテンソルネットワークを計算し、線形結合で使用される係数を計算する。 我々は,このアルゴリズムの詳細な誤差解析を行い,IBMの量子コンピュータ2つを用いて1次元量子シミュレーション問題に対して,$ibm\_torino$と$ibm\_kyiv$のフルワークフローを示す。

Tensor networks and quantum computation are two of the most powerful tools for the simulation of quantum many-body systems. Rather than viewing them as competing approaches, here we consider how these two methods can work in tandem. We introduce a novel algorithm that combines tensor networks and quantum computation to produce results that are more accurate than what could be achieved by either method used in isolation. Our algorithm is based on multiproduct formulas (MPF) - a technique that linearly combines Trotter product formulas to reduce algorithmic error. Our algorithm uses a quantum computer to calculate the expectation values and tensor networks to calculate the coefficients used in the linear combination. We present a detailed error analysis of the algorithm and demonstrate the full workflow on a one-dimensional quantum simulation problem on $50$ qubits using two IBM quantum computers: $ibm\_torino$ and $ibm\_kyiv$.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-08
# 悪天候下における不確かさの定量化のための短期太陽光発電予測モデル

Short-Term Photovoltaic Forecasting Model for Qualifying Uncertainty during Hazy Weather ( http://arxiv.org/abs/2407.19663v2 )

ライセンス: Link先を確認
Xuan Yang, Yunxuan Dong, Lina Yang, Thomas Wu, (参考訳) 太陽エネルギーは最も有望な再生可能エネルギー資源の1つである。 太陽光発電の予測は、太陽光発電の浸透を増大させる重要な方法である。 しかし、特に悪天候時に太陽光発電の不確実性を評価することの難しさは、予測を困難にしている。 本稿では,この問題に対処する新しいモデルを提案する。 本稿では,クラスタリングとアテンション機構を併用して計算コストの削減と予測精度の向上を図るとともに,湿潤な天候下での不確実性を評価するための改良されたエントロピーを提案する。 ハイパーパラメータは最適化アルゴリズムを用いて調整された。 気象に関する2つのデータセット実験により,既存モデルと比較して予測精度が有意に向上したことが示された。

Solar energy is one of the most promising renewable energy resources. Forecasting photovoltaic power generation is an important way to increase photovoltaic penetration. However, the difficulty in qualifying the uncertainty of PV power generation, especially during hazy weather, makes forecasting challenging. This paper proposes a novel model to address the issue. We introduce a modified entropy to qualify uncertainty during hazy weather while clustering and attention mechanisms are employed to reduce computational costs and enhance forecasting accuracy, respectively. Hyperparameters were adjusted using an optimization algorithm. Experiments on two datasets related to hazy weather demonstrate that our model significantly improves forecasting accuracy compared to existing models.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-08
# テキストと視覚のベンチマークはビジュアル化の実使用をテストするか?

Do Text-to-Vis Benchmarks Test Real Use of Visualisations? ( http://arxiv.org/abs/2407.19726v4 )

ライセンス: Link先を確認
Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld, (参考訳) 大規模な言語モデルは、単純なユーザリクエストに応答して、視覚化のためのコードを生成することができる。 これは有用な応用であり、データプロットが言語の基礎を提供するため、NLP研究にとって魅力的なものである。 しかし、ベンチマークは比較的少なく、存在するものはユーザーが実際に何をしているかを表すものではないかもしれない。 本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。 その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。 1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。 これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。 これらの観察は、将来のデータ生成をガイドし、どの機能がユーザにとって真に重要なのかを強調します。

Large language models are able to generate code for visualisations in response to simple user requests. This is a useful application and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and those that exist may not be representative of what users do in practice. This paper investigates whether benchmarks reflect real-world use through an empirical study comparing benchmark datasets with code from public repositories. Our findings reveal a substantial gap, with evaluations not testing the same distribution of chart types, attributes, and actions as real-world examples. One dataset is representative, but requires extensive modification to become a practical end-to-end benchmark. This shows that new benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-08
# マルチタスクフォトニック貯留層計算:シリコンマイクロリング共振器を用いた並列計算のための波長分割多重化

Multi-task Photonic Reservoir Computing: Wavelength Division Multiplexing for Parallel Computing with a Silicon Microring Resonator ( http://arxiv.org/abs/2407.21189v2 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar, Francesco Da Ros, (参考訳) 今日では、より強力なコンピューティングリソースに対する需要がますます高まっているため、代替の先進的なコンピューティングパラダイムは広範な調査を受けている。 従来のフォン・ノイマン建築から逸脱するための重要な努力がなされている。 インメモリコンピューティングは、メモリとコンピュータプロセッサの間の悪名高いボトルネックに対する解決策として、電子工学の分野で登場し、データの効率的なスループットを低下させている。 フォトニクスにおいて、新しいスキームは単一のデバイスでコンピュータプロセッサとメモリをコロケーションしようとする。 Photonicsは、空間的および時間的だけでなく、周波数的にも、波長的にもデータの多重化の柔軟性を提供し、並列コンピューティングに非常に適している。 本稿では,1枚のフォトニックチップにおいて,4つの独立タスクを同時に解くために,時間と波長分割多重化(WDM)を用いることを数値的に示す。 このシステムはマイクロリング共振器(MRR)に基づく時間遅延貯水池計算(TDRC)である。 対処されたタスクは、時系列予測、波形信号分類、無線チャネル等化、レーダ信号予測など、さまざまな応用をカバーしている。 このシステムは、同じタスクの最大10インスタンスの同時計算でもテストされており、優れた性能を示している。 システムのフットプリントは、研究されたニューラルネットワークスキームのニューロンとして機能するノードの時間分割多重化を用いて削減される。 WDMは波長チャネルの並列化に使われ、それぞれが単一のタスクに対処する。 それぞれの光チャネルの入力電力と周波数を調整することで、単一タスク操作に焦点を当てた最先端のレポートに引用されたタスクに匹敵するパフォーマンスのレベルを達成することができる。

Nowadays, as the ever-increasing demand for more powerful computing resources continues, alternative advanced computing paradigms are under extensive investigation. Significant effort has been made to deviate from conventional Von Neumann architectures. In-memory computing has emerged in the field of electronics as a possible solution to the infamous bottleneck between memory and computing processors, which reduces the effective throughput of data. In photonics, novel schemes attempt to collocate the computing processor and memory in a single device. Photonics offers the flexibility of multiplexing streams of data not only spatially and in time, but also in frequency or, equivalently, in wavelength, which makes it highly suitable for parallel computing. Here, we numerically show the use of time and wavelength division multiplexing (WDM) to solve four independent tasks at the same time in a single photonic chip, serving as a proof of concept for our proposal. The system is a time-delay reservoir computing (TDRC) based on a microring resonator (MRR). The addressed tasks cover different applications: Time-series prediction, waveform signal classification, wireless channel equalization, and radar signal prediction. The system is also tested for simultaneous computing of up to 10 instances of the same task, exhibiting excellent performance. The footprint of the system is reduced by using time-division multiplexing of the nodes that act as the neurons of the studied neural network scheme. WDM is used for the parallelization of wavelength channels, each addressing a single task. By adjusting the input power and frequency of each optical channel, we can achieve levels of performance for each of the tasks that are comparable to those quoted in state-of-the-art reports focusing on single-task operation...
翻訳日:2024-11-08 13:51:33 公開日:2024-10-08
# ReLiK: Retrieve and LinK, Fast and accurate Entity Linking and Relation extract on a Academic Budget

ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget ( http://arxiv.org/abs/2408.00103v2 )

ライセンス: Link先を確認
Riccardo Orlando, Pere-Lluis Huguet Cabot, Edoardo Barba, Roberto Navigli, (参考訳) エンティティリンク(EL)と関係抽出(RE)は自然言語処理の基本的なタスクであり、幅広いアプリケーションにおいて重要なコンポーネントとして機能します。 本稿では,ELとREの両方を対象としたRetriever-ReaderアーキテクチャであるReLiKを提案する。 その後、Readerモジュールは、関連する検索されたエンティティやリレーションを識別し、対応するテキストスパンとのアライメントを確立する。 特に,テキストに付随する候補エンティティや関係を組み込んだ革新的な入力表現を提案し,各候補に対してフォワードパスを必要とする従来のRetriever-Readerベースの手法とは対照的に,エンティティをリンクしたり,単一のフォワードパスで関係を抽出したり,事前学習された言語モデルの文脈化機能を完全に活用することを可能にする。 ELとREの定式化は,学術予算のトレーニングと,競合他社と比較して最大40倍の推論速度で,ドメイン内ベンチマークとドメイン外ベンチマークの両方で最先端のパフォーマンスを実現する。 最後に、情報抽出(cIE)やEL + RE(EL + RE)、エンティティとリレーションを同時に抽出する共有リーダ(Shared Reader)を用いることで、新しい最先端技術の設定に、私たちのアーキテクチャをどのようにシームレスに利用することができるかを示す。

Entity Linking (EL) and Relation Extraction (RE) are fundamental tasks in Natural Language Processing, serving as critical components in a wide range of applications. In this paper, we propose ReLiK, a Retriever-Reader architecture for both EL and RE, where, given an input text, the Retriever module undertakes the identification of candidate entities or relations that could potentially appear within the text. Subsequently, the Reader module is tasked to discern the pertinent retrieved entities or relations and establish their alignment with the corresponding textual spans. Notably, we put forward an innovative input representation that incorporates the candidate entities or relations alongside the text, making it possible to link entities or extract relations in a single forward pass and to fully leverage pre-trained language models contextualization capabilities, in contrast with previous Retriever-Reader-based methods, which require a forward pass for each candidate. Our formulation of EL and RE achieves state-of-the-art performance in both in-domain and out-of-domain benchmarks while using academic budget training and with up to 40x inference speed compared to competitors. Finally, we show how our architecture can be used seamlessly for Information Extraction (cIE), i.e. EL + RE, and setting a new state of the art by employing a shared Reader that simultaneously extracts entities and relations.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-08
# 教師なし3次元物体検出のための不確かさを意識したバウンディングボックス

Harnessing Uncertainty-aware Bounding Boxes for Unsupervised 3D Object Detection ( http://arxiv.org/abs/2408.00619v2 )

ライセンス: Link先を確認
Ruiyang Zhang, Hu Zhang, Hang Yu, Zhedong Zheng, (参考訳) 教師なしの3Dオブジェクト検出は、LiDARポイントのようなラベル付けされていない生データから興味のあるオブジェクトを識別することを目的としている。 最近のアプローチでは、モデルトレーニングを初期化するためにクラスタリングアルゴリズムから擬似3Dバウンディングボックス(3D bbox)を採用するのが一般的である。 しかし、疑似ボックスは必然的にノイズを含み、そのような不正確さは最終的なモデルに蓄積され、性能を損なう。 そこで, 不正確な擬似ボックスの負の影響を軽減するために, UA3Dと呼ばれる非教師なし3次元物体検出のための新しい不確実性認識フレームワークを導入する。 特に,本手法は不確実性推定と不確実性正則化の2段階からなる。 1) 不確実性推定フェーズでは、元の一次検出器と並行して追加の予備検出ブランチを組み込む。 一次検出器と補助検出器の差は、ボックス座標レベルでのきめ細かい不確かさを反映する可能性がある。 2) 評価した不確実性に基づいて, 不確実性正則化により各3次元bbox座標の重みを適応的に調整し, 擬似bbox上でのトレーニングプロセスを精査する。 不確実性の高い擬似bbox座標に対しては、比較的低い損失重みを割り当てる。 大規模な実験により、提案手法はノイズの多い擬似ボックスに対して堅牢であることが確認され、既存のアプローチと比較して、 +6.9% AP$_{BEV}$と +2.5% AP$_{3D}$と +4.1% AP$_{BEV}$と +2.0% AP$_{3D}$がLyftに増加した。

Unsupervised 3D object detection aims to identify objects of interest from unlabeled raw data, such as LiDAR points. Recent approaches usually adopt pseudo 3D bounding boxes (3D bboxes) from clustering algorithm to initialize the model training. However, pseudo bboxes inevitably contain noise, and such inaccuracies accumulate to the final model, compromising the performance. Therefore, in an attempt to mitigate the negative impact of inaccurate pseudo bboxes, we introduce a new uncertainty-aware framework for unsupervised 3D object detection, dubbed UA3D. In particular, our method consists of two phases: uncertainty estimation and uncertainty regularization. (1) In the uncertainty estimation phase, we incorporate an extra auxiliary detection branch alongside the original primary detector. The prediction disparity between the primary and auxiliary detectors could reflect fine-grained uncertainty at the box coordinate level. (2) Based on the assessed uncertainty, we adaptively adjust the weight of every 3D bbox coordinate via uncertainty regularization, refining the training process on pseudo bboxes. For pseudo bbox coordinate with high uncertainty, we assign a relatively low loss weight. Extensive experiments verify that the proposed method is robust against the noisy pseudo bboxes, yielding substantial improvements on nuScenes and Lyft compared to existing approaches, with increases of +6.9% AP$_{BEV}$ and +2.5% AP$_{3D}$ on nuScenes, and +4.1% AP$_{BEV}$ and +2.0% AP$_{3D}$ on Lyft.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-08
# STBLLM: 構造付きバイナリLLMで1ビットバリアを壊す

STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs ( http://arxiv.org/abs/2408.01803v2 )

ライセンス: Link先を確認
Peijie Dong, Lujun Li, Yuedong Zhong, Dayou Du, Ruibo Fan, Yuhan Chen, Zhenheng Tang, Qiang Wang, Wei Xue, Yike Guo, Xiaowen Chu, (参考訳) 本稿では,LLM圧縮のための最初の構造バイナライズ手法を1ビット未満の精度で提案する。 LLMは目覚ましい性能を達成しているが、推論段階におけるメモリバウンドの性質は、リソース制約されたデバイスの採用を妨げる。 双項化による重みを1ビット精度に減らすことは、計算効率を大幅に向上させる。 両値化LLMの重み付けは性能劣化を伴わずにランダムに反転可能であることが観察され,さらなる圧縮の可能性が示唆された。 これを活用するために,我々のSTBLLMでは,重みの構造的双対化を実現するため,N:Mスポーシティ技術を採用している。 具体的には、重みの程度と入力特徴ノルムを考慮し、より正確に重みの重要度を評価するための新しい標準重要度(SI)指標を導入する。 そこで我々は,LLMの異なる層を異なるN:M比で分散させ,圧縮と精度のバランスをとるレイヤワイドアプローチを提案する。 さらに,より重要な重みを減らし,スパース領域,中間領域,および密度領域に異なる量子化スキームを適用し,粒度の細かいグループ化戦略を実装した。 最後に,構造バイナライゼーションをサポートする専用CUDAカーネルを設計する。 我々は,STBLLMの有効性を評価するため,LLaMA-1/2/3,OPTファミリー,Mistralについて広範な実験を行った。 その結果,本手法は他の圧縮バイナライズLLM法よりも優れた性能を示し,メモリ要求を著しく低減した。

In this paper, we present the first structural binarization method for LLM compression to less than 1-bit precision. Although LLMs have achieved remarkable performance, their memory-bound nature during the inference stage hinders the adoption of resource-constrained devices. Reducing weights to 1-bit precision through binarization substantially enhances computational efficiency. We observe that some weights in binarized LLMs can be randomly flipped without significant performance degradation, suggesting the potential for further compression. To exploit this, our STBLLM employs an N:M sparsity technique to achieve structural binarization of the weights. Specifically, we introduce a novel Standardized Importance (SI) metric, which considers weight magnitude and input feature norm to more accurately assess weight significance. Then, we propose a layer-wise approach, allowing different layers of the LLM to be sparsified with varying N:M ratios, thereby balancing compression and accuracy. Furthermore, we implement a fine-grained grouping strategy for less important weights, applying distinct quantization schemes to sparse, intermediate, and dense regions. Finally, we design a specialized CUDA kernel to support structural binarization. We conduct extensive experiments on LLaMA-1/2/3, OPT family, and Mistral to evaluate the effectiveness of STBLLM. The results demonstrate that our approach performs better than other compressed binarization LLM methods while significantly reducing memory requirements.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-08
# 自己イントロスペクティブデコーディング:大規模視覚言語モデルに対する幻覚の緩和

Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models ( http://arxiv.org/abs/2408.02032v2 )

ライセンス: Link先を確認
Fushuo Huo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, Peilin Zhao, (参考訳) 近年、LVLM(Large Vision-Language Models)が急速に進歩してきたが、'hallucination'問題と呼ばれる大きな問題が重大なボトルネックとして浮上し、現実のデプロイメントを妨げている。 既存の手法は、主に2つの観点からこの問題を軽減する: 1つのアプローチは、堅牢なインストラクションチューニング LVLM をキュレートされたデータセットでチューニングしたり、補助的な分析ネットワークを使用したり、追加コストを発生させないような、余分な知識を活用する。 対照的な復号法として知られる別のアプローチは、視覚を手動で妨害したり、生の入力を指示することで幻覚を誘導し、乱された元のLVLMの出力と対比することでそれらを緩和する。 しかし、これらのアプローチは経験的全体論的入力障害と推論コストの2倍に依存する。 これらの問題を回避するために,SID (Self-Introspective Decoding) というシンプルな手法を提案する。 我々の経験的調査により,事前学習したLVLMは,先行する視覚とテキスト(命令と生成の両方)のトークンに基づいて,視覚トークンの重要性を内省的に評価できることがわかった。 我々は,LVLMの初期層の後,重要でない視覚トークンのみを保存し,自動回帰デコード中のテキストインフォームド幻覚を適応的に増幅するCT2S(Context and Text-aware Token Selection)戦略を開発した。 このアプローチは、初期層に吸収されたマルチモーダル知識が、目的のない幻覚ではなく、多モーダルコンテキストを誘導することを保証する。 その後、オリジナルのトークンロジットは増幅された視覚・テキスト関連幻覚を減らし、LVLMを忠実に復号する。 大規模な実験では、SIDは余分な知識と余分な計算負担を伴わずに、様々な指標をまたいだより低いハロシン化と高品質なテキストを生成する。

While Large Vision-Language Models (LVLMs) have rapidly advanced in recent years, the prevalent issue known as the `hallucination' problem has emerged as a significant bottleneck, hindering their real-world deployments. Existing methods mitigate this issue mainly from two perspectives: One approach leverages extra knowledge like robust instruction tuning LVLMs with curated datasets or employing auxiliary analysis networks, which inevitable incur additional costs. Another approach, known as contrastive decoding, induces hallucinations by manually disturbing the vision or instruction raw inputs and mitigates them by contrasting the outputs of the disturbed and original LVLMs. However, these approaches rely on empirical holistic input disturbances and double the inference cost. To avoid these issues, we propose a simple yet effective method named Self-Introspective Decoding (SID). Our empirical investigation reveals that pretrained LVLMs can introspectively assess the importance of vision tokens based on preceding vision and text (both instruction and generated) tokens. We develop the Context and Text-aware Token Selection (CT2S) strategy, which preserves only unimportant vision tokens after early layers of LVLMs to adaptively amplify text-informed hallucination during the auto-regressive decoding. This approach ensures that multimodal knowledge absorbed in the early layers induces multimodal contextual rather than aimless hallucinations. Subsequently, the original token logits subtract the amplified vision-and-text association hallucinations, guiding LVLMs decoding faithfully. Extensive experiments illustrate SID generates less-hallucination and higher-quality texts across various metrics, without extra knowledge and much additional computation burdens.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-08
# 幼児向け音声学習は言語モデルに有効か?

Is Child-Directed Speech Effective Training Data for Language Models? ( http://arxiv.org/abs/2408.03617v2 )

ライセンス: Link先を確認
Steven Y. Feng, Noah D. Goodman, Michael C. Frank, (参考訳) ハイパフォーマンスな言語モデルは典型的には数十億の単語で訓練されるが、人間の子供は、はるかに少ない量のデータを持つ流動的な言語ユーザーになる。 これらの機能は、言語モデリングの目的をどのようにサポートするのか? この問題を調査するために、英語の子供指向音声29万語と新しいマッチングされた合成データセット(TinyDialogues)でGPT-2とRoBERTaモデルをトレーニングし、OpenSubtitles、Wikipedia、およびBabyLMチャレンジからの異種データセットと比較した。 我々は,これらのモデルの構文的および意味的知識を,発達にインスパイアされた評価を用いて評価する。 プレトレーニング実験を通じて、子どものトレーニングデータのグローバルな発達順序や局所的な言論順序が、他のデータセットと比較して高いパフォーマンスをサポートするかどうかを検証した。 データの局所的性質はモデル結果に影響を与えるが、驚くべきことにグローバルプロパティは影響しない。 さらに、子言語の入力は、言語モデルのトレーニングに特有ではない。 これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。

While high-performing language models are typically trained on hundreds of billions of words, human children become fluent language users with a much smaller amount of data. What are the features of the data they receive, and how do these features support language modeling objectives? To investigate this question, we train GPT-2 and RoBERTa models on 29M words of English child-directed speech and a new matched, synthetic dataset (TinyDialogues), comparing to OpenSubtitles, Wikipedia, and a heterogeneous blend of datasets from the BabyLM challenge. We evaluate the syntactic and semantic knowledge of these models using developmentally-inspired evaluations. Through pretraining experiments, we test whether the global developmental ordering or the local discourse ordering of children's training data supports high performance relative to other datasets. The local properties of the data affect model results, but surprisingly, global properties do not. Further, child language input is not uniquely valuable for training language models. These findings support the hypothesis that, rather than proceeding from better data, the child's learning algorithm is substantially more data-efficient than current language modeling techniques.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-08
# CogVideoX:エキスパートトランスフォーマーによるテキストとビデオの拡散モデル

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer ( http://arxiv.org/abs/2408.06072v2 )

ライセンス: Link先を確認
Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang, (参考訳) 拡散変換器をベースとした大規模テキスト・ビデオ生成モデルであるCogVideoXについて,フレームレート16fps,解像度768×1360ピクセルの10秒連続ビデオを生成する。 従来のビデオ生成モデルでは、動きや短い時間しか持たず、テキストをベースとしたコヒーレントな物語を伴うビデオを生成することは困難であった。 これらの問題に対処するためのいくつかの設計を提案する。 まず,空間次元と時間次元の両方で映像を圧縮する3次元変分オートエンコーダ(VAE)を提案し,圧縮率と映像の忠実度を改善する。 第2に,テキスト・ビデオのアライメントを改善するため,両モード間の深い融合を容易にするために,専門家適応型LayerNormを用いたエキスパートトランスフォーマーを提案する。 第3に、プログレッシブトレーニングとマルチレゾリューションフレームパック技術を用いることで、CogVideoXは、大きな動きを特徴とするコヒーレントで長めの異なる形状ビデオを生成することができる。 さらに,様々なデータ前処理戦略とビデオキャプション手法を含む効率的なテキスト-ビデオデータ処理パイプラインを開発し,生成品質とセマンティックアライメントに大きく貢献する。 結果は、CogVideoXが複数のマシンメトリクスと人的評価の両方で最先端のパフォーマンスを実証していることを示している。 3D Causal VAE、ビデオキャプションモデル、CogVideoXのモデルウェイトはhttps://github.com/THUDM/CogVideoで公開されている。

We present CogVideoX, a large-scale text-to-video generation model based on diffusion transformer, which can generate 10-second continuous videos aligned with text prompt, with a frame rate of 16 fps and resolution of 768 * 1360 pixels. Previous video generation models often had limited movement and short durations, and is difficult to generate videos with coherent narratives based on text. We propose several designs to address these issues. First, we propose a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions, to improve both compression rate and video fidelity. Second, to improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. Third, by employing a progressive training and multi-resolution frame pack technique, CogVideoX is adept at producing coherent, long-duration, different shape videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method, greatly contributing to the generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weight of both 3D Causal VAE, Video caption model and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.
翻訳日:2024-11-08 11:38:16 公開日:2024-10-08
# 3D-free meets 3D priors: Pretrained Diffusion Guidance を用いた単一画像からの新たなビュー合成

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance ( http://arxiv.org/abs/2408.06157v2 )

ライセンス: Link先を確認
Taewon Kang, Divya Kothandaraman, Dinesh Manocha, Ming C. Lin, (参考訳) 最近の3次元ビュー合成(NVS)法は、単一対象中心のシーンに限られており、複雑な環境に苦しむ。 トレーニングには広範囲な3Dデータを必要とすることが多く、トレーニング分布を超えた一般化が欠如している。 逆に3Dフリーな手法は、大量の3Dベースのトレーニングデータを必要とせずに、事前訓練された安定した拡散モデルを用いて、複雑なシーンのテキスト制御されたビューを生成することができるが、カメラ制御は不要である。 本稿では,1つの入力画像からカメラ制御視点を生成できる手法を提案する。 本手法は,広範囲なトレーニングや3次元・マルチビューデータなしで複雑で多様なシーンを処理できることに優れる。 広く利用可能な訓練済みのNVSモデルを弱いガイダンスに利用し、この知識を望まれる結果を達成するために3次元のビュー合成アプローチに統合する。 実験により,本手法は定性評価と定量的評価の両方において既存モデルよりも優れており,様々な場面で望まれるカメラアングルで高忠実で一貫した新しいビュー合成を実現する。

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.
翻訳日:2024-11-08 11:38:16 公開日:2024-10-08
# 3D-free meets 3D priors: Pretrained Diffusion Guidance を用いた単一画像からの新たなビュー合成

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance ( http://arxiv.org/abs/2408.06157v3 )

ライセンス: Link先を確認
Taewon Kang, Divya Kothandaraman, Dinesh Manocha, Ming C. Lin, (参考訳) 最近の3次元ビュー合成(NVS)法は、単一対象中心のシーンに限られており、複雑な環境に苦しむ。 トレーニングには広範囲な3Dデータを必要とすることが多く、トレーニング分布を超えた一般化が欠如している。 逆に3Dフリーな手法は、大量の3Dベースのトレーニングデータを必要とせずに、事前訓練された安定した拡散モデルを用いて、複雑なシーンのテキスト制御されたビューを生成することができるが、カメラ制御は不要である。 本稿では,1つの入力画像からカメラ制御視点を生成できる手法を提案する。 本手法は,広範囲なトレーニングや3次元・マルチビューデータなしで複雑で多様なシーンを処理できることに優れる。 広く利用可能な訓練済みのNVSモデルを弱いガイダンスに利用し、この知識を望まれる結果を達成するために3次元のビュー合成アプローチに統合する。 実験により,本手法は定性評価と定量的評価の両方において既存モデルよりも優れており,様々な場面で望まれるカメラアングルで高忠実で一貫した新しいビュー合成を実現する。

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.
翻訳日:2024-11-08 11:38:16 公開日:2024-10-08
# 高速かつフルーガルなテキストグラフ変換器は効果的なリンク予測器である

Fast-and-Frugal Text-Graph Transformers are Effective Link Predictors ( http://arxiv.org/abs/2408.06778v2 )

ライセンス: Link先を確認
Andrei C. Coman, Christos Theodoropoulos, Marie-Francine Moens, James Henderson, (参考訳) リンク予測モデルは、エンティティとリレーションのテキスト記述を取り入れることで、動的グラフに完全に帰納的学習と柔軟性を実現することができる。 テキスト記述とグラフ構造を効果的に統合し,リソース集約型テキストエンコーダへの依存を軽減し,トランスフォーマーベースのアプローチを導入することで,エンティティとその関係に関するリッチな構造化情報を取得するという課題にも対処する。 本稿では,FnF-TG(Fast-and-Frugal Text-Graph)トランスフォーマーの高速化とスケーラビリティを両立させながら,従来の最先端手法よりも優れた性能を実現していることを示す。

Link prediction models can benefit from incorporating textual descriptions of entities and relations, enabling fully inductive learning and flexibility in dynamic graphs. We address the challenge of also capturing rich structured information about the local neighbourhood of entities and their relations, by introducing a Transformer-based approach that effectively integrates textual descriptions with graph structure, reducing the reliance on resource-intensive text encoders. Our experiments on three challenging datasets show that our Fast-and-Frugal Text-Graph (FnF-TG) Transformers achieve superior performance compared to the previous state-of-the-art methods, while maintaining efficiency and scalability.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-08
# ロバストフェデレーション画像分類に向けて:製造における重量選択戦略の実証的研究

Towards Robust Federated Image Classification: An Empirical Study of Weight Selection Strategies in Manufacturing ( http://arxiv.org/abs/2408.10024v3 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler, Martin Ruskowski, (参考訳) フェデレートラーニング(FL)の領域では、特に製造分野において、サーバアグリゲーションのためのクライアントウェイトを選択する戦略が、モデルのパフォーマンスにおいて重要である。 本研究は, 最終エポックウェイト選択 (FEWS) と最適エポックウェイト選択 (OEWS) の2つの方法の比較効果について検討した。 コラボレーションには通常、限られた数のパートナー(2~4人のクライアント)が関与する製造コンテキスト向けに設計されており、当社の研究は、フェデレートされた画像分類タスクに焦点を当てている。 EfficientNet、ResNet、VGGなど、さまざまなニューラルネットワークアーキテクチャを使用して、これらの重み選択戦略がモデル収束性と堅牢性に与える影響を評価する。 本研究の目的は, 通信ラウンド(CR)間でのグローバルFLモデルの性能向上を, FEWS と OEWS で確認することである。 実験分析と厳密な実験を通じて、製造におけるFL実装の最適化に価値ある洞察を提供し、協力的な取り組みが限られた数のクライアントで最も効果的で信頼性の高いモデルを生み出すことを保証する。 本研究から得られた知見は、FLの実践を製造において著しく洗練し、この重要な分野における協調機械学習の効率性と性能を向上させることが期待されている。

In the realm of Federated Learning (FL), particularly within the manufacturing sector, the strategy for selecting client weights for server aggregation is pivotal for model performance. This study investigates the comparative effectiveness of two weight selection strategies: Final Epoch Weight Selection (FEWS) and Optimal Epoch Weight Selection (OEWS). Designed for manufacturing contexts where collaboration typically involves a limited number of partners (two to four clients), our research focuses on federated image classification tasks. We employ various neural network architectures, including EfficientNet, ResNet, and VGG, to assess the impact of these weight selection strategies on model convergence and robustness. Our research aims to determine whether FEWS or OEWS enhances the global FL model's performance across communication rounds (CRs). Through empirical analysis and rigorous experimentation, we seek to provide valuable insights for optimizing FL implementations in manufacturing, ensuring that collaborative efforts yield the most effective and reliable models with a limited number of participating clients. The findings from this study are expected to refine FL practices significantly in manufacturing, thereby enhancing the efficiency and performance of collaborative machine learning endeavors in this vital sector.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-08
# 小型データを用いたソフト制約物理情報ニューラルネットワークによるオシレータの解像特性評価

Characteristic Performance Study on Solving Oscillator ODEs via Soft-constrained Physics-informed Neural Network with Small Data ( http://arxiv.org/abs/2408.11077v4 )

ライセンス: Link先を確認
Kai-liang Lu, Yu-meng Su, Zhuo Bi, Cheng Qiu, Wen-jun Zhang, (参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN),従来のニューラルネットワーク(NN)および従来の数値離散化法を,文献調査と実験的検証を通じて比較した。 我々は,ソフト制約のPINNアプローチに着目し,その数学的枠組みと計算フローを正規DESと部分DDE(ODE/PDE)の解法として定式化した。 動作機構とその精度と効率は、典型的な線形および非線形振動子ODEを解くことによって実験的に検証された。 我々は、PINNのDeepXDEベースの実装が、トレーニングにおいて軽量コードであり、効率的なだけでなく、CPU/GPUプラットフォーム間で柔軟なことを実証した。 PINNは、ODEの非線形性が弱い場合、非常に少数の教師なしのトレーニングデータと少数の教師なしのコロケーションポイントが解を予測するのに十分であり、最小限の場合、それぞれ1階または2階のODEに対して1つまたは2つのトレーニングポイント(初期値)しか必要としない。 また,コロケーションポイントの活用と物理情報の利用により,PINNはトレーニングセットの時間領域外からデータを外挿する能力を有し,特にノイズの多いデータに対して堅牢であり,一般化能力の強化が期待できる。 損失関数項の増加による遅延よりも、データ量の削減とともに得られる利得が、トレーニングを加速する。 ソフト制約されたPINNは、全損失関数に正規化項を追加することにより、物理法則(例えばエネルギーの保存)を容易に課すことができ、この物理法則に従うODEに対する解性能を向上させることができる。 さらに、PINNは固いODEやPDE、その他のDESにも利用でき、デジタルツインズ時代において好ましい触媒になりつつある。

This paper compared physics-informed neural network (PINN), conventional neural network (NN) and traditional numerical discretization methods on solving differential equations (DEs) through literature investigation and experimental validation. We focused on the soft-constrained PINN approach and formalized its mathematical framework and computational flow for solving Ordinary DEs and Partial DEs (ODEs/PDEs). The working mechanism and its accuracy and efficiency were experimentally verified by solving typical linear and non-linear oscillator ODEs. We demonstrate that the DeepXDE-based implementation of PINN is not only light code and efficient in training, but also flexible across CPU/GPU platforms. PINN greatly reduces the need for labeled data: when the nonlinearity of the ODE is weak, a very small amount of supervised training data plus a few unsupervised collocation points are sufficient to predict the solution; in the minimalist case, only one or two training points (with initial values) are needed for first- or second-order ODEs, respectively. We also find that, with the aid of collocation points and the use of physical information, PINN has the ability to extrapolate data outside the time domain of the training set, and especially is robust to noisy data, thus with enhanced generalization capabilities. Training is accelerated when the gains obtained along with the reduction in the amount of data outweigh the delay caused by the increase in the loss function terms. The soft-constrained PINN can easily impose a physical law (e.g., conservation of energy) constraint by adding a regularization term to the total loss function, thus improving the solution performance to ODEs that obey this physical law. Furthermore, PINN can also be used for stiff ODEs, PDEs, and other types of DEs, and is becoming a favorable catalyst for the era of Digital Twins.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-08
# 拡張化学空間被覆のための分子力学力場のデータ駆動パラメトリゼーション

Data-Driven Parametrization of Molecular Mechanics Force Fields for Expansive Chemical Space Coverage ( http://arxiv.org/abs/2408.12817v2 )

ライセンス: Link先を確認
Tianze Zheng, Ailun Wang, Xu Han, Yu Xia, Xingyuan Xu, Jiawei Zhan, Yu Liu, Yang Chen, Zhi Wang, Xiaojie Wu, Sheng Gong, Wen Yan, (参考訳) 力場は、計算薬物発見のための分子動力学シミュレーションにおいて重要な要素である。 分子力学(MM)の制限された機能形式の制約の中で高い精度を達成し、高い計算効率を実現する必要がある。 合成可能な化学空間の急速な拡張により、伝統的なルックアップテーブルアプローチは重大な課題に直面している。 本研究では, 薬物様分子に対するアンバー互換力場であるByteFFを開発するために, 最新のデータ駆動手法を用いてこの問題に対処する。 ByteFFを作成するために,B3LYP-D3(BJ)/DZVP理論において,拡張性と高度に多様な分子データセットを生成した。 このデータセットには、240万の最適化された分子フラグメントジオメトリと解析的なヘッセン行列、および3200万のトーションプロファイルが含まれている。 次に、このデータセットに基づいて、エッジ強化された対称性保持分子グラフニューラルネットワーク(GNN)をトレーニングし、慎重に最適化されたトレーニング戦略を採用した。 本モデルでは, 薬物様分子のすべての結合および非結合MM力場パラメータを, 広い化学空間にわたって同時に予測する。 ByteFFは、様々なベンチマークデータセットで最先端のパフォーマンスを示し、緩和されたジオメトリ、ねじれエネルギープロファイル、コンフォメーションエネルギーと力の予測に優れています。 その例外的な精度と化学空間の広がりにより、ByteFFは、計算薬物発見の複数の段階において貴重なツールとなる。

A force field is a critical component in molecular dynamics simulations for computational drug discovery. It must achieve high accuracy within the constraints of molecular mechanics' (MM) limited functional forms, which offers high computational efficiency. With the rapid expansion of synthetically accessible chemical space, traditional look-up table approaches face significant challenges. In this study, we address this issue using a modern data-driven approach, developing ByteFF, an Amber-compatible force field for drug-like molecules. To create ByteFF, we generated an expansive and highly diverse molecular dataset at the B3LYP-D3(BJ)/DZVP level of theory. This dataset includes 2.4 million optimized molecular fragment geometries with analytical Hessian matrices, along with 3.2 million torsion profiles. We then trained an edge-augmented, symmetry-preserving molecular graph neural network (GNN) on this dataset, employing a carefully optimized training strategy. Our model predicts all bonded and non-bonded MM force field parameters for drug-like molecules simultaneously across a broad chemical space. ByteFF demonstrates state-of-the-art performance on various benchmark datasets, excelling in predicting relaxed geometries, torsional energy profiles, and conformational energies and forces. Its exceptional accuracy and expansive chemical space coverage make ByteFF a valuable tool for multiple stages of computational drug discovery.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-08
# DeepDiveAI: 大規模文献データにおけるAI関連ドキュメントの識別

DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data ( http://arxiv.org/abs/2408.12871v3 )

ライセンス: Link先を確認
Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing, (参考訳) 本稿では,大規模学術文献データベースからAI関連の研究論文を特定するための包括的データセットであるDeepDiveAIを提案する。 データセットは、AI関連の論文と非AI関連の論文を区別するために、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。 モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。 結果として得られたDeepDelveAIデータセットは、1956年から2024年にかけてのDartmouth Conference以来、940万以上のAI関連論文で構成され、トレンド、テーマ開発、さまざまな分野にわたるAI研究の進化を分析する上で重要なリソースを提供する。

This paper presents DeepDiveAI, a comprehensive dataset specifically curated to identify AI-related research papers from a large-scale academic literature database. The dataset was created using an advanced Long Short-Term Memory (LSTM) model trained on a binary classification task to distinguish between AI-related and non-AI-related papers. The model was trained and validated on a vast dataset, achieving high accuracy, precision, recall, and F1-score. The resulting DeepDelveAI dataset comprises over 9.4 million AI-related papers published since Dartmouth Conference, from 1956 to 2024, providing a crucial resource for analyzing trends, thematic developments, and the evolution of AI research across various disciplines.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-08
# スペクトルインフォームドニューラルネットワーク - 効率的かつ低メモリのPINN

Spectral Informed Neural Network: An Efficient and Low-Memory PINN ( http://arxiv.org/abs/2408.16414v2 )

ライセンス: Link先を確認
Tianchi Yu, Yiming Qi, Ivan Oseledets, Shiyi Chen, (参考訳) 物理インフォームドニューラルネットワーク(PINN)による偏微分方程式の解法の研究が進み、科学計算の実際的な要求を満たすためには、より正確で効率的なPINNが必要である。 現在のPINNのボトルネックの1つは、しばしばかなりの計算資源を必要とする自動微分による高次微分の計算である。 本稿では,空間微分の自動微分の除去に焦点をあて,微分演算子を乗法で置き換えるスペクトルベースニューラルネットワークを提案する。 PINNと比較して、我々のアプローチはメモリの削減とトレーニング時間の短縮を必要とする。 スペクトル基底の指数収束により、我々のアプローチはより正確である。 さらに、物理領域とスペクトル領域の異なる状況を扱うために、スペクトル情報を用いてネットワークを訓練する2つの戦略を提供する。 一連の総合実験を通じて,提案したネットワークのメリットを検証した。

With growing investigations into solving partial differential equations by physics-informed neural networks (PINNs), more accurate and efficient PINNs are required to meet the practical demands of scientific computing. One bottleneck of current PINNs is computing the high-order derivatives via automatic differentiation which often necessitates substantial computing resources. In this paper, we focus on removing the automatic differentiation of the spatial derivatives and propose a spectral-based neural network that substitutes the differential operator with a multiplication. Compared to the PINNs, our approach requires lower memory and shorter training time. Thanks to the exponential convergence of the spectral basis, our approach is more accurate. Moreover, to handle the different situations between physics domain and spectral domain, we provide two strategies to train networks by their spectral information. Through a series of comprehensive experiments, We validate the aforementioned merits of our proposed network.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-08
# LongGenBench:Long Context LLMにおけるロングフォーム生成のベンチマーク

LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs ( http://arxiv.org/abs/2409.02076v5 )

ライセンス: Link先を確認
Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee, (参考訳) 大規模言語モデル(LLM)の長期コンテキスト能力を評価する際には、"Needle-in-a-Haystack" (NIAH)、Reducer、Needlebenchなどのベンチマークが一般的に使用される。 これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。 このギャップに対処するため、私たちはLongGenBenchという新しい長文評価ベンチマークを導入しました。 本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。 我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。 これらのモデルはNIAHベンチマークでよく機能するが、LongGenBenchで満足できる性能は示さず、命令に従う一貫性のある長文を生成する能力に懸念を抱いた。 さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。

In evaluating the long-context capabilities of large language models (LLMs), benchmarks such as "Needle-in-a-Haystack" (NIAH), Ruler, and Needlebench are commonly used. While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, LongGenBench, which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the LongGenBench, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-08
# LongGenBench:Long Context LLMにおけるロングフォーム生成のベンチマーク

LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs ( http://arxiv.org/abs/2409.02076v6 )

ライセンス: Link先を確認
Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee, (参考訳) 大規模言語モデル(LLM)の長期コンテキスト能力を評価する際には、"Needle-in-a-Haystack" (NIAH)、Reducer、Needlebenchなどのベンチマークが一般的に使用される。 これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。 このギャップに対処するため、私たちはLongGenBenchという新しい長文評価ベンチマークを導入しました。 本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。 我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。 これらのモデルはNIAHベンチマークでよく機能するが、LongGenBenchで満足できる性能は示さず、命令に従う一貫性のある長文を生成する能力に懸念を抱いた。 さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。

In evaluating the long-context capabilities of large language models (LLMs), benchmarks such as "Needle-in-a-Haystack" (NIAH), Ruler, and Needlebench are commonly used. While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, LongGenBench, which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the LongGenBench, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-08
# 量子クリロフ部分空間対角化におけるサンプリング誤差低減のための効率的な戦略

Efficient Strategies for Reducing Sampling Error in Quantum Krylov Subspace Diagonalization ( http://arxiv.org/abs/2409.02504v2 )

ライセンス: Link先を確認
Gwonhak Lee, Seonghoon Choi, Joonsuk Huh, Artur F. Izmaylov, (参考訳) 早期フォールトトレラント量子コンピューティング(EFTQC)の領域において、量子クリロフ部分空間対角化(QKSD)は量子クリロフ部分空間への射影による近似ハミルトン対角化のための有望な量子アルゴリズムとして登場した。 しかし、このアルゴリズムは誤った行列対を含む不条件の一般化固有値問題(GEVP)を解く必要があり、解を著しく歪ませることができる。 EFTQCは限定的な誤差補正を仮定するので、有限サンプリング誤差はこれらの行列において主要な誤差源となる。 この研究は、ハミルトニアン分解に基づく2つの測定アプローチ、すなわちユニタリと対角化可能なフラグメントの線形結合を検証して、射影ハミルトン要素の測定中のサンプリング誤差の定量化に焦点をあてる。 量子回路繰り返しの固定予算におけるサンプリング誤差を低減するため、シフト法と係数分割という2つの測定方法を提案する。 シフト技術はブラまたはケット状態のいずれかを消滅させる冗長なハミルトン成分を排除し、係数分割は異なる回路間の共通項の測定を最適化する。 小分子の電子構造を用いた数値実験は、これらの戦略の有効性を示し、サンプリングコストを20~500倍に削減した。

Within the realm of early fault-tolerant quantum computing (EFTQC), quantum Krylov subspace diagonalization (QKSD) has emerged as a promising quantum algorithm for the approximate Hamiltonian diagonalization via projection onto the quantum Krylov subspace. However, the algorithm often requires solving an ill-conditioned generalized eigenvalue problem (GEVP) involving erroneous matrix pairs, which can significantly distort the solution. Since EFTQC assumes limited-scale error correction, finite sampling error becomes a dominant source of error in these matrices. This work focuses on quantifying sampling errors during the measurement of matrix element in the projected Hamiltonian examining two measurement approaches based on the Hamiltonian decompositions: the linear combination of unitaries and diagonalizable fragments. To reduce sampling error within a fixed budget of quantum circuit repetitions, we propose two measurement strategies: the shifting technique and coefficient splitting. The shifting technique eliminates redundant Hamiltonian components that annihilate either the bra or ket states, while coefficient splitting optimizes the measurement of common terms across different circuits. Numerical experiments with electronic structures of small molecules demonstrate the effectiveness of these strategies, reducing sampling costs by a factor of 20-500.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-08
# 逆強化学習を用いた共有自転車軌道とストリートビュー画像による自転車の視覚的嗜好の発見

Discovering Cyclists' Visual Preferences Through Shared Bike Trajectories and Street View Images Using Inverse Reinforcement Learning ( http://arxiv.org/abs/2409.03148v2 )

ライセンス: Link先を確認
Kezhou Ren, Meihan Jin, Huiming Liu, Yongxi Gong, Yu Liu, (参考訳) サイクリングは、健康上の利益と都市へのポジティブな影響で世界的に人気を博している。 サイクリングを効果的に促進するために、初期の研究はサイクリング行動と環境要因、特にルート決定を行う際のサイクリストの嗜好との関係を幅広く研究してきた。 しかしながら、これらの研究はしばしばデータ制限のため、詳細なサイクリング手順を大規模に記述するのに苦労し、サイクリストの嗜好の複雑な性質を見落としてしまう傾向にある。 これらの課題に対処するために,最大エントロピー深部逆強化学習(MEDIRL)と説明可能な人工知能(XAI)を活用して,サイクリストの複雑な視覚的嗜好を定量化し,解釈する新しい枠組みを提案する。 深セン市Bantian Sub-districtで実装されたMEDIRLモデルを用いて,ドッキングレスバイクシェアリング(DBS)軌道とストリートビューイメージ(SVIs)を統合して,ルーティング中の道路視覚環境に対するサイクリストの好みを表す。 さらに,自転車の視覚的嗜好の発見におけるMEDIRLの有効性と信頼性を示す。 サイクリストは、ルート決定を行う際に、特定の道路視覚要素に焦点を当てており、安全、道路囲い、サイクリングの快適さに注意を向けていると要約できる。 さらなる分析により、ストリートビジュアル要素の複雑な非線形効果がサイクリストの嗜好に及ぼす影響を明らかにし、ストリートスケープデザインに対するコスト効率の良い視点を提供する。 提案する枠組みは,自転車の嗜好を優先する街路景観を設計する都市プランナーに対して,個別のサイクリング行動の理解を深めるものである。

Cycling has gained global popularity for its health benefits and positive urban impacts. To effectively promote cycling, early studies have extensively investigated the relationship between cycling behaviors and environmental factors, especially cyclists' preferences when making route decisions. However, these studies often struggle to comprehensively describe detailed cycling procedures at a large scale due to data limitations, and they tend to overlook the complex nature of cyclists' preferences. To address these issues, we propose a novel framework aimed to quantify and interpret cyclists' complicated visual preferences by leveraging maximum entropy deep inverse reinforcement learning(MEDIRL)and explainable artificial intelligence(XAI). Implemented in Bantian Sub-district, Shenzhen, we adapt MEDIRL model for efficient estimation of cycling reward function by integrating dockless-bike-sharing(DBS) trajectory and street view images(SVIs), which serves as a representation of cyclists' preferences for street visual environments during routing. In addition, we demonstrate the feasibility and reliability of MEDIRL in discovering cyclists' visual preferences. We find that cyclists focus on specific street visual elements when making route decisions, which can be summarized as their attention to safety, street enclosure, and cycling comfort. Further analysis reveals the complex nonlinear effects of street visual elements on cyclists' preferences, offering a cost-effective perspective on streetscapes design. Our proposed framework advances the understanding of individual cycling behaviors and provides actionable insights for urban planners to design bicycle-friendly streetscapes that prioritize cyclists' preferences.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-08
# iSeg: トレーニングフリーセグメンテーションのための反復リファインメントベースのフレームワーク

iSeg: An Iterative Refinement-based Framework for Training-free Segmentation ( http://arxiv.org/abs/2409.03209v3 )

ライセンス: Link先を確認
Lin Sun, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang, (参考訳) 安定拡散は、テキスト記述を与える強力な画像合成能力を示し、オブジェクトをグループ化するための強力な意味的手がかりを含むことを示唆している。 研究者らは、トレーニングフリーセグメンテーションのための安定拡散を利用した研究を行っている。 既存のほとんどのアプローチは、自己アテンションマップを一度に洗練し、自己アテンションマップはセグメンテーションを改善するのに有用な意味情報を含んでいることを示した。 自己アテンションマップをフル活用するために, 自己アテンションマップを用いた相互アテンションマップの反復精細化に関する実験的検討を行い, iSeg という名前のトレーニング不要セグメンテーションのための効果的な反復精細化フレームワークを提案する。 提案したiSegは、勾配降下法を用いて、自己アテンションマップのエントロピーを低減し、無関係なグローバル情報に対応する弱い応答を抑制するエントロピー還元自己アテンションモジュールを提案する。 エントロピーを再現した自己アテンションモジュールを活用することで、iSegは反復的リファインメントによる洗練された横断アテンションマップを安定的に改善する。 さらに,カテゴリ拡張型クロスアテンションモジュールを設計し,正確なクロスアテンションマップを生成する。 さまざまなデータセットと多様なセグメンテーションタスクにわたる大規模な実験は、提案されたコントリビューションのメリットを明らかにし、多様なセグメンテーションタスクにおいて有望なパフォーマンスをもたらす。 Cityscapesの教師なしセマンティックセマンティックセマンティクスでは,mIoUの3.8%の絶対ゲインを達成している。 さらに,提案するiSegは,画像やインタラクションの異なるセグメンテーションをサポートすることができる。 このプロジェクトはhttps://linsun449.github.io/iSeg.comで入手できる。

Stable diffusion has demonstrated strong image synthesis ability to given text descriptions, suggesting it to contain strong semantic clue for grouping objects. The researchers have explored employing stable diffusion for training-free segmentation. Most existing approaches refine cross-attention map by self-attention map once, demonstrating that self-attention map contains useful semantic information to improve segmentation. To fully utilize self-attention map, we present a deep experimental analysis on iteratively refining cross-attention map with self-attention map, and propose an effective iterative refinement framework for training-free segmentation, named iSeg. The proposed iSeg introduces an entropy-reduced self-attention module that utilizes a gradient descent scheme to reduce the entropy of self-attention map, thereby suppressing the weak responses corresponding to irrelevant global information. Leveraging the entropy-reduced self-attention module, our iSeg stably improves refined cross-attention map with iterative refinement. Further, we design a category-enhanced cross-attention module to generate accurate cross-attention map, providing a better initial input for iterative refinement. Extensive experiments across different datasets and diverse segmentation tasks reveal the merits of proposed contributions, leading to promising performance on diverse segmentation tasks. For unsupervised semantic segmentation on Cityscapes, our iSeg achieves an absolute gain of 3.8% in terms of mIoU compared to the best existing training-free approach in literature. Moreover, our proposed iSeg can support segmentation with different kinds of images and interactions. The project is available at https://linsun449.github.io/iSeg.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-08
# iSeg: トレーニングフリーセグメンテーションのための反復リファインメントベースのフレームワーク

iSeg: An Iterative Refinement-based Framework for Training-free Segmentation ( http://arxiv.org/abs/2409.03209v4 )

ライセンス: Link先を確認
Lin Sun, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang, (参考訳) 安定拡散は、テキスト記述を与える強力な画像合成能力を示し、オブジェクトをグループ化するための強力な意味的手がかりを含むことを示唆している。 研究者らは、トレーニングフリーセグメンテーションのための安定拡散を利用した研究を行っている。 既存のほとんどのアプローチは、自己アテンションマップを一度に洗練し、自己アテンションマップはセグメンテーションを改善するのに有用な意味情報を含んでいることを示した。 自己アテンションマップをフル活用するために, 自己アテンションマップを用いた相互アテンションマップの反復精細化に関する実験的検討を行い, iSeg という名前のトレーニング不要セグメンテーションのための効果的な反復精細化フレームワークを提案する。 提案したiSegは、勾配降下法を用いて、自己アテンションマップのエントロピーを低減し、無関係なグローバル情報に対応する弱い応答を抑制するエントロピー還元自己アテンションモジュールを提案する。 エントロピーを再現した自己アテンションモジュールを活用することで、iSegは反復的リファインメントによる洗練された横断アテンションマップを安定的に改善する。 さらに,カテゴリ拡張型クロスアテンションモジュールを設計し,正確なクロスアテンションマップを生成する。 さまざまなデータセットと多様なセグメンテーションタスクにわたる大規模な実験は、提案されたコントリビューションのメリットを明らかにし、多様なセグメンテーションタスクにおいて有望なパフォーマンスをもたらす。 Cityscapesの教師なしセマンティックセマンティックセマンティクスでは,mIoUの3.8%の絶対ゲインを達成している。 さらに,提案するiSegは,画像やインタラクションの異なるセグメンテーションをサポートすることができる。 このプロジェクトはhttps://linsun449.github.io/iSeg.comで入手できる。

Stable diffusion has demonstrated strong image synthesis ability to given text descriptions, suggesting it to contain strong semantic clue for grouping objects. The researchers have explored employing stable diffusion for training-free segmentation. Most existing approaches refine cross-attention map by self-attention map once, demonstrating that self-attention map contains useful semantic information to improve segmentation. To fully utilize self-attention map, we present a deep experimental analysis on iteratively refining cross-attention map with self-attention map, and propose an effective iterative refinement framework for training-free segmentation, named iSeg. The proposed iSeg introduces an entropy-reduced self-attention module that utilizes a gradient descent scheme to reduce the entropy of self-attention map, thereby suppressing the weak responses corresponding to irrelevant global information. Leveraging the entropy-reduced self-attention module, our iSeg stably improves refined cross-attention map with iterative refinement. Further, we design a category-enhanced cross-attention module to generate accurate cross-attention map, providing a better initial input for iterative refinement. Extensive experiments across different datasets and diverse segmentation tasks reveal the merits of proposed contributions, leading to promising performance on diverse segmentation tasks. For unsupervised semantic segmentation on Cityscapes, our iSeg achieves an absolute gain of 3.8% in terms of mIoU compared to the best existing training-free approach in literature. Moreover, our proposed iSeg can support segmentation with different kinds of images and interactions. The project is available at https://linsun449.github.io/iSeg.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-08
# TRACE-CS: LLMと論理を用いた説明可能な授業スケジューリングのための相乗的アプローチ

TRACE-CS: A Synergistic Approach to Explainable Course Scheduling Using LLMs and Logic ( http://arxiv.org/abs/2409.03671v2 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, William Yeoh, (参考訳) 本稿では,シンボル推論と大言語モデル(LLM)を組み合わせた新しいハイブリッドシステムTRACE-csを提案する。 TRACE-csはSATソルバ技術を活用してスケジューリング制約を符号化し、ユーザクエリの説明を生成するとともに、LLMを使用してユーザクエリを論理句に処理し、シンボルソルバによって生成された説明を自然言語文に洗練する。 これらのコンポーネントを統合することで、LLMとシンボリックメソッドを組み合わせることで、説明可能なAIエージェントを正確性保証で作成する可能性を実証する。

We present TRACE-cs, a novel hybrid system that combines symbolic reasoning with large language models (LLMs) to address contrastive queries in scheduling problems. TRACE-cs leverages SAT solving techniques to encode scheduling constraints and generate explanations for user queries, while utilizing an LLM to process the user queries into logical clauses as well as refine the explanations generated by the symbolic solver to natural language sentences. By integrating these components, our approach demonstrates the potential of combining symbolic methods with LLMs to create explainable AI agents with correctness guarantees.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-08
# 未知の量子状態からの最大作業抽出:フィードバック実験によるエルゴトロピー推定

Maximal work extraction unitarily from an unknown quantum state: Ergotropy estimation via feedback experiments ( http://arxiv.org/abs/2409.04087v2 )

ライセンス: Link先を確認
Jitendra Joshi, T. S Mahesh, (参考訳) 量子技術の新たな応用を考えると、量子レベルでのエネルギー貯蔵と利用を研究することは大きな関心事である。 この文脈では、エネルギー貯蔵型量子デバイスから一元的に抽出できる仕事の最大量であるエルゴトロピーの研究に重要な現代的関心がある。 本稿では,エルゴトロピー推定のためのフィードバックベースアルゴリズム(FQErgo)を提案する。 また、任意の初期状態を受動的状態に変換することで、さらなるユニタリな作業抽出が不可能になる。 FQErgoは、特定の期待値によって強度が反復的に調整されたドライブフィールドを適用し、単一のプローブキュービットを使用して都合よく読み取る。 したがって、FQErgoは一元的エネルギー抽出と受動的状態の生成に実用的な方法を提供している。 ランダム初期状態におけるFQErgoの数値解析により、ドライブエラーがあっても受動状態の生成とエルゴトロピーの推定が成功することを確認した。 最後に、2ビットと3ビットのNMRレジスタにFQErgoを実装し、その受動的状態を作成し、そのエルゴトロピーを正確に推定する。

Considering the emerging applications of quantum technologies, studying energy storage and usage at the quantum level is of great interest. In this context, there is a significant contemporary interest in studying ergotropy, the maximum amount of work that can be extracted unitarily from an energy-storing quantum device. Here, we propose and experimentally demonstrate a feedback-based algorithm (FQErgo) for estimating ergotropy. This method also transforms an arbitrary initial state to its passive state, which allows no further unitary work extraction. FQErgo applies drive fields whose strengths are iteratively adjusted via certain expectation values, conveniently read using a single probe qubit. Thus, FQErgo provides a practical way for unitary energy extraction and for preparing passive states. By numerically analyzing FQErgo on random initial states, we confirm the successful preparation of passive states and estimation of ergotropy, even in the presence of drive errors. Finally, we implement FQErgo on two- and three-qubit NMR registers, prepare their passive states, and accurately estimate their ergotropy.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-08
# 並列回路を用いた低深さOracle

Low Depth Phase Oracle Using a Parallel Piecewise Circuit ( http://arxiv.org/abs/2409.04587v2 )

ライセンス: Link先を確認
Zhu Sun, Gregory Boyd, Zhenyu Cai, Hamza Jnane, Balint Koczor, Richard Meister, Romy Minko, Benjamin Pring, Simon C. Benjamin, Nikitas Stamatopoulos, (参考訳) 位相 $exp(i f(x))$ を計算基底状態 $\left| x \right>$ に適用する重要なタスクについて検討する。 また、ターゲット qubit を$f(x)$ に依存する角度で回転させる密接な関連するタスクについても検討する。 このような演算は多くの量子サブルーチンにおいて鍵であり、しばしば関数 $f$ は断片的な線形合成によってうまく近似することができる。 例えば、グリッドベースの多体シミュレーションにおける対角的ハミルトン項(クーロン相互作用など)の応用から、微分価格アルゴリズムまで様々である。 ここでは,すべての基本回転を同時に行うために,片方向アプローチの並列化を利用して,全回転深度を1とする。 さらに, これらの基本回転を効率的に実装するために, 再帰触媒「塔」の使用について検討する。 実装戦略の選択により、$O(log n + log S)$のレジスタと$S$セクションの断片的な近似に対して、深さが$O(log n + log S)$と低いことが分かる。 オラクルの繰り返しの極限において、触媒塔のアプローチは$O(S \cdot n)$ T-countを持つのに対し、QROMとの線形補間は$O(n^{log_2(3)})$ T-countを持つ。

We explore the important task of applying a phase $exp(i f(x))$ to a computational basis state $\left| x \right>$. The closely related task of rotating a target qubit by an angle depending on $f(x)$ is also studied. Such operations are key in many quantum subroutines, and often the function $f$ can be well-approximated by a piecewise linear composition. Examples range from the application of diagonal Hamiltonian terms (such as the Coulomb interaction) in grid-based many-body simulation, to derivative pricing algorithms. Here we exploit a parallelisation of the piecewise approach so that all constituent elementary rotations are performed simultaneously, that is, we achieve a total rotation depth of one. Moreover, we explore the use of recursive catalyst 'towers' to implement these elementary rotations efficiently. Depending on the choice of implementation strategy, we find a depth as low as $O(log n + log S)$ for a register of $n$ qubits and a piecewise approximation of $S$ sections. In the limit of multiple repetitions of the oracle, we find that catalyst tower approaches have an $O(S \cdot n)$ T-count, whereas linear interpolation with QROM has an $O(n^{log_2(3)})$ T-count.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-08
# Sparse Rewardsは、セルフトレイン対話エージェントを可能にする

Sparse Rewards Can Self-Train Dialogue Agents ( http://arxiv.org/abs/2409.04617v2 )

ライセンス: Link先を確認
Barrett Martin Lattimer, Varun Gangal, Ryan McDonald, Yi Yang, (参考訳) 最先端(SOTA)大規模言語モデル(LLM)エージェントの最近の進歩は、特にマルチターン対話タスクにおいて、主に教師付き微調整と高品質な人間のフィードバックによって進められている。 しかし、基礎となるLLMモデルの改善が進むにつれ、有意義な人間のフィードバックの獲得はますます困難でコストがかかる。 特定の領域では、ベースLLMエージェントは最終的には人間の能力を超え、従来のフィードバック駆動の手法は実用的ではない。 本稿では,LLMエージェントに対して,外部からのフィードバックを伴わずに自律的に性能向上を図るための,新たな自己改善パラダイムを提案する。 提案手法であるJuxtaposed Outcomes for Simulation Harvesting (JOSH) は,スパース報酬シミュレーション環境を利用した自己調整アルゴリズムである。 我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。 JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。 コードとデータはGitHubでhttps://github.com/asappresearch/josh-llm-simulation-trainingで公開されている。

Recent advancements in state-of-the-art (SOTA) Large Language Model (LLM) agents, especially in multi-turn dialogue tasks, have been primarily driven by supervised fine-tuning and high-quality human feedback. However, as base LLM models continue to improve, acquiring meaningful human feedback has become increasingly challenging and costly. In certain domains, base LLM agents may eventually exceed human capabilities, making traditional feedback-driven methods impractical. In this paper, we introduce a novel self-improvement paradigm that empowers LLM agents to autonomously enhance their performance without external human feedback. Our method, Juxtaposed Outcomes for Simulation Harvesting (JOSH), is a self-alignment algorithm that leverages a sparse reward simulation environment to extract ideal behaviors and further train the LLM on its own outputs. We present ToolWOZ, a sparse reward tool-calling simulation environment derived from MultiWOZ. We demonstrate that models trained with JOSH, both small and frontier, significantly improve tool-based interactions while preserving general model capabilities across diverse benchmarks. Our code and data are publicly available on GitHub at https://github.com/asappresearch/josh-llm-simulation-training
翻訳日:2024-11-07 22:49:49 公開日:2024-10-08
# QuantFactor ReINFORCE: 可変結合型ReINFORCEを用いた定常定式アルファ因子のマイニング

QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE ( http://arxiv.org/abs/2409.05144v2 )

ライセンス: Link先を確認
Junjie Zhao, Chengxi Zhang, Min Qin, Peng Yang, (参考訳) アルファ・ファクター・マイニングの目標は、資産の歴史的金融市場データから投資機会の示唆的なシグナルを発見することである。 近年, 深層強化学習を用いた定式的アルファ因子の生成に期待できる枠組みが提案され, 学術・産業ともに急速に研究が進められている。 本稿は, 当初採用されていた政策学習手法であるPPOは, アルファファクタマイニングの文脈においていくつかの重要な問題に直面しており, 公式の探索空間を探索する上では有効ではない,と論じる。 本稿では、よく知られたREINFORCEアルゴリズムに基づく新しい強化学習を提案する。 基礎となる状態遷移関数がディラック分布に従属していることを考えると、このフレームワーク内のマルコフ決定過程は環境変動が最小であり、REINFORCEアルゴリズムはPPOよりも適切である。 新しい専用ベースラインは、理論上苦しむREINFORCEの高分散を減少させるように設計されている。 さらに、市場ボラティリティの変化に適応できる安定したアルファ因子の生成を促進するための報酬形成機構として、情報比を導入している。 種々の実資産データに対する実験的評価から,提案アルゴリズムは,提案アルゴリズムの資産収益との相関関係を3.83倍に向上し,理論結果によく適合する最新のアルファファクターマイニング法と比較して,余剰利益を得る能力が強いことが示唆された。

The goal of alpha factor mining is to discover indicative signals of investment opportunities from the historical financial market data of assets, which can be used to predict asset returns and gain excess profits. Recently, a promising framework is proposed for generating formulaic alpha factors using deep reinforcement learning, and quickly gained research focuses from both academia and industries. This paper first argues that the originally employed policy training method, i.e., Proximal Policy Optimization (PPO), faces several important issues in the context of alpha factors mining, making it ineffective to explore the search space of the formula. Herein, a novel reinforcement learning based on the well-known REINFORCE algorithm is proposed. Given that the underlying state transition function adheres to the Dirac distribution, the Markov Decision Process within this framework exhibit minimal environmental variability, making REINFORCE algorithm more appropriate than PPO. A new dedicated baseline is designed to theoretically reduce the commonly suffered high variance of REINFORCE. Moreover, the information ratio is introduced as a reward shaping mechanism to encourage the generation of steady alpha factors that can better adapt to changes in market volatility. Experimental evaluations on various real assets data show that the proposed algorithm can increase the correlation with asset returns by 3.83\%, and a stronger ability to obtain excess returns compared to the latest alpha factors mining methods, which meets the theoretical results well.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-08
# TriplePlay: CLIPによる非IIDデータとリソース効率の向上

TriplePlay: Enhancing Federated Learning with CLIP for Non-IID Data and Resource Efficiency ( http://arxiv.org/abs/2409.05347v2 )

ライセンス: Link先を確認
Ahmed Imteaj, Md Zarif Hossain, Saika Zaman, Abdur R. Shahid, (参考訳) CLIPによって実証された事前学習モデルの急速な進歩と複雑さの増大は、プライバシ保護人工知能の重要なコンポーネントであるフェデレートラーニング(FL)の課題と同様に、大きな機会を提供する。 この研究は、プライバシー、効率、不均一なデータランドスケープに対する適応性を高めるために、FLフレームワークにCLIPのような大規模な基盤モデルを統合することの難しさを掘り下げている。 これは、非IIDデータ分散によって引き起こされる課題、そのような複雑なモデルを活用する際の計算と通信のオーバーヘッド、データセット内のクラスの歪んだ表現に特に対処する。 本稿では,CLIPをアダプタとして統合したフレームワークであるTriplePlayを提案する。 提案手法は,量子化と低ランク適応技術による資源需要の低減を図りながら,資源需要の公平性を確保するための長期分布問題に対処し,TriplePlayがGPU使用コストを効果的に削減し,通信オーバーヘッドを低減して収束を達成できることをシミュレーションにより実証した。

The rapid advancement and increasing complexity of pretrained models, exemplified by CLIP, offer significant opportunities as well as challenges for Federated Learning (FL), a critical component of privacy-preserving artificial intelligence. This research delves into the intricacies of integrating large foundation models like CLIP within FL frameworks to enhance privacy, efficiency, and adaptability across heterogeneous data landscapes. It specifically addresses the challenges posed by non-IID data distributions, the computational and communication overheads of leveraging such complex models, and the skewed representation of classes within datasets. We propose TriplePlay, a framework that integrates CLIP as an adapter to enhance FL's adaptability and performance across diverse data distributions. This approach addresses the long-tail distribution challenge to ensure fairness while reducing resource demands through quantization and low-rank adaptation techniques.Our simulation results demonstrate that TriplePlay effectively decreases GPU usage costs and speeds up the learning process, achieving convergence with reduced communication overhead.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-08
# UAVDB: UAV検出のための軌道誘導適応バウンディングボックス

UAVDB: Trajectory-Guided Adaptable Bounding Boxes for UAV Detection ( http://arxiv.org/abs/2409.06490v3 )

ライセンス: Link先を確認
Yu-Hsi Chen, (参考訳) ドローン技術の急速な進歩により、無人航空機(UAV)の正確な検出は、監視、セキュリティ、空域管理に欠かせないものとなった。 本稿では,手動ラベリングを使わずにUAV検出のための高忠実なバウンディングボックスを生成する,新しいトラジェクトリ誘導手法であるPatch Intensity Convergence(PIC)技術を提案する。 この技術は、UAV検出に特化した専用データベースであるUAVDBの基礎となる。 多くの場合、大きなUAVや単純な背景にフォーカスするデータセットとは異なり、UAVDBは高解像度のRGBビデオを使用して、数百ピクセルからほぼ1桁の大きさのUAVをさまざまなスケールでキャプチャする。 この大規模な変動は、様々な条件下で検出アルゴリズムの堅牢な評価を可能にする。 PIC技術を用いることで、軌道データや位置データからバウンディングボックスを効率的に生成することができる。 我々は,最先端(SOTA)YOLO系列検出器を用いてUAVDBをベンチマークし,総合的な性能解析を行った。 以上の結果から,UAVDBは特に高分解能・長距離追跡のシナリオにおいて,UAVの検出を促進する重要な資源となる可能性が示唆された。

The rapid advancement of drone technology has made accurate Unmanned Aerial Vehicle (UAV) detection essential for surveillance, security, and airspace management. This paper presents a novel trajectory-guided approach, the Patch Intensity Convergence (PIC) technique, which generates high-fidelity bounding boxes for UAV detection without manual labeling. This technique forms the foundation of UAVDB, a dedicated database designed specifically for UAV detection. Unlike datasets that often focus on large UAVs or simple backgrounds, UAVDB utilizes high-resolution RGB video to capture UAVs at various scales, from hundreds of pixels to near-single-digit sizes. This extensive scale variation enables robust evaluation of detection algorithms under diverse conditions. Using the PIC technique, bounding boxes can be efficiently generated from trajectory or position data. We benchmark UAVDB using state-of-the-art (SOTA) YOLO series detectors, providing a comprehensive performance analysis. Our results demonstrate UAVDB's potential as a critical resource for advancing UAV detection, particularly in high-resolution and long-distance tracking scenarios.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-08
# フェルミオンガウス試験と畳み込みによる非ガウス測度

Fermionic Gaussian Testing and Non-Gaussian Measures via Convolution ( http://arxiv.org/abs/2409.08180v2 )

ライセンス: Link先を確認
Xingjian Lyu, Kaifeng Bu, (参考訳) 我々はフェルミオンの畳み込みを定義し、フェルミオン系の計算上の優位性に不可欠なフェルミオン非ガウス成分の特徴付けにその有用性を実証する。 フェルミオン畳み込みを用いて、入力状態の3つのコピーを用いて純状態のフェルミオンガウス性をテストする効率的なプロトコルを提案する。 また、フェルミオン非ガウス性を測定する実験的にアクセス可能な資源尺度である「ノンガウスエントロピー」も導入する。 これらの結果はフェルミオン量子計算の研究に新たな洞察を与える。

We define fermionic convolution and demonstrate its utility in characterizing fermionic non-Gaussian components, which are essential to the computational advantage of fermionic systems. Using fermionic convolution, we propose an efficient protocol that tests the fermionic Gaussianity of pure states using three copies of the input state. We also introduce "Non-Gaussian Entropy," an experimentally accessible resource measure that quantifies fermionic non-Gaussianity. These results provide new insights into the study of fermionic quantum computation.
翻訳日:2024-11-07 21:20:36 公開日:2024-10-08
# Farmer.Chat: 小規模農家のためのAIによる農業サービスのスケーリング

Farmer.Chat: Scaling AI-Powered Agricultural Services for Smallholder Farmers ( http://arxiv.org/abs/2409.08916v2 )

ライセンス: Link先を確認
Namita Singh, Jacqueline Wang'ombe, Nereah Okanga, Tetyana Zelenska, Jona Repishti, Jayasankar G K, Sanjeev Mishra, Rajsekar Manokaran, Vineet Singh, Mohammed Irfan Rafiq, Rikin Gandhi, Akshay Nambi, (参考訳) 小規模と中規模の農業所有者は、地域化、タイムリーな情報へのアクセス制限、生産性と持続可能性への影響といった課題に直面している。 従来の拡張サービスは、特に遠隔地において、個人エージェントに依存しており、スケーラビリティとタイムリーなデリバリに苦労しています。 私たちは、これらの問題に対処するために設計された、AIを使った生成型チャットボットであるFarmerChatを紹介します。 ジェネレーティブAIを活用するFarmerChatは、決定論的対話フロー、言語サポート、構造化されていないデータ処理における従来のチャットボットの制限を克服し、パーソナライズされ、信頼性があり、コンテキストに関連のあるアドバイスを提供する。 FarmerChatは4カ国で展開され、1万5000以上の農家と関わり、30万件以上の問い合わせに答えている。 本稿では,FarmerChatによるGenAIの革新的利用によって,農業サービスのスケーラビリティと有効性が向上することを示す。 定量的分析と質的洞察を組み合わせた評価では,FarmerChatの農業実践の改善,信頼の向上,応答品質,ユーザエンゲージメントが重要である。

Small and medium-sized agricultural holders face challenges like limited access to localized, timely information, impacting productivity and sustainability. Traditional extension services, which rely on in-person agents, struggle with scalability and timely delivery, especially in remote areas. We introduce FarmerChat, a generative AI-powered chatbot designed to address these issues. Leveraging Generative AI, FarmerChat offers personalized, reliable, and contextually relevant advice, overcoming limitations of previous chatbots in deterministic dialogue flows, language support, and unstructured data processing. Deployed in four countries, FarmerChat has engaged over 15,000 farmers and answered over 300,000 queries. This paper highlights how FarmerChat's innovative use of GenAI enhances agricultural service scalability and effectiveness. Our evaluation, combining quantitative analysis and qualitative insights, highlights FarmerChat's effectiveness in improving farming practices, enhancing trust, response quality, and user engagement.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-08
# 手術機器セグメンテーションにおけるステレオ・時間的文脈の展開

LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation ( http://arxiv.org/abs/2409.09360v2 )

ライセンス: Link先を確認
Qiyuan Wang, Shang Zhao, Zikang Xu, S Kevin Zhou, (参考訳) 手術器具のセグメンテーションは、最小侵襲の手術と関連する応用に役立つ。 従来の方法では、このタスクを単一フレームベースのインスタンスセグメンテーションとして定式化し、外科的ビデオの自然な時間的特性やステレオ属性を無視した。 その結果、時間的動きや視点の変化による外観変化に対して、これらの手法はより堅牢である。 そこで本研究では,ステレオ画像とテンポラル画像における位置非依存コネクトを利用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。 クエリベースのセグメンテーションモデルをコアとして活用し、3つのパフォーマンス向上モジュールを設計する。 まず,不均一誘導型特徴伝搬モジュールを設計し,奥行き認識機能を明確に向上させる。 モノクロビデオのみに対してさえもうまく一般化するために、擬似ステレオスキームを適用して補完的な右画像を生成する。 第2に,統合された予測を行い,過渡的故障を緩和する普遍的な方法で,ステレオ時間文脈を集約するステレオ時間集合分類器を提案する。 最後に、マスク予測から位置バイアスを分離し、特徴セマンティクスを強化する位置認識型分類器を提案する。 われわれは,EndoVis Challengesの2つのベンチマークと1つの根治的前立腺切除術データセットGraSPを含む3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。 実験により提案手法の有望な性能を実証し, 従来手法と同等あるいは好意的な結果が得られることを示した。

Surgical instrument segmentation is instrumental to minimally invasive surgeries and related applications. Most previous methods formulate this task as single-frame-based instance segmentation while ignoring the natural temporal and stereo attributes of a surgical video. As a result, these methods are less robust against the appearance variation through temporal motion and view change. In this work, we propose a novel LACOSTE model that exploits Location-Agnostic COntexts in Stereo and TEmporal images for improved surgical instrument segmentation. Leveraging a query-based segmentation model as core, we design three performance-enhancing modules. Firstly, we design a disparity-guided feature propagation module to enhance depth-aware features explicitly. To generalize well for even only a monocular video, we apply a pseudo stereo scheme to generate complementary right images. Secondly, we propose a stereo-temporal set classifier, which aggregates stereo-temporal contexts in a universal way for making a consolidated prediction and mitigates transient failures. Finally, we propose a location-agnostic classifier to decouple the location bias from mask prediction and enhance the feature semantics. We extensively validate our approach on three public surgical video datasets, including two benchmarks from EndoVis Challenges and one real radical prostatectomy surgery dataset GraSP. Experimental results demonstrate the promising performances of our method, which consistently achieves comparable or favorable results with previous state-of-the-art approaches.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-08
# 手術機器セグメンテーションにおけるステレオ・時間的文脈の展開

LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation ( http://arxiv.org/abs/2409.09360v3 )

ライセンス: Link先を確認
Qiyuan Wang, Shang Zhao, Zikang Xu, S Kevin Zhou, (参考訳) 手術器具のセグメンテーションは、最小侵襲の手術と関連する応用に役立つ。 従来の方法では、このタスクを単一フレームベースのインスタンスセグメンテーションとして定式化し、外科的ビデオの自然な時間的特性やステレオ属性を無視した。 その結果、時間的動きや視点の変化による外観変化に対して、これらの手法はより堅牢である。 そこで本研究では,ステレオ画像とテンポラル画像における位置非依存コネクトを利用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。 クエリベースのセグメンテーションモデルをコアとして活用し、3つのパフォーマンス向上モジュールを設計する。 まず,不均一誘導型特徴伝搬モジュールを設計し,奥行き認識機能を明確に向上させる。 モノクロビデオのみに対してさえもうまく一般化するために、擬似ステレオスキームを適用して補完的な右画像を生成する。 第2に,統合された予測を行い,過渡的故障を緩和する普遍的な方法で,ステレオ時間文脈を集約するステレオ時間集合分類器を提案する。 最後に、マスク予測から位置バイアスを分離し、特徴セマンティクスを強化する位置認識型分類器を提案する。 われわれは,EndoVis Challengesの2つのベンチマークと1つの根治的前立腺切除術データセットGraSPを含む3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。 実験により提案手法の有望な性能を実証し, 従来手法と同等あるいは好意的な結果が得られることを示した。

Surgical instrument segmentation is instrumental to minimally invasive surgeries and related applications. Most previous methods formulate this task as single-frame-based instance segmentation while ignoring the natural temporal and stereo attributes of a surgical video. As a result, these methods are less robust against the appearance variation through temporal motion and view change. In this work, we propose a novel LACOSTE model that exploits Location-Agnostic COntexts in Stereo and TEmporal images for improved surgical instrument segmentation. Leveraging a query-based segmentation model as core, we design three performance-enhancing modules. Firstly, we design a disparity-guided feature propagation module to enhance depth-aware features explicitly. To generalize well for even only a monocular video, we apply a pseudo stereo scheme to generate complementary right images. Secondly, we propose a stereo-temporal set classifier, which aggregates stereo-temporal contexts in a universal way for making a consolidated prediction and mitigates transient failures. Finally, we propose a location-agnostic classifier to decouple the location bias from mask prediction and enhance the feature semantics. We extensively validate our approach on three public surgical video datasets, including two benchmarks from EndoVis Challenges and one real radical prostatectomy surgery dataset GraSP. Experimental results demonstrate the promising performances of our method, which consistently achieves comparable or favorable results with previous state-of-the-art approaches.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-08
# HJ-サンプラー:ハミルトン・ヤコビPDEとスコアベース生成モデルを利用した確率過程の逆問題に対するベイズサンプル

HJ-sampler: A Bayesian sampler for inverse problems of a stochastic process by leveraging Hamilton-Jacobi PDEs and score-based generative models ( http://arxiv.org/abs/2409.09614v2 )

ライセンス: Link先を確認
Tingwei Meng, Zongren Zou, Jérôme Darbon, George Em Karniadakis, (参考訳) 確率過程と最適制御の相互作用は、文献で広く研究されている。 近年の拡散モデルの使用の増加に伴い、確率過程はサンプル生成にますます適用されるようになった。 本稿では、ブラウン運動文脈におけるコールホップ変換(Cole-Hopf transform)と呼ばれるログ変換に基づいており、線形作用素を含むより抽象的なフレームワークで拡張する。 この枠組みの中で、コールホップ変換と最適輸送の間のよく知られた関係は、線形作用素が確率過程の無限小生成として作用する特別な例であることが判明した。 また、線形作用素が生成子の随伴であり、特定の初期および終端条件下でのベイズ推論にリンクする新しいシナリオを導入する。 この理論の基礎を生かして、与えられた終端観測を伴う確率微分方程式の逆問題に対するベイズ推定のためのHJ-サンプラーと呼ばれる新しいアルゴリズムを開発した。 HJ-サンプラーは、(1)粘性ハミルトン-ヤコビ偏微分方程式の解法と(2)関連する確率的最適制御問題からのサンプリングの2段階を含む。 提案アルゴリズムは, 粘性HJ PDEの数値解法を選択する際の柔軟性を自然に実現している。 本稿では,Ricati法に基づくRicati-HJ-samplerと拡散モデルを用いたSGM-HJ-samplerの2種類を紹介する。 提案手法の有効性と柔軟性を,様々な確率過程と先行分布を含むベイズ逆問題の解法に適用し,モデルの誤特定に対処し,モデルの不確かさを定量化するアプリケーションを含む,提案手法の有効性と柔軟性を実証する。

The interplay between stochastic processes and optimal control has been extensively explored in the literature. With the recent surge in the use of diffusion models, stochastic processes have increasingly been applied to sample generation. This paper builds on the log transform, known as the Cole-Hopf transform in Brownian motion contexts, and extends it within a more abstract framework that includes a linear operator. Within this framework, we found that the well-known relationship between the Cole-Hopf transform and optimal transport is a particular instance where the linear operator acts as the infinitesimal generator of a stochastic process. We also introduce a novel scenario where the linear operator is the adjoint of the generator, linking to Bayesian inference under specific initial and terminal conditions. Leveraging this theoretical foundation, we develop a new algorithm, named the HJ-sampler, for Bayesian inference for the inverse problem of a stochastic differential equation with given terminal observations. The HJ-sampler involves two stages: (1) solving the viscous Hamilton-Jacobi partial differential equations, and (2) sampling from the associated stochastic optimal control problem. Our proposed algorithm naturally allows for flexibility in selecting the numerical solver for viscous HJ PDEs. We introduce two variants of the solver: the Riccati-HJ-sampler, based on the Riccati method, and the SGM-HJ-sampler, which utilizes diffusion models. We demonstrate the effectiveness and flexibility of the proposed methods by applying them to solve Bayesian inverse problems involving various stochastic processes and prior distributions, including applications that address model misspecifications and quantifying model uncertainty.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-08
# Spiers Memorial Lecture: 化学と材料科学のための人工知能のインパクトある研究方法

Spiers Memorial Lecture: How to do impactful research in artificial intelligence for chemistry and materials science ( http://arxiv.org/abs/2409.10304v2 )

ライセンス: Link先を確認
Austin Cheng, Cher Tian Ser, Marta Skreta, Andrés Guzmán-Cordero, Luca Thiede, Andreas Burger, Abdulrahman Aldossary, Shi Xuan Leong, Sergio Pablo-García, Felix Strieth-Kalthoff, Alán Aspuru-Guzik, (参考訳) 機械学習は多くの科学分野に広く触れている。 化学と材料科学は例外ではない。 機械学習は大きな影響を与えてきたが、まだその潜在能力や成熟度には達していない。 この観点から、我々はまず化学における様々な問題にまたがる現在の応用について概説する。 次に、機械学習研究者が現場の問題をどう捉え、どのようにアプローチするかについて議論する。 最後に,化学における機械学習研究における影響の最大化について考察する。

Machine learning has been pervasively touching many fields of science. Chemistry and materials science are no exception. While machine learning has been making a great impact, it is still not reaching its full potential or maturity. In this perspective, we first outline current applications across a diversity of problems in chemistry. Then, we discuss how machine learning researchers view and approach problems in the field. Finally, we provide our considerations for maximizing impact when researching machine learning for chemistry.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-08
# Score Forgetting Distillation: 拡散モデルにおける機械学習のためのスウィフトでデータフリーな手法

Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models ( http://arxiv.org/abs/2409.11219v2 )

ライセンス: Link先を確認
Tianqi Chen, Shujian Zhang, Mingyuan Zhou, (参考訳) 機械学習コミュニティは、現代のジェネレーティブAI(GenAI)モデルにおいて、信頼と安全性を促進することの重要性をますます認識している。 我々は、安全でセキュアで信頼性の高いGenAIモデルを開発するための重要な基盤として、機械学習(MU)を定めている。 従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。 本稿では「安全でない」クラスや概念の条件付きスコアを「安全でない」クラスと整列させることにより、拡散モデルにおける望ましくない情報の忘れを促進させる革新的なMUアプローチである「スコアフォーッティング蒸留(SFD)」を紹介する。 実データを必要としないため,本フレームワークでは,事前学習した拡散モデルのスコア蒸留目標にスコアベースのMU損失を組み込む。 これは、所望の生成能力を保ちつつ、ワンステップジェネレータによる合成データの生成を可能にする正規化用語として機能する。 事前学習したラベル条件およびテキスト・ツー・イメージ拡散モデルを用いた実験により,本手法は,他のクラスや概念の品質を維持しつつ,生成中の対象クラスや概念の忘れ忘れを効果的に促進することを示した。 この未学習で蒸留された拡散は、MUにおける新しい概念の先駆けとなるだけでなく、拡散モデルの生成速度も加速する。 拡散モデルとデータセットに関する実験と研究により、拡散モデルにおけるMUのアプローチが一般化可能であり、有効であり、有利であることが確認された。 (ウォーニング)本論文は、性的に明示的なイメージ、ポルノグラフィーの議論、人種的にチャージされた用語など、一部の読者が混乱、苦悩、あるいは不快感を感じているかもしれない内容を含んでいる。)

The machine learning community is increasingly recognizing the importance of fostering trust and safety in modern generative AI (GenAI) models. We posit machine unlearning (MU) as a crucial foundation for developing safe, secure, and trustworthy GenAI models. Traditional MU methods often rely on stringent assumptions and require access to real data. This paper introduces Score Forgetting Distillation (SFD), an innovative MU approach that promotes the forgetting of undesirable information in diffusion models by aligning the conditional scores of "unsafe" classes or concepts with those of "safe" ones. To eliminate the need for real data, our SFD framework incorporates a score-based MU loss into the score distillation objective of a pretrained diffusion model. This serves as a regularization term that preserves desired generation capabilities while enabling the production of synthetic data through a one-step generator. Our experiments on pretrained label-conditional and text-to-image diffusion models demonstrate that our method effectively accelerates the forgetting of target classes or concepts during generation, while preserving the quality of other classes or concepts. This unlearned and distilled diffusion not only pioneers a novel concept in MU but also accelerates the generation speed of diffusion models. Our experiments and studies on a range of diffusion models and datasets confirm that our approach is generalizable, effective, and advantageous for MU in diffusion models. (Warning: This paper contains sexually explicit imagery, discussions of pornography, racially-charged terminology, and other content that some readers may find disturbing, distressing, and/or offensive.)
翻訳日:2024-11-07 20:13:03 公開日:2024-10-08
# ヘリカルエッジ状態の複数対から生じるマルチフォールドMajoranaコーナーモード

Multifold Majorana corner modes arising from multiple pairs of helical edge states ( http://arxiv.org/abs/2409.11791v2 )

ライセンス: Link先を確認
Zhiwei Yin, Haoshu Li, Zhongbo Yan, Shaolong Wan, (参考訳) 一対のヘリカルエッジ状態と近接誘起超伝導を持つ量子スピンホール絶縁体は、マヨラナ角モードを持つ2階のトポロジカル超伝導体をサポートすることが示されている。 マヨラナコーナーモードは、量子スピンホール絶縁体のヘリカルエッジ状態に由来するため、複数対のヘリカルエッジ状態と近接誘起超伝導を持つ量子スピンホール絶縁体が、マルチフォールドマヨラナコーナーモードを持つ2階トポロジカル超伝導体を生じさせるかどうかが興味深い問題である。 本研究では、2対のヘリカルエッジ状態を持つ量子スピンホール絶縁体を考える。 ヘリカルエッジ状態が磁場と$s$-waveペアリング、または$s+p$混合パリティペアリングの複合作用によってギャップを空けると、ロバストな2倍Majoranaコーナーモードが得られる。 磁場の作用下での角あたりの2つのマヨラナゼロモードの安定性は、キラル対称性からの保護に起因する。 本研究は, 超伝導体と多対のヘリカルエッジ状態を持つ量子スピンホール絶縁体からなるヘテロ構造が, マルチフォールドマヨラナコーナーモードを追求するためのプラットフォームとして機能することを明らかにする。

Quantum spin Hall insulators with a pair of helical edge states and proximity-induced superconductivity have been shown to support second-order topological superconductors with Majorana corner modes. As the Majorana corner modes are originated from the helical edge states of the quantum spin Hall insulators, whether quantum spin Hall insulators with multiple pairs of helical edge states and proximity-induced superconductivity can give rise to second-order topological superconductors with multifold Majorana corner modes is an interesting question to address. In this work, we consider a quantum spin Hall insulator with two pairs of helical edge states. We find robust twofold Majorana corner modes can be achieved when the helical edge states are gapped by a combined action of a magnetic exchange field and an $s$-wave pairing, or an $s+p$ mixed-parity pairing. The stability of two Majorana zero modes per corner under the action of magnetic exchange fields is attributed to the protection from the chiral symmetry. Our study reveals that heterostructures composed of superconductors and quantum spin Hall insulators with multiple pairs of helical edge states could serve as a platform to pursue multifold Majorana corner modes.
翻訳日:2024-11-07 19:50:48 公開日:2024-10-08
# ランダムテンソルネットワークのアンチ集中と状態設計

Anticoncentration and state design of random tensor networks ( http://arxiv.org/abs/2409.13023v1 )

ライセンス: Link先を確認
Guglielmo Lami, Jacopo De Nardis, Xhek Turkeshi, (参考訳) 結合次元がシステムサイズと多項式的にスケールする量子ランダムテンソルネットワーク状態、$N$について検討する。 具体的には, ランダム行列積状態 (RMPS) の非局在化特性を, 開境界条件と閉境界条件の両方に適用可能な逆参加率 (IPR) の正確な解析式を導出することにより, 計算基礎における非局在化特性について検討する。 結合次元 $\chi \sim \gamma N$ に対して、関連する重なり合う確率分布の先頭順序を決定し、その収束をハールランダム状態の特徴であるポーター=トーマス分布に示す。 さらに、フレームポテンシャルの数値的証拠として、ランダムMPSのHaar様挙動への収束を$\chi \gg \sqrt{N}$で確認するハールアンサンブルからの2ドルの距離を測る。 この解析をランダムな射影ペア状態(PEPS)を用いて2次元システムに拡張し、同様に IPR のハール値への収束を$\chi \gg \sqrt{N}$で観測する。 これらの結果から,システムサイズで多項式的にスケールする結合次元を持つランダムなテンソルネットワークは,空間次元に関係なく,完全にハールアン集中かつ近似ユニタリ設計であることがわかった。

We investigate quantum random tensor network states where the bond dimensions scale polynomially with the system size, $N$. Specifically, we examine the delocalization properties of random Matrix Product States (RMPS) in the computational basis by deriving an exact analytical expression for the Inverse Participation Ratio (IPR) of any degree, applicable to both open and closed boundary conditions. For bond dimensions $\chi \sim \gamma N$, we determine the leading order of the associated overlaps probability distribution and demonstrate its convergence to the Porter-Thomas distribution, characteristic of Haar-random states, as $\gamma$ increases. Additionally, we provide numerical evidence for the frame potential, measuring the $2$-distance from the Haar ensemble, which confirms the convergence of random MPS to Haar-like behavior for $\chi \gg \sqrt{N}$. We extend this analysis to two-dimensional systems using random Projected Entangled Pair States (PEPS), where we similarly observe the convergence of IPRs to their Haar values for $\chi \gg \sqrt{N}$. These findings demonstrate that random tensor networks with bond dimensions scaling polynomially in the system size are fully Haar-anticoncentrated and approximate unitary designs, regardless of the spatial dimension.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-08
# ランダムテンソルネットワークのアンチ集中と状態設計

Anticoncentration and state design of random tensor networks ( http://arxiv.org/abs/2409.13023v2 )

ライセンス: Link先を確認
Guglielmo Lami, Jacopo De Nardis, Xhek Turkeshi, (参考訳) 結合次元がシステムサイズと多項式的にスケールする量子ランダムテンソルネットワーク状態、$N$について検討する。 具体的には, ランダム行列積状態 (RMPS) の非局在化特性を, 開境界条件と閉境界条件の両方に適用可能な逆参加率 (IPR) の正確な解析式を導出することにより, 計算基礎における非局在化特性について検討する。 結合次元 $\chi \sim \gamma N$ に対して、関連する重なり合う確率分布の先頭順序を決定し、その収束をハールランダム状態の特徴であるポーター=トーマス分布に示す。 さらに、フレームポテンシャルの数値的証拠として、ランダムMPSのHaar様挙動への収束を$\chi \gg \sqrt{N}$で確認するハールアンサンブルからの2ドルの距離を測る。 この解析をランダムな射影ペア状態(PEPS)を用いて2次元システムに拡張し、同様に IPR のハール値への収束を$\chi \gg \sqrt{N}$で観測する。 これらの結果から,システムサイズで多項式的にスケールする結合次元を持つランダムなテンソルネットワークは,空間次元に関係なく,完全にハールアン集中かつ近似ユニタリ設計であることがわかった。

We investigate quantum random tensor network states where the bond dimensions scale polynomially with the system size, $N$. Specifically, we examine the delocalization properties of random Matrix Product States (RMPS) in the computational basis by deriving an exact analytical expression for the Inverse Participation Ratio (IPR) of any degree, applicable to both open and closed boundary conditions. For bond dimensions $\chi \sim \gamma N$, we determine the leading order of the associated overlaps probability distribution and demonstrate its convergence to the Porter-Thomas distribution, characteristic of Haar-random states, as $\gamma$ increases. Additionally, we provide numerical evidence for the frame potential, measuring the $2$-distance from the Haar ensemble, which confirms the convergence of random MPS to Haar-like behavior for $\chi \gg \sqrt{N}$. We extend this analysis to two-dimensional systems using random Projected Entangled Pair States (PEPS), where we similarly observe the convergence of IPRs to their Haar values for $\chi \gg \sqrt{N}$. These findings demonstrate that random tensor networks with bond dimensions scaling polynomially in the system size are fully Haar-anticoncentrated and approximate unitary designs, regardless of the spatial dimension.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-08
# FineMolTex: 微細なグラフテキスト事前学習を目指して

FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training ( http://arxiv.org/abs/2409.14106v1 )

ライセンス: Link先を確認
Yibo Li, Yuan Fang, Mengmei Zhang, Chuan Shi, (参考訳) 分子構造と関連する知識を理解することは科学研究にとって不可欠である。 近年の研究では、分子グラフをテキスト記述と統合し、分子表現学習を強化している。 しかし、分子グラフ全体に集中し、分子の性質を決定するのに不可欠なモチーフとして知られる頻繁なサブグラフを無視する。 このような細かい知識がなければ、これらのモデルはモチーフレベルの洞察を必要とする未知の分子やタスクに一般化するのに苦労する。 このギャップを埋めるために、我々は、粗粒度分子レベルの知識と微細粒度モチーフレベルの知識を協調的に学習する、新しい微細粒度分子グラフテキスト事前学習フレームワークであるFineMolTexを提案する。 具体的には、FineMolTexは、粗いマッチングのための対照的なアライメントタスクと、きめ細かいマッチングのためのマスク付きマルチモーダルモデリングタスクの2つの事前トレーニングタスクで構成されている。 特に、後者は、相互の洞察を活用して、マスクされたモチーフと単語のラベルを予測することで、FinMolTexはモチーフと単語のきめ細かいマッチングを理解することができる。 最後に、3つの下流タスクにまたがる広範な実験を行い、テキストベースの分子編集タスクにおいて最大230%の改善を実現した。 さらにケーススタディでは、FinMolTexがきめ細かな知識を捉えることに成功し、薬物発見と触媒設計に有用な洞察を提供する可能性があることを明らかにした。

Understanding molecular structure and related knowledge is crucial for scientific research. Recent studies integrate molecular graphs with their textual descriptions to enhance molecular representation learning. However, they focus on the whole molecular graph and neglect frequently occurring subgraphs, known as motifs,which are essential for determining molecular properties. Without such fine-grained knowledge, these models struggle to generalize to unseen molecules and tasks that require motif-level insights. To bridge this gap, we propose FineMolTex, a novel Fine-grained Molecular graph-Text pre-training framework to jointly learn coarse-grained molecule-level knowledge and fine-grained motif-level knowledge. Specifically, FineMolTex consists of two pre-training tasks: a contrastive alignment task for coarse-grained matching and a masked multi-modal modeling task for fine-grained matching. In particular, the latter predicts the labels of masked motifs and words, leveraging insights from each other, thereby enabling FineMolTex to understand the fine-grained matching between motifs and words. Finally, we conduct extensive experiments across three downstream tasks, achieving up to 230% improvement in the text-based molecule editing task. Additionally, our case studies reveal that FineMolTex successfully captures fine-grained knowledge, potentially offering valuable insights for drug discovery and catalyst design.
翻訳日:2024-11-07 03:33:25 公開日:2024-10-08
# FineMolTex: 微細なグラフテキスト事前学習を目指して

FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training ( http://arxiv.org/abs/2409.14106v2 )

ライセンス: Link先を確認
Yibo Li, Yuan Fang, Mengmei Zhang, Chuan Shi, (参考訳) 分子構造と関連する知識を理解することは科学研究にとって不可欠である。 近年の研究では、分子グラフをテキスト記述と統合し、分子表現学習を強化している。 しかし、分子グラフ全体に集中し、分子の性質を決定するのに不可欠なモチーフとして知られる頻繁なサブグラフを無視する。 このような細かい知識がなければ、これらのモデルはモチーフレベルの洞察を必要とする未知の分子やタスクに一般化するのに苦労する。 このギャップを埋めるために、我々は、粗粒度分子レベルの知識と微細粒度モチーフレベルの知識を協調的に学習する、新しい微細粒度分子グラフテキスト事前学習フレームワークであるFineMolTexを提案する。 具体的には、FineMolTexは、粗いマッチングのための対照的なアライメントタスクと、きめ細かいマッチングのためのマスク付きマルチモーダルモデリングタスクの2つの事前トレーニングタスクで構成されている。 特に、後者は、相互の洞察を活用して、マスクされたモチーフと単語のラベルを予測することで、FinMolTexはモチーフと単語のきめ細かいマッチングを理解することができる。 最後に、3つの下流タスクにまたがる広範な実験を行い、テキストベースの分子編集タスクにおいて最大230%の改善を実現した。 さらにケーススタディでは、FinMolTexがきめ細かな知識を捉えることに成功し、薬物発見と触媒設計に有用な洞察を提供する可能性があることを明らかにした。

Understanding molecular structure and related knowledge is crucial for scientific research. Recent studies integrate molecular graphs with their textual descriptions to enhance molecular representation learning. However, they focus on the whole molecular graph and neglect frequently occurring subgraphs, known as motifs,which are essential for determining molecular properties. Without such fine-grained knowledge, these models struggle to generalize to unseen molecules and tasks that require motif-level insights. To bridge this gap, we propose FineMolTex, a novel Fine-grained Molecular graph-Text pre-training framework to jointly learn coarse-grained molecule-level knowledge and fine-grained motif-level knowledge. Specifically, FineMolTex consists of two pre-training tasks: a contrastive alignment task for coarse-grained matching and a masked multi-modal modeling task for fine-grained matching. In particular, the latter predicts the labels of masked motifs and words, leveraging insights from each other, thereby enabling FineMolTex to understand the fine-grained matching between motifs and words. Finally, we conduct extensive experiments across three downstream tasks, achieving up to 230% improvement in the text-based molecule editing task. Additionally, our case studies reveal that FineMolTex successfully captures fine-grained knowledge, potentially offering valuable insights for drug discovery and catalyst design.
翻訳日:2024-11-07 03:33:25 公開日:2024-10-08
# 多次元時系列におけるデータ駆動時空間的特徴表現とマイニング

Data-Driven Spatiotemporal Feature Representation and Mining in Multidimensional Time Series ( http://arxiv.org/abs/2409.14327v1 )

ライセンス: Link先を確認
Xu Yan, Yaoting Jiang, Wenyi Liu, Didi Yi, Haoyang Sang, Jianjun Wei, (参考訳) 本稿では,多次元時系列データを扱う際に,従来のマイニング手法の限界を克服することを目的とした時系列データ解析の新しい手法を提案する。 時系列データは、ITインフラの監視と最適化のためのバックエンドサービス、継続的な患者モニタリングと健康傾向分析による診断、ユーザーの行動追跡と売上予測のためのインターネットビジネスなど、さまざまな分野で広く利用されている。 しかし、時系列データの有効な情報は、しばしばシーケンス断片に隠されているため、その長さ、量、形態的変数の不確実性は、採掘に困難をもたらす。 そこで本稿では,多次元時系列(MTS)を一次元の事象列に変換して一次元の事象列に変換する時空間特徴表現法を提案する。 そこで本稿では,イベントシーケンス中の非冗長なキーイベント列を時空間構造として抽出する可変長タプルマイニング手法を提案する。 本手法は,大規模トレーニングサンプルに依存しない教師なしの手法であり,多次元時系列の時空間構造を表現するための新しいモデルを定義する。 STEMモデルの優れた性能は、様々な動き列のパターン分類実験により検証される。 本研究は,人間の行動パターンの理解と予測のための重要な理論的基盤と技術的支援を提供し,実用的価値をはるかに高めている。

This paper explores a new method for time series data analysis, aiming to overcome the limitations of traditional mining techniques when dealing with multidimensional time series data. Time series data are extensively utilized in diverse fields, including backend services for monitoring and optimizing IT infrastructure, medical diagnosis through continuous patient monitoring and health trend analysis, and internet business for tracking user behavior and forecasting sales. However, since the effective information in time series data is often hidden in sequence fragments, the uncertainty of their length, quantity, and morphological variables brings challenges to mining. To this end, this paper proposes a new spatiotemporal feature representation method, which converts multidimensional time series (MTS) into one-dimensional event sequences by transforming spatially varying events, and uses a series of event symbols to represent the spatial structural information of multidimensional coupling in the sequence, which has good interpretability. Then, this paper introduces a variable-length tuple mining method to extract non-redundant key event subsequences in event sequences as spatiotemporal structural features of motion sequences. This method is an unsupervised method that does not rely on large-scale training samples and defines a new model for representing the spatiotemporal structural features of multidimensional time series. The superior performance of the STEM model is verified by pattern classification experiments on a variety of motion sequences. The research results of this paper provide an important theoretical basis and technical support for understanding and predicting human behavior patterns, and have far-reaching practical application value.
翻訳日:2024-11-06 23:15:03 公開日:2024-10-08
# 高度データマイニングのための多次元時系列を解釈可能なイベントシーケンスに変換する

Transforming Multidimensional Time Series into Interpretable Event Sequences for Advanced Data Mining ( http://arxiv.org/abs/2409.14327v2 )

ライセンス: Link先を確認
Xu Yan, Yaoting Jiang, Wenyi Liu, Didi Yi, Jianjun Wei, (参考訳) 本稿では,多次元時系列解析における従来の手法の限界に対処する新しい時空間特徴表現モデルを提案する。 提案手法は,MTSを空間的に進化する事象の1次元列に変換し,次元間の複雑な結合関係を保存する。 可変長タプルマイニング法を用いることで、時系列解析の解釈性と精度を高めるとともに、時空間的特徴を抽出する。 従来のモデルとは異なり、この教師なしの方法は大規模なトレーニングデータセットに依存しないため、異なるドメインにまたがって適用可能である。 動作シーケンス分類による実験結果は、データ内の複雑なパターンをキャプチャする際のモデルの優れた性能を評価する。 提案するフレームワークは,ITインフラの監視と最適化のためのバックエンドサービス,継続的な患者モニタリングと健康動向分析による診断,ユーザ行動の追跡と売上予測のためのインターネットビジネスなど,さまざまな分野のアプリケーションに対して大きな可能性を秘めている。 この研究は、時系列データマイニングの新たな理論的基盤と技術的支援と、人間の行動認識やその他の領域における実践的応用を提供する。

This paper introduces a novel spatiotemporal feature representation model designed to address the limitations of traditional methods in multidimensional time series (MTS) analysis. The proposed approach converts MTS into one-dimensional sequences of spatially evolving events, preserving the complex coupling relationships between dimensions. By employing a variable-length tuple mining method, key spatiotemporal features are extracted, enhancing the interpretability and accuracy of time series analysis. Unlike conventional models, this unsupervised method does not rely on large training datasets, making it adaptable across different domains. Experimental results from motion sequence classification validate the model's superior performance in capturing intricate patterns within the data. The proposed framework has significant potential for applications across various fields, including backend services for monitoring and optimizing IT infrastructure, medical diagnosis through continuous patient monitoring and health trend analysis, and internet businesses for tracking user behavior and forecasting sales. This work offers a new theoretical foundation and technical support for advancing time series data mining and its practical applications in human behavior recognition and other domains.
翻訳日:2024-11-06 23:15:03 公開日:2024-10-08
# HW-TSCのCCMT 2024機械翻訳タスクへの参加

HW-TSC's Submission to the CCMT 2024 Machine Translation Tasks ( http://arxiv.org/abs/2409.14842v1 )

ライセンス: Link先を確認
Zhanglin Wu, Yuanchang Luo, Daimeng Wei, Jiawei Zheng, Bin Wei, Zongyao Li, Hengchao Shang, Jiaxin Guo, Shaojun Li, Weidong Zhang, Ning Xie, Hao Yang, (参考訳) 本稿では,第20回中国機械翻訳会議(CCMT 2024)の機械翻訳タスクにHuawei Translation Services Center(HW-TSC)を提出する。 我々はバイリンガル機械翻訳タスクとマルチドメイン機械翻訳タスクに参加する。 これら2つの翻訳タスクでは、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交互学習、カリキュラム学習、トランスダクティブアンサンブル学習といったトレーニング戦略を用いて、Deep Transformer-Bigアーキテクチャに基づいたニューラルマシン翻訳(NMT)モデルをトレーニングする。 さらに,大規模言語モデル (LLM) がNMTシステムの翻訳品質向上に有効かどうかを検討するために,教師付き微調整を用いて,マルチドメイン機械翻訳タスクにおけるNMTモデルの翻訳結果を改善するために,自動後編集(APE)モデルとしてラマ2-13bを訓練する。 これらのピロメトリ戦略を用いることで,提案手法は最終評価において競合的な結果が得られる。

This paper presents the submission of Huawei Translation Services Center (HW-TSC) to machine translation tasks of the 20th China Conference on Machine Translation (CCMT 2024). We participate in the bilingual machine translation task and multi-domain machine translation task. For these two translation tasks, we use training strategies such as regularized dropout, bidirectional training, data diversification, forward translation, back translation, alternated training, curriculum learning, and transductive ensemble learning to train neural machine translation (NMT) models based on the deep Transformer-big architecture. Furthermore, to explore whether large language model (LLM) can help improve the translation quality of NMT systems, we use supervised fine-tuning to train llama2-13b as an Automatic post-editing (APE) model to improve the translation results of the NMT model on the multi-domain machine translation task. By using these plyometric strategies, our submission achieves a competitive result in the final evaluation.
翻訳日:2024-11-06 20:50:08 公開日:2024-10-08
# HW-TSCのCCMT 2024機械翻訳タスクへの参加

HW-TSC's Submission to the CCMT 2024 Machine Translation Tasks ( http://arxiv.org/abs/2409.14842v2 )

ライセンス: Link先を確認
Zhanglin Wu, Yuanchang Luo, Daimeng Wei, Jiawei Zheng, Bin Wei, Zongyao Li, Hengchao Shang, Jiaxin Guo, Shaojun Li, Weidong Zhang, Ning Xie, Hao Yang, (参考訳) 本稿では,第20回中国機械翻訳会議(CCMT 2024)の機械翻訳タスクにHuawei Translation Services Center(HW-TSC)を提出する。 我々はバイリンガル機械翻訳タスクとマルチドメイン機械翻訳タスクに参加する。 これら2つの翻訳タスクでは、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交互学習、カリキュラム学習、トランスダクティブアンサンブル学習といったトレーニング戦略を用いて、Deep Transformer-Bigアーキテクチャに基づいたニューラルマシン翻訳(NMT)モデルをトレーニングする。 さらに,大規模言語モデル (LLM) がNMTシステムの翻訳品質向上に有効かどうかを検討するために,教師付き微調整を用いて,マルチドメイン機械翻訳タスクにおけるNMTモデルの翻訳結果を改善するために,自動後編集(APE)モデルとしてラマ2-13bを訓練する。 これらのピロメトリ戦略を用いることで,提案手法は最終評価において競合的な結果が得られる。

This paper presents the submission of Huawei Translation Services Center (HW-TSC) to machine translation tasks of the 20th China Conference on Machine Translation (CCMT 2024). We participate in the bilingual machine translation task and multi-domain machine translation task. For these two translation tasks, we use training strategies such as regularized dropout, bidirectional training, data diversification, forward translation, back translation, alternated training, curriculum learning, and transductive ensemble learning to train neural machine translation (NMT) models based on the deep Transformer-big architecture. Furthermore, to explore whether large language model (LLM) can help improve the translation quality of NMT systems, we use supervised fine-tuning to train llama2-13b as an Automatic post-editing (APE) model to improve the translation results of the NMT model on the multi-domain machine translation task. By using these plyometric strategies, our submission achieves a competitive result in the final evaluation.
翻訳日:2024-11-06 20:50:08 公開日:2024-10-08
# HW-TSCのCCMT 2024機械翻訳タスクへの参加

HW-TSC's Submission to the CCMT 2024 Machine Translation Tasks ( http://arxiv.org/abs/2409.14842v3 )

ライセンス: Link先を確認
Zhanglin Wu, Yuanchang Luo, Daimeng Wei, Jiawei Zheng, Bin Wei, Zongyao Li, Hengchao Shang, Jiaxin Guo, Shaojun Li, Weidong Zhang, Ning Xie, Hao Yang, (参考訳) 本稿では,第20回中国機械翻訳会議(CCMT 2024)の機械翻訳タスクにHuawei Translation Services Center(HW-TSC)を提出する。 我々はバイリンガル機械翻訳タスクとマルチドメイン機械翻訳タスクに参加する。 これら2つの翻訳タスクでは、正規化ドロップアウト、双方向トレーニング、データ多様化、前方翻訳、後方翻訳、交互学習、カリキュラム学習、トランスダクティブアンサンブル学習といったトレーニング戦略を用いて、Deep Transformer-Bigアーキテクチャに基づいたニューラルマシン翻訳(NMT)モデルをトレーニングする。 さらに,大規模言語モデル (LLM) がNMTシステムの翻訳品質向上に有効かどうかを検討するために,教師付き微調整を用いて,マルチドメイン機械翻訳タスクにおけるNMTモデルの翻訳結果を改善するために,自動後編集(APE)モデルとしてラマ2-13bを訓練する。 これらのピロメトリ戦略を用いることで,提案手法は最終評価において競合的な結果が得られる。

This paper presents the submission of Huawei Translation Services Center (HW-TSC) to machine translation tasks of the 20th China Conference on Machine Translation (CCMT 2024). We participate in the bilingual machine translation task and multi-domain machine translation task. For these two translation tasks, we use training strategies such as regularized dropout, bidirectional training, data diversification, forward translation, back translation, alternated training, curriculum learning, and transductive ensemble learning to train neural machine translation (NMT) models based on the deep Transformer-big architecture. Furthermore, to explore whether large language model (LLM) can help improve the translation quality of NMT systems, we use supervised fine-tuning to train llama2-13b as an Automatic post-editing (APE) model to improve the translation results of the NMT model on the multi-domain machine translation task. By using these plyometric strategies, our submission achieves a competitive result in the final evaluation.
翻訳日:2024-11-06 20:50:08 公開日:2024-10-08
# LLMに対するファジテスト駆動型ジェイルブレーキング攻撃の有効性と普及

Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs ( http://arxiv.org/abs/2409.14866v1 )

ライセンス: Link先を確認
Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam, (参考訳) 大規模言語モデル(LLM)は様々なタスクに優れていますが、攻撃者が有害または攻撃的なコンテンツを生成するためにモデルを誤解させるジェイルブレイクのプロンプトを作成するという、ジェイルブレイク攻撃に対して依然として脆弱です。 現在のjailbreakメソッドは手作業によるテンプレートに大きく依存しているため、スケーラビリティと適応性の課題が生じるか、セマンティックな一貫性のあるプロンプトの生成に苦労しているため、検出が容易である。 さらに、既存のほとんどのアプローチは、長いプロンプトを伴い、より高いクエリコストをもたらす。この記事では、これらの課題を解決するために、一連のカスタマイズされた設計でブラックボックスファジテストアプローチに適応する、ブラックボックスのジェイルブレイク攻撃フレームワークである、新しいジェイルブレーク攻撃フレームワークを導入します。 手作りのテンプレートに頼る代わりに、私たちのメソッドは空のシードプールから始まり、関連するジェイルブレイクテンプレートを検索する必要がなくなる。 また,LLMヘルパーを用いて,意味的コヒーレンスを維持しつつ,その長さを大幅に減少させるプロンプトを生成する3つの新規な質問依存突然変異戦略を開発した。 さらに,真に成功したジェイルブレイクを正確に検出する2レベル判定モジュールを実装した。 本手法を 7 種類の LLM 上で評価し、5 つの最先端のジェイルブレイク攻撃戦略と比較した。 GPT-3.5ターボ, GPT-4, Gemini-Pro などの独自 LLM API に対して, 攻撃成功率は 90% 以上, 80% および 74% 以上であり, 既存のベースラインを 60% 以上越えている。 さらに,本手法は,ジェイルブレイクプロンプトの長さを大幅に削減しつつ,高いセマンティック・コヒーレンスを維持することができる。 GPT-4を対象とする場合,100トークンであっても,攻撃成功率78\%以上を達成することができる。 さらに,本手法は移動可能性を示し,最先端の防御に頑健である。 私たちは公開時にコードをオープンソース化します。

Large Language Models (LLMs) have excelled in various tasks but are still vulnerable to jailbreaking attacks, where attackers create jailbreak prompts to mislead the model to produce harmful or offensive content. Current jailbreak methods either rely heavily on manually crafted templates, which pose challenges in scalability and adaptability, or struggle to generate semantically coherent prompts, making them easy to detect. Additionally, most existing approaches involve lengthy prompts, leading to higher query costs.In this paper, to remedy these challenges, we introduce a novel jailbreaking attack framework, which is an automated, black-box jailbreaking attack framework that adapts the black-box fuzz testing approach with a series of customized designs. Instead of relying on manually crafted templates, our method starts with an empty seed pool, removing the need to search for any related jailbreaking templates. We also develop three novel question-dependent mutation strategies using an LLM helper to generate prompts that maintain semantic coherence while significantly reducing their length. Additionally, we implement a two-level judge module to accurately detect genuine successful jailbreaks. We evaluated our method on 7 representative LLMs and compared it with 5 state-of-the-art jailbreaking attack strategies. For proprietary LLM APIs, such as GPT-3.5 turbo, GPT-4, and Gemini-Pro, our method achieves attack success rates of over 90%, 80%, and 74%, respectively, exceeding existing baselines by more than 60%. Additionally, our method can maintain high semantic coherence while significantly reducing the length of jailbreak prompts. When targeting GPT-4, our method can achieve over 78\% attack success rate even with 100 tokens. Moreover, our method demonstrates transferability and is robust to state-of-the-art defenses. We will open-source our codes upon publication.
翻訳日:2024-11-06 20:39:08 公開日:2024-10-08
# LLMに対するファジテスト駆動型ジェイルブレーキング攻撃の有効性と普及

Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs ( http://arxiv.org/abs/2409.14866v2 )

ライセンス: Link先を確認
Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam, (参考訳) 大規模言語モデル(LLM)は様々なタスクに優れていますが、攻撃者が有害または攻撃的なコンテンツを生成するためにモデルを誤解させるジェイルブレイクのプロンプトを作成するという、ジェイルブレイク攻撃に対して依然として脆弱です。 現在のjailbreakメソッドは手作業によるテンプレートに大きく依存しているため、スケーラビリティと適応性の課題が生じるか、セマンティックな一貫性のあるプロンプトの生成に苦労しているため、検出が容易である。 さらに、既存のほとんどのアプローチは、長いプロンプトを伴い、より高いクエリコストをもたらす。この記事では、これらの課題を解決するために、一連のカスタマイズされた設計でブラックボックスファジテストアプローチに適応する、ブラックボックスのジェイルブレイク攻撃フレームワークである、新しいジェイルブレーク攻撃フレームワークを導入します。 手作りのテンプレートに頼る代わりに、私たちのメソッドは空のシードプールから始まり、関連するジェイルブレイクテンプレートを検索する必要がなくなる。 また,LLMヘルパーを用いて,意味的コヒーレンスを維持しつつ,その長さを大幅に減少させるプロンプトを生成する3つの新規な質問依存突然変異戦略を開発した。 さらに,真に成功したジェイルブレイクを正確に検出する2レベル判定モジュールを実装した。 本手法を 7 種類の LLM 上で評価し、5 つの最先端のジェイルブレイク攻撃戦略と比較した。 GPT-3.5ターボ, GPT-4, Gemini-Pro などの独自 LLM API に対して, 攻撃成功率は90%,80%, 74% 以上であり, 既存のベースラインを60%以上越えている。 さらに,本手法は,ジェイルブレイクプロンプトの長さを大幅に削減しつつ,高いセマンティック・コヒーレンスを維持することができる。 GPT-4を目標とする場合,100トークンでも78%以上の攻撃成功率が得られる。 さらに,本手法は移動可能性を示し,最先端の防御に頑健である。 私たちは公開時にコードをオープンソース化します。

Large Language Models (LLMs) have excelled in various tasks but are still vulnerable to jailbreaking attacks, where attackers create jailbreak prompts to mislead the model to produce harmful or offensive content. Current jailbreak methods either rely heavily on manually crafted templates, which pose challenges in scalability and adaptability, or struggle to generate semantically coherent prompts, making them easy to detect. Additionally, most existing approaches involve lengthy prompts, leading to higher query costs.In this paper, to remedy these challenges, we introduce a novel jailbreaking attack framework, which is an automated, black-box jailbreaking attack framework that adapts the black-box fuzz testing approach with a series of customized designs. Instead of relying on manually crafted templates, our method starts with an empty seed pool, removing the need to search for any related jailbreaking templates. We also develop three novel question-dependent mutation strategies using an LLM helper to generate prompts that maintain semantic coherence while significantly reducing their length. Additionally, we implement a two-level judge module to accurately detect genuine successful jailbreaks. We evaluated our method on 7 representative LLMs and compared it with 5 state-of-the-art jailbreaking attack strategies. For proprietary LLM APIs, such as GPT-3.5 turbo, GPT-4, and Gemini-Pro, our method achieves attack success rates of over 90%,80% and 74%, respectively, exceeding existing baselines by more than 60%. Additionally, our method can maintain high semantic coherence while significantly reducing the length of jailbreak prompts. When targeting GPT-4, our method can achieve over 78% attack success rate even with 100 tokens. Moreover, our method demonstrates transferability and is robust to state-of-the-art defenses. We will open-source our codes upon publication.
翻訳日:2024-11-06 20:39:08 公開日:2024-10-08
# 量子エラーの訂正、時間外取引を超過

Quantum Error Correction of Qudits Beyond Break-even ( http://arxiv.org/abs/2409.15065v2 )

ライセンス: Link先を確認
Benjamin L. Brock, Shraddha Singh, Alec Eickbusch, Volodymyr V. Sivak, Andy Z. Ding, Luigi Frunzio, Steven M. Girvin, Michel H. Devoret, (参考訳) ヒルベルト空間次元は量子情報処理の鍵となる資源である。 大きなヒルベルト空間は量子誤り訂正の必須条件であるだけでなく、ゲートやアルゴリズムをより効率的に実現するためにも有利である。 近年,量子情報の基本単位として量子ディット(d>2)を用いた量子コンピューティングプラットフォームの開発が試みられている。 量子ビットと同様に、これらの量子クディットの量子誤差補正は長期的には必要だが、論理クディットの現在までの誤差補正は実験的に実証されていない。 本稿では,Gottesman-Kitaev-Preskill(GKP)ボソニックコードを用いて,誤り訂正論理クォート(d=3)とququart(d=4)を実験的に実現したことを報告する。 強化学習エージェントを用いて、GKP量子ビット(ququart)を3次(準)量子メモリとして最適化し、1.82+/-0.03(1.87+/-0.03)の誤差補正を達成した。 この研究は、ハードウェア効率の量子誤差補正のための高調波発振器の大きなヒルベルト空間を利用する新しい方法である。

Hilbert space dimension is a key resource for quantum information processing. A large Hilbert space is not only an essential requirement for quantum error correction, but it can also be advantageous for realizing gates and algorithms more efficiently. There has thus been considerable experimental effort in recent years to develop quantum computing platforms using qudits (d-dimensional quantum systems with d>2) as the fundamental unit of quantum information. Just as with qubits, quantum error correction of these qudits will be necessary in the long run, but to date error correction of logical qudits has not been demonstrated experimentally. Here we report the experimental realization of an error-corrected logical qutrit (d=3) and ququart (d=4) by employing the Gottesman-Kitaev-Preskill (GKP) bosonic code. Using a reinforcement learning agent, we optimize the GKP qutrit (ququart) as a ternary (quaternary) quantum memory and achieve beyond break-even error correction with a gain of 1.82 +/- 0.03 (1.87 +/- 0.03). This work represents a new way of leveraging the large Hilbert space of a harmonic oscillator for hardware-efficient quantum error correction.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-08
# 給与交渉アドバイスのためのAIを求めることは、懸念事項である: 明確な根拠のない文脈的タスクにおける保護的および非保護的グループ識別のためのChatGPTの実験的摂動を制御した

Asking an AI for salary negotiation advice is a matter of concern: Controlled experimental perturbation of ChatGPT for protected and non-protected group discrimination on a contextual task with no clear ground truth answers ( http://arxiv.org/abs/2409.15567v2 )

ライセンス: Link先を確認
R. Stuart Geiger, Flynn O'Sullivan, Elsie Wang, Jonathan Lo, (参考訳) そこで我々は,ChatGPTの4種類の試験的バイアス監査を実施し,新たな雇用のための給与交渉のオープニングオファーを推奨した。 我々は、各バージョンに98,800通のプロンプトを提出し、従業員の性別、大学、メジャーを体系的に変更し、交渉の両側、すなわち雇用主対雇用主との声でプロンプトをテストした。 マルチモデルプラットフォームとしてのChatGPTは、そのようなタスクに対して信頼できるほど堅牢で一貫したものではない。 性別が4モデルごとに異なる場合, 統計学的に有意な給与提供が認められたが, 他の属性に比べて差は小さい。 最大のギャップは、異なるモデルバージョンと、従業員と雇用主が投票したプロンプトの間にあった。 また、大学やメジャーの異なる時期には、かなりのギャップが見られたが、多くのバイアスはモデルバージョン間で一致していなかった。 虚偽の大学のためにテストし、ケースやモデルバージョンで非常に一貫性のない結果を見つけました。 AI/MLフェアネス文学に幅広い貢献をしています。 我々のシナリオと実験設計は、主要な方法でAI/ML監査のメインストリームとは異なる。 バイアス監査は、通常、性別のような保護されたクラスに対する差別をテストする。 交渉のアドバイスを求めるには、既知の経験的給与の分配や規模に対して、いかに積極的に交渉すべきか、などが含まれる。 これらの結果は、私たちがテストした特定のモデルバージョンと、継続的開発におけるマルチモデルプラットフォームとしてのChatGPTに対する懸念を引き起こします。 私たちの認識学は、これらのモデルを、テストする属性に偏ったり、偏りのないものとして、断定的に認定することができませんが、我々の研究は、ステークホルダーがさらなる調査を行うための関心事を引き起こします。

We conducted controlled experimental bias audits for four versions of ChatGPT, which we asked to recommend an opening offer in salary negotiations for a new hire. We submitted 98,800 prompts to each version, systematically varying the employee's gender, university, and major, and tested prompts in voice of each side of the negotiation: the employee versus employer. We find ChatGPT as a multi-model platform is not robust and consistent enough to be trusted for such a task. We observed statistically significant salary offers when varying gender for all four models, although with smaller gaps than for other attributes tested. The largest gaps were different model versions and between the employee- vs employer-voiced prompts. We also observed substantial gaps when varying university and major, but many of the biases were not consistent across model versions. We tested for fictional and fraudulent universities and found wildly inconsistent results across cases and model versions. We make broader contributions to the AI/ML fairness literature. Our scenario and our experimental design differ from mainstream AI/ML auditing efforts in key ways. Bias audits typically test discrimination for protected classes like gender, which we contrast with testing non-protected classes of university and major. Asking for negotiation advice includes how aggressive one ought to be in a negotiation relative to known empirical salary distributions and scales, which is a deeply contextual and personalized task that has no objective ground truth to validate. These results raise concerns for the specific model versions we tested and ChatGPT as a multi-model platform in continuous development. Our epistemology does not permit us to definitively certify these models as either generally biased or unbiased on the attributes we test, but our study raises matters of concern for stakeholders to further investigate.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-08
# 給与交渉アドバイスのためのAIを求めることは、懸念事項である: 明確な根拠のない文脈的タスクにおける保護的および非保護的グループ識別のためのChatGPTの実験的摂動を制御した

Asking an AI for salary negotiation advice is a matter of concern: Controlled experimental perturbation of ChatGPT for protected and non-protected group discrimination on a contextual task with no clear ground truth answers ( http://arxiv.org/abs/2409.15567v3 )

ライセンス: Link先を確認
R. Stuart Geiger, Flynn O'Sullivan, Elsie Wang, Jonathan Lo, (参考訳) そこで我々は,ChatGPTの4種類の試験的バイアス監査を実施し,新たな雇用のための給与交渉のオープニングオファーを推奨した。 我々は、各バージョンに98,800通のプロンプトを提出し、従業員の性別、大学、メジャーを体系的に変更し、交渉の両側、すなわち雇用主対雇用主との声でプロンプトをテストした。 マルチモデルプラットフォームとしてのChatGPTは、そのようなタスクに対して信頼できるほど堅牢で一貫したものではない。 性別が4モデルごとに異なる場合, 統計学的に有意な給与提供が認められたが, 他の属性に比べて差は小さい。 最大のギャップは、異なるモデルバージョンと、従業員と雇用主が投票したプロンプトの間にあった。 また、大学やメジャーの異なる時期には、かなりのギャップが見られたが、多くのバイアスはモデルバージョン間で一致していなかった。 虚偽の大学のためにテストし、ケースやモデルバージョンで非常に一貫性のない結果を見つけました。 AI/MLフェアネス文学に幅広い貢献をしています。 我々のシナリオと実験設計は、主要な方法でAI/ML監査のメインストリームとは異なる。 バイアス監査は、通常、性別のような保護されたクラスに対する差別をテストする。 交渉のアドバイスを求めるには、既知の経験的給与の分配や規模に対して、いかに積極的に交渉すべきか、などが含まれる。 これらの結果は、私たちがテストした特定のモデルバージョンと、継続的開発におけるマルチモデルプラットフォームとしてのChatGPTに対する懸念を引き起こします。 私たちの認識学は、これらのモデルを、テストする属性に偏ったり、偏りのないものとして、断定的に認定することができませんが、我々の研究は、ステークホルダーがさらなる調査を行うための関心事を引き起こします。

We conducted controlled experimental bias audits for four versions of ChatGPT, which we asked to recommend an opening offer in salary negotiations for a new hire. We submitted 98,800 prompts to each version, systematically varying the employee's gender, university, and major, and tested prompts in voice of each side of the negotiation: the employee versus employer. We find ChatGPT as a multi-model platform is not robust and consistent enough to be trusted for such a task. We observed statistically significant salary offers when varying gender for all four models, although with smaller gaps than for other attributes tested. The largest gaps were different model versions and between the employee- vs employer-voiced prompts. We also observed substantial gaps when varying university and major, but many of the biases were not consistent across model versions. We tested for fictional and fraudulent universities and found wildly inconsistent results across cases and model versions. We make broader contributions to the AI/ML fairness literature. Our scenario and our experimental design differ from mainstream AI/ML auditing efforts in key ways. Bias audits typically test discrimination for protected classes like gender, which we contrast with testing non-protected classes of university and major. Asking for negotiation advice includes how aggressive one ought to be in a negotiation relative to known empirical salary distributions and scales, which is a deeply contextual and personalized task that has no objective ground truth to validate. These results raise concerns for the specific model versions we tested and ChatGPT as a multi-model platform in continuous development. Our epistemology does not permit us to definitively certify these models as either generally biased or unbiased on the attributes we test, but our study raises matters of concern for stakeholders to further investigate.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-08
# AIは認知的バイアスを受ける: LLMベースのバッチ関連性評価における閾値プライミングの探索的研究

AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment ( http://arxiv.org/abs/2409.16022v2 )

ライセンス: Link先を確認
Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu, (参考訳) 認知バイアス(Cognitive bias)は、不合理な判断や問題のある意思決定につながる思考における体系的な偏見であり、様々な分野にわたって広く研究されている。 近年、大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。 LLMの社会的偏見はよく研究されているが、認知的偏見は、特定のシナリオに焦点を当てた既存の研究により、より少ない注意を払っている。 様々な意思決定文脈における認知バイアスのLLMへの影響は未解明のままである。 関連判断におけるしきい値プライミング効果,中核的課題,およびIR(Information Retrieval)コミューニティ(IR)コミューニティにおける広く議論されている研究トピックの影響について検討した。 プライミング効果は、特定の刺激への曝露がその後の行動や決定に無意識に影響を及ぼすときに起こる。 GPT-3.5, GPT-4, LLaMa2-13B, LLaMa2-70Bなどの文書関連スコア, バッチ長, LLMモデルでAI判定を行った。 その結果, LLMは, 組み合わせやモデルによらず, 先行する文書が関連性が高い場合, 後続の文書に低スコアを与える傾向を示した。 我々の発見は、LLM%u2019s判断は人間の判断と同様、しきい値プライミングバイアスの影響を受けていることを示しており、研究者やシステムエンジニアは、IRタスク以降におけるLLMの設計、評価、監査において、人間のような認知バイアスを考慮に入れるべきであることを示唆している。

Cognitive biases are systematic deviations in thinking that lead to irrational judgments and problematic decision-making, extensively studied across various fields. Recently, large language models (LLMs) have shown advanced understanding capabilities but may inherit human biases from their training data. While social biases in LLMs have been well-studied, cognitive biases have received less attention, with existing research focusing on specific scenarios. The broader impact of cognitive biases on LLMs in various decision-making contexts remains underexplored. We investigated whether LLMs are influenced by the threshold priming effect in relevance judgments, a core task and widely-discussed research topic in the Information Retrieval (IR) coummunity. The priming effect occurs when exposure to certain stimuli unconsciously affects subsequent behavior and decisions. Our experiment employed 10 topics from the TREC 2019 Deep Learning passage track collection, and tested AI judgments under different document relevance scores, batch lengths, and LLM models, including GPT-3.5, GPT-4, LLaMa2-13B and LLaMa2-70B. Results showed that LLMs tend to give lower scores to later documents if earlier ones have high relevance, and vice versa, regardless of the combination and model used. Our finding demonstrates that LLM%u2019s judgments, similar to human judgments, are also influenced by threshold priming biases, and suggests that researchers and system engineers should take into account potential human-like cognitive biases in designing, evaluating, and auditing LLMs in IR tasks and beyond.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-08
# Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing

Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing ( http://arxiv.org/abs/2409.16832v2 )

ライセンス: Link先を確認
Lyudong Jin, Ming Tang, Jiayu Pan, Meng Zhang, Hao Wang, (参考訳) サイバー物理システム(CPS)のような新興のリアルタイムネットワークアプリケーションにおいて、Age of Information(AoI)は、タイムラインを評価するための重要な指標として統合されている。 CPS内のインテリジェントな製造などの高い計算要求を満たすため、モバイルエッジコンピューティング(MEC)は、コンピューティングの最適化とAoIの削減に有望なソリューションを提供する。 本研究では,計算集約的な更新のタイムラインを調査し,AoIの最小化のためにタスクの更新とオフロードを共同で最適化する。 具体的には、エッジ負荷のダイナミクスを考慮し、期待時間平均AoIを最小化するためにタスクスケジューリング問題を定式化する。 AoIによって導入された分数目的と、この問題の半マルコフゲームの性質は、既存のアプローチが直接適用されないため、この問題を特に困難にしている。 この目的のために,分数強化学習(RL)のための包括的枠組みを提案する。 まず、分数単エージェントRLフレームワークを導入し、その線形収束を証明した。 次に、収束解析を用いて、これを分数的マルチエージェントRLフレームワークに拡張する。 セミマルコフゲームにおける非同期制御の課題に対処するため、非同期モデルのない分数化マルチエージェントRLアルゴリズムを設計し、各デバイスが他のデバイスのシステムダイナミクスや決定を知らずに、ハイブリッドアクション空間でスケジューリング決定を行う。 実験結果から,提案アルゴリズムは実験における最良ベースラインアルゴリズムと比較して平均AoIを最大52.6%削減することを示した。

In the realm of emerging real-time networked applications like cyber-physical systems (CPS), the Age of Information (AoI) has merged as a pivotal metric for evaluating the timeliness. To meet the high computational demands, such as those in intelligent manufacturing within CPS, mobile edge computing (MEC) presents a promising solution for optimizing computing and reducing AoI. In this work, we study the timeliness of computational-intensive updates and explores jointly optimize the task updating and offloading policies to minimize AoI. Specifically, we consider edge load dynamics and formulate a task scheduling problem to minimize the expected time-average AoI. The fractional objective introduced by AoI and the semi-Markov game nature of the problem render this challenge particularly difficult, with existing approaches not directly applicable. To this end, we present a comprehensive framework to fractional reinforcement learning (RL). We first introduce a fractional single-agent RL framework and prove its linear convergence. We then extend this to a fractional multi-agent RL framework with a convergence analysis. To tackle the challenge of asynchronous control in semi-Markov game, we further design an asynchronous model-free fractional multi-agent RL algorithm, where each device makes scheduling decisions with the hybrid action space without knowing the system dynamics and decisions of other devices. Experimental results show that our proposed algorithms reduce the average AoI by up to 52.6% compared with the best baseline algorithm in our experiments.
翻訳日:2024-11-06 17:20:02 公開日:2024-10-08
# セマンティックセグメンテーションのためのビジョンファウンデーションモデルのロバスト性評価

First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation ( http://arxiv.org/abs/2409.17208v2 )

ライセンス: Link先を確認
Tommie Kerssies, Daan de Geus, Gijs Dubbelman, (参考訳) 本報告では,ECCV 2024 BRAVO Challengeにおいて,モデルがCityscapesでトレーニングされ,その堅牢性はいくつかのアウト・オブ・ディストリビューションデータセットで評価される。 我々のソリューションは、DINOv2に単純なセグメンテーションデコーダを付加し、モデル全体を微調整することで、ビジョンファウンデーションモデルによって学習された強力な表現を活用する。 このアプローチは、より複雑な既存のアプローチよりも優れており、チャレンジにおいて第一位を達成しています。 私たちのコードはhttps://github.com/tue-mps/benchmark-vfm-ss.comで公開されています。

In this report, we present the first place solution to the ECCV 2024 BRAVO Challenge, where a model is trained on Cityscapes and its robustness is evaluated on several out-of-distribution datasets. Our solution leverages the powerful representations learned by vision foundation models, by attaching a simple segmentation decoder to DINOv2 and fine-tuning the entire model. This approach outperforms more complex existing approaches, and achieves first place in the challenge. Our code is publicly available at https://github.com/tue-mps/benchmark-vfm-ss.
翻訳日:2024-11-06 16:40:36 公開日:2024-10-08
# TA-Cleaner:マルチモーダルコントラスト学習のためのきめ細かいテキストアライメントバックドアディフェンス戦略

TA-Cleaner: A Fine-grained Text Alignment Backdoor Defense Strategy for Multimodal Contrastive Learning ( http://arxiv.org/abs/2409.17601v2 )

ライセンス: Link先を確認
Yuan Xun, Siyuan Liang, Xiaojun Jia, Xinwei Liu, Xiaochun Cao, (参考訳) CLIPのようなマルチモーダル・コントラスト学習のための事前訓練済みの大規模モデルは、業界ではデータポゾンによるバックドア攻撃の影響を受けやすいと広く認識されている。 これは下流モデルのトレーニングに重大なリスクをもたらす。 このような潜在的な脅威に対応するため、ファインタニングは、強化されたデータで大規模なモデルを再訓練するよりも、よりシンプルで効率的な防御選択を提供する。 教師付き学習領域では、微調整防衛戦略は優れた防御性能を達成することができる。 しかし、教師なし・半教師なしの領域では、CLIPがいくつかの複雑な攻撃技術に直面している場合、既存の微調整防衛戦略であるCleanCLIPは防御性能にいくつかの制限がある。 テキスト拡張の同義語置換は、テキスト特徴空間を強化するには不十分である。 この弱点を補うために、バックドアトリガの特徴的接続を遮断するために、細粒度の \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) を提案する。 クリーンなCLIPの各エポックにおいて、正および負のサブテキスト生成のためのサンプルをランダムに選択し、そのサブテキストを画像にアライメントして、テキストの自己監督を強化する。 6つの攻撃アルゴリズムに対するTA-Cleanerの有効性を評価し,ImageNet1K上で包括的なゼロショット分類試験を行う。 実験により, TA-Cleanerはファインタニングによる防御技術において, 最先端の防御性を達成できることが確認された。 新規攻撃技術BadCLIPに直面しても, TA-CleanerはTop-1とTop-10のASRをそれぞれ52.02\%, 63.88\%減らしてクリーンCLIPより優れていた。

Pre-trained large models for multimodal contrastive learning, such as CLIP, have been widely recognized in the industry as highly susceptible to data-poisoned backdoor attacks. This poses significant risks to downstream model training. In response to such potential threats, finetuning offers a simpler and more efficient defense choice compared to retraining large models with augmented data. In the supervised learning domain, fine-tuning defense strategies can achieve excellent defense performance. However, in the unsupervised and semi-supervised domain, we find that when CLIP faces some complex attack techniques, the existing fine-tuning defense strategy, CleanCLIP, has some limitations on defense performance. The synonym substitution of its text-augmentation is insufficient to enhance the text feature space. To compensate for this weakness, we improve it by proposing a fine-grained \textbf{T}ext \textbf{A}lignment \textbf{C}leaner (TA-Cleaner) to cut off feature connections of backdoor triggers. We randomly select a few samples for positive and negative subtext generation at each epoch of CleanCLIP, and align the subtexts to the images to strengthen the text self-supervision. We evaluate the effectiveness of our TA-Cleaner against six attack algorithms and conduct comprehensive zero-shot classification tests on ImageNet1K. Our experimental results demonstrate that TA-Cleaner achieves state-of-the-art defensiveness among finetuning-based defense techniques. Even when faced with the novel attack technique BadCLIP, our TA-Cleaner outperforms CleanCLIP by reducing the ASR of Top-1 and Top-10 by 52.02\% and 63.88\%, respectively.
翻訳日:2024-11-06 16:10:55 公開日:2024-10-08
# (SPT-)射影的非可逆対称性からのLSM定理

(SPT-)LSM theorems from projective non-invertible symmetries ( http://arxiv.org/abs/2409.18113v2 )

ライセンス: Link先を確認
Salvatore D. Pace, Ho Tat Lam, Ömer M. Aksoy, (参考訳) 射影対称性は量子格子モデルにおいてユビキタスであり、位相図や絡み合い構造を制約するために利用することができる。 本稿では,非可逆対称性と格子変換によって形成される射影代数の群値量子XYモデルにおける帰結について検討する。 このモデルは有限群$G$で指定され、射影的$\mathsf{Rep}(G)\times Z(G)$と翻訳対称性を楽しむ。 可逆対称性について、そのような射影代数はリーブ・シュルツ・マティス(LSM)異常を暗示する。 しかし、これは一般に非可逆対称性には当てはまらないので、LSM異常の存在に対して$G$の条件を導出する。 この条件が満たされていない場合、SPT-LSM定理を証明し、任意の特異かつギャップ付き基底状態は必然的に非可逆弱対称性保護位相(SPT)状態であり、非自明な絡み合いを持つ。 射影性はまた、$\mathsf{Rep}(G)\times Z(G)$ sub-symmetries をゲージした後の双対対称性にも影響し、非アベル的かつ非可逆な双極子対称性や非可逆変換をもたらす。 我々は解析をSymTFTで補完するが、そこでは射影が変換によって非自明にリッチ化された位相順序となる。 論文を通して、我々は、$\mathsf{Rep}(G)$対称性を持ち、その対称性の欠陥を格子に挿入する技術を開発し、他の非可逆対称性に適用する。

Projective symmetries are ubiquitous in quantum lattice models and can be leveraged to constrain their phase diagram and entanglement structure. In this paper, we investigate the consequences of projective algebras formed by non-invertible symmetries and lattice translations in a generalized $1+1$D quantum XY model based on group-valued qudits. This model is specified by a finite group $G$ and enjoys a projective $\mathsf{Rep}(G)\times Z(G)$ and translation symmetry, where symmetry operators obey a projective algebra in the presence of symmetry defects. For invertible symmetries, such projective algebras imply Lieb-Schultz-Mattis (LSM) anomalies. However, this is not generally true for non-invertible symmetries, and we derive a condition on $G$ for the existence of an LSM anomaly. When this condition is not met, we prove an SPT-LSM theorem: any unique and gapped ground state is necessarily a non-invertible weak symmetry protected topological (SPT) state with non-trivial entanglement, for which we construct an example fixed-point Hamiltonian. The projectivity also affects the dual symmetries after gauging $\mathsf{Rep}(G)\times Z(G)$ sub-symmetries, giving rise to non-Abelian and non-invertible dipole symmetries, as well as non-invertible translations. We complement our analysis with the SymTFT, where the projectivity causes it to be a topological order non-trivially enriched by translations. Throughout the paper, we develop techniques for gauging $\mathsf{Rep}(G)$ symmetry and inserting its symmetry defects on the lattice, which are applicable to other non-invertible symmetries.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-08
# Embodied-RAG: 検索・生成のための一般的な非パラメトリックなEmbodied Memory

Embodied-RAG: General non-parametric Embodied Memory for Retrieval and Generation ( http://arxiv.org/abs/2409.18313v1 )

ライセンス: Link先を確認
Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk, (参考訳) ロボットの探索と学習には限界はありませんが、その知識はすべて検索可能で実行可能でなければなりません。 言語研究の中では、検索拡張生成(RAG)が大規模な非パラメトリック知識のワークハウスとなっているが、既存の技術は、マルチモーダルなエンボディドメインに直接転送せず、データは高い相関性を持ち、知覚には抽象化が必要である。 これらの課題に対処するために、Embodied-RAGは、ナビゲーションと言語生成の両方の階層的知識を自律的に構築できる非パラメトリックメモリシステムを備えた、エンボディエージェントの基礎モデルを強化するフレームワークである。 Embodied-RAGは、特定のオブジェクトや周囲の全体的記述にかかわらず、さまざまな環境やクエリタイプにわたる、空間的および意味的な解決を幅広く扱う。 コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 この階層的な組織は、さまざまなロボットプラットフォームにまたがる状況に敏感なアウトプットを効率的に生成することを可能にする。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、19の環境における200以上の説明とナビゲーションクエリをうまく処理し、エンボディエージェントの汎用的ノンパラメトリックシステムへの期待を強調した。

There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG's memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.
翻訳日:2024-11-06 07:10:35 公開日:2024-10-08
# Embodied-RAG: 検索・生成のための一般的な非パラメトリック・エボダイドメモリ

Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation ( http://arxiv.org/abs/2409.18313v2 )

ライセンス: Link先を確認
Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk, (参考訳) ロボットの探索と学習には限界はありませんが、その知識はすべて検索可能で実行可能でなければなりません。 言語研究の中では、検索拡張生成(RAG)が大規模な非パラメトリック知識のワークハウスとなっているが、既存の技術は、マルチモーダルなエンボディドメインに直接転送せず、データは高い相関性を持ち、知覚には抽象化が必要である。 これらの課題に対処するために、Embodied-RAGは、ナビゲーションと言語生成の両方の階層的知識を自律的に構築できる非パラメトリックメモリシステムを備えた、エンボディエージェントの基礎モデルを強化するフレームワークである。 Embodied-RAGは、特定のオブジェクトや周囲の全体的記述にかかわらず、さまざまな環境やクエリタイプにわたる、空間的および意味的な解決を幅広く扱う。 コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 この階層的な組織は、さまざまなロボットプラットフォームにまたがる状況に敏感なアウトプットを効率的に生成することを可能にする。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、19の環境における200以上の説明とナビゲーションクエリをうまく処理し、エンボディエージェントの汎用的ノンパラメトリックシステムへの期待を強調した。

There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG's memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.
翻訳日:2024-11-06 07:10:35 公開日:2024-10-08
# Embodied-RAG: 検索・生成のための一般的な非パラメトリック・エボダイドメモリ

Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation ( http://arxiv.org/abs/2409.18313v3 )

ライセンス: Link先を確認
Quanting Xie, So Yeon Min, Tianyi Zhang, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk, (参考訳) ロボットの探索と学習には限界はありませんが、その知識はすべて検索可能で実行可能でなければなりません。 言語研究の中では、検索拡張生成(RAG)が大規模な非パラメトリック知識のワークハウスとなっているが、既存の技術は、マルチモーダルなエンボディドメインに直接転送せず、データは高い相関性を持ち、知覚には抽象化が必要である。 これらの課題に対処するために、Embodied-RAGは、ナビゲーションと言語生成の両方の階層的知識を自律的に構築できる非パラメトリックメモリシステムを備えた、エンボディエージェントの基礎モデルを強化するフレームワークである。 Embodied-RAGは、特定のオブジェクトや周囲の全体的記述にかかわらず、さまざまな環境やクエリタイプにわたる、空間的および意味的な解決を幅広く扱う。 コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 この階層的な組織は、さまざまなロボットプラットフォームにまたがる状況に敏感なアウトプットを効率的に生成することを可能にする。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、19の環境における200以上の説明とナビゲーションクエリをうまく処理し、エンボディエージェントの汎用的ノンパラメトリックシステムへの期待を強調した。

There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG's memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.
翻訳日:2024-11-06 07:10:35 公開日:2024-10-08
# Embodied-RAG: 検索・生成のための一般的な非パラメトリック・エボダイドメモリ

Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation ( http://arxiv.org/abs/2409.18313v4 )

ライセンス: Link先を確認
Quanting Xie, So Yeon Min, Tianyi Zhang, Kedi Xu, Aarav Bajaj, Ruslan Salakhutdinov, Matthew Johnson-Roberson, Yonatan Bisk, (参考訳) ロボットの探索と学習には限界はありませんが、その知識はすべて検索可能で実行可能でなければなりません。 言語研究の中では、検索拡張生成(RAG)が大規模な非パラメトリック知識のワークハウスとなっているが、既存の技術は、マルチモーダルなエンボディドメインに直接転送せず、データは高い相関性を持ち、知覚には抽象化が必要である。 これらの課題に対処するために、Embodied-RAGは、ナビゲーションと言語生成の両方の階層的知識を自律的に構築できる非パラメトリックメモリシステムを備えた、エンボディエージェントの基礎モデルを強化するフレームワークである。 Embodied-RAGは、特定のオブジェクトや周囲の全体的記述にかかわらず、さまざまな環境やクエリタイプにわたる、空間的および意味的な解決を幅広く扱う。 コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 この階層的な組織は、さまざまなロボットプラットフォームにまたがる状況に敏感なアウトプットを効率的に生成することを可能にする。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、19の環境における200以上の説明とナビゲーションクエリをうまく処理し、エンボディエージェントの汎用的ノンパラメトリックシステムへの期待を強調した。

There is no limit to how much a robot might explore and learn, but all of that knowledge needs to be searchable and actionable. Within language research, retrieval augmented generation (RAG) has become the workhouse of large-scale non-parametric knowledge, however existing techniques do not directly transfer to the embodied domain, which is multimodal, data is highly correlated, and perception requires abstraction. To address these challenges, we introduce Embodied-RAG, a framework that enhances the foundational model of an embodied agent with a non-parametric memory system capable of autonomously constructing hierarchical knowledge for both navigation and language generation. Embodied-RAG handles a full range of spatial and semantic resolutions across diverse environments and query types, whether for a specific object or a holistic description of ambiance. At its core, Embodied-RAG's memory is structured as a semantic forest, storing language descriptions at varying levels of detail. This hierarchical organization allows the system to efficiently generate context-sensitive outputs across different robotic platforms. We demonstrate that Embodied-RAG effectively bridges RAG to the robotics domain, successfully handling over 200 explanation and navigation queries across 19 environments, highlighting its promise for general-purpose non-parametric system for embodied agents.
翻訳日:2024-11-06 07:10:35 公開日:2024-10-08
# ヒト意味軌道における異常検出のためのニューラルコラボレーティブフィルタ

Neural Collaborative Filtering to Detect Anomalies in Human Semantic Trajectories ( http://arxiv.org/abs/2409.18427v1 )

ライセンス: Link先を確認
Yueyang Liu, Lance Kennedy, Hossein Amiri, Andreas Züfle, (参考訳) 人間の軌道異常検出は、セキュリティ監視や公衆衛生など、幅広いアプリケーションにおいてますます重要になっている。 しかし、既存の軌道異常検出法は主に車両レベルの交通に焦点を当てているが、人間レベルの軌道異常検出は未調査のままである。 人間の軌道データは非常に疎いことが多いため、複雑なパターンを特定するための機械学習手法が好まれている。 しかしながら、潜在的なバイアスやこれらのモデルの堅牢性に関する懸念は、より透明で説明可能な代替品の需要を増大させてきた。 これらの課題に対応するために,本研究では,人体軌道の異常を検出するための軽量な異常検出モデルの開発に焦点をあてる。 本稿では, ニューラルコラボレーティブ・フィルタリング手法を提案し, 正常なモビリティをモデル化し, 予測する。 本手法は, 利用者の生活パターンを事前の知識を必要とせずにモデル化し, コールドスタート状況など, データが疎い, あるいは不完全であるシナリオにおける性能を向上させる。 アルゴリズムは2つの主要モジュールから構成される。 1つ目は協調フィルタリングモジュールで、これは人間の通常の移動を興味のある場所にモデル化するために協調フィルタリングを適用している。 2つ目は神経モジュールで、人間の軌跡データに固有の複雑な時空間的関係を解釈する。 提案手法の有効性を検証するために,シミュレーションおよび実世界のデータセットを用いて,多数の最先端の軌道異常検出手法と比較した広範囲な実験を行った。

Human trajectory anomaly detection has become increasingly important across a wide range of applications, including security surveillance and public health. However, existing trajectory anomaly detection methods are primarily focused on vehicle-level traffic, while human-level trajectory anomaly detection remains under-explored. Since human trajectory data is often very sparse, machine learning methods have become the preferred approach for identifying complex patterns. However, concerns regarding potential biases and the robustness of these models have intensified the demand for more transparent and explainable alternatives. In response to these challenges, our research focuses on developing a lightweight anomaly detection model specifically designed to detect anomalies in human trajectories. We propose a Neural Collaborative Filtering approach to model and predict normal mobility. Our method is designed to model users' daily patterns of life without requiring prior knowledge, thereby enhancing performance in scenarios where data is sparse or incomplete, such as in cold start situations. Our algorithm consists of two main modules. The first is the collaborative filtering module, which applies collaborative filtering to model normal mobility of individual humans to places of interest. The second is the neural module, responsible for interpreting the complex spatio-temporal relationships inherent in human trajectory data. To validate our approach, we conducted extensive experiments using simulated and real-world datasets comparing to numerous state-of-the-art trajectory anomaly detection approaches.
翻訳日:2024-11-06 06:21:38 公開日:2024-10-08
# ヒト意味軌道における異常検出のためのニューラルコラボレーティブフィルタ

Neural Collaborative Filtering to Detect Anomalies in Human Semantic Trajectories ( http://arxiv.org/abs/2409.18427v2 )

ライセンス: Link先を確認
Yueyang Liu, Lance Kennedy, Hossein Amiri, Andreas Züfle, (参考訳) 人間の軌道異常検出は、セキュリティ監視や公衆衛生など、幅広いアプリケーションにおいてますます重要になっている。 しかし、既存の軌道異常検出法は主に車両レベルの交通に焦点を当てているが、人間レベルの軌道異常検出は未調査のままである。 人間の軌道データは非常に疎いことが多いため、複雑なパターンを特定するための機械学習手法が好まれている。 しかしながら、潜在的なバイアスやこれらのモデルの堅牢性に関する懸念は、より透明で説明可能な代替品の需要を増大させてきた。 これらの課題に対応するために,本研究では,人体軌道の異常を検出するための軽量な異常検出モデルの開発に焦点をあてる。 本稿では, ニューラルコラボレーティブ・フィルタリング手法を提案し, 正常なモビリティをモデル化し, 予測する。 本手法は, 利用者の生活パターンを事前の知識を必要とせずにモデル化し, コールドスタート状況など, データが疎い, あるいは不完全であるシナリオにおける性能を向上させる。 アルゴリズムは2つの主要モジュールから構成される。 1つ目は協調フィルタリングモジュールで、これは人間の通常の移動を興味のある場所にモデル化するために協調フィルタリングを適用している。 2つ目は神経モジュールで、人間の軌跡データに固有の複雑な時空間的関係を解釈する。 提案手法の有効性を検証するために,シミュレーションおよび実世界のデータセットを用いて,多数の最先端の軌道異常検出手法と比較した広範囲な実験を行った。

Human trajectory anomaly detection has become increasingly important across a wide range of applications, including security surveillance and public health. However, existing trajectory anomaly detection methods are primarily focused on vehicle-level traffic, while human-level trajectory anomaly detection remains under-explored. Since human trajectory data is often very sparse, machine learning methods have become the preferred approach for identifying complex patterns. However, concerns regarding potential biases and the robustness of these models have intensified the demand for more transparent and explainable alternatives. In response to these challenges, our research focuses on developing a lightweight anomaly detection model specifically designed to detect anomalies in human trajectories. We propose a Neural Collaborative Filtering approach to model and predict normal mobility. Our method is designed to model users' daily patterns of life without requiring prior knowledge, thereby enhancing performance in scenarios where data is sparse or incomplete, such as in cold start situations. Our algorithm consists of two main modules. The first is the collaborative filtering module, which applies collaborative filtering to model normal mobility of individual humans to places of interest. The second is the neural module, responsible for interpreting the complex spatio-temporal relationships inherent in human trajectory data. To validate our approach, we conducted extensive experiments using simulated and real-world datasets comparing to numerous state-of-the-art trajectory anomaly detection approaches.
翻訳日:2024-11-06 06:21:38 公開日:2024-10-08
# ヒト意味軌道における異常検出のためのニューラルコラボレーティブフィルタ

Neural Collaborative Filtering to Detect Anomalies in Human Semantic Trajectories ( http://arxiv.org/abs/2409.18427v3 )

ライセンス: Link先を確認
Yueyang Liu, Lance Kennedy, Hossein Amiri, Andreas Züfle, (参考訳) 人間の軌道異常検出は、セキュリティ監視や公衆衛生など、幅広いアプリケーションにおいてますます重要になっている。 しかし、既存の軌道異常検出法は主に車両レベルの交通に焦点を当てているが、人間レベルの軌道異常検出は未調査のままである。 人間の軌道データは非常に疎いことが多いため、複雑なパターンを特定するための機械学習手法が好まれている。 しかしながら、潜在的なバイアスやこれらのモデルの堅牢性に関する懸念は、より透明で説明可能な代替品の需要を増大させてきた。 これらの課題に対応するために,本研究では,人体軌道の異常を検出するための軽量な異常検出モデルの開発に焦点をあてる。 本稿では, ニューラルコラボレーティブ・フィルタリング手法を提案し, 正常なモビリティをモデル化し, 予測する。 本手法は, 利用者の生活パターンを事前の知識を必要とせずにモデル化し, コールドスタート状況など, データが疎い, あるいは不完全であるシナリオにおける性能を向上させる。 アルゴリズムは2つの主要モジュールから構成される。 1つ目は協調フィルタリングモジュールで、これは人間の通常の移動を興味のある場所にモデル化するために協調フィルタリングを適用している。 2つ目は神経モジュールで、人間の軌跡データに固有の複雑な時空間的関係を解釈する。 提案手法の有効性を検証するために,シミュレーションおよび実世界のデータセットを用いて,多数の最先端の軌道異常検出手法と比較した広範囲な実験を行った。

Human trajectory anomaly detection has become increasingly important across a wide range of applications, including security surveillance and public health. However, existing trajectory anomaly detection methods are primarily focused on vehicle-level traffic, while human-level trajectory anomaly detection remains under-explored. Since human trajectory data is often very sparse, machine learning methods have become the preferred approach for identifying complex patterns. However, concerns regarding potential biases and the robustness of these models have intensified the demand for more transparent and explainable alternatives. In response to these challenges, our research focuses on developing a lightweight anomaly detection model specifically designed to detect anomalies in human trajectories. We propose a Neural Collaborative Filtering approach to model and predict normal mobility. Our method is designed to model users' daily patterns of life without requiring prior knowledge, thereby enhancing performance in scenarios where data is sparse or incomplete, such as in cold start situations. Our algorithm consists of two main modules. The first is the collaborative filtering module, which applies collaborative filtering to model normal mobility of individual humans to places of interest. The second is the neural module, responsible for interpreting the complex spatio-temporal relationships inherent in human trajectory data. To validate our approach, we conducted extensive experiments using simulated and real-world datasets comparing to numerous state-of-the-art trajectory anomaly detection approaches.
翻訳日:2024-11-06 06:21:38 公開日:2024-10-08
# マルチビューエゴシックハンドトラッキングチャレンジECCV2024の解法

Solution of Multiview Egocentric Hand Tracking Challenge ECCV2024 ( http://arxiv.org/abs/2409.19362v1 )

ライセンス: Link先を確認
Minqiang Zou, Zhi Lv, Riqiang Jin, Tian Zhan, Mochen Yu, Yao Tang, Jiajun Liang, (参考訳) マルチビューの自我中心のハンドトラッキングは困難なタスクであり、VRインタラクションにおいて重要な役割を果たす。 本稿では,マルチビュー入力画像とカメラ外在パラメータを用いて手形状とポーズを推定する手法を提案する。 カメラレイアウトへの過度な適合を抑えるため、作物のジッタリングと外部パラメータノイズ増強を適用した。 さらに,手の位置とポーズの精度をより高めるために,オフラインの神経スムーシング後処理法を提案する。 提案手法は,Umetrackデータセットで13.92mm MPJPE,HOT3Dデータセットで21.66mm MPJPEを実現する。

Multi-view egocentric hand tracking is a challenging task and plays a critical role in VR interaction. In this report, we present a method that uses multi-view input images and camera extrinsic parameters to estimate both hand shape and pose. To reduce overfitting to the camera layout, we apply crop jittering and extrinsic parameter noise augmentation. Additionally, we propose an offline neural smoothing post-processing method to further improve the accuracy of hand position and pose. Our method achieves 13.92mm MPJPE on the Umetrack dataset and 21.66mm MPJPE on the HOT3D dataset.
翻訳日:2024-11-05 23:48:39 公開日:2024-10-08
# 1st Place Solution of Multiview Egocentric Hand Tracking Challenge ECCV2024

1st Place Solution of Multiview Egocentric Hand Tracking Challenge ECCV2024 ( http://arxiv.org/abs/2409.19362v2 )

ライセンス: Link先を確認
Minqiang Zou, Zhi Lv, Riqiang Jin, Tian Zhan, Mochen Yu, Yao Tang, Jiajun Liang, (参考訳) マルチビューの自我中心のハンドトラッキングは困難なタスクであり、VRインタラクションにおいて重要な役割を果たす。 本稿では,マルチビュー入力画像とカメラ外在パラメータを用いて手形状とポーズを推定する手法を提案する。 カメラレイアウトへの過度な適合を抑えるため、作物のジッタリングと外部パラメータノイズ増強を適用した。 さらに,手の位置とポーズの精度をより高めるために,オフラインの神経スムーシング後処理法を提案する。 提案手法は,Umetrackデータセットで13.92mm MPJPE,HOT3Dデータセットで21.66mm MPJPEを実現する。

Multi-view egocentric hand tracking is a challenging task and plays a critical role in VR interaction. In this report, we present a method that uses multi-view input images and camera extrinsic parameters to estimate both hand shape and pose. To reduce overfitting to the camera layout, we apply crop jittering and extrinsic parameter noise augmentation. Additionally, we propose an offline neural smoothing post-processing method to further improve the accuracy of hand position and pose. Our method achieves 13.92mm MPJPE on the Umetrack dataset and 21.66mm MPJPE on the HOT3D dataset.
翻訳日:2024-11-05 23:48:39 公開日:2024-10-08
# CoTKR:複雑な知識グラフ質問回答のための知識書換えのチェーン

CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering ( http://arxiv.org/abs/2409.19753v1 )

ライセンス: Link先を確認
Yike Wu, Yi Huang, Nan Hu, Yuncheng Hua, Guilin Qi, Jiaoyan Chen, Jeff Z. Pan, (参考訳) 近年,Large Language Models (LLMs) とRetrieval Augmented Generation (RAG) を併用した知識グラフ質問回答 (KGQA) について検討している。 典型的には、取得したサブグラフをLLMに理解可能な自然言語形式に書き換える必要がある。 しかし、複雑な問題に取り組む際には、既存の方法によって書き直された知識には、無関係な情報が含まれたり、重要な詳細を省略したり、質問の意味論と一致しないことがある。 そこで本研究では,新たな書き起こし手法であるCoTKRを提案する。 さらに,知識リライタと質問応答(QA)モデルの選好ギャップを埋めるため,質問応答フィードバックからの選好アライメントであるPAQAFを提案し,QAモデルからのフィードバックを利用して知識リライタのさらなる最適化を行う。 我々は、複数のKGQAベンチマークで様々なLLMを用いて実験を行う。 実験により,従来の知識書き換え手法と比較して,CoTKRはQAモデルにおいて最も有益な知識表現を生成し,KGQAにおけるLLMの性能を大幅に向上させることを示した。

Recent studies have explored the use of Large Language Models (LLMs) with Retrieval Augmented Generation (RAG) for Knowledge Graph Question Answering (KGQA). They typically require rewriting retrieved subgraphs into natural language formats comprehensible to LLMs. However, when tackling complex questions, the knowledge rewritten by existing methods may include irrelevant information, omit crucial details, or fail to align with the question's semantics. To address them, we propose a novel rewriting method CoTKR, Chain-of-Thought Enhanced Knowledge Rewriting, for generating reasoning traces and corresponding knowledge in an interleaved manner, thereby mitigating the limitations of single-step knowledge rewriting. Additionally, to bridge the preference gap between the knowledge rewriter and the question answering (QA) model, we propose a training strategy PAQAF, Preference Alignment from Question Answering Feedback, for leveraging feedback from the QA model to further optimize the knowledge rewriter. We conduct experiments using various LLMs across several KGQA benchmarks. Experimental results demonstrate that, compared with previous knowledge rewriting methods, CoTKR generates the most beneficial knowledge representation for QA models, which significantly improves the performance of LLMs in KGQA.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-08
# CoTKR:複雑な知識グラフ質問回答のための知識書換えのチェーン

CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering ( http://arxiv.org/abs/2409.19753v2 )

ライセンス: Link先を確認
Yike Wu, Yi Huang, Nan Hu, Yuncheng Hua, Guilin Qi, Jiaoyan Chen, Jeff Z. Pan, (参考訳) 近年,Large Language Models (LLMs) とRetrieval Augmented Generation (RAG) を併用した知識グラフ質問回答 (KGQA) について検討している。 典型的には、取得したサブグラフをLLMに理解可能な自然言語形式に書き換える必要がある。 しかし、複雑な問題に取り組む際には、既存の方法によって書き直された知識には、無関係な情報が含まれたり、重要な詳細を省略したり、質問の意味論と一致しないことがある。 そこで本研究では,新たな書き起こし手法であるCoTKRを提案する。 さらに,知識リライタと質問応答(QA)モデルの選好ギャップを埋めるため,質問応答フィードバックからの選好アライメントであるPAQAFを提案し,QAモデルからのフィードバックを利用して知識リライタのさらなる最適化を行う。 我々は、複数のKGQAベンチマークで様々なLLMを用いて実験を行う。 実験により,従来の知識書き換え手法と比較して,CoTKRはQAモデルにおいて最も有益な知識表現を生成し,KGQAにおけるLLMの性能を大幅に向上させることを示した。

Recent studies have explored the use of Large Language Models (LLMs) with Retrieval Augmented Generation (RAG) for Knowledge Graph Question Answering (KGQA). They typically require rewriting retrieved subgraphs into natural language formats comprehensible to LLMs. However, when tackling complex questions, the knowledge rewritten by existing methods may include irrelevant information, omit crucial details, or fail to align with the question's semantics. To address them, we propose a novel rewriting method CoTKR, Chain-of-Thought Enhanced Knowledge Rewriting, for generating reasoning traces and corresponding knowledge in an interleaved manner, thereby mitigating the limitations of single-step knowledge rewriting. Additionally, to bridge the preference gap between the knowledge rewriter and the question answering (QA) model, we propose a training strategy PAQAF, Preference Alignment from Question Answering Feedback, for leveraging feedback from the QA model to further optimize the knowledge rewriter. We conduct experiments using various LLMs across several KGQA benchmarks. Experimental results demonstrate that, compared with previous knowledge rewriting methods, CoTKR generates the most beneficial knowledge representation for QA models, which significantly improves the performance of LLMs in KGQA.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-08
# GUNDAM: グラフ理解による大規模言語モデルの調整

GUNDAM: Aligning Large Language Models with Graph Understanding ( http://arxiv.org/abs/2409.20053v2 )

ライセンス: Link先を確認
Sheng Ouyang, Yulan Hu, Ge Chen, Yong Liu, (参考訳) 大規模言語モデル(LLM)は、テキストデータの処理において驚くべき成果を上げており、グラフのようなテキストデータを越えてこれらのモデルを適用することへの関心を喚起している。 グラフ学習の分野では、グラフ構造化データの理解と操作にLLMを活用することへの関心が高まっている。 既存の研究は主に知識グラフやテキスト属性グラフのようなリッチなテキスト特徴を持つグラフに焦点を当てており、LLMのテキスト処理能力を活用するが、グラフ構造には不十分である。 本研究の目的は、テキストコンテンツに富むグラフのみに焦点をあてるのではなく、グラフデータ自体に固有の構造的知識を理解・活用するLSMの能力を評価し、強化することである。 これを達成するために、我々は \textbf{G}raph \textbf{U}nderstanding for \textbf{N}atural Language \textbf{D}riven \textbf{A}nalytical \textbf{M}odel (\model)を紹介する。 このモデルは、グラフデータの構造をよりよく理解し、関与するようにLLMを適用し、グラフの構造自体を活用することで複雑な推論タスクを実行できる。 グラフ推論ベンチマークの実験評価では,モデルがSOTAのベースラインを上回り,比較を行った。 しかし、LLMのグラフ推論能力に影響を及ぼす重要な要因も明らかにしている。 さらに,LLMの推論能力を高めるための推論経路について理論的解析を行った。

Large Language Models (LLMs) have achieved impressive results in processing text data, which has sparked interest in applying these models beyond textual data, such as graphs. In the field of graph learning, there is a growing interest in harnessing LLMs to comprehend and manipulate graph-structured data. Existing research predominantly focuses on graphs with rich textual features, such as knowledge graphs or text attribute graphs, leveraging LLMs' ability to process text but inadequately addressing graph structure. This work specifically aims to assess and enhance LLMs' abilities to comprehend and utilize the structural knowledge inherent in graph data itself, rather than focusing solely on graphs rich in textual content. To achieve this, we introduce the \textbf{G}raph \textbf{U}nderstanding for \textbf{N}atural Language \textbf{D}riven \textbf{A}nalytical \textbf{M}odel (\model). This model adapts LLMs to better understand and engage with the structure of graph data, enabling them to perform complex reasoning tasks by leveraging the graph's structure itself. Our experimental evaluations on graph reasoning benchmarks not only substantiate that \model~ outperforms the SOTA baselines for comparisons. But also reveals key factors affecting the graph reasoning capabilities of LLMs. Moreover, we provide a theoretical analysis illustrating how reasoning paths can enhance LLMs' reasoning capabilities.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-08
# 頑健なマルチエージェント強化学習におけるマルチエージェントのカースを破る

Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2409.20067v2 )

ライセンス: Link先を確認
Laixi Shi, Jingchu Gai, Eric Mazumdar, Yuejie Chi, Adam Wierman, (参考訳) 標準マルチエージェント強化学習(MARL)アルゴリズムは、sim-to-realギャップに対して脆弱である。 これを解決するために,所定の不確実性セット内でゲームダイナミクスがシフトした場合の最悪の性能を最適化することにより,MARLのロバスト性を高めるために,分散ロバストなマルコフゲーム (RMG) が提案されている。 RMGの解法は、問題の定式化からサンプル効率のアルゴリズムの開発まで、未探索のままである。 RMGが多能性の呪いから逃れられるかどうか、その場合、サンプルの複雑さはエージェントの数とともに指数関数的に拡大する。 本研究では,各エージェントの不確実性集合が環境と他のエージェントの戦略の両方によって最も応答性の高い方法で形成される自然なRMGのクラスを提案する。 まず、ロバストなナッシュ平衡や粗い平衡 (CCE) のようなゲーム理論解の存在を証明し、これらのRMGの正当性を確立する。 生成モデルにアクセスできると仮定すると、サンプルの複雑さがすべての関連するパラメータと多項式的にスケールするCCEを学習するためのサンプル効率のよいアルゴリズムを導入する。 我々の知る限りでは、このアルゴリズムはRMGにとってのマルチ緊急の呪いを破る最初のものである。

Standard multi-agent reinforcement learning (MARL) algorithms are vulnerable to sim-to-real gaps. To address this, distributionally robust Markov games (RMGs) have been proposed to enhance robustness in MARL by optimizing the worst-case performance when game dynamics shift within a prescribed uncertainty set. Solving RMGs remains under-explored, from problem formulation to the development of sample-efficient algorithms. A notorious yet open challenge is if RMGs can escape the curse of multiagency, where the sample complexity scales exponentially with the number of agents. In this work, we propose a natural class of RMGs where the uncertainty set of each agent is shaped by both the environment and other agents' strategies in a best-response manner. We first establish the well-posedness of these RMGs by proving the existence of game-theoretic solutions such as robust Nash equilibria and coarse correlated equilibria (CCE). Assuming access to a generative model, we then introduce a sample-efficient algorithm for learning the CCE whose sample complexity scales polynomially with all relevant parameters. To the best of our knowledge, this is the first algorithm to break the curse of multiagency for RMGs.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-08
# DCAST: フェアラーラーニングのための選択バイアスを軽減する多種多様なクラス対応自己学習

DCAST: Diverse Class-Aware Self-Training Mitigates Selection Bias for Fairer Learning ( http://arxiv.org/abs/2409.20126v2 )

ライセンス: Link先を確認
Yasin I. Tepeli, Joana P. Gonçalves, (参考訳) 機械学習の公正さは、性別や年齢などのセンシティブな特徴に基づいて個人に対するモデルバイアスを緩和し、しばしば選択バイアスによるトレーニングデータにおける人口の不均一な表現によって引き起こされる。 特に、コンピュータービジョンや分子バイオメディシンといった複雑な高次元データに代表されるにもかかわらず、繊細な特徴に代表される偏見を識別することは困難で、一般的には未診断である。 未確認バイアスを緩和し、緩和方法を評価するための戦略は不可欠であるが、未調査のままである。 紹介する。 一 異種クラス意識自己訓練(DCAST)、類別バイアスを意識したモデル非依存緩和であって、未ラベルの標本を活用して、従来型の自己訓練の確証バイアスに対処するために、サンプルの多様性を促進するものである。 (II) 事前知識のない階層バイアス, 多変量, クラス認識バイアス誘導。 DCASTで学んだモデルでは、従来の自己学習と6つの顕著なドメイン適応技術に対して、階層化やその他の11データセットに対するバイアスが改善された。 アドバンテージは多クラス分類において最大であり、DCASTは異なる文脈におけるより公平な学習のための有望な戦略であると強調した。

Fairness in machine learning seeks to mitigate model bias against individuals based on sensitive features such as sex or age, often caused by an uneven representation of the population in the training data due to selection bias. Notably, bias unascribed to sensitive features is challenging to identify and typically goes undiagnosed, despite its prominence in complex high-dimensional data from fields like computer vision and molecular biomedicine. Strategies to mitigate unidentified bias and evaluate mitigation methods are crucially needed, yet remain underexplored. We introduce: (i) Diverse Class-Aware Self-Training (DCAST), model-agnostic mitigation aware of class-specific bias, which promotes sample diversity to counter confirmation bias of conventional self-training while leveraging unlabeled samples for an improved representation of the underlying population; (ii) hierarchy bias, multivariate and class-aware bias induction without prior knowledge. Models learned with DCAST showed improved robustness to hierarchy and other biases across eleven datasets, against conventional self-training and six prominent domain adaptation techniques. Advantage was largest on multi-class classification, emphasizing DCAST as a promising strategy for fairer learning in different contexts.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-08
# DressRecon:モノクロビデオによるフリーフォーム4D人間の再構築

DressRecon: Freeform 4D Human Reconstruction from Monocular Video ( http://arxiv.org/abs/2409.20563v2 )

ライセンス: Link先を確認
Jeff Tan, Donglai Xiang, Shubham Tulsiani, Deva Ramanan, Gengshan Yang, (参考訳) 本稿では,モノクラービデオから,極端にゆるい衣服やハンドヘルドオブジェクトのインタラクションに着目した,時間一貫性のある人体モデルを再構築する手法を提案する。 人体再構成の以前の作業は、オブジェクト間の相互作用のないタイトな衣服に限られていたり、校正されたマルチビューキャプチャや、大規模に収集するのにコストがかかるテンプレートスキャンが必要だったりしている。 高品質でフレキシブルな再構築の鍵となる洞察は、人体形状(大規模なトレーニングデータから得られた)とビデオ特有の「骨の袋(bag-of-bones)」変形(テスト時間最適化による単一のビデオに適合する)に関する一般的な人間の事前の注意深い組み合わせである。 我々は、身体と衣服の変形を別々の動きモデル層として切り離すニューラル暗黙モデルを学ぶことで、これを達成した。 衣服の微妙な形状を捉えるために, 人体ポーズ, 表面の正常, 最適化時の光学的流れなどの画像に基づく先行情報を活用する。 結果のニューラルネットワークは、時間一貫性のあるメッシュに抽出することも、高忠実なインタラクティブレンダリングのために、明示的な3Dガウスアンとして最適化することもできる。 DressReconは、高度に挑戦的な衣服の変形とオブジェクトのインタラクションを持つデータセットに対して、以前の技術よりも忠実度の高い3D再構成を出力する。 プロジェクトページ: https://jefftan969.github.io/dressrecon/

We present a method to reconstruct time-consistent human body models from monocular videos, focusing on extremely loose clothing or handheld object interactions. Prior work in human reconstruction is either limited to tight clothing with no object interactions, or requires calibrated multi-view captures or personalized template scans which are costly to collect at scale. Our key insight for high-quality yet flexible reconstruction is the careful combination of generic human priors about articulated body shape (learned from large-scale training data) with video-specific articulated "bag-of-bones" deformation (fit to a single video via test-time optimization). We accomplish this by learning a neural implicit model that disentangles body versus clothing deformations as separate motion model layers. To capture subtle geometry of clothing, we leverage image-based priors such as human body pose, surface normals, and optical flow during optimization. The resulting neural fields can be extracted into time-consistent meshes, or further optimized as explicit 3D Gaussians for high-fidelity interactive rendering. On datasets with highly challenging clothing deformations and object interactions, DressRecon yields higher-fidelity 3D reconstructions than prior art. Project page: https://jefftan969.github.io/dressrecon/
翻訳日:2024-11-05 15:38:59 公開日:2024-10-08
# 共同最適化ワールド・アクション・モデル事前学習によるオフラインモデルベースRLのスケーリング

Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining ( http://arxiv.org/abs/2410.00564v1 )

ライセンス: Link先を確認
Jie Cheng, Ruixi Qiao, Gang Xiong, Qinghai Miao, Yingwei Ma, Binhua Li, Yongbin Li, Yisheng Lv, (参考訳) オフライン強化学習(RL)の大きな願望は、大規模で不均一なデータセットから高機能なジェネラリストエージェントを開発することである。 しかし、オフラインRLをスケールする以前のアプローチは、専門家の軌跡に大きく依存するか、さまざまな目に見えないタスクに一般化するのに苦労する。 条件付きビデオ生成における世界モデルの優れた一般化に触発されて、オフラインRLのスケーリングと新規タスクの一般化の促進を目的とした、画像観測に基づく世界モデルの可能性を探る。 本稿では,複数のAtariゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Optimized World-Action Modelを紹介し,汎用表現と意思決定能力について述べる。 提案手法は,事前学習中の大モデルによる時間差学習を安定化させる共用トランスフォーマーバックボーンを用いて,ワールドアクションモデルを協調的に最適化する。 さらに、Q値推定誤差を補償し、より良いポリシーを探索する、効率よく並列化可能な計画アルゴリズムを提案する。 実験の結果、我々の最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上で78.9%の人間レベルのパフォーマンスを達成し、既存の最先端の大規模オフラインRLベースラインを31.6%上回る結果となった。 さらに、JOWAはモデル容量に好適にスケールし、ゲーム毎の約4トラジェクトリに対応する5kのオフライン微調整データのみを使用して、サンプル効率よく新しいゲームに転送することが可能であり、JOWAのより優れた一般化が示される。 私たちはhttps://github.com/CJReinforce/JOWA.comでコードをリリースします。

A significant aspiration of offline reinforcement learning (RL) is to develop a generalist agent with high capabilities from large and heterogeneous datasets. However, prior approaches that scale offline RL either rely heavily on expert trajectories or struggle to generalize to diverse unseen tasks. Inspired by the excellent generalization of world model in conditional video generation, we explore the potential of image observation-based world model for scaling offline RL and enhancing generalization on novel tasks. In this paper, we introduce JOWA: Jointly-Optimized World-Action model, an offline model-based RL agent pretrained on multiple Atari games to learn general-purpose representation and decision-making ability. Our method jointly optimizes a world-action model through shared transformer backbone, which stabilize temporal difference learning with large models during pretraining. Moreover, we propose an provably efficient and parallelizable planning algorithm to compensate for the Q-value estimation error and thus search out better policies. Experimental results indicate that our largest agent, with 150 million parameters, achieves 78.9% human-level performance on pretrained games using only 10% subsampled offline data, outperforming existing state-of-the-art large-scale offline RL baselines by 31.6% on averange. Furthermore, JOWA scales favorably with model capacity and can sample-efficiently transfer to novel games using only 5k offline fine-tuning data corresponding to about 4 trajectories per game, which demonstrates superior generalization of JOWA. We will release codes at https://github.com/CJReinforce/JOWA.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-08
# 共同最適化ワールド・アクション・モデル事前学習によるオフラインモデルベースRLのスケーリング

Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining ( http://arxiv.org/abs/2410.00564v2 )

ライセンス: Link先を確認
Jie Cheng, Ruixi Qiao, Gang Xiong, Qinghai Miao, Yingwei Ma, Binhua Li, Yongbin Li, Yisheng Lv, (参考訳) オフライン強化学習(RL)の大きな願望は、大規模で不均一なデータセットから高機能なジェネラリストエージェントを開発することである。 しかし、オフラインRLをスケールする以前のアプローチは、専門家の軌跡に大きく依存するか、さまざまな目に見えないタスクに一般化するのに苦労する。 条件付きビデオ生成における世界モデルの優れた一般化に触発されて、オフラインRLのスケーリングと新規タスクの一般化の促進を目的とした、画像観測に基づく世界モデルの可能性を探る。 本稿では,60億のトークンデータを持つ複数Atariゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Optimized World-Action Modelを紹介し,汎用表現と意思決定能力について述べる。 本手法は,事前学習中の大モデルによる時間差学習を安定化させる共用トランスフォーマーバックボーンを用いて,ワールドアクションモデルを協調的に最適化する。 さらに、Q値推定誤差を補償し、より良いポリシーを探索する、効率よく並列化可能な計画アルゴリズムを提案する。 実験の結果、我々の最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上で78.9%の人間レベルのパフォーマンスを達成し、既存の最先端の大規模オフラインRLベースラインを31.6%上回る結果となった。 さらに、JOWAはモデルキャパシティに好適にスケールし、ゲーム毎に5kのオフライン微調整データ(約4トラジェクトリ)しか使用せず、より優れた一般化を実現している。 コードとモデルの重み付けはhttps://github.com/CJReinforce/JOWA.orgで公開します。

A significant aspiration of offline reinforcement learning (RL) is to develop a generalist agent with high capabilities from large and heterogeneous datasets. However, prior approaches that scale offline RL either rely heavily on expert trajectories or struggle to generalize to diverse unseen tasks. Inspired by the excellent generalization of world model in conditional video generation, we explore the potential of image observation-based world model for scaling offline RL and enhancing generalization on novel tasks. In this paper, we introduce JOWA: Jointly-Optimized World-Action model, an offline model-based RL agent pretrained on multiple Atari games with 6 billion tokens data to learn general-purpose representation and decision-making ability. Our method jointly optimizes a world-action model through a shared transformer backbone, which stabilize temporal difference learning with large models during pretraining. Moreover, we propose a provably efficient and parallelizable planning algorithm to compensate for the Q-value estimation error and thus search out better policies. Experimental results indicate that our largest agent, with 150 million parameters, achieves 78.9% human-level performance on pretrained games using only 10% subsampled offline data, outperforming existing state-of-the-art large-scale offline RL baselines by 31.6% on averange. Furthermore, JOWA scales favorably with model capacity and can sample-efficiently transfer to novel games using only 5k offline fine-tuning data (approximately 4 trajectories) per game, demonstrating superior generalization. We will release codes and model weights at https://github.com/CJReinforce/JOWA.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-08
# ループ変換器の表現力について:時間ステップ符号化による理論的解析と拡張

On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding ( http://arxiv.org/abs/2410.01405v1 )

ライセンス: Link先を確認
Kevin Xu, Issei Sato, (参考訳) ループ変換器はパラメータ効率とチューリング完全性に利点がある。 しかし、関数近似と近似の表現力はいまだに未解明のままである。 本稿では,シーケンス・ツー・シーケンス関数の連続率のモジュラリティの概念を定義することにより,ループ変換器の近似速度を確立する。 これはループ化されたアーキテクチャに特有の制限を明らかにする。 すなわち、時間ステップエンコーディングで条件付けられた各ループにスケーリングパラメータを組み込むよう促す。 実験の結果,ループ数の増加により性能が向上し,タイムステップ符号化アーキテクチャによってさらに向上することが確認された。

Looped Transformers offer advantages in parameter efficiency and Turing completeness. However, their expressive power for function approximation and approximation rate remains underexplored. In this paper, we establish approximation rates of Looped Transformers by defining the concept of the modulus of continuity for sequence-to-sequence functions. This reveals a limitation specific to the looped architecture. That is, the analysis prompts us to incorporate scaling parameters for each loop, conditioned on timestep encoding. Experimental results demonstrate that increasing the number of loops enhances performance, with further gains achieved through the timestep encoding architecture.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-08
# ループ変換器の表現力について:時間ステップ符号化による理論的解析と拡張

On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding ( http://arxiv.org/abs/2410.01405v2 )

ライセンス: Link先を確認
Kevin Xu, Issei Sato, (参考訳) ループ変換器はパラメータ効率とチューリング完全性に利点がある。 しかし、関数近似と近似の表現力はいまだに未解明のままである。 本稿では,シーケンス・ツー・シーケンス関数の連続率のモジュラリティの概念を定義することにより,ループ変換器の近似速度を確立する。 これはループ化されたアーキテクチャに特有の制限を明らかにする。 すなわち、時間ステップエンコーディングで条件付けられた各ループにスケーリングパラメータを組み込むよう促す。 実験の結果,ループ数の増加により性能が向上し,タイムステップ符号化アーキテクチャによってさらに向上することが確認された。

Looped Transformers offer advantages in parameter efficiency and Turing completeness. However, their expressive power for function approximation and approximation rate remains underexplored. In this paper, we establish approximation rates of Looped Transformers by defining the concept of the modulus of continuity for sequence-to-sequence functions. This reveals a limitation specific to the looped architecture. That is, the analysis prompts us to incorporate scaling parameters for each loop, conditioned on timestep encoding. Experimental results demonstrate that increasing the number of loops enhances performance, with further gains achieved through the timestep encoding architecture.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-08
# ベル作用素をもつ二部格子状態の有界条件エントロピー

Bounding conditional entropy of bipartite states with Bell operators ( http://arxiv.org/abs/2410.01646v1 )

ライセンス: Link先を確認
Jan Horodecki, Piotr Mironowicz, (参考訳) 量子情報理論は古典的パラダイムを超える多くの性質を探求し、新しい応用と利益を提供している。 これらの性質の中で、負条件のフォン・ノイマンエントロピー(CVNE)は特に絡み合った量子系において重要であり、間接観測性にもかかわらず、様々な情報理論上のタスクにおける潜在的な利点の指標となる。 本稿では,CVNEとベルの不等式違反との関連について検討する。 我々のゴールは、選択したベル演算子を利用して、絡み合った量子ビットや量子ビットに適用した半定値プログラミングによりCVNE上の上限を確立することである。 陰性CVNEの半デバイス非依存的認証は達成可能であり,実用上有用である可能性が示唆された。 さらに、相対的な違反によって測定された検出効率の抜け穴に対する堅牢性と、臨界可視性によって測定された白色雑音および状態準備における欠陥に対する堅牢性という2つのタイプの堅牢性について検討する。 さらに,ベル不等式のパラメタライズド・ファミリーを解析し,ロバスト性基準の異なる最適パラメータを同定する。 本研究では,ベルの不等式の違いが,ノイズ抵抗の種類や負のCVNEの目標レベルなど,所望の特性によって異なるロバスト性を示すことを示す。 ベルの不等式とCVNEのギャップを埋めることにより、我々の研究は絡み合ったシステムの量子特性の理解を深め、実用的な量子情報処理タスクに対する洞察を提供する。

Quantum information theory explores numerous properties that surpass classical paradigms, offering novel applications and benefits. Among these properties, negative conditional von Neumann entropy (CVNE) is particularly significant in entangled quantum systems, serving as an indicator of potential advantages in various information-theoretic tasks, despite its indirect observability. In this paper, we investigate the relationship between CVNE and the violation of Bell inequalities. Our goal is to establish upper bounds on CVNE through semi-definite programming applied to entangled qubits and qutrits, utilizing selected Bell operators. Our findings reveal that a semi-device-independent certification of negative CVNE is achievable and could be practically beneficial. We further explore two types of robustness: robustness against detection efficiency loopholes, measured by relative violation, and robustness against white noise and imperfections in state preparation, measured by critical visibility. Additionally, we analyze parametrized families of Bell inequalities to identify optimal parameters for different robustness criteria. This study demonstrates that different Bell inequalities exhibit varying degrees of robustness depending on the desired properties, such as the type of noise resistance or the target level of negative CVNE. By bridging the gap between Bell inequalities and CVNE, our research enhances understanding of the quantum properties of entangled systems and offers insights for practical quantum information processing tasks.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-08
# ベル作用素をもつ二部格子状態の有界条件エントロピー

Bounding conditional entropy of bipartite states with Bell operators ( http://arxiv.org/abs/2410.01646v2 )

ライセンス: Link先を確認
Jan Horodecki, Piotr Mironowicz, (参考訳) 量子情報理論は古典的パラダイムを超える多くの性質を探求し、新しい応用と利益を提供している。 これらの性質の中で、負条件のフォン・ノイマンエントロピー(CVNE)は特に絡み合った量子系において重要であり、間接観測性にもかかわらず、様々な情報理論上のタスクにおける潜在的な利点の指標となる。 本稿では,CVNEとベルの不等式違反との関連について検討する。 我々のゴールは、選択したベル演算子を利用して、絡み合った量子ビットや量子ビットに適用した半定値プログラミングによりCVNE上の上限を確立することである。 陰性CVNEの半デバイス非依存的認証は達成可能であり,実用上有用である可能性が示唆された。 さらに、相対的な違反によって測定された検出効率の抜け穴に対する堅牢性と、臨界可視性によって測定された白色雑音および状態準備における欠陥に対する堅牢性という2つのタイプの堅牢性について検討する。 さらに,ベル不等式のパラメタライズド・ファミリーを解析し,ロバスト性基準の異なる最適パラメータを同定する。 本研究では,ベルの不等式の違いが,ノイズ抵抗の種類や負のCVNEの目標レベルなど,所望の特性によって異なるロバスト性を示すことを示す。 ベルの不等式とCVNEのギャップを埋めることにより、我々の研究は絡み合ったシステムの量子特性の理解を深め、実用的な量子情報処理タスクに対する洞察を提供する。

Quantum information theory explores numerous properties that surpass classical paradigms, offering novel applications and benefits. Among these properties, negative conditional von Neumann entropy (CVNE) is particularly significant in entangled quantum systems, serving as an indicator of potential advantages in various information-theoretic tasks, despite its indirect observability. In this paper, we investigate the relationship between CVNE and the violation of Bell inequalities. Our goal is to establish upper bounds on CVNE through semi-definite programming applied to entangled qubits and qutrits, utilizing selected Bell operators. Our findings reveal that a semi-device-independent certification of negative CVNE is achievable and could be practically beneficial. We further explore two types of robustness: robustness against detection efficiency loopholes, measured by relative violation, and robustness against white noise and imperfections in state preparation, measured by critical visibility. Additionally, we analyze parametrized families of Bell inequalities to identify optimal parameters for different robustness criteria. This study demonstrates that different Bell inequalities exhibit varying degrees of robustness depending on the desired properties, such as the type of noise resistance or the target level of negative CVNE. By bridging the gap between Bell inequalities and CVNE, our research enhances understanding of the quantum properties of entangled systems and offers insights for practical quantum information processing tasks.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-08
# EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatar

EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars ( http://arxiv.org/abs/2410.01835v1 )

ライセンス: Link先を確認
Jianchun Chen, Jian Wang, Yinda Zhang, Rohit Pandey, Thabo Beeler, Marc Habermann, Christian Theobalt, (参考訳) 没入型VRテレプレゼンス(Immersive VR telepresence, 没入型VRテレプレゼンス)とは、デジタルアバターと対話でき、実際のアバターの振る舞いを正確に反映できることを意味する。 真の人間を忠実に反映したデジタルダブルを作ること、そして1台のRGBカメラのように、軽量で低エネルギー消費のエゴセントリックなセンサーデバイスからのみ、本物の人間を追跡すること。 これまでのところ、この問題に対する統一的な解決策は存在しない。最近の研究は、エゴセントリックなモーションキャプチャーのみに焦点を当て、頭部のみをモデル化し、マルチビューキャプチャーからアバターを構築する。 本研究は,本研究で初めて,人物中心型テレプレゼンスアプローチを提案する。これは,光合成デジタルアバターを共同でモデル化し,同時に,単一の自我中心ビデオから駆動するものである。 まず,骨格運動のみによってのみ駆動され,形状や外観をモデル化できるキャラクタモデルを提案する。 次に、自我中心の動画から全体の動きを復元する自我中心のモーションキャプチャーコンポーネントを導入する。 最後に、回収されたポーズをキャラクタモデルに適用し、幾何学がエゴセントリックな視点に忠実に投影するように、テストタイムメッシュの改良を行う。 デザイン選択を検証するために,実人が様々な動作を行う様子を多視点・多視点で一対に表示する,新しい,挑戦的なベンチマークを提案する。 提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。 詳細、コード、データについては、プロジェクトページを参照してください。

Immersive VR telepresence ideally means being able to interact and communicate with digital avatars that are indistinguishable from and precisely reflect the behaviour of their real counterparts. The core technical challenge is two fold: Creating a digital double that faithfully reflects the real human and tracking the real human solely from egocentric sensing devices that are lightweight and have a low energy consumption, e.g. a single RGB camera. Up to date, no unified solution to this problem exists as recent works solely focus on egocentric motion capture, only model the head, or build avatars from multi-view captures. In this work, we, for the first time in literature, propose a person-specific egocentric telepresence approach, which jointly models the photoreal digital avatar while also driving it from a single egocentric video. We first present a character model that is animatible, i.e. can be solely driven by skeletal motion, while being capable of modeling geometry and appearance. Then, we introduce a personalized egocentric motion capture component, which recovers full-body motion from an egocentric video. Finally, we apply the recovered pose to our character model and perform a test-time mesh refinement such that the geometry faithfully projects onto the egocentric view. To validate our design choices, we propose a new and challenging benchmark, which provides paired egocentric and dense multi-view videos of real humans performing various motions. Our experiments demonstrate a clear step towards egocentric and photoreal telepresence as our method outperforms baselines as well as competing methods. For more details, code, and data, we refer to our project page.
翻訳日:2024-11-04 14:45:01 公開日:2024-10-08
# EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatar

EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars ( http://arxiv.org/abs/2410.01835v2 )

ライセンス: Link先を確認
Jianchun Chen, Jian Wang, Yinda Zhang, Rohit Pandey, Thabo Beeler, Marc Habermann, Christian Theobalt, (参考訳) 没入型VRテレプレゼンス(Immersive VR telepresence, 没入型VRテレプレゼンス)とは、デジタルアバターと対話でき、実際のアバターの振る舞いを正確に反映できることを意味する。 真の人間を忠実に反映したデジタルダブルを作ること、そして1台のRGBカメラのように、軽量で低エネルギー消費のエゴセントリックなセンサーデバイスからのみ、本物の人間を追跡すること。 これまでのところ、この問題に対する統一的な解決策は存在しない。最近の研究は、エゴセントリックなモーションキャプチャーのみに焦点を当て、頭部のみをモデル化し、マルチビューキャプチャーからアバターを構築する。 本研究は,本研究で初めて,人物中心型テレプレゼンスアプローチを提案する。これは,光合成デジタルアバターを共同でモデル化し,同時に,単一の自我中心ビデオから駆動するものである。 まず,骨格運動のみによってのみ駆動され,形状や外観をモデル化できるキャラクタモデルを提案する。 次に、自我中心の動画から全体の動きを復元する自我中心のモーションキャプチャーコンポーネントを導入する。 最後に、回収されたポーズをキャラクタモデルに適用し、幾何学がエゴセントリックな視点に忠実に投影するように、テストタイムメッシュの改良を行う。 デザイン選択を検証するために,実人が様々な動作を行う様子を多視点・多視点で一対に表示する,新しい,挑戦的なベンチマークを提案する。 提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。 詳細、コード、データについては、プロジェクトページを参照してください。

Immersive VR telepresence ideally means being able to interact and communicate with digital avatars that are indistinguishable from and precisely reflect the behaviour of their real counterparts. The core technical challenge is two fold: Creating a digital double that faithfully reflects the real human and tracking the real human solely from egocentric sensing devices that are lightweight and have a low energy consumption, e.g. a single RGB camera. Up to date, no unified solution to this problem exists as recent works solely focus on egocentric motion capture, only model the head, or build avatars from multi-view captures. In this work, we, for the first time in literature, propose a person-specific egocentric telepresence approach, which jointly models the photoreal digital avatar while also driving it from a single egocentric video. We first present a character model that is animatible, i.e. can be solely driven by skeletal motion, while being capable of modeling geometry and appearance. Then, we introduce a personalized egocentric motion capture component, which recovers full-body motion from an egocentric video. Finally, we apply the recovered pose to our character model and perform a test-time mesh refinement such that the geometry faithfully projects onto the egocentric view. To validate our design choices, we propose a new and challenging benchmark, which provides paired egocentric and dense multi-view videos of real humans performing various motions. Our experiments demonstrate a clear step towards egocentric and photoreal telepresence as our method outperforms baselines as well as competing methods. For more details, code, and data, we refer to our project page.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-08
# 末期腎疾患の予後予測の強化:マルチソースデータ駆動アプローチ

Enhancing End Stage Renal Disease Outcome Prediction: A Multi-Sourced Data-Driven Approach ( http://arxiv.org/abs/2410.01859v1 )

ライセンス: Link先を確認
Yubo Li, Rema Padman, (参考訳) 目的:機械学習(ML)と深層学習(DL)モデルを用いて慢性腎臓病(CKD)から末期腎疾患(ESRD)への進行予測を改善すること。 対象と方法:2009年から2018年までの臨床と請求情報を組み合わせた約10,326人のCKD患者のデータを利用した。 5つの異なる観測窓から抽出したデータを用いて,データ前処理,コホート識別,特徴工学に続いて,複数の統計,ML,DLモデルを評価した。 重要な予測因子を理解するために、特徴の重要性とシェープ値分析が採用された。 モデルは、堅牢性、臨床関連性、誤分類エラー、バイアス問題で試験された。 結果: 統合データモデルは単一データソースを用いた場合よりも優れており、Long Short-Term Memory(LSTM)モデルはAUC(0.93)とF1スコア(0.65)を達成している。 24ヶ月の観測窓は早期検出と予測精度のバランスをとるのに最適であると同定された。 2021年のeGFR方程式は予測精度を改善し、特にアフリカ系アメリカ人の偏見を低減した。 考察:本研究で提示したESRD予測精度の改善,結果の解釈可能性,バイアス軽減戦略は,CKDおよびESRD管理の大幅な向上,早期介入の早期支援,医療格差の低減に寄与する可能性がある。 結論:本研究は、CKD患者のESRD結果を予測するための堅牢な枠組みを示し、多ソース統合データとAI/ML法による臨床意思決定と患者ケアを改善した。 今後の研究は、データ統合を拡張し、このフレームワークの他の慢性疾患への応用を探る予定である。

Objective: To improve prediction of Chronic Kidney Disease (CKD) progression to End Stage Renal Disease (ESRD) using machine learning (ML) and deep learning (DL) models applied to an integrated clinical and claims dataset of varying observation windows, supported by explainable AI (XAI) to enhance interpretability and reduce bias. Materials and Methods: We utilized data about 10,326 CKD patients, combining their clinical and claims information from 2009 to 2018. Following data preprocessing, cohort identification, and feature engineering, we evaluated multiple statistical, ML and DL models using data extracted from five distinct observation windows. Feature importance and Shapley value analysis were employed to understand key predictors. Models were tested for robustness, clinical relevance, misclassification errors and bias issues. Results: Integrated data models outperformed those using single data sources, with the Long Short-Term Memory (LSTM) model achieving the highest AUC (0.93) and F1 score (0.65). A 24-month observation window was identified as optimal for balancing early detection and prediction accuracy. The 2021 eGFR equation improved prediction accuracy and reduced racial bias, notably for African American patients. Discussion: Improved ESRD prediction accuracy, results interpretability and bias mitigation strategies presented in this study have the potential to significantly enhance CKD and ESRD management, support targeted early interventions and reduce healthcare disparities. Conclusion: This study presents a robust framework for predicting ESRD outcomes in CKD patients, improving clinical decision-making and patient care through multi-sourced, integrated data and AI/ML methods. Future research will expand data integration and explore the application of this framework to other chronic diseases.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-08
# 末期腎疾患の予後予測の強化:マルチソースデータ駆動アプローチ

Enhancing End Stage Renal Disease Outcome Prediction: A Multi-Sourced Data-Driven Approach ( http://arxiv.org/abs/2410.01859v2 )

ライセンス: Link先を確認
Yubo Li, Rema Padman, (参考訳) 目的:機械学習(ML)と深層学習(DL)モデルを用いて慢性腎臓病(CKD)から末期腎疾患(ESRD)への進行予測を改善すること。 対象と方法:2009年から2018年までの臨床と請求情報を組み合わせた約10,326人のCKD患者のデータを利用した。 5つの異なる観測窓から抽出したデータを用いて,データ前処理,コホート識別,特徴工学に続いて,複数の統計,ML,DLモデルを評価した。 重要な予測因子を理解するために、特徴の重要性とシェープ値分析が採用された。 モデルは、堅牢性、臨床関連性、誤分類エラー、バイアス問題で試験された。 結果: 統合データモデルは単一データソースを用いた場合よりも優れており、Long Short-Term Memory(LSTM)モデルはAUC(0.93)とF1スコア(0.65)を達成している。 24ヶ月の観測窓は早期検出と予測精度のバランスをとるのに最適であると同定された。 2021年のeGFR方程式は予測精度を改善し、特にアフリカ系アメリカ人の偏見を低減した。 考察:本研究で提示したESRD予測精度の改善,結果の解釈可能性,バイアス軽減戦略は,CKDおよびESRD管理の大幅な向上,早期介入の早期支援,医療格差の低減に寄与する可能性がある。 結論:本研究は、CKD患者のESRD結果を予測するための堅牢な枠組みを示し、多ソース統合データとAI/ML法による臨床意思決定と患者ケアを改善した。 今後の研究は、データ統合を拡張し、このフレームワークの他の慢性疾患への応用を探る予定である。

Objective: To improve prediction of Chronic Kidney Disease (CKD) progression to End Stage Renal Disease (ESRD) using machine learning (ML) and deep learning (DL) models applied to an integrated clinical and claims dataset of varying observation windows, supported by explainable AI (XAI) to enhance interpretability and reduce bias. Materials and Methods: We utilized data about 10,326 CKD patients, combining their clinical and claims information from 2009 to 2018. Following data preprocessing, cohort identification, and feature engineering, we evaluated multiple statistical, ML and DL models using data extracted from five distinct observation windows. Feature importance and Shapley value analysis were employed to understand key predictors. Models were tested for robustness, clinical relevance, misclassification errors and bias issues. Results: Integrated data models outperformed those using single data sources, with the Long Short-Term Memory (LSTM) model achieving the highest AUC (0.93) and F1 score (0.65). A 24-month observation window was identified as optimal for balancing early detection and prediction accuracy. The 2021 eGFR equation improved prediction accuracy and reduced racial bias, notably for African American patients. Discussion: Improved ESRD prediction accuracy, results interpretability and bias mitigation strategies presented in this study have the potential to significantly enhance CKD and ESRD management, support targeted early interventions and reduce healthcare disparities. Conclusion: This study presents a robust framework for predicting ESRD outcomes in CKD patients, improving clinical decision-making and patient care through multi-sourced, integrated data and AI/ML methods. Future research will expand data integration and explore the application of this framework to other chronic diseases.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-08
# 多言語・多言語検索のための学習における翻訳とネイティブ知覚のギャップの定量化

Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval ( http://arxiv.org/abs/2410.02027v1 )

ライセンス: Link先を確認
Kyle Buettner, Adriana Kovashka, (参考訳) 言語や文化にまたがるイメージキャプションに反映される知覚的差異を適切に説明できる多言語視覚言語モデルはほとんどない。 本研究では,マルチモーダル・多言語検索ケーススタディを通じて,既存のモデル柔軟性の欠如を定量化する。 我々は、ドイツ原住民の認識から生まれたキャプションのトレーニングと、機械翻訳または人間翻訳されたキャプションと、英語からドイツ語に翻訳されたキャプションの間に、パフォーマンスのギャップを経験的に示す。 これらのギャップに対処するために、我々はさらにキャプション増強戦略を提案し、評価する。 平均的なリコール改善(+1.3)を達成する一方で、ギャップは依然として残っており、コミュニティの将来的な作業のオープンな領域を示している。

There is a scarcity of multilingual vision-language models that properly account for the perceptual differences that are reflected in image captions across languages and cultures. In this work, through a multimodal, multilingual retrieval case study, we quantify the existing lack of model flexibility. We empirically show performance gaps between training on captions that come from native German perception and captions that have been either machine-translated or human-translated from English into German. To address these gaps, we further propose and evaluate caption augmentation strategies. While we achieve mean recall improvements (+1.3), gaps still remain, indicating an open area of future work for the community.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-08
# 多言語・多言語検索のための学習における翻訳とネイティブ知覚のギャップの定量化

Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval ( http://arxiv.org/abs/2410.02027v2 )

ライセンス: Link先を確認
Kyle Buettner, Adriana Kovashka, (参考訳) 言語や文化にまたがるイメージキャプションに反映される知覚的差異を適切に説明できる多言語視覚言語モデルはほとんどない。 本研究では,マルチモーダル・多言語検索ケーススタディを通じて,既存のモデル柔軟性の欠如を定量化する。 我々は、ドイツ原住民の認識から生まれたキャプションのトレーニングと、機械翻訳または人間翻訳されたキャプションと、英語からドイツ語に翻訳されたキャプションの間に、パフォーマンスのギャップを経験的に示す。 これらのギャップに対処するために、我々はさらにキャプション増強戦略を提案し、評価する。 平均的なリコール改善(+1.3)を達成する一方で、ギャップは依然として残っており、コミュニティの将来的な作業のオープンな領域を示している。

There is a scarcity of multilingual vision-language models that properly account for the perceptual differences that are reflected in image captions across languages and cultures. In this work, through a multimodal, multilingual retrieval case study, we quantify the existing lack of model flexibility. We empirically show performance gaps between training on captions that come from native German perception and captions that have been either machine-translated or human-translated from English into German. To address these gaps, we further propose and evaluate caption augmentation strategies. While we achieve mean recall improvements (+1.3), gaps still remain, indicating an open area of future work for the community.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-08
# 編集後も好まれる

Post-edits Are Preferences Too ( http://arxiv.org/abs/2410.02320v1 )

ライセンス: Link先を確認
Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck, (参考訳) 優先度最適化(PO)技術は現在、人間のアノテータからのペアの好みフィードバックに基づいて、大規模言語モデル(LLM)を微調整するための最先端技術の1つである。 しかし、機械翻訳では、このようなフィードバックを要請することは困難である。 さらに、Kreutzer et al (2018) は、機械翻訳では、5点評価のような他の形式の人間のフィードバックよりもペアの好みが信頼性が低いことを示した。 建設による信頼性の高い人間の嗜好の源となり得るかどうかを,ポストエジットで検証する。 POでは、人間のアノテータが$s_1$と$s_2$のシーケンスを表示し、選好判断のために%$s_1 > s_2$を要求される。 我々はこれらのPOに対する暗黙の選好を使って、モデルが後述のような仮説に移行し、機械翻訳のような仮説から離れるのに役立つことを示す。 さらに, 編集後仮説を上位出力ランクに昇格させるために, 教師付き微調整(SFT)による事前学習を行うことにより, 最良の結果が得られることを示した。

Preference Optimization (PO) techniques are currently one of the state of the art techniques for fine-tuning large language models (LLMs) on pairwise preference feedback from human annotators. However, in machine translation, this sort of feedback can be difficult to solicit. Additionally, Kreutzer et al. (2018) have shown that, for machine translation, pairwise preferences are less reliable than other forms of human feedback, such as 5-point ratings. We examine post-edits to see if they can be a source of reliable human preferences by construction. In PO, a human annotator is shown sequences $s_1$ and $s_2$ and asked for a preference judgment, %$s_1 > s_2$; while for post-editing, editors \emph{create} $s_1$ and know that it should be better than $s_2$. We attempt to use these implicit preferences for PO and show that it helps the model move towards post-edit-like hypotheses and away from machine translation-like hypotheses. Furthermore, we show that best results are obtained by pre-training the model with supervised fine-tuning (SFT) on post-edits in order to promote post-edit-like hypotheses to the top output ranks.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-08
# 編集後も好まれる

Post-edits Are Preferences Too ( http://arxiv.org/abs/2410.02320v2 )

ライセンス: Link先を確認
Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck, (参考訳) 優先度最適化(PO)技術は現在、人間のアノテータからのペアの好みフィードバックに基づいて、大規模言語モデル(LLM)を微調整するための最先端技術の1つである。 しかし、機械翻訳では、このようなフィードバックを要請することは困難である。 さらに、Kreutzer et al (2018) は、機械翻訳では、5点評価のような他の形式の人間のフィードバックよりもペアの好みが信頼性が低いことを示した。 建設による信頼性の高い人間の嗜好の源となり得るかどうかを,ポストエジットで検証する。 POでは、人間のアノテータが$s_1$と$s_2$のシーケンスを表示し、選好判断のために%$s_1 > s_2$を要求される。 我々はこれらのPOに対する暗黙の選好を使って、モデルが後述のような仮説に移行し、機械翻訳のような仮説から離れるのに役立つことを示す。 さらに, 編集後仮説を上位出力ランクに昇格させるために, 教師付き微調整(SFT)による事前学習を行うことにより, 最良の結果が得られることを示した。

Preference Optimization (PO) techniques are currently one of the state of the art techniques for fine-tuning large language models (LLMs) on pairwise preference feedback from human annotators. However, in machine translation, this sort of feedback can be difficult to solicit. Additionally, Kreutzer et al. (2018) have shown that, for machine translation, pairwise preferences are less reliable than other forms of human feedback, such as 5-point ratings. We examine post-edits to see if they can be a source of reliable human preferences by construction. In PO, a human annotator is shown sequences $s_1$ and $s_2$ and asked for a preference judgment, %$s_1 > s_2$; while for post-editing, editors create $s_1$ and know that it should be better than $s_2$. We attempt to use these implicit preferences for PO and show that it helps the model move towards post-edit-like hypotheses and away from machine translation-like hypotheses. Furthermore, we show that best results are obtained by pre-training the model with supervised fine-tuning (SFT) on post-edits in order to promote post-edit-like hypotheses to the top output ranks.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-08
# カオスのエッジにおけるインテリジェンス

Intelligence at the Edge of Chaos ( http://arxiv.org/abs/2410.02536v1 )

ライセンス: Link先を確認
Shiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk, (参考訳) ルールベースのシステムの複雑さが、これらのルールを予測するために訓練されたモデルの能力にどのように影響するかを調べることで、人工システムにおけるインテリジェントな振る舞いの出現を探求する。 本研究は, 単純かつ強力な1次元システムである初等セルオートマトン (ECA) に着目した。 異なるECA上でLLM(Large Language Models)を訓練することにより,ルールの動作の複雑さとLLMが示す知能の関係を,下流タスクのパフォーマンスに反映して評価した。 以上の結果から,より複雑度の高いルールは,推論やチェスの動作予測タスクにおいて,より優れたインテリジェンスを示すモデルにつながることが明らかとなった。 均一なシステムも周期的なシステムも、しばしば非常にカオス的なシステムも、ダウンストリームのパフォーマンスが低下し、インテリジェンスに結びつく複雑さのスイートスポットを浮き彫りにした。 我々は、知性は複雑さを予測する能力から生じ、知性を生み出すには複雑さにのみ暴露する必要があると推測する。

We explore the emergence of intelligent behavior in artificial systems by investigating how the complexity of rule-based systems influences the capabilities of models trained to predict these rules. Our study focuses on elementary cellular automata (ECA), simple yet powerful one-dimensional systems that generate behaviors ranging from trivial to highly complex. By training distinct Large Language Models (LLMs) on different ECAs, we evaluated the relationship between the complexity of the rules' behavior and the intelligence exhibited by the LLMs, as reflected in their performance on downstream tasks. Our findings reveal that rules with higher complexity lead to models exhibiting greater intelligence, as demonstrated by their performance on reasoning and chess move prediction tasks. Both uniform and periodic systems, and often also highly chaotic systems, resulted in poorer downstream performance, highlighting a sweet spot of complexity conducive to intelligence. We conjecture that intelligence arises from the ability to predict complexity and that creating intelligence may require only exposure to complexity.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-08
# カオスのエッジにおけるインテリジェンス

Intelligence at the Edge of Chaos ( http://arxiv.org/abs/2410.02536v2 )

ライセンス: Link先を確認
Shiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk, (参考訳) ルールベースのシステムの複雑さが、これらのルールを予測するために訓練されたモデルの能力にどのように影響するかを調べることで、人工システムにおけるインテリジェントな振る舞いの出現を探求する。 本研究は, 単純かつ強力な1次元システムである初等セルオートマトン (ECA) に着目した。 異なるECA上でLLM(Large Language Models)を訓練することにより,ルールの動作の複雑さとLLMが示す知能の関係を,下流タスクのパフォーマンスに反映して評価した。 以上の結果から,より複雑度の高いルールは,推論やチェスの動作予測タスクにおいて,より優れたインテリジェンスを示すモデルにつながることが明らかとなった。 均一なシステムも周期的なシステムも、しばしば非常にカオス的なシステムも、ダウンストリームのパフォーマンスが低下し、インテリジェンスに結びつく複雑さのスイートスポットを浮き彫りにした。 我々は、知性は複雑さを予測する能力から生じ、知性を生み出すには複雑さにのみ暴露する必要があると推測する。

We explore the emergence of intelligent behavior in artificial systems by investigating how the complexity of rule-based systems influences the capabilities of models trained to predict these rules. Our study focuses on elementary cellular automata (ECA), simple yet powerful one-dimensional systems that generate behaviors ranging from trivial to highly complex. By training distinct Large Language Models (LLMs) on different ECAs, we evaluated the relationship between the complexity of the rules' behavior and the intelligence exhibited by the LLMs, as reflected in their performance on downstream tasks. Our findings reveal that rules with higher complexity lead to models exhibiting greater intelligence, as demonstrated by their performance on reasoning and chess move prediction tasks. Both uniform and periodic systems, and often also highly chaotic systems, resulted in poorer downstream performance, highlighting a sweet spot of complexity conducive to intelligence. We conjecture that intelligence arises from the ability to predict complexity and that creating intelligence may require only exposure to complexity.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-08
# SIEVE: GPT-4oの精度を1%のコストでマッチングする汎用データフィルタリングシステム

SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost ( http://arxiv.org/abs/2410.02755v1 )

ライセンス: Link先を確認
Jifan Zhang, Robert Nowak, (参考訳) 専門的な大規模言語モデルを作成するには、トレーニングと微調整のために大量のクリーンで特別なデータが必要である。 既存の大規模なドメイン固有のデータセットのごく一部だけで、ほとんどのアプリケーションで新しいデータセットを作成する必要がある。 これは、Webスケールデータの新しいアプリケーション固有のフィルタリングを開発する必要がある。 GPT-4o などの高性能汎用 LLM によるフィルタリングは非常に効果的であるが,Web スケールでは極めて高価である。 本稿では,GPT-4oの精度を若干のコストで一致させる軽量な代替手段であるSIEVEを提案する。 SIEVEは最大500個のフィルタリング処理を実行でき、1つのGPT-4oフィルタリングコールのコストがかかる。 SIEVEの鍵となるのは、GPT-4oと軽量T5モデルのシームレスな統合であり、アクティブラーニングを使用してバックグラウンドでT5を微調整し、少数のGPT-4oを呼び出す。 トレーニングが完了すると、GPT-4oと同様に、わずかなコストで動作します。 高品質でドメイン固有のコンテンツを対象とした5つの高度にカスタマイズされたフィルタタスクを用いて、OpenWebTextデータセット上でSIEVEを実験的に検証する。 本研究は,言語モデル学習のための大規模かつ高品質なデータセットを,既存の手法よりも大幅に低コスト(1%)でキュレートする手法の有効性と効率を実証するものである。 SIEVEをさらに検証するために、実験によりSIEVEとGPT-4oが同様の精度を達成できることが示され、人間の評価者はSIEVEのフィルタリング結果をGPT-4oより好んでいる。

Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE's filtering results to those of GPT-4o.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-08
# SIEVE: GPT-4oの精度を1%のコストでマッチングする汎用データフィルタリングシステム

SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost ( http://arxiv.org/abs/2410.02755v2 )

ライセンス: Link先を確認
Jifan Zhang, Robert Nowak, (参考訳) 専門的な大規模言語モデルを作成するには、トレーニングと微調整のために大量のクリーンで特別なデータが必要である。 既存の大規模なドメイン固有のデータセットのごく一部だけで、ほとんどのアプリケーションで新しいデータセットを作成する必要がある。 これは、Webスケールデータの新しいアプリケーション固有のフィルタリングを開発する必要がある。 GPT-4o などの高性能汎用 LLM によるフィルタリングは非常に効果的であるが,Web スケールでは極めて高価である。 本稿では,GPT-4oの精度を若干のコストで一致させる軽量な代替手段であるSIEVEを提案する。 SIEVEは最大500個のフィルタリング処理を実行でき、1つのGPT-4oフィルタリングコールのコストがかかる。 SIEVEの鍵となるのは、GPT-4oと軽量T5モデルのシームレスな統合であり、アクティブラーニングを使用してバックグラウンドでT5を微調整し、少数のGPT-4oを呼び出す。 トレーニングが完了すると、GPT-4oと同様に、わずかなコストで動作します。 高品質でドメイン固有のコンテンツを対象とした5つの高度にカスタマイズされたフィルタタスクを用いて、OpenWebTextデータセット上でSIEVEを実験的に検証する。 本研究は,言語モデル学習のための大規模かつ高品質なデータセットを,既存の手法よりも大幅に低コスト(1%)でキュレートする手法の有効性と効率を実証するものである。 SIEVEをさらに検証するために、実験によりSIEVEとGPT-4oが同様の精度を達成できることが示され、人間の評価者はSIEVEのフィルタリング結果をGPT-4oより好んでいる。

Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE's filtering results to those of GPT-4o.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-08
# 暗号物理安全TEEの検証研究の方向性

Research Directions for Verifiable Crypto-Physically Secure TEEs ( http://arxiv.org/abs/2410.03183v1 )

ライセンス: Link先を確認
Sylvain Bellemare, (参考訳) Web3の世界でニッチなコーナーは、ハードウェアベースのTrusted Execution Environments(TEEs)を使って分散インフラストラクチャを構築している。 TEEを使用する動機の1つは、ゼロ知識証明(ZKP)、完全同型暗号(FHE)、マルチパーティ計算(MPC)など、暗号ベースの代替手段の現在の性能制限を超えることである。 魅力的な優位性にもかかわらず、現在のTEEは物理的な攻撃に対して安全でないため深刻な制限を被り、その証明機構はチップメーカーの信頼に根ざしている。 結果として、Web3アプリケーションは、ハードウェアベースのTEEの信頼できる保護者として振る舞うために、クラウドのインフラに依存し、信頼できるチップメーカーを受け入れる必要がある。 この研究は、物理的攻撃に対して安全であり、チップメーカーへの信頼を必要としないチップを設計し、実装する方法を模索することを目的としている。 この研究の1つの目標は、Web3ムーブメントを動機付け、すでに存在する相当量の関連するハードウェア研究を認識し、活用することである。 簡単に言うと、(1)信頼の根元を確保するための物理的非拘束機能(PUF)、(2)計算の確保のためのマスキングと冗長性技術、(3)チップが期待する設計と一致することを検証するためのオープンソースのハードウェアとイメージング技術、そして、クラウドプロバイダやチップメーカーを信頼することなく、特定のTEEが信頼できることを証明する上での助けとなる。

A niche corner of the Web3 world is increasingly making use of hardware-based Trusted Execution Environments (TEEs) to build decentralized infrastructure. One of the motivations to use TEEs is to go beyond the current performance limitations of cryptography-based alternatives such as zero-knowledge proofs (ZKP), fully homomorphic encryption (FHE), and multi-party computation (MPC). Despite their appealing advantages, current TEEs suffer from serious limitations as they are not secure against physical attacks, and their attestation mechanism is rooted in the chip manufacturer's trust. As a result, Web3 applications have to rely on cloud infrastruture to act as trusted guardians of hardware-based TEEs and have to accept to trust chip manufacturers. This work aims at exploring how we could potentially architect and implement chips that would be secure against physical attacks and would not require putting trust in chip manufacturers. One goal of this work is to motivate the Web3 movement to acknowledge and leverage the substantial amount of relevant hardware research that already exists. In brief, a combination of: (1) physical unclonable functions (PUFs) to secure the root-of-trust; (2) masking and redundancy techniques to secure computations; (3) open source hardware and imaging techniques to verify that a chip matches its expected design; can help move towards attesting that a given TEE can be trusted without the need to trust a cloud provider and a chip manufacturer.
翻訳日:2024-11-03 03:14:31 公開日:2024-10-08
# 暗号物理安全TEEの検証研究の方向性

Research Directions for Verifiable Crypto-Physically Secure TEEs ( http://arxiv.org/abs/2410.03183v2 )

ライセンス: Link先を確認
Sylvain Bellemare, (参考訳) Web3の世界でニッチなコーナーは、ハードウェアベースのTrusted Execution Environments(TEEs)を使って分散インフラストラクチャを構築している。 TEEを使用する動機の1つは、ゼロ知識証明(ZKP)、完全同型暗号(FHE)、マルチパーティ計算(MPC)など、暗号ベースの代替手段の現在の性能制限を超えることである。 魅力的な優位性にもかかわらず、現在のTEEは物理的な攻撃に対して安全でないため深刻な制限を被り、その証明機構はチップメーカーの信頼に根ざしている。 結果として、Web3アプリケーションは、ハードウェアベースのTEEの信頼できる保護者として振る舞うために、クラウドのインフラに依存し、信頼できるチップメーカーを受け入れる必要がある。 この研究は、物理的攻撃に対して安全であり、チップメーカーへの信頼を必要としないチップを設計し、実装する方法を模索することを目的としている。 この研究の1つの目標は、Web3ムーブメントを動機付け、すでに存在する相当量の関連するハードウェア研究を認識し、活用することである。 簡単に言うと、(1)信頼の根元を確保するための物理的非拘束機能(PUF)、(2)計算の確保のためのマスキングと冗長性技術、(3)チップが期待する設計と一致することを検証するためのオープンソースのハードウェアとイメージング技術、そして、クラウドプロバイダやチップメーカーを信頼することなく、特定のTEEが信頼できることを証明する上での助けとなる。

A niche corner of the Web3 world is increasingly making use of hardware-based Trusted Execution Environments (TEEs) to build decentralized infrastructure. One of the motivations to use TEEs is to go beyond the current performance limitations of cryptography-based alternatives such as zero-knowledge proofs (ZKP), fully homomorphic encryption (FHE), and multi-party computation (MPC). Despite their appealing advantages, current TEEs suffer from serious limitations as they are not secure against physical attacks, and their attestation mechanism is rooted in the chip manufacturer's trust. As a result, Web3 applications have to rely on cloud infrastruture to act as trusted guardians of hardware-based TEEs and have to accept to trust chip manufacturers. This work aims at exploring how we could potentially architect and implement chips that would be secure against physical attacks and would not require putting trust in chip manufacturers. One goal of this work is to motivate the Web3 movement to acknowledge and leverage the substantial amount of relevant hardware research that already exists. In brief, a combination of: (1) physical unclonable functions (PUFs) to secure the root-of-trust; (2) masking and redundancy techniques to secure computations; (3) open source hardware and imaging techniques to verify that a chip matches its expected design; can help move towards attesting that a given TEE can be trusted without the need to trust a cloud provider and a chip manufacturer.
翻訳日:2024-11-03 03:14:31 公開日:2024-10-08
# テキストインストラクションを用いた自動文字・シーンインタラクション合成

Autonomous Character-Scene Interaction Synthesis from Text Instruction ( http://arxiv.org/abs/2410.03187v1 )

ライセンス: Link先を確認
Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu, (参考訳) 3D環境における人間の動き、特に移動、手洗い、人間と物体の相互作用などの複雑な活動の合成は、ユーザ定義のウェイポイントとステージ遷移に対するかなりの要求を提示する。 これらの要件は現在のモデルに課題をもたらし、単純な人間の入力から文字のアニメーションを自動化する際、顕著なギャップを生じさせる。 本稿では,単一テキスト命令と目標位置から直接多段階シーン認識インタラクション動作を合成するための包括的フレームワークを導入することで,この問題に対処する。 提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。 合成された動きが環境内でシームレスに統合されていることを保証するために,まず最初に,目標位置の両方において,局所的な知覚を考慮したシーン表現を提案する。 我々は、フレーム埋め込みと言語入力を統合することにより、生成された動きのコヒーレンスをさらに強化する。 さらに,モデル学習を支援するために,40種類の動作を含む120の屋内シーンに16時間の動作シーケンスを収録し,それぞれに正確な言語記述を付加した包括的モーションキャプチャーデータセットを提案する。 実験により, 環境条件, テキスト条件と密に整合した高品質多段運動の創出に本手法の有効性が示された。

Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.
翻訳日:2024-11-03 03:04:25 公開日:2024-10-08
# テキストインストラクションを用いた自動文字・シーンインタラクション合成

Autonomous Character-Scene Interaction Synthesis from Text Instruction ( http://arxiv.org/abs/2410.03187v2 )

ライセンス: Link先を確認
Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu, (参考訳) 3D環境における人間の動き、特に移動、手洗い、人間と物体の相互作用などの複雑な活動の合成は、ユーザ定義のウェイポイントとステージ遷移に対するかなりの要求を提示する。 これらの要件は現在のモデルに課題をもたらし、単純な人間の入力から文字のアニメーションを自動化する際、顕著なギャップを生じさせる。 本稿では,単一テキスト命令と目標位置から直接多段階シーン認識インタラクション動作を合成するための包括的フレームワークを導入することで,この問題に対処する。 提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。 合成された動きが環境内でシームレスに統合されていることを保証するために,まず最初に,目標位置の両方において,局所的な知覚を考慮したシーン表現を提案する。 我々は、フレーム埋め込みと言語入力を統合することにより、生成された動きのコヒーレンスをさらに強化する。 さらに,モデル学習を支援するために,40種類の動作を含む120の屋内シーンに16時間の動作シーケンスを収録し,それぞれに正確な言語記述を付加した包括的モーションキャプチャーデータセットを提案する。 実験により, 環境条件, テキスト条件と密に整合した高品質多段運動の創出に本手法の有効性が示された。

Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.
翻訳日:2024-11-03 03:04:25 公開日:2024-10-08
# 生体画像セグメンテーションのためのコンフォーマル信頼セット

Conformal confidence sets for biomedical image segmentation ( http://arxiv.org/abs/2410.03406v1 )

ライセンス: Link先を確認
Samuel Davenport, (参考訳) 画像セグメンテーション用に設計されたブラックボックス機械学習モデルの出力に対して空間的不確実性を保証する信頼セットを開発する。 そこで我々は、画像設定に適合推論を適用し、変換されたロジットスコアの最大値の分布に基づいてキャリブレーションデータセットのしきい値を取得する。 これらの信頼セットがモデルの新しい予測に適用されると、真の未知のセグメント化マスクを所望の確率で含むことが保証される。 キャリブレーションを行う前に、学習データセット上で適切なスコア変換を学習することが、パフォーマンスの最適化に不可欠であることを示す。 ポロピス腫瘍データセット上でのアプローチを実証し,検証する。 そこで我々は,ポピュスセグメンテーションのために訓練された深層ニューラルネットワークからロジットスコアを取得し,距離変換スコアを用いて外的信頼セットを得るとともに,内的信頼セットの原点スコアが偽カバレッジ率を制御しながら腫瘍位置の厳密な拘束を可能にすることを示す。

We develop confidence sets which provide spatial uncertainty guarantees for the output of a black-box machine learning model designed for image segmentation. To do so we adapt conformal inference to the imaging setting, obtaining thresholds on a calibration dataset based on the distribution of the maximum of the transformed logit scores within and outside of the ground truth masks. We prove that these confidence sets, when applied to new predictions of the model, are guaranteed to contain the true unknown segmented mask with desired probability. We show that learning appropriate score transformations on a learning dataset before performing calibration is crucial for optimizing performance. We illustrate and validate our approach on a polpys tumor dataset. To do so we obtain the logit scores from a deep neural network trained for polpys segmentation and show that using distance transformed scores to obtain outer confidence sets and the original scores for inner confidence sets enables tight bounds on tumor location whilst controlling the false coverage rate.
翻訳日:2024-11-02 22:39:00 公開日:2024-10-08
# 生体画像セグメンテーションのためのコンフォーマル信頼セット

Conformal confidence sets for biomedical image segmentation ( http://arxiv.org/abs/2410.03406v2 )

ライセンス: Link先を確認
Samuel Davenport, (参考訳) 画像セグメンテーション用に設計されたブラックボックス機械学習モデルの出力に対して空間的不確実性を保証する信頼セットを開発する。 そこで我々は、画像設定に適合推論を適用し、変換されたロジットスコアの最大値の分布に基づいてキャリブレーションデータセットのしきい値を取得する。 これらの信頼セットがモデルの新しい予測に適用されると、真の未知のセグメント化マスクを所望の確率で含むことが保証される。 キャリブレーションを行う前に、学習データセット上で適切なスコア変換を学習することが、パフォーマンスの最適化に不可欠であることを示す。 ポロピス腫瘍データセット上でのアプローチを実証し,検証する。 そこで我々は,ポピュスセグメンテーションのために訓練された深層ニューラルネットワークからロジットスコアを取得し,距離変換スコアを用いて外的信頼セットを得るとともに,内的信頼セットの原点スコアが偽カバレッジ率を制御しながら腫瘍位置の厳密な拘束を可能にすることを示す。

We develop confidence sets which provide spatial uncertainty guarantees for the output of a black-box machine learning model designed for image segmentation. To do so we adapt conformal inference to the imaging setting, obtaining thresholds on a calibration dataset based on the distribution of the maximum of the transformed logit scores within and outside of the ground truth masks. We prove that these confidence sets, when applied to new predictions of the model, are guaranteed to contain the true unknown segmented mask with desired probability. We show that learning appropriate score transformations on a learning dataset before performing calibration is crucial for optimizing performance. We illustrate and validate our approach on a polpys tumor dataset. To do so we obtain the logit scores from a deep neural network trained for polpys segmentation and show that using distance transformed scores to obtain outer confidence sets and the original scores for inner confidence sets enables tight bounds on tumor location whilst controlling the false coverage rate.
翻訳日:2024-11-02 22:39:00 公開日:2024-10-08
# 術中超音波ガイド下肝手術における肝内血管のリアルタイム同定に向けて

Towards Real-time Intrahepatic Vessel Identification in Intraoperative Ultrasound-Guided Liver Surgery ( http://arxiv.org/abs/2410.03420v1 )

ライセンス: Link先を確認
Karl-Philippe Beaudet, Alexandros Karargyris, Sidaty El Hadramy, Stéphane Cotin, Jean-Paul Mazellier, Nicolas Padoy, Juan Verde, (参考訳) 腹腔鏡下肝切除は, 従来の開腹手術に比べて合併症が少なく, 患者の予後も維持されるが, 肝内構造を表わす上での課題により, その複雑さは広く普及する。 腹腔鏡下術中超音波検査は, 効率的, 費用対効果, 放射線フリーガイダンスを提供する。 本研究の目的は,腹腔鏡下術中超音波検査による肝内構造同定を支援することである。 本研究では,術前の3D超音波肝体積を用いて,門脈および枝状構造のリアルタイム同定のための深層学習モデルを訓練する患者固有のアプローチを提案する。 超音波肝切除における血管同定の精度を高めるため, 当科のパーソナライズドAIモデルは, 手術者と比較して精度が0.95, リコール率0.93) に優れていた。 その適応性と潜在的な臨床効果は、外科的介入を推進し、患者のケアを改善することを約束する。

While laparoscopic liver resection is less prone to complications and maintains patient outcomes compared to traditional open surgery, its complexity hinders widespread adoption due to challenges in representing the liver's internal structure. Laparoscopic intraoperative ultrasound offers efficient, cost-effective and radiation-free guidance. Our objective is to aid physicians in identifying internal liver structures using laparoscopic intraoperative ultrasound. We propose a patient-specific approach using preoperative 3D ultrasound liver volume to train a deep learning model for real-time identification of portal tree and branch structures. Our personalized AI model, validated on ex vivo swine livers, achieved superior precision (0.95) and recall (0.93) compared to surgeons, laying groundwork for precise vessel identification in ultrasound-based liver resection. Its adaptability and potential clinical impact promise to advance surgical interventions and improve patient care.
翻訳日:2024-11-02 22:29:14 公開日:2024-10-08
# 術中超音波ガイド下肝手術における肝内血管のリアルタイム同定に向けて

Towards Real-time Intrahepatic Vessel Identification in Intraoperative Ultrasound-Guided Liver Surgery ( http://arxiv.org/abs/2410.03420v2 )

ライセンス: Link先を確認
Karl-Philippe Beaudet, Alexandros Karargyris, Sidaty El Hadramy, Stéphane Cotin, Jean-Paul Mazellier, Nicolas Padoy, Juan Verde, (参考訳) 腹腔鏡下肝切除は, 従来の開腹手術に比べて合併症が少なく, 患者の予後も維持されるが, 肝内構造を表わす上での課題により, その複雑さは広く普及する。 腹腔鏡下術中超音波検査は, 効率的, 費用対効果, 放射線フリーガイダンスを提供する。 本研究の目的は,腹腔鏡下術中超音波検査による肝内構造同定を支援することである。 本研究では,術前の3D超音波肝体積を用いて,門脈および枝状構造のリアルタイム同定のための深層学習モデルを訓練する患者固有のアプローチを提案する。 超音波肝切除における血管同定の精度を高めるため, 当科のパーソナライズドAIモデルは, 手術者と比較して精度が0.95, リコール率0.93) に優れていた。 その適応性と潜在的な臨床効果は、外科的介入を推進し、患者のケアを改善することを約束する。

While laparoscopic liver resection is less prone to complications and maintains patient outcomes compared to traditional open surgery, its complexity hinders widespread adoption due to challenges in representing the liver's internal structure. Laparoscopic intraoperative ultrasound offers efficient, cost-effective and radiation-free guidance. Our objective is to aid physicians in identifying internal liver structures using laparoscopic intraoperative ultrasound. We propose a patient-specific approach using preoperative 3D ultrasound liver volume to train a deep learning model for real-time identification of portal tree and branch structures. Our personalized AI model, validated on ex vivo swine livers, achieved superior precision (0.95) and recall (0.93) compared to surgeons, laying groundwork for precise vessel identification in ultrasound-based liver resection. Its adaptability and potential clinical impact promise to advance surgical interventions and improve patient care.
翻訳日:2024-11-02 22:29:14 公開日:2024-10-08
# Zebra: パラメトリックPDEの解決のためのインコンテキストと生成事前トレーニング

Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs ( http://arxiv.org/abs/2410.03437v1 )

ライセンス: Link先を確認
Louis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari, (参考訳) 時間依存パラメトリック偏微分方程式(PDE)の解法は、モデルが係数、強制項、境界条件などのパラメータのバリエーションに適応する必要があるため、難しい。 データ駆動型ニューラルソルバは、PDEパラメータ分布からサンプリングされたデータをトレーニングし、モデルを新しいインスタンスに一般化するか、あるいは勾配ベースの適応とメタラーニングに頼って観察からダイナミクスを暗黙的にエンコードすることを期待する。 これはしばしば推論の複雑さが増す。 大規模言語モデル(LLM)の文脈内学習能力に触発されて,パラメトリックPDEを推論の勾配適応を必要とせずに解くために設計された,新しい自動回帰変換器であるZebraを導入する。 事前学習と推論の両方でコンテキスト内情報を活用することで、Zebraはコンテキスト軌跡や先行状態を含む入力シーケンスを条件付けすることで、新しいタスクに動的に適応する。 このアプローチにより、Zebraは任意の大きさのコンテキスト入力を柔軟に処理でき、複数の解軌跡のサンプリングを通じて不確実な定量化をサポートすることができる。 我々は、Zebraを様々な挑戦的なPDEシナリオで評価し、既存のアプローチと比較して適応性、堅牢性、優れたパフォーマンスを示す。

Solving time-dependent parametric partial differential equations (PDEs) is challenging, as models must adapt to variations in parameters such as coefficients, forcing terms, and boundary conditions. Data-driven neural solvers either train on data sampled from the PDE parameters distribution in the hope that the model generalizes to new instances or rely on gradient-based adaptation and meta-learning to implicitly encode the dynamics from observations. This often comes with increased inference complexity. Inspired by the in-context learning capabilities of large language models (LLMs), we introduce Zebra, a novel generative auto-regressive transformer designed to solve parametric PDEs without requiring gradient adaptation at inference. By leveraging in-context information during both pre-training and inference, Zebra dynamically adapts to new tasks by conditioning on input sequences that incorporate context trajectories or preceding states. This approach enables Zebra to flexibly handle arbitrarily sized context inputs and supports uncertainty quantification through the sampling of multiple solution trajectories. We evaluate Zebra across a variety of challenging PDE scenarios, demonstrating its adaptability, robustness, and superior performance compared to existing approaches.
翻訳日:2024-11-02 22:19:23 公開日:2024-10-08
# Zebra: パラメトリックPDEの解決のためのインコンテキストと生成事前トレーニング

Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs ( http://arxiv.org/abs/2410.03437v2 )

ライセンス: Link先を確認
Louis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari, (参考訳) 時間依存パラメトリック偏微分方程式(PDE)の解法は、モデルが係数、強制項、境界条件などのパラメータのバリエーションに適応する必要があるため、難しい。 データ駆動型ニューラルソルバは、PDEパラメータ分布からサンプリングされたデータをトレーニングし、モデルを新しいインスタンスに一般化するか、あるいは勾配ベースの適応とメタラーニングに頼って観察からダイナミクスを暗黙的にエンコードすることを期待する。 これはしばしば推論の複雑さが増す。 大規模言語モデル(LLM)の文脈内学習能力に触発されて,パラメトリックPDEを推論の勾配適応を必要とせずに解くために設計された,新しい自動回帰変換器であるZebraを導入する。 事前学習と推論の両方でコンテキスト内情報を活用することで、Zebraはコンテキスト軌跡や先行状態を含む入力シーケンスを条件付けすることで、新しいタスクに動的に適応する。 このアプローチにより、Zebraは任意の大きさのコンテキスト入力を柔軟に処理でき、複数の解軌跡のサンプリングを通じて不確実な定量化をサポートすることができる。 我々は、Zebraを様々な挑戦的なPDEシナリオで評価し、既存のアプローチと比較して適応性、堅牢性、優れたパフォーマンスを示す。

Solving time-dependent parametric partial differential equations (PDEs) is challenging, as models must adapt to variations in parameters such as coefficients, forcing terms, and boundary conditions. Data-driven neural solvers either train on data sampled from the PDE parameters distribution in the hope that the model generalizes to new instances or rely on gradient-based adaptation and meta-learning to implicitly encode the dynamics from observations. This often comes with increased inference complexity. Inspired by the in-context learning capabilities of large language models (LLMs), we introduce Zebra, a novel generative auto-regressive transformer designed to solve parametric PDEs without requiring gradient adaptation at inference. By leveraging in-context information during both pre-training and inference, Zebra dynamically adapts to new tasks by conditioning on input sequences that incorporate context trajectories or preceding states. This approach enables Zebra to flexibly handle arbitrarily sized context inputs and supports uncertainty quantification through the sampling of multiple solution trajectories. We evaluate Zebra across a variety of challenging PDE scenarios, demonstrating its adaptability, robustness, and superior performance compared to existing approaches.
翻訳日:2024-11-02 22:19:23 公開日:2024-10-08
# ToolGen: 生成による統一されたツール検索と呼び出し

ToolGen: Unified Tool Retrieval and Calling via Generation ( http://arxiv.org/abs/2410.03439v1 )

ライセンス: Link先を確認
Renxi Wang, Xudong Han, Lei Ji, Shu Wang, Timothy Baldwin, Haonan Li, (参考訳) 大きな言語モデル(LLM)が進歩するにつれて、外部ツールと直接対話することでタスクを自律的に実行できないことは、依然として重要な制限である。 従来の手法では、コンテキスト長に制約されたツール記述をコンテキストとして入力することに依存しており、分離され、しばしば非効率な検索機構を必要とする。 ツール知識を LLM のパラメータに直接統合するパラダイムシフトである ToolGen を紹介し,それぞれのツールをユニークなトークンとして表現する。 これにより、LLMは次のトークン予測機能の一部としてツール呼び出しと引数を生成し、ツール呼び出しと言語生成をシームレスにブレンドすることができる。 我々のフレームワークは、LLMが追加の検索手順なしで大量のツールにアクセスし、利用できるようにし、性能とスケーラビリティの両方を大幅に向上させる。 47,000以上のツールによる実験結果から、ToolGenはツール検索と自律的なタスク完了の両方において優れた結果を達成するだけでなく、さまざまな領域にまたがるツールに適応できるAIエージェントの新たな時代へのステージも設定している。 ツール検索を生成プロセスに根本的に変換することで、ToolGenはより汎用的で効率的で自律的なAIシステムを実現する。 ToolGenは、エンドツーエンドのツール学習を可能にし、チェーン・オブ・ソートや強化学習といった他の高度な技術との統合の機会を開放し、LCMの実用的な能力を拡大します。

As large language models (LLMs) advance, their inability to autonomously execute tasks by directly interacting with external tools remains a critical limitation. Traditional methods rely on inputting tool descriptions as context, which is constrained by context length and requires separate, often inefficient, retrieval mechanisms. We introduce ToolGen, a paradigm shift that integrates tool knowledge directly into the LLM's parameters by representing each tool as a unique token. This enables the LLM to generate tool calls and arguments as part of its next token prediction capabilities, seamlessly blending tool invocation with language generation. Our framework allows the LLM to access and utilize a vast amount of tools with no additional retrieval step, significantly enhancing both performance and scalability. Experimental results with over 47,000 tools show that ToolGen not only achieves superior results in both tool retrieval and autonomous task completion but also sets the stage for a new era of AI agents that can adapt to tools across diverse domains. By fundamentally transforming tool retrieval into a generative process, ToolGen paves the way for more versatile, efficient, and autonomous AI systems. ToolGen enables end-to-end tool learning and opens opportunities for integration with other advanced techniques such as chain-of-thought and reinforcement learning, thereby expanding the practical capabilities of LLMs.
翻訳日:2024-11-02 22:19:23 公開日:2024-10-08
# ToolGen: 生成による統一されたツール検索と呼び出し

ToolGen: Unified Tool Retrieval and Calling via Generation ( http://arxiv.org/abs/2410.03439v2 )

ライセンス: Link先を確認
Renxi Wang, Xudong Han, Lei Ji, Shu Wang, Timothy Baldwin, Haonan Li, (参考訳) 大きな言語モデル(LLM)が進歩するにつれて、外部ツールと直接対話することでタスクを自律的に実行できないことは、依然として重要な制限である。 従来の手法では、コンテキスト長に制約されたツール記述をコンテキストとして入力することに依存しており、分離され、しばしば非効率な検索機構を必要とする。 ツール知識を LLM のパラメータに直接統合するパラダイムシフトである ToolGen を紹介し,それぞれのツールをユニークなトークンとして表現する。 これにより、LLMは次のトークン予測機能の一部としてツール呼び出しと引数を生成し、ツール呼び出しと言語生成をシームレスにブレンドすることができる。 我々のフレームワークは、LLMが追加の検索手順なしで大量のツールにアクセスし、利用できるようにし、性能とスケーラビリティの両方を大幅に向上させる。 47,000以上のツールによる実験結果から、ToolGenはツール検索と自律的なタスク完了の両方において優れた結果を達成するだけでなく、さまざまな領域にまたがるツールに適応できるAIエージェントの新たな時代へのステージも設定している。 ツール検索を生成プロセスに根本的に変換することで、ToolGenはより汎用的で効率的で自律的なAIシステムを実現する。 ToolGenは、エンドツーエンドのツール学習を可能にし、チェーン・オブ・ソートや強化学習といった他の高度な技術との統合の機会を開放し、LCMの実用的な能力を拡大します。

As large language models (LLMs) advance, their inability to autonomously execute tasks by directly interacting with external tools remains a critical limitation. Traditional methods rely on inputting tool descriptions as context, which is constrained by context length and requires separate, often inefficient, retrieval mechanisms. We introduce ToolGen, a paradigm shift that integrates tool knowledge directly into the LLM's parameters by representing each tool as a unique token. This enables the LLM to generate tool calls and arguments as part of its next token prediction capabilities, seamlessly blending tool invocation with language generation. Our framework allows the LLM to access and utilize a vast amount of tools with no additional retrieval step, significantly enhancing both performance and scalability. Experimental results with over 47,000 tools show that ToolGen not only achieves superior results in both tool retrieval and autonomous task completion but also sets the stage for a new era of AI agents that can adapt to tools across diverse domains. By fundamentally transforming tool retrieval into a generative process, ToolGen paves the way for more versatile, efficient, and autonomous AI systems. ToolGen enables end-to-end tool learning and opens opportunities for integration with other advanced techniques such as chain-of-thought and reinforcement learning, thereby expanding the practical capabilities of LLMs.
翻訳日:2024-11-02 22:19:23 公開日:2024-10-08
# 連続時間における電位出力の安定化ニューラル予測

Stabilized Neural Prediction of Potential Outcomes in Continuous Time ( http://arxiv.org/abs/2410.03514v1 )

ライセンス: Link先を確認
Konstantin Hess, Stefan Feuerriegel, (参考訳) 電子カルテからの患者軌道は、時間とともに治療の潜在的な結果を予測するために広く使われ、ケアをパーソナライズすることができる。 しかし、この目的のための既存のニューラルメソッドには、重要な制限がある: 時間変化の共起を調整しているものもあるが、これらの手法は、時系列が離散時間で記録されていると仮定する。 言い換えれば、医療実践では非現実的とはいえ、測定や治療が一定時間に行われるような状況に制約される。 この研究は、連続した時間で潜在的な結果を予測することを目的としている。 後者は、任意の不規則なタイムスタンプで測定と治療が行われる患者軌道のモデリングを可能にするため、直接的な実用的関連性がある。 そこで本稿では、SCIP-Net(Stableed continuous time inverse propensity Network)と呼ばれる新しい手法を提案する。 このために、潜在的な結果の頑健な予測のために、安定化された逆確率重みを導出する。 我々の知る限りでは、SCIP-Netは、連続的に時間変化のあるコンバウンディングの適切な調整を行う最初のニューラル手法である。

Patient trajectories from electronic health records are widely used to predict potential outcomes of treatments over time, which then allows to personalize care. Yet, existing neural methods for this purpose have a key limitation: while some adjust for time-varying confounding, these methods assume that the time series are recorded in discrete time. In other words, they are constrained to settings where measurements and treatments are conducted at fixed time steps, even though this is unrealistic in medical practice. In this work, we aim to predict potential outcomes in continuous time. The latter is of direct practical relevance because it allows for modeling patient trajectories where measurements and treatments take place at arbitrary, irregular timestamps. We thus propose a new method called stabilized continuous time inverse propensity network (SCIP-Net). For this, we further derive stabilized inverse propensity weights for robust prediction of the potential outcomes. To the best of our knowledge, our SCIP-Net is the first neural method that performs proper adjustments for time-varying confounding in continuous time.
翻訳日:2024-11-02 21:50:00 公開日:2024-10-08
# 連続時間における電位出力の安定化ニューラル予測

Stabilized Neural Prediction of Potential Outcomes in Continuous Time ( http://arxiv.org/abs/2410.03514v2 )

ライセンス: Link先を確認
Konstantin Hess, Stefan Feuerriegel, (参考訳) 電子カルテからの患者軌道は、時間とともに治療の潜在的な結果を予測するために広く使われ、ケアをパーソナライズすることができる。 しかし、この目的のための既存のニューラルメソッドには、重要な制限がある: 時間変化の共起を調整しているものもあるが、これらの手法は、時系列が離散時間で記録されていると仮定する。 言い換えれば、医療実践では非現実的とはいえ、測定や治療が一定時間に行われるような状況に制約される。 この研究は、連続した時間で潜在的な結果を予測することを目的としている。 後者は、任意の不規則なタイムスタンプで測定と治療が行われる患者軌道のモデリングを可能にするため、直接的な実用的関連性がある。 そこで本稿では、SCIP-Net(Stableed continuous time inverse propensity Network)と呼ばれる新しい手法を提案する。 このために、潜在的な結果の頑健な予測のために、安定化された逆確率重みを導出する。 我々の知る限りでは、SCIP-Netは、連続的に時間変化のあるコンバウンディングの適切な調整を行う最初のニューラル手法である。

Patient trajectories from electronic health records are widely used to predict potential outcomes of treatments over time, which then allows to personalize care. Yet, existing neural methods for this purpose have a key limitation: while some adjust for time-varying confounding, these methods assume that the time series are recorded in discrete time. In other words, they are constrained to settings where measurements and treatments are conducted at fixed time steps, even though this is unrealistic in medical practice. In this work, we aim to predict potential outcomes in continuous time. The latter is of direct practical relevance because it allows for modeling patient trajectories where measurements and treatments take place at arbitrary, irregular timestamps. We thus propose a new method called stabilized continuous time inverse propensity network (SCIP-Net). For this, we further derive stabilized inverse propensity weights for robust prediction of the potential outcomes. To the best of our knowledge, our SCIP-Net is the first neural method that performs proper adjustments for time-varying confounding in continuous time.
翻訳日:2024-11-02 21:50:00 公開日:2024-10-08
# LCM:視点歪み軽減のためのロバスト表現学習のためのログコンフォーマルマップ

LCM: Log Conformal Maps for Robust Representation Learning to Mitigate Perspective Distortion ( http://arxiv.org/abs/2410.03686v2 )

ライセンス: Link先を確認
Meenakshi Subhash Chippa, Prakash Chandra Chhipa, Kanjar De, Marcus Liwicki, Rajkumar Saini, (参考訳) パースペクティブ歪み(PD)は、画像中の視覚要素の形状、大きさ、方向、角度、空間的関係を著しく変化させる。 カメラ固有のパラメータと外部パラメータを正確に決定することは困難であり、視点歪みを効果的に合成することが困難である。 現在の歪み補正法では、歪みを除去し、視覚タスクを学習する。 最近の研究は、視点歪み(MPD)を緩和するM\オビウス変換を利用して、カメラパラメータを推定することなく視点歪みを合成している。 M\"obius transform は、複数の相互依存および相互関連パラメータをチューニングし、複雑な算術演算を伴って、かなりの計算複雑性をもたらす。 これらの課題に対処するために,対数関数を利用した対数関数を用いた対数変換法であるログ・コンフォーマル・マップ(LCM)を提案する。 より少ないパラメータのLCMがMPDに近似することを示す実験を補完する詳細な基礎を提供する。 LCMは教師付きおよび自己教師型表現学習とよく統合されており、標準モデルより優れており、複数のベンチマーク(Imagenet-PD, Imagenet-E, Imagenet-X)上での視点歪みの緩和における最先端の性能と一致している。 さらにLCMは、人物の再識別とシームレスな統合を示し、性能を改善した。 ソースコードはhttps://github.com/meenakshi23/Log-Conformal-Mapsで公開されている。

Perspective distortion (PD) leads to substantial alterations in the shape, size, orientation, angles, and spatial relationships of visual elements in images. Accurately determining camera intrinsic and extrinsic parameters is challenging, making it hard to synthesize perspective distortion effectively. The current distortion correction methods involve removing distortion and learning vision tasks, thus making it a multi-step process, often compromising performance. Recent work leverages the M\"obius transform for mitigating perspective distortions (MPD) to synthesize perspective distortions without estimating camera parameters. M\"obius transform requires tuning multiple interdependent and interrelated parameters and involving complex arithmetic operations, leading to substantial computational complexity. To address these challenges, we propose Log Conformal Maps (LCM), a method leveraging the logarithmic function to approximate perspective distortions with fewer parameters and reduced computational complexity. We provide a detailed foundation complemented with experiments to demonstrate that LCM with fewer parameters approximates the MPD. We show that LCM integrates well with supervised and self-supervised representation learning, outperform standard models, and matches the state-of-the-art performance in mitigating perspective distortion over multiple benchmarks, namely Imagenet-PD, Imagenet-E, and Imagenet-X. Further LCM demonstrate seamless integration with person re-identification and improved the performance. Source code is made publicly available at https://github.com/meenakshi23/Log-Conformal-Maps.
翻訳日:2024-11-02 20:48:16 公開日:2024-10-08
# 大規模言語モデルは、公平に行動するが、利己的に行動する時やアルトイスト的に行動しないとき、機械的罰則を克服する

Large Language Models Overcome the Machine Penalty When Acting Fairly but Not When Acting Selfishly or Altruistically ( http://arxiv.org/abs/2410.03724v2 )

ライセンス: Link先を確認
Zhen Wang, Ruiqi Song, Chen Shen, Shiya Yin, Zhao Song, Balaraju Battu, Lei Shi, Danyang Jia, Talal Rahwan, Shuyue Hu, (参考訳) 集団的利益と自己利益が相反する社会ジレンマでは、人々は通常、仲間の人間よりも機械に協力しない。 この罰を克服することは、成功している機械集団にとって重要であるが、現在の解決策は、機械の非人間の性質を隠蔽するなど、倫理的に疑わしい戦術を伴うことが多い。 本研究では,1,152人の参加者とともに,対話相手間のコミュニケーションが可能なシナリオにおいて,Large Language Models (LLMs) を用いて,この研究課題を解消する可能性を検討する。 我々は3種類のLLMを設計する。 一 協力者であって、その協力者を支援することを目的とするもの (二 利己的で、自己利益の最大化に特化すること。) 三 自己利益をわずかに優先しつつ、自己利益と集団利益のバランスをとること。 この結果から,ヒトとの相互作用において,ヒトとヒトの相互作用に匹敵する協力レベルを誘導できることが判明した。 対照的に、利己的で協力的なLLMは、この目標を達成することができない。 実験後の分析では、全ての3種類のLDMが人間との相互協力協定を成立させることに成功したが、彼らの約束を破る時折公平なLDMだけが、彼らと協力する人間の間に認識を浸透させ、信頼感、マインドフルネス、知性、コミュニケーション品質に関する肯定的な見解を導き出すことができる。 この結果から,人間と機械の連携が効果的であるためには,ロボットメーカーが機械の設計を合理的に行うことや,人間を支援することのみに注力することを避けることが示唆された。 代わりに、彼らは自分自身の関心と人間の関心のバランスをとることができる機械を設計すべきである。

In social dilemmas where the collective and self-interests are at odds, people typically cooperate less with machines than with fellow humans, a phenomenon termed the machine penalty. Overcoming this penalty is critical for successful human-machine collectives, yet current solutions often involve ethically-questionable tactics, like concealing machines' non-human nature. In this study, with 1,152 participants, we explore the possibility of closing this research question by using Large Language Models (LLMs), in scenarios where communication is possible between interacting parties. We design three types of LLMs: (i) Cooperative, aiming to assist its human associate; (ii) Selfish, focusing solely on maximizing its self-interest; and (iii) Fair, balancing its own and collective interest, while slightly prioritizing self-interest. Our findings reveal that, when interacting with humans, fair LLMs are able to induce cooperation levels comparable to those observed in human-human interactions, even when their non-human nature is fully disclosed. In contrast, selfish and cooperative LLMs fail to achieve this goal. Post-experiment analysis shows that all three types of LLMs succeed in forming mutual cooperation agreements with humans, yet only fair LLMs, which occasionally break their promises, are capable of instilling a perception among humans that cooperating with them is the social norm, and eliciting positive views on their trustworthiness, mindfulness, intelligence, and communication quality. Our findings suggest that for effective human-machine cooperation, bot manufacturers should avoid designing machines with mere rational decision-making or a sole focus on assisting humans. Instead, they should design machines capable of judiciously balancing their own interest and the interest of humans.
翻訳日:2024-11-02 20:28:28 公開日:2024-10-08
# FaithEval: たとえ月がマシュマロでできているとしても、あなたの言語モデルは文脈に忠実か?

FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" ( http://arxiv.org/abs/2410.03727v2 )

ライセンス: Link先を確認
Yifei Ming, Senthil Purushwalkam, Shrey Pandit, Zixuan Ke, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty, (参考訳) 大規模言語モデル(LLM)と検索強化世代(RAG)システムにおけるコンテキストへの忠実性の確保は、ユーザの信頼を損なうため、現実のアプリケーションにおける信頼性の高いデプロイには不可欠である。 標準ベンチマークの進歩にもかかわらず、忠実な幻覚モデルでは、提供されたコンテキストに一致しない応答を生成する。 本研究は,3つのタスクのコンテキストシナリオにおけるLLMの忠実度を評価するための,新規で包括的なベンチマークであるFaithEvalを紹介する。 これらのタスクは、検索メカニズムが不完全、矛盾、あるいは偽情報となるような現実世界の課題をシミュレートする。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証され、LSMベースの自動評価と人間の検証の両方を利用している。 幅広いオープンソースおよびプロプライエタリなモデルにわたる広範な研究によると、最先端のモデルでさえ、しばしば与えられたコンテキストに忠実に保たれるのに苦労し、大きなモデルは必ずしも改善された忠実さを示すとは限らない。

Ensuring faithfulness to context in large language models (LLMs) and retrieval-augmented generation (RAG) systems is crucial for reliable deployment in real-world applications, as incorrect or unsupported information can erode user trust. Despite advancements on standard benchmarks, faithfulness hallucination-where models generate responses misaligned with the provided context-remains a significant challenge. In this work, we introduce FaithEval, a novel and comprehensive benchmark tailored to evaluate the faithfulness of LLMs in contextual scenarios across three diverse tasks: unanswerable, inconsistent, and counterfactual contexts. These tasks simulate real-world challenges where retrieval mechanisms may surface incomplete, contradictory, or fabricated information. FaithEval comprises 4.9K high-quality problems in total, validated through a rigorous four-stage context construction and validation framework, employing both LLM-based auto-evaluation and human validation. Our extensive study across a wide range of open-source and proprietary models reveals that even state-of-the-art models often struggle to remain faithful to the given context, and that larger models do not necessarily exhibit improved faithfulness.Project is available at: \url{https://github.com/SalesforceAIResearch/FaithEval}.
翻訳日:2024-11-02 20:28:28 公開日:2024-10-08
# TrustEMG-Net: 表面筋電図強調のためのU-Netを用いた表現マスク変換器

TrustEMG-Net: Using Representation-Masking Transformer with U-Net for Surface Electromyography Enhancement ( http://arxiv.org/abs/2410.03843v1 )

ライセンス: Link先を確認
Kuan-Chen Wang, Kai-Chun Liu, Ping-Cheng Yeh, Sheng-Yu Peng, Yu Tsao, (参考訳) 表面筋電図 (Surface Electromyography, SEMG) は、皮膚に電極を置いてヒトの筋活動を捉える生体信号である。 様々な汚染物質に感受性を持つsEMGを非侵襲的な測定によって処理することにより、sEMG汚染物質を除去する方法が提案されている。 しかしながら、これらのアプローチはしばしばヒューリスティックな最適化に依存し、汚染物質の種類に敏感である。 より強力で堅牢で一般化されたsEMGデノベーションアプローチは、様々な医療や人間とコンピュータのインタラクションアプリケーションのために開発されるべきである。 本稿では、TrustEMG-Netと呼ばれる新しいニューラルネットワーク(NN)ベースのsEMG復調手法を提案する。 NNの強力な非線形マッピング機能とデータ駆動性を活用する。 TrustEMG-Net では,U-Net と Transformer のエンコーダを表現・マスキング方式で組み合わせ,デノナイズするオートエンコーダ構造を採用している。 提案手法は,5種類の共通汚染型とSNR条件を有するNinapro sEMGデータベースを用いて評価した。 既存のsEMGデノベーション手法と比較して、TrustEMG-Netは5つの評価指標で例外的な性能を達成し、20%の最小改善を示した。 その優越性は、-14から2dBと5種の汚染物質を含む様々な条件下で一貫している。 アブレーション研究では、TrustEMG-Netの設計がその最適性に貢献し、高品質なsEMGを提供し、sEMGアプリケーションのための効果的で堅牢で一般化されたデノナイズソリューションとして機能することを証明している。

Surface electromyography (sEMG) is a widely employed bio-signal that captures human muscle activity via electrodes placed on the skin. Several studies have proposed methods to remove sEMG contaminants, as non-invasive measurements render sEMG susceptible to various contaminants. However, these approaches often rely on heuristic-based optimization and are sensitive to the contaminant type. A more potent, robust, and generalized sEMG denoising approach should be developed for various healthcare and human-computer interaction applications. This paper proposes a novel neural network (NN)-based sEMG denoising method called TrustEMG-Net. It leverages the potent nonlinear mapping capability and data-driven nature of NNs. TrustEMG-Net adopts a denoising autoencoder structure by combining U-Net with a Transformer encoder using a representation-masking approach. The proposed approach is evaluated using the Ninapro sEMG database with five common contamination types and signal-to-noise ratio (SNR) conditions. Compared with existing sEMG denoising methods, TrustEMG-Net achieves exceptional performance across the five evaluation metrics, exhibiting a minimum improvement of 20%. Its superiority is consistent under various conditions, including SNRs ranging from -14 to 2 dB and five contaminant types. An ablation study further proves that the design of TrustEMG-Net contributes to its optimality, providing high-quality sEMG and serving as an effective, robust, and generalized denoising solution for sEMG applications.
翻訳日:2024-11-02 16:00:59 公開日:2024-10-08
# TrustEMG-Net: 表面筋電図強調のためのU-Netを用いた表現マスク変換器

TrustEMG-Net: Using Representation-Masking Transformer with U-Net for Surface Electromyography Enhancement ( http://arxiv.org/abs/2410.03843v2 )

ライセンス: Link先を確認
Kuan-Chen Wang, Kai-Chun Liu, Ping-Cheng Yeh, Sheng-Yu Peng, Yu Tsao, (参考訳) 表面筋電図 (Surface Electromyography, SEMG) は、皮膚に電極を置いてヒトの筋活動を捉える生体信号である。 様々な汚染物質に感受性を持つsEMGを非侵襲的な測定によって処理することにより、sEMG汚染物質を除去する方法が提案されている。 しかしながら、これらのアプローチはしばしばヒューリスティックな最適化に依存し、汚染物質の種類に敏感である。 より強力で堅牢で一般化されたsEMGデノベーションアプローチは、様々な医療や人間とコンピュータのインタラクションアプリケーションのために開発されるべきである。 本稿では、TrustEMG-Netと呼ばれる新しいニューラルネットワーク(NN)ベースのsEMG復調手法を提案する。 NNの強力な非線形マッピング機能とデータ駆動性を活用する。 TrustEMG-Net では,U-Net と Transformer のエンコーダを表現・マスキング方式で組み合わせ,デノナイズするオートエンコーダ構造を採用している。 提案手法は,5種類の共通汚染型とSNR条件を有するNinapro sEMGデータベースを用いて評価した。 既存のsEMGデノベーション手法と比較して、TrustEMG-Netは5つの評価指標で例外的な性能を達成し、20%の最小改善を示した。 その優越性は、-14から2dBと5種の汚染物質を含む様々な条件下で一貫している。 アブレーション研究では、TrustEMG-Netの設計がその最適性に貢献し、高品質なsEMGを提供し、sEMGアプリケーションのための効果的で堅牢で一般化されたデノナイズソリューションとして機能することを証明している。

Surface electromyography (sEMG) is a widely employed bio-signal that captures human muscle activity via electrodes placed on the skin. Several studies have proposed methods to remove sEMG contaminants, as non-invasive measurements render sEMG susceptible to various contaminants. However, these approaches often rely on heuristic-based optimization and are sensitive to the contaminant type. A more potent, robust, and generalized sEMG denoising approach should be developed for various healthcare and human-computer interaction applications. This paper proposes a novel neural network (NN)-based sEMG denoising method called TrustEMG-Net. It leverages the potent nonlinear mapping capability and data-driven nature of NNs. TrustEMG-Net adopts a denoising autoencoder structure by combining U-Net with a Transformer encoder using a representation-masking approach. The proposed approach is evaluated using the Ninapro sEMG database with five common contamination types and signal-to-noise ratio (SNR) conditions. Compared with existing sEMG denoising methods, TrustEMG-Net achieves exceptional performance across the five evaluation metrics, exhibiting a minimum improvement of 20%. Its superiority is consistent under various conditions, including SNRs ranging from -14 to 2 dB and five contaminant types. An ablation study further proves that the design of TrustEMG-Net contributes to its optimality, providing high-quality sEMG and serving as an effective, robust, and generalized denoising solution for sEMG applications.
翻訳日:2024-11-02 16:00:59 公開日:2024-10-08
# 私が何を言っているか知っている - インシシット・レファレンスによるジェイルブレイク攻撃

You Know What I'm Saying -- Jailbreak Attack via Implicit Reference ( http://arxiv.org/abs/2410.03857v1 )

ライセンス: Link先を確認
Tianyu Wu, Lingrui Mei, Ruibin Yuan, Lujun Li, Wei Xue, Yike Guo, (参考訳) 近年,大規模言語モデル (LLM) のアライメントの進歩により,シーンネストやキーワードの書き直しを含む悪意のある対象を効果的に識別できるようになっているが,これらの手法は,文脈によって表現される悪意のある対象を検出するのに不十分であることが明らかとなった。 本研究では、以前見過ごされた脆弱性を特定し、Attack via Implicit Reference (AIR)と呼ぶ。 AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。 本手法では, 拒絶応答を起こさずに悪意のあるコンテンツを生成するために, 既存の検出手法を効果的に回避し, 現状のLSMに対してAIRの有効性を実証し, GPT-4o, Claude-3.5-Sonnet, Qwen-2-72Bを含むほとんどのモデルにおいて, 攻撃成功率(ASR)を90%以上達成する。 特に,この攻撃法に対して,より大きなモデルの方が脆弱である逆スケーリング現象を観察する。 これらの知見は、文脈的攻撃を理解し予防できる防衛機構の緊急の必要性を浮き彫りにした。 さらに、安全でないモデルを利用して悪意のあるコンテキストを生成するクロスモデルアタック戦略を導入し、それによって、他のモデルをターゲットにする際のASRをさらに高め、我々のコードやジェイルブレイクアーティファクトはhttps://github.com/Lucas-TY/llm_Implicit_referenceで見ることができる。

While recent advancements in large language model (LLM) alignment have enabled the effective identification of malicious objectives involving scene nesting and keyword rewriting, our study reveals that these methods remain inadequate at detecting malicious objectives expressed through context within nested harmless objectives. This study identifies a previously overlooked vulnerability, which we term Attack via Implicit Reference (AIR). AIR decomposes a malicious objective into permissible objectives and links them through implicit references within the context. This method employs multiple related harmless objectives to generate malicious content without triggering refusal responses, thereby effectively bypassing existing detection techniques.Our experiments demonstrate AIR's effectiveness across state-of-the-art LLMs, achieving an attack success rate (ASR) exceeding 90% on most models, including GPT-4o, Claude-3.5-Sonnet, and Qwen-2-72B. Notably, we observe an inverse scaling phenomenon, where larger models are more vulnerable to this attack method. These findings underscore the urgent need for defense mechanisms capable of understanding and preventing contextual attacks. Furthermore, we introduce a cross-model attack strategy that leverages less secure models to generate malicious contexts, thereby further increasing the ASR when targeting other models.Our code and jailbreak artifacts can be found at https://github.com/Lucas-TY/llm_Implicit_reference.
翻訳日:2024-11-02 15:50:43 公開日:2024-10-08
# 私が何を言っているのかわかる? 不正アクセスによるジェイルブレイク攻撃

You Know What I'm Saying: Jailbreak Attack via Implicit Reference ( http://arxiv.org/abs/2410.03857v2 )

ライセンス: Link先を確認
Tianyu Wu, Lingrui Mei, Ruibin Yuan, Lujun Li, Wei Xue, Yike Guo, (参考訳) 近年,大規模言語モデル (LLM) のアライメントの進歩により,シーンネストやキーワードの書き直しを含む悪意のある対象を効果的に識別できるようになっているが,これらの手法は,文脈によって表現される悪意のある対象を検出するのに不十分であることが明らかとなった。 本研究では、以前見過ごされた脆弱性を特定し、Attack via Implicit Reference (AIR)と呼ぶ。 AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。 本手法では, 拒絶応答を起こさずに悪意のあるコンテンツを生成するために, 既存の検出手法を効果的に回避し, 現状のLSMに対してAIRの有効性を実証し, GPT-4o, Claude-3.5-Sonnet, Qwen-2-72Bを含むほとんどのモデルにおいて, 攻撃成功率(ASR)を90%以上達成する。 特に,この攻撃法に対して,より大きなモデルの方が脆弱である逆スケーリング現象を観察する。 これらの知見は、文脈的攻撃を理解し予防できる防衛機構の緊急の必要性を浮き彫りにした。 さらに、安全でないモデルを利用して悪意のあるコンテキストを生成するクロスモデルアタック戦略を導入し、それによって、他のモデルをターゲットにする際のASRをさらに高め、我々のコードやジェイルブレイクアーティファクトはhttps://github.com/Lucas-TY/llm_Implicit_referenceで見ることができる。

While recent advancements in large language model (LLM) alignment have enabled the effective identification of malicious objectives involving scene nesting and keyword rewriting, our study reveals that these methods remain inadequate at detecting malicious objectives expressed through context within nested harmless objectives. This study identifies a previously overlooked vulnerability, which we term Attack via Implicit Reference (AIR). AIR decomposes a malicious objective into permissible objectives and links them through implicit references within the context. This method employs multiple related harmless objectives to generate malicious content without triggering refusal responses, thereby effectively bypassing existing detection techniques.Our experiments demonstrate AIR's effectiveness across state-of-the-art LLMs, achieving an attack success rate (ASR) exceeding 90% on most models, including GPT-4o, Claude-3.5-Sonnet, and Qwen-2-72B. Notably, we observe an inverse scaling phenomenon, where larger models are more vulnerable to this attack method. These findings underscore the urgent need for defense mechanisms capable of understanding and preventing contextual attacks. Furthermore, we introduce a cross-model attack strategy that leverages less secure models to generate malicious contexts, thereby further increasing the ASR when targeting other models.Our code and jailbreak artifacts can be found at https://github.com/Lucas-TY/llm_Implicit_reference.
翻訳日:2024-11-02 15:50:43 公開日:2024-10-08
# シミュレーションに基づく最適化のための量子モンテカルロ積分

Quantum Monte Carlo Integration for Simulation-Based Optimisation ( http://arxiv.org/abs/2410.03926v1 )

ライセンス: Link先を確認
Jingjing Cui, Philippe J. S. de Brouwer, Steven Herbert, Philip Intallura, Cahit Kargi, Georgios Korpas, Alexandre Krajenbrink, William Shooshmith, Ifan Williams, Ban Zheng, (参考訳) 本稿では,シミュレーションに基づく最適化問題のサブルーチンとして量子アルゴリズムを統合する可能性とその数学的ファイナンスへの応用の可能性について検討する。 この目的のために,量子モンテカルロ積分の定式化に伴うすべての系統的誤差を網羅的に解析し,ガウス分布などの様々な分布を符号化するために必要な資源をよりよく理解し,資産の値-at-Risk (VaR) や条件-値-at-Risk (CVaR) などの統計量を評価する。 最後に,シミュレーションに基づく最適化,特にMean-Conditional-Value-at-Risk (Mean-CVaR) と (risky) Mean-Var (Mean-Var) の最適化問題の観点から,量子モンテカルロ積分の適用性を検討した。 特に,量子デバイスにノイズが存在する場合の平均値最適化問題について検討し,量子振幅推定(量子モンテカルロ積分のキーサブルーチン)に適用する量子誤差緩和法をベンチマークし,そのようなアプローチの有用性を示す。

We investigate the feasibility of integrating quantum algorithms as subroutines of simulation-based optimisation problems with relevance to and potential applications in mathematical finance. To this end, we conduct a thorough analysis of all systematic errors arising in the formulation of quantum Monte Carlo integration in order to better understand the resources required to encode various distributions such as a Gaussian, and to evaluate statistical quantities such as the Value-at-Risk (VaR) and Conditional-Value-at-Risk (CVaR) of an asset. Finally, we study the applicability of quantum Monte Carlo integration for fundamental financial use cases in terms of simulation-based optimisations, notably Mean-Conditional-Value-at-Risk (Mean-CVaR) and (risky) Mean-Variance (Mean-Var) optimisation problems. In particular, we study the Mean-Var optimisation problem in the presence of noise on a quantum device, and benchmark a quantum error mitigation method that applies to quantum amplitude estimation -- a key subroutine of quantum Monte Carlo integration -- showcasing the utility of such an approach.
翻訳日:2024-11-02 15:21:16 公開日:2024-10-08
# シミュレーションに基づく最適化のための量子モンテカルロ積分

Quantum Monte Carlo Integration for Simulation-Based Optimisation ( http://arxiv.org/abs/2410.03926v2 )

ライセンス: Link先を確認
Jingjing Cui, Philippe J. S. de Brouwer, Steven Herbert, Philip Intallura, Cahit Kargi, Georgios Korpas, Alexandre Krajenbrink, William Shoosmith, Ifan Williams, Ban Zheng, (参考訳) 本稿では,シミュレーションに基づく最適化問題のサブルーチンとして量子アルゴリズムを統合する可能性とその数学的ファイナンスへの応用の可能性について検討する。 この目的のために,量子モンテカルロ積分の定式化に伴うすべての系統的誤差を網羅的に解析し,ガウス分布などの様々な分布を符号化するために必要な資源をよりよく理解し,資産の値-at-Risk (VaR) や条件-値-at-Risk (CVaR) などの統計量を評価する。 最後に,シミュレーションに基づく最適化,特にMean-Conditional-Value-at-Risk (Mean-CVaR) と (risky) Mean-Var (Mean-Var) の最適化問題の観点から,量子モンテカルロ積分の適用性を検討した。 特に,量子デバイスにノイズが存在する場合の平均値最適化問題について検討し,量子振幅推定(量子モンテカルロ積分のキーサブルーチン)に適用する量子誤差緩和法をベンチマークし,そのようなアプローチの有用性を示す。

We investigate the feasibility of integrating quantum algorithms as subroutines of simulation-based optimisation problems with relevance to and potential applications in mathematical finance. To this end, we conduct a thorough analysis of all systematic errors arising in the formulation of quantum Monte Carlo integration in order to better understand the resources required to encode various distributions such as a Gaussian, and to evaluate statistical quantities such as the Value-at-Risk (VaR) and Conditional-Value-at-Risk (CVaR) of an asset. Finally, we study the applicability of quantum Monte Carlo integration for fundamental financial use cases in terms of simulation-based optimisations, notably Mean-Conditional-Value-at-Risk (Mean-CVaR) and (risky) Mean-Variance (Mean-Var) optimisation problems. In particular, we study the Mean-Var optimisation problem in the presence of noise on a quantum device, and benchmark a quantum error mitigation method that applies to quantum amplitude estimation -- a key subroutine of quantum Monte Carlo integration -- showcasing the utility of such an approach.
翻訳日:2024-11-02 15:21:16 公開日:2024-10-08
# アップデート可能な暗号化における一方向キーのアップデート、再検討

Unidirectional Key Update in Updatable Encryption, Revisited ( http://arxiv.org/abs/2410.03948v1 )

ライセンス: Link先を確認
M. Jurkiewicz, K. Prabucka, (参考訳) 本稿では,FrodoPKE学習の誤り鍵カプセル化に基づく,新しい効率的なアップダスタブル暗号化(UE)方式を構築する。 提案手法の安全性を,ランダ-イン-eu-cpaモデル内の後方リーク一方向設定で解析する。 ここでの基本的な計算困難問題はLWEであるため、このスキームは古典的攻撃と量子的攻撃の両方に対して安全である。

In this paper we construct a new efficient updatable encryption (UE) scheme based on FrodoPKE learning with errors key encapsulation. We analyse the security of the proposed scheme in the backward-leak uni-directional setting within the rand-ind-eu-cpa model. Since the underlying computationally hard problem here is LWE, the scheme is secure against both classical and quantum attacks.
翻訳日:2024-11-02 15:21:16 公開日:2024-10-08
# アップデート可能な暗号化における一方向キーのアップデート、再検討

Unidirectional Key Update in Updatable Encryption, Revisited ( http://arxiv.org/abs/2410.03948v2 )

ライセンス: Link先を確認
M. Jurkiewicz, K. Prabucka, (参考訳) 本稿では,FrodoPKE学習の誤り鍵カプセル化に基づく,新しい効率的なアップダスタブル暗号化(UE)方式を構築する。 提案手法の安全性を,ランダ-イン-eu-cpaモデル内の後方リーク一方向設定で解析する。 ここでの基本的な計算困難問題はLWEであるため、このスキームは古典的攻撃と量子的攻撃の両方に対して安全である。

In this paper we construct a new efficient updatable encryption (UE) scheme based on FrodoPKE learning with errors key encapsulation. We analyse the security of the proposed scheme in the backward-leak uni-directional setting within the rand-ind-eu-cpa model. Since the underlying computationally hard problem here is LWE, the scheme is secure against both classical and quantum attacks.
翻訳日:2024-11-02 15:10:07 公開日:2024-10-08
# 積層埋め込みとハイブリッド損失関数を用いたアラビアマルチラベル感情分類の改善

Improving Arabic Multi-Label Emotion Classification using Stacked Embeddings and Hybrid Loss Function ( http://arxiv.org/abs/2410.03979v1 )

ライセンス: Link先を確認
Nisar Ahmed, Muhammad Imran Zaman, (参考訳) マルチラベル感情分類、特にアラビア語のような低リソース言語では、クラス不均衡とラベル相関の課題はモデル性能、特にマイノリティ感情の正確な予測を妨げている。 これらの課題に対処するために,アラビア語におけるマルチラベル感情分類を強化するために,積み重ね埋め込み,メタラーニング,ハイブリッド損失関数を組み合わせた新しいアプローチを提案する。 この研究は、アラビアバーティ、マルベルティ、アラバーティの3つの微調整された言語モデルからコンテキスト埋め込みを抽出し、それを積み重ねてリッチな埋め込みを形成する。 メタラーナーは、これらの積み重ね埋め込みに基づいて訓練され、結果として得られる連結表現は、Bi-LSTMモデルへの入力として提供され、次いで、マルチラベル分類のための完全に接続されたニューラルネットワークが提供される。 さらに性能向上のために、クラス重み付け、ラベル相関行列、コントラスト学習を取り入れたハイブリッド損失関数を導入し、クラス不均衡を効果的に解決し、ラベル相関の処理を改善する。 大規模な実験では、Precision、Recall、F1-Score、Jaccard Accuracy、Hamming Lossといった主要なメトリクスで提案されたモデルのパフォーマンスを検証する。 クラスワイドのパフォーマンス分析は、ハイブリッド損失関数が多数派と少数派の間の格差を著しく減らし、よりバランスの取れた感情分類をもたらすことを示した。 アブレーション研究では、各コンポーネントの寄与を強調し、ベースラインアプローチや他の損失関数と比較してモデルの優位性を示す。 本研究は、アラビア語のマルチラベル感情分類を前進させるだけでなく、他の言語やドメインに適応可能な一般化可能なフレームワークも提示し、低リソース感情分類タスクの課題に対処する上で大きな一歩となる。

In multi-label emotion classification, particularly for low-resource languages like Arabic, the challenges of class imbalance and label correlation hinder model performance, especially in accurately predicting minority emotions. To address these issues, this study proposes a novel approach that combines stacked embeddings, meta-learning, and a hybrid loss function to enhance multi-label emotion classification for the Arabic language. The study extracts contextual embeddings from three fine-tuned language models-ArabicBERT, MarBERT, and AraBERT-which are then stacked to form enriched embeddings. A meta-learner is trained on these stacked embeddings, and the resulting concatenated representations are provided as input to a Bi-LSTM model, followed by a fully connected neural network for multi-label classification. To further improve performance, a hybrid loss function is introduced, incorporating class weighting, label correlation matrix, and contrastive learning, effectively addressing class imbalances and improving the handling of label correlations. Extensive experiments validate the proposed model's performance across key metrics such as Precision, Recall, F1-Score, Jaccard Accuracy, and Hamming Loss. The class-wise performance analysis demonstrates the hybrid loss function's ability to significantly reduce disparities between majority and minority classes, resulting in a more balanced emotion classification. An ablation study highlights the contribution of each component, showing the superiority of the model compared to baseline approaches and other loss functions. This study not only advances multi-label emotion classification for Arabic but also presents a generalizable framework that can be adapted to other languages and domains, providing a significant step forward in addressing the challenges of low-resource emotion classification tasks.
翻訳日:2024-11-02 15:00:17 公開日:2024-10-08
# 積層埋め込みとハイブリッド損失関数を用いたアラビアマルチラベル感情分類の改善

Improving Arabic Multi-Label Emotion Classification using Stacked Embeddings and Hybrid Loss Function ( http://arxiv.org/abs/2410.03979v2 )

ライセンス: Link先を確認
Nisar Ahmed, Muhammad Imran Zaman, (参考訳) マルチラベル感情分類、特にアラビア語のような低リソース言語では、クラス不均衡とラベル相関の課題はモデル性能、特にマイノリティ感情の正確な予測を妨げている。 これらの課題に対処するために,アラビア語におけるマルチラベル感情分類を強化するために,積み重ね埋め込み,メタラーニング,ハイブリッド損失関数を組み合わせた新しいアプローチを提案する。 この研究は、アラビアバーティ、マルベルティ、アラバーティの3つの微調整された言語モデルからコンテキスト埋め込みを抽出し、それを積み重ねてリッチな埋め込みを形成する。 メタラーナーは、これらの積み重ね埋め込みに基づいて訓練され、結果として得られる連結表現は、Bi-LSTMモデルへの入力として提供され、次いで、マルチラベル分類のための完全に接続されたニューラルネットワークが提供される。 さらに性能向上のために、クラス重み付け、ラベル相関行列、コントラスト学習を取り入れたハイブリッド損失関数を導入し、クラス不均衡を効果的に解決し、ラベル相関の処理を改善する。 大規模な実験では、Precision、Recall、F1-Score、Jaccard Accuracy、Hamming Lossといった主要なメトリクスで提案されたモデルのパフォーマンスを検証する。 クラスワイドのパフォーマンス分析は、ハイブリッド損失関数が多数派と少数派の間の格差を著しく減らし、よりバランスの取れた感情分類をもたらすことを示した。 アブレーション研究では、各コンポーネントの寄与を強調し、ベースラインアプローチや他の損失関数と比較してモデルの優位性を示す。 本研究は、アラビア語のマルチラベル感情分類を前進させるだけでなく、他の言語やドメインに適応可能な一般化可能なフレームワークも提示し、低リソース感情分類タスクの課題に対処する上で大きな一歩となる。

In multi-label emotion classification, particularly for low-resource languages like Arabic, the challenges of class imbalance and label correlation hinder model performance, especially in accurately predicting minority emotions. To address these issues, this study proposes a novel approach that combines stacked embeddings, meta-learning, and a hybrid loss function to enhance multi-label emotion classification for the Arabic language. The study extracts contextual embeddings from three fine-tuned language models-ArabicBERT, MarBERT, and AraBERT-which are then stacked to form enriched embeddings. A meta-learner is trained on these stacked embeddings, and the resulting concatenated representations are provided as input to a Bi-LSTM model, followed by a fully connected neural network for multi-label classification. To further improve performance, a hybrid loss function is introduced, incorporating class weighting, label correlation matrix, and contrastive learning, effectively addressing class imbalances and improving the handling of label correlations. Extensive experiments validate the proposed model's performance across key metrics such as Precision, Recall, F1-Score, Jaccard Accuracy, and Hamming Loss. The class-wise performance analysis demonstrates the hybrid loss function's ability to significantly reduce disparities between majority and minority classes, resulting in a more balanced emotion classification. An ablation study highlights the contribution of each component, showing the superiority of the model compared to baseline approaches and other loss functions. This study not only advances multi-label emotion classification for Arabic but also presents a generalizable framework that can be adapted to other languages and domains, providing a significant step forward in addressing the challenges of low-resource emotion classification tasks.
翻訳日:2024-11-02 15:00:17 公開日:2024-10-08
# 視覚微調整のための高品質データのクラウドソーシング

Gamified crowd-sourcing of high-quality data for visual fine-tuning ( http://arxiv.org/abs/2410.04038v1 )

ライセンス: Link先を確認
Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan, (参考訳) 本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。 GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。 コントリビューションには,(1)モデル知識の弱点に直接対処する人間からの質問応答対をキャプチャするアプローチ,(2)高品質な提案を提供するためのインセンティブの獲得に成功したプレイヤーの評価と報奨方法,(3)数週間で5万人以上の参加者からこのデータを収集することに成功するスケーラブルでゲーミフィケーションされたプラットフォームなどが含まれている。 GAP の実装により,小型マルチモーダルモデルである MiniCPM-Llama3-V-2.5-8B の精度が大幅に向上し,データセット上での GPT スコアが0.147 から 0.477 に向上した。 さらに,MiniCPM-Llama3-V-2.5-8Bを用いて生成されたデータにより,他のベンチマークにおける性能が向上し,クロスモデルによるメリットが示された。 具体的には、同じベンチマークでQWEN2-VL-2BとQWEN2-VL-7Bの性能を改善する。

This paper introduces Gamified Adversarial Prompting (GAP), a framework that crowd-sources high-quality data for visual instruction tuning of large multimodal models. GAP transforms the data collection process into an engaging game, incentivizing players to provide fine-grained, challenging questions and answers that target gaps in the model's knowledge. Our contributions include (1) an approach to capture question-answer pairs from humans that directly address weaknesses in a model's knowledge, (2) a method for evaluating and rewarding players that successfully incentivizes them to provide high-quality submissions, and (3) a scalable, gamified platform that succeeds in collecting this data from over 50,000 participants in just a few weeks. Our implementation of GAP has significantly improved the accuracy of a small multimodal model, namely MiniCPM-Llama3-V-2.5-8B, increasing its GPT score from 0.147 to 0.477 on our dataset, approaching the benchmark set by the much larger GPT-4V. Moreover, we demonstrate that the data generated using MiniCPM-Llama3-V-2.5-8B also enhances its performance across other benchmarks, and exhibits cross-model benefits. Specifically, the same data improves the performance of QWEN2-VL-2B and QWEN2-VL-7B on the same multiple benchmarks.
翻訳日:2024-11-02 14:40:27 公開日:2024-10-08
# 視覚微調整のための高品質データのクラウドソーシング

Gamified crowd-sourcing of high-quality data for visual fine-tuning ( http://arxiv.org/abs/2410.04038v2 )

ライセンス: Link先を確認
Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan, (参考訳) 本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。 GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。 コントリビューションには,(1)モデル知識の弱点に直接対処する人間からの質問応答対をキャプチャするアプローチ,(2)高品質な提案を提供するためのインセンティブの獲得に成功したプレイヤーの評価と報奨方法,(3)数週間で5万人以上の参加者からこのデータを収集することに成功するスケーラブルでゲーミフィケーションされたプラットフォームなどが含まれている。 GAP の実装により,小型マルチモーダルモデルである MiniCPM-Llama3-V-2.5-8B の精度が大幅に向上し,データセット上での GPT スコアが0.147 から 0.477 に向上した。 さらに,MiniCPM-Llama3-V-2.5-8Bを用いて生成されたデータにより,他のベンチマークにおける性能が向上し,クロスモデルによるメリットが示された。 具体的には、同じベンチマークでQWEN2-VL-2BとQWEN2-VL-7Bの性能を改善する。

This paper introduces Gamified Adversarial Prompting (GAP), a framework that crowd-sources high-quality data for visual instruction tuning of large multimodal models. GAP transforms the data collection process into an engaging game, incentivizing players to provide fine-grained, challenging questions and answers that target gaps in the model's knowledge. Our contributions include (1) an approach to capture question-answer pairs from humans that directly address weaknesses in a model's knowledge, (2) a method for evaluating and rewarding players that successfully incentivizes them to provide high-quality submissions, and (3) a scalable, gamified platform that succeeds in collecting this data from over 50,000 participants in just a few weeks. Our implementation of GAP has significantly improved the accuracy of a small multimodal model, namely MiniCPM-Llama3-V-2.5-8B, increasing its GPT score from 0.147 to 0.477 on our dataset, approaching the benchmark set by the much larger GPT-4V. Moreover, we demonstrate that the data generated using MiniCPM-Llama3-V-2.5-8B also enhances its performance across other benchmarks, and exhibits cross-model benefits. Specifically, the same data improves the performance of QWEN2-VL-2B and QWEN2-VL-7B on the same multiple benchmarks.
翻訳日:2024-11-02 14:40:27 公開日:2024-10-08
# 予測を超えて: エンドツーエンドタスク実行のための合成時系列推論

Beyond Forecasting: Compositional Time Series Reasoning for End-to-End Task Execution ( http://arxiv.org/abs/2410.04047v1 )

ライセンス: Link先を確認
Wen Ye, Yizhou Zhang, Wei Yang, Lumingyuan Tang, Defu Cao, Jie Cai, Yan Liu, (参考訳) 近年、時系列予測、分類、異常検出など、時系列モデルやベンチマークが様々なタスクにわたって大幅に進歩している。 一方、実世界の応用(例えば、意思決定や構成的質問応答)で広く使われている時系列における構成的推論は、非常に要求されている。 予測精度に主眼を置いている単純なタスクとは異なり、構成的推論は時系列データと様々なドメイン知識の両方から多様な情報を合成することを強調する。 本稿では,時系列データから複雑な多段階推論タスクを処理するための新しいタスクであるコンポジション時系列推論を紹介する。 具体的には、時系列データに構造的および構成的推論能力を必要とする様々な質問事例、例えば意思決定や構成的質問応答に焦点を当てる。 この課題に最初に取り組んでいたTS-Reasonerは、大規模言語モデル(LLM)を利用して、複雑なタスクを既存の時系列モデルと数値サブルーチンを利用するプログラムのステップに分解するプログラム支援手法である。 既製のモジュールのみを呼び出す既存の推論作業とは異なり、TS-Reasonerはカスタムモジュールの作成を可能にし、ドメイン知識とユーザ指定の制約を組み込むための柔軟性を提供する。 本手法の有効性を総合的な実験によって実証する。 これらの有望な結果は、時系列推論の新しいタスクの可能性を示し、さらなる研究の必要性を強調している。

In recent decades, there has been substantial advances in time series models and benchmarks across various individual tasks, such as time series forecasting, classification, and anomaly detection. Meanwhile, compositional reasoning in time series prevalent in real-world applications (e.g., decision-making and compositional question answering) is in great demand. Unlike simple tasks that primarily focus on predictive accuracy, compositional reasoning emphasizes the synthesis of diverse information from both time series data and various domain knowledge, making it distinct and extremely more challenging. In this paper, we introduce Compositional Time Series Reasoning, a new task of handling intricate multistep reasoning tasks from time series data. Specifically, this new task focuses on various question instances requiring structural and compositional reasoning abilities on time series data, such as decision-making and compositional question answering. As an initial attempt to tackle this novel task, we developed TS-Reasoner, a program-aided approach that utilizes large language model (LLM) to decompose a complex task into steps of programs that leverage existing time series models and numerical subroutines. Unlike existing reasoning work which only calls off-the-shelf modules, TS-Reasoner allows for the creation of custom modules and provides greater flexibility to incorporate domain knowledge as well as user-specified constraints. We demonstrate the effectiveness of our method through a comprehensive set of experiments. These promising results indicate potential opportunities in the new task of time series reasoning and highlight the need for further research.
翻訳日:2024-11-02 14:30:41 公開日:2024-10-08
# 予測を超えて: エンドツーエンドタスク実行のための合成時系列推論

Beyond Forecasting: Compositional Time Series Reasoning for End-to-End Task Execution ( http://arxiv.org/abs/2410.04047v2 )

ライセンス: Link先を確認
Wen Ye, Yizhou Zhang, Wei Yang, Lumingyuan Tang, Defu Cao, Jie Cai, Yan Liu, (参考訳) 近年、時系列予測、分類、異常検出など、時系列モデルやベンチマークが様々なタスクにわたって大幅に進歩している。 一方、時系列における構成的推論は、実世界の応用(例えば、意思決定や構成的質問応答)で一般的であり、非常に要求されている。 予測精度に主眼を置いている単純なタスクとは異なり、構成的推論は時系列データと様々なドメイン知識の両方から多様な情報を合成することを強調する。 本稿では,時系列データから複雑な多段階推論タスクを処理するための新しいタスクであるコンポジション時系列推論を紹介する。 具体的には、時系列データに構造的および構成的推論能力を必要とする様々な質問事例、例えば意思決定や構成的質問応答に焦点を当てる。 この課題に最初に取り組んでいたTS-Reasonerは、大規模言語モデル(LLM)を利用して、複雑なタスクを既存の時系列モデルと数値サブルーチンを利用するプログラムのステップに分解するプログラム支援手法である。 既製のモジュールのみを呼び出す既存の推論作業とは異なり、TS-Reasonerはカスタムモジュールの作成を可能にし、ドメイン知識とユーザ指定の制約を組み込むための柔軟性を提供する。 本手法の有効性を総合的な実験によって実証する。 これらの有望な結果は、時系列推論の新しいタスクの可能性を示し、さらなる研究の必要性を強調している。

In recent decades, there has been substantial advances in time series models and benchmarks across various individual tasks, such as time series forecasting, classification, and anomaly detection. Meanwhile, compositional reasoning in time series is prevalent in real-world applications (e.g., decision-making and compositional question answering) and is in great demand. Unlike simple tasks that primarily focus on predictive accuracy, compositional reasoning emphasizes the synthesis of diverse information from both time series data and various domain knowledge, making it distinct and extremely more challenging. In this paper, we introduce Compositional Time Series Reasoning, a new task of handling intricate multistep reasoning tasks from time series data. Specifically, this new task focuses on various question instances requiring structural and compositional reasoning abilities on time series data, such as decision-making and compositional question answering. As an initial attempt to tackle this novel task, we developed TS-Reasoner, a program-aided approach that utilizes large language model (LLM) to decompose a complex task into steps of programs that leverage existing time series models and numerical subroutines. Unlike existing reasoning work which only calls off-the-shelf modules, TS-Reasoner allows for the creation of custom modules and provides greater flexibility to incorporate domain knowledge as well as user-specified constraints. We demonstrate the effectiveness of our method through a comprehensive set of experiments. These promising results indicate potential opportunities in the new task of time series reasoning and highlight the need for further research.
翻訳日:2024-11-02 14:30:41 公開日:2024-10-08
# グラフインタープレイによるグラフ自己教師学習の強化

Enhancing Graph Self-Supervised Learning with Graph Interplay ( http://arxiv.org/abs/2410.04061v1 )

ライセンス: Link先を確認
Xinjian Zhao, Wei Pang, Xiangru Jian, Yaoyao Xu, Chaolong Ying, Tianshu Yu, (参考訳) グラフ自己教師型学習(GSSL)は、ラベル付き入力に大きく依存することなく、グラフ構造化データから情報表現を抽出するための魅力的なフレームワークとして登場した。 本研究では,既存のGSSL方式を取り入れたグラフ・インタープレイ(GIP)を革新的かつ多用途に導入し,性能を著しく向上させる手法を提案する。 この目的のために、GIPは標準バッチ内にランダムなグラフ間エッジを導入することで、グラフレベルの直接通信を提唱している。 GIPの単純さに対して、GIPは基本的にグラフ間メッセージパッシングとGSSLを組み合わせた基本多様体分離を行い、より構造化された埋め込み多様体を実現し、一連の下流タスクの恩恵を受けることを理論的に示す。 我々の実証研究は、GIPが複数のベンチマークで広く普及しているGSSLメソッドのパフォーマンスをかなり上回っており、画期的なアプローチとしての可能性を強調している。 さらに、GIPは一連のGSSLメソッドに簡単に統合でき、継続的にパフォーマンスの向上を提供する。 この進歩は、GSSLの能力を増幅するだけでなく、より広い意味での新しいグラフ学習パラダイムのステージも設定する可能性がある。

Graph self-supervised learning (GSSL) has emerged as a compelling framework for extracting informative representations from graph-structured data without extensive reliance on labeled inputs. In this study, we introduce Graph Interplay (GIP), an innovative and versatile approach that significantly enhances the performance equipped with various existing GSSL methods. To this end, GIP advocates direct graph-level communications by introducing random inter-graph edges within standard batches. Against GIP's simplicity, we further theoretically show that \textsc{GIP} essentially performs a principled manifold separation via combining inter-graph message passing and GSSL, bringing about more structured embedding manifolds and thus benefits a series of downstream tasks. Our empirical study demonstrates that GIP surpasses the performance of prevailing GSSL methods across multiple benchmarks by significant margins, highlighting its potential as a breakthrough approach. Besides, GIP can be readily integrated into a series of GSSL methods and consistently offers additional performance gain. This advancement not only amplifies the capability of GSSL but also potentially sets the stage for a novel graph learning paradigm in a broader sense.
翻訳日:2024-11-02 14:20:57 公開日:2024-10-08
# グラフインタープレイによるグラフ自己教師学習の強化

Enhancing Graph Self-Supervised Learning with Graph Interplay ( http://arxiv.org/abs/2410.04061v2 )

ライセンス: Link先を確認
Xinjian Zhao, Wei Pang, Xiangru Jian, Yaoyao Xu, Chaolong Ying, Tianshu Yu, (参考訳) グラフ自己教師型学習(GSSL)は、ラベル付き入力に大きく依存することなく、グラフ構造化データから情報表現を抽出するための魅力的なフレームワークとして登場した。 本研究では,既存のGSSL方式を取り入れたグラフ・インタープレイ(GIP)を革新的かつ多用途に導入し,性能を著しく向上させる手法を提案する。 この目的のために、GIPは標準バッチ内にランダムなグラフ間エッジを導入することで、グラフレベルの直接通信を提唱している。 GIPの単純さに対して、GIPは基本的にグラフ間メッセージパッシングとGSSLを組み合わせた基本多様体分離を行い、より構造化された埋め込み多様体を実現し、一連の下流タスクの恩恵を受けることを理論的に示す。 我々の実証研究は、GIPが複数のベンチマークで広く普及しているGSSLメソッドのパフォーマンスをかなり上回っており、画期的なアプローチとしての可能性を強調している。 さらに、GIPは一連のGSSLメソッドに簡単に統合でき、継続的にパフォーマンスの向上を提供する。 この進歩は、GSSLの能力を増幅するだけでなく、より広い意味での新しいグラフ学習パラダイムのステージも設定する可能性がある。

Graph self-supervised learning (GSSL) has emerged as a compelling framework for extracting informative representations from graph-structured data without extensive reliance on labeled inputs. In this study, we introduce Graph Interplay (GIP), an innovative and versatile approach that significantly enhances the performance equipped with various existing GSSL methods. To this end, GIP advocates direct graph-level communications by introducing random inter-graph edges within standard batches. Against GIP's simplicity, we further theoretically show that \textsc{GIP} essentially performs a principled manifold separation via combining inter-graph message passing and GSSL, bringing about more structured embedding manifolds and thus benefits a series of downstream tasks. Our empirical study demonstrates that GIP surpasses the performance of prevailing GSSL methods across multiple benchmarks by significant margins, highlighting its potential as a breakthrough approach. Besides, GIP can be readily integrated into a series of GSSL methods and consistently offers additional performance gain. This advancement not only amplifies the capability of GSSL but also potentially sets the stage for a novel graph learning paradigm in a broader sense.
翻訳日:2024-11-02 14:20:57 公開日:2024-10-08
# IV-Mixed Sampler:高機能ビデオ合成のための画像拡散モデルの活用

IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis ( http://arxiv.org/abs/2410.04171v1 )

ライセンス: Link先を確認
Shitong Shao, Zikai Zhou, Lichen Bai, Haoyi Xiond, Zeke Xie, (参考訳) 視覚拡散モデルの重要な特徴である多段階サンプリング機構は、推論計算コストを増大させることで、OpenAIのStrawberryの成功を再現する大きな可能性を秘めている。 十分な事前研究により、サンプリングプロセスにおける計算の正しいスケールアップは、生成品質の向上、画像編集の強化、合成の一般化につながることが示されている。 画像生成を改善するための推論重み付けアルゴリズムの開発は急速に進んでいるが、ビデオ拡散モデル(VDM)における推論スケーリング法則についての研究は比較的少ない。 さらに、既存の研究では、肉眼で知覚される最小のパフォーマンス向上しか示されていない。 そこで我々は,画像拡散モデル(IDM)の強みを活用して,VDMが現在の能力を超えることを支援できる新たなトレーニングフリーアルゴリズムIV-Mixed Samplerを設計する。 IV-Mixed Samplerのコアは、ICMを使用して各ビデオフレームの品質を大幅に向上させることであり、VDMはサンプリング中のビデオの時間的コヒーレンスを保証する。 実験により, UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークにおいて, IV-Mixed Sampler が最先端性能を達成することを示した。 例えば、IV-Mixed Samplerを使ったオープンソースのAnimatediffは、UTT-FVDのスコアを275.2から228.6に下げ、クローズドソースのPika-2.0から223.1に閉じる。

The multi-step sampling mechanism, a key feature of visual diffusion models, has significant potential to replicate the success of OpenAI's Strawberry in enhancing performance by increasing the inference computational cost. Sufficient prior studies have demonstrated that correctly scaling up computation in the sampling process can successfully lead to improved generation quality, enhanced image editing, and compositional generalization. While there have been rapid advancements in developing inference-heavy algorithms for improved image generation, relatively little work has explored inference scaling laws in video diffusion models (VDMs). Furthermore, existing research shows only minimal performance gains that are perceptible to the naked eye. To address this, we design a novel training-free algorithm IV-Mixed Sampler that leverages the strengths of image diffusion models (IDMs) to assist VDMs surpass their current capabilities. The core of IV-Mixed Sampler is to use IDMs to significantly enhance the quality of each video frame and VDMs ensure the temporal coherence of the video during the sampling process. Our experiments have demonstrated that IV-Mixed Sampler achieves state-of-the-art performance on 4 benchmarks including UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, and Chronomagic-Bench-1649. For example, the open-source Animatediff with IV-Mixed Sampler reduces the UMT-FVD score from 275.2 to 228.6, closing to 223.1 from the closed-source Pika-2.0.
翻訳日:2024-11-02 13:41:32 公開日:2024-10-08
# IV-Mixed Sampler:高機能ビデオ合成のための画像拡散モデルの活用

IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis ( http://arxiv.org/abs/2410.04171v2 )

ライセンス: Link先を確認
Shitong Shao, Zikai Zhou, Lichen Bai, Haoyi Xiong, Zeke Xie, (参考訳) 視覚拡散モデルの重要な特徴である多段階サンプリング機構は、推論計算コストを増大させることで、OpenAIのStrawberryの成功を再現する大きな可能性を秘めている。 十分な事前研究により、サンプリングプロセスにおける計算の正しいスケールアップは、生成品質の向上、画像編集の強化、合成の一般化につながることが示されている。 画像生成を改善するための推論重み付けアルゴリズムの開発は急速に進んでいるが、ビデオ拡散モデル(VDM)における推論スケーリング法則についての研究は比較的少ない。 さらに、既存の研究では、肉眼で知覚される最小のパフォーマンス向上しか示されていない。 そこで我々は,画像拡散モデル(IDM)の強みを活用して,VDMが現在の能力を超えることを支援できる新たなトレーニングフリーアルゴリズムIV-Mixed Samplerを設計する。 IV-Mixed Samplerのコアは、ICMを使用して各ビデオフレームの品質を大幅に向上させることであり、VDMはサンプリング中のビデオの時間的コヒーレンスを保証する。 実験により, UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークにおいて, IV-Mixed Sampler が最先端性能を達成することを示した。 例えば、IV-Mixed Samplerを使ったオープンソースのAnimatediffは、UTT-FVDのスコアを275.2から228.6に下げ、クローズドソースのPika-2.0から223.1に閉じる。

The multi-step sampling mechanism, a key feature of visual diffusion models, has significant potential to replicate the success of OpenAI's Strawberry in enhancing performance by increasing the inference computational cost. Sufficient prior studies have demonstrated that correctly scaling up computation in the sampling process can successfully lead to improved generation quality, enhanced image editing, and compositional generalization. While there have been rapid advancements in developing inference-heavy algorithms for improved image generation, relatively little work has explored inference scaling laws in video diffusion models (VDMs). Furthermore, existing research shows only minimal performance gains that are perceptible to the naked eye. To address this, we design a novel training-free algorithm IV-Mixed Sampler that leverages the strengths of image diffusion models (IDMs) to assist VDMs surpass their current capabilities. The core of IV-Mixed Sampler is to use IDMs to significantly enhance the quality of each video frame and VDMs ensure the temporal coherence of the video during the sampling process. Our experiments have demonstrated that IV-Mixed Sampler achieves state-of-the-art performance on 4 benchmarks including UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, and Chronomagic-Bench-1649. For example, the open-source Animatediff with IV-Mixed Sampler reduces the UMT-FVD score from 275.2 to 228.6, closing to 223.1 from the closed-source Pika-2.0.
翻訳日:2024-11-02 13:41:32 公開日:2024-10-08
# Bandit Networksによるポートフォリオ最適化結果の改善

Improving Portfolio Optimization Results with Bandit Networks ( http://arxiv.org/abs/2410.04217v1 )

ライセンス: Link先を確認
Gustavo de Freitas Fonseca, Lucas Coelho e Silva, Paulo André Lima de Castro, (参考訳) 強化学習(Reinforcement Learning, RL)では、マルチアームのBandit(MAB)問題により、レコメンダシステム、ヘルスケア、ファイナンスなど、さまざまな分野にまたがる応用が発見されている。 従来のMABアルゴリズムは、定常報酬分布を前提としており、非定常力学によって特徴づけられる実世界のシナリオにおける有効性を制限している。 本稿では,非定常環境向けに設計された新しいBanditアルゴリズムの導入と評価により,この制限に対処する。 まず, 報酬分布の変化に対応するために, 緩やかなディスカウントとスライディングウインドウ機構により適応性を向上する, ADTSアルゴリズムを提案する。 そこで我々は,この手法を Portfolio Optimization 問題に拡張し,Y Combinatorial Bandits 内の計算問題に対処し,動的アセットアロケーションを改善する CADTS アルゴリズムを導入する。 さらに、ADTSとCADTSの出力を統合し、ストックセレクションにおける計算制限を緩和するBandit Networksという新しいアーキテクチャを提案する。 実際の金融市場データを用いた広範な実験を通じて、動的環境への適応と意思決定プロセスの最適化において、これらのアルゴリズムとアーキテクチャの可能性を実証する。 例えば、提案したバンディットネットワークインスタンスは、資本資産価格モデル、等重値、リスクパリティ、マルコヴィッツといった古典的なポートフォリオ最適化アプローチと比較して優れたパフォーマンスを示し、最高のネットワークは、最高のパフォーマンスのシャープ比を20倍高くしている。

In Reinforcement Learning (RL), multi-armed Bandit (MAB) problems have found applications across diverse domains such as recommender systems, healthcare, and finance. Traditional MAB algorithms typically assume stationary reward distributions, which limits their effectiveness in real-world scenarios characterized by non-stationary dynamics. This paper addresses this limitation by introducing and evaluating novel Bandit algorithms designed for non-stationary environments. First, we present the \textit{Adaptive Discounted Thompson Sampling} (ADTS) algorithm, which enhances adaptability through relaxed discounting and sliding window mechanisms to better respond to changes in reward distributions. We then extend this approach to the Portfolio Optimization problem by introducing the \textit{Combinatorial Adaptive Discounted Thompson Sampling} (CADTS) algorithm, which addresses computational challenges within Combinatorial Bandits and improves dynamic asset allocation. Additionally, we propose a novel architecture called Bandit Networks, which integrates the outputs of ADTS and CADTS, thereby mitigating computational limitations in stock selection. Through extensive experiments using real financial market data, we demonstrate the potential of these algorithms and architectures in adapting to dynamic environments and optimizing decision-making processes. For instance, the proposed bandit network instances present superior performance when compared to classic portfolio optimization approaches, such as capital asset pricing model, equal weights, risk parity, and Markovitz, with the best network presenting an out-of-sample Sharpe Ratio 20\% higher than the best performing classical model.
翻訳日:2024-11-02 09:11:41 公開日:2024-10-08
# Bandit Networksによるポートフォリオ最適化結果の改善

Improving Portfolio Optimization Results with Bandit Networks ( http://arxiv.org/abs/2410.04217v2 )

ライセンス: Link先を確認
Gustavo de Freitas Fonseca, Lucas Coelho e Silva, Paulo André Lima de Castro, (参考訳) 強化学習(Reinforcement Learning, RL)では、マルチアームのBandit(MAB)問題により、レコメンダシステム、ヘルスケア、ファイナンスなど、さまざまな分野にまたがる応用が発見されている。 従来のMABアルゴリズムは、定常報酬分布を前提としており、非定常力学によって特徴づけられる実世界のシナリオにおける有効性を制限している。 本稿では,非定常環境向けに設計された新しいBanditアルゴリズムの導入と評価により,この制限に対処する。 まず,アダプティブ・ディスカウント・トンプソンサンプリング (ADTS) アルゴリズムを提案する。 そこで我々は,この手法を Portfolio Optimization 問題に拡張し,Y Combinatorial Adaptive Discounted Thompson Sampling (CADTS) アルゴリズムを導入し,Y Combinatorial Bandits 内の計算問題に対処し,動的アセットアロケーションを改善する。 さらに、ADTSとCADTSの出力を統合し、ストックセレクションにおける計算制限を緩和するBandit Networksという新しいアーキテクチャを提案する。 実際の金融市場データを用いた広範な実験を通じて、動的環境への適応と意思決定プロセスの最適化において、これらのアルゴリズムとアーキテクチャの可能性を実証する。 例えば、提案したバンディットネットワークインスタンスは、資本資産価格モデル、等重値、リスクパリティ、マルコヴィッツといった古典的ポートフォリオ最適化アプローチと比較して優れた性能を示し、最良のネットワークは、最高のパフォーマンスのシャープ比を20%高い性能で提示する。

In Reinforcement Learning (RL), multi-armed Bandit (MAB) problems have found applications across diverse domains such as recommender systems, healthcare, and finance. Traditional MAB algorithms typically assume stationary reward distributions, which limits their effectiveness in real-world scenarios characterized by non-stationary dynamics. This paper addresses this limitation by introducing and evaluating novel Bandit algorithms designed for non-stationary environments. First, we present the Adaptive Discounted Thompson Sampling (ADTS) algorithm, which enhances adaptability through relaxed discounting and sliding window mechanisms to better respond to changes in reward distributions. We then extend this approach to the Portfolio Optimization problem by introducing the Combinatorial Adaptive Discounted Thompson Sampling (CADTS) algorithm, which addresses computational challenges within Combinatorial Bandits and improves dynamic asset allocation. Additionally, we propose a novel architecture called Bandit Networks, which integrates the outputs of ADTS and CADTS, thereby mitigating computational limitations in stock selection. Through extensive experiments using real financial market data, we demonstrate the potential of these algorithms and architectures in adapting to dynamic environments and optimizing decision-making processes. For instance, the proposed bandit network instances present superior performance when compared to classic portfolio optimization approaches, such as capital asset pricing model, equal weights, risk parity, and Markovitz, with the best network presenting an out-of-sample Sharpe Ratio 20% higher than the best performing classical model.
翻訳日:2024-11-02 09:11:41 公開日:2024-10-08
# 教師の指導要領を通さずにビデオ拡散モデルを改善するビデオガイド

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide ( http://arxiv.org/abs/2410.04364v1 )

ライセンス: Link先を確認
Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは、視覚的コンテンツ生成に革命をもたらしたが、これらの機能をテキスト・ツー・ビデオ(T2V)生成に拡張することは、特に時間的一貫性を維持する上で課題である。 一貫性向上を目的とした既存の手法は、画像品質の低下や非現実的な計算時間といったトレードオフを引き起こすことが多い。 これらの問題に対処するために、トレーニングや微調整を必要とせず、事前訓練されたT2Vモデルの時間的一貫性を高める新しいフレームワークであるVideoGuideを紹介します。 代わりに、VideoGuideは、推論の初期段階において、事前訓練されたビデオ拡散モデル(VDM)またはそれ自身をガイドとして利用し、サンプリングモデルの分極化プロセスに導出モデルの分極化サンプルを補間することにより、時間的品質を向上させる。 提案手法は時間的一貫性と画像の忠実度を大幅に向上させ,様々な映像拡散モデルの強度を相乗化するための費用対効果と実用的なソリューションを提供する。 さらに, 提案手法により, 導出モデルに先行する優れたデータを活用することにより, 基本モデルによるテキスト一貫性の向上が可能であることを示す。 Project Page: http://videoguide2025.github.io/

Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/
翻訳日:2024-11-02 08:10:32 公開日:2024-10-08
# 教師の指導要領を通さずにビデオ拡散モデルを改善するビデオガイド

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide ( http://arxiv.org/abs/2410.04364v2 )

ライセンス: Link先を確認
Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは、視覚的コンテンツ生成に革命をもたらしたが、これらの機能をテキスト・ツー・ビデオ(T2V)生成に拡張することは、特に時間的一貫性を維持する上で課題である。 一貫性向上を目的とした既存の手法は、画像品質の低下や非現実的な計算時間といったトレードオフを引き起こすことが多い。 これらの問題に対処するために、トレーニングや微調整を必要とせず、事前訓練されたT2Vモデルの時間的一貫性を高める新しいフレームワークであるVideoGuideを紹介します。 代わりに、VideoGuideは、推論の初期段階において、事前訓練されたビデオ拡散モデル(VDM)またはそれ自身をガイドとして利用し、サンプリングモデルの分極化プロセスに導出モデルの分極化サンプルを補間することにより、時間的品質を向上させる。 提案手法は時間的一貫性と画像の忠実度を大幅に向上させ,様々な映像拡散モデルの強度を相乗化するための費用対効果と実用的なソリューションを提供する。 さらに, 提案手法により, 導出モデルに先行する優れたデータを活用することにより, 基本モデルによるテキスト一貫性の向上が可能であることを示す。 Project Page: https://dohunlee1.github.io/videoguide.github.io/

Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: https://dohunlee1.github.io/videoguide.github.io/
翻訳日:2024-11-02 08:10:32 公開日:2024-10-08
# AI推論の最適化 - マルチホップ質問回答に対するハミルトンのダイナミクスアプローチ

Optimizing AI Reasoning: A Hamiltonian Dynamics Approach to Multi-Hop Question Answering ( http://arxiv.org/abs/2410.04415v1 )

ライセンス: Link先を確認
Javier Marin, (参考訳) 本稿では、ハミルトン力学からインスピレーションを得て、AIシステムにおけるマルチホップ推論の分析と改善のための革新的なアプローチを提案する。 埋め込み空間における推論連鎖をハミルトン系にマッピングし、古典物理学から強力な解析ツールを活用できる新しい枠組みを提案する。 本手法は、理論(運動エネルギー)の進行と手前の問題(ポテンシャルエネルギー)との関係をバランスさせるハミルトニアン関数を定義する。 このフレームワークを用いて,複数ホップ質問応答タスクから推論チェーンの大規模なデータセットを分析し,無効推論と有効推論を区別する興味深いパターンを明らかにする。 有効な推論チェーンはハミルトンのエネルギーを減らし、より多くの情報を取得して正しい質問に答える最良のトレードオフを作る方法を示す。 さらに、AIシステム内でより効率的な推論アルゴリズムの作成を支援するために、このフレームワークの応用を実証する。 私たちの結果は、有効な推論の性質に関する新たな洞察を提供するだけでなく、人工知能の理解と改善に対する物理学的なアプローチに対するエキサイティングな可能性も開きます。

This paper introduces an innovative approach to analyzing and improving multi-hop reasoning in AI systems by drawing inspiration from Hamiltonian mechanics. We propose a novel framework that maps reasoning chains in embedding spaces to Hamiltonian systems, allowing us to leverage powerful analytical tools from classical physics. Our method defines a Hamiltonian function that balances the progression of reasoning (kinetic energy) against the relevance to the question at hand (potential energy). Using this framework, we analyze a large dataset of reasoning chains from a multi-hop question-answering task, revealing intriguing patterns that distinguish valid from invalid reasoning. We show that valid reasoning chains have lower Hamiltonian energy and move in ways that make the best trade-off between getting more information and answering the right question. Furthermore, we demonstrate the application of this framework to steer the creation of more efficient reasoning algorithms within AI systems. Our results not only provide new insights into the nature of valid reasoning but also open up exciting possibilities for physics-inspired approaches to understanding and improving artificial intelligence.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-08
# AI推論の最適化 - マルチホップ質問回答に対するハミルトンのダイナミクスアプローチ

Optimizing AI Reasoning: A Hamiltonian Dynamics Approach to Multi-Hop Question Answering ( http://arxiv.org/abs/2410.04415v2 )

ライセンス: Link先を確認
Javier Marin, (参考訳) 本稿では、ハミルトン力学からインスピレーションを得て、AIシステムにおけるマルチホップ推論の分析と改善のための革新的なアプローチを提案する。 埋め込み空間における推論連鎖をハミルトン系にマッピングし、古典物理学から強力な解析ツールを活用できる新しい枠組みを提案する。 本手法は、理論(運動エネルギー)の進行と手前の問題(ポテンシャルエネルギー)との関係をバランスさせるハミルトニアン関数を定義する。 このフレームワークを用いて,複数ホップ質問応答タスクから推論チェーンの大規模なデータセットを分析し,無効推論と有効推論を区別する興味深いパターンを明らかにする。 有効な推論チェーンはハミルトンのエネルギーを減らし、より多くの情報を取得して正しい質問に答える最良のトレードオフを作る方法を示す。 さらに、AIシステム内でより効率的な推論アルゴリズムの作成を支援するために、このフレームワークの応用を実証する。 私たちの結果は、有効な推論の性質に関する新たな洞察を提供するだけでなく、人工知能の理解と改善に対する物理学的なアプローチに対するエキサイティングな可能性も開きます。

This paper introduces an innovative approach to analyzing and improving multi-hop reasoning in AI systems by drawing inspiration from Hamiltonian mechanics. We propose a novel framework that maps reasoning chains in embedding spaces to Hamiltonian systems, allowing us to leverage powerful analytical tools from classical physics. Our method defines a Hamiltonian function that balances the progression of reasoning (kinetic energy) against the relevance to the question at hand (potential energy). Using this framework, we analyze a large dataset of reasoning chains from a multi-hop question-answering task, revealing intriguing patterns that distinguish valid from invalid reasoning. We show that valid reasoning chains have lower Hamiltonian energy and move in ways that make the best trade-off between getting more information and answering the right question. Furthermore, we demonstrate the application of this framework to steer the creation of more efficient reasoning algorithms within AI systems. Our results not only provide new insights into the nature of valid reasoning but also open up exciting possibilities for physics-inspired approaches to understanding and improving artificial intelligence.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-08
# 崩壊した言語モデルが公平性を促進する

Collapsed Language Models Promote Fairness ( http://arxiv.org/abs/2410.04472v1 )

ライセンス: Link先を確認
Jingxuan Xu, Wuyang Chen, Linyi Li, Yao Zhao, Yunchao Wei, (参考訳) 最近成功した言語モデルで暗黙的に符号化された社会的バイアスを軽減するために、モデルフェアネスを奨励し、プロンプト、データ拡張、正規化された微調整などに焦点を当てる様々なアプローチが提案されている。 開発にもかかわらず、公平さの原理的な理解と、言語モデルを常にデバイアスできる効果的なアルゴリズムに到達するのは簡単ではない。 本研究では,ニューラルネットワークにおける最終層表現と深層ネットワークの分類器で発生する学習現象であるニューラル・コラプスの厳密な評価により,不規則な言語モデルがトークン表現と単語埋め込みの間に崩壊したアライメントを示すことがわかった。 より重要なことは、この観察によって、標準自然言語理解タスクにおける言語モデルの性能を保ちながら、幅広いデバイアス法における公平性を効果的に向上する、原則化された微調整法を設計するきっかけとなったことである。 コードをhttps://anonymous.4open.science/r/Fairness_NC-457Eにアタッチします。

To mitigate societal biases implicitly encoded in recent successful pretrained language models, a diverse array of approaches have been proposed to encourage model fairness, focusing on prompting, data augmentation, regularized fine-tuning, and more. Despite the development, it is nontrivial to reach a principled understanding of fairness and an effective algorithm that can consistently debias language models. In this work, by rigorous evaluations of Neural Collapse -- a learning phenomenon happen in last-layer representations and classifiers in deep networks -- on fairness-related words, we find that debiased language models exhibit collapsed alignment between token representations and word embeddings. More importantly, this observation inspires us to design a principled fine-tuning method that can effectively improve fairness in a wide range of debiasing methods, while still preserving the performance of language models on standard natural language understanding tasks. We attach our code at https://anonymous.4open.science/r/Fairness_NC-457E .
翻訳日:2024-11-02 07:16:09 公開日:2024-10-08
# 崩壊した言語モデルが公平性を促進する

Collapsed Language Models Promote Fairness ( http://arxiv.org/abs/2410.04472v2 )

ライセンス: Link先を確認
Jingxuan Xu, Wuyang Chen, Linyi Li, Yao Zhao, Yunchao Wei, (参考訳) 最近成功した言語モデルで暗黙的に符号化された社会的バイアスを軽減するために、モデルフェアネスを奨励し、プロンプト、データ拡張、正規化された微調整などに焦点を当てる様々なアプローチが提案されている。 開発にもかかわらず、公平さの原理的な理解と、言語モデルを常にデバイアスできる効果的なアルゴリズムに到達するのは簡単ではない。 本研究では,ニューラルネットワークにおける最終層表現と深層ネットワークの分類器で発生する学習現象であるニューラル・コラプスの厳密な評価により,不規則な言語モデルがトークン表現と単語埋め込みの間に崩壊したアライメントを示すことがわかった。 より重要なことは、この観察によって、標準自然言語理解タスクにおける言語モデルの性能を保ちながら、幅広いデバイアス法における公平性を効果的に向上する、原則化された微調整法を設計するきっかけとなったことである。 コードをhttps://github.com/Xujxyang/Fairness-NC-mainにアタッチします。

To mitigate societal biases implicitly encoded in recent successful pretrained language models, a diverse array of approaches have been proposed to encourage model fairness, focusing on prompting, data augmentation, regularized fine-tuning, and more. Despite the development, it is nontrivial to reach a principled understanding of fairness and an effective algorithm that can consistently debias language models. In this work, by rigorous evaluations of Neural Collapse -- a learning phenomenon happen in last-layer representations and classifiers in deep networks -- on fairness-related words, we find that debiased language models exhibit collapsed alignment between token representations and word embeddings. More importantly, this observation inspires us to design a principled fine-tuning method that can effectively improve fairness in a wide range of debiasing methods, while still preserving the performance of language models on standard natural language understanding tasks. We attach our code at https://github.com/Xujxyang/Fairness-NC-main.
翻訳日:2024-11-02 07:16:09 公開日:2024-10-08
# 限られたラベルを持つソーシャルメディア上での自殺検出のための大規模言語モデルの導入

Leveraging Large Language Models for Suicide Detection on Social Media with Limited Labels ( http://arxiv.org/abs/2410.04501v1 )

ライセンス: Link先を確認
Vy Nguyen, Chau Pham, (参考訳) 自殺思考の頻度の増加は、早期発見と介入の重要性を強調している。 ソーシャルメディアプラットフォームでは、ユーザが個人的な経験を共有し、助けを求める場合、リスクのある個人を特定するために利用することができる。 しかし、大量の日刊記事が手作業によるレビューを非現実的にしている。 本稿では,テキストベースのソーシャルメディア投稿における自殺的内容を自動的に検出するLarge Language Models (LLMs) について検討する。 ラベルの精度を高めるため,従来の分類微調整技術とともに,LLMの促進によるラベルなしデータの擬似ラベル生成手法を提案する。 そこで我々は,Qwen2-72B-インストラクタとLlama3-8B,Llama3.1-8B,Gemma2-9Bなどの微調整モデルを用いて,Qwen2-72B-インストラクタを誘導するアンサンブルモデルを開発した。 我々は、IEEE Big Data 2024 Big Data Cupのトラックである、ソーシャルメディアチャレンジにおける自殺思想検出のデータセットに対するアプローチを評価した。 さらに、異なるモデルの影響を総合的に分析し、検出性能に対する微調整戦略について検討する。 実験の結果,アンサンブルモデルでは個々のモデルと比較して5%の精度で検出精度が向上した。 公開テストセットで0.770、プライベートテストセットで0.731の重みF1スコアを達成し、ソーシャルメディアで自殺内容を特定するための有望なソリューションを提供する。 解析の結果,LLMの選択が性能に影響を及ぼし,より大きなモデルで精度が向上した。 私たちのコードとチェックポイントはhttps://github.com/khanhvynguyen/Suicide_Detection_LLMs.comで公開されています。

The increasing frequency of suicidal thoughts highlights the importance of early detection and intervention. Social media platforms, where users often share personal experiences and seek help, could be utilized to identify individuals at risk. However, the large volume of daily posts makes manual review impractical. This paper explores the use of Large Language Models (LLMs) to automatically detect suicidal content in text-based social media posts. We propose a novel method for generating pseudo-labels for unlabeled data by prompting LLMs, along with traditional classification fine-tuning techniques to enhance label accuracy. To create a strong suicide detection model, we develop an ensemble approach involving prompting with Qwen2-72B-Instruct, and using fine-tuned models such as Llama3-8B, Llama3.1-8B, and Gemma2-9B. We evaluate our approach on the dataset of the Suicide Ideation Detection on Social Media Challenge, a track of the IEEE Big Data 2024 Big Data Cup. Additionally, we conduct a comprehensive analysis to assess the impact of different models and fine-tuning strategies on detection performance. Experimental results show that the ensemble model significantly improves the detection accuracy, by 5% points compared with the individual models. It achieves a weight F1 score of 0.770 on the public test set, and 0.731 on the private test set, providing a promising solution for identifying suicidal content in social media. Our analysis shows that the choice of LLMs affects the prompting performance, with larger models providing better accuracy. Our code and checkpoints are publicly available at https://github.com/khanhvynguyen/Suicide_Detection_LLMs.
翻訳日:2024-11-02 07:06:24 公開日:2024-10-08
# 限られたラベルを持つソーシャルメディア上での自殺検出のための大規模言語モデルの導入

Leveraging Large Language Models for Suicide Detection on Social Media with Limited Labels ( http://arxiv.org/abs/2410.04501v2 )

ライセンス: Link先を確認
Vy Nguyen, Chau Pham, (参考訳) 自殺思考の頻度の増加は、早期発見と介入の重要性を強調している。 ソーシャルメディアプラットフォームでは、ユーザが個人的な経験を共有し、助けを求める場合、リスクのある個人を特定するために利用することができる。 しかし、大量の日刊記事が手作業によるレビューを非現実的にしている。 本稿では,テキストベースのソーシャルメディア投稿における自殺的内容を自動的に検出するLarge Language Models (LLMs) について検討する。 ラベルの精度を高めるため,従来の分類微調整技術とともに,LLMの促進によるラベルなしデータの擬似ラベル生成手法を提案する。 そこで我々は,Qwen2-72B-インストラクタとLlama3-8B,Llama3.1-8B,Gemma2-9Bなどの微調整モデルを用いて,Qwen2-72B-インストラクタを誘導するアンサンブルモデルを開発した。 我々は、IEEE Big Data 2024 Big Data Cupのトラックである、ソーシャルメディアチャレンジにおける自殺思想検出のデータセットに対するアプローチを評価した。 さらに、異なるモデルの影響を総合的に分析し、検出性能に対する微調整戦略について検討する。 実験の結果,アンサンブルモデルでは個々のモデルと比較して5%の精度で検出精度が向上した。 公開テストセットで0.770、プライベートテストセットで0.731の重みF1スコアを達成し、ソーシャルメディアで自殺内容を特定するための有望なソリューションを提供する。 解析の結果,LLMの選択が性能に影響を及ぼし,より大きなモデルで精度が向上した。 私たちのコードとチェックポイントはhttps://github.com/khanhvynguyen/Suicide_Detection_LLMs.comで公開されています。

The increasing frequency of suicidal thoughts highlights the importance of early detection and intervention. Social media platforms, where users often share personal experiences and seek help, could be utilized to identify individuals at risk. However, the large volume of daily posts makes manual review impractical. This paper explores the use of Large Language Models (LLMs) to automatically detect suicidal content in text-based social media posts. We propose a novel method for generating pseudo-labels for unlabeled data by prompting LLMs, along with traditional classification fine-tuning techniques to enhance label accuracy. To create a strong suicide detection model, we develop an ensemble approach involving prompting with Qwen2-72B-Instruct, and using fine-tuned models such as Llama3-8B, Llama3.1-8B, and Gemma2-9B. We evaluate our approach on the dataset of the Suicide Ideation Detection on Social Media Challenge, a track of the IEEE Big Data 2024 Big Data Cup. Additionally, we conduct a comprehensive analysis to assess the impact of different models and fine-tuning strategies on detection performance. Experimental results show that the ensemble model significantly improves the detection accuracy, by 5% points compared with the individual models. It achieves a weight F1 score of 0.770 on the public test set, and 0.731 on the private test set, providing a promising solution for identifying suicidal content in social media. Our analysis shows that the choice of LLMs affects the prompting performance, with larger models providing better accuracy. Our code and checkpoints are publicly available at https://github.com/khanhvynguyen/Suicide_Detection_LLMs.
翻訳日:2024-11-02 07:06:24 公開日:2024-10-08
# MECFormer: エキスパートコンサルテーションネットワークによるマルチタスク全スライド画像分類

MECFormer: Multi-task Whole Slide Image Classification with Expert Consultation Network ( http://arxiv.org/abs/2410.04507v1 )

ライセンス: Link先を確認
Doanh C. Bui, Jin Tae Kwak, (参考訳) 全スライド画像(WSI)分類は、診療所や病院におけるがん診断において重要な問題である。 WSIは、ギガピクセルサイズで取得され、パッチに階層化され、MIL(Multiple-instance Learning)モデルによって処理される。 従来のMILベースのモデルは特定の臓器の個々のタスクに対してのみ評価されており、単一のモデル内で複数のタスクを処理する能力は研究されていない。 本研究では、1つのモデル内で複数のタスクを処理するために設計された生成トランスフォーマーモデルMECFormerを提案する。 本稿では,複数のタスクを同時に学習する能力を活用し,各タスクにフォーカスするモデルの有効性を高めるために,トランスフォーマーモデルの初期に位置するプロジェクション層であるExpert Consultation Networkを導入する。 さらに、柔軟な分類を可能にするために、WSI分類のための言語デコーダによって自動回帰復号が組み込まれている。 4つの異なる臓器、1つのがん分類タスク、4つのがんサブタイプタスクを含む5つのデータセットに関する広範な実験を通じて、MECFormerは個々の最先端のマルチインスタンス学習モデルよりも優れたパフォーマンスを示す。

Whole slide image (WSI) classification is a crucial problem for cancer diagnostics in clinics and hospitals. A WSI, acquired at gigapixel size, is commonly tiled into patches and processed by multiple-instance learning (MIL) models. Previous MIL-based models designed for this problem have only been evaluated on individual tasks for specific organs, and the ability to handle multiple tasks within a single model has not been investigated. In this study, we propose MECFormer, a generative Transformer-based model designed to handle multiple tasks within one model. To leverage the power of learning multiple tasks simultaneously and to enhance the model's effectiveness in focusing on each individual task, we introduce an Expert Consultation Network, a projection layer placed at the beginning of the Transformer-based model. Additionally, to enable flexible classification, autoregressive decoding is incorporated by a language decoder for WSI classification. Through extensive experiments on five datasets involving four different organs, one cancer classification task, and four cancer subtyping tasks, MECFormer demonstrates superior performance compared to individual state-of-the-art multiple-instance learning models.
翻訳日:2024-11-02 06:56:10 公開日:2024-10-08
# MECFormer: エキスパートコンサルテーションネットワークによるマルチタスク全スライド画像分類

MECFormer: Multi-task Whole Slide Image Classification with Expert Consultation Network ( http://arxiv.org/abs/2410.04507v2 )

ライセンス: Link先を確認
Doanh C. Bui, Jin Tae Kwak, (参考訳) 全スライド画像(WSI)分類は、診療所や病院におけるがん診断において重要な問題である。 WSIは、ギガピクセルサイズで取得され、パッチに階層化され、MIL(Multiple-instance Learning)モデルによって処理される。 従来のMILベースのモデルは特定の臓器の個々のタスクに対してのみ評価されており、単一のモデル内で複数のタスクを処理する能力は研究されていない。 本研究では、1つのモデル内で複数のタスクを処理するために設計された生成トランスフォーマーモデルMECFormerを提案する。 本稿では,複数のタスクを同時に学習する能力を活用し,各タスクにフォーカスするモデルの有効性を高めるために,トランスフォーマーモデルの初期に位置するプロジェクション層であるExpert Consultation Networkを導入する。 さらに、柔軟な分類を可能にするために、WSI分類のための言語デコーダによって自動回帰復号が組み込まれている。 4つの異なる臓器、1つのがん分類タスク、4つのがんサブタイプタスクを含む5つのデータセットに関する広範な実験を通じて、MECFormerは個々の最先端のマルチインスタンス学習モデルよりも優れたパフォーマンスを示す。

Whole slide image (WSI) classification is a crucial problem for cancer diagnostics in clinics and hospitals. A WSI, acquired at gigapixel size, is commonly tiled into patches and processed by multiple-instance learning (MIL) models. Previous MIL-based models designed for this problem have only been evaluated on individual tasks for specific organs, and the ability to handle multiple tasks within a single model has not been investigated. In this study, we propose MECFormer, a generative Transformer-based model designed to handle multiple tasks within one model. To leverage the power of learning multiple tasks simultaneously and to enhance the model's effectiveness in focusing on each individual task, we introduce an Expert Consultation Network, a projection layer placed at the beginning of the Transformer-based model. Additionally, to enable flexible classification, autoregressive decoding is incorporated by a language decoder for WSI classification. Through extensive experiments on five datasets involving four different organs, one cancer classification task, and four cancer subtyping tasks, MECFormer demonstrates superior performance compared to individual state-of-the-art multiple-instance learning models.
翻訳日:2024-11-02 06:56:10 公開日:2024-10-08
# ErrorRadar: 誤り検出による多モーダル大言語モデルのベンチマーク複雑推論

ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection ( http://arxiv.org/abs/2410.04509v1 )

ライセンス: Link先を確認
Yibo Yan, Shen Wang, Jiahao Huo, Hang Li, Boyan Li, Jiamin Su, Xiong Gao, Yi-Fan Zhang, Tianlong Xu, Zhendong Chu, Aoxiao Zhong, Kun Wang, Hui Xiong, Philip S. Yu, Xuming Hu, Qingsong Wen, (参考訳) MLLM(Multimodal Large Language Models)の分野は進化を続けており、人工知能に革命をもたらす可能性も特に有望である。 現在の数学ベンチマークは主にMLLMの問題解決能力の評価に重点を置いているが、複雑な環境での推論能力を高めるために、エラー検出などのより複雑なシナリオに対処する上で、重大なギャップがある。 このギャップを埋めるために、我々は、マルチモーダルエラー検出という新しいタスクを公式化し、そのようなタスクにおけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介します。 ErrorRadarは、エラーステップ識別とエラー分類という2つのサブタスクを評価し、MLLMの複雑な数学的推論能力を評価するための包括的なフレームワークを提供する。 2500の高品質なマルチモーダルK-12数学的問題で構成され、教育組織における実世界の学生相互作用から収集され、厳密なアノテーションと問題タイプやエラーカテゴリなどの豊富なメタデータから構成される。 大規模な実験を通じて、我々はオープンソースとクローズドソースの代表的MLLMの両方を評価し、その性能を教育専門家評価者に対してベンチマークした。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。 データセットは受理時に利用可能になる。

As the field of Multimodal Large Language Models (MLLMs) continues to evolve, their potential to revolutionize artificial intelligence is particularly promising, especially in addressing mathematical reasoning tasks. Current mathematical benchmarks predominantly focus on evaluating MLLMs' problem-solving ability, yet there is a crucial gap in addressing more complex scenarios such as error detection, for enhancing reasoning capability in complicated settings. To fill this gap, we formally formulate the new task: multimodal error detection, and introduce ErrorRadar, the first benchmark designed to assess MLLMs' capabilities in such a task. ErrorRadar evaluates two sub-tasks: error step identification and error categorization, providing a comprehensive framework for evaluating MLLMs' complex mathematical reasoning ability. It consists of 2,500 high-quality multimodal K-12 mathematical problems, collected from real-world student interactions in an educational organization, with rigorous annotation and rich metadata such as problem type and error category. Through extensive experiments, we evaluated both open-source and closed-source representative MLLMs, benchmarking their performance against educational expert evaluators. Results indicate significant challenges still remain, as GPT-4o with best performance is still around 10% behind human evaluation. The dataset will be available upon acceptance.
翻訳日:2024-11-02 06:56:10 公開日:2024-10-08
# ErrorRadar: 誤り検出による多モーダル大言語モデルのベンチマーク複雑推論

ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection ( http://arxiv.org/abs/2410.04509v2 )

ライセンス: Link先を確認
Yibo Yan, Shen Wang, Jiahao Huo, Hang Li, Boyan Li, Jiamin Su, Xiong Gao, Yi-Fan Zhang, Tianlong Xu, Zhendong Chu, Aoxiao Zhong, Kun Wang, Hui Xiong, Philip S. Yu, Xuming Hu, Qingsong Wen, (参考訳) MLLM(Multimodal Large Language Models)の分野は進化を続けており、人工知能に革命をもたらす可能性も特に有望である。 現在の数学ベンチマークは主にMLLMの問題解決能力の評価に重点を置いているが、複雑な環境での推論能力を高めるために、エラー検出などのより複雑なシナリオに対処する上で、重大なギャップがある。 このギャップを埋めるために、我々は、マルチモーダルエラー検出という新しいタスクを公式化し、そのようなタスクにおけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介します。 ErrorRadarは、エラーステップ識別とエラー分類という2つのサブタスクを評価し、MLLMの複雑な数学的推論能力を評価するための包括的なフレームワークを提供する。 2500の高品質なマルチモーダルK-12数学的問題で構成され、教育組織における実世界の学生相互作用から収集され、厳密なアノテーションと問題タイプやエラーカテゴリなどの豊富なメタデータから構成される。 大規模な実験を通じて、我々はオープンソースとクローズドソースの代表的MLLMの両方を評価し、その性能を教育専門家評価者に対してベンチマークした。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。 データセットは受理時に利用可能になる。

As the field of Multimodal Large Language Models (MLLMs) continues to evolve, their potential to revolutionize artificial intelligence is particularly promising, especially in addressing mathematical reasoning tasks. Current mathematical benchmarks predominantly focus on evaluating MLLMs' problem-solving ability, yet there is a crucial gap in addressing more complex scenarios such as error detection, for enhancing reasoning capability in complicated settings. To fill this gap, we formally formulate the new task: multimodal error detection, and introduce ErrorRadar, the first benchmark designed to assess MLLMs' capabilities in such a task. ErrorRadar evaluates two sub-tasks: error step identification and error categorization, providing a comprehensive framework for evaluating MLLMs' complex mathematical reasoning ability. It consists of 2,500 high-quality multimodal K-12 mathematical problems, collected from real-world student interactions in an educational organization, with rigorous annotation and rich metadata such as problem type and error category. Through extensive experiments, we evaluated both open-source and closed-source representative MLLMs, benchmarking their performance against educational expert evaluators. Results indicate significant challenges still remain, as GPT-4o with best performance is still around 10% behind human evaluation. The dataset will be available upon acceptance.
翻訳日:2024-11-02 06:56:10 公開日:2024-10-08
# FAMMA:ファイナンシャルドメイン多言語マルチモーダル質問回答のベンチマーク

FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering ( http://arxiv.org/abs/2410.04526v1 )

ライセンス: Link先を確認
Siqiao Xue, Tingting Chen, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei, (参考訳) 本稿では,金融多言語質問応答(QA)のオープンソースベンチマークであるFAMMAを紹介する。 本ベンチマークは,高度な財務知識と洗練された推論を必要とする質問に対して,MLLM(Multimodal Large Language Model)の能力を評価することを目的とする。 大学教科書と試験から精巧に収集された1,758組の質問応答ペアが含まれており、企業財務、資産管理、金融工学を含む8つの金融分野にまたがっている。 QAペアのいくつかは中国語またはフランス語で書かれており、その大半は英語で書かれている。 これらの質問は、テキストと、チャート、テーブル、ダイアグラムなどの異種画像タイプを組み合わせた混合形式で提示される。 ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。 GPT-4oやClaude-35-Sonnetのような先進的なシステムでさえ、わずか42\%の精度しか達成していない。 さらに、オープンソースのQwen2-VLは、プロプライエタリな製品よりも特に遅れている。 最後に, GPT o1-style reasoning chains to enhance the model's reasoning capabilities, which is significantly improve error correction。 当社のFAMMAベンチマークは、金融QAのエキスパートシステム開発を後押しする。 リーダーボードはhttps://famma-bench.github.io/famma/で入手できる。

In this paper, we introduce FAMMA, an open-source benchmark for financial multilingual multimodal question answering (QA). Our benchmark aims to evaluate the abilities of multimodal large language models (MLLMs) in answering questions that require advanced financial knowledge and sophisticated reasoning. It includes 1,758 meticulously collected question-answer pairs from university textbooks and exams, spanning 8 major subfields in finance including corporate finance, asset management, and financial engineering. Some of the QA pairs are written in Chinese or French, while a majority of them are in English. These questions are presented in a mixed format combining text and heterogeneous image types, such as charts, tables, and diagrams. We evaluate a range of state-of-the-art MLLMs on our benchmark, and our analysis shows that FAMMA poses a significant challenge for these models. Even advanced systems like GPT-4o and Claude-35-Sonnet achieve only 42\% accuracy. Additionally, the open-source Qwen2-VL lags notably behind its proprietary counterparts. Lastly, we explore GPT o1-style reasoning chains to enhance the models' reasoning capabilities, which significantly improve error correction. Our FAMMA benchmark will facilitate future research to develop expert systems in financial QA. The leaderboard is available at https://famma-bench.github.io/famma/ .
翻訳日:2024-11-02 06:56:10 公開日:2024-10-08
# FAMMA:ファイナンシャルドメイン多言語マルチモーダル質問回答のベンチマーク

FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering ( http://arxiv.org/abs/2410.04526v2 )

ライセンス: Link先を確認
Siqiao Xue, Tingting Chen, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei, (参考訳) 本稿では,金融多言語質問応答(QA)のオープンソースベンチマークであるFAMMAを紹介する。 本ベンチマークは,高度な財務知識と洗練された推論を必要とする質問に対して,MLLM(Multimodal Large Language Model)の能力を評価することを目的とする。 大学教科書と試験から精巧に収集された1,758組の質問応答ペアが含まれており、企業財務、資産管理、金融工学を含む8つの金融分野にまたがっている。 QAペアのいくつかは中国語またはフランス語で書かれており、その大半は英語で書かれている。 これらの質問は、テキストと、チャート、テーブル、ダイアグラムなどの異種画像タイプを組み合わせた混合形式で提示される。 ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。 GPT-4oやClaude-35-Sonnetのような先進的なシステムでさえ、わずか42\%の精度しか達成していない。 さらに、オープンソースのQwen2-VLは、プロプライエタリな製品よりも特に遅れている。 最後に, GPT o1-style reasoning chains to enhance the model's reasoning capabilities, which is significantly improve error correction。 当社のFAMMAベンチマークは、金融QAのエキスパートシステム開発を後押しする。 リーダーボードはhttps://famma-bench.github.io/famma/で入手できる。

In this paper, we introduce FAMMA, an open-source benchmark for financial multilingual multimodal question answering (QA). Our benchmark aims to evaluate the abilities of multimodal large language models (MLLMs) in answering questions that require advanced financial knowledge and sophisticated reasoning. It includes 1,758 meticulously collected question-answer pairs from university textbooks and exams, spanning 8 major subfields in finance including corporate finance, asset management, and financial engineering. Some of the QA pairs are written in Chinese or French, while a majority of them are in English. These questions are presented in a mixed format combining text and heterogeneous image types, such as charts, tables, and diagrams. We evaluate a range of state-of-the-art MLLMs on our benchmark, and our analysis shows that FAMMA poses a significant challenge for these models. Even advanced systems like GPT-4o and Claude-35-Sonnet achieve only 42\% accuracy. Additionally, the open-source Qwen2-VL lags notably behind its proprietary counterparts. Lastly, we explore GPT o1-style reasoning chains to enhance the models' reasoning capabilities, which significantly improve error correction. Our FAMMA benchmark will facilitate future research to develop expert systems in financial QA. The leaderboard is available at https://famma-bench.github.io/famma/ .
翻訳日:2024-11-02 06:56:10 公開日:2024-10-08
# 特徴学習力を超えたSGDの最適化景観

The Optimization Landscape of SGD Across the Feature Learning Strength ( http://arxiv.org/abs/2410.04642v1 )

ライセンス: Link先を確認
Alexander Atanasov, Alexandru Meterez, James B. Simon, Cengiz Pehlevan, (参考訳) 我々は、最終層が固定されたハイパーパラメータ$\gamma$でダウンスケールされるニューラルネットワーク(NN)を考える。 最近の研究によると、$\gamma$は特徴学習の強みをコントロールしている。 $\gamma$が増加するにつれて、ネットワークの進化は‘lazy’のカーネルのダイナミクスから‘rich’のフィーチャーラーニングのダイナミクスへと変化し、共通タスクのパフォーマンスが向上した。 本研究では,オンライントレーニング環境において,さまざまなモデルやデータセットに対して$\gamma$をスケーリングする効果について,徹底的な実証的研究を行う。 最初に、$\gamma$と学習率$\eta$の相互作用を調べ、単純なモデルを用いて理論的に説明できる$\gamma$-$\eta$平面内のいくつかのスケーリング機構を特定する。 最適学習率$\eta^*$は$\gamma$と非自明にスケールする。 特に、$\eta^* \propto \gamma^2$ if $\gamma \ll 1$ and $\eta^* \propto \gamma^{2/L}$ when $\gamma \gg 1$ for a feed-forward network of depth $L$。 この最適学習率のスケーリングを用いて、探索されていない ``ultra-rich'' の $\gamma \gg 1$ regime を実証研究する。 この状態のネットワークは、長い台地から始まり、ドロップオフ、時には1つ以上の階段ステップで、特性損失曲線を表示する。 異なる大きな$\gamma$値のネットワークは、時間の再パラメータ化まで、同様の軌道に沿って最適化されている。 さらに、最適オンラインパフォーマンスは大きな$\gamma$でしばしば見出され、このハイパーパラメータがチューニングされない場合は見逃される可能性がある。 以上の結果から, 実演モデルにおける表現学習のダイナミクスに関する有用な知見が得られる可能性が示唆された。

We consider neural networks (NNs) where the final layer is down-scaled by a fixed hyperparameter $\gamma$. Recent work has identified $\gamma$ as controlling the strength of feature learning. As $\gamma$ increases, network evolution changes from ``lazy'' kernel dynamics to ``rich'' feature-learning dynamics, with a host of associated benefits including improved performance on common tasks. In this work, we conduct a thorough empirical investigation of the effect of scaling $\gamma$ across a variety of models and datasets in the online training setting. We first examine the interaction of $\gamma$ with the learning rate $\eta$, identifying several scaling regimes in the $\gamma$-$\eta$ plane which we explain theoretically using a simple model. We find that the optimal learning rate $\eta^*$ scales non-trivially with $\gamma$. In particular, $\eta^* \propto \gamma^2$ when $\gamma \ll 1$ and $\eta^* \propto \gamma^{2/L}$ when $\gamma \gg 1$ for a feed-forward network of depth $L$. Using this optimal learning rate scaling, we proceed with an empirical study of the under-explored ``ultra-rich'' $\gamma \gg 1$ regime. We find that networks in this regime display characteristic loss curves, starting with a long plateau followed by a drop-off, sometimes followed by one or more additional staircase steps. We find networks of different large $\gamma$ values optimize along similar trajectories up to a reparameterization of time. We further find that optimal online performance is often found at large $\gamma$ and could be missed if this hyperparameter is not tuned. Our findings indicate that analytical study of the large-$\gamma$ limit may yield useful insights into the dynamics of representation learning in performant models.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-08
# 特徴学習力を超えたSGDの最適化景観

The Optimization Landscape of SGD Across the Feature Learning Strength ( http://arxiv.org/abs/2410.04642v2 )

ライセンス: Link先を確認
Alexander Atanasov, Alexandru Meterez, James B. Simon, Cengiz Pehlevan, (参考訳) 我々は、最終層が固定されたハイパーパラメータ$\gamma$でダウンスケールされるニューラルネットワーク(NN)を考える。 最近の研究によると、$\gamma$は特徴学習の強みをコントロールしている。 $\gamma$が増加するにつれて、ネットワークの進化は"怠慢"なカーネルダイナミクスから"リッチ"な機能学習ダイナミクスへと変化し、一般的なタスクのパフォーマンスの改善を含む多くのメリットがもたらされる。 本研究では,オンライントレーニング環境において,さまざまなモデルやデータセットに対して$\gamma$をスケーリングする効果について,徹底的な実証的研究を行う。 最初に、$\gamma$と学習率$\eta$の相互作用を調べ、単純なモデルを用いて理論的に説明できる$\gamma$-$\eta$平面内のいくつかのスケーリング機構を特定する。 最適学習率$\eta^*$は$\gamma$と非自明にスケールする。 特に、$\eta^* \propto \gamma^2$ if $\gamma \ll 1$ and $\eta^* \propto \gamma^{2/L}$ when $\gamma \gg 1$ for a feed-forward network of depth $L$。 この最適学習率のスケーリングを用いて、未探索の「ウルトラリッチ」$\gamma \gg 1$ regimeを実証研究する。 この状態のネットワークは、長い台地から始まり、ドロップオフ、時には1つ以上の階段ステップで、特性損失曲線を表示する。 異なる大きな$\gamma$値のネットワークは、時間の再パラメータ化まで、同様の軌道に沿って最適化されている。 さらに、最適オンラインパフォーマンスは大きな$\gamma$でしばしば見出され、このハイパーパラメータがチューニングされない場合は見逃される可能性がある。 以上の結果から, 実演モデルにおける表現学習のダイナミクスに関する有用な知見が得られる可能性が示唆された。

We consider neural networks (NNs) where the final layer is down-scaled by a fixed hyperparameter $\gamma$. Recent work has identified $\gamma$ as controlling the strength of feature learning. As $\gamma$ increases, network evolution changes from "lazy" kernel dynamics to "rich" feature-learning dynamics, with a host of associated benefits including improved performance on common tasks. In this work, we conduct a thorough empirical investigation of the effect of scaling $\gamma$ across a variety of models and datasets in the online training setting. We first examine the interaction of $\gamma$ with the learning rate $\eta$, identifying several scaling regimes in the $\gamma$-$\eta$ plane which we explain theoretically using a simple model. We find that the optimal learning rate $\eta^*$ scales non-trivially with $\gamma$. In particular, $\eta^* \propto \gamma^2$ when $\gamma \ll 1$ and $\eta^* \propto \gamma^{2/L}$ when $\gamma \gg 1$ for a feed-forward network of depth $L$. Using this optimal learning rate scaling, we proceed with an empirical study of the under-explored "ultra-rich" $\gamma \gg 1$ regime. We find that networks in this regime display characteristic loss curves, starting with a long plateau followed by a drop-off, sometimes followed by one or more additional staircase steps. We find networks of different large $\gamma$ values optimize along similar trajectories up to a reparameterization of time. We further find that optimal online performance is often found at large $\gamma$ and could be missed if this hyperparameter is not tuned. Our findings indicate that analytical study of the large-$\gamma$ limit may yield useful insights into the dynamics of representation learning in performant models.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-08
# タイ語大言語モデル開発のための文化的・中核的能力ベンチマークの表象

Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models ( http://arxiv.org/abs/2410.04795v1 )

ライセンス: Link先を確認
Dahyun Kim, Sukyung Lee, Yungi Kim, Attapol Rutherford, Chanjun Park, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、推論や知識、常識といったコア機能を評価する堅牢な評価フレームワークの必要性が強調され、H6ベンチマークのような広く使用されているベンチマークスイートが誕生した。 しかしながら、これらのベンチマークスイートは主に英語向けに構築されており、タイ語のようなLLM開発の観点からは、表現不足言語にはその欠如がある。 一方、タイ国向けのLLMの開発には、文化的理解と中核的な能力の強化も含まなければならない。 タイのLLM研究におけるこれらの2つの課題に対処するため、タイのH6とタイの文化・言語知能ベンチマーク(ThaiCLI)という2つの重要なベンチマークを提案する。 マルチ言語機能を持つ各種LLMの徹底的な評価を通じて,提案したベンチマークを網羅的に分析し,タイのLLM開発にどのように貢献するかを考察する。 さらに、タイのLLMのさらなる研究・開発を促進するために、データセットと評価コードの両方を公開します。

The rapid advancement of large language models (LLMs) has highlighted the need for robust evaluation frameworks that assess their core capabilities, such as reasoning, knowledge, and commonsense, leading to the inception of certain widely-used benchmark suites such as the H6 benchmark. However, these benchmark suites are primarily built for the English language, and there exists a lack thereof for under-represented languages, in terms of LLM development, such as Thai. On the other hand, developing LLMs for Thai should also include enhancing the cultural understanding as well as core capabilities. To address these dual challenge in Thai LLM research, we propose two key benchmarks: Thai-H6 and Thai Cultural and Linguistic Intelligence Benchmark (ThaiCLI). Through a thorough evaluation of various LLMs with multi-lingual capabilities, we provide a comprehensive analysis of the proposed benchmarks and how they contribute to Thai LLM development. Furthermore, we will make both the datasets and evaluation code publicly available to encourage further research and development for Thai LLMs.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-08
# タイ語大言語モデル開発のための文化的・中核的能力ベンチマークの表象

Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models ( http://arxiv.org/abs/2410.04795v2 )

ライセンス: Link先を確認
Dahyun Kim, Sukyung Lee, Yungi Kim, Attapol Rutherford, Chanjun Park, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、推論や知識、常識といったコア機能を評価する堅牢な評価フレームワークの必要性が強調され、H6ベンチマークのような広く使用されているベンチマークスイートが誕生した。 しかしながら、これらのベンチマークスイートは主に英語向けに構築されており、タイ語のようなLLM開発の観点からは、表現不足言語にはその欠如がある。 一方、タイ国向けのLLMの開発には、文化的理解と中核的な能力の強化も含まなければならない。 タイのLLM研究におけるこれらの2つの課題に対処するため、タイのH6とタイの文化・言語知能ベンチマーク(ThaiCLI)という2つの重要なベンチマークを提案する。 マルチ言語機能を持つ各種LLMの徹底的な評価を通じて,提案したベンチマークを網羅的に分析し,タイのLLM開発にどのように貢献するかを考察する。 さらに、タイのLLMのさらなる研究・開発を促進するために、データセットと評価コードの両方を公開します。

The rapid advancement of large language models (LLMs) has highlighted the need for robust evaluation frameworks that assess their core capabilities, such as reasoning, knowledge, and commonsense, leading to the inception of certain widely-used benchmark suites such as the H6 benchmark. However, these benchmark suites are primarily built for the English language, and there exists a lack thereof for under-represented languages, in terms of LLM development, such as Thai. On the other hand, developing LLMs for Thai should also include enhancing the cultural understanding as well as core capabilities. To address these dual challenge in Thai LLM research, we propose two key benchmarks: Thai-H6 and Thai Cultural and Linguistic Intelligence Benchmark (ThaiCLI). Through a thorough evaluation of various LLMs with multi-lingual capabilities, we provide a comprehensive analysis of the proposed benchmarks and how they contribute to Thai LLM development. Furthermore, we will make both the datasets and evaluation code publicly available to encourage further research and development for Thai LLMs.
翻訳日:2024-11-02 01:58:01 公開日:2024-10-08
# 強モデル崩壊

Strong Model Collapse ( http://arxiv.org/abs/2410.04840v1 )

ライセンス: Link先を確認
Elvis Dohmatob, Yunzhen Feng, Julia Kempe, (参考訳) 本稿では,ChatGPTやLlamaといった大規模ニューラルネットワークのトレーニングを支えるスケーリング法則の中で,モデル崩壊現象の強大な形式の存在と,トレーニングコーパスにおける合成データによる重要なパフォーマンス劣化を,教師付き回帰設定として検討する。 以上の結果から,最小の合成データ(例えば,トレーニングデータセット全体の1\%)であっても,モデル崩壊につながる可能性が示唆された。 さらに,大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデルの崩壊を悪化させるか,緩和させるかについても検討する。 ニューラルネットワークが可変サイズのランダムな投影によって近似される単純化された状態において、我々は理論的にも経験的にも、より大きなモデルがモデル崩壊を増幅できることを示す。 興味深いことに、我々の理論は補間しきい値(非常に大きなデータセットに対して非常に高い)を超えると、より大きなモデルは崩壊を緩和するが、それらが完全に阻止するわけではないことを示唆している。 理論的には,画像の言語モデルとフィードフォワードニューラルネットワークの実験を通じて実証的な検証を行った。

Within the scaling laws paradigm, which underpins the training of large neural networks like ChatGPT and Llama, we consider a supervised regression setting and establish the existance of a strong form of the model collapse phenomenon, a critical performance degradation due to synthetic data in the training corpus. Our results show that even the smallest fraction of synthetic data (e.g., as little as 1\% of the total training dataset) can still lead to model collapse: larger and larger training sets do not enhance performance. We further investigate whether increasing model size, an approach aligned with current trends in training large language models, exacerbates or mitigates model collapse. In a simplified regime where neural networks are approximated via random projections of tunable size, we both theoretically and empirically show that larger models can amplify model collapse. Interestingly, our theory also indicates that, beyond the interpolation threshold (which can be extremely high for very large datasets), larger models may mitigate the collapse, although they do not entirely prevent it. Our theoretical findings are empirically verified through experiments on language models and feed-forward neural networks for images.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-08
# 強モデル崩壊

Strong Model Collapse ( http://arxiv.org/abs/2410.04840v2 )

ライセンス: Link先を確認
Elvis Dohmatob, Yunzhen Feng, Arjun Subramonian, Julia Kempe, (参考訳) 本稿では,ChatGPTやLlamaといった大規模ニューラルネットワークのトレーニングを支えるスケーリング法則の中で,モデル崩壊現象の強大な形式の存在と,トレーニングコーパスにおける合成データによる重要なパフォーマンス劣化を,教師付き回帰設定として検討する。 以上の結果から,最小の合成データ(例えば,トレーニングデータセット全体の1\%)であっても,モデル崩壊につながる可能性が示唆された。 さらに,大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデルの崩壊を悪化させるか,緩和させるかについても検討する。 ニューラルネットワークが可変サイズのランダムな投影によって近似される単純化された状態において、我々は理論的にも経験的にも、より大きなモデルがモデル崩壊を増幅できることを示す。 興味深いことに、我々の理論は補間しきい値(非常に大きなデータセットに対して非常に高い)を超えると、より大きなモデルは崩壊を緩和するが、それらが完全に阻止するわけではないことを示唆している。 理論的には,画像の言語モデルとフィードフォワードニューラルネットワークの実験を通じて実証的な検証を行った。

Within the scaling laws paradigm, which underpins the training of large neural networks like ChatGPT and Llama, we consider a supervised regression setting and establish the existance of a strong form of the model collapse phenomenon, a critical performance degradation due to synthetic data in the training corpus. Our results show that even the smallest fraction of synthetic data (e.g., as little as 1\% of the total training dataset) can still lead to model collapse: larger and larger training sets do not enhance performance. We further investigate whether increasing model size, an approach aligned with current trends in training large language models, exacerbates or mitigates model collapse. In a simplified regime where neural networks are approximated via random projections of tunable size, we both theoretically and empirically show that larger models can amplify model collapse. Interestingly, our theory also indicates that, beyond the interpolation threshold (which can be extremely high for very large datasets), larger models may mitigate the collapse, although they do not entirely prevent it. Our theoretical findings are empirically verified through experiments on language models and feed-forward neural networks for images.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-08
# In-Context例による簡易画像分割フレームワーク

A Simple Image Segmentation Framework via In-Context Examples ( http://arxiv.org/abs/2410.04842v1 )

ライセンス: Link先を確認
Yang Liu, Chenchen Jing, Hengtao Li, Muzhi Zhu, Hao Chen, Xinlong Wang, Chunhua Shen, (参考訳) 近年,統合したインコンテキスト学習フレームワークにおいて,画像分割タスクを効果的に扱える汎用的なセグメンテーションモデルが検討されている。 しかし、これらの手法は、コンテキスト内のすべての例がタスク情報を正確に伝達できるわけではないため、コンテキスト内セグメンテーションにおけるタスクの曖昧さに苦慮している。 この問題に対処するため,テキスト内例を利用した単純な画像分割フレームワークであるSINEを提案する。 提案手法はトランスフォーマーエンコーダ・デコーダ構造を利用して,高品質な画像表現を提供し,デコーダは複数のタスク固有の出力マスクを出力し,タスクのあいまいさを効果的に除去するように設計されている。 具体的には、インコンテキスト情報を補完し、対象画像とインコンテキストの例との相関関係を生成するインコンテキストインタラクションモジュールと、固定マッチングとハンガリーのアルゴリズムを用いて異なるタスク間の差異を解消するマッチングトランスフォーマを導入する。 さらに,これらのモデルの全体的評価を容易にすることを目的として,インコンテキスト画像セグメント化の現在の評価システムをさらに完成させた。 様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。

Recently, there have been explorations of generalist segmentation models that can effectively tackle a variety of image segmentation tasks within a unified in-context learning framework. However, these methods still struggle with task ambiguity in in-context segmentation, as not all in-context examples can accurately convey the task information. In order to address this issue, we present SINE, a simple image Segmentation framework utilizing in-context examples. Our approach leverages a Transformer encoder-decoder structure, where the encoder provides high-quality image representations, and the decoder is designed to yield multiple task-specific output masks to effectively eliminate task ambiguity. Specifically, we introduce an In-context Interaction module to complement in-context information and produce correlations between the target image and the in-context example and a Matching Transformer that uses fixed matching and a Hungarian algorithm to eliminate differences between different tasks. In addition, we have further perfected the current evaluation system for in-context image segmentation, aiming to facilitate a holistic appraisal of these models. Experiments on various segmentation tasks show the effectiveness of the proposed method.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-08
# In-Context例による簡易画像分割フレームワーク

A Simple Image Segmentation Framework via In-Context Examples ( http://arxiv.org/abs/2410.04842v2 )

ライセンス: Link先を確認
Yang Liu, Chenchen Jing, Hengtao Li, Muzhi Zhu, Hao Chen, Xinlong Wang, Chunhua Shen, (参考訳) 近年,統合したインコンテキスト学習フレームワークにおいて,画像分割タスクを効果的に扱える汎用的なセグメンテーションモデルが検討されている。 しかし、これらの手法は、コンテキスト内のすべての例がタスク情報を正確に伝達できるわけではないため、コンテキスト内セグメンテーションにおけるタスクの曖昧さに苦慮している。 この問題に対処するため,テキスト内例を利用した単純な画像分割フレームワークであるSINEを提案する。 提案手法はトランスフォーマーエンコーダ・デコーダ構造を利用して,高品質な画像表現を提供し,デコーダは複数のタスク固有の出力マスクを出力し,タスクのあいまいさを効果的に除去するように設計されている。 具体的には、インコンテキスト情報を補完し、対象画像とインコンテキストの例との相関関係を生成するインコンテキストインタラクションモジュールと、固定マッチングとハンガリーのアルゴリズムを用いて異なるタスク間の差異を解消するマッチングトランスフォーマを導入する。 さらに,これらのモデルの全体的評価を容易にすることを目的として,インコンテキスト画像セグメント化の現在の評価システムをさらに完成させた。 様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。

Recently, there have been explorations of generalist segmentation models that can effectively tackle a variety of image segmentation tasks within a unified in-context learning framework. However, these methods still struggle with task ambiguity in in-context segmentation, as not all in-context examples can accurately convey the task information. In order to address this issue, we present SINE, a simple image Segmentation framework utilizing in-context examples. Our approach leverages a Transformer encoder-decoder structure, where the encoder provides high-quality image representations, and the decoder is designed to yield multiple task-specific output masks to effectively eliminate task ambiguity. Specifically, we introduce an In-context Interaction module to complement in-context information and produce correlations between the target image and the in-context example and a Matching Transformer that uses fixed matching and a Hungarian algorithm to eliminate differences between different tasks. In addition, we have further perfected the current evaluation system for in-context image segmentation, aiming to facilitate a holistic appraisal of these models. Experiments on various segmentation tasks show the effectiveness of the proposed method.
翻訳日:2024-11-02 01:38:08 公開日:2024-10-08
# ハミルトニアン通勤のためのギブス状態準備--古典ギブスサンプリングへのマッピング

Gibbs state preparation for commuting Hamiltonian: Mapping to classical Gibbs sampling ( http://arxiv.org/abs/2410.04909v1 )

ライセンス: Link先を確認
Yeongwoo Hwang, Jiaqing Jiang, (参考訳) ギブズ・ステート・リペアレーション(ギブズ・ステート・リペアレーション、Gibbs State Reparation)は、物理学、統計学、その他の科学分野で広く使われている重要な計算手法である。 量子ハミルトニアンのための高速混合ギブスサンプリング器を設計するための最近の取り組みは、トリック符号や量子ダブルモデルのような高度に絡み合ったシステムを含むハミルトンの非自明なサブクラスである局所ハミルトニアン(CLH)の通勤に焦点を当てている。 以前のギブスのサンプルは、自然の加熱過程に関連するリンドブラディアンであるデイビーズ発電機のシミュレーションに頼っていた。 Davies ジェネレータを使う代わりに、古典的ハミルトニアンに還元して様々な CLH のための異なる Gibbs サンプルを設計する。これは、対応する古典的ハミルトニアン$H(c)$に対して古典的な Gibbs サンプリングを効率的に行うことができる限り、量子コンピュータ上でいくつかの CLH $H に対して Gibbs 状態を効率的に準備できるという意味でである。 我々のギブズサンプリング装置は、古典的ハミルトン派に高速混合したギブズサンプリング装置が存在する限り、従来知られていなかった低温領域などにおいて、ギブズ状態の再現や、ギブズ状態の準備が可能であることを実証する。 私たちの削減は以下の通りです。 -$H$ が 2-局所クディット CLH であれば、$H^{(c)}$ は 2-局所クディット古典ハミルトニアンである。 -$H$ が 2D 格子上の 4-局所 qubit CLH で古典的 qubit が存在しないなら、$H^{(c)}$ は平面グラフ上の 2-局所 qudit 古典ハミルトニアンである。 例えば、我々のアルゴリズムは、(欠陥のある)トーリック符号に対して、任意のゼロ温度で$\mathcal O(n^2)$時間でギブス状態を作成することができる。 -$H$ が 2D 格子上の 4-局所量子ビット CLH で、量子項が一様修正可能であると仮定して古典的量子ビットが存在するなら、$H^{(c)}$ は定数局所古典ハミルトンである。

Gibbs state reparation, or Gibbs sampling, is a key computational technique extensively used in physics, statistics, and other scientific fields. Recent efforts for designing fast mixing Gibbs samplers for quantum Hamiltonians have largely focused on commuting local Hamiltonians (CLHs), a non-trivial subclass of Hamiltonians which include highly entangled systems such as the Toric code and quantum double model. Most previous Gibbs samplers relied on simulating the Davies generator, which is a Lindbladian associated with the thermalization process in nature. Instead of using the Davies generator, we design a different Gibbs sampler for various CLHs by giving a reduction to classical Hamiltonians, in the sense that one can efficiently prepare the Gibbs state for some CLH $H$ on a quantum computer as long as one can efficiently do classical Gibbs sampling for the corresponding classical Hamiltonian $H^{(c)}$. We demonstrate that our Gibbs sampler is able to replicate state-of-the-art results as well as prepare the Gibbs state in regimes which were previously unknown, such as the low temperature region, as long as there exists fast mixing Gibbs samplers for the corresponding classical Hamiltonians. Our reductions are as follows. - If $H$ is a 2-local qudit CLH, then $H^{(c)}$ is a 2-local qudit classical Hamiltonian. - If $H$ is a 4-local qubit CLH on 2D lattice and there are no classical qubits, then $H^{(c)}$ is a 2-local qudit classical Hamiltonian on a planar graph. As an example, our algorithm can prepare the Gibbs state for the (defected) Toric code at any non-zero temperature in $\mathcal O(n^2)$ time. - If $H$ is a 4-local qubit CLH on 2D lattice and there are classical qubits, assuming that quantum terms are uniformly correctable, then $H^{(c)}$ is a constant-local classical Hamiltonian.
翻訳日:2024-11-02 01:27:55 公開日:2024-10-08
# ハミルトニアン通勤のためのギブス状態準備--古典ギブスサンプリングへのマッピング

Gibbs state preparation for commuting Hamiltonian: Mapping to classical Gibbs sampling ( http://arxiv.org/abs/2410.04909v2 )

ライセンス: Link先を確認
Yeongwoo Hwang, Jiaqing Jiang, (参考訳) ギブズ状態準備(ギブズてつどう、英: Gibbs state prepared)は、物理学、統計学、その他の科学分野で広く使われている重要な計算手法である。 量子ハミルトニアンのための高速混合ギブスサンプリング器を設計するための最近の取り組みは、トリック符号や量子ダブルモデルのような高度に絡み合ったシステムを含むハミルトンの非自明なサブクラスである局所ハミルトニアン(CLH)の通勤に焦点を当てている。 以前のギブスのサンプルは、自然の加熱過程に関連するリンドブラディアンであるデイビーズ発電機のシミュレーションに頼っていた。 Davies ジェネレータを使う代わりに、古典的ハミルトニアンに還元して様々な CLH のための異なる Gibbs サンプルを設計する。これは、対応する古典的ハミルトニアン$H(c)$に対して古典的な Gibbs サンプリングを効率的に行うことができる限り、量子コンピュータ上でいくつかの CLH $H に対して Gibbs 状態を効率的に準備できるという意味でである。 我々のギブズサンプリング装置は、古典的ハミルトン派に高速混合したギブズサンプリング装置が存在する限り、従来知られていなかった低温領域などにおいて、ギブズ状態の再現や、ギブズ状態の準備が可能であることを実証する。 私たちの削減は以下の通りです。 -$H$ が 2-局所クディット CLH であれば、$H^{(c)}$ は 2-局所クディット古典ハミルトニアンである。 -$H$ が 2D 格子上の 4-局所 qubit CLH で古典的 qubit が存在しないなら、$H^{(c)}$ は平面グラフ上の 2-局所 qudit 古典ハミルトニアンである。 例えば、我々のアルゴリズムは、(欠陥のある)トーリック符号に対して、任意のゼロ温度で$\mathcal O(n^2)$時間でギブス状態を作成することができる。 -$H$ が 2D 格子上の 4-局所量子ビット CLH で、量子項が一様修正可能であると仮定して古典的量子ビットが存在するなら、$H^{(c)}$ は定数局所古典ハミルトンである。

Gibbs state preparation, or Gibbs sampling, is a key computational technique extensively used in physics, statistics, and other scientific fields. Recent efforts for designing fast mixing Gibbs samplers for quantum Hamiltonians have largely focused on commuting local Hamiltonians (CLHs), a non-trivial subclass of Hamiltonians which include highly entangled systems such as the Toric code and quantum double model. Most previous Gibbs samplers relied on simulating the Davies generator, which is a Lindbladian associated with the thermalization process in nature. Instead of using the Davies generator, we design a different Gibbs sampler for various CLHs by giving a reduction to classical Hamiltonians, in the sense that one can efficiently prepare the Gibbs state for some CLH $H$ on a quantum computer as long as one can efficiently do classical Gibbs sampling for the corresponding classical Hamiltonian $H^{(c)}$. We demonstrate that our Gibbs sampler is able to replicate state-of-the-art results as well as prepare the Gibbs state in regimes which were previously unknown, such as the low temperature region, as long as there exists fast mixing Gibbs samplers for the corresponding classical Hamiltonians. Our reductions are as follows. - If $H$ is a 2-local qudit CLH, then $H^{(c)}$ is a 2-local qudit classical Hamiltonian. - If $H$ is a 4-local qubit CLH on 2D lattice and there are no classical qubits, then $H^{(c)}$ is a 2-local qudit classical Hamiltonian on a planar graph. As an example, our algorithm can prepare the Gibbs state for the (defected) Toric code at any non-zero temperature in $\mathcal O(n^2)$ time. - If $H$ is a 4-local qubit CLH on 2D lattice and there are classical qubits, assuming that quantum terms are uniformly correctable, then $H^{(c)}$ is a constant-local classical Hamiltonian.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-08
# 実時間およびマルチタスクモデル予測制御のためのゴール条件付き端末値推定

Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control ( http://arxiv.org/abs/2410.04929v1 )

ライセンス: Link先を確認
Mitsuki Morita, Satoshi Yamamori, Satoshi Yagi, Norikazu Sugimoto, Jun Morimoto, (参考訳) MPCは各タイミングで最適制御問題を解くことで非線形フィードバック制御を可能にするが、計算負担は著しく大きくなり、制御期間内でのポリシーの最適化が困難になる。 この問題に対処するためには,端末値学習を用いて計算コストを削減する方法が考えられる。 しかし、元のMPCセットアップでタスクが動的に変化する状況では、学習した値は他のタスクには使用できない。 本研究では,目標条件付き端末値学習を用いたMPCフレームワークを開発し,計算時間を短縮しつつマルチタスクポリシーの最適化を実現する。 さらに,上層軌道プランナが適切な目標条件の軌道を出力できる階層的な制御構造を用いることで,ロボットモデルが多様な動きを生成できることを実証する。 提案手法を2足歩行逆振子ロボットモデルで評価し,目標条件付き端末値学習と上層軌道プランナーの併用によりリアルタイム制御が可能であることを確認し,傾斜地形上での目標軌道の追従に成功している。

While MPC enables nonlinear feedback control by solving an optimal control problem at each timestep, the computational burden tends to be significantly large, making it difficult to optimize a policy within the control period. To address this issue, one possible approach is to utilize terminal value learning to reduce computational costs. However, the learned value cannot be used for other tasks in situations where the task dynamically changes in the original MPC setup. In this study, we develop an MPC framework with goal-conditioned terminal value learning to achieve multitask policy optimization while reducing computational time. Furthermore, by using a hierarchical control structure that allows the upper-level trajectory planner to output appropriate goal-conditioned trajectories, we demonstrate that a robot model is able to generate diverse motions. We evaluate the proposed method on a bipedal inverted pendulum robot model and confirm that combining goal-conditioned terminal value learning with an upper-level trajectory planner enables real-time control; thus, the robot successfully tracks a target trajectory on sloped terrain.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-08
# 実時間およびマルチタスクモデル予測制御のためのゴール条件付き端末値推定

Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control ( http://arxiv.org/abs/2410.04929v2 )

ライセンス: Link先を確認
Mitsuki Morita, Satoshi Yamamori, Satoshi Yagi, Norikazu Sugimoto, Jun Morimoto, (参考訳) MPCは各タイミングで最適制御問題を解くことで非線形フィードバック制御を可能にするが、計算負担は著しく大きくなり、制御期間内でのポリシーの最適化が困難になる。 この問題に対処するためには,端末値学習を用いて計算コストを削減する方法が考えられる。 しかし、元のMPCセットアップでタスクが動的に変化する状況では、学習した値は他のタスクには使用できない。 本研究では,目標条件付き端末値学習を用いたMPCフレームワークを開発し,計算時間を短縮しつつマルチタスクポリシーの最適化を実現する。 さらに,上層軌道プランナが適切な目標条件の軌道を出力できる階層的な制御構造を用いることで,ロボットモデルが多様な動きを生成できることを実証する。 提案手法を2足歩行逆振子ロボットモデルで評価し,目標条件付き端末値学習と上層軌道プランナーの併用によりリアルタイム制御が可能であることを確認し,傾斜地形上での目標軌道の追従に成功している。

While MPC enables nonlinear feedback control by solving an optimal control problem at each timestep, the computational burden tends to be significantly large, making it difficult to optimize a policy within the control period. To address this issue, one possible approach is to utilize terminal value learning to reduce computational costs. However, the learned value cannot be used for other tasks in situations where the task dynamically changes in the original MPC setup. In this study, we develop an MPC framework with goal-conditioned terminal value learning to achieve multitask policy optimization while reducing computational time. Furthermore, by using a hierarchical control structure that allows the upper-level trajectory planner to output appropriate goal-conditioned trajectories, we demonstrate that a robot model is able to generate diverse motions. We evaluate the proposed method on a bipedal inverted pendulum robot model and confirm that combining goal-conditioned terminal value learning with an upper-level trajectory planner enables real-time control; thus, the robot successfully tracks a target trajectory on sloped terrain.
翻訳日:2024-11-02 01:18:10 公開日:2024-10-08
# 非コントラスト型自己監督学習の失敗証明

Failure-Proof Non-Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2410.04959v1 )

ライセンス: Link先を確認
Emanuele Sansone, Tim Lebailly, Tinne Tuytelaars, (参考訳) 非対照的自己教師型学習において発生する表現,次元,クラスタ内崩壊,クラスタ内崩壊など,既知の障害モードを回避するのに十分な条件を同定する。 これらの結果に基づき,プロジェクタと損失関数の原理設計を提案する。 理論的には、これらの特性を明示的に強制せずに非相関的かつクラスタ化された学習表現を促進する帰納的バイアスを導入し、一般化を向上させる。 我々の知る限りでは、下流タスクにおける一般化性能の向上を保証しながら、これらの障害モードに関して堅牢なトレーニングを実現する最初のソリューションである。 SVHN, CIFAR10, CIFAR100, ImageNet-100などの画像データセットに関する理論的知見を検証し, FALCONと呼ばれる我々のソリューションがクラスタリングや線形分類タスクの一般化の観点から,既存の特徴デコレーションやクラスタベースの自己教師付き学習方法よりも優れていることを示す。

We identify sufficient conditions to avoid known failure modes, including representation, dimensional, cluster and intracluster collapses, occurring in non-contrastive self-supervised learning. Based on these findings, we propose a principled design for the projector and loss function. We theoretically demonstrate that this design introduces an inductive bias that promotes learning representations that are both decorrelated and clustered without explicit enforcing these properties and leading to improved generalization. To the best of our knowledge, this is the first solution that achieves robust training with respect to these failure modes while guaranteeing enhanced generalization performance in downstream tasks. We validate our theoretical findings on image datasets including SVHN, CIFAR10, CIFAR100 and ImageNet-100, and show that our solution, dubbed FALCON, outperforms existing feature decorrelation and cluster-based self-supervised learning methods in terms of generalization to clustering and linear classification tasks.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-08
# 非コントラスト型自己監督学習の失敗証明

Failure-Proof Non-Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2410.04959v2 )

ライセンス: Link先を確認
Emanuele Sansone, Tim Lebailly, Tinne Tuytelaars, (参考訳) 非対照的自己教師型学習において発生する表現,次元,クラスタ内崩壊,クラスタ内崩壊など,既知の障害モードを回避するのに十分な条件を同定する。 これらの結果に基づき,プロジェクタと損失関数の原理設計を提案する。 理論的には、これらの特性を明示的に強制せずに非相関的かつクラスタ化された学習表現を促進する帰納的バイアスを導入し、一般化を向上させる。 我々の知る限りでは、下流タスクにおける一般化性能の向上を保証しながら、これらの障害モードに関して堅牢なトレーニングを実現する最初のソリューションである。 SVHN, CIFAR10, CIFAR100, ImageNet-100などの画像データセットに関する理論的知見を検証し, FALCONと呼ばれる我々のソリューションがクラスタリングや線形分類タスクの一般化の観点から,既存の特徴デコレーションやクラスタベースの自己教師付き学習方法よりも優れていることを示す。

We identify sufficient conditions to avoid known failure modes, including representation, dimensional, cluster and intracluster collapses, occurring in non-contrastive self-supervised learning. Based on these findings, we propose a principled design for the projector and loss function. We theoretically demonstrate that this design introduces an inductive bias that promotes learning representations that are both decorrelated and clustered without explicit enforcing these properties and leading to improved generalization. To the best of our knowledge, this is the first solution that achieves robust training with respect to these failure modes while guaranteeing enhanced generalization performance in downstream tasks. We validate our theoretical findings on image datasets including SVHN, CIFAR10, CIFAR100 and ImageNet-100, and show that our solution, dubbed FALCON, outperforms existing feature decorrelation and cluster-based self-supervised learning methods in terms of generalization to clustering and linear classification tasks.
翻訳日:2024-11-02 01:07:35 公開日:2024-10-08
# RoWeeder:クロップロウ検出による教師なし雑草マッピング

RoWeeder: Unsupervised Weed Mapping through Crop-Row Detection ( http://arxiv.org/abs/2410.04983v1 )

ライセンス: Link先を確認
Pasquale De Marinis, Rino Vessio, Giovanna Castellano, (参考訳) 精密農業は、堅実な収穫を確保するために効果的な雑草管理に大きく依存している。 本研究は,作物の群落検出と雑音耐性深層学習モデルを組み合わせた,教師なし雑草マッピングの革新的なフレームワークであるRoWeederを提示する。 本手法は,作物と雑草を区別できる軽量な深層学習モデルを,ノイズのあるデータが存在する場合でも訓練する。 WeedMapデータセットに基づいて評価され、RoWeederはF1スコア75.3を獲得し、いくつかのベースラインを上回っている。 包括的アブレーション研究により、モデルの性能がさらに検証された。 RoWeederとドローン技術を統合することで、農家はリアルタイムで空中調査を行うことができ、大規模な畑で正確な雑草管理が可能になる。 コードは: \url{https://github.com/pasqualedem/RoWeeder} で利用可能である。

Precision agriculture relies heavily on effective weed management to ensure robust crop yields. This study presents RoWeeder, an innovative framework for unsupervised weed mapping that combines crop-row detection with a noise-resilient deep learning model. By leveraging crop-row information to create a pseudo-ground truth, our method trains a lightweight deep learning model capable of distinguishing between crops and weeds, even in the presence of noisy data. Evaluated on the WeedMap dataset, RoWeeder achieves an F1 score of 75.3, outperforming several baselines. Comprehensive ablation studies further validated the model's performance. By integrating RoWeeder with drone technology, farmers can conduct real-time aerial surveys, enabling precise weed management across large fields. The code is available at: \url{https://github.com/pasqualedem/RoWeeder}.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-08
# RoWeeder:クロップロウ検出による教師なし雑草マッピング

RoWeeder: Unsupervised Weed Mapping through Crop-Row Detection ( http://arxiv.org/abs/2410.04983v2 )

ライセンス: Link先を確認
Pasquale De Marinis, Gennaro Vessio, Giovanna Castellano, (参考訳) 精密農業は、堅実な収穫を確保するために効果的な雑草管理に大きく依存している。 本研究は,作物の群落検出と雑音耐性深層学習モデルを組み合わせた,教師なし雑草マッピングの革新的なフレームワークであるRoWeederを提示する。 本手法は,作物と雑草を区別できる軽量な深層学習モデルを,ノイズのあるデータが存在する場合でも訓練する。 WeedMapデータセットに基づいて評価され、RoWeederはF1スコア75.3を獲得し、いくつかのベースラインを上回っている。 包括的アブレーション研究により、モデルの性能がさらに検証された。 RoWeederとドローン技術を統合することで、農家はリアルタイムで空中調査を行うことができ、大規模な畑で正確な雑草管理が可能になる。 コードは: \url{https://github.com/pasqualedem/RoWeeder} で利用可能である。

Precision agriculture relies heavily on effective weed management to ensure robust crop yields. This study presents RoWeeder, an innovative framework for unsupervised weed mapping that combines crop-row detection with a noise-resilient deep learning model. By leveraging crop-row information to create a pseudo-ground truth, our method trains a lightweight deep learning model capable of distinguishing between crops and weeds, even in the presence of noisy data. Evaluated on the WeedMap dataset, RoWeeder achieves an F1 score of 75.3, outperforming several baselines. Comprehensive ablation studies further validated the model's performance. By integrating RoWeeder with drone technology, farmers can conduct real-time aerial surveys, enabling precise weed management across large fields. The code is available at: \url{https://github.com/pasqualedem/RoWeeder}.
翻訳日:2024-11-02 00:57:50 公開日:2024-10-08
# FreSh: 高速化されたニューラル表現学習のための周波数シフト

FreSh: Frequency Shifting for Accelerated Neural Representation Learning ( http://arxiv.org/abs/2410.05050v1 )

ライセンス: Link先を確認
Adam Kania, Marko Mihajlovic, Sergey Prokudin, Jacek Tabor, Przemysław Spurek, (参考訳) Inlicit Neural Representation (INR)は、画像、ビデオ、三次元形状などの信号を多層パーセプトロン(MLP)を用いて連続的に表現するための強力なアプローチとして最近注目を集めている。 しかし、MLPは低周波バイアスを示し、高周波の詳細を正確に捉える能力を制限することが知られている。 この制限は通常、高周波入力埋め込みや特別なアクティベーション層を組み込むことによって対処される。 本研究では,これらの埋め込みやアクティベーションは,平均的によく機能するハイパーパラメータで構成されることが多いが,特定の入力信号に最適であることを示す。 我々のキーとなる観察は、訓練されていないモデルの出力の初期周波数スペクトルは、与えられた目標信号の最終的な性能と強く相関しているということである。 この知見を生かして、モデルの初期出力の周波数スペクトルとターゲット信号の周波数スペクトルを整列する埋め込みハイパーパラメータを選択する手法である周波数シフト(FreSh)を提案する。 この単純な初期化手法により、様々なニューラル表現手法やタスクのパフォーマンスが向上し、広範なハイパーパラメータスイープに匹敵する結果が得られるが、デフォルトのハイパーパラメータを持つ単一モデルのトレーニングに比べて計算オーバーヘッドが限界であることがわかった。

Implicit Neural Representations (INRs) have recently gained attention as a powerful approach for continuously representing signals such as images, videos, and 3D shapes using multilayer perceptrons (MLPs). However, MLPs are known to exhibit a low-frequency bias, limiting their ability to capture high-frequency details accurately. This limitation is typically addressed by incorporating high-frequency input embeddings or specialized activation layers. In this work, we demonstrate that these embeddings and activations are often configured with hyperparameters that perform well on average but are suboptimal for specific input signals under consideration, necessitating a costly grid search to identify optimal settings. Our key observation is that the initial frequency spectrum of an untrained model's output correlates strongly with the model's eventual performance on a given target signal. Leveraging this insight, we propose frequency shifting (or FreSh), a method that selects embedding hyperparameters to align the frequency spectrum of the model's initial output with that of the target signal. We show that this simple initialization technique improves performance across various neural representation methods and tasks, achieving results comparable to extensive hyperparameter sweeps but with only marginal computational overhead compared to training a single model with default hyperparameters.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-08
# FreSh: 高速化されたニューラル表現学習のための周波数シフト

FreSh: Frequency Shifting for Accelerated Neural Representation Learning ( http://arxiv.org/abs/2410.05050v2 )

ライセンス: Link先を確認
Adam Kania, Marko Mihajlovic, Sergey Prokudin, Jacek Tabor, Przemysław Spurek, (参考訳) Inlicit Neural Representation (INR)は、画像、ビデオ、三次元形状などの信号を多層パーセプトロン(MLP)を用いて連続的に表現するための強力なアプローチとして最近注目を集めている。 しかし、MLPは低周波バイアスを示し、高周波の詳細を正確に捉える能力を制限することが知られている。 この制限は通常、高周波入力埋め込みや特別なアクティベーション層を組み込むことによって対処される。 本研究では,これらの埋め込みやアクティベーションは,平均的によく機能するハイパーパラメータで構成されることが多いが,特定の入力信号に最適であることを示す。 我々のキーとなる観察は、訓練されていないモデルの出力の初期周波数スペクトルは、与えられた目標信号の最終的な性能と強く相関しているということである。 この知見を生かして、モデルの初期出力の周波数スペクトルとターゲット信号の周波数スペクトルを整列する埋め込みハイパーパラメータを選択する手法である周波数シフト(FreSh)を提案する。 この単純な初期化手法により、様々なニューラル表現手法やタスクのパフォーマンスが向上し、広範なハイパーパラメータスイープに匹敵する結果が得られるが、デフォルトのハイパーパラメータを持つ単一モデルのトレーニングに比べて計算オーバーヘッドが限界であることがわかった。

Implicit Neural Representations (INRs) have recently gained attention as a powerful approach for continuously representing signals such as images, videos, and 3D shapes using multilayer perceptrons (MLPs). However, MLPs are known to exhibit a low-frequency bias, limiting their ability to capture high-frequency details accurately. This limitation is typically addressed by incorporating high-frequency input embeddings or specialized activation layers. In this work, we demonstrate that these embeddings and activations are often configured with hyperparameters that perform well on average but are suboptimal for specific input signals under consideration, necessitating a costly grid search to identify optimal settings. Our key observation is that the initial frequency spectrum of an untrained model's output correlates strongly with the model's eventual performance on a given target signal. Leveraging this insight, we propose frequency shifting (or FreSh), a method that selects embedding hyperparameters to align the frequency spectrum of the model's initial output with that of the target signal. We show that this simple initialization technique improves performance across various neural representation methods and tasks, achieving results comparable to extensive hyperparameter sweeps but with only marginal computational overhead compared to training a single model with default hyperparameters.
翻訳日:2024-11-02 00:38:19 公開日:2024-10-08
# 視覚潜在表現の制御指向クラスタリング

Control-oriented Clustering of Visual Latent Representation ( http://arxiv.org/abs/2410.05063v1 )

ライセンス: Link先を確認
Han Qi, Haocheng Yin, Heng Yang, (参考訳) 本研究では,視覚的表現空間(視覚エンコーダからアクションデコーダへの情報チャネル)の形状について,行動クローニングから学習した画像に基づく制御パイプラインで検討する。 画像分類における神経崩壊(NC)現象に着想を得て,視覚的表現空間に類似のクラスタリング法則が出現するかどうかを検討する。 イメージベース制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心部分は、そのような法則が存在する場合、どの暗黙のクラスが視覚特徴クラスタであるかを決定することである。 画像に基づく平面プッシュに着目して、制御タスクにおける視覚表現の最も重要な役割は、アクションデコーダにゴールを伝えることであると仮定する。 次に、専門家によるデモンストレーションのトレーニングサンプルを8つの「制御指向」クラスに分類する。 a) 入力又は入力における対象と対象との相対的なポーズ b) 1つのクラスが1つの相対的なポーズオーサント(REPO)に対応する出力において、専門家のアクションによって誘導されるオブジェクトの相対的なポーズ。 アーキテクチャの4つのインスタンス化の中で,視覚表現空間における制御指向クラスタリングの出現を,8つのREPOに従って報告する。 このようなクラスタリングの法則は,経験的観察以外にも,専門家による限定的な実証によるポリシのトレーニングにおいて,テスト時間性能を向上させるアルゴリズムツールとして活用できることが示される。 特に、視覚特徴の制御指向クラスタリングを促進するために、NCを正規化として視覚エンコーダを事前訓練する。 驚いたことに、アクションデコーダでエンドツーエンドに微調整されたNCプリトレーニングされたビジョンエンコーダは、低データ方式でテストタイム性能を10%から35%向上させる。 実世界の視覚に基づく平面プッシュ実験は、制御指向の視覚表現事前学習の驚くべき利点を証明した。

We initiate a study of the geometry of the visual representation space -- the information channel from the vision encoder to the action decoder -- in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight "control-oriented" classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-08
# 視覚潜在表現の制御指向クラスタリング

Control-oriented Clustering of Visual Latent Representation ( http://arxiv.org/abs/2410.05063v2 )

ライセンス: Link先を確認
Han Qi, Haocheng Yin, Heng Yang, (参考訳) 本研究では,視覚的表現空間(視覚エンコーダからアクションデコーダへの情報チャネル)の形状について,行動クローニングから学習した画像に基づく制御パイプラインで検討する。 画像分類における神経崩壊(NC)現象に着想を得て,視覚的表現空間に類似のクラスタリング法則が出現するかどうかを検討する。 イメージベース制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心部分は、そのような法則が存在する場合、どの暗黙のクラスが視覚特徴クラスタであるかを決定することである。 画像に基づく平面プッシュに着目して、制御タスクにおける視覚表現の最も重要な役割は、アクションデコーダにゴールを伝えることであると仮定する。 次に、専門家によるデモンストレーションのトレーニングサンプルを8つの「制御指向」クラスに分類する。 a) 入力又は入力における対象と対象との相対的なポーズ b) 1つのクラスが1つの相対的なポーズオーサント(REPO)に対応する出力において、専門家のアクションによって誘導されるオブジェクトの相対的なポーズ。 アーキテクチャの4つのインスタンス化の中で,視覚表現空間における制御指向クラスタリングの出現を,8つのREPOに従って報告する。 このようなクラスタリングの法則は,経験的観察以外にも,専門家による限定的な実証によるポリシのトレーニングにおいて,テスト時間性能を向上させるアルゴリズムツールとして活用できることが示される。 特に、視覚特徴の制御指向クラスタリングを促進するために、NCを正規化として視覚エンコーダを事前訓練する。 驚いたことに、アクションデコーダでエンドツーエンドに微調整されたNCプリトレーニングされたビジョンエンコーダは、低データ方式でテストタイム性能を10%から35%向上させる。 実世界の視覚に基づく平面プッシュ実験は、制御指向の視覚表現事前学習の驚くべき利点を証明した。

We initiate a study of the geometry of the visual representation space -- the information channel from the vision encoder to the action decoder -- in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight "control-oriented" classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.
翻訳日:2024-11-02 00:28:18 公開日:2024-10-08
# スパースPO:スパーストークンマスクによるLCMの優先度アライメント制御

SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks ( http://arxiv.org/abs/2410.05102v1 )

ライセンス: Link先を確認
Fenia Christopoulou, Ronald Cardenas, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang, (参考訳) 優先度最適化(PO)は、言語モデルと人間の望ましい振る舞いを整合させる効果的なステップであることが証明されている。 現在の変種は、オフラインのダイレクトパラメータ最適化の目的に従って、すべてのトークンがKLの発散と損失関数への報酬のシグナルに寄与する厳密な設定に重点を置いている。 しかしながら、ヒトの嗜好は、各単語の順序に等しく影響されないが、しばしば特定の単語やフレーズに依存し、例えば有毒な単語の存在は、好ましくない反応をもたらす。 この観察から,全てのトークンをPO中に均等に重み付けすべきではなく,POトレーニング中に各トークンに対応するKL分散と報酬を自動的に重み付けすることを目的として,SparsePOと呼ばれるフレキシブルな目標を提案する。 本稿では,参照モデル自体から導出するか,あるいはハエで学習できる2種類のウェイトマスクを提案する。 特に,本手法は,学習したマスクの疎度を誘導し,トークンレベルでのベストウェイト報酬とKL分散コントリビューションを学習し,最適なマスク疎度レベルを学習する。 感情制御,対話,テキスト要約,テキスト・ツー・コード生成など,多分野にわたる広範な実験により,本手法は,目標タスクに応じて有意な重み付けを割り当て,所望の嗜好に応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。

Preference Optimization (PO) has proven an effective step for aligning language models to human-desired behaviors. Current variants, following the offline Direct Preference Optimization objective, have focused on a strict setting where all tokens are contributing signals of KL divergence and rewards to the loss function. However, human preference is not affected by each word in a sequence equally but is often dependent on specific words or phrases, e.g. existence of toxic terms leads to non-preferred responses. Based on this observation, we argue that not all tokens should be weighted equally during PO and propose a flexible objective termed SparsePO, that aims to automatically learn to weight the KL divergence and reward corresponding to each token during PO training. We propose two different variants of weight-masks that can either be derived from the reference model itself or learned on the fly. Notably, our method induces sparsity in the learned masks, allowing the model to learn how to best weight reward and KL divergence contributions at the token level, learning an optimal level of mask sparsity. Extensive experiments on multiple domains, including sentiment control, dialogue, text summarization and text-to-code generation, illustrate that our approach assigns meaningful weights to tokens according to the target task, generates more responses with the desired preference and improves reasoning tasks by up to 2 percentage points compared to other token- and response-level PO methods.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-08
# スパースPO:スパーストークンマスクによるLCMの優先度アライメント制御

SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks ( http://arxiv.org/abs/2410.05102v2 )

ライセンス: Link先を確認
Fenia Christopoulou, Ronald Cardenas, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang, (参考訳) 優先度最適化(PO)は、言語モデルと人間の望ましい振る舞いを整合させる効果的なステップであることが証明されている。 現在の変種は、オフラインのダイレクトパラメータ最適化の目的に従って、すべてのトークンがKLの発散と損失関数への報酬のシグナルに寄与する厳密な設定に重点を置いている。 しかしながら、ヒトの嗜好は、各単語の順序に等しく影響されないが、しばしば特定の単語やフレーズに依存し、例えば有毒な単語の存在は、好ましくない反応をもたらす。 この観察から,全てのトークンをPO中に均等に重み付けすべきではなく,POトレーニング中に各トークンに対応するKL分散と報酬を自動的に重み付けすることを目的として,SparsePOと呼ばれるフレキシブルな目標を提案する。 本稿では,参照モデル自体から導出するか,あるいはハエで学習できる2種類のウェイトマスクを提案する。 特に,本手法は,学習したマスクの疎度を誘導し,トークンレベルでのベストウェイト報酬とKL分散コントリビューションを学習し,最適なマスク疎度レベルを学習する。 感情制御,対話,テキスト要約,テキスト・ツー・コード生成など,多分野にわたる広範な実験により,本手法は,目標タスクに応じて有意な重み付けを割り当て,所望の嗜好に応じてより多くの応答を生成し,他のトークンレベルおよび応答レベルPO手法と比較して最大2ポイントの推論タスクを改善する。

Preference Optimization (PO) has proven an effective step for aligning language models to human-desired behaviors. Current variants, following the offline Direct Preference Optimization objective, have focused on a strict setting where all tokens are contributing signals of KL divergence and rewards to the loss function. However, human preference is not affected by each word in a sequence equally but is often dependent on specific words or phrases, e.g. existence of toxic terms leads to non-preferred responses. Based on this observation, we argue that not all tokens should be weighted equally during PO and propose a flexible objective termed SparsePO, that aims to automatically learn to weight the KL divergence and reward corresponding to each token during PO training. We propose two different variants of weight-masks that can either be derived from the reference model itself or learned on the fly. Notably, our method induces sparsity in the learned masks, allowing the model to learn how to best weight reward and KL divergence contributions at the token level, learning an optimal level of mask sparsity. Extensive experiments on multiple domains, including sentiment control, dialogue, text summarization and text-to-code generation, illustrate that our approach assigns meaningful weights to tokens according to the target task, generates more responses with the desired preference and improves reasoning tasks by up to 2 percentage points compared to other token- and response-level PO methods.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-08
# 量子フーリエ変換における量子ゲートの一般化と応用

Generalised Quantum Gates for Qudits and their Application in Quantum Fourier Transform ( http://arxiv.org/abs/2410.05122v1 )

ライセンス: Link先を確認
Francesco Pudda, Mario Chizzini, Luca Crippa, (参考訳) 量子ビットによる量子コンピューティングは、$d > 2$レベルの量子システムであり、量子ビットを超えて強力な拡張を提供し、量子システムの計算可能性を拡張し、いくつかのアルゴリズムの実装を単純化し、おそらく最適化された誤り訂正の基礎を提供する。 本研究では,次元性に制約を加えることなく,任意のレベルの$d$に対して普遍的に適用可能なキューディットゲートの新規な定式化を提案する。 量子ゲートの数学的枠組みを任意の次元に拡張することにより、任意の大きさの量子ビット上の量子計算の普遍的な集合を形成する明示的なゲート演算を導出する。 本稿では、量子フーリエ変換(QFT)を任意の$d$で実装し、一般化ゲートの正当性と有効性を検証し、提案手法の有効性を実証する。 この手法は量子アルゴリズムとフォールトトレラントアーキテクチャの設計空間を広げ、キューディットベースの量子コンピューティングの進歩の道を開く。

Quantum computing with qudits, quantum systems with $d > 2$ levels, offers a powerful extension beyond qubits, expanding the computational possibilities of quantum systems, allowing the simplification of the implementation of several algorithms and, possibly, providing a foundation for optimised error correction. In this work, we propose a novel formulation of qudit gates that is universally applicable for any number of levels $d$, without restrictions on the dimensionality. By extending the mathematical framework of quantum gates to arbitrary dimensions, we derive explicit gate operations that form a universal set for quantum computation on qudits of any size. We demonstrate the validity of our approach through the implementation of the Quantum Fourier Transform (QFT) for arbitrary $d$, verifying both the correctness and utility of our generalized gates. This novel methodology broadens the design space for quantum algorithms and fault-tolerant architectures, paving the way for advancements in qudit-based quantum computing.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-08
# 量子フーリエ変換における量子ゲートの一般化と応用

Generalised Quantum Gates for Qudits and their Application in Quantum Fourier Transform ( http://arxiv.org/abs/2410.05122v2 )

ライセンス: Link先を確認
Francesco Pudda, Mario Chizzini, Luca Crippa, (参考訳) 量子ビットによる量子コンピューティングは、$d > 2$レベルの量子システムであり、量子ビットを超えて強力な拡張を提供し、量子システムの計算可能性を拡張し、いくつかのアルゴリズムの実装を単純化し、おそらく最適化された誤り訂正の基礎を提供する。 本研究では,次元性に制約を加えることなく,任意のレベルの$d$に対して普遍的に適用可能なキューディットゲートの新規な定式化を提案する。 量子ゲートの数学的枠組みを任意の次元に拡張することにより、任意の大きさの量子ビット上の量子計算の普遍的な集合を形成する明示的なゲート演算を導出する。 本稿では、量子フーリエ変換(QFT)を任意の$d$で実装し、一般化ゲートの正当性と有効性を検証し、提案手法の有効性を実証する。 この手法は量子アルゴリズムとフォールトトレラントアーキテクチャの設計空間を広げ、キューディットベースの量子コンピューティングの進歩の道を開く。

Quantum computing with qudits, quantum systems with $d > 2$ levels, offers a powerful extension beyond qubits, expanding the computational possibilities of quantum systems, allowing the simplification of the implementation of several algorithms and, possibly, providing a foundation for optimised error correction. In this work, we propose a novel formulation of qudit gates that is universally applicable for any number of levels $d$, without restrictions on the dimensionality. By extending the mathematical framework of quantum gates to arbitrary dimensions, we derive explicit gate operations that form a universal set for quantum computation on qudits of any size. We demonstrate the validity of our approach through the implementation of the Quantum Fourier Transform (QFT) for arbitrary $d$, verifying both the correctness and utility of our generalized gates. This novel methodology broadens the design space for quantum algorithms and fault-tolerant architectures, paving the way for advancements in qudit-based quantum computing.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-08
# モノトーン平均場ゲームにおける最後の反復収束

Last Iterate Convergence in Monotone Mean Field Games ( http://arxiv.org/abs/2410.05127v1 )

ライセンス: Link先を確認
Noboru Isobe, Kenshi Abe, Kaito Ariu, (参考訳) 平均場ゲーム(MFG)は,多数のエージェントの挙動をモデル化し,近似するためのフレームワークであり,MFGにおける平衡の計算は関心の対象となっている。 均衡を近似する手法の提案にもかかわらず、更新されたポリシーの順序が平衡に収束するアルゴリズム、特に最終点収束を示すアルゴリズムは制限されている。 本稿では,MFGの平衡を計算するために,単純な近点型アルゴリズムを提案する。 その後、Lasry-Lion-type monotonicity 条件の下で、最初の最終点収束保証を提供する。 さらに、MFGの近点法の更新規則を効率的に近似するために、正規化MFGのミラー・ディフレッシュ・アルゴリズムを用いる。 このアルゴリズムは、$\mathcal{O}({\log(1/\varepsilon)})$イテレーションの後に$\varepsilon$の精度で近似できることを示した。 本研究は,大規模かつ大規模なゲームに対して,難易度の高いアプローチを提供する。

Mean Field Game (MFG) is a framework utilized to model and approximate the behavior of a large number of agents, and the computation of equilibria in MFG has been a subject of interest. Despite the proposal of methods to approximate the equilibria, algorithms where the sequence of updated policy converges to equilibrium, specifically those exhibiting last-iterate convergence, have been limited. We propose the use of a simple, proximal-point-type algorithm to compute equilibria for MFGs. Subsequently, we provide the first last-iterate convergence guarantee under the Lasry--Lions-type monotonicity condition. We further employ the Mirror Descent algorithm for the regularized MFG to efficiently approximate the update rules of the proximal point method for MFGs. We demonstrate that the algorithm can approximate with an accuracy of $\varepsilon$ after $\mathcal{O}({\log(1/\varepsilon)})$ iterations. This research offers a tractable approach for large-scale and large-population games.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-08
# モノトーン平均場ゲームにおける最後の反復収束

Last Iterate Convergence in Monotone Mean Field Games ( http://arxiv.org/abs/2410.05127v2 )

ライセンス: Link先を確認
Noboru Isobe, Kenshi Abe, Kaito Ariu, (参考訳) 平均場ゲーム(MFG)は,多数のエージェントの挙動をモデル化し,近似するためのフレームワークであり,MFGにおける平衡の計算は関心の対象となっている。 均衡を近似する手法の提案にもかかわらず、更新されたポリシーの順序が平衡に収束するアルゴリズム、特に最終点収束を示すアルゴリズムは制限されている。 本稿では,MFGの平衡を計算するために,単純な近点型アルゴリズムを提案する。 その後、Lasry-Lion-type monotonicity 条件の下で、最初の最終点収束保証を提供する。 さらに、MFGの近点法の更新規則を効率的に近似するために、正規化MFGのミラー・ディフレッシュ・アルゴリズムを用いる。 このアルゴリズムは、$\mathcal{O}({\log(1/\varepsilon)})$イテレーションの後に$\varepsilon$の精度で近似できることを示した。 本研究は,大規模かつ大規模なゲームに対して,難易度の高いアプローチを提供する。

Mean Field Game (MFG) is a framework utilized to model and approximate the behavior of a large number of agents, and the computation of equilibria in MFG has been a subject of interest. Despite the proposal of methods to approximate the equilibria, algorithms where the sequence of updated policy converges to equilibrium, specifically those exhibiting last-iterate convergence, have been limited. We propose the use of a simple, proximal-point-type algorithm to compute equilibria for MFGs. Subsequently, we provide the first last-iterate convergence guarantee under the Lasry--Lions-type monotonicity condition. We further employ the Mirror Descent algorithm for the regularized MFG to efficiently approximate the update rules of the proximal point method for MFGs. We demonstrate that the algorithm can approximate with an accuracy of $\varepsilon$ after $\mathcal{O}({\log(1/\varepsilon)})$ iterations. This research offers a tractable approach for large-scale and large-population games.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-08
# チューニング自由二レベル最適化:新しいアルゴリズムと収束解析

Tuning-Free Bilevel Optimization: New Algorithms and Convergence Analysis ( http://arxiv.org/abs/2410.05140v1 )

ライセンス: Link先を確認
Yifan Yang, Hao Ban, Minhui Huang, Shiqian Ma, Kaiyi Ji, (参考訳) 最近、機械学習問題に多くの応用があるため、バイレベル最適化が注目されている。 しかし、既存の手法は問題パラメータの事前の知識に頼ってステップ化を決定するため、これらのパラメータが未知のときにステップ化をチューニングするのに多大な労力がかかる。 本稿では,D-TFBOとS-TFBOという2つの新しいチューニング不要アルゴリズムを提案する。 D-TFBOは「累積勾配ノルムの逆」戦略によって適応的に調整された段数を持つ二重ループ構造を用いる。 S-TFBOはより単純な完全な単一ループ構造で、3つの変数を同時に更新する。 両アルゴリズムの総合収束解析を行い、D-TFBOとS-TFBOはそれぞれ$O(\frac{1}{\epsilon})$と$O(\frac{1}{\epsilon}\log^4(\frac{1}{\epsilon})$の反復を必要とすることを示す。 様々な問題に対する実験により,提案手法は既存の高度に調整された手法に匹敵する性能を達成できる一方で,初期段階の選択に対してより堅牢であることが示された。 我々の知る限りでは、理論的な保証を達成しつつ、段階的なチューニングの必要性を完全に排除した最初の方法である。

Bilevel optimization has recently attracted considerable attention due to its abundant applications in machine learning problems. However, existing methods rely on prior knowledge of problem parameters to determine stepsizes, resulting in significant effort in tuning stepsizes when these parameters are unknown. In this paper, we propose two novel tuning-free algorithms, D-TFBO and S-TFBO. D-TFBO employs a double-loop structure with stepsizes adaptively adjusted by the "inverse of cumulative gradient norms" strategy. S-TFBO features a simpler fully single-loop structure that updates three variables simultaneously with a theory-motivated joint design of adaptive stepsizes for all variables. We provide a comprehensive convergence analysis for both algorithms and show that D-TFBO and S-TFBO respectively require $O(\frac{1}{\epsilon})$ and $O(\frac{1}{\epsilon}\log^4(\frac{1}{\epsilon}))$ iterations to find an $\epsilon$-accurate stationary point, (nearly) matching their well-tuned counterparts using the information of problem parameters. Experiments on various problems show that our methods achieve performance comparable to existing well-tuned approaches, while being more robust to the selection of initial stepsizes. To the best of our knowledge, our methods are the first to completely eliminate the need for stepsize tuning, while achieving theoretical guarantees.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-08
# チューニング自由二レベル最適化:新しいアルゴリズムと収束解析

Tuning-Free Bilevel Optimization: New Algorithms and Convergence Analysis ( http://arxiv.org/abs/2410.05140v2 )

ライセンス: Link先を確認
Yifan Yang, Hao Ban, Minhui Huang, Shiqian Ma, Kaiyi Ji, (参考訳) 最近、機械学習問題に多くの応用があるため、バイレベル最適化が注目されている。 しかし、既存の手法は問題パラメータの事前の知識に頼ってステップ化を決定するため、これらのパラメータが未知のときにステップ化をチューニングするのに多大な労力がかかる。 本稿では,D-TFBOとS-TFBOという2つの新しいチューニング不要アルゴリズムを提案する。 D-TFBOは「累積勾配ノルムの逆」戦略によって適応的に調整された段数を持つ二重ループ構造を用いる。 S-TFBOはより単純な完全な単一ループ構造で、3つの変数を同時に更新する。 両アルゴリズムの総合収束解析を行い、D-TFBOとS-TFBOはそれぞれ$O(\frac{1}{\epsilon})$と$O(\frac{1}{\epsilon}\log^4(\frac{1}{\epsilon})$の反復を必要とすることを示す。 様々な問題に対する実験により,提案手法は既存の高度に調整された手法に匹敵する性能を達成できる一方で,初期段階の選択に対してより堅牢であることが示された。 我々の知る限りでは、理論的な保証を達成しつつ、段階的なチューニングの必要性を完全に排除した最初の方法である。

Bilevel optimization has recently attracted considerable attention due to its abundant applications in machine learning problems. However, existing methods rely on prior knowledge of problem parameters to determine stepsizes, resulting in significant effort in tuning stepsizes when these parameters are unknown. In this paper, we propose two novel tuning-free algorithms, D-TFBO and S-TFBO. D-TFBO employs a double-loop structure with stepsizes adaptively adjusted by the "inverse of cumulative gradient norms" strategy. S-TFBO features a simpler fully single-loop structure that updates three variables simultaneously with a theory-motivated joint design of adaptive stepsizes for all variables. We provide a comprehensive convergence analysis for both algorithms and show that D-TFBO and S-TFBO respectively require $O(\frac{1}{\epsilon})$ and $O(\frac{1}{\epsilon}\log^4(\frac{1}{\epsilon}))$ iterations to find an $\epsilon$-accurate stationary point, (nearly) matching their well-tuned counterparts using the information of problem parameters. Experiments on various problems show that our methods achieve performance comparable to existing well-tuned approaches, while being more robust to the selection of initial stepsizes. To the best of our knowledge, our methods are the first to completely eliminate the need for stepsize tuning, while achieving theoretical guarantees.
翻訳日:2024-11-02 00:08:45 公開日:2024-10-08
# PAMLR:LoRaチャネルアロケーションのためのパッシブアクティブマルチArmed Banditベースのソリューション

PAMLR: A Passive-Active Multi-Armed Bandit-Based Solution for LoRa Channel Allocation ( http://arxiv.org/abs/2410.05147v1 )

ライセンス: Link先を確認
Jihoon Yun, Chengzhang Li, Anish Arora, (参考訳) 都市環境における低電力無線ネットワークにおける低デューティサイクルの運用は、外部干渉やフェードの複雑で変動的なダイナミクスによって複雑になる。 チャネル選択における低消費電力化のための強化学習の活用について検討する。 この学習は、外部干渉に対処するための受動的チャネルサンプリングと、フェージングに対処するためのアクティブチャネルサンプリングのハイブリッドに依存している。 能動チャネル計測はノイズ閾値を更新するために適度に低レベルに調整され、受動チャネル計測を補償するために、ノイズ閾値を用いたチャネル探索から最上位チャネルを選択するための適切な高レベルに調整される。 両方のタイプのサンプルの速度は、チャネルダイナミクスに応答して適応する。 異なる都市の複数の環境における広範囲なテストに基づいて,PAMLRは,チャネル割り当てポリシーと比較して,低SNRの後悔によって実証されるような,優れた通信品質を維持することができると同時に,チャネル計測に伴うエネルギーコストを大幅に最小化できることを示す。

Achieving low duty cycle operation in low-power wireless networks in urban environments is complicated by the complex and variable dynamics of external interference and fading. We explore the use of reinforcement learning for achieving low power consumption for the task of optimal selection of channels. The learning relies on a hybrid of passive channel sampling for dealing with external interference and active channel sampling for dealing with fading. Our solution, Passive-Active Multi-armed bandit for LoRa (PAMLR, pronounced "Pamela"), balances the two types of samples to achieve energy-efficient channel selection: active channel measurements are tuned to an appropriately low level to update noise thresholds, and to compensate passive channel measurements are tuned to an appropriately high level for selecting the top-most channels from channel exploration using the noise thresholds. The rates of both types of samples are adapted in response to channel dynamics. Based on extensive testing in multiple environments in different cities, we validate that PAMLR can maintain excellent communication quality, as demonstrated by a low SNR regret compared to the optimal channel allocation policy, while substantially minimizing the energy cost associated with channel measurements.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# PAMLR:LoRaチャネルアロケーションのためのパッシブアクティブマルチArmed Banditベースのソリューション

PAMLR: A Passive-Active Multi-Armed Bandit-Based Solution for LoRa Channel Allocation ( http://arxiv.org/abs/2410.05147v2 )

ライセンス: Link先を確認
Jihoon Yun, Chengzhang Li, Anish Arora, (参考訳) 都市環境における低電力無線ネットワークにおける低デューティサイクルの運用は、外部干渉やフェードの複雑で変動的なダイナミクスによって複雑になる。 チャネル選択における低消費電力化のための強化学習の活用について検討する。 この学習は、外部干渉に対処するための受動的チャネルサンプリングと、フェージングに対処するためのアクティブチャネルサンプリングのハイブリッドに依存している。 能動チャネル計測はノイズ閾値を更新するために適度に低レベルに調整され、受動チャネル計測を補償するために、ノイズ閾値を用いたチャネル探索から最上位チャネルを選択するための適切な高レベルに調整される。 両方のタイプのサンプルの速度は、チャネルダイナミクスに応答して適応する。 異なる都市の複数の環境における広範囲なテストに基づいて,PAMLRは,チャネル割り当てポリシーと比較して,低SNRの後悔によって実証されるような,優れた通信品質を維持することができると同時に,チャネル計測に伴うエネルギーコストを大幅に最小化できることを示す。

Achieving low duty cycle operation in low-power wireless networks in urban environments is complicated by the complex and variable dynamics of external interference and fading. We explore the use of reinforcement learning for achieving low power consumption for the task of optimal selection of channels. The learning relies on a hybrid of passive channel sampling for dealing with external interference and active channel sampling for dealing with fading. Our solution, Passive-Active Multi-armed bandit for LoRa (PAMLR, pronounced "Pamela"), balances the two types of samples to achieve energy-efficient channel selection: active channel measurements are tuned to an appropriately low level to update noise thresholds, and to compensate passive channel measurements are tuned to an appropriately high level for selecting the top-most channels from channel exploration using the noise thresholds. The rates of both types of samples are adapted in response to channel dynamics. Based on extensive testing in multiple environments in different cities, we validate that PAMLR can maintain excellent communication quality, as demonstrated by a low SNR regret compared to the optimal channel allocation policy, while substantially minimizing the energy cost associated with channel measurements.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# MIBench: モデル反転攻撃と防御のための総合ベンチマーク

MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense ( http://arxiv.org/abs/2410.05159v1 )

ライセンス: Link先を確認
Yixiang Qiu, Hongyao Yu, Hao Fang, Wenbo Yu, Bin Chen, Xuan Wang, Shu-Tao Xia, Ke Xu, (参考訳) モデルインバージョン(MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシーに敏感なトレーニングデータを再構築することを目的としており、ディープニューラルネットワーク(DNN)のプライバシー脅威に対する広範な懸念を提起している。 残念なことに、MI攻撃の急速な進化と相まって、包括的で整合性があり、信頼性の高いベンチマークが欠如していることが、重大な課題となっている。 この欠損は、異なる攻撃方法と矛盾する実験装置との十分な比較に繋がる。 本稿では,この致命的なギャップに対処するために,モデル反転攻撃と防御のための最初の実用的なベンチマークについて紹介する。 このベンチマークは、拡張可能で再現可能なモジュラーベースのツールボックスとして機能し、現在16の最先端攻撃と防御メソッドを統合している。 さらに,標準化および公正な評価・分析を容易にするため,9つの一般的な評価プロトコルを含む評価ツール群を作成した。 本研究は,複数の視点から広範な実験を行い,様々なシナリオにおける様々な手法の性能を比較し,分析する。 収集した攻撃方法と防御戦略に基づいて、目標解像度、防御堅牢性、モデル予測力、モデルアーキテクチャ、転送可能性、損失関数の影響を解析する。 この“textit{MIBench}”は、統一的で実用的で拡張可能なツールボックスを提供し、この分野の研究者によって、彼らの新しい手法を厳格にテストし、比較し、公平な評価を確保し、将来の開発においてさらなる進歩を促すために広く利用されていることを願っている。

Model Inversion (MI) attacks aim at leveraging the output information of target models to reconstruct privacy-sensitive training data, raising widespread concerns on privacy threats of Deep Neural Networks (DNNs). Unfortunately, in tandem with the rapid evolution of MI attacks, the lack of a comprehensive, aligned, and reliable benchmark has emerged as a formidable challenge. This deficiency leads to inadequate comparisons between different attack methods and inconsistent experimental setups. In this paper, we introduce the first practical benchmark for model inversion attacks and defenses to address this critical gap, which is named \textit{MIBench}. This benchmark serves as an extensible and reproducible modular-based toolbox and currently integrates a total of 16 state-of-the-art attack and defense methods. Moreover, we furnish a suite of assessment tools encompassing 9 commonly used evaluation protocols to facilitate standardized and fair evaluation and analysis. Capitalizing on this foundation, we conduct extensive experiments from multiple perspectives to holistically compare and analyze the performance of various methods across different scenarios, which overcomes the misalignment issues and discrepancy prevalent in previous works. Based on the collected attack methods and defense strategies, we analyze the impact of target resolution, defense robustness, model predictive power, model architectures, transferability and loss function. Our hope is that this \textit{MIBench} could provide a unified, practical and extensible toolbox and is widely utilized by researchers in the field to rigorously test and compare their novel methods, ensuring equitable evaluations and thereby propelling further advancements in the future development.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# MIBench: モデル反転攻撃と防御のための総合ベンチマーク

MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense ( http://arxiv.org/abs/2410.05159v2 )

ライセンス: Link先を確認
Yixiang Qiu, Hongyao Yu, Hao Fang, Wenbo Yu, Bin Chen, Xuan Wang, Shu-Tao Xia, Ke Xu, (参考訳) モデルインバージョン(MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシーに敏感なトレーニングデータを再構築することを目的としており、ディープニューラルネットワーク(DNN)のプライバシー脅威に対する広範な懸念を提起している。 残念なことに、MI攻撃の急速な進化と相まって、包括的で整合性があり、信頼性の高いベンチマークが欠如していることが、重大な課題となっている。 この欠損は、異なる攻撃方法と矛盾する実験装置との十分な比較に繋がる。 本稿では,この致命的なギャップに対処するために,モデル反転攻撃と防御のための最初の実用的なベンチマークについて紹介する。 このベンチマークは、拡張可能で再現可能なモジュラーベースのツールボックスとして機能し、現在16の最先端攻撃と防御メソッドを統合している。 さらに,標準化および公正な評価・分析を容易にするため,9つの一般的な評価プロトコルを含む評価ツール群を作成した。 本研究は,複数の視点から広範な実験を行い,様々なシナリオにおける様々な手法の性能を比較し,分析する。 収集した攻撃方法と防御戦略に基づいて、目標解像度、防御堅牢性、モデル予測力、モデルアーキテクチャ、転送可能性、損失関数の影響を解析する。 この“textit{MIBench}”は、統一的で実用的で拡張可能なツールボックスを提供し、この分野の研究者によって、彼らの新しい手法を厳格にテストし、比較し、公平な評価を確保し、将来の開発においてさらなる進歩を促すために広く利用されていることを願っている。

Model Inversion (MI) attacks aim at leveraging the output information of target models to reconstruct privacy-sensitive training data, raising widespread concerns on privacy threats of Deep Neural Networks (DNNs). Unfortunately, in tandem with the rapid evolution of MI attacks, the lack of a comprehensive, aligned, and reliable benchmark has emerged as a formidable challenge. This deficiency leads to inadequate comparisons between different attack methods and inconsistent experimental setups. In this paper, we introduce the first practical benchmark for model inversion attacks and defenses to address this critical gap, which is named \textit{MIBench}. This benchmark serves as an extensible and reproducible modular-based toolbox and currently integrates a total of 16 state-of-the-art attack and defense methods. Moreover, we furnish a suite of assessment tools encompassing 9 commonly used evaluation protocols to facilitate standardized and fair evaluation and analysis. Capitalizing on this foundation, we conduct extensive experiments from multiple perspectives to holistically compare and analyze the performance of various methods across different scenarios, which overcomes the misalignment issues and discrepancy prevalent in previous works. Based on the collected attack methods and defense strategies, we analyze the impact of target resolution, defense robustness, model predictive power, model architectures, transferability and loss function. Our hope is that this \textit{MIBench} could provide a unified, practical and extensible toolbox and is widely utilized by researchers in the field to rigorously test and compare their novel methods, ensuring equitable evaluations and thereby propelling further advancements in the future development.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# 確率的最適制御のためのシミュレーション自由深層学習手法

A Simulation-Free Deep Learning Approach to Stochastic Optimal Control ( http://arxiv.org/abs/2410.05163v1 )

ライセンス: Link先を確認
Mengjian Hua, Matthieu Laurière, Eric Vanden-Eijnden, (参考訳) 本稿では,確率的最適制御(SOC)における一般問題の解を求めるシミュレーションフリーアルゴリズムを提案する。 既存の方法とは異なり、我々の手法は随伴問題の解を必要としないが、むしろジルサノフの定理を利用して、政治におけるSOC目標の勾配を直接計算する。 これにより、ニューラルネットワークによってパラメータ化される制御ポリシーの最適化を高速化できる。これは、ニューラルネットワークがニューラルネットワークで使われる確率微分方程式(SDE)を通して、高価なバックプロパゲーションステップを完全に回避できるためである。 特に、SOC問題を高次元および長時間の地平線で解くことができる。 我々は、標準的な確率的最適制御問題、Schr\"odinger-F\"ollmerプロセスの構築による正規化されていない分布からのサンプリング、事前学習された拡散モデルの微調整など、様々な分野のアプリケーションにおけるアプローチの有効性を実証する。 いずれの場合も,本手法は計算時間とメモリ効率の両方において既存手法より優れていることを示す。

We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr\"odinger-F\"ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# 確率的最適制御のためのシミュレーション自由深層学習手法

A Simulation-Free Deep Learning Approach to Stochastic Optimal Control ( http://arxiv.org/abs/2410.05163v2 )

ライセンス: Link先を確認
Mengjian Hua, Matthieu Laurière, Eric Vanden-Eijnden, (参考訳) 本稿では,確率的最適制御(SOC)における一般問題の解を求めるシミュレーションフリーアルゴリズムを提案する。 既存の方法とは異なり、我々の手法は随伴問題の解を必要としないが、むしろジルサノフの定理を利用して、政治におけるSOC目標の勾配を直接計算する。 これにより、ニューラルネットワークによってパラメータ化される制御ポリシーの最適化を高速化できる。これは、ニューラルネットワークがニューラルネットワークで使われる確率微分方程式(SDE)を通して、高価なバックプロパゲーションステップを完全に回避できるためである。 特に、SOC問題を高次元および長時間の地平線で解くことができる。 我々は、標準的な確率的最適制御問題、Schr\"odinger-F\"ollmerプロセスの構築による正規化されていない分布からのサンプリング、事前学習された拡散モデルの微調整など、様々な分野のアプリケーションにおけるアプローチの有効性を実証する。 いずれの場合も,本手法は計算時間とメモリ効率の両方において既存手法より優れていることを示す。

We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr\"odinger-F\"ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# 大規模言語モデルに基づく生成レコメンデーションのための効率的な推論

Efficient Inference for Large Language Model-based Generative Recommendation ( http://arxiv.org/abs/2410.05165v1 )

ライセンス: Link先を確認
Xinyu Lin, Chaoqun Yang, Wenjie Wang, Yongqi Li, Cunxiao Du, Fuli Feng, See-Kiong Ng, Tat-Seng Chua, (参考訳) LLM(Large Language Model)ベースのジェネレーティブレコメンデーションは目覚ましい成功を収めている。 損失のないLLM復号化高速化のために、投機的復号化(SD)が有望な解決策として登場した。 しかし、ジェネレーティブレコメンデーションにSDを適用することは、ビームサーチによるレコメンデーションリストとしてトップKアイテム(K個の異なるトークンシーケンス)を生成する必要があるため、ユニークな課題を示す。 これによりSDのより厳密な検証が可能となり、ターゲットのLSMからのトップKシーケンスはすべて、デコードステップ毎にドラフトモデルによってドラフト化されなければならない。 これを緩和するために、我々は考える 1) ドラフトモデルと目標LLM間のトップK配列アライメントの促進 2) 自明なLCM呼び出しを減らすため, 検証戦略を緩和する。 そこで我々は,厳密なトップK検証の下で,トップKアライメントのためのAtSpeed-S最適化目標を示す,AtSpeedというアライメントフレームワークを提案する。 さらに,LLM呼び出しを著しく削減し,高確率な非トップKドラフトシーケンスを受理可能なサンプリング検証戦略を導入する。 この緩和サンプリング検証の下で,トップKアライメントのためのAtSpeed-Rを提案する。 2つの実世界のデータセットに対する実験結果から、AtSpeedは厳密なトップK検証では2倍近く、緩やかなサンプリング検証では2.5倍近く、LCMベースの生成レコメンデーションを著しく加速することが示された。 コードとデータセットは近い将来リリースされる予定だ。

Large Language Model (LLM)-based generative recommendation has achieved notable success, yet its practical deployment is costly particularly due to excessive inference latency caused by autoregressive decoding. For lossless LLM decoding acceleration, Speculative Decoding (SD) has emerged as a promising solution. However, applying SD to generative recommendation presents unique challenges due to the requirement of generating top-K items (i.e., K distinct token sequences) as a recommendation list by beam search. This leads to more stringent verification in SD, where all the top-K sequences from the target LLM must be successfully drafted by the draft model at each decoding step. To alleviate this, we consider 1) boosting top-K sequence alignment between the draft model and the target LLM, and 2) relaxing the verification strategy to reduce trivial LLM calls. To this end, we propose an alignment framework named AtSpeed, which presents the AtSpeed-S optimization objective for top-K alignment under the strict top-K verification. Moreover, we introduce a relaxed sampling verification strategy that allows high-probability non-top-K drafted sequences to be accepted, significantly reducing LLM calls. Correspondingly, we propose AtSpeed-R for top-K alignment under this relaxed sampling verification. Empirical results on two real-world datasets demonstrate that AtSpeed significantly accelerates LLM-based generative recommendation, e.g., near 2x speedup under strict top-K verification and up to 2.5 speedup under relaxed sampling verification. The codes and datasets will be released in the near future.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# 大規模言語モデルに基づく生成レコメンデーションのための効率的な推論

Efficient Inference for Large Language Model-based Generative Recommendation ( http://arxiv.org/abs/2410.05165v2 )

ライセンス: Link先を確認
Xinyu Lin, Chaoqun Yang, Wenjie Wang, Yongqi Li, Cunxiao Du, Fuli Feng, See-Kiong Ng, Tat-Seng Chua, (参考訳) LLM(Large Language Model)ベースのジェネレーティブレコメンデーションは目覚ましい成功を収めている。 損失のないLLM復号化高速化のために、投機的復号化(SD)が有望な解決策として登場した。 しかし、ジェネレーティブレコメンデーションにSDを適用することは、ビームサーチによるレコメンデーションリストとしてトップKアイテム(K個の異なるトークンシーケンス)を生成する必要があるため、ユニークな課題を示す。 これによりSDのより厳密な検証が可能となり、ターゲットのLSMからのトップKシーケンスはすべて、デコードステップ毎にドラフトモデルによってドラフト化されなければならない。 これを緩和するために、我々は考える 1) ドラフトモデルと目標LLM間のトップK配列アライメントの促進 2) 自明なLCM呼び出しを減らすため, 検証戦略を緩和する。 そこで我々は,厳密なトップK検証の下で,トップKアライメントのためのAtSpeed-S最適化目標を示す,AtSpeedというアライメントフレームワークを提案する。 さらに,LLM呼び出しを著しく削減し,高確率な非トップKドラフトシーケンスを受理可能なサンプリング検証戦略を導入する。 この緩和サンプリング検証の下で,トップKアライメントのためのAtSpeed-Rを提案する。 2つの実世界のデータセットに対する実験結果から、AtSpeedは厳密なトップK検証では2倍近く、緩やかなサンプリング検証では2.5倍近く、LCMベースの生成レコメンデーションを著しく加速することが示された。 コードとデータセットは近い将来リリースされる予定だ。

Large Language Model (LLM)-based generative recommendation has achieved notable success, yet its practical deployment is costly particularly due to excessive inference latency caused by autoregressive decoding. For lossless LLM decoding acceleration, Speculative Decoding (SD) has emerged as a promising solution. However, applying SD to generative recommendation presents unique challenges due to the requirement of generating top-K items (i.e., K distinct token sequences) as a recommendation list by beam search. This leads to more stringent verification in SD, where all the top-K sequences from the target LLM must be successfully drafted by the draft model at each decoding step. To alleviate this, we consider 1) boosting top-K sequence alignment between the draft model and the target LLM, and 2) relaxing the verification strategy to reduce trivial LLM calls. To this end, we propose an alignment framework named AtSpeed, which presents the AtSpeed-S optimization objective for top-K alignment under the strict top-K verification. Moreover, we introduce a relaxed sampling verification strategy that allows high-probability non-top-K drafted sequences to be accepted, significantly reducing LLM calls. Correspondingly, we propose AtSpeed-R for top-K alignment under this relaxed sampling verification. Empirical results on two real-world datasets demonstrate that AtSpeed significantly accelerates LLM-based generative recommendation, e.g., near 2x speedup under strict top-K verification and up to 2.5 speedup under relaxed sampling verification. The codes and datasets will be released in the near future.
翻訳日:2024-11-01 23:58:57 公開日:2024-10-08
# FVDを超えて - ビデオ生成品質評価指標の強化

Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality ( http://arxiv.org/abs/2410.05203v1 )

ライセンス: Link先を確認
Ge Ya, Luo, Gian Favero, Zhi Hao Luo, Alexia Jolicoeur-Martineau, Christopher Pal, (参考訳) Fr'echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標である。 しかし、その効果は批判的な仮定に依存している。 解析の結果,(1)膨らませた3D Convnet(I3D)特徴空間の非ガウス性,(2)時間歪みに対するI3D特徴量の非感度,(3)信頼性評価に必要な非現実的なサンプルサイズ,の3つの重要な限界が明らかになった。 これらの結果はFVDの信頼性を損なうものであり、FVDはビデオ生成評価のためのスタンドアロンの指標として不足していることを示している。 幅広いメトリクスやバックボーンアーキテクチャを幅広く分析した後,JEPA Embedding Distance (JEPA Embedding Distance) を提案する。 複数のオープンソースデータセットに対する実験は、広く使われているFVD測定値よりも優れた代替手段であることを示すとともに、サンプルの16%しか安定した値に到達できず、平均して34%の人的評価値との整合性を高めていることを示す。

The Fr\'echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD's reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-08
# FVDを超えて - ビデオ生成品質評価指標の強化

Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality ( http://arxiv.org/abs/2410.05203v2 )

ライセンス: Link先を確認
Ge Ya Luo, Gian Mario Favero, Zhi Hao Luo, Alexia Jolicoeur-Martineau, Christopher Pal, (参考訳) Fr'echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標である。 しかし、その効果は批判的な仮定に依存している。 解析の結果,(1)膨らませた3D Convnet(I3D)特徴空間の非ガウス性,(2)時間歪みに対するI3D特徴量の非感度,(3)信頼性評価に必要な非現実的なサンプルサイズ,の3つの重要な限界が明らかになった。 これらの結果はFVDの信頼性を損なうものであり、FVDはビデオ生成評価のためのスタンドアロンの指標として不足していることを示している。 幅広いメトリクスやバックボーンアーキテクチャを幅広く分析した後,JEPA Embedding Distance (JEPA Embedding Distance) を提案する。 複数のオープンソースデータセットに対する実験は、広く使われているFVD測定値よりも優れた代替手段であることを示すとともに、サンプルの16%しか安定した値に到達できず、平均して34%の人的評価値との整合性を高めていることを示す。

The Fr\'echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD's reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-08
# CasiMedicos-Arg:説明的説明構造を付加した医療質問応答データセット

CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures ( http://arxiv.org/abs/2410.05235v1 )

ライセンス: Link先を確認
katerina Sviridova, Anar Yeginbergen, Ainara Estarrona, Elena Cabrio, Serena Villata, Rodrigo Agerri, (参考訳) 人工知能(AI)の決定を説明することは、特に医学や法律のような繊細なシナリオに適用する場合、近年、AIにおいて大きな課題となっている。 しかしながら、意思決定の背景にある理論的根拠を説明する必要性は、ある決定が下されたときに \textit{why} を正当化することが重要であるため、人間による熟考においても重要な問題である。 例えば、居住医は、(おそらく正しい)診断を提供するだけでなく、どのようにして一定の結論に達したかを説明するために必要である。 したがって、住民が説明スキルを訓練するための新しいツールを開発することは、教育におけるAIの中心的な目的である。 本稿では, 臨床症例の正しい診断と誤診が, 医師が記述した自然言語による説明に富む, 医療質問回答のための最初の多言語データセットについて述べる。 これらの説明は、議論要素(前提、クレーム)と議論関係(すなわち、攻撃、支援)で手動で注釈付けされ、その結果、多言語 CasiMedicos-Arg データセットは、4つの言語(英語、スペイン語、フランス語、イタリア語)で558の臨床ケースで構成され、5021のクレーム、2313の前提、2431の支持関係、1106の攻撃関係が注釈付けされた。 我々は、議論マイニングタスクにおいて、この挑戦的なデータセットに対して、競争ベースラインがどのように機能するかを示すことで締めくくります。

Explaining Artificial Intelligence (AI) decisions is a major challenge nowadays in AI, in particular when applied to sensitive scenarios like medicine and law. However, the need to explain the rationale behind decisions is a main issue also for human-based deliberation as it is important to justify \textit{why} a certain decision has been taken. Resident medical doctors for instance are required not only to provide a (possibly correct) diagnosis, but also to explain how they reached a certain conclusion. Developing new tools to aid residents to train their explanation skills is therefore a central objective of AI in education. In this paper, we follow this direction, and we present, to the best of our knowledge, the first multilingual dataset for Medical Question Answering where correct and incorrect diagnoses for a clinical case are enriched with a natural language explanation written by doctors. These explanations have been manually annotated with argument components (i.e., premise, claim) and argument relations (i.e., attack, support), resulting in the Multilingual CasiMedicos-Arg dataset which consists of 558 clinical cases in four languages (English, Spanish, French, Italian) with explanations, where we annotated 5021 claims, 2313 premises, 2431 support relations, and 1106 attack relations. We conclude by showing how competitive baselines perform over this challenging dataset for the argument mining task.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-08
# CasiMedicos-Arg:説明的説明構造を付加した医療質問応答データセット

CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures ( http://arxiv.org/abs/2410.05235v2 )

ライセンス: Link先を確認
Ekaterina Sviridova, Anar Yeginbergen, Ainara Estarrona, Elena Cabrio, Serena Villata, Rodrigo Agerri, (参考訳) 人工知能(AI)の決定を説明することは、特に医学や法律のような繊細なシナリオに適用する場合、近年、AIにおいて大きな課題となっている。 しかしながら、意思決定の背景にある理論的根拠を説明する必要性は、ある決定が下されたときに \textit{why} を正当化することが重要であるため、人間による熟考においても重要な問題である。 例えば、居住医は、(おそらく正しい)診断を提供するだけでなく、どのようにして一定の結論に達したかを説明するために必要である。 したがって、住民が説明スキルを訓練するための新しいツールを開発することは、教育におけるAIの中心的な目的である。 本稿では, 臨床症例の正しい診断と誤診が, 医師が記述した自然言語による説明に富む, 医療質問回答のための最初の多言語データセットについて述べる。 これらの説明は、議論要素(前提、クレーム)と議論関係(すなわち、攻撃、支援)で手動で注釈付けされ、その結果、多言語 CasiMedicos-Arg データセットは、4つの言語(英語、スペイン語、フランス語、イタリア語)で558の臨床ケースで構成され、5021のクレーム、2313の前提、2431の支持関係、1106の攻撃関係が注釈付けされた。 我々は、議論マイニングタスクにおいて、この挑戦的なデータセットに対して、競争ベースラインがどのように機能するかを示すことで締めくくります。

Explaining Artificial Intelligence (AI) decisions is a major challenge nowadays in AI, in particular when applied to sensitive scenarios like medicine and law. However, the need to explain the rationale behind decisions is a main issue also for human-based deliberation as it is important to justify \textit{why} a certain decision has been taken. Resident medical doctors for instance are required not only to provide a (possibly correct) diagnosis, but also to explain how they reached a certain conclusion. Developing new tools to aid residents to train their explanation skills is therefore a central objective of AI in education. In this paper, we follow this direction, and we present, to the best of our knowledge, the first multilingual dataset for Medical Question Answering where correct and incorrect diagnoses for a clinical case are enriched with a natural language explanation written by doctors. These explanations have been manually annotated with argument components (i.e., premise, claim) and argument relations (i.e., attack, support), resulting in the Multilingual CasiMedicos-Arg dataset which consists of 558 clinical cases in four languages (English, Spanish, French, Italian) with explanations, where we annotated 5021 claims, 2313 premises, 2431 support relations, and 1106 attack relations. We conclude by showing how competitive baselines perform over this challenging dataset for the argument mining task.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-08
# TuneVLSeg: ビジョンランゲージセグメンテーションモデルのためのプロンプトチューニングベンチマーク

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models ( http://arxiv.org/abs/2410.05239v1 )

ライセンス: Link先を確認
Rabin Adhikari, Safal Thapaliya, Manish Dhakal, Bishesh Khanal, (参考訳) VLM(Vision-Language Models)は、視覚タスクにおいて優れたパフォーマンスを示しているが、新しいドメインに適応するためには、しばしば高価な微調整が必要である。 テキスト、ビジュアル、マルチモーダルプロンプトなどのプロンプトチューニング技術は、学習可能なプロンプトを活用することで効率的な代替手段を提供する。 しかし、VLSM(Vision-Language Segmentation Models)への適用や、重要なドメインシフトによる評価については、まだ明らかになっていない。 この研究は、オープンソースのベンチマークフレームワークであるTuneVLSegをVLSMに組み込むことで、任意のクラスのダウンストリームセグメンテーションデータセットにプロンプトチューニングを可能にする。 TuneVLSegには、さまざまなプロンプト深度に関する6ドルのプロンプトチューニング戦略が含まれており、合計で8ドルのVLSMが使用されている。 我々は、放射線学データセット(胸部腫瘍、心エコー図、胸部X線病理学)3ドル、非放射線学データセット(ポリープ、潰瘍、皮膚がん)5ドル、および2つの自然領域セグメンテーションデータセットを含む8ドルの多様な医療データセットに対して、様々な迅速なチューニングを試験した。 本研究は, 自然領域画像から医療データまで, ドメインシフトが著しいテキスト・プロンプト・チューニングに苦しむことを発見した。 さらに、視覚的プロンプトチューニングは、マルチモーダルプロンプトチューニングよりもハイパーパラメータが少なく、しばしばマルチモーダルアプローチと競合する性能を達成し、価値ある最初の試みとなる。 我々の研究は、堅牢なドメイン固有セグメンテーションのための異なるプロンプトチューニング手法の理解と適用性を向上させる。 ソースコードはhttps://github.com/naamiinepal/tunevlseg.comで入手できる。

Vision-Language Models (VLMs) have shown impressive performance in vision tasks, but adapting them to new domains often requires expensive fine-tuning. Prompt tuning techniques, including textual, visual, and multimodal prompting, offer efficient alternatives by leveraging learnable prompts. However, their application to Vision-Language Segmentation Models (VLSMs) and evaluation under significant domain shifts remain unexplored. This work presents an open-source benchmarking framework, TuneVLSeg, to integrate various unimodal and multimodal prompt tuning techniques into VLSMs, making prompt tuning usable for downstream segmentation datasets with any number of classes. TuneVLSeg includes $6$ prompt tuning strategies on various prompt depths used in $2$ VLSMs totaling of $8$ different combinations. We test various prompt tuning on $8$ diverse medical datasets, including $3$ radiology datasets (breast tumor, echocardiograph, chest X-ray pathologies) and $5$ non-radiology datasets (polyp, ulcer, skin cancer), and two natural domain segmentation datasets. Our study found that textual prompt tuning struggles under significant domain shifts, from natural-domain images to medical data. Furthermore, visual prompt tuning, with fewer hyperparameters than multimodal prompt tuning, often achieves performance competitive to multimodal approaches, making it a valuable first attempt. Our work advances the understanding and applicability of different prompt-tuning techniques for robust domain-specific segmentation. The source code is available at https://github.com/naamiinepal/tunevlseg.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-08
# TuneVLSeg: ビジョンランゲージセグメンテーションモデルのためのプロンプトチューニングベンチマーク

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models ( http://arxiv.org/abs/2410.05239v2 )

ライセンス: Link先を確認
Rabin Adhikari, Safal Thapaliya, Manish Dhakal, Bishesh Khanal, (参考訳) VLM(Vision-Language Models)は、視覚タスクにおいて優れたパフォーマンスを示しているが、新しいドメインに適応するためには、しばしば高価な微調整が必要である。 テキスト、ビジュアル、マルチモーダルプロンプトなどのプロンプトチューニング技術は、学習可能なプロンプトを活用することで効率的な代替手段を提供する。 しかし、VLSM(Vision-Language Segmentation Models)への適用や、重要なドメインシフトによる評価については、まだ明らかになっていない。 この研究は、オープンソースのベンチマークフレームワークであるTuneVLSegをVLSMに組み込むことで、任意のクラスのダウンストリームセグメンテーションデータセットにプロンプトチューニングを可能にする。 TuneVLSegには、さまざまなプロンプト深度に関する6ドルのプロンプトチューニング戦略が含まれており、合計で8ドルのVLSMが使用されている。 我々は、放射線学データセット(胸部腫瘍、心エコー図、胸部X線病理学)3ドル、非放射線学データセット(ポリープ、潰瘍、皮膚がん)5ドル、および2つの自然領域セグメンテーションデータセットを含む8ドルの多様な医療データセットに対して、様々な迅速なチューニングを試験した。 本研究は, 自然領域画像から医療データまで, ドメインシフトが著しいテキスト・プロンプト・チューニングに苦しむことを発見した。 さらに、視覚的プロンプトチューニングは、マルチモーダルプロンプトチューニングよりもハイパーパラメータが少なく、しばしばマルチモーダルアプローチと競合する性能を達成し、価値ある最初の試みとなる。 我々の研究は、堅牢なドメイン固有セグメンテーションのための異なるプロンプトチューニング手法の理解と適用性を向上させる。 ソースコードはhttps://github.com/naamiinepal/tunevlseg.comで入手できる。

Vision-Language Models (VLMs) have shown impressive performance in vision tasks, but adapting them to new domains often requires expensive fine-tuning. Prompt tuning techniques, including textual, visual, and multimodal prompting, offer efficient alternatives by leveraging learnable prompts. However, their application to Vision-Language Segmentation Models (VLSMs) and evaluation under significant domain shifts remain unexplored. This work presents an open-source benchmarking framework, TuneVLSeg, to integrate various unimodal and multimodal prompt tuning techniques into VLSMs, making prompt tuning usable for downstream segmentation datasets with any number of classes. TuneVLSeg includes $6$ prompt tuning strategies on various prompt depths used in $2$ VLSMs totaling of $8$ different combinations. We test various prompt tuning on $8$ diverse medical datasets, including $3$ radiology datasets (breast tumor, echocardiograph, chest X-ray pathologies) and $5$ non-radiology datasets (polyp, ulcer, skin cancer), and two natural domain segmentation datasets. Our study found that textual prompt tuning struggles under significant domain shifts, from natural-domain images to medical data. Furthermore, visual prompt tuning, with fewer hyperparameters than multimodal prompt tuning, often achieves performance competitive to multimodal approaches, making it a valuable first attempt. Our work advances the understanding and applicability of different prompt-tuning techniques for robust domain-specific segmentation. The source code is available at https://github.com/naamiinepal/tunevlseg.
翻訳日:2024-11-01 20:07:08 公開日:2024-10-08
# 多段階ペナルティ損失を伴うカオス力学系の深層学習の改善

Improved deep learning of chaotic dynamical systems with multistep penalty losses ( http://arxiv.org/abs/2410.05572v1 )

ライセンス: Link先を確認
Dibyajyoti Chakraborty, Seung Whan Chung, Ashesh Chattopadhyay, Romit Maulik, (参考訳) カオスシステムの長期的な振る舞いを予測することは、初期状態に対する過度な敏感さと、従来のデータ駆動モデリングアプローチの固有の制限のため、依然として深刻な課題である。 本稿では,最近提案されたマルチステップペナルティ(MP)最適化技術を活用することで,これらの課題に対処する新しいフレームワークを提案する。 我々のアプローチは、MP最適化をFourier Neural OperatorsやUNETなど、幅広いディープラーニングアーキテクチャに適用可能にする。 予測軌道にペナル化局所不連続性を導入することにより、カオスシステムのためのニューラルネットワークのトレーニングでよく見られる損失景観の非凸性を効果的に処理する。 本研究では,2次元乱流における流速変化の予測法と,再解析データを用いた海洋力学の2つのユースケースに適用することで,本手法の有効性を実証する。 以上の結果から,カオス力学の正確かつ安定した長期予測に対するこのアプローチの可能性を強調し,複雑な自然現象のデータ駆動モデリングにおける新たな発展の道を開いた。

Predicting the long-term behavior of chaotic systems remains a formidable challenge due to their extreme sensitivity to initial conditions and the inherent limitations of traditional data-driven modeling approaches. This paper introduces a novel framework that addresses these challenges by leveraging the recently proposed multi-step penalty (MP) optimization technique. Our approach extends the applicability of MP optimization to a wide range of deep learning architectures, including Fourier Neural Operators and UNETs. By introducing penalized local discontinuities in the forecast trajectory, we effectively handle the non-convexity of loss landscapes commonly encountered in training neural networks for chaotic systems. We demonstrate the effectiveness of our method through its application to two challenging use-cases: the prediction of flow velocity evolution in two-dimensional turbulence and ocean dynamics using reanalysis data. Our results highlight the potential of this approach for accurate and stable long-term prediction of chaotic dynamics, paving the way for new advancements in data-driven modeling of complex natural phenomena.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-08
# TaeBench: Toxic Adversarial Examples の品質向上

TaeBench: Improving Quality of Toxic Adversarial Examples ( http://arxiv.org/abs/2410.05573v1 )

ライセンス: Link先を確認
Xuan Zhu, Dmitriy Bespalov, Liwen You, Ninad Kulkarni, Yanjun Qi, (参考訳) 毒性テキスト検出器は、敵対的な例に弱い可能性がある。 既存の攻撃アルゴリズムは時間がかかり、しばしば無効または曖昧な敵の例を生成するため、現実世界の毒性コンテンツモデレーターの評価や改善にはあまり役に立たない。 本稿では, 生成した有害な逆数例(TAE)の品質管理のためのアノテーションパイプラインを提案する。 我々は,TAEの品質要件を評価するために,モデルに基づく自動アノテーションと人間による品質検証を設計する。 成功したTAEは、標的の毒性モデルを騙して良質な予測をし、文法的に合理的で、人為的なテキストのように自然に現れ、意味的な毒性を示すべきである。 これらの要件を20以上のSOTA(State-of-the-art)TAE攻撃レシピに適用すると、合計940万のTAE攻撃世代から無効なサンプルが多数見つかる。 次に、提案されたパイプラインを使用して、TaeBench(サイズ264k)と呼ばれる高品質なTAEデータセットをフィルタリングし、キュレートします。 実証実験により,TaeBenchはSOTA毒性量モデレーションモデルやサービスを効果的にトランスファー・アタックできることを示した。 また,TeeBenchは2つの毒性検出器の堅牢性を大幅に向上することを示した。

Toxicity text detectors can be vulnerable to adversarial examples - small perturbations to input text that fool the systems into wrong detection. Existing attack algorithms are time-consuming and often produce invalid or ambiguous adversarial examples, making them less useful for evaluating or improving real-world toxicity content moderators. This paper proposes an annotation pipeline for quality control of generated toxic adversarial examples (TAE). We design model-based automated annotation and human-based quality verification to assess the quality requirements of TAE. Successful TAE should fool a target toxicity model into making benign predictions, be grammatically reasonable, appear natural like human-generated text, and exhibit semantic toxicity. When applying these requirements to more than 20 state-of-the-art (SOTA) TAE attack recipes, we find many invalid samples from a total of 940k raw TAE attack generations. We then utilize the proposed pipeline to filter and curate a high-quality TAE dataset we call TaeBench (of size 264k). Empirically, we demonstrate that TaeBench can effectively transfer-attack SOTA toxicity content moderation models and services. Our experiments also show that TaeBench with adversarial training achieve significant improvements of the robustness of two toxicity detectors.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-08
# 人工知能時代の水中物体検出の現状と課題

Underwater Object Detection in the Era of Artificial Intelligence: Current, Challenge, and Future ( http://arxiv.org/abs/2410.05577v1 )

ライセンス: Link先を確認
Long Chen, Yuzhi Huang, Junyu Dong, Qi Xu, Sam Kwong, Huimin Lu, Huchuan Lu, Chongyi Li, (参考訳) 水中物体検出(UOD)は、水中画像やビデオ中の物体を識別・ローカライズすることを目的としており、光学的歪み、水の濁度、水中のシーンにおける照明の変化による重要な課題を提示する。 近年、人工知能(AI)に基づく手法、特に深層学習法は、UODにおいて有望な性能を示している。 今後の進歩を促進するため、我々はAIベースのUODを包括的に研究する。 本調査では,既存のアルゴリズムを従来の機械学習手法とディープラーニング手法に分類し,学習戦略,実験データセット,活用機能やフレームワーク,学習段階を考慮して要約する。 次に、潜在的な課題について議論し、可能な解決策と新しい方向性を提案する。 また、多種多様かつ偏りのある実験装置を考慮し、複数のベンチマークデータセットにまたがる主流アルゴリズムの定量的および定性的な評価を行う。 最後に,対象物の特徴や様々な種類のエラーが検出者に与える影響をよく調べる,既製の検出分析ツールである診断とTIDEを導入する。 これらのツールは検出器の強度と弱さを識別し、さらなる改善を図っている。 ソースコード、トレーニングされたモデル、使用済みデータセット、検出結果、検出分析ツールは、 \url{https://github.com/LongChenCV/UODReview}で公開されており、定期的に更新される。

Underwater object detection (UOD), aiming to identify and localise the objects in underwater images or videos, presents significant challenges due to the optical distortion, water turbidity, and changing illumination in underwater scenes. In recent years, artificial intelligence (AI) based methods, especially deep learning methods, have shown promising performance in UOD. To further facilitate future advancements, we comprehensively study AI-based UOD. In this survey, we first categorise existing algorithms into traditional machine learning-based methods and deep learning-based methods, and summarise them by considering learning strategy, experimental dataset, utilised features or frameworks, and learning stage. Next, we discuss the potential challenges and suggest possible solutions and new directions. We also perform both quantitative and qualitative evaluations of mainstream algorithms across multiple benchmark datasets by considering the diverse and biased experimental setups. Finally, we introduce two off-the-shelf detection analysis tools, Diagnosis and TIDE, which well-examine the effects of object characteristics and various types of errors on detectors. These tools help identify the strengths and weaknesses of detectors, providing insigts for further improvement. The source codes, trained models, utilised datasets, detection results, and detection analysis tools are public available at \url{https://github.com/LongChenCV/UODReview}, and will be regularly updated.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-08
# Swift Sampler: 10パラメータによるサンプリングの効率的な学習

Swift Sampler: Efficient Learning of Sampler by 10 Parameters ( http://arxiv.org/abs/2410.05578v1 )

ライセンス: Link先を確認
Jiawei Yao, Chuming Li, Canran Xiao, (参考訳) ディープラーニングモデルのトレーニングには,データ選択が不可欠だ。 効果的なデータサンプリング器は、トレーニングデータに対して適切なサンプリング確率を割り当て、モデルが高性能で良好な局所最小値に収束するのを助ける。 データサンプリングに関するこれまでの研究は、主にヒューリスティックなルールに基づいており、大量の時間を要する試行を通じて学習している。 本稿では, 効率的なサンプリングを効率的に学習するための, 自動検索アルゴリズムである \textbf{swift sampler} を提案する。 特に、 \textbf{SS} は、新しい定式化を用いて、サンプリング器をハイパーパラメータの低次元にマッピングし、近似された局所最小値を用いて、サンプリング器の品質をすばやく調べる。 計算コストの低さから、高効率で大規模データセットに適用できる。 さまざまなタスクに関する総合的な実験により、 \textbf{SS} によるサンプリングは明らかに改善され(例えば、ImageNetでは1.5\%)、異なるニューラルネットワーク間での転送が可能になることが示されている。 プロジェクトページ:https://github.com/Alexander-Yao/Swift-Sampler。

Data selection is essential for training deep learning models. An effective data sampler assigns proper sampling probability for training data and helps the model converge to a good local minimum with high performance. Previous studies in data sampling are mainly based on heuristic rules or learning through a huge amount of time-consuming trials. In this paper, we propose an automatic \textbf{swift sampler} search algorithm, \textbf{SS}, to explore automatically learning effective samplers efficiently. In particular, \textbf{SS} utilizes a novel formulation to map a sampler to a low dimension of hyper-parameters and uses an approximated local minimum to quickly examine the quality of a sampler. Benefiting from its low computational expense, \textbf{SS} can be applied on large-scale data sets with high efficiency. Comprehensive experiments on various tasks demonstrate that \textbf{SS} powered sampling can achieve obvious improvements (e.g., 1.5\% on ImageNet) and transfer among different neural networks. Project page: https://github.com/Alexander-Yao/Swift-Sampler.
翻訳日:2024-11-01 17:58:21 公開日:2024-10-08
# NegMerge: 強力な機械学習のための合意的ウェイトネゲーション

NegMerge: Consensual Weight Negation for Strong Machine Unlearning ( http://arxiv.org/abs/2410.05583v1 )

ライセンス: Link先を確認
Hyoseo Kim, Dongyoon Han, Junsuk Choe, (参考訳) 機械学習は、モデルから特定の知識を選択的に除去することを目的としている。 タスク演算のような現在の手法は、タスクベクトルを生成し、元のモデルからそれを減らし、リクットセットの微調整モデルに依存している。 しかし,本手法の有効性はハイパーパラメータ選択に非常に敏感であり,多くの微調整候補の中から最適なモデルを特定するためには,慎重に検証する必要がある。 本稿では,1つのモデルを選択するのではなく,与えられたすべての微調整モデルを活用する新しい手法を提案する。 様々なハイパーパラメータで訓練されたモデルからタスクベクトルを構築し、一貫した符号でタスクベクトルの構成要素のみをマージすることにより、元のモデルからマージされたタスクベクトルを無効にすることで未学習を行う。 既存の手法は複数の微調整モデルも利用しているため、計算コストを増大させることなく、より効果的な未学習を実現することができる。 本手法が視覚言語モデルと標準画像分類モデルの両方において有効であることを示す。

Machine unlearning aims to selectively remove specific knowledge from a model. Current methods, such as task arithmetic, rely on fine-tuning models on the forget set, generating a task vector, and subtracting it from the original model. However, we argue the effectiveness of this approach is highly sensitive to hyperparameter selection, necessitating careful validation to identify the best model among many fine-tuned candidates. In this paper, we propose a novel method that leverages all given fine-tuned models rather than selecting a single one. By constructing task vectors from models trained with varied hyperparameters and merging only the components of the task vectors with consistent signs, we perform unlearning by negating the merged task vector from the original model. Given that existing methods also utilize multiple fine-tuned models, our approach delivers more effective unlearning without incurring additional computational costs. We demonstrate the effectiveness of our method on both vision-language models and standard image classification models, showing improved unlearning performance with minimal degradation on the retain set, outperforming state-of-the-art techniques.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# 変圧器によるロバスト宇宙機軌道最適化に向けて

Towards Robust Spacecraft Trajectory Optimization via Transformers ( http://arxiv.org/abs/2410.05585v1 )

ライセンス: Link先を確認
Yuji Takubo, Tommaso Guffanti, Daniele Gammelli, Marco Pavone, Simone D'Amico, (参考訳) 将来の多機のミッションは、安全かつ効率的なランデブー操作を保証するために、堅牢な自律軌道最適化機能を必要とする。 この能力は、非凸最適制御問題をリアルタイムに解くことに焦点を当てるが、シーケンシャル凸プログラミングのような伝統的な反復的手法は、重要な計算課題を課している。 この負担を軽減するために、Autonomous Rendezvous Transformerは、ほぼ最適な初期推定を提供するために訓練された生成モデルを導入した。 このアプローチは、より良い局所最適性(例えば、燃料の最適性)への収束を提供し、実現可能性の向上と、温暖化開始による最適化アルゴリズムの収束速度の向上をもたらす。 この研究はARTの能力を拡張し、確率制約のある最適制御問題に対処する。 具体的には、ARTは低地球軌道(LEO)のランデブーシナリオに適応し、不確実性の下での耐故障性を確保する。 提案手法は, 従来手法に比べて最大30%のコスト向上, 50%のコスト削減を実現し, 複数状態表現における堅牢な性能を実証する。 さらに、生成されたトラジェクトリの品質を評価し、ランタイム障害を軽減するために、ポストホック評価フレームワークが提案されている。

Future multi-spacecraft missions require robust autonomous trajectory optimization capabilities to ensure safe and efficient rendezvous operations. This capability hinges on solving non-convex optimal control problems in real time, although traditional iterative methods such as sequential convex programming impose significant computational challenges. To mitigate this burden, the Autonomous Rendezvous Transformer introduced a generative model trained to provide near-optimal initial guesses. This approach provides convergence to better local optima (e.g., fuel optimality), improves feasibility rates, and results in faster convergence speed of optimization algorithms through warm-starting. This work extends the capabilities of ART to address robust chance-constrained optimal control problems. Specifically, ART is applied to challenging rendezvous scenarios in Low Earth Orbit (LEO), ensuring fault-tolerant behavior under uncertainty. Through extensive experimentation, the proposed warm-starting strategy is shown to consistently produce high-quality reference trajectories, achieving up to 30% cost improvement and 50% reduction in infeasible cases compared to conventional methods, demonstrating robust performance across multiple state representations. Additionally, a post hoc evaluation framework is proposed to assess the quality of generated trajectories and mitigate runtime failures, marking an initial step toward the reliable deployment of AI-driven solutions in safety-critical autonomous systems such as spacecraft.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# TeaserGen: 長いドキュメントのためのティーザーを生成する

TeaserGen: Generating Teasers for Long Documentaries ( http://arxiv.org/abs/2410.05586v1 )

ライセンス: Link先を確認
Weihan Xu, Paul Pu Liang, Haven Kim, Julian McAuley, Taylor Berg-Kirkpatrick, Hao-Wen Dong, (参考訳) ティーザーはエンターテイメント、商業、教育分野のコンテンツを促進する効果的なツールである。 しかし, 長時間ビデオに有効なティーザーを作成するには, 映像の長距離マルチモーダルモデリングが必要であり, 映像のアライメントの維持, シーンの変化の管理, 実際のティーザーの精度の確保が必要である。 公開されているデータセットが欠如しているため、この研究方向の進展は妨げられている。 本研究では, ビデオ, 音声, 音楽, 音響効果, ナレーションのマルチモーダルなデータストリームを特徴とする1,269の文書集であるDocumentaryNetを紹介する。 本稿では,DocumentaryNetを用いて,長い文書からティーザーを生成するための2段階システムを提案する。 提案するTeaserGenシステムは,まず,事前学習された大言語モデルを用いて,ドキュメンタリーの書き起こしナレーションからティーザーナレーションを生成し,次に,生成されたナレーションに付随する最も関連性の高いビジュアルコンテンツを言語ビジョンモデルにより選択する。 ナレーション・ビデオマッチングでは,事前学習型言語ビジョンモデルを用いた事前学習型モデルと,ナレーションと視覚のマッピングを学習する深部逐次モデルという2つのアプローチを検討する。 実験の結果、事前学習に基づくアプローチは、直接訓練された深部自己回帰モデルよりも、関連性のある視覚的内容を特定するのに効果的であることが示された。

Teasers are an effective tool for promoting content in entertainment, commercial and educational fields. However, creating an effective teaser for long videos is challenging for it requires long-range multimodal modeling on the input videos, while necessitating maintaining audiovisual alignments, managing scene changes and preserving factual accuracy for the output teasers. Due to the lack of a publicly-available dataset, progress along this research direction has been hindered. In this work, we present DocumentaryNet, a collection of 1,269 documentaries paired with their teasers, featuring multimodal data streams of video, speech, music, sound effects and narrations. With DocumentaryNet, we propose a new two-stage system for generating teasers from long documentaries. The proposed TeaserGen system first generates the teaser narration from the transcribed narration of the documentary using a pretrained large language model, and then selects the most relevant visual content to accompany the generated narration through language-vision models. For narration-video matching, we explore two approaches: a pretraining-based model using pretrained contrastive language-vision models and a deep sequential model that learns the mapping between the narrations and visuals. Our experimental results show that the pretraining-based approach is more effective at identifying relevant visual content than directly trained deep autoregressive models.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# ParallelSpec: 効率的な投機的デコーディングのための並列描画

ParallelSpec: Parallel Drafter for Efficient Speculative Decoding ( http://arxiv.org/abs/2410.05589v1 )

ライセンス: Link先を確認
Zilin Xiao, Hongming Zhang, Tao Ge, Siru Ouyang, Vicente Ordonez, Dong Yu, (参考訳) 投機的復号化は大規模言語モデル(LLM)推論の効率的な解であることが証明されており、小さなドラフト作成者が将来のトークンを低コストで予測し、ターゲットモデルを並列に検証するために利用する。 しかし、既存の作業の多くは、投機的復号化における計算負担が大きいと考える言語モデリングにおける逐次的依存を維持するために、トークンを自動回帰的に作成している。 提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。 投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。 ParallelSpecは、単一のモデルを使用して複数の将来のトークンを効率的に並列に予測することを学び、ドラフト作成者とターゲットモデルの出力分布を最小限のトレーニングコストで調整する必要のある任意の投機的デコードフレームワークに統合することができる。 実験結果から,ParallelSpecはテキスト生成ベンチマークのレイテンシを最大62%向上し,Llama-2-13Bモデル全体の2.84倍の高速化を実現した。

Speculative decoding has proven to be an efficient solution to large language model (LLM) inference, where the small drafter predicts future tokens at a low cost, and the target model is leveraged to verify them in parallel. However, most existing works still draft tokens auto-regressively to maintain sequential dependency in language modeling, which we consider a huge computational burden in speculative decoding. We present ParallelSpec, an alternative to auto-regressive drafting strategies in state-of-the-art speculative decoding approaches. In contrast to auto-regressive drafting in the speculative stage, we train a parallel drafter to serve as an efficient speculative model. ParallelSpec learns to efficiently predict multiple future tokens in parallel using a single model, and it can be integrated into any speculative decoding framework that requires aligning the output distributions of the drafter and the target model with minimal training cost. Experimental results show that ParallelSpec accelerates baseline methods in latency up to 62% on text generation benchmarks from different domains, and it achieves 2.84X overall speedup on the Llama-2-13B model using third-party evaluation criteria.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# TweedieMix:拡散画像/ビデオ生成のためのマルチコンセプト融合の改善

TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation ( http://arxiv.org/abs/2410.05591v1 )

ライセンス: Link先を確認
Gihyun Kwon, Jong Chul Ye, (参考訳) テキスト・ツー・イメージとビデオ生成モデルのカスタマイズが大幅に進歩しているにもかかわらず、複数のパーソナライズされた概念を効果的に統合する画像やビデオを生成することは難しい課題である。 そこで本研究では、推論フェーズにおいて、カスタマイズされた拡散モデルを構成する新しい方法であるTweedieMixを提案する。 逆拡散サンプリングの特性を解析することにより,本手法はサンプリング過程を2段階に分割する。 初期段階において,対象対象オブジェクトの包摂性を確保するため,複数のオブジェクト認識サンプリング手法を適用した。 後段では、Tweedieの公式を用いて、デノーズ画像空間におけるカスタム概念の外観をブレンドする。 以上の結果から,TweedieMixは既存手法よりも高い忠実度で複数のパーソナライズされた概念を生成できることが示された。 さらに,このフレームワークは画像間拡散モデルにも拡張可能で,複数のパーソナライズされた概念を特徴付けるビデオを生成することができる。 結果とソースコードは匿名プロジェクトのページにあります。

Despite significant advancements in customizing text-to-image and video generation models, generating images and videos that effectively integrate multiple personalized concepts remains a challenging task. To address this, we present TweedieMix, a novel method for composing customized diffusion models during the inference phase. By analyzing the properties of reverse diffusion sampling, our approach divides the sampling process into two stages. During the initial steps, we apply a multiple object-aware sampling technique to ensure the inclusion of the desired target objects. In the later steps, we blend the appearances of the custom concepts in the de-noised image space using Tweedie's formula. Our results demonstrate that TweedieMix can generate multiple personalized concepts with higher fidelity than existing methods. Moreover, our framework can be effortlessly extended to image-to-video diffusion models, enabling the generation of videos that feature multiple personalized concepts. Results and source code are in our anonymous project page.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# 入射単段法による訓練剛性ニューラルディファレンシャル方程式

Training Stiff Neural Ordinary Differential Equations with Implicit Single-Step Methods ( http://arxiv.org/abs/2410.05592v1 )

ライセンス: Link先を確認
Colby Fronk, Linda Petzold, (参考訳) 通常の微分方程式(ODE)の剛体系は多くの科学や工学の分野で普及しているが、標準的なニューラルODEアプローチはそれらを学ぶのに苦労している。 この制限は、ニューラルODEの普及の主要な障壁である。 本稿では,1ステップの暗黙的スキームをベースとして,ニューラルODEが硬さを扱えるようにし,我々の暗黙的ニューラルODE法が剛性ダイナミクスを学習できることを実証する手法を提案する。 この研究は、現在のニューラルODE法における重要な制限に対処し、より広い範囲の科学的な問題でそれらを使用するための道を開く。

Stiff systems of ordinary differential equations (ODEs) are pervasive in many science and engineering fields, yet standard neural ODE approaches struggle to learn them. This limitation is the main barrier to the widespread adoption of neural ODEs. In this paper, we propose an approach based on single-step implicit schemes to enable neural ODEs to handle stiffness and demonstrate that our implicit neural ODE method can learn stiff dynamics. This work addresses a key limitation in current neural ODE methods, paving the way for their use in a wider range of scientific problems.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# グラフニューラルネットワークが動的モード分解と出会うとき

When Graph Neural Networks Meet Dynamic Mode Decomposition ( http://arxiv.org/abs/2410.05593v1 )

ライセンス: Link先を確認
Dai Shi, Lequan Lin, Andi Han, Zhiyong Wang, Yi Guo, Junbin Gao, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに対する幅広い予測タスクの基本的なツールとして登場した。 最近の研究は、GNNの特徴伝播と拡散過程の類似性を引き合いに出し、力学系として解釈できる。 本稿では、GNNの力学と現代のクープマン理論と、その数値解法である動的モード分解(DMD)を結びつけることにより、この視点を深く掘り下げる。 DMDがシステムの複数の状態に基づいて低ランクな有限次元線形作用素を推定し、グラフ内のノード間の潜在的な非線形相互作用を効果的に近似する方法について述べる。 このアプローチにより、グラフ内の複雑なダイナミクスを正確かつ効率的にキャプチャできる。 理論的には、DMD推定演算子とシステム状態間の元の動的演算子との接続を確立する。 この基礎の上に構築されたDMD-GNNモデルのファミリーを導入し、DMDアルゴリズムによって提供される低ランク固有関数を効果的に活用する。 さらに、DMD計算に対称性などのドメイン固有の制約を組み込むことにより、我々のアプローチを強化する可能性について論じ、対応するGNNモデルが基盤システムの既知の物理的特性を尊重することを可能にする。 我々の研究は、GNNを通して高度な動的システム解析ツールを適用するための道筋をたどっている。 提案手法は,有向グラフ,大規模グラフ,長距離相互作用,空間時間グラフなど,様々な学習課題に関する広範な実験を通じて検証される。 また,提案モデルがリンク予測タスクの強力なエンコーダとして機能することを実証的に検証した。 その結果, DMD を拡張した GNN が最先端性能を実現し, DMD を GNN フレームワークに組み込むことの有効性が示された。

Graph Neural Networks (GNNs) have emerged as fundamental tools for a wide range of prediction tasks on graph-structured data. Recent studies have drawn analogies between GNN feature propagation and diffusion processes, which can be interpreted as dynamical systems. In this paper, we delve deeper into this perspective by connecting the dynamics in GNNs to modern Koopman theory and its numerical method, Dynamic Mode Decomposition (DMD). We illustrate how DMD can estimate a low-rank, finite-dimensional linear operator based on multiple states of the system, effectively approximating potential nonlinear interactions between nodes in the graph. This approach allows us to capture complex dynamics within the graph accurately and efficiently. We theoretically establish a connection between the DMD-estimated operator and the original dynamic operator between system states. Building upon this foundation, we introduce a family of DMD-GNN models that effectively leverage the low-rank eigenfunctions provided by the DMD algorithm. We further discuss the potential of enhancing our approach by incorporating domain-specific constraints such as symmetry into the DMD computation, allowing the corresponding GNN models to respect known physical properties of the underlying system. Our work paves the path for applying advanced dynamical system analysis tools via GNNs. We validate our approach through extensive experiments on various learning tasks, including directed graphs, large-scale graphs, long-range interactions, and spatial-temporal graphs. We also empirically verify that our proposed models can serve as powerful encoders for link prediction tasks. The results demonstrate that our DMD-enhanced GNNs achieve state-of-the-art performance, highlighting the effectiveness of integrating DMD into GNN frameworks.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# SMART:スプラインベース多変量適応回帰木を用いた回帰に対する柔軟なアプローチ

SMART: A Flexible Approach to Regression using Spline-Based Multivariate Adaptive Regression Trees ( http://arxiv.org/abs/2410.05597v1 )

ライセンス: Link先を確認
William Pattie, Arvind Krishna, (参考訳) 決定木は予測モデリングには強力だが、連続的な関係をモデル化する場合、しばしば高いばらつきに悩まされる。 Multivariate Adaptive Regression Splines (MARS)のようなアルゴリズムは、このような連続的な関係を捉えるのに優れていますが、不連続をモデル化する場合には、パフォーマンスが悪くなります。 両アプローチの限界に対処するため,Spline ベースの多変量適応回帰木 (SMART) を導入し,決定木を用いて連続関係の異なるデータのサブセットを識別し,MARS を利用してそれらの関係を独立に適合させる。 モデル相互作用や高次項に木構造に依存する他の方法とは異なり、SMARTはMARSのこれらの用語を扱うネイティブな能力を活用しており、ツリーは関係における不連続性のみにフォーカスすることができる。 SMARTを様々なデータセットでテストし、その場合の最先端手法よりも改善したことを示す。 さらに,実践者が使用する手法のオープンソース実装も提供する。

Decision trees are powerful for predictive modeling but often suffer from high variance when modeling continuous relationships. While algorithms like Multivariate Adaptive Regression Splines (MARS) excel at capturing such continuous relationships, they perform poorly when modeling discontinuities. To address the limitations of both approaches, we introduce Spline-based Multivariate Adaptive Regression Trees (SMART), which uses a decision tree to identify subsets of data with distinct continuous relationships and then leverages MARS to fit these relationships independently. Unlike other methods that rely on the tree structure to model interaction and higher-order terms, SMART leverages MARS's native ability to handle these terms, allowing the tree to focus solely on identifying discontinuities in the relationship. We test SMART on various datasets, demonstrating its improvement over state-of-the-art methods in such cases. Additionally, we provide an open-source implementation of our method to be used by practitioners.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# ブリジング・モダリティ: 少数のショットインコンテキスト学習によるモダリティ・ヘイト音声検出の強化

Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning ( http://arxiv.org/abs/2410.05600v1 )

ライセンス: Link先を確認
Ming Shan Hee, Aditi Kumaresan, Roy Ka-Wei Lee, (参考訳) インターネット上でヘイトスピーチが広まっており、テキストベースのつぶやきや視覚言語によるミームなどのフォーマットは、デジタルプラットフォームの安全性にとって大きな課題となっている。 近年の研究では、特定のモダリティに合わせた検出モデルが開発されているが、異なるフォーマット間で検出能力の伝達には顕著なギャップがある。 本研究では,大規模言語モデルを用いた数発のインコンテキスト学習を用いて,モダリティ間のヘイトスピーチ検出の伝達可能性について検討する。 その結果,テキストに基づくヘイトスピーチの例は,視覚言語ヘイトスピーチの分類精度を大幅に向上させることができることがわかった。 さらに、テキストベースのデモは、数ショットの学習環境で視覚言語によるデモよりも優れています。 これらの結果は、モダリティ間の知識伝達の有効性を強調し、ヘイトスピーチ検出システムを改善するための貴重な洞察を提供する。

The widespread presence of hate speech on the internet, including formats such as text-based tweets and vision-language memes, poses a significant challenge to digital platform safety. Recent research has developed detection models tailored to specific modalities; however, there is a notable gap in transferring detection capabilities across different formats. This study conducts extensive experiments using few-shot in-context learning with large language models to explore the transferability of hate speech detection between modalities. Our findings demonstrate that text-based hate speech examples can significantly enhance the classification accuracy of vision-language hate speech. Moreover, text-based demonstrations outperform vision-language demonstrations in few-shot learning settings. These results highlight the effectiveness of cross-modality knowledge transfer and offer valuable insights for improving hate speech detection systems.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# ReFIR: 検索機能強化による大規模復元モデルの構築

ReFIR: Grounding Large Restoration Models with Retrieval Augmentation ( http://arxiv.org/abs/2410.05601v1 )

ライセンス: Link先を確認
Hang Guo, Tao Dai, Zhihao Ouyang, Taolin Zhang, Yaohua Zha, Bin Chen, Shu-tao Xia, (参考訳) 拡散型大規模復元モデル(LRM)の最近の進歩は、モデル重みに埋め込まれた内部知識を活用することにより、写真リアルな画像復元を大幅に改善している。 しかし、既存のLEMは幻覚ジレンマ、すなわち、内部知識に大きく依存しているため、深刻な劣化に対処する際に、不正確な内容やテクスチャを生じさせることがしばしばある。 本稿では,検索した画像を外部知識として組み込んで,既存のLRMの知識境界を拡張して,元のシーンに忠実な詳細を生成する,Retrieval-augmented Framework for Image Restoration(ReFIR)という直交的ソリューションを提案する。 具体的には、まず、近接する近傍のルックアップを導入し、コンテンツ関連高画質画像を参照として検索し、その後、既存のLEMを修正して取得した画像から高品質なテクスチャを利用するクロスイメージインジェクションを提案する。 追加の外部知識のおかげで、私たちのReFIRは幻覚の挑戦をうまく処理することができ、忠実に結果を得られるようになります。 大規模な実験により、ReFIRは高忠実性だけでなく、現実的な修復結果も達成できることが示された。 重要なことは、ReFIRはトレーニングを必要とせず、様々なLEMに適応できることです。

Recent advances in diffusion-based Large Restoration Models (LRMs) have significantly improved photo-realistic image restoration by leveraging the internal knowledge embedded within model weights. However, existing LRMs often suffer from the hallucination dilemma, i.e., producing incorrect contents or textures when dealing with severe degradations, due to their heavy reliance on limited internal knowledge. In this paper, we propose an orthogonal solution called the Retrieval-augmented Framework for Image Restoration (ReFIR), which incorporates retrieved images as external knowledge to extend the knowledge boundary of existing LRMs in generating details faithful to the original scene. Specifically, we first introduce the nearest neighbor lookup to retrieve content-relevant high-quality images as reference, after which we propose the cross-image injection to modify existing LRMs to utilize high-quality textures from retrieved images. Thanks to the additional external knowledge, our ReFIR can well handle the hallucination challenge and facilitate faithfully results. Extensive experiments demonstrate that ReFIR can achieve not only high-fidelity but also realistic restoration results. Importantly, our ReFIR requires no training and is adaptable to various LRMs.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# 不規則時系列に対する連続状態空間Feynman-Kacモデルの補正制御

Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series ( http://arxiv.org/abs/2410.05602v1 )

ライセンス: Link先を確認
Byoungwoo Park, Hyungi Lee, Juho Lee, (参考訳) 医療、気候、経済学などの現実世界のデータセットの多くは、しばしば不規則な時系列として収集され、正確なモデリングの課題を引き起こす。 本稿では,連続状態空間モデル(ACSSM)による時系列の連続的動的モデリングを不規則かつ離散的な観測のために提案する。 まず,この不規則な観測を条件とした連続力学系を構築するために,マルチマルジナルDoob's $h$-transformを提案する。 次に, 確率的最適制御(SOC)理論を利用して, 難解なDoobの$h$-transformを近似し, 条件付き力学をシミュレートする, 厳密なエビデンスローバウンド(ELBO)を持つ変分推論アルゴリズムを提案する。 トレーニングと推論の間、効率とスケーラビリティを改善するために、ACSSMは非道徳推論を使用して表現学習を潜時力学から切り離す。 さらに、シミュレーションフリーの潜伏動的フレームワークとトランスフォーマーベースのデータ同化スキームを組み込み、潜伏状態の並列推論とELBO計算を容易にする。 ACSSMは、実世界のさまざまなデータセットに対する経験的評価を通じて、計算効率を維持しながら、分類、回帰、補間、補間といったタスクにおいて優れたパフォーマンスを示す。

Many real-world datasets, such as healthcare, climate, and economics, are often collected as irregular time series, which poses challenges for accurate modeling. In this paper, we propose the Amortized Control of continuous State Space Model (ACSSM) for continuous dynamical modeling of time series for irregular and discrete observations. We first present a multi-marginal Doob's $h$-transform to construct a continuous dynamical system conditioned on these irregular observations. Following this, we introduce a variational inference algorithm with a tight evidence lower bound (ELBO), leveraging stochastic optimal control (SOC) theory to approximate the intractable Doob's $h$-transform and simulate the conditioned dynamics. To improve efficiency and scalability during both training and inference, ACSSM employs amortized inference to decouple representation learning from the latent dynamics. Additionally, it incorporates a simulation-free latent dynamics framework and a transformer-based data assimilation scheme, facilitating parallel inference of the latent states and ELBO computation. Through empirical evaluations across a variety of real-world datasets, ACSSM demonstrates superior performance in tasks such as classification, regression, interpolation, and extrapolation, while maintaining computational efficiency.
翻訳日:2024-11-01 17:48:36 公開日:2024-10-08
# すべてを一度にすべて:LLMは複数のタスクを重ね合わせて学習できる

Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition ( http://arxiv.org/abs/2410.05603v1 )

ライセンス: Link先を確認
Zheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos, (参考訳) LLM(Large Language Models)は、コンテキスト内学習(ICL)機能を示す。 本研究では,ICLに関連する驚くべき現象について考察する: LLMは,単一の推論コール中に,複数の計算学的に異なるICLタスクを同時に実行することができる。 我々は,この現象を様々なLLMファミリーやスケールで実証的に証明し,この現象が一度に1つのタスクをインコンテキストで学習するようにモデルを訓練しても,その現象が現れることを示す。 我々はこの能力が変圧器の表現力の範囲内にあるという理論的説明を提供する。 また、重ね合わせ中にLCMが内部的にタスクベクトルを構成する方法についても検討する。 さらに、より大規模なモデルでは、より多くのICLタスクを並列に解決し、出力分布のキャリブレーションを向上できることを示す。 本研究は,LCMの潜伏能力に関する知見を提供し,シミュレータの重ね合わせとしてのLLMの視点をさらに裏付けるとともに,同時タスク実行を可能にするメカニズムに関する疑問を提起する。

Large Language Models (LLMs) have demonstrated remarkable in-context learning (ICL) capabilities. In this study, we explore a surprising phenomenon related to ICL: LLMs can perform multiple, computationally distinct ICL tasks simultaneously, during a single inference call, a capability we term "task superposition". We provide empirical evidence of this phenomenon across various LLM families and scales and show that this phenomenon emerges even if we train the model to in-context learn one task at a time. We offer theoretical explanations that this capability is well within the expressive power of transformers. We also explore how LLMs internally compose task vectors during superposition. Furthermore, we show that larger models can solve more ICL tasks in parallel, and better calibrate their output distribution. Our findings offer insights into the latent capabilities of LLMs, further substantiate the perspective of "LLMs as superposition of simulators", and raise questions about the mechanisms enabling simultaneous task execution.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# 低エネルギー構造構成の発見の加速--第一原理計算、モンテカルロサンプリング、機械学習を統合した計算手法

Accelerating the discovery of low-energy structure configurations: a computational approach that integrates first-principles calculations, Monte Carlo sampling, and Machine Learning ( http://arxiv.org/abs/2410.05604v1 )

ライセンス: Link先を確認
Md Rajib Khan Musa, Yichen Qian, Jie Peng, David Cereceda, (参考訳) 最小エネルギー構成(MECs)の発見は、物理学、化学、材料科学などの分野において必要不可欠であり、システムの最も安定した状態を表す。 特に、候補PFMと考えられる多成分合金中のそのようなMECの同定は、その相安定性、構造的整合性、および熱力学的性質に直接影響し、合金内の原子の最も安定な配置を決定するために重要である。 しかし、探索空間は考慮された原子数とともに指数関数的に増加するため、計算コストのかかる第一原理DFT計算を用いてそのようなMECを得るのは、しばしば面倒な作業となる。 上記の物理忠実度と計算効率の妥協を避けるために,モンテカルロサンプリング,第一原理DFT計算,機械学習を組み合わせて多成分合金におけるMECの発見を加速する物理に基づく新しいデータ駆動手法を開発した。 具体的には、よく確立されたクラスタ拡張(CE)手法をローカル・アウトレイヤ・ファクターモデルで活用し、CE法の信頼性を高める戦略を確立した。 本研究では,タングステン系4元系高エントロピー合金の特殊事例に対する提案手法の有効性を実証した。 しかし、この方法は他の種類の合金にも適用でき、幅広い応用が可能となる。

Finding Minimum Energy Configurations (MECs) is essential in fields such as physics, chemistry, and materials science, as they represent the most stable states of the systems. In particular, identifying such MECs in multi-component alloys considered candidate PFMs is key because it determines the most stable arrangement of atoms within the alloy, directly influencing its phase stability, structural integrity, and thermo-mechanical properties. However, since the search space grows exponentially with the number of atoms considered, obtaining such MECs using computationally expensive first-principles DFT calculations often results in a cumbersome task. To escape the above compromise between physical fidelity and computational efficiency, we have developed a novel physics-based data-driven approach that combines Monte Carlo sampling, first-principles DFT calculations, and Machine Learning to accelerate the discovery of MECs in multi-component alloys. More specifically, we have leveraged well-established Cluster Expansion (CE) techniques with Local Outlier Factor models to establish strategies that enhance the reliability of the CE method. In this work, we demonstrated the capabilities of the proposed approach for the particular case of a tungsten-based quaternary high-entropy alloy. However, the method is applicable to other types of alloys and enables a wide range of applications.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# CodeDPO: 自己生成および検証されたソースコードでコードモデルを調整する

CodeDPO: Aligning Code Models with Self Generated and Verified Source Code ( http://arxiv.org/abs/2410.05605v1 )

ライセンス: Link先を確認
Kechi Zhang, Ge Li, Yihong Dong, Jingjing Xu, Jun Zhang, Jing Su, Yongfei Liu, Zhi Jin, (参考訳) コード生成モデルは、プログラミングタスクに大きな可能性を示している。 しかし、教師付き微調整のような既存のトレーニング手法では、曖昧な状況で正しい解決策を優先するようモデルに効果的に教えたり、生成されたコードの実行効率を効果的に最適化したりしない。 これらの課題に対処するため,コード生成に優先学習を統合するフレームワークであるCodeDPOを提案する。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。 根底にある前提は、複数のコードスニペットによって実行可能なテストケースはより信頼性の高いバリデーションを提供し、より多くのテストに合格するコードはより正しい可能性が高い、ということである。 この自己検証プロセスを通じて、PageRankにインスパイアされたアルゴリズムは、各コードスニペットのランキングスコアを反復的に更新し、最終的に正確性と効率に基づいたコード優先最適化データセットを作成します。 CodeDPOは柔軟でスケーラブルで、外部リソースに依存しない多様な好みの最適化データを生成する。 広く使用されている5つのベンチマークの総合的な評価を通じて、CodeDPOは既存の方法と比較して精度と効率が大幅に向上したことを示した。 我々の実験は、コード生成におけるLLMの機能を強化し、より複雑で挑戦的な現実のシナリオでコード優先の最適化を行うための堅牢な基盤を提供することを示した。

Code generation models have shown significant potential for programming tasks. However, existing training methods like supervised fine-tuning face key limitations: they do not effectively teach models to prioritize correct over incorrect solutions in ambiguous situations, nor do they effectively optimize the runtime efficiency of the generated code. To address these challenges, we propose CodeDPO, a framework that integrates preference learning into code generation to improve two key code preference factors: code correctness and efficiency. CodeDPO employs a novel dataset construction method, utilizing a self-generation-and-validation mechanism that simultaneously generates and evaluates code and test cases. The underlying assumption is that test cases executable by multiple code snippets provide more reliable validation, and code that passes more tests is more likely to be correct. Through this self-validation process, our PageRank-inspired algorithm iteratively updates the ranking score of each code snippet, ultimately creating a code preference optimization dataset based on correctness and efficiency. CodeDPO is flexible and scalable, generating diverse preference optimization data without depending on external resources. Through comprehensive evaluations of five widely used benchmarks, CodeDPO demonstrates significant improvements in correctness and efficiency compared to existing methods. Our experiments prove that CodeDPO enhances the capabilities of LLMs in code generation and provides a robust foundation for conducting code preference optimization in more complex and challenging real-world scenarios.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# マルチモーダルな大規模言語モデルとチューニング:ビジョン、言語、センサー、オーディオなど

Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond ( http://arxiv.org/abs/2410.05608v1 )

ライセンス: Link先を確認
Soyeon Caren Han, Feiqi Cao, Josiah Poon, Roberto Navigli, (参考訳) このチュートリアルでは、テキスト、画像、オーディオ、ビデオなどの多様なデータフォームの統合と処理が可能な、マルチモーダル事前訓練および大規模モデルの最近の進歩を探求する。 参加者は、マルチモーダルの基本的な概念、マルチモーダル研究の進化、そしてこれらのモデルによって対処される重要な技術的課題を理解することができる。 最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。 さらに、チュートリアルでは、マルチモーダルな大規模モデルと、特定のタスクのパフォーマンスを最適化するための命令チューニング戦略の複雑さを掘り下げている。 ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な体験を提供し、ビジュアルストーリーテリングや視覚的質問応答のような現実世界の応用を実証する。 このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。 ACM Multimedia 2024はこのチュートリアルの理想的な会場であり、マルチモーダル事前学習および大規模言語モデルとそのチューニングメカニズムを理解するという私たちの目標と完全に一致しています。

This tutorial explores recent advancements in multimodal pretrained and large models, capable of integrating and processing diverse data forms such as text, images, audio, and video. Participants will gain an understanding of the foundational concepts of multimodality, the evolution of multimodal research, and the key technical challenges addressed by these models. We will cover the latest multimodal datasets and pretrained models, including those beyond vision and language. Additionally, the tutorial will delve into the intricacies of multimodal large models and instruction tuning strategies to optimise performance for specific tasks. Hands-on laboratories will offer practical experience with state-of-the-art multimodal models, demonstrating real-world applications like visual storytelling and visual question answering. This tutorial aims to equip researchers, practitioners, and newcomers with the knowledge and skills to leverage multimodal AI. ACM Multimedia 2024 is the ideal venue for this tutorial, aligning perfectly with our goal of understanding multimodal pretrained and large language models, and their tuning mechanisms.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# 高次元混合の分類におけるガウス普遍性の破壊

The Breakdown of Gaussian Universality in Classification of High-dimensional Mixtures ( http://arxiv.org/abs/2410.05609v1 )

ライセンス: Link先を確認
Xiaoyi Mai, Zhenyu Liao, (参考訳) ガウシアンまたはガウシアン混合データの仮定は、多数のサンプルと特徴を持つ大規模データセット上で、機械学習(ML)手法の一連の正確な性能解析において、広範囲に利用されてきた。 この制限的な仮定を緩和するために、その後の努力は、非ガウス的データに対するML手法の漸近的な性能が、同じ平均と共分散を持つガウス的データに置き換えられたときに変化しないガウス的普遍性のシナリオを研究することで「ガウス的同値原理」を確立することに費やされている。 ガウスの普遍性の領域以外にも、データ分布が学習性能にどのように影響するかに関する正確な結果はほとんどない。 本稿では,ガウス混合を拡張した線形因子モデルの一般混合データ設定に基づく分類において,経験的リスク最小化の高精度な高次元評価を行う。 ガウスの普遍性は、漸近的学習性能がクラス平均と共分散を超えたデータ分布に依存するという意味で、この設定の下で崩壊することが示されている。 混合データの分類におけるガウス普遍性の限界を明確にし、その分解の影響を理解するために、ガウス普遍性の条件を規定し、損失関数の選択におけるガウス普遍性の意義について議論する。

The assumption of Gaussian or Gaussian mixture data has been extensively exploited in a long series of precise performance analyses of machine learning (ML) methods, on large datasets having comparably numerous samples and features. To relax this restrictive assumption, subsequent efforts have been devoted to establish "Gaussian equivalent principles" by studying scenarios of Gaussian universality where the asymptotic performance of ML methods on non-Gaussian data remains unchanged when replaced with Gaussian data having the same mean and covariance. Beyond the realm of Gaussian universality, there are few exact results on how the data distribution affects the learning performance. In this article, we provide a precise high-dimensional characterization of empirical risk minimization, for classification under a general mixture data setting of linear factor models that extends Gaussian mixtures. The Gaussian universality is shown to break down under this setting, in the sense that the asymptotic learning performance depends on the data distribution beyond the class means and covariances. To clarify the limitations of Gaussian universality in classification of mixture data and to understand the impact of its breakdown, we specify conditions for Gaussian universality and discuss their implications for the choice of loss function.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# 分子理解のためのチェーン・オブ・ソート

Chain-of-Thoughts for Molecular Understanding ( http://arxiv.org/abs/2410.05610v1 )

ライセンス: Link先を確認
Yunhui Jang, Jaehyung Kim, Sungsoo Ahn, (参考訳) 大規模言語モデル(LLM)の化学への適応は、分子からテキスト記述を生成するなど、分子理解タスクにおいて有望な性能を示した。 しかし、分子構造情報に基づく適切な推論は重要な課題であり、例えば、GPT-4oのような先進的なLCMでさえ、興味の分子特性を推測するのに重要な機能群を特定するのに苦労している。 この制限に対処するため,分子の構造的特徴を明示的に注入することにより,LLMの分子構造理解を高める構造認識チェーン・オブ・シント(CoT)であるStructCoTを提案する。 さらに,既存のLLMをStructCoTに適合させるための2つの微調整フレームワークについても紹介する。 我々の実験は、StructCoTを微調整フレームワークに組み込むことで、分子理解タスクの一貫性が向上することを示した。

The adaptation of large language models (LLMs) to chemistry has shown promising performance in molecular understanding tasks, such as generating a text description from a molecule. However, proper reasoning based on molecular structural information remains a significant challenge, e.g., even advanced LLMs such as GPT-4o struggle to identify functional groups which are crucial for inferring the molecular property of interest. To address this limitation, we propose StructCoT, a structure-aware chain-of-thought (CoT) that enhances LLMs' understanding of molecular structures by explicitly injecting the key structural features of molecules. Moreover, we introduce two fine-tuning frameworks for adapting the existing LLMs to use our StructCoT. Our experiments demonstrate that incorporating StructCoT with our fine-tuning frameworks leads to consistent improvements in both molecular understanding tasks.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# 微調整改善のための事前学習モデル選択における自由エネルギーの活用

Leveraging free energy in pretraining model selection for improved fine-tuning ( http://arxiv.org/abs/2410.05612v1 )

ライセンス: Link先を確認
Michael Munn, Susan Wei, (参考訳) 人工知能の最近の進歩は、BERT、GPT、T5、Vision Transformersといった基礎モデルの開発によって加速されている。 これらのモデルは、最初は広範囲で多様なデータセットで事前訓練され、その後、データ量が大幅に少ない特定の下流タスクに適応する。 しかし、このユビキタス・プレトレイン・アダプティブ・パラダイムの成功のメカニズムは、特に下流適応に寄与する事前訓練チェックポイントの特性について、未解明のままである。 我々は、下流自由エネルギーと呼ばれるベイズモデル選択基準を導入し、下流タスクの近傍で好ましいパラメータの濃度を測定することによってチェックポイントの適応性を定量化する。 我々は,この自由エネルギー基準を,下流データや下流タスクの事前知識にアクセスせずに効果的に実装できることを実証した。 さらに、自由エネルギー基準が微調整性能の向上と確実に相関し、モデル適応性を予測するための原則的アプローチを提供するという実証的証拠を提供する。

Recent advances in artificial intelligence have been fueled by the development of foundation models such as BERT, GPT, T5, and Vision Transformers. These models are first pretrained on vast and diverse datasets and then adapted to specific downstream tasks, often with significantly less data. However, the mechanisms behind the success of this ubiquitous pretrain-then-adapt paradigm remain underexplored, particularly the characteristics of pretraining checkpoints that lend themselves to good downstream adaptation. We introduce a Bayesian model selection criterion, called the downstream free energy, which quantifies a checkpoint's adaptability by measuring the concentration of nearby favorable parameters for the downstream task. We demonstrate that this free energy criterion can be effectively implemented without access to the downstream data or prior knowledge of the downstream task. Furthermore, we provide empirical evidence that the free energy criterion reliably correlates with improved fine-tuning performance, offering a principled approach to predicting model adaptability.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# ステレオタイプかパーソナライズか? : ユーザアイデンティティがチャットボットの推薦を補助する

Stereotype or Personalization? User Identity Biases Chatbot Recommendations ( http://arxiv.org/abs/2410.05613v1 )

ライセンス: Link先を確認
Anjali Kantharuban, Jeremiah Milbauer, Emma Strubell, Graham Neubig, (参考訳) 大規模言語モデル(LLM)を用いてレコメンデーションを生成すると、LLMはユーザが望むものとユーザが誰であるかの両方を反映した応答を生成する。 パーソナライズされたレコメンデーションはしばしばユーザによって望まれるが、偏見のケースとパーソナライズされたケースを区別することは困難である。 チャットボットは、ユーザーが明らかにしたアイデンティティの特徴によって、いつレコメンデーションが影響されるかを透過的に示すべきであるが、現在そうしていないことを観察すべきである、と我々は主張する。 実験の結果, ユーザの識別がモデルレコメンデーション(p < 0.001)に大きく影響しているにもかかわらず, モデル応答はユーザクエリに応答して, この事実を曖昧にすることがわかった。 このバイアスと透明性の欠如は、複数の一般消費者LCM(gpt-4o-mini, gpt-4-turbo, llama-3-70B, claude-3.5)と4つの人種グループで一貫して起こる。

We demonstrate that when people use large language models (LLMs) to generate recommendations, the LLMs produce responses that reflect both what the user wants and who the user is. While personalized recommendations are often desired by users, it can be difficult in practice to distinguish cases of bias from cases of personalization: we find that models generate racially stereotypical recommendations regardless of whether the user revealed their identity intentionally through explicit indications or unintentionally through implicit cues. We argue that chatbots ought to transparently indicate when recommendations are influenced by a user's revealed identity characteristics, but observe that they currently fail to do so. Our experiments show that even though a user's revealed identity significantly influences model recommendations (p < 0.001), model responses obfuscate this fact in response to user queries. This bias and lack of transparency occurs consistently across multiple popular consumer LLMs (gpt-4o-mini, gpt-4-turbo, llama-3-70B, and claude-3.5) and for four American racial groups.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# ビジョンマンバとマルチスケールマルチ周波数特徴融合を用いたリモートセンシング画像分割

Remote Sensing Image Segmentation Using Vision Mamba and Multi-Scale Multi-Frequency Feature Fusion ( http://arxiv.org/abs/2410.05624v1 )

ライセンス: Link先を確認
Yice Cao, Chenchen Liu, Zhenhua Wu, Wenxin Yao, Liu Xiong, Jie Chen, Zhixiang Huang, (参考訳) リモートセンシング技術が進歩し進化を続けるにつれて、高解像度で多様化した衛星画像の処理により、セグメンテーション精度が向上し、リモートセンシングの領域における調査の重要領域としての解釈効率が向上する。 CNNとTransformerをベースとしたセグメンテーションアルゴリズムは性能が大幅に向上するが、セグメンテーションの精度と計算の複雑さのバランスをとることは依然として困難であり、実践的なタスクにおける幅広い応用を制限している。 そこで本稿では、状態空間モデル(SSM)を導入し、視覚マンバ(CVMH-UNet)に基づく新しいハイブリッドセマンティックセマンティックネットワークを提案する。 本手法は,地域情報取得におけるビジョン・マンバ(VMamba)の制約を克服するために,畳み込みニューラルネットワークのブランチを組み込んで,クロス2Dスキャン(CS2D)を用いて複数の方向からグローバル情報をフルに取得する,クロススキャン型ビジュアルステート・スペースブロック(CVSSBlock)を設計する。 さらに,識別能力の制限と直接スキップ接続による詳細融合の難しさに対処するため,マルチ周波数マルチスケール機能融合ブロック (MFMSBlock) を設計した。 本モジュールは2次元離散コサイン変換(2D DCT)による多周波情報を導入し,情報利用の促進と,ポイントワイド・コンボリューション・ブランチによる局所的詳細情報の追加を提供する。 最後に、チャネル次元に沿ってマルチスケール情報を集約し、洗練された特徴融合を実現する。 リモートセンシング画像の有名なデータセットで実施された実験から、提案されたCVMH-UNetは、計算複雑性を低く保ちながら、より優れたセグメンテーション性能を達成し、現在の最先端セグメンテーションアルゴリズムを上回る性能を発揮することを示した。

As remote sensing imaging technology continues to advance and evolve, processing high-resolution and diversified satellite imagery to improve segmentation accuracy and enhance interpretation efficiency emerg as a pivotal area of investigation within the realm of remote sensing. Although segmentation algorithms based on CNNs and Transformers achieve significant progress in performance, balancing segmentation accuracy and computational complexity remains challenging, limiting their wide application in practical tasks. To address this, this paper introduces state space model (SSM) and proposes a novel hybrid semantic segmentation network based on vision Mamba (CVMH-UNet). This method designs a cross-scanning visual state space block (CVSSBlock) that uses cross 2D scanning (CS2D) to fully capture global information from multiple directions, while by incorporating convolutional neural network branches to overcome the constraints of Vision Mamba (VMamba) in acquiring local information, this approach facilitates a comprehensive analysis of both global and local features. Furthermore, to address the issue of limited discriminative power and the difficulty in achieving detailed fusion with direct skip connections, a multi-frequency multi-scale feature fusion block (MFMSBlock) is designed. This module introduces multi-frequency information through 2D discrete cosine transform (2D DCT) to enhance information utilization and provides additional scale local detail information through point-wise convolution branches. Finally, it aggregates multi-scale information along the channel dimension, achieving refined feature fusion. Findings from experiments conducted on renowned datasets of remote sensing imagery demonstrate that proposed CVMH-UNet achieves superior segmentation performance while maintaining low computational complexity, outperforming surpassing current leading-edge segmentation algorithms.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# 離散時間結晶センシング

Discrete Time Crystal Sensing ( http://arxiv.org/abs/2410.05625v1 )

ライセンス: Link先を確認
Leo Joon Il Moon, Paul M. Schindler, Ryan J. Smith, Emanuel Druga, Zhuo-Rui Zhang, Marin Bukov, Ashok Ajoy, (参考訳) 前熱離散時間結晶(PDTCs)は、長周期時相秩序を特徴とする物質の非平衡状態であり、周期的駆動下での多体相互作用によって安定化されたサブハーモニック応答を示す。 駆動プロトコルにおける摂動に対する時間結晶秩序の固有のロバスト性により、DTCは量子技術への応用に期待できる。 ダイヤモンド中の強駆動型双極子結合型13C核スピン系における時間変化(AC)磁界に対する高周波数選択型量子センサを考案するために,PDTCの次数偏差に対するPDTCの感受性を利用する。 PDTCに時間変化の交流場を組み込むことで、その寿命を指数関数的に増加させ、最大3桁(44,204サイクル)の改善を計測し、時間結晶秩序パラメータの強い共鳴応答をもたらす。 我々のセンサーの直線幅はPDTCの寿命だけで制限されており、強いスピン間相互作用はDTCの順序を安定させる。 センサーは0.5-50kHzの範囲で動作し、原子蒸気や電子スピンに基づくセンサーの盲点であり、競争感度が向上する。 PDTCセンサーは、駆動プロトコルの誤差やサンプルの不均一性に耐性があり、物理プラットフォームのマクロ的な詳細に非依存である:基礎となる物理原理は超伝導量子ビット、中性原子、イオンの閉じ込めにも等しく適用される。

Prethermal discrete time crystals (PDTCs) are a nonequilibrium state of matter characterized by long-range spatiotemporal order, and exhibiting a subharmonic response stabilized by many-body interactions under periodic driving. The inherent robustness of time crystalline order to perturbations in the drive protocol makes DTCs promising for applications in quantum technologies. We exploit the susceptibility of PDTC order to deviations in its order parameter to devise highly frequency-selective quantum sensors for time-varying (AC) magnetic fields in a system of strongly-driven, dipolar-coupled 13C nuclear spins in diamond. Integrating a time-varying AC field into the PDTC allows us to exponentially increase its lifetime, measuring improvement of up to three orders of magnitude (44,204 cycles), and results in a strong resonant response in the time crystalline order parameter. The linewidth of our sensor is limited by the PDTC lifetime alone, as strong interspin interactions help stabilize DTC order. The sensor operates in the 0.5-50 kHz range - a blind spot for sensors based on atomic vapor or electronic spins - and attains a competitive sensitivity. PDTC sensors are resilient to errors in the drive protocol and sample inhomogeneities, and are agnostic to the macroscopic details of the physical platform: the underlying physical principle applies equally to superconducting qubits, neutral atoms, and trapped ions.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# ニューラルタンジェントカーネル理論におけるランダム初期化の影響について

On the Impacts of the Random Initialization in the Neural Tangent Kernel Theory ( http://arxiv.org/abs/2410.05626v1 )

ライセンス: Link先を確認
Guhan Chen, Yicheng Li, Qian Lin, (参考訳) 本稿では,ニューラル・タンジェント・カーネル(NTK)理論におけるニューラルネットワークのランダム初期化の影響について論じる。 ネットワークの幅が無限大になる傾向があるため、ランダム初期化を伴うニューラルネットワークはガウス過程$f^{\mathrm{GP}}$に収束し、$L^{2}(\mathcal{X})$で値を取る。 対照的に、カーネルレグレッションの伝統的な理論を採用するために、最近の研究は、ネットワークの出力が初期化時に全くゼロであることを保証するために、特別なミラー化されたアーキテクチャとミラー化された(ランダム)初期化を導入した。 したがって、従来の設定とミラー化初期化によって、広範囲のニューラルネットワークが異なる一般化能力を示すかどうかには疑問が残る。 本稿では、まず、ランダム初期化を伴うニューラルネットワークの勾配流のトレーニングダイナミクスを、ランダム初期化$f^{\mathrm{GP}}$で対応するNTK回帰のトレーニングダイナミクスに均一に収束することを示す。 すると、$\mathbf{P}(f^{\mathrm{GP}} \in [\mathcal{H}^{\mathrm{NT}}]^{s}) = 1$ for any $s < \frac{3}{d+1}$ and $\mathbf{P}(f^{\mathrm{GP}} \in [\mathcal{H}^{\mathrm{NT}}]^{s}) = 0$ for any $s \geq \frac{3}{d+1}$。 したがって、勾配降下によって訓練された広いニューラルネットワークの一般化誤差は$\Omega(n^{-\frac{3}{d+3}})$であり、それでも次元の呪いに悩まされている。 一方、この結果はミラー初期化の利点を強調している。 一方、NTK理論はニューラルネットワークの優れた性能を完全に説明できない可能性がある。

This paper aims to discuss the impact of random initialization of neural networks in the neural tangent kernel (NTK) theory, which is ignored by most recent works in the NTK theory. It is well known that as the network's width tends to infinity, the neural network with random initialization converges to a Gaussian process $f^{\mathrm{GP}}$, which takes values in $L^{2}(\mathcal{X})$, where $\mathcal{X}$ is the domain of the data. In contrast, to adopt the traditional theory of kernel regression, most recent works introduced a special mirrored architecture and a mirrored (random) initialization to ensure the network's output is identically zero at initialization. Therefore, it remains a question whether the conventional setting and mirrored initialization would make wide neural networks exhibit different generalization capabilities. In this paper, we first show that the training dynamics of the gradient flow of neural networks with random initialization converge uniformly to that of the corresponding NTK regression with random initialization $f^{\mathrm{GP}}$. We then show that $\mathbf{P}(f^{\mathrm{GP}} \in [\mathcal{H}^{\mathrm{NT}}]^{s}) = 1$ for any $s < \frac{3}{d+1}$ and $\mathbf{P}(f^{\mathrm{GP}} \in [\mathcal{H}^{\mathrm{NT}}]^{s}) = 0$ for any $s \geq \frac{3}{d+1}$, where $[\mathcal{H}^{\mathrm{NT}}]^{s}$ is the real interpolation space of the RKHS $\mathcal{H}^{\mathrm{NT}}$ associated with the NTK. Consequently, the generalization error of the wide neural network trained by gradient descent is $\Omega(n^{-\frac{3}{d+3}})$, and it still suffers from the curse of dimensionality. On one hand, the result highlights the benefits of mirror initialization. On the other hand, it implies that NTK theory may not fully explain the superior performance of neural networks.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# CLOSER:Few-Shot Class-Incremental Learningのための表現学習の改善を目指して

CLOSER: Towards Better Representation Learning for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2410.05627v1 )

ライセンス: Link先を確認
Junghun Oh, Sungyong Baik, Kyoung Mu Lee, (参考訳) 基本クラス(旧クラス)の知識を保ちながら、少数のサンプルで新しいクラスを漸進的に学習することを目的として、クラス増分学習(FSCIL)は、過度な適合や破滅的な忘れ込みなど、いくつかの課題に直面している。 このような困難な問題は、オーバーフィッティングや忘れることによる有害な影響を減らすために、ベースクラスで訓練された特徴抽出器を修正することで解決されることが多い。 このような定式化の下では、FSCILの独特な課題、同時に学習表現の伝達可能性と識別可能性を達成するために、ベースクラスでの表現学習に重点を置いている。 機能の普及促進など,近年の伝達可能性向上の取り組みに基づき,より制限された特徴空間内での機能拡充を確保することで,学習された表現が伝達可能性と識別可能性のバランスを良くすることを示す。 したがって、クラス間距離を最大化すべきという以前の信念とは対照的に、より近いクラスは FSCIL の方が優れていると主張する。 情報ボトルネック理論の観点からの実証的な結果と分析は、我々の単純で一見直観に反する表現学習法を正当化し、研究の疑問を提起し、代替研究の方向性を提案する。 コードはhttps://github.com/JungHunOh/CLOSER_ECCV2024で公開されている。

Aiming to incrementally learn new classes with only few samples while preserving the knowledge of base (old) classes, few-shot class-incremental learning (FSCIL) faces several challenges, such as overfitting and catastrophic forgetting. Such a challenging problem is often tackled by fixing a feature extractor trained on base classes to reduce the adverse effects of overfitting and forgetting. Under such formulation, our primary focus is representation learning on base classes to tackle the unique challenge of FSCIL: simultaneously achieving the transferability and the discriminability of the learned representation. Building upon the recent efforts for enhancing transferability, such as promoting the spread of features, we find that trying to secure the spread of features within a more confined feature space enables the learned representation to strike a better balance between transferability and discriminability. Thus, in stark contrast to prior beliefs that the inter-class distance should be maximized, we claim that the closer different classes are, the better for FSCIL. The empirical results and analysis from the perspective of information bottleneck theory justify our simple yet seemingly counter-intuitive representation learning method, raising research questions and suggesting alternative research directions. The code is available at https://github.com/JungHunOh/CLOSER_ECCV2024.
翻訳日:2024-11-01 17:38:51 公開日:2024-10-08
# Vector-ICL:連続ベクトル表現を用いたコンテキスト内学習

Vector-ICL: In-context Learning with Continuous Vector Representations ( http://arxiv.org/abs/2410.05629v1 )

ライセンス: Link先を確認
Yufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao, (参考訳) 大規模言語モデル(LLM)は、テキストデータに顕著なコンテキスト内学習(ICL)能力を示す。 ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。 入力データを軽量プロジェクタを介してLLMの埋め込み空間と整列させることにより、LLMがこれらの射影ベクトルを効果的に処理し、学習し、Vector-ICLと呼ぶ。 特に、汎用言語モデリングの目的を持った事前学習プロジェクタがVector-ICLを実現するのに対して、タスク固有の微調整はパフォーマンスをさらに向上させる。 テキスト再構成,数値関数回帰,テキスト分類,要約,分子キャプション,時系列分類,グラフ分類,fMRI復号化など,さまざまなタスクやモダリティに関する実験において,Vector-ICLは少数ショットICLやドメイン固有モデル,チューニングを超越することが多い。 さらに分析とケーススタディを行い、従来のトークンベースのパラダイムを超えてベクトル表現を処理するLLMの可能性を示す。

Large language models (LLMs) have shown remarkable in-context learning (ICL) capabilities on textual data. We explore whether these capabilities can be extended to continuous vectors from diverse domains, obtained from black-box pretrained encoders. By aligning input data with an LLM's embedding space through lightweight projectors, we observe that LLMs can effectively process and learn from these projected vectors, which we term Vector-ICL. In particular, we find that pretraining projectors with general language modeling objectives enables Vector-ICL, while task-specific finetuning further enhances performance. In our experiments across various tasks and modalities, including text reconstruction, numerical function regression, text classification, summarization, molecule captioning, time-series classification, graph classification, and fMRI decoding, Vector-ICL often surpasses both few-shot ICL and domain-specific model or tuning. We further conduct analyses and case studies, indicating the potential of LLMs to process vector representations beyond traditional token-based paradigms.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# ガーナのインフレをナビゲートする - 機械学習が経済安定と成長戦略をいかに促進させるか

Navigating Inflation in Ghana: How Can Machine Learning Enhance Economic Stability and Growth Strategies ( http://arxiv.org/abs/2410.05630v1 )

ライセンス: Link先を確認
Theophilus G. Baidoo, Ashley Obeng, (参考訳) インフレは多くのアフリカ諸国にとって永続的な課題である。 本研究は、ガーナにおけるインフレの理解と管理における機械学習(ML)の重要性を考察し、同国の経済安定と成長におけるその重要性を強調した。 この研究は、2010年から2022年までの包括的なデータセットを利用して、先進的なMLモデル、特に時系列予測に精通したモデルを用いて、将来のインフレ動向を予測することを目的としている。 この手法は、正確で信頼性の高いインフレ予測を提供することを目的としており、政策立案者に貴重な洞察を提供し、経済意思決定におけるデータ駆動アプローチへの移行を提唱している。 本研究は、機械学習(ML)を適用し、先進的な技術ツールを経済ガバナンスに統合するための実践的ガイダンスを提供することにより、学術的な経済分析分野を著しく発展させることを目的としており、最終的には、ガーナの経済回復力を高め、効果的なインフレーション管理を通じて持続可能な開発を支援するMLの可能性を示す。

Inflation remains a persistent challenge for many African countries. This research investigates the critical role of machine learning (ML) in understanding and managing inflation in Ghana, emphasizing its significance for the country's economic stability and growth. Utilizing a comprehensive dataset spanning from 2010 to 2022, the study aims to employ advanced ML models, particularly those adept in time series forecasting, to predict future inflation trends. The methodology is designed to provide accurate and reliable inflation forecasts, offering valuable insights for policymakers and advocating for a shift towards data-driven approaches in economic decision-making. This study aims to significantly advance the academic field of economic analysis by applying machine learning (ML) and offering practical guidance for integrating advanced technological tools into economic governance, ultimately demonstrating ML's potential to enhance Ghana's economic resilience and support sustainable development through effective inflation management.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# 静的なオブジェクトを受け入れる: オープンソースのJavaフレームワークにおけるメソッドの優先度の分析

Embracing Objects Over Statics: An Analysis of Method Preferences in Open Source Java Frameworks ( http://arxiv.org/abs/2410.05631v1 )

ライセンス: Link先を確認
Vladimir Zakharov, Yegor Bugayenko, (参考訳) 今日のソフトウェア開発の世界では、Javaアプリケーションがオブジェクト指向プログラミングパラダイムを利用する程度は、依然として関心の対象となっている。 オブジェクト指向にまつわるかなりのオーバーヘッドを指摘する研究もあるが、現代のJavaアプリケーションは、パフォーマンスを高めるために手続き的なスタイルに傾き、インスタンスメソッド呼び出しよりも静的に振る舞うと論理的に仮定するかもしれない。 この仮定を検証するため、この研究では、YourKitプロファイラを使用して、28のオープンソースJavaフレームワークのランタイム動作を精査する。 予測とは対照的に,静的メソッドに対するインスタンスメソッドやコンストラクタの利用が圧倒的に多いことが判明した。 これは、潜在的な欠点にもかかわらず、開発者がまだオブジェクト指向アプローチを好んでいることを示唆している。

In today's software development landscape, the extent to which Java applications utilize object-oriented programming paradigm remains a subject of interest. Although some researches point to the considerable overhead associated with object orientation, one might logically assume that modern Java applications would lean towards a procedural style to boost performance, favoring static over instance method calls. In order to validate this assumption, this study scrutinizes the runtime behavior of 28 open-source Java frameworks using the YourKit profiler. Contrary to expectations, our findings reveal a predominant use of instance methods and constructors over static methods. This suggests that developers still favor an object-oriented approach, despite its potential drawbacks.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# 行列時系列CP因子モデルの同定と推定

Identification and estimation for matrix time series CP-factor models ( http://arxiv.org/abs/2410.05634v1 )

ライセンス: Link先を確認
Jinyuan Chang, Yue Du, Guanglin Huang, Qiwei Yao, (参考訳) 行列時系列CP因子モデルの同定と推定について検討する。 一般化された固有解析に基づくChange et al (2023) の手法とは異なり、新たに提案された推定法は、階数不足な階数負荷行列を扱える。 推定手順は, 行列のスペクトル分解と行列関節対角化アルゴリズムから成り, 計算コストが低い。 定常性仮定なしで確立された理論的保証は、提案された推定値が Chang et al (2023) よりも高速な収束率を示すことを示している。 実際、新しい推定器は、Chang et al (2023)のようなほとんどの固有解析に基づく方法とは異なり、任意の固有ギャップの悪影響を受けない。 さらに、推定の誤差率の観点からは、提案された手順は、$(p, q)$が関連する行列時系列の次元であるような$p \times q$の代わりに、次元$\max(p,q)$のベクトル時系列を扱うことと等価である。 我々は、CP-分解文学においてしばしば課される様々な不整合条件下での積み込みの「近く直交性」を仮定することなく、これを達成してきた。 シミュレーションおよび実行列時系列データによる図解は,提案手法の有用性を示す。

We investigate the identification and the estimation for matrix time series CP-factor models. Unlike the generalized eigenanalysis-based method of Chang et al. (2023) which requires the two factor loading matrices to be full-ranked, the newly proposed estimation can handle rank-deficient factor loading matrices. The estimation procedure consists of the spectral decomposition of several matrices and a matrix joint diagonalization algorithm, resulting in low computational cost. The theoretical guarantee established without the stationarity assumption shows that the proposed estimation exhibits a faster convergence rate than that of Chang et al. (2023). In fact the new estimator is free from the adverse impact of any eigen-gaps, unlike most eigenanalysis-based methods such as that of Chang et al. (2023). Furthermore, in terms of the error rates of the estimation, the proposed procedure is equivalent to handling a vector time series of dimension $\max(p,q)$ instead of $p \times q$, where $(p, q)$ are the dimensions of the matrix time series concerned. We have achieved this without assuming the "near orthogonality" of the loadings under various incoherence conditions often imposed in the CP-decomposition literature, see Han and Zhang (2022), Han et al. (2024) and the references within. Illustration with both simulated and real matrix time series data shows the usefulness of the proposed approach.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# フェデレーションニューラル非パラメトリックポイントプロセス

Federated Neural Nonparametric Point Processes ( http://arxiv.org/abs/2410.05637v1 )

ライセンス: Link先を確認
Hui Chen, Hengyu Liu, Yaqiong Li, Xuhui Fan, Zhilin Zhao, Feng Zhou, Christopher John Quinn, Longbing Cao, (参考訳) 時間的ポイントプロセス(TPP)は、時間とともにイベントの発生をモデル化するのに有効であるが、プライバシが大きな関心事であるフェデレーションシステムにおいて、スパースで不確実なイベントに苦しむ。 これを解決するために、フェデレートされたニューラル非パラメトリックポイントプロセスモデルである \textit{FedPP} を提案する。 FedPPは、クライアント側のSigmoidal Gaussian Cox Processs(SGCP)に神経埋め込みを統合する。これは柔軟で表現力のあるTPPのクラスである。 グローバルアグリゲーションには、プライバシとパーソナライゼーションを確保するために、クライアント固有のパラメータをローカルに保ちながら、サーバとクライアント間のSGCPのカーネルハイパーパラメータの分散を通信する、分散ベースのメカニズムが導入されている。 FedPPは、事象の不確実性とスパーシリティを効果的に捉え、特にKL発散とワッサーシュタイン距離に基づくグローバルアグリゲーションにおいて、フェデレーション環境での優れた性能を示す広範な実験を行った。

Temporal point processes (TPPs) are effective for modeling event occurrences over time, but they struggle with sparse and uncertain events in federated systems, where privacy is a major concern. To address this, we propose \textit{FedPP}, a Federated neural nonparametric Point Process model. FedPP integrates neural embeddings into Sigmoidal Gaussian Cox Processes (SGCPs) on the client side, which is a flexible and expressive class of TPPs, allowing it to generate highly flexible intensity functions that capture client-specific event dynamics and uncertainties while efficiently summarizing historical records. For global aggregation, FedPP introduces a divergence-based mechanism that communicates the distributions of SGCPs' kernel hyperparameters between the server and clients, while keeping client-specific parameters local to ensure privacy and personalization. FedPP effectively captures event uncertainty and sparsity, and extensive experiments demonstrate its superior performance in federated settings, particularly with KL divergence and Wasserstein distance-based global aggregation.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# グリーンランド氷床上の氷河湖進化の時系列分類

Time Series Classification of Supraglacial Lakes Evolution over Greenland Ice Sheet ( http://arxiv.org/abs/2410.05638v1 )

ライセンス: Link先を確認
Emam Hossain, Md Osman Gani, Devon Dunmire, Aneesh Subramanian, Hammad Younas, (参考訳) グリーンランド氷床(GrIS)は、主に融水流出の増加により、地球規模の海面上昇に重要な役割を果たしている。 夏の間、氷床表面に形成された氷河湖は、氷床のダイナミックスと質量損失に影響を与える可能性があるため、これらの湖の季節的進化と動態をよりよく理解することが重要な課題である。 本研究では,Reconstructed Phase Spaces(RPS)のGaussian Mixture Models(GMMs)を用いて,その季節変化に基づいて上部氷河湖を同定する,計算効率の良い時系列分類手法を提案する。 1)融解期の終わりに凍結するもの 2 融解期に排水するもの、及び 3) 埋没した液体は表面下数メートルで絶縁された。 提案手法では,マイクロ波と可視光をそれぞれ利用したSentinel-1衛星とSentinel-2衛星の時系列データを用いている。 GrIS全体のデータセットに基づいて評価され、クラス毎に1つの代表サンプルでトレーニングされたRSS-GMMモデルは、Sentinel-1データだけで85.46%、Sentinel-1データとSentinel-2データを組み合わせた89.70%の精度を達成している。 このパフォーマンスは、大規模なトレーニングデータを必要とする既存の機械学習およびディープラーニングモデルを大幅に上回る。 以上の結果から,RPS-GMMモデルが極小のトレーニングデータで表層湖の複雑な時間動態を捉える上での堅牢性を示した。

The Greenland Ice Sheet (GrIS) has emerged as a significant contributor to global sea level rise, primarily due to increased meltwater runoff. Supraglacial lakes, which form on the ice sheet surface during the summer months, can impact ice sheet dynamics and mass loss; thus, better understanding these lakes' seasonal evolution and dynamics is an important task. This study presents a computationally efficient time series classification approach that uses Gaussian Mixture Models (GMMs) of the Reconstructed Phase Spaces (RPSs) to identify supraglacial lakes based on their seasonal evolution: 1) those that refreeze at the end of the melt season, 2) those that drain during the melt season, and 3) those that become buried, remaining liquid insulated a few meters beneath the surface. Our approach uses time series data from the Sentinel-1 and Sentinel-2 satellites, which utilize microwave and visible radiation, respectively. Evaluated on a GrIS-wide dataset, the RPS-GMM model, trained on a single representative sample per class, achieves 85.46% accuracy with Sentinel-1 data alone and 89.70% with combined Sentinel-1 and Sentinel-2 data. This performance significantly surpasses existing machine learning and deep learning models which require a large training data. The results demonstrate the robustness of the RPS-GMM model in capturing the complex temporal dynamics of supraglacial lakes with minimal training data.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# DecorateLM: コーパスレーティング、タグ付け、言語モデルによる編集によるデータエンジニアリング

DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models ( http://arxiv.org/abs/2410.05639v1 )

ライセンス: Link先を確認
Ranchi Zhao, Zhen Leng Thai, Yifan Zhang, Shengding Hu, Yunqi Ba, Jie Zhou, Jie Cai, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)の性能は、モデルによって処理される膨大な量の教師なしデータからなる事前学習コーパスに大きく影響される。 モデルパフォーマンスにおける重要な役割にもかかわらず、このデータの品質を保証することは、その量とサンプルレベルの品質アノテーションや拡張が欠如しているため、難しい。 本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。 具体的には、DecorateLMはテキストを品質基準と比較し、階層的なラベルでテキストをタグ付けし、テキストをより形式化されたフォーマットに編集する。 プレトレーニングコーパスの大きさが大きいため、全コーパスのデコレーションにLLMを採用することは効率が良くない。 そこで我々は,大規模言語モデルを用いてDecorateLMのための微妙な注釈付きトレーニングコーパスをキュレートし,データ工学の専門知識を10億個のパラメータ小言語モデル(SLM)に抽出する。 次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。 その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。

The performance of Large Language Models (LLMs) is substantially influenced by the pretraining corpus, which consists of vast quantities of unsupervised data processed by the models. Despite its critical role in model performance, ensuring the quality of this data is challenging due to its sheer volume and the absence of sample-level quality annotations and enhancements. In this paper, we introduce DecorateLM, a data engineering method designed to refine the pretraining corpus through data rating, tagging and editing. Specifically, DecorateLM rates texts against quality criteria, tags texts with hierarchical labels, and edits texts into a more formalized format. Due to the massive size of the pretraining corpus, adopting an LLM for decorating the entire corpus is less efficient. Therefore, to balance performance with efficiency, we curate a meticulously annotated training corpus for DecorateLM using a large language model and distill data engineering expertise into a compact 1.2 billion parameter small language model (SLM). We then apply DecorateLM to enhance 100 billion tokens of the training corpus, selecting 45 billion tokens that exemplify high quality and diversity for the further training of another 1.2 billion parameter LLM. Our results demonstrate that employing such high-quality data can significantly boost model performance, showcasing a powerful approach to enhance the quality of the pretraining corpus.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# ニューラルネットワークのための効率的かつパーミッシブなプログラム実行シールドの合成

Synthesizing Efficient and Permissive Programmatic Runtime Shields for Neural Policies ( http://arxiv.org/abs/2410.05641v1 )

ライセンス: Link先を確認
Jieke Shi, Junda He, Zhou Yang, Đorđe Žikelić, David Lo, (参考訳) 制御システムにおけるニューラルポリシーの利用が増加し、その安全性と信頼性が重要なソフトウェアエンジニアリングタスクになっている。 神経ポリシーの安全性を保証するための一般的なアプローチの1つは、プログラム的なランタイムシールドをそれらと一緒にデプロイして、安全でないコマンドを修正することである。 しかし、既存の手法で合成されたプログラムランタイムシールドは、計算コストがかかるか、十分に許容できないかのいずれかであり、システムに高いオーバーヘッドと不要な介入をもたらす。 これらの課題に対処するために、ニューラルポリシーのための軽量でパーミッシブなプログラムランタイムシールドを合成する新しいフレームワークであるAegisを提案する。 Aegisは、スケッチベースのプログラム合成問題としてランタイムシールドの探索を定式化し、それを解決するために反例誘導帰納的合成とベイズ最適化を利用する新しい方法を提案する。 Aegisとその合成シールドの評価には、4つの代表制御系を使用し、現在の最先端技術と比較する。 Aegisによって合成されたプログラム実行時シールドは、すべての安全でないコマンドをニューラルポリシーから修正し、システムが常に望まれる安全特性に違反しないことを保証している。 現在の最先端と比較すると、イージスのシールドは2.1$\times$時間オーバーヘッドと4.4$\times$メモリ使用量削減を示しており、より軽量であることを示している。 さらに、エージスのシールドは、他のシールドよりも平均1.6$\times$少ない介入を発生させ、許容性が向上した。

With the increasing use of neural policies in control systems, ensuring their safety and reliability has become a critical software engineering task. One prevalent approach to ensuring the safety of neural policies is to deploy programmatic runtime shields alongside them to correct their unsafe commands. However, the programmatic runtime shields synthesized by existing methods are either computationally expensive or insufficiently permissive, resulting in high overhead and unnecessary interventions on the system. To address these challenges, we propose Aegis, a novel framework that synthesizes lightweight and permissive programmatic runtime shields for neural policies. Aegis achieves this by formulating the seeking of a runtime shield as a sketch-based program synthesis problem and proposing a novel method that leverages counterexample-guided inductive synthesis and Bayesian optimization to solve it. To evaluate Aegis and its synthesized shields, we use four representative control systems and compare Aegis with the current state-of-the-art. Our results show that the programmatic runtime shields synthesized by Aegis can correct all unsafe commands from neural policies, ensuring that the systems do not violate any desired safety properties at all times. Compared to the current state-of-the-art, Aegis's shields exhibit a 2.1$\times$ reduction in time overhead and a 4.4$\times$ reduction in memory usage, suggesting that they are much more lightweight. Moreover, Aegis's shields incur an average of 1.6$\times$ fewer interventions than other shields, showing better permissiveness.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# 性能モデルとアクセスパターンに基づくコンテンツ配信ネットワークへの最小侵入的アクセス管理

Minimally Intrusive Access Management to Content Delivery Networks based on Performance Models and Access Patterns ( http://arxiv.org/abs/2410.05642v1 )

ライセンス: Link先を確認
Lenise M. V. Rodrigues, Daniel Sadoc Menasché, Arthur Serra, Antonio A. de Aragão Rocha, (参考訳) 本稿では,CDN(Content Delivery Networks)へのアクセス管理手法を提案する。 特に,コンテンツ配信インフラにおけるトークン共有の影響について検討し,異常アクセスの検出とブロックを許容する要求制限の定義を提案する。 また,海賊行為に対する対策として,海賊行為者による不正な共有を防止するためのサービス品質の低下や,海賊行為のシナリオにおけるシステムパフォーマンスの定量化にキューイングモデルを用いた海賊行為対策も導入する。 これらの措置を採用することで、CDNアクセスとコスト管理の一貫性と効率を改善し、インフラストラクチャと正当なユーザエクスペリエンスを保護することができる。

This paper presents an approach to managing access to Content Delivery Networks (CDNs), focusing on combating the misuse of tokens through performance analysis and statistical access patterns. In particular, we explore the impact of token sharing on the content delivery infrastructure, proposing the definition of acceptable request limits to detect and block abnormal accesses. Additionally, we introduce countermeasures against piracy, such as degrading the quality of service for pirate users to discourage them from illegal sharing, and using queuing models to quantify system performance in different piracy scenarios. Adopting these measures can improve the consistency and efficiency of CDN access and cost management, protecting the infrastructure and the legitimate user experience.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# TRACE:因果イベントモデリングによる時間的接地ビデオLLM

TRACE: Temporal Grounding Video LLM via Causal Event Modeling ( http://arxiv.org/abs/2410.05643v1 )

ライセンス: Link先を確認
Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen, (参考訳) ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。 様々なタスクを効果的に同時に処理し、ゼロショット予測を可能にするために、VTGタスクにビデオLLMを採用する傾向が高まっている。 しかしながら、現在のビデオLLMベースの手法は、自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がないため、VTGタスクの処理効率が制限されている。 この問題に対処するために,本稿ではまず,ビデオをイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。 各イベントは、タイムスタンプ、健全なスコア、テキストキャプションの3つのコンポーネントで構成される。 次に,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。 TRACEは視覚フレーム、タイムスタンプ、健全なスコア、テキストを異なるタスクとして処理し、それぞれに様々なエンコーダとデコードヘッドを使用する。 タスクトークンは、因果イベントモデリングフレームワークの定式化に従ってインターリーブシーケンスに配置される。 様々なVTGタスクとデータセットに関する大規模な実験は、最先端のビデオLLMと比較してTRACEの優れた性能を示している。 我々のモデルとコードは \url{https://github.com/gyxxyg/TRACE} で利用可能です。

Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents videos as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE processes visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework's formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at \url{https://github.com/gyxxyg/TRACE}.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# 逆問題に対するスコアベース変分推論

Score-Based Variational Inference for Inverse Problems ( http://arxiv.org/abs/2410.05646v1 )

ライセンス: Link先を確認
Zhipeng Xue, Penghao Cai, Xiaojun Yuan, Xiqi Gao, (参考訳) 既存の拡散法は、スコア関数を用いて後方からサンプリングされた逆問題に対して、生成したランダムサンプルを解として受け入れる。 後部平均値が好ましいアプリケーションでは、時間を要する後部から複数のサンプルを生成する必要がある。 本研究では,条件付き逆拡散過程の確率密度進化を解析することにより,各逆拡散過程の平均を追跡することにより,後進平均が達成できることを実証する。 そこで我々は,後部平均を直接対象とするRMP(Reverse mean propagation)というフレームワークを構築した。 RMPは,各逆ステップにおける逆KLの発散を最小限に抑えることで,さらに分解可能な変分推論問題を解くことで実現可能であることを示す。 さらに、スコア関数を用いて、逆KL分散を自然な勾配降下で最適化し、各逆ステップで平均を伝搬するアルゴリズムを開発した。 実験により, 提案手法の妥当性を実証し, 逆問題における計算複雑性の低い再構成性能において, アルゴリズムが最先端のアルゴリズムより優れていることを示す。

Existing diffusion-based methods for inverse problems sample from the posterior using score functions and accept the generated random samples as solutions. In applications that posterior mean is preferred, we have to generate multiple samples from the posterior which is time-consuming. In this work, by analyzing the probability density evolution of the conditional reverse diffusion process, we prove that the posterior mean can be achieved by tracking the mean of each reverse diffusion step. Based on that, we establish a framework termed reverse mean propagation (RMP) that targets the posterior mean directly. We show that RMP can be implemented by solving a variational inference problem, which can be further decomposed as minimizing a reverse KL divergence at each reverse step. We further develop an algorithm that optimizes the reverse KL divergence with natural gradient descent using score functions and propagates the mean at each reverse step. Experiments demonstrate the validity of the theory of our framework and show that our algorithm outperforms state-of-the-art algorithms on reconstruction performance with lower computational complexity in various inverse problems.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# RoBERTaは継続的な学習においてBERTより優れているか:注意シンク視点

Does RoBERTa Perform Better than BERT in Continual Learning: An Attention Sink Perspective ( http://arxiv.org/abs/2410.05648v1 )

ライセンス: Link先を確認
Xueying Bai, Yifan Sun, Niranjan Balasubramanian, (参考訳) 継続学習(CL)は、以前のタスクの知識を忘れずに、順次新しいタスクを学習できるモデルを訓練することを目的としている。 以前の研究では、事前学習がCLにとって有益であることがわかったが、下流容量の高い事前学習モデルもCLでより優れた性能を発揮するかどうかは不明だ。 本稿では,事前学習したモデルが,様々なタスクにおいてユビキタスな[SEP]トークンなどの「シンクトークン」に高い注意スコアを割り当てる可能性があることを観察する。 このような注意シンクは、シングルタスク学習におけるモデルの過度な平滑化と、シーケンシャルタスクの学習における干渉につながる可能性があり、事前訓練された能力にもかかわらず、モデルのCL性能を損なう可能性がある。 これらの効果を低減するために,すべてのトークンに対する注意の多様性を促す事前スケーリング機構を提案する。 具体的には、まず、探索段階における非シンクトークンに対するタスクの注意を拡大し、次にスケーリングによってモデルを微調整する。 実験によると、事前スケーリングは、経験的なリプレイや、以前のタスクからのパラメータの漸進的な保存なしに、CLを大幅に改善する。

Continual learning (CL) aims to train models that can sequentially learn new tasks without forgetting previous tasks' knowledge. Although previous works observed that pre-training can benefit CL, it remains unclear whether a pre-trained model with higher downstream capacity also performs better in CL. In this paper, we observe that pre-trained models may allocate high attention scores to some 'sink' tokens, such as [SEP] tokens, which are ubiquitous across various tasks. Such attention sinks may lead to models' over-smoothing in single-task learning and interference in sequential tasks' learning, which may compromise the models' CL performance despite their high pre-trained capabilities. To reduce these effects, we propose a pre-scaling mechanism that encourages attention diversity across all tokens. Specifically, it first scales the task's attention to the non-sink tokens in a probing stage, and then fine-tunes the model with scaling. Experiments show that pre-scaling yields substantial improvements in CL without experience replay, or progressively storing parameters from previous tasks.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# SIA-OVD:Open-Vocabulary Detectionにおける画像参照ギャップブリッジ用形状不変アダプタ

SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection ( http://arxiv.org/abs/2410.05650v1 )

ライセンス: Link先を確認
Zishuo Wang, Wenhao Zhou, Jinglin Xu, Yuxin Peng, (参考訳) Open-vocabulary Detection (OVD) は、オープンワールドオブジェクト検出を低コストで達成するために、インスタンスレベルのアノテーションなしで新しいオブジェクトを検出することを目的としている。 既存のOVD法は主にCLIPのようなビジョン言語事前訓練モデル(VLM)の強力なオープン語彙画像テキストアライメント機能に依存している。 しかし、CLIPは画像とテキストのペアで訓練されており、画像内の局所領域の知覚能力に欠けており、画像と領域表現のギャップが生じる。 OVDにCLIPを直接使用すると、不正確な領域分類が生じる。 画像領域のギャップは主に、関心領域抽出(RoI)中の領域特徴写像の変形によって生じる。 OVDにおける不正確な領域分類を緩和するため,SIA-OVDと呼ばれる新しい形状不変アダプタを提案し,OVDタスクにおける画像領域ギャップを埋める。 SIA-OVDは、異なる形状の領域に対する一連の機能アダプタを学習し、各領域に対して最適なアダプタを選択するための新しいアダプタ割り当て機構を設計する。 適応されたリージョン表現は、CLIPによって学習されたテキスト表現とよく一致させることができる。 SIA-OVDは画像と形状変形による領域間のギャップに対処することにより,領域の分類精度を効果的に向上することを示した。 SIA-OVDはCOCO-OVDベンチマークにおける代表法よりも大幅に改善されている。 コードはhttps://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024で公開されている。

Open-vocabulary detection (OVD) aims to detect novel objects without instance-level annotations to achieve open-world object detection at a lower cost. Existing OVD methods mainly rely on the powerful open-vocabulary image-text alignment capability of Vision-Language Pretrained Models (VLM) such as CLIP. However, CLIP is trained on image-text pairs and lacks the perceptual ability for local regions within an image, resulting in the gap between image and region representations. Directly using CLIP for OVD causes inaccurate region classification. We find the image-region gap is primarily caused by the deformation of region feature maps during region of interest (RoI) extraction. To mitigate the inaccurate region classification in OVD, we propose a new Shape-Invariant Adapter named SIA-OVD to bridge the image-region gap in the OVD task. SIA-OVD learns a set of feature adapters for regions with different shapes and designs a new adapter allocation mechanism to select the optimal adapter for each region. The adapted region representations can align better with text representations learned by CLIP. Extensive experiments demonstrate that SIA-OVD effectively improves the classification accuracy for regions by addressing the gap between images and regions caused by shape deformation. SIA-OVD achieves substantial improvements over representative methods on the COCO-OVD benchmark. The code is available at https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024.
翻訳日:2024-11-01 17:29:06 公開日:2024-10-08
# ViBiDSampler:双方向拡散サンプリングによるビデオ補間強化

ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler ( http://arxiv.org/abs/2410.05651v1 )

ライセンス: Link先を確認
Serin Yang, Taesung Kwon, Jong Chul Ye, (参考訳) 大規模テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ拡散モデル(I2V)の最近の進歩は、特にキーフレーム補間において、ビデオ生成を大幅に向上させた。 しかし、現在の画像間拡散モデルは、単一の条件フレームからビデオを生成するのに強力であるが、効果的な境界補間に欠かせない2フレーム(開始と終了)条件付き生成に適応する必要がある。 残念ながら、時間的に前方と後方の経路を並列に融合する既存のアプローチは、しばしばオフマンドの問題に悩まされ、アーティファクトや複数の反復的な再起動ステップが必要になる。 本研究では,これらのオフマンフォールド問題に対処するために,大規模な再ノイズ化や微調整を必要とせず,新たな双方向サンプリング戦略を導入する。 提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。 さらに,先進的な指導手法であるCFG++とDDSを取り入れ,補間処理をさらに強化する。 これらを統合することで、キーフレーム間の高品質なスムーズな動画を効率よく生成し、最先端のパフォーマンスを実現する。 一つの3090 GPU上では,25フレームを1024×576の解像度でわずか195秒で補間し,キーフレーム補間における主解として確立する。

Recent progress in large-scale text-to-video (T2V) and image-to-video (I2V) diffusion models has greatly enhanced video generation, especially in terms of keyframe interpolation. However, current image-to-video diffusion models, while powerful in generating videos from a single conditioning frame, need adaptation for two-frame (start & end) conditioned generation, which is essential for effective bounded interpolation. Unfortunately, existing approaches that fuse temporally forward and backward paths in parallel often suffer from off-manifold issues, leading to artifacts or requiring multiple iterative re-noising steps. In this work, we introduce a novel, bidirectional sampling strategy to address these off-manifold issues without requiring extensive re-noising or fine-tuning. Our method employs sequential sampling along both forward and backward paths, conditioned on the start and end frames, respectively, ensuring more coherent and on-manifold generation of intermediate frames. Additionally, we incorporate advanced guidance techniques, CFG++ and DDS, to further enhance the interpolation process. By integrating these, our method achieves state-of-the-art performance, efficiently generating high-quality, smooth videos between keyframes. On a single 3090 GPU, our method can interpolate 25 frames at 1024 x 576 resolution in just 195 seconds, establishing it as a leading solution for keyframe interpolation.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# クラウドソーシング型ドローンサービスにおけるプライバシとデータ統合のためのブロックチェーン強化フレームワーク

A Blockchain-Enhanced Framework for Privacy and Data Integrity in Crowdsourced Drone Services ( http://arxiv.org/abs/2410.05653v1 )

ライセンス: Link先を確認
Junaid Akram, Ali Anaissi, (参考訳) 我々は,1988年のオーストラリアのプライバシ法の下でのサービス改善とデータプライバシに関する懸念に対処するため,コンシューマグレードのドローンをブッシュファイア管理に統合する革新的なフレームワークを提案する。 このシステムは、データコンシューマーであるブッシュファイア管理当局が、データプロバイダとして機能するドローンオペレーターから重要な情報にアクセスする市場を確立する。 このフレームワークでは、ローカルな差分プライバシーを使用して、すべてのシステムエンティティからデータプロバイダのプライバシを保護し、プライバシ標準の遵守を保証する。 さらに、ブロックチェーンベースのソリューションは、公正なデータと料金の交換を容易にすると同時に、不変レコードを維持して、説明責任を向上させる。 概念実証実装を通じて検証されたこのフレームワークのスケーラビリティと適応性は、ブッシュファイア管理における大規模で現実世界のアプリケーションに適しています。

We present an innovative framework that integrates consumer-grade drones into bushfire management, addressing both service improvement and data privacy concerns under Australia's Privacy Act 1988. This system establishes a marketplace where bushfire management authorities, as data consumers, access critical information from drone operators, who serve as data providers. The framework employs local differential privacy to safeguard the privacy of data providers from all system entities, ensuring compliance with privacy standards. Additionally, a blockchain-based solution facilitates fair data and fee exchanges while maintaining immutable records for enhanced accountability. Validated through a proof-of-concept implementation, the framework's scalability and adaptability make it well-suited for large-scale, real-world applications in bushfire management.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 強化学習のための安全制約を用いた効果的な政策評価

Efficient Policy Evaluation with Safety Constraint for Reinforcement Learning ( http://arxiv.org/abs/2410.05655v1 )

ライセンス: Link先を確認
Claire Chen, Shuze Liu, Shangtong Zhang, (参考訳) 強化学習において、古典的な政治評価手法は、しばしば高いばらつきに悩まされ、所望の精度を達成するために大量のオンラインデータを必要とする。 従来の研究では、データ収集のための適切な行動ポリシーを探索したり、設計したりすることで、評価のばらつきを減らそうとしていた。 しかし、これらのアプローチはそのような行動ポリシーの安全性を無視しており、設計された行動ポリシーには安全保証がなく、オンライン実行中に深刻な損害をもたらす可能性がある。 本稿では, 安全を同時に確保しつつ, ばらつきを低減することの課題に対処するため, 安全制約下での最適分散最小化行動方針を提案する。 理論的には、安全性の制約を確保しつつも、評価手法は偏りがなく、オンライン評価よりも分散度が低い。 実験により, 本手法は, 実質的分散低減と安全制約満足度の両方を達成するための唯一の方法である。 さらに,本手法は,分散低減と実行安全性の両方において,従来の方法よりも優れていることを示す。

In reinforcement learning, classic on-policy evaluation methods often suffer from high variance and require massive online data to attain the desired accuracy. Previous studies attempt to reduce evaluation variance by searching for or designing proper behavior policies to collect data. However, these approaches ignore the safety of such behavior policies -- the designed behavior policies have no safety guarantee and may lead to severe damage during online executions. In this paper, to address the challenge of reducing variance while ensuring safety simultaneously, we propose an optimal variance-minimizing behavior policy under safety constraints. Theoretically, while ensuring safety constraints, our evaluation method is unbiased and has lower variance than on-policy evaluation. Empirically, our method is the only existing method to achieve both substantial variance reduction and safety constraint satisfaction. Furthermore, we show our method is even superior to previous methods in both variance reduction and execution safety.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 逐次決定のための大規模言語モデルのモデル化能力について

On the Modeling Capabilities of Large Language Models for Sequential Decision Making ( http://arxiv.org/abs/2410.05656v1 )

ライセンス: Link先を確認
Martin Klissarov, Devon Hjelm, Alexander Toshev, Bogdan Mazoure, (参考訳) 大規模な事前学習モデルでは、さまざまなモダリティをまたいだ推論や計画タスクのパフォーマンスが向上し、複雑なシーケンシャルな意思決定問題にそれらを活用する可能性が高まっている。 本稿では,対話型ドメインにおける強化学習(RL)におけるLLM(Large Language Models)の機能について検討する。 エージェントをRLで訓練するための報酬モデルを生成することにより、直接的に、間接的に、直接的に、あるいは間接的に、意思決定ポリシーを作成する能力を評価する。 その結果,タスク固有の微調整がなくても,LLMは報酬モデリングに優れることがわかった。 特に、人工知能(AI)フィードバックによる報酬作成は、最も一般的に適用可能なアプローチとなり、クレジットの割り当てと探索を改善することでパフォーマンスを向上させることができる。 最後に、未知の力学を持つ環境において、合成データを用いた微調整 LLM が、破滅的な忘れを軽減しつつ報酬モデリング能力を著しく改善し、逐次的な意思決定タスクにおける有用性をさらに拡張する方法について検討する。

Large pretrained models are showing increasingly better performance in reasoning and planning tasks across different modalities, opening the possibility to leverage them for complex sequential decision making problems. In this paper, we investigate the capabilities of Large Language Models (LLMs) for reinforcement learning (RL) across a diversity of interactive domains. We evaluate their ability to produce decision-making policies, either directly, by generating actions, or indirectly, by first generating reward models to train an agent with RL. Our results show that, even without task-specific fine-tuning, LLMs excel at reward modeling. In particular, crafting rewards through artificial intelligence (AI) feedback yields the most generally applicable approach and can enhance performance by improving credit assignment and exploration. Finally, in environments with unfamiliar dynamics, we explore how fine-tuning LLMs with synthetic data can significantly improve their reward modeling capabilities while mitigating catastrophic forgetting, further broadening their utility in sequential decision-making tasks.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 二重型量子ビット間の直接絡み合うゲートの実験的実現

Experimental realization of direct entangling gates between dual-type qubits ( http://arxiv.org/abs/2410.05659v1 )

ライセンス: Link先を確認
Chenxi Wang, Chuanxin Huang, Hongxuan Zhang, Hongyuan Hu, Zhichao Mao, Panyu Hou, Yukai Wu, Zichao Zhou, Luming Duan, (参考訳) デュアル型量子ビットは、大規模イオントラップ量子計算における補助演算のクロストーク誤差を抑制するための有望な方法となっている。 ここでは、$S_{1/2}$と$D_{5/2}$の超微細多様体にエンタングゲートが符号化され、$^{137}\mathrm{Ba}^{+}$イオンの直交ゲートが示される。 我々の方式は、ハードウェアにおいて経済的であり、Raman遷移を駆動することで両キュービットタイプを絡めるために、わずか532\,$nmのレーザーシステムしか必要としない。 デュアルタイプのモルマー・ソレンセンゲートに対して9,6.3(4)\%のベル状態忠実度を$S$-$D$イオン対の間に達成し、同じタイプの$S$-$S$または$D$-$D$ゲートと同等である。 この技術は量子回路における二重型量子ビット間のバック・フォース変換のオーバーヘッドを減らし、量子エラー補正やイオン-フォトン量子ネットワークに広く応用することができる。

Dual-type qubits have become a promising way to suppress the crosstalk error of auxiliary operations in large-scale ion trap quantum computation. Here we demonstrate a direct entangling gate between dual-type qubits encoded in the $S_{1/2}$ and $D_{5/2}$ hyperfine manifolds of $^{137}\mathrm{Ba}^{+}$ ions. Our scheme is economic in the hardware, requiring only a single $532\,$nm laser system to entangle both qubit types by driving their Raman transitions. We achieve a Bell state fidelity of $96.3(4)\%$ for the dual-type Molmer-Sorensen gate between an $S$-$D$ ion pair, comparable to that for the same-type $S$-$S$ or $D$-$D$ gates. This technique can reduce the overhead for back-and-forth conversions between dual-type qubits in the quantum circuit with wide applications in quantum error correction and ion-photon quantum networks.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 局所適応ガウス過程を用いたアクティブレベルセット推定のためのロバスト変換学習

Robust Transfer Learning for Active Level Set Estimation with Locally Adaptive Gaussian Process Prior ( http://arxiv.org/abs/2410.05660v1 )

ライセンス: Link先を確認
Giang Ngo, Dang Nguyen, Sunil Gupta, (参考訳) ブラックボックス関数のアクティブレベル設定推定の目的は、関数評価を反復的に行い、関数値が指定された閾値を超えるか低下する領域を正確に識別し、関数に関するより多くの情報を集めることである。 これは、関数評価がコストがかかる場合に特に重要になり、大規模なデータセットを取得する能力が大幅に制限される。 ブラックボックス関数をサンプリング効率よくモデル化するための有望な方法は、関連する関数から事前知識を取り入れることである。 しかし、このアプローチは、事前の知識が無関係である場合や誤解を招く場合、見積もりタスクを遅くするリスクがある。 本稿では,事前知識が無関係である場合でも,所定の事前知識を常に調整しながら,段階セット推定アルゴリズムのロバストな性能を保証しながら,その事前知識を安全に統合する,アクティブなレベルセット推定のための新しい伝達学習手法を提案する。 このアルゴリズムを理論的に解析し、事前調整を行わない標準的な移動学習手法と比較して、より優れたレベルセット収束性を示す。 さらに、複数のデータセットにわたる広範な実験により、様々なレベルセット推定アルゴリズムと異なる転送学習シナリオに適用した場合、本手法の有効性が確認された。

The objective of active level set estimation for a black-box function is to precisely identify regions where the function values exceed or fall below a specified threshold by iteratively performing function evaluations to gather more information about the function. This becomes particularly important when function evaluations are costly, drastically limiting our ability to acquire large datasets. A promising way to sample-efficiently model the black-box function is by incorporating prior knowledge from a related function. However, this approach risks slowing down the estimation task if the prior knowledge is irrelevant or misleading. In this paper, we present a novel transfer learning method for active level set estimation that safely integrates a given prior knowledge while constantly adjusting it to guarantee a robust performance of a level set estimation algorithm even when the prior knowledge is irrelevant. We theoretically analyze this algorithm to show that it has a better level set convergence compared to standard transfer learning approaches that do not make any adjustment to the prior. Additionally, extensive experiments across multiple datasets confirm the effectiveness of our method when applied to various different level set estimation algorithms as well as different transfer learning scenarios.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# モデルアーキテクチャ全体にわたる法則のスケーリング:大規模言語モデルにおけるDenseとMoEモデルの比較分析

Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models ( http://arxiv.org/abs/2410.05661v1 )

ライセンス: Link先を確認
Siqi Wang, Zhengyu Chen, Bei Li, Keqing He, Min Zhang, Jingang Wang, (参考訳) 大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。 本研究では,Dense ModelsとMixture of Experts (MoE)モデル間のスケーリング法則の伝達可能性と相違について検討する。 本研究は,一貫した損失のスケーリング,最適バッチサイズ,学習率のスケーリング,資源配分戦略のスケーリングなど,理論解析と広範な実験を組み合わせることで,MoEモデルにもパワーロースケーリングフレームワークが適用され,アーキテクチャの違いにもかかわらず,これらのモデルのスケーリング動作を規定する基本原則が保存されていることを示す。 さらに、MoEモデルはより優れた一般化を示し、結果としてDense Modelsと比較して、同じトレーニング計算予算でテスト損失が減少する。 これらの結果は、MoEモデルのスケーリング一貫性と転送一般化能力を示し、MoEモデルのトレーニングとデプロイメント戦略を最適化するための新たな洞察を提供する。

The scaling of large language models (LLMs) is a critical research area for the efficiency and effectiveness of model training and deployment. Our work investigates the transferability and discrepancies of scaling laws between Dense Models and Mixture of Experts (MoE) models. Through a combination of theoretical analysis and extensive experiments, including consistent loss scaling, optimal batch size and learning rate scaling, and resource allocation strategies scaling, our findings reveal that the power-law scaling framework also applies to MoE Models, indicating that the fundamental principles governing the scaling behavior of these models are preserved, even though the architecture differs. Additionally, MoE Models demonstrate superior generalization, resulting in lower testing losses with the same training compute budget compared to Dense Models. These findings indicate the scaling consistency and transfer generalization capabilities of MoE Models, providing new insights for optimizing MoE Model training and deployment strategies.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 動的クライアント予約と分割によるフェデレーション学習:初期モデル構築による収束と迅速な適応

Federated Learning with Dynamic Client Arrival and Departure: Convergence and Rapid Adaptation via Initial Model Construction ( http://arxiv.org/abs/2410.05662v1 )

ライセンス: Link先を確認
Zhan-Lun Chang, Dong-Jun Han, Rohit Parasnis, Seyyedali Hosseinalipour, Christopher G. Brinton, (参考訳) ほとんどの既存の統合学習(FL)アプローチは、システム内の固定されたクライアントセットを前提としていますが、実際には、クライアントは特定のタスクに対するニーズや関心に応じて、動的にシステムを離れたり、参加したりすることができます。 静的最適化目標を維持する従来のFLアプローチとは異なり、目的関数は現在のクライアントのセットによって動的に変化する。 2) 現在のグローバルモデルは次のFLラウンドで最高の初期点として機能せず、クライアントがシステムを離れたり入社したりする可能性を考えると、適応が遅くなる可能性がある。 本稿では、現在アクティブなクライアントのセットに合わせて最適なモデルを求めるFLの動的最適化目標について考察する。 様々なタイプのクライアントの到着と出発が最適な点のシフトにどのように影響するかを直接的に把握する確率的枠組みに基づいて、確率的勾配ノイズ、局所的なトレーニングイテレーション、データ分散の非IID性、動的クライアントパターンによる最適点間の偏差などの要因を考慮し、最適性ギャップの上限を確立する。 また、勾配の類似性によって導かれる重み付き平均化を利用して、データ特性が現在のクライアントと密接に一致しているクライアント上で訓練されたモデルの優先順位付けを行い、現在のクライアントへの適応性を向上する適応型初期モデル構築戦略を提案する。 提案手法は様々なデータセットとFLアルゴリズムで検証され、多様なクライアントの到着パターンと出発パターンにまたがる堅牢な性能を実証し、動的FL環境での有効性を実証する。

While most existing federated learning (FL) approaches assume a fixed set of clients in the system, in practice, clients can dynamically leave or join the system depending on their needs or interest in the specific task. This dynamic FL setting introduces several key challenges: (1) the objective function dynamically changes depending on the current set of clients, unlike traditional FL approaches that maintain a static optimization goal; (2) the current global model may not serve as the best initial point for the next FL rounds and could potentially lead to slow adaptation, given the possibility of clients leaving or joining the system. In this paper, we consider a dynamic optimization objective in FL that seeks the optimal model tailored to the currently active set of clients. Building on our probabilistic framework that provides direct insights into how the arrival and departure of different types of clients influence the shifts in optimal points, we establish an upper bound on the optimality gap, accounting for factors such as stochastic gradient noise, local training iterations, non-IIDness of data distribution, and deviations between optimal points caused by dynamic client pattern. We also propose an adaptive initial model construction strategy that employs weighted averaging guided by gradient similarity, prioritizing models trained on clients whose data characteristics align closely with the current one, thereby enhancing adaptability to the current clients. The proposed approach is validated on various datasets and FL algorithms, demonstrating robust performance across diverse client arrival and departure patterns, underscoring its effectiveness in dynamic FL environments.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# ホロスティック・アンラーニングベンチマーク:テキストと画像の拡散モデルアンラーニングのための多面的評価

Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning ( http://arxiv.org/abs/2410.05664v1 )

ライセンス: Link先を確認
Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim, (参考訳) テキストと画像の拡散モデルが商用アプリケーションで十分に進歩するにつれて、悪意があり有害な使用の可能性についても懸念が高まっている。 モデルアンラーニングは、事前学習されたモデルから望ましくない、潜在的に有害な情報を除去することで、懸念を軽減するために提案されている。 これまでのところ、未学習の成功は、画像の品質を維持しながら、未学習モデルが目標概念を生成できるかどうかを主に測定している。 しかし、アンラーニングは通常限られたシナリオでテストされ、アンラーニングの副作用は現在の文献ではほとんど研究されていない。 本研究では,5つの重要な側面から,さまざまなシナリオ下でのアンラーニングを徹底的に分析する。 我々の研究は、特により複雑で現実的な状況において、あらゆる方法が副作用や制限を持っていることを明らかにしている。 ソースコードとアーティファクトを包括的に評価するフレームワークをリリースすることによって、この分野のさらなる研究を刺激し、より信頼性が高く効果的なアンラーニング手法を提供したいと思っています。

As text-to-image diffusion models become advanced enough for commercial applications, there is also increasing concern about their potential for malicious and harmful use. Model unlearning has been proposed to mitigate the concerns by removing undesired and potentially harmful information from the pre-trained model. So far, the success of unlearning is mainly measured by whether the unlearned model can generate a target concept while maintaining image quality. However, unlearning is typically tested under limited scenarios, and the side effects of unlearning have barely been studied in the current literature. In this work, we thoroughly analyze unlearning under various scenarios with five key aspects. Our investigation reveals that every method has side effects or limitations, especially in more complex and realistic situations. By releasing our comprehensive evaluation framework with the source codes and artifacts, we hope to inspire further research in this area, leading to more reliable and effective unlearning methods.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 効率的なマンメイド構造認識のためのエッジクラウド協調衛星画像解析

Edge-Cloud Collaborative Satellite Image Analysis for Efficient Man-Made Structure Recognition ( http://arxiv.org/abs/2410.05665v1 )

ライセンス: Link先を確認
Kaicheng Sheng, Junxiao Xue, Hui Zhang, (参考訳) 衛星画像の高解像度化が進み、様々な応用の機会が生まれている。 しかし、このような膨大なデータをタイムリーかつ正確な方法で処理し分析することは、重大な課題となる。 本稿では,エッジとクラウドコンピューティングを組み合わせた新しい衛星画像処理アーキテクチャを提案する。 エッジに軽量モデルを採用することで、当初は衛星画像から人造構造を特定できる。 これらの識別された画像はクラウドに送信され、より複雑なモデルによって分類が洗練され、特定のタイプの構造が決定される。 効率の良いモデルは精度を犠牲にすることが多いので、主な焦点はレイテンシと精度のトレードオフである。 我々は,このハイブリッドエッジクラウドアプローチを,仮想環境実験における従来の"ベントパイプ"手法と比較するとともに,実用モデルを導入し,その性能をエッジデプロイメントのための既存の軽量モデルと比較し,精度とレイテンシに着目した。 その結果、エッジクラウドのコラボレーティブモデルは、データ転送の最小化による全体的なレイテンシを低減するだけでなく、高い精度を維持し、このシナリオ下での従来のアプローチよりも大幅に改善されていることが示された。

The increasing availability of high-resolution satellite imagery has created immense opportunities for various applications. However, processing and analyzing such vast amounts of data in a timely and accurate manner poses significant challenges. The paper presents a new satellite image processing architecture combining edge and cloud computing to better identify man-made structures against natural landscapes. By employing lightweight models at the edge, the system initially identifies potential man-made structures from satellite imagery. These identified images are then transmitted to the cloud, where a more complex model refines the classification, determining specific types of structures. The primary focus is on the trade-off between latency and accuracy, as efficient models often sacrifice accuracy. We compare this hybrid edge-cloud approach against traditional "bent-pipe" method in virtual environment experiments as well as introduce a practical model and compare its performance with existing lightweight models for edge deployment, focusing on accuracy and latency. The results demonstrate that the edge-cloud collaborative model not only reduces overall latency due to minimized data transmission but also maintains high accuracy, offering substantial improvements over traditional approaches under this scenario.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# ネットワークと類似性を考慮した多様性と包摂指数の分析とその応用

Diversity and Inclusion Index with Networks and Similarity: Analysis and its Application ( http://arxiv.org/abs/2410.05668v1 )

ライセンス: Link先を確認
Keita Kinjo, (参考訳) 近年,「多様性」と「包摂性」の概念は,社会的分野と生物学的分野の両方を包含して,様々な分野において大きな注目を集めている。 これらの概念を十分に理解するためには、カテゴリの数だけでなく、それらの間の類似点や関係についても検討することが重要である。 本研究では,類似性とネットワーク接続を考慮した多様性・包摂性指標を提案する。 これらの指標の特性を分析し,多様性とネットワークの確立した尺度を用いて,それらの数学的関係を調査した。 さらに,多様性の有効性に基づいて類似性を推定する手法を開発した。 また、比率、類似度、ネットワーク接続を可視化する手法を作成しました。 最後に、実世界のデータを用いて外部指標との相関性を評価し、提案した指標と指標の両方を効果的に活用できることを確認した。 本研究は多様性と包摂分析のより微妙な理解に寄与する。

In recent years, the concepts of ``diversity'' and ``inclusion'' have attracted considerable attention across a range of fields, encompassing both social and biological disciplines. To fully understand these concepts, it is critical to not only examine the number of categories but also the similarities and relationships among them. In this study, I introduce a novel index for diversity and inclusion that considers similarities and network connections. I analyzed the properties of these indices and investigated their mathematical relationships using established measures of diversity and networks. Moreover, I developed a methodology for estimating similarities based on the utility of diversity. I also created a method for visualizing proportions, similarities, and network connections. Finally, I evaluated the correlation with external metrics using real-world data, confirming that both the proposed indices and our index can be effectively utilized. This study contributes to a more nuanced understanding of diversity and inclusion analysis.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 生物学的に監督されたグラフ埋め込みを用いたヒトインターラクトームによる病原性予測の改善

Improving Disease Comorbidity Prediction Based on Human Interactome with Biologically Supervised Graph Embedding ( http://arxiv.org/abs/2410.05670v1 )

ライセンス: Link先を確認
Xihan Qin, Li Liao, (参考訳) 合併症は、疾患の理解と管理に重大な影響を及ぼす。 共生性の遺伝的原因は、しばしば2つの疾患に関連付けられた同じ遺伝子か、異なる疾患に関連付けられた異なる遺伝子のいずれかで生じたが、タンパク質とタンパク質の相互作用を介して関連付けられる。 そのため、ヒトのインターフェクトームは、より洗練された疾患のコオービディティの研究に使われてきた。 人間の相互作用は、大きな不完全グラフとして、共生予測に有用な特徴を抽出する上で、独自の課題を提示している。 そこで本研究では,BSE (Biologically Supervised Graph Embedding) という新しい手法を導入する。 本研究は,BSEが中心埋設法と非中心埋設法の両方に及ぼした影響について,最先端技術よりも一貫した優位性を示し,バイオインサイトに富んだ寸法の選択に有効性を示し,ROCで測定した場合の予測性能を最大50%向上させることができた。 さらに分析したところ、BSEは病気の関連と遺伝子接続の比率を一貫して改善し、その潜在的生物学的要因がコオービディティに影響を及ぼす可能性を実証している。 様々な指標にまたがる統計的に有意な拡張は、BSEが正確な疾患のコオービディティ予測やその他の潜在的な応用に新しい方法を導入する可能性を示している。 ソースコードを含むGitHubリポジトリは、以下のリンクでアクセスできる。

Comorbidity carries significant implications for disease understanding and management. The genetic causes for comorbidity often trace back to mutations occurred either in the same gene associated with two diseases or in different genes associated with different diseases respectively but coming into connection via protein-protein interactions. Therefore, human interactome has been used in more sophisticated study of disease comorbidity. Human interactome, as a large incomplete graph, presents its own challenges to extracting useful features for comorbidity prediction. In this work, we introduce a novel approach named Biologically Supervised Graph Embedding (BSE) to allow for selecting most relevant features to enhance the prediction accuracy of comorbid disease pairs. Our investigation into BSE's impact on both centered and uncentered embedding methods showcases its consistent superiority over the state-of-the-art techniques and its adeptness in selecting dimensions enriched with vital biological insights, thereby improving prediction performance significantly, up to 50% when measured by ROC for some variations. Further analysis indicates that BSE consistently and substantially improves the ratio of disease associations to gene connectivity, affirming its potential in uncovering latent biological factors affecting comorbidity. The statistically significant enhancements across diverse metrics underscore BSE's potential to introduce novel avenues for precise disease comorbidity predictions and other potential applications. The GitHub repository containing the source code can be accessed at the following link: https://github.com/xihan-qin/Biologically-Supervised-Graph-Embedding.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 機械学習におけるおもちゃ代理モデルの理解

Understanding with toy surrogate models in machine learning ( http://arxiv.org/abs/2410.05675v1 )

ライセンス: Link先を確認
Andrés Páez, (参考訳) 自然科学や社会科学では、複雑な現象を理解するためにおもちゃのモデル(非常に単純で、非常に理想化された表現)を使うのが一般的である。 ルールリストやスパース決定ツリーのような不透明な機械学習モデル(ML)を理解するために使われる単純な代理モデルの中には、科学的な玩具モデルに類似しているものもある。 これらは、不透明なMLモデルが、入力空間の最も関連性の高い特徴と出力に対するそれらの影響を強調する、はるかに単純なモデルを介して、世界規模でどのように機能するかを理解することを可能にする。 明らかな違いは、おもちゃの一般的なターゲットと科学におけるフルスケールモデルが世界で何らかの現象であり、代理モデルのターゲットが別のモデルであることだ。 この本質的な違いは、おもちゃ代理モデル(TSM)を理解論の新しい研究対象とし、これは現在の分析では容易には受け入れられない。 本稿では,このような単純なモデルの助けを借りて,不透明なMLモデルを世界規模で理解することの意味について述べる。

In the natural and social sciences, it is common to use toy models -- extremely simple and highly idealized representations -- to understand complex phenomena. Some of the simple surrogate models used to understand opaque machine learning (ML) models, such as rule lists and sparse decision trees, bear some resemblance to scientific toy models. They allow non-experts to understand how an opaque ML model works globally via a much simpler model that highlights the most relevant features of the input space and their effect on the output. The obvious difference is that the common target of a toy and a full-scale model in the sciences is some phenomenon in the world, while the target of a surrogate model is another model. This essential difference makes toy surrogate models (TSMs) a new object of study for theories of understanding, one that is not easily accommodated under current analyses. This paper provides an account of what it means to understand an opaque ML model globally with the aid of such simple models.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-08
# 画像修正に応用した畳み込みニューラルネットワーク

Convolutional neural networks applied to modification of images ( http://arxiv.org/abs/2410.05680v1 )

ライセンス: Link先を確認
Carlos I. Aguirre-Velez, Jose Antonio Arciniega-Nevarez, Eric Dolores-Cuenca, (参考訳) 読者は線形代数と計算を用いてデジタル画像の編集方法を学ぶ。 畳み込みニューラルネットワークのような機械学習技術へのフィルターの概念から始める。

The reader will learn how digital images are edited using linear algebra and calculus. Starting from the concept of filter towards machine learning techniques such as convolutional neural networks.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-08
# 動的グラフにおける異常検出のための特徴残差の極値モデリング

Extreme Value Modelling of Feature Residuals for Anomaly Detection in Dynamic Graphs ( http://arxiv.org/abs/2410.05687v1 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi, Conrad Sanderson, Rob J. Hyndman, (参考訳) グラフの時間列における異常を検出することは、トランスポートネットワークにおける事故の検出や、コンピュータネットワークにおけるサイバー攻撃のような分野である。 既存の異常グラフ検出方法は、高い偽陽性率、可変サイズのグラフの扱いの難しさ、非自明な時間ダイナミクスなど、複数の制限に悩まされることがある。 そこで本研究では,時間的依存を時系列解析によって時間的依存を明示的にモデル化し,残差を用いて依存を除去する手法を提案する。 極値理論(Extreme Value Theory)は、残りの極値のモデルと分類に用いられ、低い偽陽性率を生み出すことを目的としている。 複数のグラフインスタンスの比較評価の結果,提案手法はTensorSplatやLaplacian Anomaly Detectionよりも精度が高いことがわかった。

Detecting anomalies in a temporal sequence of graphs can be applied is areas such as the detection of accidents in transport networks and cyber attacks in computer networks. Existing methods for detecting abnormal graphs can suffer from multiple limitations, such as high false positive rates as well as difficulties with handling variable-sized graphs and non-trivial temporal dynamics. To address this, we propose a technique where temporal dependencies are explicitly modelled via time series analysis of a large set of pertinent graph features, followed by using residuals to remove the dependencies. Extreme Value Theory is then used to robustly model and classify any remaining extremes, aiming to produce low false positives rates. Comparative evaluations on a multitude of graph instances show that the proposed approach obtains considerably better accuracy than TensorSplat and Laplacian Anomaly Detection.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# 長期線形システム同定

Long-Context Linear System Identification ( http://arxiv.org/abs/2410.05690v1 )

ライセンス: Link先を確認
Oğuz Kaan Yüksel, Mathieu Even, Nicolas Flammarion, (参考訳) 本稿は,時間帯の動的システムの状態$x_t$が,長さ$p$の固定コンテキストウィンドウ上の以前の状態$x_s$に線形に依存するという,長期コンテキスト線形システム同定の問題に対処する。 我々は、幅広い種類のシステムに対する対数的因子までのパラメトリックレートに一致するサンプル複雑性を定め、一階依存のみを考慮した以前の研究を拡張した。 この結果から,長期コンテキスト線形自己回帰モデルの学習は,コンテキストウィンドウの拡張に関連がある可能性のある遅い混合特性によって妨げられなくなることが示唆された。 さらに、これらの結果を拡張します。 (i)階数正規化推定器が次元性に関して速度を向上する低ランク表現 (II) 厳密な安定なシステムでは、短いコンテキストが統計的に有利な場合において、不特定コンテキスト長が成立する。

This paper addresses the problem of long-context linear system identification, where the state $x_t$ of a dynamical system at time $t$ depends linearly on previous states $x_s$ over a fixed context window of length $p$. We establish a sample complexity bound that matches the i.i.d. parametric rate up to logarithmic factors for a broad class of systems, extending previous works that considered only first-order dependencies. Our findings reveal a learning-without-mixing phenomenon, indicating that learning long-context linear autoregressive models is not hindered by slow mixing properties potentially associated with extended context windows. Additionally, we extend these results to (i) shared low-rank representations, where rank-regularized estimators improve rates with respect to dimensionality, and (ii) misspecified context lengths in strictly stable systems, where shorter contexts offer statistical advantages.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# DiffusionGuard: 悪意のある拡散に基づく画像編集に対するロバストな防御

DiffusionGuard: A Robust Defense Against Malicious Diffusion-based Image Editing ( http://arxiv.org/abs/2410.05694v1 )

ライセンス: Link先を確認
June Suk Choi, Kyungmin Lee, Jongheon Jeong, Saining Xie, Jinwoo Shin, Kimin Lee, (参考訳) 拡散モデルの最近の進歩は、ユーザーが単純なテキストプロンプトでリアルに編集された画像を作成できるように、テキスト誘導画像操作の新しい時代をもたらした。 しかし、これらの方法の潜在的な誤用、特に誤解を招くコンテンツや有害なコンテンツの作成には、大きな懸念がある。 モデル障害を誘発するために非知覚的対向ノイズを導入した近年の防衛戦略は、将来性を示しているが、マスクによる編集のようなより洗練された操作には効果がない。 本研究では,拡散に基づく画像編集モデルによる不正な編集に対する堅牢かつ効果的な防御手法であるDiffusionGuardを提案する。 これらのモデルの詳細な解析を通じて,拡散過程の初期段階をターゲットとした対向雑音を発生させる新しい目的を導入する。 このアプローチは、対向雑音の効率と有効性を大幅に改善する。 また,テスト期間中の各種マスクに対するロバスト性を高めるマスク強化手法も導入した。 最後に,現実シナリオにおけるプライバシの脅威から保護する手法の有効性と堅牢性を評価するための総合的なベンチマークを提案する。 より広範な実験により,本手法は,最強ベースラインに比べて計算コストの低いマスクロバスト性を向上し,より強力な保護を実現することを示す。 さらに, 本手法は, ベースライン法に比べ, 高い伝達性, 耐雑音性を示す。 ソースコードはhttps://github.com/choi403/DiffusionGuard.comで公開されています。

Recent advances in diffusion models have introduced a new era of text-guided image manipulation, enabling users to create realistic edited images with simple textual prompts. However, there is significant concern about the potential misuse of these methods, especially in creating misleading or harmful content. Although recent defense strategies, which introduce imperceptible adversarial noise to induce model failure, have shown promise, they remain ineffective against more sophisticated manipulations, such as editing with a mask. In this work, we propose DiffusionGuard, a robust and effective defense method against unauthorized edits by diffusion-based image editing models, even in challenging setups. Through a detailed analysis of these models, we introduce a novel objective that generates adversarial noise targeting the early stage of the diffusion process. This approach significantly improves the efficiency and effectiveness of adversarial noises. We also introduce a mask-augmentation technique to enhance robustness against various masks during test time. Finally, we introduce a comprehensive benchmark designed to evaluate the effectiveness and robustness of methods in protecting against privacy threats in realistic scenarios. Through extensive experiments, we show that our method achieves stronger protection and improved mask robustness with lower computational costs compared to the strongest baseline. Additionally, our method exhibits superior transferability and better resilience to noise removal techniques compared to all baseline methods. Our source code is publicly available at https://github.com/choi403/DiffusionGuard.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# 最優先事項:最小ハイパーパラメータチューニングによるグラフニューラルネットワークの強化

Diffusing to the Top: Boost Graph Neural Networks with Minimal Hyperparameter Tuning ( http://arxiv.org/abs/2410.05697v1 )

ライセンス: Link先を確認
Lequan Lin, Dai Shi, Andi Han, Zhiyong Wang, Junbin Gao, (参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習に長けており、ノード分類やリンク予測といった多目的なタスクにおいて有望な性能を達成する。 通常、GNNのトップパフォーマンスを完全にアンロックするためには、特に大きなグラフ上のノード分類や長距離グラフのような複雑なタスクには、包括的なハイパーパラメータチューニングが不可欠である。 これは通常、高い計算と時間コストと適切な検索空間の注意深い設計と関連付けられている。 本研究は,光チューニング粗い探索により選択された準最適ハイパーパラメータのモデルチェックポイントに基づいて,高性能なGNNを生成するグラフ条件付潜時拡散フレームワーク(GNN-Diff)を提案する。 提案手法は,小,大,長距離グラフ上のノード分類とリンク予測という4つのグラフタスクを対象とした166の実験を通じて検証する。 実験には10の古典的で最先端のターゲットモデルと20の公開データセットが含まれています。 その結果,(1)効率の良いハイパーパラメータチューニングによるGNNの性能向上,(2)複数の世代にわたる未確認データに対して高い安定性と一般化性を示すことがわかった。 コードはhttps://github.com/lequanlin/GNN-Diffで公開されている。

Graph Neural Networks (GNNs) are proficient in graph representation learning and achieve promising performance on versatile tasks such as node classification and link prediction. Usually, a comprehensive hyperparameter tuning is essential for fully unlocking GNN's top performance, especially for complicated tasks such as node classification on large graphs and long-range graphs. This is usually associated with high computational and time costs and careful design of appropriate search spaces. This work introduces a graph-conditioned latent diffusion framework (GNN-Diff) to generate high-performing GNNs based on the model checkpoints of sub-optimal hyperparameters selected by a light-tuning coarse search. We validate our method through 166 experiments across four graph tasks: node classification on small, large, and long-range graphs, as well as link prediction. Our experiments involve 10 classic and state-of-the-art target models and 20 publicly available datasets. The results consistently demonstrate that GNN-Diff: (1) boosts the performance of GNNs with efficient hyperparameter tuning; and (2) presents high stability and generalizability on unseen data across multiple generation runs. The code is available at https://github.com/lequanlin/GNN-Diff.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# データ効率の良いフランス語発音学習のための2ステップアプローチ

A Two-Step Approach for Data-Efficient French Pronunciation Learning ( http://arxiv.org/abs/2410.05698v1 )

ライセンス: Link先を確認
Hoyeon Lee, Hyeeun Jang, Jong-Hwan Kim, Jae-Min Kim, (参考訳) 最近の研究はフランス語の複雑な音韻現象に対処しており、広範な言語知識や文レベルの発音データに依存している。 しかし、そのようなリソースを作成するのは費用がかかり、簡単ではない。 そこで本研究では,グラファイム・トゥ・フォーマムとポストレクシカル処理という2つの発音課題を含む2段階の手法を提案する。 提案手法の有効性を,特に文レベルの発音データに限定して検討した。 提案手法は, 資源制約環境下においても, 広範囲なラベル付きデータの欠如を効果的に軽減し, フランス語の音韻現象に対処するための有効な解決策として有効であることを示す。

Recent studies have addressed intricate phonological phenomena in French, relying on either extensive linguistic knowledge or a significant amount of sentence-level pronunciation data. However, creating such resources is expensive and non-trivial. To this end, we propose a novel two-step approach that encompasses two pronunciation tasks: grapheme-to-phoneme and post-lexical processing. We then investigate the efficacy of the proposed approach with a notably limited amount of sentence-level pronunciation data. Our findings demonstrate that the proposed two-step approach effectively mitigates the lack of extensive labeled data, and serves as a feasible solution for addressing French phonological phenomena even under resource-constrained environments.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# バリア付き凸体上での対数凹面サンプリング:ロバストで統一されたダイキンウォーク

Log-concave Sampling over a Convex Body with a Barrier: a Robust and Unified Dikin Walk ( http://arxiv.org/abs/2410.05700v1 )

ライセンス: Link先を確認
Yuzhou Gu, Nikki Lijing Kuang, Yi-An Ma, Zhao Song, Lichen Zhang, (参考訳) 我々は、$d$-dimensional log-concave distribution $\pi(\theta) \propto \exp(-f(\theta))$ for $L$-Lipschitz $f$, noted to a convex body with a efficientcomputable self-concordant barrier function, contained in a radius $R$ with a $w$-warm start。 本稿では,各繰り返しにおける障壁関数のヘシアンに対するスペクトル近似を計算したemph{robust}サンプリングフレームワークを提案する。 我々は、$n$超平面で説明されるポリトープに対して、Lee-Sidford障壁関数を用いたサンプリングは、$\widetilde O((d^2+dL^2R^2)\log(w/\delta))$ steps with a step cost of $\widetilde O(nd^{\omega-1})$, where $\omega\approx 2.37$ is the fast matrix multiplication exponent。 Mangoubi と Vishnoi の以前の研究と比較すると、我々のアプローチは、ログバリアを超えて、一般化されたソフトスレッショルドな Dikin ウォークを設計できるため、より高速な混合時間をもたらす。 さらに、この結果を拡張して、半定値プログラムの制約付き集合である$d$-次元 spectrahedron のサンプル方法を示す: ${x\in \mathbb{R}^d: \sum_{i=1}^d x_i A_i \succeq C \}$ ここで、$A_1,\ldots,A_d, C$は$n\times n$実対称行列である。 我々は,$\widetilde O(((nd+dL^2R^2)\log(w/\delta))$の反復コストが$\widetilde O(n^\omega+n^2d^{3\omega-5})$のステップを混合したウォークを設計する。 我々は,ナラヤナンとラークリンによる先進的ディキンウォークの混合時間を改善するために,$\widetilde O((n^2d^3+n^2dL^2R^2)\log(w/\delta))$ stepsを混合する。

We consider the problem of sampling from a $d$-dimensional log-concave distribution $\pi(\theta) \propto \exp(-f(\theta))$ for $L$-Lipschitz $f$, constrained to a convex body with an efficiently computable self-concordant barrier function, contained in a ball of radius $R$ with a $w$-warm start. We propose a \emph{robust} sampling framework that computes spectral approximations to the Hessian of the barrier functions in each iteration. We prove that for polytopes that are described by $n$ hyperplanes, sampling with the Lee-Sidford barrier function mixes within $\widetilde O((d^2+dL^2R^2)\log(w/\delta))$ steps with a per step cost of $\widetilde O(nd^{\omega-1})$, where $\omega\approx 2.37$ is the fast matrix multiplication exponent. Compared to the prior work of Mangoubi and Vishnoi, our approach gives faster mixing time as we are able to design a generalized soft-threshold Dikin walk beyond log-barrier. We further extend our result to show how to sample from a $d$-dimensional spectrahedron, the constrained set of a semidefinite program, specified by the set $\{x\in \mathbb{R}^d: \sum_{i=1}^d x_i A_i \succeq C \}$ where $A_1,\ldots,A_d, C$ are $n\times n$ real symmetric matrices. We design a walk that mixes in $\widetilde O((nd+dL^2R^2)\log(w/\delta))$ steps with a per iteration cost of $\widetilde O(n^\omega+n^2d^{3\omega-5})$. We improve the mixing time bound of prior best Dikin walk due to Narayanan and Rakhlin that mixes in $\widetilde O((n^2d^3+n^2dL^2R^2)\log(w/\delta))$ steps.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# 制約付き組合せ最適化のための圧縮空間量子近似最適化アルゴリズム

Compressed space quantum approximate optimization algorithm for constrained combinatorial optimization ( http://arxiv.org/abs/2410.05703v1 )

ライセンス: Link先を確認
Tatsuhiko Shirai, Nozomu Togawa, (参考訳) 組合せ最適化は量子スピードアップを達成する上で有望な分野である。 量子近似最適化アルゴリズム(QAOA)は、組合せ最適化問題(COP)の準最適解に対応するIsingモデルの低エネルギー状態を求めるように設計されている。 しかし、COPの制約を効果的に扱うことは依然として大きな課題である。 混合演算子を調整するといった既存の手法は、通常1ホット制約のような特定の制約タイプに限られる。 これらの制約に対処するため、圧縮された空間を設計する手法を導入し、その実現可能な解空間を元のより少ないキュービットで表現する。 我々の手法は、ゲートベースの量子コンピュータ上で圧縮された空間と元の空間の間のユニタリ変換を決定するスケーラブルな手法を含む。 次に、この縮小空間内の準最適解を求める圧縮空間 QAOA を提案し、元のヒルベルト空間で定式化されたイジングモデルを利用する。 量子シミュレータの実験結果から,様々な制約付きCOPの解法の有効性が示された。

Combinatorial optimization is a promising area for achieving quantum speedup. Quantum approximate optimization algorithm (QAOA) is designed to search for low-energy states of the Ising model, which correspond to near-optimal solutions of combinatorial optimization problems (COPs). However, effectively dealing with constraints of COPs remains a significant challenge. Existing methods, such as tailoring mixing operators, are typically limited to specific constraint types, like one-hot constraints. To address these limitations, we introduce a method for engineering a compressed space that represents the feasible solution space with fewer qubits than the original. Our approach includes a scalable technique for determining the unitary transformation between the compressed and original spaces on gate-based quantum computers. We then propose compressed space QAOA, which seeks near-optimal solutions within this reduced space, while utilizing the Ising model formulated in the original Hilbert space. Experimental results on a quantum simulator demonstrate the effectiveness of our method in solving various constrained COPs.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-08
# PixLens: オブジェクト検出+SAMによる拡散ベースの画像編集におけるアンタングル評価のための新しいフレームワーク

PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM ( http://arxiv.org/abs/2410.05710v1 )

ライセンス: Link先を確認
Stefan Stefanache, Lluís Pastor Pérez, Julen Costa Watanabe, Ernesto Sanchez Tejedor, Thomas Hofmann, Enis Simsar, (参考訳) 拡散に基づく画像編集モデルの評価は、生成AI分野における重要な課題である。 具体的には、画像の内容とリアリズムを保ちながら、多様な編集タスクを実行する能力を評価することが不可欠である。 近年の生成モデル開発は画像編集の可能性を秘めているが、これらのモデルの徹底的な評価は依然として困難かつオープンな課題である。 標準化された評価ベンチマークが欠如していることは、主に、評価のために編集後参照画像を必要とするため、この問題をさらに複雑にしている。 現在、評価はCLIPのような確立したモデルに依存している場合や、これらの画像編集モデルの性能の包括的な理解のために人間の介入を必要とする場合が多い。 我々のベンチマークであるPixLensは、編集品質と潜在表現の歪みを総合的に評価し、この分野における既存の方法論の進歩と洗練に寄与する。

Evaluating diffusion-based image-editing models is a crucial task in the field of Generative AI. Specifically, it is imperative to assess their capacity to execute diverse editing tasks while preserving the image content and realism. While recent developments in generative models have opened up previously unheard-of possibilities for image editing, conducting a thorough evaluation of these models remains a challenging and open task. The absence of a standardized evaluation benchmark, primarily due to the inherent need for a post-edit reference image for evaluation, further complicates this issue. Currently, evaluations often rely on established models such as CLIP or require human intervention for a comprehensive understanding of the performance of these image editing models. Our benchmark, PixLens, provides a comprehensive evaluation of both edit quality and latent representation disentanglement, contributing to the advancement and refinement of existing methodologies in the field.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# 自己教師型時系列予測のための拡散自己回帰変換器

Diffusion Auto-regressive Transformer for Effective Self-supervised Time Series Forecasting ( http://arxiv.org/abs/2410.05711v1 )

ライセンス: Link先を確認
Daoyu Wang, Mingyue Cheng, Zhiding Liu, Qi Liu, Enhong Chen, (参考訳) 自己教師付き学習は、ラベルのないデータから普遍的な表現を学習できる時系列予測の強化に人気があり、効果的なアプローチとなっている。 しかし,グローバルシーケンス依存と時系列データ内の局所的詳細特徴の両方を効果的に捉えることは困難である。 そこで本研究では,時系列予測のための拡散自己回帰変換器を記述した,TimeDARTと呼ばれる新たな自己制御手法を提案する。 TimeDARTでは、時系列パッチを基本的なモデリング単位として扱う。 具体的には、パッチ間の依存関係をモデル化するために、自己アテンションベースのTransformerエンコーダを用いる。 さらに, パッチ内における局所性の特徴を詳細に把握するための拡散・復調機構を導入する。 特に、自己教師付きタスクにおいて、調整可能な最適化難易度を実現し、より効果的な自己教師付き事前訓練を容易にする、横断的注意に基づく復号化デコーダを設計する。 さらに、モデル全体が自動回帰的に最適化され、転送可能な表現が得られる。 大規模な実験により、TimeDARTはタスク予測における最も先進的な競合手法と比較して最先端の微調整性能を達成することが示された。 私たちのコードはhttps://github.com/Melmaphother/TimeDART.comで公開されています。

Self-supervised learning has become a popular and effective approach for enhancing time series forecasting, enabling models to learn universal representations from unlabeled data. However, effectively capturing both the global sequence dependence and local detail features within time series data remains challenging. To address this, we propose a novel generative self-supervised method called TimeDART, denoting Diffusion Auto-regressive Transformer for Time series forecasting. In TimeDART, we treat time series patches as basic modeling units. Specifically, we employ an self-attention based Transformer encoder to model the dependencies of inter-patches. Additionally, we introduce diffusion and denoising mechanisms to capture the detail locality features of intra-patch. Notably, we design a cross-attention-based denoising decoder that allows for adjustable optimization difficulty in the self-supervised task, facilitating more effective self-supervised pre-training. Furthermore, the entire model is optimized in an auto-regressive manner to obtain transferable representations. Extensive experiments demonstrate that TimeDART achieves state-of-the-art fine-tuning performance compared to the most advanced competitive methods in forecasting tasks. Our code is publicly available at https://github.com/Melmaphother/TimeDART.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# 時間ゲーティングによるビデオLLMの時間的モデリングの強化

Enhancing Temporal Modeling of Video LLMs via Time Gating ( http://arxiv.org/abs/2410.05714v1 )

ライセンス: Link先を確認
Zi-Yuan Hu, Yiwu Zhong, Shijia Huang, Michael R. Lyu, Liwei Wang, (参考訳) ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。 しかし、既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。 このギャップに対処するために、新しいTime Gating Module (TG) を通して時間的モデリングを強化するためのTime Gating Video LLM (TG-Vid) を提案する。 TGモジュールは、時空間の注意、時空間の注意、時空間の注意、時空間の注意、時空間のMLPを含む時時ゲーティング機構をサブモジュールに採用している。 このアーキテクチャにより、ビデオ内の時間情報の堅牢な理解が可能になる。 時間感受性ビデオベンチマーク(MVBench, TempCompass, NExT-QA)の広範囲な評価により, 既存のビデオLLMよりもTG-Vidモデルの方が優れていることが示された。 さらに、総合的なアブレーション研究により、性能向上は、我々のTGモジュールの設計によるものであることが検証された。 私たちのコードはhttps://github.com/LaVi-Lab/TG-Vid.comで公開されています。

Video Large Language Models (Video LLMs) have achieved impressive performance on video-and-language tasks, such as video question answering. However, most existing Video LLMs neglect temporal information in video data, leading to struggles with temporal-aware video understanding. To address this gap, we propose a Time Gating Video LLM (TG-Vid) designed to enhance temporal modeling through a novel Time Gating module (TG). The TG module employs a time gating mechanism on its sub-modules, comprising gating spatial attention, gating temporal attention, and gating MLP. This architecture enables our model to achieve a robust understanding of temporal information within videos. Extensive evaluation of temporal-sensitive video benchmarks (i.e., MVBench, TempCompass, and NExT-QA) demonstrates that our TG-Vid model significantly outperforms the existing Video LLMs. Further, comprehensive ablation studies validate that the performance gains are attributed to the designs of our TG module. Our code is available at https://github.com/LaVi-Lab/TG-Vid.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# Mero Nagarikta:Deep Learning-Powered Text Detection and OCRによるネパール市民データエクストラクタ

Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR ( http://arxiv.org/abs/2410.05721v1 )

ライセンス: Link先を確認
Sisir Dhakal, Sujan Sigdel, Sandesh Prasad Paudel, Sharad Kumar Ranabhat, Nabin Lamichhane, (参考訳) ネパールの市民権カードのようなテキストベースのID文書を構造化されたデジタルフォーマットに変換することは、ネパール文字の特徴の違いと印刷アライメントの微妙な変化と異なるカード間のコントラストのために、いくつかの課題を引き起こす。 そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。 このシステムは、モバイルアプリケーションのコンテキスト内で実装されており、ネパール市民権カードの表と裏の両方から、名前、市民権番号、出生日などの重要なテキスト情報を自動抽出することができる。 最後の YOLOv8 モデルは正確で、平均的なテキスト検出精度は99.1%、背面は96.1% であった。 ネパール文字向けに最適化されたテストされたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れ、クリーンでノイズの多い背景とさまざまなコントラストを持つ画像からテキストを抽出した。 画像のグレースケールへの変換、画像からのノイズの除去、エッジの検出といった前処理ステップを使用することで、低画質の写真でもOCRの精度が向上した。 この研究は、特にネパールなどの低リソース言語において、多言語OCRと文書分析における現在の研究体系を拡張している。 これは、OCRモデルと最新のオブジェクト検出フレームワークを組み合わせることの有効性を強調している。

Transforming text-based identity documents, such as Nepali citizenship cards, into a structured digital format poses several challenges due to the distinct characteristics of the Nepali script and minor variations in print alignment and contrast across different cards. This work proposes a robust system using YOLOv8 for accurate text object detection and an OCR algorithm based on Optimized PyTesseract. The system, implemented within the context of a mobile application, allows for the automated extraction of important textual information from both the front and the back side of Nepali citizenship cards, including names, citizenship numbers, and dates of birth. The final YOLOv8 model was accurate, with a mean average precision of 99.1% for text detection on the front and 96.1% on the back. The tested PyTesseract optimized for Nepali characters outperformed the standard OCR regarding flexibility and accuracy, extracting text from images with clean and noisy backgrounds and various contrasts. Using preprocessing steps such as converting the images into grayscale, removing noise from the images, and detecting edges further improved the system's OCR accuracy, even for low-quality photos. This work expands the current body of research in multilingual OCR and document analysis, especially for low-resource languages such as Nepali. It emphasizes the effectiveness of combining the latest object detection framework with OCR models that have been fine-tuned for practical applications.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# 拡張文脈の原理と表現について

On Principles and Representations for Extended Contextuality ( http://arxiv.org/abs/2410.05723v1 )

ライセンス: Link先を確認
Matt Jones, (参考訳) 近年、量子的文脈性の概念が、標準的文脈性の本質的性質を維持しつつ、乱れやシグナリングを持つシステムにまで拡張できるかどうかに注目が集まっている。 Dzhafarov と Kujala (arXiv:2302.1 1995) は、答えは常に肯定的であるという挑発的な議論を述べている: 標準的な文脈性が拡張された文脈性はそうでないという原則を満たすなら、その原理は表象の表象の選択に依存するため「非実体的」でなければならない。 彼らの議論は、すべてのシステムを非破壊的なシステムにマッピングし、文脈性を保存する ‘consistification'' の手順に基づいている。 本論では, 実体的原理が表現の変化の下でどのように表現を変えるか, 原理が非実体的変換に基づいていると仮定して疑問を投げかけること, 文脈性の任意の拡張に対して普遍的に議論が適用されること, など, 議論に対する異議を提起する。

There has been recent interest in whether the concept of quantum contextuality can be extended to systems with disturbance or signaling while retaining the essential properties of standard contextuality. Dzhafarov and Kujala (arXiv:2302.11995) offer a provocative argument that the answer is always affirmative: If standard contextuality satisfies some principle that extended contextuality does not, then that principle must be `non-substantive' in that it depends on a superficial choice of representation. Their argument is based on a ``consistification'' procedure that maps all systems to nondisturbing ones and that preserves contextuality. This paper raises several objections to their argument, including that it neglects how substantive principles change their expression under a change of representation, that it begs the question by presuming the principles are based on non-substantive transformations, and that the argument applies universally to arbitrary extensions of contextuality.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# 以下:時系列予測のための間隔とEsiformerとの補間を受け入れる

Less is more: Embracing sparsity and interpolation with Esiformer for time series forecasting ( http://arxiv.org/abs/2410.05726v1 )

ライセンス: Link先を確認
Yangyang Guo, Yanjun Zhao, Sizhe Dang, Tian Zhou, Liang Sun, Yi Qian, (参考訳) 時系列予測は多くの実践的な分野で重要な役割を果たしてきた。 しかし、実世界のアプリケーションから生成された時系列データは、常に高いばらつきと多くのノイズを示すため、データ固有の周期パターンを捉えることは困難であり、予測精度を著しく損なう。 この問題に対処するために、元のデータに補間を適用し、データの全体的な分散を減らし、ノイズの影響を軽減するEsiformerを提案する。 さらに,頑健なスパースFFNでバニラ変圧器を改良した。 モデル表現能力を効果的に向上し、優れた堅牢性を維持し、バニラ実装と比較して過度に適合するリスクを回避できる。 実世界の挑戦的データセットの評価を通じて,本手法は主モデルであるPatchTSTより優れ,MSEが6.5%,MAEが5.8%,多変量時系列予測が5.8%向上した。 コードは、https://github.com/yyg1282142265/Esiformer/tree/mainで入手できる。

Time series forecasting has played a significant role in many practical fields. But time series data generated from real-world applications always exhibits high variance and lots of noise, which makes it difficult to capture the inherent periodic patterns of the data, hurting the prediction accuracy significantly. To address this issue, we propose the Esiformer, which apply interpolation on the original data, decreasing the overall variance of the data and alleviating the influence of noise. What's more, we enhanced the vanilla transformer with a robust Sparse FFN. It can enhance the representation ability of the model effectively, and maintain the excellent robustness, avoiding the risk of overfitting compared with the vanilla implementation. Through evaluations on challenging real-world datasets, our method outperforms leading model PatchTST, reducing MSE by 6.5% and MAE by 5.8% in multivariate time series forecasting. Code is available at: https://github.com/yyg1282142265/Esiformer/tree/main.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# 概念格子によるファジィ関係方程式の低減

Reducing fuzzy relation equations via concept lattices ( http://arxiv.org/abs/2410.05728v1 )

ライセンス: Link先を確認
David Lobo, Víctor López-Marchante, Jesús Medina, (参考訳) 本稿では,ファジィ関係式(FRE)と概念格子の関係を利用して,情報を失うことなくFREを減らす手法を提案する。 具体的には、プロパティ指向およびオブジェクト指向の概念格子における属性還元理論を、冗長方程式を検出するメカニズムを示すために検討した。 第一に、解答可能なFREの解集合全体の計算を小さくする。 さらに,不確かさ/不正確なデータを含む(実)データセットに関連する未解決FREの近似解の計算方法についても紹介する。

This paper has taken into advantage the relationship between Fuzzy Relation Equations (FRE) and Concept Lattices in order to introduce a procedure to reduce a FRE, without losing information. Specifically, attribute reduction theory in property-oriented and object-oriented concept lattices has been considered in order to present a mechanism for detecting redundant equations. As a first consequence, the computation of the whole solution set of a solvable FRE is reduced. Moreover, we will also introduce a novel method for computing approximate solutions of unsolvable FRE related to a (real) dataset with uncertainty/imprecision data.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration

Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration ( http://arxiv.org/abs/2410.05729v1 )

ライセンス: Link先を確認
Xueyang Kang, Zhaoliang Luan, Kourosh Khoshelham, Bing Wang, (参考訳) ポイントクラウド登録は、3Dアライメントと再構築のための基礎的なタスクである。 従来型と学習型の両方の登録手法が成功したが、回転同値を含む点雲データの固有対称性を利用するには不十分な注意が払われている。 これにより、モデルは効果的に学習できなくなり、より多くのトレーニングデータが必要となり、モデルの複雑さが増大する。 これらの課題に対処するために,SE(3)メッセージパッシングに基づく伝搬による局所球面ユークリッド3次元等分散特性を組み込んだグラフニューラルネットワークモデルを提案する。 我々のモデルは、主に記述モジュール、同変グラフ層、類似性、最終的な回帰層から構成される。 このようなモジュラー設計により、疎サンプリングされた入力点を利用し、自己学習または事前学習された幾何学的特徴記述子により記述子を初期化することができる。 3DMatchおよびKITTIデータセットで実施された実験は、最先端のアプローチと比較して、我々のモデルの説得力と堅牢性を示す一方、モデルの複雑さは比較的低い。

Point cloud registration is a foundational task for 3D alignment and reconstruction applications. While both traditional and learning-based registration approaches have succeeded, leveraging the intrinsic symmetry of point cloud data, including rotation equivariance, has received insufficient attention. This prohibits the model from learning effectively, resulting in a requirement for more training data and increased model complexity. To address these challenges, we propose a graph neural network model embedded with a local Spherical Euclidean 3D equivariance property through SE(3) message passing based propagation. Our model is composed mainly of a descriptor module, equivariant graph layers, match similarity, and the final regression layers. Such modular design enables us to utilize sparsely sampled input points and initialize the descriptor by self-trained or pre-trained geometric feature descriptors easily. Experiments conducted on the 3DMatch and KITTI datasets exhibit the compelling and robust performance of our model compared to state-of-the-art approaches, while the model complexity remains relatively low at the same time.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# 最小限のマルチアーマッドバンドへのミニマリストアプローチ

Diminishing Exploration: A Minimalist Approach to Piecewise Stationary Multi-Armed Bandits ( http://arxiv.org/abs/2410.05734v1 )

ライセンス: Link先を確認
Kuan-Ta Li, Ping-Chun Hsieh, Yu-Chih Huang, (参考訳) ピースワイズ定常バンディット問題は、報酬分布の急激な変化を考察する多武装バンディット問題の重要な変種である。 問題の主なテーマは、環境変化を検出する探索と、従来のバンディットアルゴリズムの活用の間のトレードオフである。 この問題は広く研究されているが、既存の研究は変更点数に関する知識を$M$とするか、あるいは非常に高い計算複雑性を必要とする。 本研究では,ミニマリストの観点から,楽観的な帯域幅問題を再考する。 提案手法は,M$に関する知識を不要にし,既存の変化検出に基づくアルゴリズムと組み合わせて,ほぼ最適に後悔するスケーリングを実現することができる。 シミュレーションの結果は、$M(100万ドル)の難しさにもかかわらず、提案された探索の減少によって既存のアルゴリズムを取り入れることで、従来の一様探査よりも経験的な後悔を得られることを示している。

The piecewise-stationary bandit problem is an important variant of the multi-armed bandit problem that further considers abrupt changes in the reward distributions. The main theme of the problem is the trade-off between exploration for detecting environment changes and exploitation of traditional bandit algorithms. While this problem has been extensively investigated, existing works either assume knowledge about the number of change points $M$ or require extremely high computational complexity. In this work, we revisit the piecewise-stationary bandit problem from a minimalist perspective. We propose a novel and generic exploration mechanism, called diminishing exploration, which eliminates the need for knowledge about $M$ and can be used in conjunction with an existing change detection-based algorithm to achieve near-optimal regret scaling. Simulation results show that despite oblivious of $M$, equipping existing algorithms with the proposed diminishing exploration generally achieves better empirical regret than the traditional uniform exploration.
翻訳日:2024-11-01 13:19:50 公開日:2024-10-08
# CUBE360:バーチャルリアリティのための単眼360度推定のための立方体場表現学習

CUBE360: Learning Cubic Field Representation for Monocular 360 Depth Estimation for Virtual Reality ( http://arxiv.org/abs/2410.05735v1 )

ライセンス: Link先を確認
Wenjie Chang, Hao Ai, Tianzhu Zhang, Lin Wang, (参考訳) パノラマ画像は総合的なシーン情報を提供し、VRアプリケーションに適している。 没入的かつ対話的な体験を達成するためには,対応する深度マップの取得が不可欠である。 しかしながら、パノラマ深さ推定は、等方射影(ERP)による激しい歪みと、パノラマRGB-Dデータセットの可用性の制限により、重大な課題を呈している。 ニューラルレンダリングの最近の成功に触発された新しい手法である $\mathbf{CUBE360}$ は、単一のパノラマ画像から複数のMPIからなる立方体場を学習し、任意の視点で深度推定を行う。 我々のCUBE360は立方体投影を用いて、ERP画像を6つの面に変換し、それぞれにMPIを抽出することで、高解像度データのMPI処理に必要なメモリ消費を減らす。 さらに、このアプローチは、等角射影に固有の不均一な画素分布を扱うという計算複雑性を回避している。 次に、注意に基づくブレンディングモジュールを用いて、立方体面のMPI間の相関関係を学習し、様々な深さレベルで色と密度情報を持つ立方体場表現を構築する。 さらに、立方体と平面の両方で立方体からの新規なビューをレンダリングするための新しいサンプリング戦略を導入した。 パイプライン全体は、自己教師付き学習アプローチ内でレンダリングされたビューから算出した測光損失を使用してトレーニングされる。 合成と実世界の両方のデータセットの実験は、従来のSSL方式と比較してCUBE360の優れた性能を示している。 また,VRローミングや視覚効果などの下流アプリケーションにおいて,CUBE360の没入感を高める可能性を強調した。

Panoramic images provide comprehensive scene information and are suitable for VR applications. Obtaining corresponding depth maps is essential for achieving immersive and interactive experiences. However, panoramic depth estimation presents significant challenges due to the severe distortion caused by equirectangular projection (ERP) and the limited availability of panoramic RGB-D datasets. Inspired by the recent success of neural rendering, we propose a novel method, named $\mathbf{CUBE360}$, that learns a cubic field composed of multiple MPIs from a single panoramic image for $\mathbf{continuous}$ depth estimation at any view direction. Our CUBE360 employs cubemap projection to transform an ERP image into six faces and extract the MPIs for each, thereby reducing the memory consumption required for MPI processing of high-resolution data. Additionally, this approach avoids the computational complexity of handling the uneven pixel distribution inherent to equirectangular projectio. An attention-based blending module is then employed to learn correlations among the MPIs of cubic faces, constructing a cubic field representation with color and density information at various depth levels. Furthermore, a novel sampling strategy is introduced for rendering novel views from the cubic field at both cubic and planar scales. The entire pipeline is trained using photometric loss calculated from rendered views within a self-supervised learning approach, enabling training on 360 videos without depth annotations. Experiments on both synthetic and real-world datasets demonstrate the superior performance of CUBE360 compared to prior SSL methods. We also highlight its effectiveness in downstream applications, such as VR roaming and visual effects, underscoring CUBE360's potential to enhance immersive experiences.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# Array2BR:マイクロホンアレイ信号によるノイズ-免疫性バイノーラルオーディオ合成

Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals ( http://arxiv.org/abs/2410.05739v1 )

ライセンス: Link先を確認
Cheng Chi, Xiaoyu Li, Andong Li, Yuxuan Ke, Xiaodong Li, Chengshi Zheng, (参考訳) テレプレゼンス技術は,遠隔会議アプリケーションに没入型仮想プレゼンスを提供することを目的としており,高品質なバイノーラル音声信号を合成することが極めて重要である。 実運用シナリオでは環境雑音は避けられないことが多いため,マイクロホンアレイ信号から直接,雑音のないバイノーラル音声信号を得ることができることが望まれる。 そこで本研究では,マイクロホンアレイ信号を用いた音声合成フレームワークArray2BRを提案するとともに,バイノーラルキューを正しくマッピングし,ノイズを適切に抑制できることを示す。 従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。

Telepresence technology aims to provide an immersive virtual presence for remote conference applications, and it is extremely important to synthesize high-quality binaural audio signals for this aim. Because the ambient noise is often inevitable in practical application scenarios, it is highly desired that binaural audio signals without noise can be obtained from microphone-array signals directly. For this purpose, this paper proposes a new end-to-end noise-immune binaural audio synthesis framework from microphone-array signals, abbreviated as Array2BR, and experimental results show that binaural cues can be correctly mapped and noise can be well suppressed simultaneously using the proposed framework. Compared with existing methods, the proposed method achieved better performance in terms of both objective and subjective metric scores.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 能動探索とガウス過程回帰に基づくMPCによる極端旋回シーンでのレース学習

Learning to Race in Extreme Turning Scene with Active Exploration and Gaussian Process Regression-based MPC ( http://arxiv.org/abs/2410.05740v1 )

ライセンス: Link先を確認
Guoqiang Wu, Cheng Hu, Wangjia Weng, Zhouheng Li, Yonghao Fu, Lei Xie, Hongye Su, (参考訳) レースにおける極端なコーナーリングは、しばしば大きなサイドスリップ角を誘導し、車両制御において恐ろしい挑戦となる。 本稿では,AEDGPR(Active Exploration with Double GPR)システムを提案する。 このシステムは、ガウス過程回帰(GPR)補償モデルを用いて最小時間軌道を計画することで開始する。 計画結果は、コーナー部においてヨー角速度とサイドスリップ角が反対方向であることを示し、車両がドリフトしていることを示す。 そこで本研究では,モデル予測制御(MPC)に基づくドリフトコントローラを開発し,ガウス過程回帰を車両力学モデルにおける相違点の補正に組み込んだ。 さらに, GPRからの共分散は, 軌跡追跡誤差の最小化を目的として, 様々なコーナー状態の探索に有効である。 提案アルゴリズムは,Simulink-Carsimプラットフォーム上でのシミュレーションと,1/10スケールのRC車両を用いた実験により検証された。

Extreme cornering in racing often induces large side-slip angles, presenting a formidable challenge in vehicle control. To tackle this issue, this paper introduces an Active Exploration with Double GPR (AEDGPR) system. The system initiates by planning a minimum-time trajectory with a Gaussian Process Regression(GPR) compensated model. The planning results show that in the cornering section, the yaw angular velocity and side-slip angle are in opposite directions, indicating that the vehicle is drifting. In response, we develop a drift controller based on Model Predictive Control (MPC) and incorporate Gaussian Process Regression to correct discrepancies in the vehicle dynamics model. Moreover, the covariance from the GPR is employed to actively explore various cornering states, aiming to minimize trajectory tracking errors. The proposed algorithm is validated through simulations on the Simulink-Carsim platform and experiments using a 1/10 scale RC vehicle.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 量子シャノンエントロピーによるランダウアー原理の導出

Deriving the Landauer Principle From the Quantum Shannon Entropy ( http://arxiv.org/abs/2410.05742v1 )

ライセンス: Link先を確認
Henrik J. Heelweg, Amro Dodin, Adam P. Willard, (参考訳) 我々は、量子状態と古典的な確率的不確実性の形式からコントリビューションを正式に分離するノイズのある熱環境と接触する量子状態の平衡確率分布の式を導出する。 この確率分布の統計力学的解釈により、任意の(可逆的あるいは可逆的な)量子状態変化に対する最小自由エネルギーコストの式を導出することができる。 この導出に基づいて、古典的なシステムとは対照的に、量子ビットを消去またはリセットするために必要な自由エネルギーは、ターゲット状態の忠実度と、主にシステムバスエンタングルメントのエントロピー効果による量子バス状態の数のような環境の物理的性質の両方に敏感に依存することを示した。

We derive an expression for the equilibrium probability distribution of a quantum state in contact with a noisy thermal environment that formally separates contributions from quantum and classical forms of probabilistic uncertainty. A statistical mechanical interpretation of this probability distribution enables us to derive an expression for the minimum free energy costs for arbitrary (reversible or irreversible) quantum state changes. Based on this derivation, we demonstrate that - in contrast to classical systems - the free energy required to erase or reset a qubit depends sensitively on both the fidelity of the target state and on the physical properties of the environment, such as the number of quantum bath states, due primarily to the entropic effects of system-bath entanglement.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# Wolf2Pack:動的パラメータ融合のためのオートフュージョンフレームワーク

Wolf2Pack: The AutoFusion Framework for Dynamic Parameter Fusion ( http://arxiv.org/abs/2410.05746v1 )

ライセンス: Link先を確認
Bowen Tian, Songning Lai, Yutao Yue, (参考訳) ディープラーニングの急速に発展する分野では、コンピュータビジョンや自然言語処理といったタスクにおいて、専門的なモデルが大きな進歩を遂げている。 しかし、この特殊化は、モデルがより広範なアプリケーションへの適応性に欠ける、断片化されたエコシステムに繋がる。 これを解決するために,事前訓練されたチェックポイントを使わずに,マルチタスク学習のための異なるモデルパラメータ(同じアーキテクチャで)を融合する,革新的なフレームワークであるAutoFusionを導入する。 教師なしのエンドツーエンドアプローチを使用して、AutoFusionは各レイヤのモデルパラメータを動的に置換し、ラベル付きデータを必要としない損失最小化プロセスを通じて組み合わせを最適化する。 一般的に使用されているベンチマークデータセットの実験を通じてAutoFusionの有効性を評価し、Weight Interpolation、Git Re-Basin、ZipItといった確立したメソッドよりも優れたパフォーマンスを示す。 私たちのフレームワークは、モデル統合のためのスケーラブルで柔軟なソリューションを提供し、将来の研究および実用的なアプリケーションのための強力なツールとして位置づけています。

In the rapidly evolving field of deep learning, specialized models have driven significant advancements in tasks such as computer vision and natural language processing. However, this specialization leads to a fragmented ecosystem where models lack the adaptability for broader applications. To overcome this, we introduce AutoFusion, an innovative framework that fuses distinct model parameters(with the same architecture) for multi-task learning without pre-trained checkpoints. Using an unsupervised, end-to-end approach, AutoFusion dynamically permutes model parameters at each layer, optimizing the combination through a loss-minimization process that does not require labeled data. We validate AutoFusion's effectiveness through experiments on commonly used benchmark datasets, demonstrating superior performance over established methods like Weight Interpolation, Git Re-Basin, and ZipIt. Our framework offers a scalable and flexible solution for model integration, positioning it as a powerful tool for future research and practical applications.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 目標レベルの文簡略化のためのラベル信頼度重み付き学習

Label Confidence Weighted Learning for Target-level Sentence Simplification ( http://arxiv.org/abs/2410.05748v1 )

ライセンス: Link先を確認
Xinying Qiu, Jingshen Zhang, (参考訳) 多水準文の単純化は、言語習熟度が異なる簡易文を生成する。 本稿では,ラベル信頼度重み付け方式をエンコーダ・デコーダモデルのトレーニング損失に組み込んだ新しい手法であるラベル信頼度重み付け学習(LCWL)を提案する。 英語のグレードレベルの単純化データセットの実験は、LCWLが最先端の教師なしベースラインより優れていることを示している。 LCWLモデルをドメイン内データに微調整し、SCE(Symmetric Cross Entropy)と組み合わせることで、強い教師付き手法に比べてずっと単純化されている。 本結果は,エンコーダ・デコーダアーキテクチャを用いたテキスト単純化作業におけるラベル信頼度重み付け手法の有効性を強調した。

Multi-level sentence simplification generates simplified sentences with varying language proficiency levels. We propose Label Confidence Weighted Learning (LCWL), a novel approach that incorporates a label confidence weighting scheme in the training loss of the encoder-decoder model, setting it apart from existing confidence-weighting methods primarily designed for classification. Experimentation on English grade-level simplification dataset shows that LCWL outperforms state-of-the-art unsupervised baselines. Fine-tuning the LCWL model on in-domain data and combining with Symmetric Cross Entropy (SCE) consistently delivers better simplifications compared to strong supervised methods. Our results highlight the effectiveness of label confidence weighting techniques for text simplification tasks with encoder-decoder architectures.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# ハードラベル設定における深部ニューラルネットワークのポリノミアル時間クリプトアナリシス抽出

Polynomial Time Cryptanalytic Extraction of Deep Neural Networks in the Hard-Label Setting ( http://arxiv.org/abs/2410.05750v1 )

ライセンス: Link先を確認
Nicholas Carlini, Jorge Chávez-Saab, Anna Hambitzer, Francisco Rodríguez-Henríquez, Adi Shamir, (参考訳) ディープニューラルネットワーク(DNN)は貴重な資産だが、その公開アクセシビリティは悪意のあるアクターによるパラメータ抽出に関するセキュリティ上の懸念を引き起こす。 Carlini et al (crypto'20) と Canales-Mart\'inez et al (eurocrypt'24) による最近の研究は、この問題と、選択された平文攻撃による暗号鍵抽出のブロックとを並列にしている。 差分暗号解析を利用して、ブラックボックスのReLUベースのDNNの重みと偏りを多項式数と計算時間を用いて推論できることを実証した。 しかし、それらの攻撃は出力ロジットの正確な数値が利用できることに依存しており、それによって微分の計算が可能になった。 この制限を克服するため、Chenら(asiacrypt'24)はより現実的なハードラベルのシナリオに取り組み、最終分類ラベル("dog"や"car"など)だけが攻撃者にアクセスできるようになった。 彼らは、多項式数のクエリを必要とするが指数的な実行時間を必要とする抽出法を提案した。 さらに、彼らのアプローチは制限されたアーキテクチャのみに適用でき、バイナリ分類器のみを扱うことができ、最大4つのニューロンが最大2つの隠れた層に分割された小さなニューラルネットワークでのみ実証された。 本稿では,DNNパラメータの暗号的抽出を,多項式数と多項式時間の両方を用いて,最も難しいハードラベル設定で実現した新しい手法を提案する。 我々は、CIFAR-10データセットで訓練されたDNNから、約100万のパラメータを抽出して、アプローチを検証する。 その結果、ReLUベースのDNNの全ての重みが、その決定境界の幾何学的形状のみを解析することによって効率的に決定できるという驚くべき事実が明らかになった。

Deep neural networks (DNNs) are valuable assets, yet their public accessibility raises security concerns about parameter extraction by malicious actors. Recent work by Carlini et al. (crypto'20) and Canales-Mart\'inez et al. (eurocrypt'24) has drawn parallels between this issue and block cipher key extraction via chosen plaintext attacks. Leveraging differential cryptanalysis, they demonstrated that all the weights and biases of black-box ReLU-based DNNs could be inferred using a polynomial number of queries and computational time. However, their attacks relied on the availability of the exact numeric value of output logits, which allowed the calculation of their derivatives. To overcome this limitation, Chen et al. (asiacrypt'24) tackled the more realistic hard-label scenario, where only the final classification label (e.g., "dog" or "car") is accessible to the attacker. They proposed an extraction method requiring a polynomial number of queries but an exponential execution time. In addition, their approach was applicable only to a restricted set of architectures, could deal only with binary classifiers, and was demonstrated only on tiny neural networks with up to four neurons split among up to two hidden layers. This paper introduces new techniques that, for the first time, achieve cryptanalytic extraction of DNN parameters in the most challenging hard-label setting, using both a polynomial number of queries and polynomial time. We validate our approach by extracting nearly one million parameters from a DNN trained on the CIFAR-10 dataset, comprising 832 neurons in four hidden layers. Our results reveal the surprising fact that all the weights of a ReLU-based DNN can be efficiently determined by analyzing only the geometric shape of its decision boundaries.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 高次元空間における最近傍探索の意義を探る

Exploring the Meaningfulness of Nearest Neighbor Search in High-Dimensional Space ( http://arxiv.org/abs/2410.05752v1 )

ライセンス: Link先を確認
Zhonghan Chen, Ruiyuan Zhang, Xi Zhao, Xiaojun Cheng, Xiaofang Zhou, (参考訳) コンピュータビジョン、機械学習、大規模言語モデル(LLM)といった分野において、高次元ベクトルはますます重要になってきており、マルチモーダルデータの標準表現として機能している。 現在、これらのベクトルの次元性は容易に数千を超えることができる。 これらの高次元ベクトルに対する近接探索(NNS)は、検索拡張生成(RAG)や他の多くの応用に広く用いられているが、「次元の曲線」によって引き起こされる可能性のある問題を考えると、そのような高次元空間におけるNSの有効性は依然として不明である。 上記の問題に対処するため、我々は様々な種類の埋め込みデータセットにまたがる距離関数(例えば$L_1$ distance,$L_2$ distance, and angular-distance)を用いて広範囲にわたるNNS研究を行っている。 本研究の目的は,NNSの意義に影響を及ぼす要因を検討することである。 実験の結果, 高次元テキスト埋め込みは, ランダムベクトルと比較して次元が高レベルになるにつれてレジリエンスが向上することがわかった。 このレジリエンスは、テキストの埋め込みが「次元の帰結」の影響を弱め、実践的により有意義なNNS結果をもたらすことを示唆している。 さらに、距離関数の選択は、NNSの関連性に最小限の影響を与える。 本研究は,埋め込み型データ表現法の有効性を示し,高密度ベクトル関連アプリケーションのさらなる最適化の機会を提供する。

Dense high dimensional vectors are becoming increasingly vital in fields such as computer vision, machine learning, and large language models (LLMs), serving as standard representations for multimodal data. Now the dimensionality of these vector can exceed several thousands easily. Despite the nearest neighbor search (NNS) over these dense high dimensional vectors have been widely used for retrieval augmented generation (RAG) and many other applications, the effectiveness of NNS in such a high-dimensional space remains uncertain, given the possible challenge caused by the "curse of dimensionality." To address above question, in this paper, we conduct extensive NNS studies with different distance functions, such as $L_1$ distance, $L_2$ distance and angular-distance, across diverse embedding datasets, of varied types, dimensionality and modality. Our aim is to investigate factors influencing the meaningfulness of NNS. Our experiments reveal that high-dimensional text embeddings exhibit increased resilience as dimensionality rises to higher levels when compared to random vectors. This resilience suggests that text embeddings are less affected to the "curse of dimensionality," resulting in more meaningful NNS outcomes for practical use. Additionally, the choice of distance function has minimal impact on the relevance of NNS. Our study shows the effectiveness of the embedding-based data representation method and can offer opportunity for further optimization of dense vector-related applications.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 変分推論における制御変数による経路勾配変動の低減

Pathwise Gradient Variance Reduction with Control Variates in Variational Inference ( http://arxiv.org/abs/2410.05753v1 )

ライセンス: Link先を確認
Kenyon Ng, Susan Wei, (参考訳) ベイズ深層学習における変分推論は、閉形式解を持たない予想の勾配を計算することを伴うことが多い。 これらの場合、パスワイズとスコア関数勾配推定器が最も一般的なアプローチである。 パスワイズ推定器は、通常分散低減技術を必要とするスコア関数推定器に比べて、かなり低い分散のために好まれる。 しかし、最近の研究では、経路勾配推定器でさえ分散還元の恩恵を受けることが示唆されている。 本研究では,経路勾配推定器の制御変数に基づく分散低減手法について検討し,その有効性を検証した。 特に、これらの手法は積分近似に頼り、単純な変分族にのみ適用できる。 この制限に対処するために、無分散制御を経路勾配推定器に適用することを提案する。 このアプローチは、変分分布に関する最小限の仮定を必要とするという利点を提供する。

Variational inference in Bayesian deep learning often involves computing the gradient of an expectation that lacks a closed-form solution. In these cases, pathwise and score-function gradient estimators are the most common approaches. The pathwise estimator is often favoured for its substantially lower variance compared to the score-function estimator, which typically requires variance reduction techniques. However, recent research suggests that even pathwise gradient estimators could benefit from variance reduction. In this work, we review existing control-variates-based variance reduction methods for pathwise gradient estimators to assess their effectiveness. Notably, these methods often rely on integrand approximations and are applicable only to simple variational families. To address this limitation, we propose applying zero-variance control variates to pathwise gradient estimators. This approach offers the advantage of requiring minimal assumptions about the variational distribution, other than being able to sample from it.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 共分散およびグラム行列に対する単純相対偏差境界

Simple Relative Deviation Bounds for Covariance and Gram Matrices ( http://arxiv.org/abs/2410.05754v1 )

ライセンス: Link先を確認
Daniel Barzilai, Ohad Shamir, (参考訳) 経験的共分散の固有値とグラム行列の一般設定に対する非漸近的相対偏差境界を提供する。 より小さな固有値の振る舞いを捉えるのに失敗する典型的な一様境界とは異なり、我々の結果はスペクトルにわたってよりシャープな制御を提供する。 我々の分析は、既存の一様有界を相対的有界に変換する一般の定理に基づいている。 定理と技法は単純さを強調し、様々な設定で適用されるべきである。

We provide non-asymptotic, relative deviation bounds for the eigenvalues of empirical covariance and gram matrices in general settings. Unlike typical uniform bounds, which may fail to capture the behavior of smaller eigenvalues, our results provide sharper control across the spectrum. Our analysis is based on a general-purpose theorem that allows one to convert existing uniform bounds into relative ones. The theorems and techniques emphasize simplicity and should be applicable across various settings.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 自己注意行動クローン政策によるソフトボディタスクにおける一般化可能な操作スキルの学習

Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy ( http://arxiv.org/abs/2410.05756v1 )

ライセンス: Link先を確認
Xuetao Li, Fang Gao, Jun Yu, Shaodong Li, Feng Shuang, (参考訳) Embodied AIは、人工知能研究におけるパラダイムであり、人工エージェントが物理的または仮想環境内に配置され、相互作用する。 Embodied AIの最近の進歩にもかかわらず、粘土や水、土壌といったソフトボディの物体に大きな変形やトポロジ的変化を処理できる汎用的な操作スキルを学ぶことは、依然として非常に難しい。 本研究は,GP2E行動クローニング政策を効果的に提案し,エージェントに対して,注水,充填,吊り下げ,掘削,ピンチ,筆記などのソフトボディタスクから,汎用的な操作スキルの学習を指導する。 具体的には,(1)ポイントクラウドデータから複雑な意味的特徴を抽出し,ロボットのエンドエフェクタフレームにシームレスに統合すること,(2)ガイド付き自己保持モジュールの導入による長距離タスクにおける長距離インタラクションの獲得,(3)2段階の微調整戦略の導入による過度な関心事の緩和,モデル収束の高精度化,の3点からポリシーを構築した。 CVPR 2023 4th Embodied AIワークショップで,ManiSkill2 Challengeのソフトボディトラックで第1回受賞を達成して,我々のアプローチの有効性を実証した。 本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開くための手法の可能性を明らかにするものである。

Embodied AI represents a paradigm in AI research where artificial agents are situated within and interact with physical or virtual environments. Despite the recent progress in Embodied AI, it is still very challenging to learn the generalizable manipulation skills that can handle large deformation and topological changes on soft-body objects, such as clay, water, and soil. In this work, we proposed an effective policy, namely GP2E behavior cloning policy, which can guide the agent to learn the generalizable manipulation skills from soft-body tasks, including pouring, filling, hanging, excavating, pinching, and writing. Concretely, we build our policy from three insights:(1) Extracting intricate semantic features from point cloud data and seamlessly integrating them into the robot's end-effector frame; (2) Capturing long-distance interactions in long-horizon tasks through the incorporation of our guided self-attention module; (3) Mitigating overfitting concerns and facilitating model convergence to higher accuracy levels via the introduction of our two-stage fine-tuning strategy. Through extensive experiments, we demonstrate the effectiveness of our approach by achieving the 1st prize in the soft-body track of the ManiSkill2 Challenge at the CVPR 2023 4th Embodied AI workshop. Our findings highlight the potential of our method to improve the generalization abilities of Embodied AI models and pave the way for their practical applications in real-world scenarios.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# ベイズ深層学習のための温度最適化

Temperature Optimization for Bayesian Deep Learning ( http://arxiv.org/abs/2410.05757v1 )

ライセンス: Link先を確認
Kenyon Ng, Chris van der Heide, Liam Hodgkinson, Susan Wei, (参考訳) CPE(Cold Posterior Effect)は、ベイズ深層学習(BDL)において、後部を低温に温めることにより、後部予測分布(PPD)の予測性能が向上する現象である。 CPE」という言葉は寒さが本質的に優れていることを示しているが、BDLコミュニティは必ずしもそうではないと認識している。 それにもかかわらず、グリッドサーチ以外の最適温度を見つけるための体系的な手法はいまだ残っていない。 本研究では,テストログ予測密度を最大化し,温度をモデルパラメータとして扱い,データから直接推定する温度を選択するためのデータ駆動手法を提案する。 提案手法は,回帰処理と分類処理の両方において,コストのごく一部でグリッド探索に比較可能な性能を実証的に証明する。 最後に、BDLと一般ベイズコミュニティのCPEに関する異なる視点を強調し、前者はPDの予測性能に主眼を置いているが、後者は不特定性をモデル化するための校正された不確実性と堅牢性を強調している。

The Cold Posterior Effect (CPE) is a phenomenon in Bayesian Deep Learning (BDL), where tempering the posterior to a cold temperature often improves the predictive performance of the posterior predictive distribution (PPD). Although the term `CPE' suggests colder temperatures are inherently better, the BDL community increasingly recognizes that this is not always the case. Despite this, there remains no systematic method for finding the optimal temperature beyond grid search. In this work, we propose a data-driven approach to select the temperature that maximizes test log-predictive density, treating the temperature as a model parameter and estimating it directly from the data. We empirically demonstrate that our method performs comparably to grid search, at a fraction of the cost, across both regression and classification tasks. Finally, we highlight the differing perspectives on CPE between the BDL and Generalized Bayes communities: while the former primarily focuses on predictive performance of the PPD, the latter emphasizes calibrated uncertainty and robustness to model misspecification; these distinct objectives lead to different temperature preferences.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# 行列ベースの進化計算によるIoTデータ収集のための3次元UAV軌道計画

3D UAV Trajectory Planning for IoT Data Collection via Matrix-Based Evolutionary Computation ( http://arxiv.org/abs/2410.05759v1 )

ライセンス: Link先を確認
Pei-Fa Sun, Yujae Song, Kang-Yu Gao, Yu-Kai Wang, Changjun Zhou, Sang-Woon Jeon, Jun Zhang, (参考訳) UAVは、IoT(Internet of Things)やセンサーネットワークなど、さまざまな無線通信アプリケーションにおいて、迅速かつアジャイルな非地球移動性によって、ますます重要なツールになりつつある。 最近の研究にもかかわらず、連続時間空間領域上で3次元(3D)UAV軌道を計画することは、計算集約的な最適化問題を解く必要があるため、依然として困難である。 本稿では,UAVの物理的能力,IoTノードの不均一なデータ要求,および3次元地形を考慮した,全エネルギー消費の最小化を目的としたUAV支援IoTデータ収集について検討する。 本稿では,制約処理を伴う行列ベースの微分進化(MDE-CH)を提案する。 数値解析により,MDE-CHアルゴリズムは,様々な制約下でのエネルギー消費を効率的に最小化し,従来のフライホバーフライモデルより2次元(2次元)と3次元(3次元)の軌道計画に優れる連続3次元時空間UAV軌道を提供することを示した。

UAVs are increasingly becoming vital tools in various wireless communication applications including internet of things (IoT) and sensor networks, thanks to their rapid and agile non-terrestrial mobility. Despite recent research, planning three-dimensional (3D) UAV trajectories over a continuous temporal-spatial domain remains challenging due to the need to solve computationally intensive optimization problems. In this paper, we study UAV-assisted IoT data collection aimed at minimizing total energy consumption while accounting for the UAV's physical capabilities, the heterogeneous data demands of IoT nodes, and 3D terrain. We propose a matrix-based differential evolution with constraint handling (MDE-CH), a computation-efficient evolutionary algorithm designed to address non-convex constrained optimization problems with several different types of constraints. Numerical evaluations demonstrate that the proposed MDE-CH algorithm provides a continuous 3D temporal-spatial UAV trajectory capable of efficiently minimizing energy consumption under various practical constraints and outperforms the conventional fly-hover-fly model for both two-dimensional (2D) and 3D trajectory planning.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# サンプリングデーモンを用いた無訓練拡散モデルアライメント

Training-free Diffusion Model Alignment with Sampling Demons ( http://arxiv.org/abs/2410.05760v1 )

ライセンス: Link先を確認
Po-Hung Yeh, Kuang-Huei Lee, Jun-Cheng Chen, (参考訳) ユーザー好みの拡散モデルを調整することが重要な課題でした。 拡散モデルを整列させる既存の方法は、再訓練を必要とするか、微分可能な報酬関数に制限される。 これらの制約に対処するため,提案手法はDemonと呼ばれ,報酬関数やモデル再学習によるバックプロパゲーションを伴わずに,推論時の復調過程を導出するための確率的最適化手法を提案する。 提案手法は,確率的最適化により高報酬に対応する領域の密度に集中するために,雑音分布の制御を行う。 VLM (Visual-Language Model) APIや人間の判断など,非差別的な報酬源を用いた実験を含む,我々のアプローチを支援し,検証するための包括的な理論的および実証的な証拠を提供する。 我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。 本手法は,既存の拡散モデルと容易に統合できる。 提案手法は,テキスト・ツー・イメージ生成における平均美学スコアを大幅に改善することを示す。

Aligning diffusion models with user preferences has been a key challenge. Existing methods for aligning diffusion models either require retraining or are limited to differentiable reward functions. To address these limitations, we propose a stochastic optimization approach, dubbed Demon, to guide the denoising process at inference time without backpropagation through reward functions or model retraining. Our approach works by controlling noise distribution in denoising steps to concentrate density on regions corresponding to high rewards through stochastic optimization. We provide comprehensive theoretical and empirical evidence to support and validate our approach, including experiments that use non-differentiable sources of rewards such as Visual-Language Model (VLM) APIs and human judgements. To the best of our knowledge, the proposed approach is the first inference-time, backpropagation-free preference alignment method for diffusion models. Our method can be easily integrated with existing diffusion models without further training. Our experiments show that the proposed approach significantly improves the average aesthetics scores for text-to-image generation.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# ガイド付き自己注意:結晶粒径解析のための一般化された連続ベクトルの探索

Guided Self-attention: Find the Generalized Necessarily Distinct Vectors for Grain Size Grading ( http://arxiv.org/abs/2410.05762v1 )

ライセンス: Link先を確認
Fang Gao, Xuetao Li, Jiabao Wang, Shengheng Ma, Jun Yu, (参考訳) 鉄鋼材料の発展に伴い、金属分析がますます重要になっている。 残念ながら、粒度分析は、専門家が金属写真を評価する必要がある手作業のプロセスであり、信頼性が低く、時間を要する。 この問題を解決するために,粒度分類のためのガイド付き自己意識を効果的に導入可能なハイブリッドモデルであるGSNetsという,ディープラーニングに基づく新しいクラスifi-cation手法を提案する。 具体的には、3つの洞察からモデルを構築する:(1)新しいガイド付き自己注意モジュールの導入により、複雑なレラ-オプション接続とリッチな局所特徴情報を保持することができる一般化された一意的なベクトルを見つけるのに役立ち、(2)特徴マップの画素単位の線形独立性を改善することにより、高凝縮セマンティック表現をモデルによって捕捉し、(3)新しい3重ストリームマージモジュールはモデルの一般化能力と効率を大幅に向上させることができる。 実験の結果,GSNetのクラスフィカチオン精度は90.1%であり,14粒径の3,599枚からなる鋼粒径データセットにおいて,最先端のSwin Transformer V2を1.9%上回ることがわかった。 さらに,本手法は,オブジェクト検出やセマンティックセグメンテーションといった,より広範なアプ・コンプリケーションに適用可能であると直感的に信じている。

With the development of steel materials, metallographic analysis has become increasingly important. Unfortunately, grain size analysis is a manual process that requires experts to evaluate metallographic photographs, which is unreliable and time-consuming. To resolve this problem, we propose a novel classifi-cation method based on deep learning, namely GSNets, a family of hybrid models which can effectively introduce guided self-attention for classifying grain size. Concretely, we build our models from three insights:(1) Introducing our novel guided self-attention module can assist the model in finding the generalized necessarily distinct vectors capable of retaining intricate rela-tional connections and rich local feature information; (2) By improving the pixel-wise linear independence of the feature map, the highly condensed semantic representation will be captured by the model; (3) Our novel triple-stream merging module can significantly improve the generalization capability and efficiency of the model. Experiments show that our GSNet yields a classifi-cation accuracy of 90.1%, surpassing the state-of-the-art Swin Transformer V2 by 1.9% on the steel grain size dataset, which comprises 3,599 images with 14 grain size levels. Furthermore, we intuitively believe our approach is applicable to broader ap-plications like object detection and semantic segmentation.
翻訳日:2024-11-01 13:09:48 公開日:2024-10-08
# StagedVulBERT:新しい事前学習符号モデルによる多角的脆弱性検出

StagedVulBERT: Multi-Granular Vulnerability Detection with a Novel Pre-trained Code Model ( http://arxiv.org/abs/2410.05766v1 )

ライセンス: Link先を確認
Yuan Jiang, Yujian Zhang, Xiaohong Su, Christoph Treude, Tiantian Wang, (参考訳) 事前訓練されたモデルに基づく脆弱性検出手法の出現は、自動脆弱性検出の分野を大幅に進歩させた。 しかし、これらの手法は、細かな予測のためのステートメントの効率的な特徴表現の学習の難しさや、過度に長いコードシーケンスを処理するのに苦労することなど、いくつかの課題に直面している。 これらの問題に対処するため、本研究では、事前訓練されたコード言語モデルを活用し、粗大な戦略を採用する、新たな脆弱性検出フレームワークであるStagedVulBERTを紹介した。 私たちの研究の重要な革新と貢献は、階層的、階層的、セマンティックエンコーディングに特化したCodeBERT-HLSコンポーネントの開発にあります。 このコンポーネントはトークンとステートメントの両方のレベルでセマンティクスを同時にキャプチャするように設計されている。 さらに、CodeBERT-HLSはより長いコードトークンシーケンスを効率的に処理し、現実世界の脆弱性検出により適している。 包括的実験により, 粗粒度および細粒度レベルでの脆弱性検出性能が向上することが示された。 具体的には、粗粒度の脆弱性検出において、StagedVulBERTは92.26%のF1スコアを獲得し、最高のパフォーマンスメソッドよりも6.58%改善している。 細粒度レベルでは,65.69%の精度を達成し,最先端の手法よりも75.17%向上した。

The emergence of pre-trained model-based vulnerability detection methods has significantly advanced the field of automated vulnerability detection. However, these methods still face several challenges, such as difficulty in learning effective feature representations of statements for fine-grained predictions and struggling to process overly long code sequences. To address these issues, this study introduces StagedVulBERT, a novel vulnerability detection framework that leverages a pre-trained code language model and employs a coarse-to-fine strategy. The key innovation and contribution of our research lies in the development of the CodeBERT-HLS component within our framework, specialized in hierarchical, layered, and semantic encoding. This component is designed to capture semantics at both the token and statement levels simultaneously, which is crucial for achieving more accurate multi-granular vulnerability detection. Additionally, CodeBERT-HLS efficiently processes longer code token sequences, making it more suited to real-world vulnerability detection. Comprehensive experiments demonstrate that our method enhances the performance of vulnerability detection at both coarse- and fine-grained levels. Specifically, in coarse-grained vulnerability detection, StagedVulBERT achieves an F1 score of 92.26%, marking a 6.58% improvement over the best-performing methods. At the fine-grained level, our method achieves a Top-5% accuracy of 65.69%, which outperforms the state-of-the-art methods by up to 75.17%.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-08
# ビデオダイアログのための2つの時間的グラウンド

Grounding is All You Need? Dual Temporal Grounding for Video Dialog ( http://arxiv.org/abs/2410.05767v1 )

ライセンス: Link先を確認
You Qin, Wei Ji, Xinze Lan, Hao Fei, Xun Yang, Dan Guo, Roger Zimmermann, Lizi Liao, (参考訳) ビデオ対話応答生成の領域では、ビデオ内容の理解と会話履歴の時間的ニュアンスが最も重要である。 現在の研究の一部では、大規模な事前学習された視覚言語モデルに大きく依存しており、時間的ダイナミクスを見落としている場合が多いが、ビデオ内の空間的時間的関係を深く掘り下げているが、複雑な対象軌跡の抽出と側線ダイアログの時間的ダイナミクスが要求されている。 本稿では,2つの支配的アプローチの長所をマージするために戦略的に設計された,時間的グラウンディング強化ビデオダイアログモデル(DTGVD)を紹介する。 ダイアログ固有の時間領域を予測し、それに従ってビデオコンテンツをフィルタリングし、ビデオコンテキストとダイアログコンテキストの両方で応答をグラウンド化することで、二重時間関係を強調する。 DTGVDの特長の1つは、時間的相互作用に対する注意の高まりである。 異なるダイアログ間の依存関係を認識して作用することにより、より微妙な会話のダイナミクスをキャプチャする。 ビデオと対話の時間的ダイナミクスの整合性をさらに強化するために、リストワイドのコントラスト学習戦略を実装した。 この枠組みでは、正確に接地されたターンクリップペアリングは正のサンプルとして指定され、より正確なペアリングは負のものとして分類される。 この洗練された分類は、我々の総合的なエンドツーエンドの応答生成メカニズムに導かれる。 AVSD@DSTC-7 と AVSD@DSTC-8 データセットによる評価は,本手法の優位性を裏付けるものである。

In the realm of video dialog response generation, the understanding of video content and the temporal nuances of conversation history are paramount. While a segment of current research leans heavily on large-scale pretrained visual-language models and often overlooks temporal dynamics, another delves deep into spatial-temporal relationships within videos but demands intricate object trajectory pre-extractions and sidelines dialog temporal dynamics. This paper introduces the Dual Temporal Grounding-enhanced Video Dialog model (DTGVD), strategically designed to merge the strengths of both dominant approaches. It emphasizes dual temporal relationships by predicting dialog turn-specific temporal regions, filtering video content accordingly, and grounding responses in both video and dialog contexts. One standout feature of DTGVD is its heightened attention to chronological interplay. By recognizing and acting upon the dependencies between different dialog turns, it captures more nuanced conversational dynamics. To further bolster the alignment between video and dialog temporal dynamics, we've implemented a list-wise contrastive learning strategy. Within this framework, accurately grounded turn-clip pairings are designated as positive samples, while less precise pairings are categorized as negative. This refined classification is then funneled into our holistic end-to-end response generation mechanism. Evaluations using AVSD@DSTC-7 and AVSD@DSTC-8 datasets underscore the superiority of our methodology.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-08
# 3次元森林立像復元のための新しいビュー合成と光グラム法の比較分析と個々の樹木パラメータの抽出

Comparative Analysis of Novel View Synthesis and Photogrammetry for 3D Forest Stand Reconstruction and extraction of individual tree parameters ( http://arxiv.org/abs/2410.05772v1 )

ライセンス: Link先を確認
Guoji Tian, Chongcheng Chen, Hongyu Huang, (参考訳) 森林資源の評価・管理には,樹木の正確な3次元復元が不可欠である。 クローズ・ランジ・フォトグラムメトリー(CRP)は、森林の景観の再構築に一般的に用いられているが、低効率や低品質といった課題に直面している。 近年,ニューラル・レージアン・フィールド(NeRF)や3Dガウス・スプラッティング(3DGS)などの新しいビュー・シンセサイザー (NVS) 技術は,限られた画像で3D植物を再構築することを約束している。 しかし、現存する研究は主に果樹園や個々の木々の小さな植物に焦点を合わせており、より大規模で複雑な森林地帯での利用に関する不確実性を残している。 本研究では,複雑度の異なる森林プロットの逐次的画像を収集し,NeRFと3DGSを用いた密度復元を行った。 得られた点雲は、フォトグラム法やレーザー走査法と比較された。 その結果,NVS法は再建効率を著しく向上させることがわかった。 フォトグラメトリーは複雑なスタンドに苦しむため、過剰な天蓋のノイズと、重複したトランクのような誤って再建された木がある点雲に繋がる。 NeRFは、天蓋領域ではよいが、視野が限られている地上領域ではエラーが発生する可能性がある。 3DGS法は胸の高さ(DBH)の精度に影響を及ぼすスペーサー点雲を生成する。 3つの手法はいずれも木の高さ情報を抽出することができ、NeRFは高い精度で得られるが、光度測定はDBHの精度よりも優れている。 これらの結果から,NVS法は森林の3次元復元に有意な可能性を示唆し,複雑な森林資源の在庫管理と可視化作業に有意義な支援を提供する。

Accurate and efficient 3D reconstruction of trees is crucial for forest resource assessments and management. Close-Range Photogrammetry (CRP) is commonly used for reconstructing forest scenes but faces challenges like low efficiency and poor quality. Recently, Novel View Synthesis (NVS) technologies, including Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS), have shown promise for 3D plant reconstruction with limited images. However, existing research mainly focuses on small plants in orchards or individual trees, leaving uncertainty regarding their application in larger, complex forest stands. In this study, we collected sequential images of forest plots with varying complexity and performed dense reconstruction using NeRF and 3DGS. The resulting point clouds were compared with those from photogrammetry and laser scanning. Results indicate that NVS methods significantly enhance reconstruction efficiency. Photogrammetry struggles with complex stands, leading to point clouds with excessive canopy noise and incorrectly reconstructed trees, such as duplicated trunks. NeRF, while better for canopy regions, may produce errors in ground areas with limited views. The 3DGS method generates sparser point clouds, particularly in trunk areas, affecting diameter at breast height (DBH) accuracy. All three methods can extract tree height information, with NeRF yielding the highest accuracy; however, photogrammetry remains superior for DBH accuracy. These findings suggest that NVS methods have significant potential for 3D reconstruction of forest stands, offering valuable support for complex forest resource inventory and visualization tasks.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-08
# GLRTを用いたリモートセンシングオブジェクト検索のためのメトリクス学習

GLRT-Based Metric Learning for Remote Sensing Object Retrieval ( http://arxiv.org/abs/2410.05773v1 )

ライセンス: Link先を確認
Linping Zhang, Yu Liu, Xueqian Wang, Gang Li, You He, (参考訳) リモートセンシング画像の量と品質の向上により、コンテンツベースリモートセンシングオブジェクト検索(CBRSOR)がますます重要になっている。 しかし、既存のCBRSOR法は、トレーニングとテストの段階でグローバルな統計情報の利用を無視し、トレーニングと準最適メートル法のパフォーマンスにおいて、単純なサンプル対にニューラルネットワークをオーバーフィッティングする。 ナイマン・ピアソンの定理にインスパイアされた一般確率比テストベースメトリックラーニング(GLRTML)手法を提案する。 これにより、トレーニングプロセス中に難しいサンプルにもっと集中するようにネットワークを誘導し、ネットワークがより差別的な機能埋め込みを学ぶように促す。 さらに,グローバルなデータ分散情報の利用により,GLRTは従来の距離空間よりも有効である。 埋め込みの正確な分布推定はGLRTMLにとって重要である。 しかし、実世界のアプリケーションでは、トレーニングとターゲットドメイン間の分散シフトが頻繁に発生し、トレーニングデータに基づいて推定された分布を直接利用することの有効性が低下する。 この問題に対処するために,クラスタリング擬似ラベルに基づく高速パラメータ適応法(CPLFPA)を提案する。 CPLFPAは、ターゲットドメインインスタンスをクラスタリングし、GLRTMLの分布パラメータを再推定することで、ターゲットドメインへの埋め込みの分布を効率的に推定する。 我々は、細粒度の船舶リモートセンシング画像スライス(FGSRSI-23)と軍用航空機認識(MAR20)に基づいてCBRSORタスクのためのデータセットを再編成した。 これらのデータセットに対する大規模な実験により,提案したGLRTMLとCPLFPAの有効性が示された。

With the improvement in the quantity and quality of remote sensing images, content-based remote sensing object retrieval (CBRSOR) has become an increasingly important topic. However, existing CBRSOR methods neglect the utilization of global statistical information during both training and test stages, which leads to the overfitting of neural networks to simple sample pairs of samples during training and suboptimal metric performance. Inspired by the Neyman-Pearson theorem, we propose a generalized likelihood ratio test-based metric learning (GLRTML) approach, which can estimate the relative difficulty of sample pairs by incorporating global data distribution information during training and test phases. This guides the network to focus more on difficult samples during the training process, thereby encourages the network to learn more discriminative feature embeddings. In addition, GLRT is a more effective than traditional metric space due to the utilization of global data distribution information. Accurately estimating the distribution of embeddings is critical for GLRTML. However, in real-world applications, there is often a distribution shift between the training and target domains, which diminishes the effectiveness of directly using the distribution estimated on training data. To address this issue, we propose the clustering pseudo-labels-based fast parameter adaptation (CPLFPA) method. CPLFPA efficiently estimates the distribution of embeddings in the target domain by clustering target domain instances and re-estimating the distribution parameters for GLRTML. We reorganize datasets for CBRSOR tasks based on fine-grained ship remote sensing image slices (FGSRSI-23) and military aircraft recognition (MAR20) datasets. Extensive experiments on these datasets demonstrate the effectiveness of our proposed GLRTML and CPLFPA.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-08
# 畳み込みニューラルネットワークのエンコーディングと量子化

Integrated Encoding and Quantization to Enhance Quanvolutional Neural Networks ( http://arxiv.org/abs/2410.05777v1 )

ライセンス: Link先を確認
Daniele Lizzio Bosco, Beatrice Portelli, Giuseppe Serra, (参考訳) 画像処理は量子機械学習(QML)の最も有望な応用の1つである。 トレーニング不可能なパラメータを持つ準進化型ニューラルネットワークは、現在および近未来の量子デバイスで実行するのに好まれるソリューションである。 準進化的レイヤのための典型的な入力前処理パイプラインは、4つのステップから構成される: 任意の入力バイナリ量子化、古典的なデータを量子状態に符号化し、最終的な量子状態を得るためにデータを処理し、量子状態を古典的な出力に復号する。 本稿では,クオン進化モデルの効率を高めるための2つの方法を提案する。 まず,任意の符号化手法に適用可能なメモ化を用いたフレキシブルなデータ量子化手法を提案する。 これにより、量子化レベルの数を増やして、より多くの情報を保持したり、回路の実行量を減らすことができます。 第2に、単一回路における符号化と処理のステップを組み合わせた、新たな統合符号化戦略を導入する。 この手法は、いくつかのアーキテクチャパラメータ(例えば、量子ビット数、フィルタサイズ、回路深さ)において、高い柔軟性を実現し、量子ハードウェアの要求に応じて調整できる。 提案した統合モデルと古典的畳み込みニューラルネットワークとよく知られた回転符号化法を比較した。 その結果,提案するモデル符号化は,量子資源の削減を図りながら,他のモデルと同等あるいは優れた性能を示すことを示した。

Image processing is one of the most promising applications for quantum machine learning (QML). Quanvolutional Neural Networks with non-trainable parameters are the preferred solution to run on current and near future quantum devices. The typical input preprocessing pipeline for quanvolutional layers comprises of four steps: optional input binary quantization, encoding classical data into quantum states, processing the data to obtain the final quantum states, decoding quantum states back to classical outputs. In this paper we propose two ways to enhance the efficiency of quanvolutional models. First, we propose a flexible data quantization approach with memoization, applicable to any encoding method. This allows us to increase the number of quantization levels to retain more information or lower them to reduce the amount of circuit executions. Second, we introduce a new integrated encoding strategy, which combines the encoding and processing steps in a single circuit. This method allows great flexibility on several architectural parameters (e.g., number of qubits, filter size, and circuit depth) making them adjustable to quantum hardware requirements. We compare our proposed integrated model with a classical convolutional neural network and the well-known rotational encoding method, on two different classification tasks. The results demonstrate that our proposed model encoding exhibits a comparable or superior performance to the other models while requiring fewer quantum resources.
翻訳日:2024-11-01 12:59:37 公開日:2024-10-08
# ラベルスカルシティによる歌詞の韻律分類

Song Emotion Classification of Lyrics with Out-of-Domain Data under Label Scarcity ( http://arxiv.org/abs/2410.05778v1 )

ライセンス: Link先を確認
Jonathan Sakunkoo, Annabella Sakunkoo, (参考訳) 歌は人間の感情に大きな影響を与え、歌詞は聴衆の感情の変化を刺激する大きな力を持っている。 歌詞に基づく感情分類のための大きな高品質なドメインデータセットが不足している(Edmonds and Sedoc, 2021; Zhou, 2022)。 ドメイン内のトレーニングデータセットの取得が困難であること(ZhangとMiao、2023年)や、ラベル取得がコスト、時間、その他の要因によって制限されること(Azad et al、2018年)が指摘されている。 歌詞の感情的分類におけるデータ不足の訓練の課題に対する創造的解決策として,大規模なドメイン外データセットの新規使用について検討した。 大規模なRedditコメントデータセットでトレーニングされたCNNモデルは、歌詞の感情分類に満足できるパフォーマンスと一般化性を実現し、ドメイン内のデータが不足しているか、あるいは取得するのにコストがかかるドメインに対して、大規模でパブリックなドメイン外のデータセットを活用する上で、洞察と有望な可能性を提供する。

Songs have been found to profoundly impact human emotions, with lyrics having significant power to stimulate emotional changes in the audience. There is a scarcity of large, high quality in-domain datasets for lyrics-based song emotion classification (Edmonds and Sedoc, 2021; Zhou, 2022). It has been noted that in-domain training datasets are often difficult to acquire (Zhang and Miao, 2023) and that label acquisition is often limited by cost, time, and other factors (Azad et al., 2018). We examine the novel usage of a large out-of-domain dataset as a creative solution to the challenge of training data scarcity in the emotional classification of song lyrics. We find that CNN models trained on a large Reddit comments dataset achieve satisfactory performance and generalizability to lyrical emotion classification, thus giving insights into and a promising possibility in leveraging large, publicly available out-of-domain datasets for domains whose in-domain data are lacking or costly to acquire.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# LightRAG: シンプルで高速な検索機能付きジェネレーション

LightRAG: Simple and Fast Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.05779v1 )

ライセンス: Link先を確認
Zirui Guo, Lianghao Xia, Yanhua Yu, Tu Ao, Chao Huang, (参考訳) Retrieval-Augmented Generation (RAG) システムは、外部知識ソースを統合することで、より大きな言語モデル(LLM)を強化する。 しかしながら、既存のRAGシステムには、フラットなデータ表現への依存や、コンテキスト認識の欠如など、重大な制限があり、複雑な相互依存を捉えるのに失敗する断片的な回答につながる可能性がある。 これらの課題に対処するために,テキストインデックスと検索プロセスにグラフ構造を組み込んだLightRAGを提案する。 この革新的なフレームワークは、低レベルの知識発見と高レベルの知識発見の両方から包括的な情報検索を強化する二重レベル検索システムを採用している。 さらに、グラフ構造とベクトル表現の統合により、関連エンティティとその関係の効率的な検索が容易になり、文脈的関連性を維持しながら応答時間を大幅に改善する。 この機能は、新しいデータのタイムリーな統合を保証するインクリメンタルな更新アルゴリズムによってさらに強化され、システムは、急速に変化するデータ環境において、効果的で応答性を保つことができる。 大規模な実験的検証は、既存のアプローチと比較して、検索精度と効率が大幅に向上したことを示している。 LightRAGをオープンソースにし、リンクで利用可能にしました。

Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by integrating external knowledge sources, enabling more accurate and contextually relevant responses tailored to user needs. However, existing RAG systems have significant limitations, including reliance on flat data representations and inadequate contextual awareness, which can lead to fragmented answers that fail to capture complex inter-dependencies. To address these challenges, we propose LightRAG, which incorporates graph structures into text indexing and retrieval processes. This innovative framework employs a dual-level retrieval system that enhances comprehensive information retrieval from both low-level and high-level knowledge discovery. Additionally, the integration of graph structures with vector representations facilitates efficient retrieval of related entities and their relationships, significantly improving response times while maintaining contextual relevance. This capability is further enhanced by an incremental update algorithm that ensures the timely integration of new data, allowing the system to remain effective and responsive in rapidly changing data environments. Extensive experimental validation demonstrates considerable improvements in retrieval accuracy and efficiency compared to existing approaches. We have made our LightRAG open-source and available at the link: https://github.com/HKUDS/LightRAG.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# GlucoBench: 予測ベンチマークによる継続的グルコースモニタリングデータセットのキュレーションリスト

GlucoBench: Curated List of Continuous Glucose Monitoring Datasets with Prediction Benchmarks ( http://arxiv.org/abs/2410.05780v1 )

ライセンス: Link先を確認
Renat Sergazinov, Elizabeth Chun, Valeriya Rogovchenko, Nathaniel Fernandes, Nicholas Kasman, Irina Gaynanova, (参考訳) 糖尿病の上昇率は、その管理に革新的な方法を必要とする。 連続血糖モニター (Continuous glucose monitors, CGM) は、血糖変動の日々のパターンを知るために、定期的に血糖値を測定する小さな医療機器である。 CGMデータに基づくグルコーストラジェクトリの予測は、人工膵システムを精製し、個人が最適なグリセミック範囲を維持するための予測に基づく調整を行えるようにすることで、糖尿病管理を大幅に改善する可能性を秘めている。 標準化された予測タスクの欠如と方法間の体系的な比較は、特定の課題に対処するための最適なツールの識別を妨害する未調整の研究努力に繋がった。 その結果,臨床実習では限られた数の予測方法が実施されているのみとなった。 これらの課題に対処するため,我々は,(1)再現性とアクセシビリティを向上させるために利用可能なCGMデータセットの統合リポジトリ,(2)研究目標の統合と協調作業を促進するための標準化されたタスクリスト,(3)確立されたベースライン性能を備えたベンチマークモデルのセット,(3)研究コミュニティが新たな手法の有効性を客観的に評価できるようにするための総合的なリソース,(4)モデル開発におけるパフォーマンス影響要因の詳細な分析を提供する。 我々はこれらの資源が、CGMに基づくグルコース予測の重要な領域における共同研究の成果を後押しすることを期待している。 Our code are available at github.com/IrinaStatsLab/GlucoBench.

The rising rates of diabetes necessitate innovative methods for its management. Continuous glucose monitors (CGM) are small medical devices that measure blood glucose levels at regular intervals providing insights into daily patterns of glucose variation. Forecasting of glucose trajectories based on CGM data holds the potential to substantially improve diabetes management, by both refining artificial pancreas systems and enabling individuals to make adjustments based on predictions to maintain optimal glycemic range.Despite numerous methods proposed for CGM-based glucose trajectory prediction, these methods are typically evaluated on small, private datasets, impeding reproducibility, further research, and practical adoption. The absence of standardized prediction tasks and systematic comparisons between methods has led to uncoordinated research efforts, obstructing the identification of optimal tools for tackling specific challenges. As a result, only a limited number of prediction methods have been implemented in clinical practice. To address these challenges, we present a comprehensive resource that provides (1) a consolidated repository of curated publicly available CGM datasets to foster reproducibility and accessibility; (2) a standardized task list to unify research objectives and facilitate coordinated efforts; (3) a set of benchmark models with established baseline performance, enabling the research community to objectively gauge new methods' efficacy; and (4) a detailed analysis of performance-influencing factors for model development. We anticipate these resources to propel collaborative research endeavors in the critical domain of CGM-based glucose predictions. {Our code is available online at github.com/IrinaStatsLab/GlucoBench.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# 不完全な矯正行動とプロキシ・リワードによる強化学習

Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards ( http://arxiv.org/abs/2410.05782v1 )

ライセンス: Link先を確認
Zhaohui Jiang, Xuening Feng, Paul Weng, Yifei Zhu, Yan Song, Tianze Zhou, Yujing Hu, Tangjie Lv, Changjie Fan, (参考訳) 実際には、強化学習(RL)エージェントは、しばしば不完全な代理報酬関数で訓練されるが、これは人間のエージェントによるアライメントの問題につながる可能性がある(つまり、学習ポリシーは、累積報酬が低い非最適パフォーマンスに収束するか、高い累積報酬を達成するが、望ましくない方法で達成される)。 この問題に対処するために、人間のラベル付け者が修正行動という形で追加のフィードバックを提供できるフレームワークを検討し、これはラベル付け者の行動嗜好を表現するものであるが、このフィードバックも不完全である可能性がある。 本設定では, 両者の学習信号によって導かれるより良い整合性を確保するために, 1) エージェントの指示された軌道上での人間のラベルからのスパースな補正動作, (2) マージンロスを用いてQ関数にこれらの補正動作を組み込んでラベルの嗜好を順守する, (3) 標準RL損失のエージェントを調整し, プロキシの報酬から学習し, Q-バリューを伝播する3段階の反復学習(ICoPro)と呼ばれる新しい価値ベース深度RLアルゴリズムを提案する。 さらに,本手法では,目標Qネットワークから擬似ラベルを統合することで,人的労力の低減とトレーニングの安定化を図る。 様々なタスク(アタリゲームや高速道路での自律走行)について,我々の提案を実験的に検証した。 一方,異なるレベルの不完全なプロキシ報酬を用いることで,提案手法はヒトの嗜好に適合し,ベースライン法よりもサンプリング効率がよい。 一方、異なる種類の不完全な修正行動に直面し、代行報酬のガイダンスにより、このフィードバックの非最適性を克服することができる。

In practice, reinforcement learning (RL) agents are often trained with a possibly imperfect proxy reward function, which may lead to a human-agent alignment issue (i.e., the learned policy either converges to non-optimal performance with low cumulative rewards, or achieves high cumulative rewards but in undesired manner). To tackle this issue, we consider a framework where a human labeler can provide additional feedback in the form of corrective actions, which expresses the labeler's action preferences although this feedback may possibly be imperfect as well. In this setting, to obtain a better-aligned policy guided by both learning signals, we propose a novel value-based deep RL algorithm called Iterative learning from Corrective actions and Proxy rewards (ICoPro), which cycles through three phases: (1) Solicit sparse corrective actions from a human labeler on the agent's demonstrated trajectories; (2) Incorporate these corrective actions into the Q-function using a margin loss to enforce adherence to labeler's preferences; (3) Train the agent with standard RL losses regularized with a margin loss to learn from proxy rewards and propagate the Q-values learned from human feedback. Moreover, another novel design in our approach is to integrate pseudo-labels from the target Q-network to reduce human labor and further stabilize training. We experimentally validate our proposition on a variety of tasks (Atari games and autonomous driving on highway). On the one hand, using proxy rewards with different levels of imperfection, our method can better align with human preferences and is more sample-efficient than baseline methods. On the other hand, facing corrective actions with different types of imperfection, our method can overcome the non-optimality of this feedback thanks to the guidance from proxy reward.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# MmWaveVehicular Networkにおけるユーザアソシエーションのための非定常関連リワード付きコンテキスト帯域

Contextual Bandits with Non-Stationary Correlated Rewards for User Association in MmWave Vehicular Networks ( http://arxiv.org/abs/2410.05785v1 )

ライセンス: Link先を確認
Xiaoyang He, Xiaoxia Huang, Lanhua Li, (参考訳) 車両通信における推進技術としてミリ波通信(mmWave)が出現している。 通常、ユーザアソシエーションに関する適切な判断は、車両と基地局(BS)間のタイムリーなチャネル情報を必要とする。 本稿では,学習の伝達速度のみに頼って,チャネル状態情報(CSI)を明示的に測定することなく,最新のユーザアソシエーションを確立するために,低複雑さな半分散文脈相関上信頼境界(SD-CC-UCB)アルゴリズムを提案する。 SD-CC-UCBは、コンテキスト的マルチアーム・バンディット・フレームワークの下で、車両の位置と速度から送信率を学習し、予測し、ユーザ・アソシエーションの迅速な決定のために複雑なチャネル条件を適切にキャプチャする。 さらに、SD-CC-UCBは、異なる場所における送信率の相関分布を利用して、おそらく最高送信率を支持する候補BSの集合を効率的に同定する。 候補BSとのリンクによる学習伝達率をさらに向上させるために、各車両は、車両間の干渉とハンドオーバオーバーヘッドを考慮したトンプソンサンプリングアルゴリズムをデプロイする。 シミュレーションの結果,提案アルゴリズムは完全瞬時CSIを必要とするベンチマークアルゴリズムの100%から103%以内のスループットを実現し,車載通信におけるSD-CC-UCBの有効性を示した。

Millimeter wave (mmWave) communication has emerged as a propelling technology in vehicular communication. Usually, an appropriate decision on user association requires timely channel information between vehicles and base stations (BSs), which is challenging given a fast-fading mmWave vehicular channel. In this paper, relying solely on learning transmission rate, we propose a low-complexity semi-distributed contextual correlated upper confidence bound (SD-CC-UCB) algorithm to establish an up-to-date user association without explicit measurement of channel state information (CSI). Under a contextual multi-arm bandits framework, SD-CC-UCB learns and predicts the transmission rate given the location and velocity of the vehicle, which can adequately capture the intricate channel condition for a prompt decision on user association. Further, SD-CC-UCB efficiently identifies the set of candidate BSs which probably support supreme transmission rate by leveraging the correlated distributions of transmission rates on different locations. To further refine the learning transmission rate over the link to candidate BSs, each vehicle deploys the Thompson Sampling algorithm by taking the interference among vehicles and handover overhead into consideration. Numerical results show that our proposed algorithm achieves the network throughput within 100%-103% of a benchmark algorithm which requires perfect instantaneous CSI, demonstrating the effectiveness of SD-CC-UCB in vehicular communications.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# 機能強化型グラニュラーボールツイン支持ベクトルマシン

Enhanced Feature Based Granular Ball Twin Support Vector Machine ( http://arxiv.org/abs/2410.05786v1 )

ライセンス: Link先を確認
A. Quadir, M. Sajid, Mushir Akhtar, M. Tanveer, P. N. Suganthan, (参考訳) 本稿では,機能強化型グラニュラーボールツインサポートベクター(EF-GBTSVM)を提案する。 EF-GBTSVMは、個々のデータサンプルではなく、粒度の粗い粒度(GB)を入力として利用する。 GBはランダムプロジェクションを用いて隠れ層の特徴空間にマッピングされ、その後非線形アクティベーション関数が使用される。 GBの中心から導かれる原特徴と隠された特徴の連結は、拡張された特徴空間(通称、ランダムベクトル汎関数リンク(RVFL)空間)を引き起こす。 この空間は、ニュアンス化された特徴情報をGBにカプセル化する。 さらに RVFL 空間にツインサポートベクトルマシン (TSVM) を用いて分類する。 TSVMは、拡張された特徴空間において2つの非並列超平面を生成し、提案したEF-GBTSVMモデルの一般化性能を向上させる。 さらに、GBの粗い粒度により、提案したEF-GBTSVMモデルは、再サンプリングに対する堅牢性を示し、ノイズや外れ値の影響に対する感受性の低下を示す。 ベンチマーク UCI および KEEL データセット上で提案した EF-GBTSVM モデルを徹底的に評価する。 この評価はラベルノイズを含まないシナリオを含む。 さらに、NDCデータセットを用いた実験は、提案されたモデルが大規模データセットを処理する能力をさらに強調する。 詳細な統計分析によって支持された実験結果から,提案したEF-GBTSVMモデルは,一般化能力,スケーラビリティ,堅牢性の観点から,ベースラインモデルよりも大幅に優れていた。 提案されたEF-GBTSVMモデルのソースコードは、さらなる結果と詳細と共に、https://github.com/mtanveer1/EF-GBTSVMでアクセスすることができる。

In this paper, we propose enhanced feature based granular ball twin support vector machine (EF-GBTSVM). EF-GBTSVM employs the coarse granularity of granular balls (GBs) as input rather than individual data samples. The GBs are mapped to the feature space of the hidden layer using random projection followed by the utilization of a non-linear activation function. The concatenation of original and hidden features derived from the centers of GBs gives rise to an enhanced feature space, commonly referred to as the random vector functional link (RVFL) space. This space encapsulates nuanced feature information to GBs. Further, we employ twin support vector machine (TSVM) in the RVFL space for classification. TSVM generates the two non-parallel hyperplanes in the enhanced feature space, which improves the generalization performance of the proposed EF-GBTSVM model. Moreover, the coarser granularity of the GBs enables the proposed EF-GBTSVM model to exhibit robustness to resampling, showcasing reduced susceptibility to the impact of noise and outliers. We undertake a thorough evaluation of the proposed EF-GBTSVM model on benchmark UCI and KEEL datasets. This evaluation encompasses scenarios with and without the inclusion of label noise. Moreover, experiments using NDC datasets further emphasize the proposed model's ability to handle large datasets. Experimental results, supported by thorough statistical analyses, demonstrate that the proposed EF-GBTSVM model significantly outperforms the baseline models in terms of generalization capabilities, scalability, and robustness. The source code for the proposed EF-GBTSVM model, along with additional results and further details, can be accessed at https://github.com/mtanveer1/EF-GBTSVM.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# 動的多目的最適化のための二階微分に基づく適応的デュアルドメイン予測手法

An Adaptive Dual-Domain Prediction Strategy based on Second-order Derivatives for Dynamic Multi-Objective Optimization ( http://arxiv.org/abs/2410.05787v1 )

ライセンス: Link先を確認
Ru Lei, Lin Li, Rustam Stolkin, Bin Feng, (参考訳) 本稿では,進化的アルゴリズムのパラダイム内での予測戦略を変えるための新しいアプローチを示すことによって,動的多目的最適化問題(DMOP)の問題に対処する。 このような問題の目的は時間とともに変化するので、パレート最適集合(PS)とパレート最適前面(PF)もまた動的である。 決定空間と目的空間におけるPSとPFの変化を正確に追跡するために、異なる領域における二階微分の概念を適応的に利用した適応予測戦略を提案する。 %であった。 まず、PSとPFの両方の変化を考察し、提案手法を二重領域ベースで提案する。 まず,PSとPFの両方の変化を同時に考慮した二重領域法を提案する。 適応戦略を用いて探索空間の比率を自己調整する。 第二に、人口を予測的に再初期化する二階微分予測戦略を提案する。 DMOPsベンチマーク問題を用いて,提案アルゴリズムの性能を文献からの4つの最先端アルゴリズムと比較した。 実験結果から,提案手法はテスト問題の大部分において,他のアルゴリズムよりも優れていることがわかった。

This paper addresses the problem of dynamic multi-objective optimization problems (DMOPs), by demonstrating new approaches to change prediction strategies within an evolutionary algorithm paradigm. Because the objectives of such problems change over time, the Pareto optimal set (PS) and Pareto optimal front (PF) are also dynamic. To accurately track the changing PS and PF in the decision and objective spaces, we propose a novel adaptive prediction strategy, which utilizes the concept of second-order derivatives adaptively in different domains. %to deal with DMOPs. Firstly, the changes in both the PS and the PF are considered in this paper, which makes the proposed a dual-domain based method. Firstly, we propose a dual-domain method, which takes into account changes in both the PS and the PF simultaneously. An adaptive strategy is adopted to self-adjust the proportion of the search space. Secondly, a second-order derivative prediction strategy is proposed to predicatively re-initialize the population. We compare the performance of the proposed algorithm against four other state-of-the-art algorithms from the literature, using DMOPs benchmark problems. Experimental results show that the proposed method outperforms the other algorithms on most of the test problems.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# FürElise:ピアノ演奏の手の動きをキャプチャし、物理的に合成する

FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance ( http://arxiv.org/abs/2410.05791v1 )

ライセンス: Link先を確認
Ruocheng Wang, Pei Xu, Haochen Shi, Elizabeth Schumann, C. Karen Liu, (参考訳) ピアノ演奏には、器用さの限界を延ばすアジャイルで正確で協調した手制御が必要である。 ピアノ演奏を正確に再現する洗練された手の動きモデルは、キャラクターアニメーション、エンボディAI、バイオメカニクス、VR/ARに幅広い応用がある。 本稿では,153曲のクラシック音楽を演奏する15人のエリートレベルのピアニストによる,約10時間の3D手の動きとオーディオを含む,第1世代の大規模データセットを構築する。 自然なパフォーマンスを捉えるために,現状のポーズ推定モデルを用いてマルチビュー映像から動きを再構成するマーカーレス・セットアップを設計した。 特殊なヤマハ・ディクラビエピアノのセンサから得られた高分解能MIDIキー押圧データを用いて、逆キネマティクスにより運動データをさらに洗練する。 収集したデータセットを活用することで,データセット外の楽譜を物理的に証明可能な手の動きを合成できるパイプラインを開発した。 提案手法は模倣学習と強化学習を組み合わせて,手とピアノ鍵の相互作用を含む物理に基づくバイマニュアル制御のポリシーを得る。 大規模な運動データセットによるサンプリング効率の問題を解決するため,拡散モデルを用いて自然参照運動を生成し,高レベルな軌跡と指先情報(指の順序と配置)を提供する。 しかし、生成した参照動作だけではピアノ演奏のモデリングに十分な精度が得られない。 さらに,RLポリシーの精度を高めるために,取得したデータセットから類似した動きを検索するために,音楽的類似性を用いてデータをさらに強化する。 提案手法により,学習データセットの外部から音楽に一般化する自然な,きらめきらかな動きを生成できる。

Piano playing requires agile, precise, and coordinated hand control that stretches the limits of dexterity. Hand motion models with the sophistication to accurately recreate piano playing have a wide range of applications in character animation, embodied AI, biomechanics, and VR/AR. In this paper, we construct a first-of-its-kind large-scale dataset that contains approximately 10 hours of 3D hand motion and audio from 15 elite-level pianists playing 153 pieces of classical music. To capture natural performances, we designed a markerless setup in which motions are reconstructed from multi-view videos using state-of-the-art pose estimation models. The motion data is further refined via inverse kinematics using the high-resolution MIDI key-pressing data obtained from sensors in a specialized Yamaha Disklavier piano. Leveraging the collected dataset, we developed a pipeline that can synthesize physically-plausible hand motions for musical scores outside of the dataset. Our approach employs a combination of imitation learning and reinforcement learning to obtain policies for physics-based bimanual control involving the interaction between hands and piano keys. To solve the sampling efficiency problem with the large motion dataset, we use a diffusion model to generate natural reference motions, which provide high-level trajectory and fingering (finger order and placement) information. However, the generated reference motion alone does not provide sufficient accuracy for piano performance modeling. We then further augmented the data by using musical similarity to retrieve similar motions from the captured dataset to boost the precision of the RL policy. With the proposed method, our model generates natural, dexterous motions that generalize to music from outside the training dataset.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# ソフトウェアエンジニアリングのためのソフトウェア分析:第3回レビュー

Software analytics for software engineering: A tertiary review ( http://arxiv.org/abs/2410.05796v1 )

ライセンス: Link先を確認
Muhammad Laiq, Nauman bin Ali, Jürgen Börstler, Emelie Engström, (参考訳) ソフトウェア分析(SA)は、ソフトウェア工学(SE)タスクの実践者を支援するツールとしてしばしば提案されている。 SAに関するいくつかの二次研究が公表されている。 これらの研究のいくつかは目的を重複させており、一部は同じ暦年でも出版されている。 このことは、これらの研究における結論の一致や分岐を分析する機会を与える。 このような分析は、個々の二次研究以上の広範な一般化を特定するのに役立つ。 本研究は,SEに対するSAの使用に関する5つの二次研究を同定した。 これらの二次研究は2000年から2021年までの一次研究をカバーしている。 これらの二次研究の目的と探索時間枠の重複にもかかわらず、これらの二次研究の間には一次研究の重複は無視できない。 このように、それぞれが独立したビューを提供し、一緒にして断片化されたビューを提供する。 そこで本研究では,これらの2次研究で確認された文献の概要が,より包括的なトピックの概要を提供するのに役立つと結論づける。

Software analytics (SA) is frequently proposed as a tool to support practitioners in software engineering (SE) tasks. We have observed that several secondary studies on SA have been published. Some of these studies have overlapping aims and some have even been published in the same calendar year. This presents an opportunity to analyze the congruence or divergence of the conclusions in these studies. Such an analysis can help identify broader generalizations beyond any of the individual secondary studies. We identified five secondary studies on the use of SA for SE. These secondary studies cover primary research from 2000 to 2021. Despite the overlapping objectives and search time frames of these secondary studies, there is negligible overlap of primary studies between these secondary studies. Thus, each of them provides an isolated view, and together, they provide a fragmented view, i.e., there is no ``common picture'' of the area. Thus, we conclude that an overview of the literature identified by these secondary studies would be useful in providing a more comprehensive overview of the topic.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# CodeCipher: LLMに対するソースコードの難読化を学ぶ

CodeCipher: Learning to Obfuscate Source Code Against LLMs ( http://arxiv.org/abs/2410.05797v1 )

ライセンス: Link先を確認
Yalan Lin, Chengcheng Wan, Yixiong Fang, Xiaodong Gu, (参考訳) 大規模コード言語モデルは、AI支援コーディングタスクにおいて大きな進歩を遂げてきたが、プライバシー問題への懸念が高まっている。 ユーザコードはクラウドLLMサービスプロバイダに対して透過的であり、ユーザコードの不正なトレーニング、読み取り、実行のリスクを誘発する。 本稿では,LLMからの応答を保存しながら,コードからプライバシを乱す新しい手法であるCodeCipherを提案する。 CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。 新しい埋め込み行列はタスク固有の損失関数を最小限にすることで最適化される。 単語ベクトル空間の離散的かつスパースな性質の課題に対処するため、CodeCipherは、各勾配更新の前に、更新されたベクトルを語彙内の最も近い有効なトークンに整合させる離散最適化戦略を採用する。 コード補完,要約,翻訳を含む3つのAI支援コーディングタスクに対して,本手法の有効性を実証する。 その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。

While large code language models have made significant strides in AI-assisted coding tasks, there are growing concerns about privacy challenges. The user code is transparent to the cloud LLM service provider, inducing risks of unauthorized training, reading, and execution of the user code. In this paper, we propose CodeCipher, a novel method that perturbs privacy from code while preserving the original response from LLMs. CodeCipher transforms the LLM's embedding matrix so that each row corresponds to a different word in the original matrix, forming a token-to-token confusion mapping for obfuscating source code. The new embedding matrix is optimized by minimizing the task-specific loss function. To tackle the challenge of the discrete and sparse nature of word vector spaces, CodeCipher adopts a discrete optimization strategy that aligns the updated vector to the nearest valid token in the vocabulary before each gradient update. We demonstrate the effectiveness of our approach on three AI-assisted coding tasks including code completion, summarization, and translation. Results show that our model successfully confuses the privacy in source code while preserving the original LLM's performance.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# 変圧器のデータ効率向上のためのコアトークンセット

Core Tokensets for Data-efficient Sequential Training of Transformers ( http://arxiv.org/abs/2410.05800v1 )

ライセンス: Link先を確認
Subarnaduti Paul, Manuel Brack, Patrick Schramowski, Kristian Kersting, Martin Mundt, (参考訳) ディープネットワークはしばしば新しいタスクに調整され、進行中のデータストリームから学び続ける。 このようなシーケンシャルなトレーニングでは、新しい情報と過去の情報を統合する必要がある。 伝統的に、これらのコアセットは画像や文などの全サンプルで構成されている。 しかし、最近のトランスフォーマーアーキテクチャはトークンで動作しており、画像が16x16ワードの価値があるという有名な主張につながっている。 直感的には、これらのトークンはすべて等しく情報的または記憶的であるわけではない。 コアセットを超えて、トークンのレベルに基づいてより深いレベルのデータサマリを構築することを提案する。 それぞれのコアトークンセットは、最も情報性の高いデータポイントを選択し、機能属性を活用して、最も関連性の高い機能のみを格納します。 コアトークンセットは、インクリメンタルな画像分類、オープンな視覚的質問応答、そしてメモリを著しく削減した連続的な画像キャプションにおいて、大幅な性能維持をもたらすことを示す。 実際、我々は、データの1\%のコアトークンセットが少なくとも2倍、最大10倍のコアセットに対して可逆的に実行されることを実証的に見出した。

Deep networks are frequently tuned to novel tasks and continue learning from ongoing data streams. Such sequential training requires consolidation of new and past information, a challenge predominantly addressed by retaining the most important data points - formally known as coresets. Traditionally, these coresets consist of entire samples, such as images or sentences. However, recent transformer architectures operate on tokens, leading to the famous assertion that an image is worth 16x16 words. Intuitively, not all of these tokens are equally informative or memorable. Going beyond coresets, we thus propose to construct a deeper-level data summary on the level of tokens. Our respectively named core tokensets both select the most informative data points and leverage feature attribution to store only their most relevant features. We demonstrate that core tokensets yield significant performance retention in incremental image classification, open-ended visual question answering, and continual image captioning with significantly reduced memory. In fact, we empirically find that a core tokenset of 1\% of the data performs comparably to at least a twice as large and up to 10 times larger coreset.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-08
# 検索、再考、再考: 検証の連鎖は検索の強化を改善できる

Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation ( http://arxiv.org/abs/2410.05801v1 )

ライセンス: Link先を確認
Bolei He, Nuo Chen, Xinran He, Lingyong Yan, Zhenkai Wei, Jinchang Luo, Zhen-Hua Ling, (参考訳) 近年のRAG(Retrieval Augmented Generation)は,外部ソースから取得した膨大な知識を組み込むことで,Large Language Models(LLMs)を強化することを目的としている。 しかし、このようなアプローチはいくつかの課題に直面する: 第一に、元のクエリは正確な検索には適さないかもしれないし、誤った文脈知識をもたらすかもしれない; 第二に、言語モデルは、その知識境界の制限により、外部参照との一貫性のない応答を容易に生成できる。 これらの問題に対処するため、外部検索精度と内部生成整合性を高めるためのチェーン・オブ・バリフィケーション(CoV-RAG)を提案する。 具体的には、検証モジュールをRAGに統合し、スコア付け、判断、書き換えに従事します。 外部の検索エラーを修正するため、CoV-RAGは改訂されたクエリを使って新しい知識を検索する。 内部生成エラーを補正するため,トレーニング中のQAと検証タスクをChain-of-Thought(CoT)推論で統一する。 各種LLMの総合的な実験により,他の強靭なベースラインと比較して有効性と適応性を示した。 特に,我々のCoV-RAGは,異なるLDMバックボーンを用いて,最先端のベースラインを大幅に超えることができる。

Recent Retrieval Augmented Generation (RAG) aims to enhance Large Language Models (LLMs) by incorporating extensive knowledge retrieved from external sources. However, such approach encounters some challenges: Firstly, the original queries may not be suitable for precise retrieval, resulting in erroneous contextual knowledge; Secondly, the language model can easily generate inconsistent answer with external references due to their knowledge boundary limitation. To address these issues, we propose the chain-of-verification (CoV-RAG) to enhance the external retrieval correctness and internal generation consistency. Specifically, we integrate the verification module into the RAG, engaging in scoring, judgment, and rewriting. To correct external retrieval errors, CoV-RAG retrieves new knowledge using a revised query. To correct internal generation errors, we unify QA and verification tasks with a Chain-of-Thought (CoT) reasoning during training. Our comprehensive experiments across various LLMs demonstrate the effectiveness and adaptability compared with other strong baselines. Especially, our CoV-RAG can significantly surpass the state-of-the-art baselines using different LLM backbones.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# グラデーショナルラーニング:大規模言語モデルにおける知識の部分的習得による微調整の最適化

Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models ( http://arxiv.org/abs/2410.05802v1 )

ライセンス: Link先を確認
Bozhou Li, Hao Liang, Yang Li, Fangcheng Fu, Hongzhi Yin, Conghui He, Wentao Zhang, (参考訳) 事前学習期間中、大規模言語モデル(LLM)は広範なテキストコーパスから膨大な量の知識を取得する。 それでも、微調整や推論のような後の段階では、モデルは初期訓練でカバーされていない知識に遭遇し、幻覚や性能低下につながる可能性がある。 この問題は、事前トレーニング後に必然的にスコープ外の知識に直面するため、モデルの能力に大きな影響を与えます。 さらに、LLMをドメイン固有のタスクに適応させるためには、微調整が必要とされることが多い。 しかし、この現象は、微調整中に新しい情報を学習し統合する能力を制限する。 微調整の有効性は、主に関連する知識の種類に依存する。 既存の研究では、部分的にマスターされた知識に基づいてモデルを微調整し、例えば、非グリーディデコードの下で正しい応答を提供することができる質問と回答のペアは、幻覚を緩和しながら新しい知識を得ることを可能にすることを示唆している。 特に、このアプローチは、完全にマスターされた知識を忘れて、微調整データセットをより狭い範囲に制限し、モデル全体の改善の可能性を制限することにつながる可能性がある。 モデルの本質的な推論能力と異なる知識領域の相互接続性を考えると、既存の知識を活用する能力が微調整中に向上するにつれて、以前は未習得の知識がより理解しやすくなる可能性がある。 この仮説を探索するため,実験を行い,その結果に基づいて2段階の微調整戦略を提案した。 このアプローチは、モデル全体のテスト精度と知識保持を向上するだけでなく、以前にマスターされたコンテンツの正確性も維持する。 WikiQAデータセットを微調整すると、この段階で得られた知識の量は24%増加する。

During the pretraining phase, large language models (LLMs) acquire vast amounts of knowledge from extensive text corpora. Nevertheless, in later stages such as fine-tuning and inference, the model may encounter knowledge not covered in the initial training, which can lead to hallucinations and degraded performance. This issue has a profound impact on the model's capabilities, as it will inevitably face out-of-scope knowledge after pretraining. Furthermore, fine-tuning is often required to adapt LLMs to domain-specific tasks. However, this phenomenon limits the model's ability to learn and integrate new information during fine-tuning. The effectiveness of fine-tuning largely depends on the type of knowledge involved. Existing research suggests that fine-tuning the model on partially mastered knowledge-for instance, question-answer pairs where the model has a chance of providing correct responses under non-greedy decoding-can enable the model to acquire new knowledge while mitigating hallucination. Notably, this approach can still lead to the forgetting of fully mastered knowledge, constraining the fine-tuning dataset to a narrower range and limiting the model's overall potential for improvement. Given the model's intrinsic reasoning abilities and the interconnectedness of different knowledge areas, it is likely that as the model's capacity to utilize existing knowledge improves during fine-tuning, previously unmastered knowledge may become more understandable. To explore this hypothesis, we conducted experiments and, based on the results, proposed a two-stage fine-tuning strategy. This approach not only improves the model's overall test accuracy and knowledge retention but also preserves its accuracy on previously mastered content. When fine-tuning on the WikiQA dataset, our method increases the amount of knowledge acquired by the model in this stage by 24%.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# PostCast: 教師なし不規則モデリングによる降水開始のための一般化可能なポストプロセッシング

PostCast: Generalizable Postprocessing for Precipitation Nowcasting via Unsupervised Blurriness Modeling ( http://arxiv.org/abs/2410.05805v1 )

ライセンス: Link先を確認
Junchao Gong, Siwei Tu, Weidong Yang, Ben Fei, Kun Chen, Wenlong Zhang, Xiaokang Yang, Wanli Ouyang, Lei Bai, (参考訳) 降水は今、社会経済セクター、特に厳しい対流気象警報において重要な役割を担っている。 深層学習と時空間相関を抽出するアプローチによって顕著な進歩が達成されているが、これらの手法はリードタイムの増加とともに深刻な曖昧さに悩まされ、極端な降水量の正確な予測を妨げている。 曖昧さを軽減するために、研究者はぼやけた予測に照らされた生成方法を探る。 しかし、ぼやけた予測とそれに対応する基底真理を事前に生成する必要があるため、トレーニングパイプラインは煩雑であり、訓練データに現れるぼやけモード内の生成モデルの一般化を制限している。 降水量予測におけるぼかしを,予測に作用するぼかしカーネルとして再考することにより,ぼかし予測とそれに対応する接地真実との訓練を必要とせずに,ぼかしを除去するための教師なし後処理手法を提案する。 具体的には、ぼかし予測を利用して、事前訓練された無条件消音拡散確率モデル(DDPM)の生成プロセスを導出し、ぼかしを排除した高忠実度予測を得る。 非条件DDPMを、データセットや降水開始時のリード時間から変化する任意のぼかしモードに適応させるため、ゼロショットのぼかしカーネル推定機構とオートスケールの denoise ガイダンス戦略を導入する。 7つの降水レーダデータセットを用いて大規模な実験を行い,本手法の汎用性と優越性を実証した。

Precipitation nowcasting plays a pivotal role in socioeconomic sectors, especially in severe convective weather warnings. Although notable progress has been achieved by approaches mining the spatiotemporal correlations with deep learning, these methods still suffer severe blurriness as the lead time increases, which hampers accurate predictions for extreme precipitation. To alleviate blurriness, researchers explore generative methods conditioned on blurry predictions. However, the pairs of blurry predictions and corresponding ground truth need to be generated in advance, making the training pipeline cumbersome and limiting the generality of generative models within blur modes that appear in training data. By rethinking the blurriness in precipitation nowcasting as a blur kernel acting on predictions, we propose an unsupervised postprocessing method to eliminate the blurriness without the requirement of training with the pairs of blurry predictions and corresponding ground truth. Specifically, we utilize blurry predictions to guide the generation process of a pre-trained unconditional denoising diffusion probabilistic model (DDPM) to obtain high-fidelity predictions with eliminated blurriness. A zero-shot blur kernel estimation mechanism and an auto-scale denoise guidance strategy are introduced to adapt the unconditional DDPM to any blurriness modes varying from datasets and lead times in precipitation nowcasting. Extensive experiments are conducted on 7 precipitation radar datasets, demonstrating the generality and superiority of our method.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 推薦システムにおけるマルチタスクランキングモデルのパラメータ更新バランシングアルゴリズム

A Parameter Update Balancing Algorithm for Multi-task Ranking Models in Recommendation Systems ( http://arxiv.org/abs/2410.05806v1 )

ライセンス: Link先を確認
Jun Yuan, Guohao Cai, Zhenhua Dong, (参考訳) マルチタスクランキングモデルは、現代の現実世界のレコメンデーションシステムに欠かせないものとなっている。 ほとんどのレコメンデーション研究は特定のシナリオのための洗練されたモデルの設計に重点を置いているが、様々なシナリオにわたるマルチタスクランキングモデルのパフォーマンス改善は依然として大きな課題である。 この課題に対処するためのマルチタスク最適化(MTO)メソッドの開発の必要性を強調した。 従来の手法では、共有パラメータの最適結合勾配は最適なパラメータ更新につながると仮定している。 しかし、モデルパラメータの実際の更新は、アダムのような運動量に基づくオプティマイザを使用する場合、勾配から大きく逸脱する可能性があり、観測を支援するために統計的実験を設計・実行する。 本稿では,PUBと呼ばれるマルチタスク最適化のための新しいパラメータ更新バランシングアルゴリズムを提案する。 勾配レベルタスクの融合や損失レベルタスクの融合に基づく従来のMTO手法とは対照的に、PUBはパラメータ更新バランシングによって複数のタスクを最適化する最初の作業である。 ベンチマークマルチタスクランキングデータセットに関する総合的な実験により、PUBは複数のマルチタスクバックボーンを一貫して改善し、最先端のパフォーマンスを実現する。 さらに、コンピュータビジョンデータセットのベンチマーク実験は、様々なマルチタスク学習シナリオにおけるPUBの大きな可能性を示している。 さらに,PUBはオンラインマルチタスクランキングモデルを大幅に強化し,重要なチャネルの一次トラフィックを効率的に管理する,実世界の商用プラットフォームであるHUAWEI AppGalleryの産業評価手法を展開した。

Multi-task ranking models have become essential for modern real-world recommendation systems. While most recommendation researches focus on designing sophisticated models for specific scenarios, achieving performance improvement for multi-task ranking models across various scenarios still remains a significant challenge. Training all tasks naively can result in inconsistent learning, highlighting the need for the development of multi-task optimization (MTO) methods to tackle this challenge. Conventional methods assume that the optimal joint gradient on shared parameters leads to optimal parameter updates. However, the actual update on model parameters may deviates significantly from gradients when using momentum based optimizers such as Adam, and we design and execute statistical experiments to support the observation. In this paper, we propose a novel Parameter Update Balancing algorithm for multi-task optimization, denoted as PUB. In contrast to traditional MTO method which are based on gradient level tasks fusion or loss level tasks fusion, PUB is the first work to optimize multiple tasks through parameter update balancing. Comprehensive experiments on benchmark multi-task ranking datasets demonstrate that PUB consistently improves several multi-task backbones and achieves state-of-the-art performance. Additionally, experiments on benchmark computer vision datasets show the great potential of PUB in various multi-task learning scenarios. Furthermore, we deployed our method for an industrial evaluation on the real-world commercial platform, HUAWEI AppGallery, where PUB significantly enhances the online multi-task ranking model, efficiently managing the primary traffic of a crucial channel.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 拡張凸性・滑らか性とそのディープラーニングへの応用

Extended convexity and smoothness and their applications in deep learning ( http://arxiv.org/abs/2410.05807v1 )

ライセンス: Link先を確認
Binchuan Qi, (参考訳) 単純な勾配に基づく反復アルゴリズムがディープモデルトレーニングの非凸問題に効果的に対処できるメカニズムは、しばしば勾配のリプシッツ滑らかさと強い凸性を必要とする伝統的な凸および非凸解析フレームワークの中で不完全に理解されている。 本稿では,既存の滑らかさと凸性の概念を広くし,それらの基本的な性質を記述した $\mathcal{H}(\phi)$-convexity と $\mathcal{H}(\Phi)$-smoothness を紹介する。 これらの概念に基づいて,従来の勾配勾配法および確率勾配法の拡張として機能する,高次勾配勾配法と高次確率勾配法を導入する。 さらに、これらの4つの方法を利用する際に、 $\mathcal{H}(\phi)$-convex と $\mathcal{H}(\Phi)$-smooth 目的関数の降下補題を確立する。 これらの結果に基づいて,機械学習モデルで表現される関数とディープラーニングにおける共通損失関数の両方を包含し,非凸最適化目的に対処する勾配構造制御アルゴリズムを開発した。 提案手法の有効性は実験によって実証的に検証される。

The underlying mechanism by which simple gradient-based iterative algorithms can effectively handle the non-convex problem of deep model training remains incompletely understood within the traditional convex and non-convex analysis frameworks, which often require the Lipschitz smoothness of the gradient and strong convexity. In this paper, we introduce $\mathcal{H}(\phi)$-convexity and $\mathcal{H}(\Phi)$-smoothness, which broaden the existing concepts of smoothness and convexity, and delineate their fundamental properties. Building on these concepts, we introduce the high-order gradient descent and high-order stochastic gradient descent methods, which serve as extensions to the traditional gradient descent and stochastic gradient descent methods, respectively. Furthermore, we establish descent lemmas for the $\mathcal{H}(\phi)$-convex and $\mathcal{H}(\Phi)$-smooth objective functions when utilizing these four methods. On the basis of these findings, we develop the gradient structure control algorithm to address non-convex optimization objectives, encompassing both the functions represented by machine learning models and common loss functions in deep learning. The effectiveness of the proposed methodology is empirically validated through experiments.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 視覚変換器を用いたグループ再同定のためのランダムウォーク

Vision Transformer based Random Walk for Group Re-Identification ( http://arxiv.org/abs/2410.05808v1 )

ライセンス: Link先を確認
Guoqing Zhang, Tianqi Liu, Wenxuan Fang, Yuhui Zheng, (参考訳) グループ再識別(re-ID)は、グループメンバーの課題とレイアウトの変更を主眼として、異なるカメラの下で同じ人物とグループをマッチングすることを目的としている。 既存のほとんどの手法では、ノードの特徴を更新してグループメンバーシップの変更を検討するのにk-nearest 隣のアルゴリズムを使っているが、これらの手法はグループレイアウトの変更の問題を解決することはできない。 そこで本研究では,グループ再IDのための視覚変換器を用いたランダムウォークフレームワークを提案する。 具体的には、単眼深度推定アルゴリズムに基づく視覚変換器を設計し、歩行者特徴の平均深度値を用いてグラフを構築し、カメラ距離がグループメンバーの関係に与える影響を十分に検討する。 さらに,対象画像とギャラリー画像間の親和性スコアを算出し,現在グループに属さない歩行者を除去し,グラフを再構築するランダムウォークモジュールを提案する。 実験の結果,我々のフレームワークはほとんどの手法よりも優れていることがわかった。

Group re-identification (re-ID) aims to match groups with the same people under different cameras, mainly involves the challenges of group members and layout changes well. Most existing methods usually use the k-nearest neighbor algorithm to update node features to consider changes in group membership, but these methods cannot solve the problem of group layout changes. To this end, we propose a novel vision transformer based random walk framework for group re-ID. Specifically, we design a vision transformer based on a monocular depth estimation algorithm to construct a graph through the average depth value of pedestrian features to fully consider the impact of camera distance on group members relationships. In addition, we propose a random walk module to reconstruct the graph by calculating affinity scores between target and gallery images to remove pedestrians who do not belong to the current group. Experimental results show that our framework is superior to most methods.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 不確実性を考慮したフェアネス適応型分類木

Uncertainty-Aware Fairness-Adaptive Classification Trees ( http://arxiv.org/abs/2410.05810v1 )

ライセンス: Link先を確認
Anna Gottard, Vanessa Verrina, Sabrina Giordano, (参考訳) 人工知能と機械学習のアルゴリズムが人間の生活にますます影響を及ぼす時代において、予測における潜在的な差別を考慮に入れたモデルを開発することが不可欠である。 本稿では,木構築プロセスに公平性調整を組み込んだ分割基準を用いた新しい分類木アルゴリズムを導入することにより,この問題に対処する。 提案手法は,保護群間で予測精度と公平度をバランスさせる不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純物不純 各分割ノードは、分類誤差と公平性の両方を考慮し、このアルゴリズムは識別を緩和する分割を促進する。 重要なことは、不公平な分裂を罰する際、その点推定に頼るのではなく、その信頼区間を活用することによって、公平度測定の不確実性を考慮することである。 ベンチマークおよび合成データセットを用いた実験結果から,本手法は従来の分類木に比べて識別予測を効果的に低減し,全体的な精度を著しく損なうことなく達成できることが示唆された。

In an era where artificial intelligence and machine learning algorithms increasingly impact human life, it is crucial to develop models that account for potential discrimination in their predictions. This paper tackles this problem by introducing a new classification tree algorithm using a novel splitting criterion that incorporates fairness adjustments into the tree-building process. The proposed method integrates a fairness-aware impurity measure that balances predictive accuracy with fairness across protected groups. By ensuring that each splitting node considers both the gain in classification error and the fairness, our algorithm encourages splits that mitigate discrimination. Importantly, in penalizing unfair splits, we account for the uncertainty in the fairness metric by utilizing its confidence interval instead of relying on its point estimate. Experimental results on benchmark and synthetic datasets illustrate that our method effectively reduces discriminatory predictions compared to traditional classification trees, without significant loss in overall accuracy.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# CALoR:包括的モデル反転防衛を目指して

CALoR: Towards Comprehensive Model Inversion Defense ( http://arxiv.org/abs/2410.05814v1 )

ライセンス: Link先を確認
Hongyao Yu, Yixiang Qiu, Hao Fang, Bin Chen, Sijin Yu, Bin Wang, Shu-Tao Xia, Ke Xu, (参考訳) Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。 MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させ、ディープニューラルネットワーク(DNN)の深刻なプライバシーリスクを生じさせている。 しかし、MIAに対する防衛戦略の開発は、最新のMIAに対抗するために比較的後退しており、既存の防衛は、モデルユーティリティとモデルロバスト性の間のさらなるトレードオフを達成できない。 本稿では,MIAの本質的脆弱性の観点から詳細な解析を行い,前回の防衛で部分的に検討された基本パイプラインに固有の弱点を包括的に発見する。 これらの新たな知見に基づいて、信頼性適応と低ランク圧縮(CALoR)を統合した堅牢な防御機構を提案する。 本手法は, モデルインバージョンディフェンスのために特別に設計された新しいロバスト性強化型分類損失を含み, 分類ヘッダを圧縮する異常な有効性を明らかにする。 CALoRでは、最適化の目的を誤解させ、漏洩した情報を減らし、MIAのバックプロパゲーションを阻害し、プライバシー漏洩のリスクを軽減することができる。 実験の結果,MIAに対するSOTA(State-of-the-art defense performance)が達成され,様々なシナリオにおいて既存の防衛よりも優れた一般化が得られた。

Model Inversion Attacks (MIAs) aim at recovering privacy-sensitive training data from the knowledge encoded in the released machine learning models. Recent advances in the MIA field have significantly enhanced the attack performance under multiple scenarios, posing serious privacy risks of Deep Neural Networks (DNNs). However, the development of defense strategies against MIAs is relatively backward to resist the latest MIAs and existing defenses fail to achieve further trade-off between model utility and model robustness. In this paper, we provide an in-depth analysis from the perspective of intrinsic vulnerabilities of MIAs, comprehensively uncovering the weaknesses inherent in the basic pipeline, which are partially investigated in the previous defenses. Building upon these new insights, we propose a robust defense mechanism, integrating Confidence Adaptation and Low-Rank compression(CALoR). Our method includes a novel robustness-enhanced classification loss specially-designed for model inversion defenses and reveals the extraordinary effectiveness of compressing the classification header. With CALoR, we can mislead the optimization objective, reduce the leaked information and impede the backpropagation of MIAs, thus mitigating the risk of privacy leakage. Extensive experimental results demonstrate that our method achieves state-of-the-art (SOTA) defense performance against MIAs and exhibits superior generalization to existing defenses across various scenarios.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 知識に基づく言語モデルの提案

Probing Language Models on Their Knowledge Source ( http://arxiv.org/abs/2410.05817v1 )

ライセンス: Link先を確認
Zineddine Tighidet, Andrea Mogini, Jiali Mei, Benjamin Piwowarski, Patrick Gallinari, (参考訳) 大規模言語モデル(LLM)は、しばしば、学習された、内部(パラメトリック知識、PK)と推論中に提供される外部知識(コンテキスト知識、CK)の衝突に遭遇する。 LLMモデルが一方の知識ソースを他方よりも優先する方法を理解することは、依然として課題である。 本稿では,LLMにおけるPKとCKの選択を規定するメカニズムを探索する新しい探索フレームワークを提案する。 モデルPKと矛盾するように設計された制御されたプロンプトを用いて、特定のモデルのアクティベーションが採用した知識源の指標であることを実証する。 このフレームワークは,異なる大きさのLLM上で評価され,特に入力の関連性に関連する中層活性化が,知識源の選択を予測し,知識の衝突を効果的に処理できる信頼性の高いモデルへの道を開く上で重要であることを示す。

Large Language Models (LLMs) often encounter conflicts between their learned, internal (parametric knowledge, PK) and external knowledge provided during inference (contextual knowledge, CK). Understanding how LLMs models prioritize one knowledge source over the other remains a challenge. In this paper, we propose a novel probing framework to explore the mechanisms governing the selection between PK and CK in LLMs. Using controlled prompts designed to contradict the model's PK, we demonstrate that specific model activations are indicative of the knowledge source employed. We evaluate this framework on various LLMs of different sizes and demonstrate that mid-layer activations, particularly those related to relations in the input, are crucial in predicting knowledge source selection, paving the way for more reliable models capable of handling knowledge conflicts effectively.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# CAP: プロンプト生成による生成モデルにおける不正なデータ使用の検出

CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation ( http://arxiv.org/abs/2410.05819v1 )

ライセンス: Link先を確認
Daniela Gallo, Angelica Liguori, Ettore Ritacco, Luca Caviglione, Fabrizio Durante, Giuseppe Manco, (参考訳) 正確で偏りのない予測を実現するため、機械学習(ML)モデルは大規模で異質で高品質なデータセットに依存している。 しかし、これは、特にインターネットから情報が収集された場合、著作権と認可に関する倫理的および法的懸念を引き起こす可能性がある。 生成モデルの台頭により、特に著作権のあるコンテンツを意図せず複製できるため、データの追跡が特に重要になっている。 そこで本研究では,MLモデルが不正なデータでトレーニングされているかどうかを自動テストするフレームワークであるPrompts Generation (CAP) による著作権監査を提案する。 具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。 有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。 その結果,実データと合成データの両方に対してCAPの有効性が示された。

To achieve accurate and unbiased predictions, Machine Learning (ML) models rely on large, heterogeneous, and high-quality datasets. However, this could raise ethical and legal concerns regarding copyright and authorization aspects, especially when information is gathered from the Internet. With the rise of generative models, being able to track data has become of particular importance, especially since they may (un)intentionally replicate copyrighted contents. Therefore, this work proposes Copyright Audit via Prompts generation (CAP), a framework for automatically testing whether an ML model has been trained with unauthorized data. Specifically, we devise an approach to generate suitable keys inducing the model to reveal copyrighted contents. To prove its effectiveness, we conducted an extensive evaluation campaign on measurements collected in four IoT scenarios. The obtained results showcase the effectiveness of CAP, when used against both realistic and synthetic datasets.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# IncSAR: SARターゲット認識のためのデュアルフュージョンインクリメンタルラーニングフレームワーク

IncSAR: A Dual Fusion Incremental Learning Framework for SAR Target Recognition ( http://arxiv.org/abs/2410.05820v1 )

ライセンス: Link先を確認
George Karantaidis, Athanasios Pantsios, Yiannis Kompatsiaris, Symeon Papadopoulos, (参考訳) ディープラーニング技術は、事前に定義されたデータセットに依存する静的シナリオにおけるSAR(Synthetic Aperture Radar)ターゲット認識に成功している。 しかし、現実のシナリオでは、モデルは学習済みの知識を忘れずに、段階的に新しい情報を学ぶ必要がある。 破滅的な忘れ方として知られる新しいタスクを学ぶとき、モデルが古い知識を忘れる傾向は、未解決の課題である。 本稿では,SAR目標認識における破滅的忘れを緩和するために,インクリメンタル学習フレームワークIncSARを提案する。 IncSARはビジョントランスフォーマー(ViT)と、遅延融合戦略によって結合された個々のブランチにカスタム設計の畳み込みニューラルネットワーク(CNN)を備える。 SAR画像におけるスペックルノイズを軽減するため,ロバスト主成分分析(RPCA)の特性を利用したデノナイジングモジュールが導入された。 さらに,特徴の線形分離性を高めるためにランダムなプロジェクション層を用い,抽出したクラスプロトタイプをデコレーションするために線形判別分析(LDA)手法を提案する。 MSTARとOpenSARShipベンチマークデータセットの実験結果によると、IncSARは最先端のアプローチよりも優れており、平均精度が98.05\%$から99.63\%$、パフォーマンス低下率が3.05\%から0.33\%$に改善されている。

Deep learning techniques have been successfully applied in Synthetic Aperture Radar (SAR) target recognition in static scenarios relying on predefined datasets. However, in real-world scenarios, models must incrementally learn new information without forgetting previously learned knowledge. Models' tendency to forget old knowledge when learning new tasks, known as catastrophic forgetting, remains an open challenge. In this paper, an incremental learning framework, called IncSAR, is proposed to mitigate catastrophic forgetting in SAR target recognition. IncSAR comprises a Vision Transformer (ViT) and a custom-designed Convolutional Neural Network (CNN) in individual branches combined through a late-fusion strategy. A denoising module, utilizing the properties of Robust Principal Component Analysis (RPCA), is introduced to alleviate the speckle noise present in SAR images. Moreover, a random projection layer is employed to enhance the linear separability of features, and a Linear Discriminant Analysis (LDA) approach is proposed to decorrelate the extracted class prototypes. Experimental results on the MSTAR and OpenSARShip benchmark datasets demonstrate that IncSAR outperforms state-of-the-art approaches, leading to an improvement from $98.05\%$ to $99.63\%$ in average accuracy and from $3.05\%$ to $0.33\%$ in performance dropping rate.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 会話木探索課題に対するゼロショットアプローチ

A Zero-Shot approach to the Conversational Tree Search Task ( http://arxiv.org/abs/2410.05821v1 )

ライセンス: Link先を確認
Dirk Väth, Ngoc Thang Vu, (参考訳) 法律ドメインやメディアドメインのような機密ドメインでは、ユーザに与えられる情報の正しさが重要となる。 これを解決するために、最近導入されたタスク会話木探索(CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。 しかし、最先端のCTSエージェントの大きな欠点は、その長いトレーニング時間であり、特に、関連するドメイングラフが更新されるたびに新しいエージェントをトレーニングする必要があるため、問題となる。 本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。 これを実現するために、ゼロショット制御可能なCTSエージェントのための新しいLCMベースの手法を実装した。 これらのエージェントはシミュレーションにおいて最先端のCTSエージェント(p<0.0001; Barnard Exact test)よりも優れていた。 これはすべての利用可能なCTSドメインに一般化される。 最後に,現状の強化学習に基づく CTS エージェントと比較して,我々のポリシー (p<0.05; Barnard Exact) がタスクの精度を著しく向上することを示す。

In sensitive domains, such as legal or medial domains, the correctness of information given to users is critical. To address this, the recently introduced task Conversational Tree Search (CTS) provides a graph-based framework for controllable task-oriented dialog in sensitive domains. However, a big drawback of state-of-the-art CTS agents is their long training time, which is especially problematic as a new agent must be trained every time the associated domain graph is updated. The goal of this paper is to eliminate the need for training CTS agents altogether. To achieve this, we implement a novel LLM-based method for zero-shot, controllable CTS agents. We show that these agents significantly outperform state-of-the-art CTS agents (p<0.0001; Barnard Exact test) in simulation. This generalizes to all available CTS domains. Finally, we perform user evaluation to test the agent performance in the wild, showing that our policy significantly (p<0.05; Barnard Exact) improves task-success compared to the state-of-the-art Reinforcement Learning-based CTS agent.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 心理療法におけるマルチセッションクライアント中心治療成績評価

Multi-Session Client-Centered Treatment Outcome Evaluation in Psychotherapy ( http://arxiv.org/abs/2410.05824v1 )

ライセンス: Link先を確認
Hongbin Na, Tao Shen, Shumao Yu, Ling Chen, (参考訳) 精神療法では、治療過程や結果を体系的に評価することにより、精神医療を強化するために、治療結果評価(英語版)または治療結果評価(英語版)が不可欠である。 既存の大きな言語モデルアプローチは、しばしばセラピスト中心のシングルセッションの評価に焦点を合わせ、クライアントの主観的な経験を無視し、複数のセッションをまたいだ長手な進捗を無視する。 これらの制約に対処するため,臨床面接による治療結果の評価を自動化するクライアントインフォームド心理学的評価に基づく評価フレームワークであるIPAEvalを提案する。 IPAEvalは、クロスセッションクライアントコンテキストアセスメントとセッション中心クライアントダイナミックスアセスメントを統合し、治療の進歩を包括的に理解する。 新たに開発したTheraPhaseデータセットの実験により,IPAEvalは複数のセッションにおける症状の重症度と治療成績を効果的に追跡し,従来のシングルセッションモデルより優れ,アイテム認識推論機構の利点を検証した。

In psychotherapy, therapeutic outcome assessment, or treatment outcome evaluation, is essential for enhancing mental health care by systematically evaluating therapeutic processes and outcomes. Existing large language model approaches often focus on therapist-centered, single-session evaluations, neglecting the client's subjective experience and longitudinal progress across multiple sessions. To address these limitations, we propose IPAEval, a client-Informed Psychological Assessment-based Evaluation framework that automates treatment outcome evaluations from the client's perspective using clinical interviews. IPAEval integrates cross-session client-contextual assessment and session-focused client-dynamics assessment to provide a comprehensive understanding of therapeutic progress. Experiments on our newly developed TheraPhase dataset demonstrate that IPAEval effectively tracks symptom severity and treatment outcomes over multiple sessions, outperforming previous single-session models and validating the benefits of items-aware reasoning mechanisms.
翻訳日:2024-11-01 12:39:56 公開日:2024-10-08
# 高等教育における分析学習のための運用責任AIフレームワークの実現に向けて

Towards an Operational Responsible AI Framework for Learning Analytics in Higher Education ( http://arxiv.org/abs/2410.05827v1 )

ライセンス: Link先を確認
Alba Morales Tirado, Paul Mulholland, Miriam Fernandez, (参考訳) 大学は、Learning Analytics(LA)やPredictive Learning Analytics(PLA)といったAIアプリケーションが、リスクの高い学生を特定し、学習をパーソナライズし、教師を支援し、教育的な意思決定を導く上で重要な役割を果たしている。 しかし、アルゴリズムバイアスが少数派の学生に不平等な支援をもたらすなど、これらのシステムがもたらす潜在的な害に対する懸念が高まっている。 LAでResponsible AIの必要性を探求する人は多いが、既存の作業では、制度がこれらの原則を運用する方法に関する実践的なガイダンスが欠如していることが多い。 本稿では, LA in Higher Education (HE) に特化して開発された, Responsible AI フレームワークを提案する。 私たちはまず、大手IT企業を含む11の確立した責任AIフレームワークを、HEにおけるLAのコンテキストにマッピングすることから始めました。 この結果、透明性、公平性、説明責任といった7つの重要な原則が特定された。 次に、これらの原則が実際にどのように適用されたかを理解するために、文献の体系的なレビューを行った。 これらの知見から,我々は,コミュニティインプットによって発展し,LAシステムが発展を続ける中で,その関連性を確保するために,HE機関に実践的なガイダンスを提供する新しい枠組みを提案する。

Universities are increasingly adopting data-driven strategies to enhance student success, with AI applications like Learning Analytics (LA) and Predictive Learning Analytics (PLA) playing a key role in identifying at-risk students, personalising learning, supporting teachers, and guiding educational decision-making. However, concerns are rising about potential harms these systems may pose, such as algorithmic biases leading to unequal support for minority students. While many have explored the need for Responsible AI in LA, existing works often lack practical guidance for how institutions can operationalise these principles. In this paper, we propose a novel Responsible AI framework tailored specifically to LA in Higher Education (HE). We started by mapping 11 established Responsible AI frameworks, including those by leading tech companies, to the context of LA in HE. This led to the identification of seven key principles such as transparency, fairness, and accountability. We then conducted a systematic review of the literature to understand how these principles have been applied in practice. Drawing from these findings, we present a novel framework that offers practical guidance to HE institutions and is designed to evolve with community input, ensuring its relevance as LA systems continue to develop.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# マイクロ波センサ用高誘電率誘電体を用いた結合共振器

Coupled resonators based on high permittivity dielectrics for microwave sensors ( http://arxiv.org/abs/2410.05831v1 )

ライセンス: Link先を確認
Shahnam Gorgi Zadeh, Alberto Ghirri, Sergio Pagano, Simone Tocci, Claudio Gatti, Antonio Cassinese, (参考訳) 高品質な要素を持つ結合キャビティの使用は、量子センシングやメトロジーなど、いくつかの応用に疑いの余地はない。 本稿では,高い誘電率(\varepsilon_\mathrm{r}$)誘電体共振器と高Q$の楕円形TESLA形超伝導空洞を結合した共振器構成について報告する。 我々は、0.1GHzのSrTiO$_3$(STO)共振器を用いて、0.16Kで30000以上の値に到達することが観測された最初の試験を行った。 特に、結合系のノッチは、誘電率の関数として、$\varepsilon_\mathrm{r} \approx 230$に対して2.8MHzの周波数感度を持つことを示す。 これらの結果はマイクロ波センサとして結合共振器システムの可能性を強調し、低温での応用のための高誘電率共振器の工学に有用である。

The use of coupled cavities with high quality factor is of undoubted interest for several applications including those concerning quantum sensing and metrology. Here we report on a coupled cavity configuration in which a high $Q$-factor elliptical TESLA-shaped superconducting cavity is coupled with a high permittivity ($\varepsilon_\mathrm{r}$) dielectric resonator. We carried out first tests using a SrTiO$_3$ (STO) resonator at 0.1 GHz, whose permittivity has been observed to reach values higher than 30000 a 0.16 K. The sensitivities of such configurations are discussed both in strong coupling and weak coupling regime. In particular we show that the notch of the coupled system has, as a function of the permittivity, a frequency sensitivity of 2.8 MHz for $\varepsilon_\mathrm{r} \approx 230$. These results highlight the potential of the coupled resonator systems as microwave sensors and are useful for the engineering of high permittivity resonators for applications at cryogenic temperatures.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 有限パルスを用いた実験コヒーレント状態量子秘密共有

Experimental coherent-state quantum secret sharing with finite pulses ( http://arxiv.org/abs/2410.05836v1 )

ライセンス: Link先を確認
Yuan-Zhuo Wang, Xiao-Ran Sun, Xiao-Yu Cao, Hua-Lei Yin, Zeng-Bing Chen, (参考訳) 量子秘密共有(QSS)は、マルチパーティの量子通信において重要な役割を担い、将来の量子多パーティコンピューティングネットワークの重要なコンポーネントである。 したがって、有限鍵方式の下で実際の光学系において、情報理論のセキュリティと検証の両方を提供するQSSプロトコルを開発することは、非常に貴重である。 本研究では,位相符号化技術に基づく3ユーザQSSプロトコルを提案する。 本プロトコルでは, 2人のプレイヤーに対して対称な手順を適用することにより, 悪意のあるプレイヤーの身元を事前に知ることなく, 非対称なベース選択によって導入されたセキュリティの抜け穴を解消する。 加藤の濃度不等式は、有限キー効果によるコヒーレント攻撃に対するセキュリティを提供するために利用される。 さらに,本プロトコルの実用性は,伝送距離5kmの30dBチャネル損失で検証されている。 本プロトコルは, パルス強度と基本選択確率の異なる値を選択することにより, 432bpsから192bpsまでのセキュアな鍵レートを実現する。 セキュリティと実用性を向上したプロトコルは、量子マルチパーティコンピューティングネットワークの実現に欠かせない要素である。

Quantum secret sharing (QSS) plays a significant role in multiparty quantum communication and is a crucial component of future quantum multiparty computing networks. Therefore, it is highly valuable to develop a QSS protocol that offers both information-theoretic security and validation in real optical systems under a finite-key regime. In this work, we propose a three-user QSS protocol based on phase-encoding technology. By adopting symmetric procedures for the two players, our protocol resolves the security loopholes introduced by asymmetric basis choice without prior knowledge of the identity of the malicious player. Kato's concentration inequality is exploited to provide security against coherent attacks with the finite-key effect. Moreover, the practicality of our protocol has been validated under a 30-dB channel loss with a transmission distance of 5-km fiber. Our protocol achieves secure key rates ranging from 432 to 192 bps by choosing different pulse intensities and basis selection probabilities. Offering enhanced security and practicality, our protocol stands as an essential element for the realization of quantum multiparty computing networks.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 雑音補正Langevinアルゴリズムと半復調によるサンプリング

A noise-corrected Langevin algorithm and sampling by half-denoising ( http://arxiv.org/abs/2410.05837v1 )

ライセンス: Link先を確認
Aapo Hyvärinen, (参考訳) ランゲヴィンアルゴリズム(英: Langevin algorithm)は、実空間において与えられたpdfからサンプリングする古典的な方法である。 基本的なバージョンでは、ログ密度の勾配に関する知識のみを必要とする(スコア関数とも呼ばれる)。 しかし、ディープラーニングでは、ガウスノイズがデータに追加されたときに、いわゆる「ノイズスコア関数」、すなわち、ノイズデータのログ密度の勾配を学習することがしばしば容易になる。 そのような推定は偏りがあり、ランゲヴィン法の使用を複雑にする。 本稿では、少なくとも1次項に関して、ノイズによる偏りを除去するLangevinアルゴリズムのノイズ補正版を提案する。 拡散モデルとは異なり、我々のアルゴリズムは1つのノイズレベルに対してのみノイズスコア関数を知っておく必要がある。 さらに、データに繰り返しノイズを加え、そのノイズの半分を取り除こうとする、興味深い直感的な解釈を持つ単純な特殊なケースを提案する。

The Langevin algorithm is a classic method for sampling from a given pdf in a real space. In its basic version, it only requires knowledge of the gradient of the log-density, also called the score function. However, in deep learning, it is often easier to learn the so-called "noisy score function", i.e. the gradient of the log-density of noisy data, more precisely when Gaussian noise is added to the data. Such an estimate is biased and complicates the use of the Langevin method. Here, we propose a noise-corrected version of the Langevin algorithm, where the bias due to noisy data is removed, at least regarding first-order terms. Unlike diffusion models, our algorithm needs to know the noisy score function for one single noise level only. We further propose a simple special case which has an interesting intuitive interpretation of iteratively adding noise the data and then attempting to remove half of that noise.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 時間移動:無限データ制限における最適学習率とバッチサイズについて

Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit ( http://arxiv.org/abs/2410.05838v1 )

ライセンス: Link先を確認
Oleg Filatov, Jan Ebert, Jiangtao Wang, Stefan Kesselheim, (参考訳) 大規模言語モデル(LLM)の最適スケーリングにおける大きな課題の1つは、ハイパーパラメータチューニングの禁止コスト、特に学習率$\eta$とバッチサイズ$B$である。 $\mu$P (Yang et al , 2022) のようなテクニックは、無限モデルサイズ制限における最適な$\eta$転送のスケーリングルールを提供するが、無限データサイズ制限 (T \to \infty$) における最適なスケーリングの挙動はいまだ不明である。 例えば、$\eta \propto \sqrt{T}$, $\eta \propto 1$, and $\eta \propto 1/\sqrt{T}$。 さらに, 最適バッチサイズが$B_\mathrm{crit}$と正に相関していることを示す。 驚くべきことに、観測された最適$\eta$と$B$Dynamicsは、$\mu$Pモデルスケーリングで保存され、損失値のみに依存した$B_\mathrm{crit}$の従来の見方に挑戦する。 最適性を補完し、学習率の変化に対する損失の感度を調べ、そこでは、$T \to \infty$で減少し、$\mu$Pモデルスケーリングで一定を維持する感度を求める。 結果が、共同最適化データとモデルスケーリングの統一化に向けた第一歩になることを願っています。

One of the main challenges in optimal scaling of large language models (LLMs) is the prohibitive cost of hyperparameter tuning, particularly learning rate $\eta$ and batch size $B$. While techniques like $\mu$P (Yang et al., 2022) provide scaling rules for optimal $\eta$ transfer in the infinite model size limit, the optimal scaling behavior in the infinite data size limit ($T \to \infty$) remains unknown. We fill in this gap by observing for the first time an interplay of three optimal $\eta$ scaling regimes: $\eta \propto \sqrt{T}$, $\eta \propto 1$, and $\eta \propto 1/\sqrt{T}$ with transitions controlled by $B$ and its relation to the time-evolving critical batch size $B_\mathrm{crit} \propto T$. Furthermore, we show that the optimal batch size is positively correlated with $B_\mathrm{crit}$: keeping it fixed becomes suboptimal over time even if learning rate is scaled optimally. Surprisingly, our results demonstrate that the observed optimal $\eta$ and $B$ dynamics are preserved with $\mu$P model scaling, challenging the conventional view of $B_\mathrm{crit}$ dependence solely on loss value. Complementing optimality, we examine the sensitivity of loss to changes in learning rate, where we find the sensitivity to decrease with $T \to \infty$ and to remain constant with $\mu$P model scaling. We hope our results make the first step towards a unified picture of the joint optimal data and model scaling.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 知識グラフのための一般化マルチモーダルグラフパターンのボトムアップ随時発見

Bottom-up Anytime Discovery of Generalised Multimodal Graph Patterns for Knowledge Graphs ( http://arxiv.org/abs/2410.05839v1 )

ライセンス: Link先を確認
Xander Wilcke, Rick Mourits, Auke Rijpma, Richard Zijdeman, (参考訳) 膨大な量の異種知識が知識グラフの形で公開され、しばしば複数のデータソースをリンクし、研究者が多くの新しい研究質問に答えることを可能にする。 しかし、データに答えがあるかもしれないという疑問が浮かび上がっており、興味深い新しい洞察が残されている可能性がある。 この科学的ワークフローにおいて研究者を支援するため、知識グラフにおける一般化マルチモーダルグラフパターンのボトムアップ発見のための任意のアルゴリズムを導入する。 各パターンはバイナリステートメントと(データ-)型変数、定数、および/または値パターンの結合です。 発見されると、パターンはSPARQLクエリに変換され、メタデータと証明情報とともにインタラクティブなファセットブラウザで表示され、研究者がクエリを探索、分析、共有することができる。 我々は,人文科学分野の専門家の助けを借りて,ユーザの視点から評価を行った。

Vast amounts of heterogeneous knowledge are becoming publicly available in the form of knowledge graphs, often linking multiple sources of data that have never been together before, and thereby enabling scholars to answer many new research questions. It is often not known beforehand, however, which questions the data might have the answers to, potentially leaving many interesting and novel insights to remain undiscovered. To support scholars during this scientific workflow, we introduce an anytime algorithm for the bottom-up discovery of generalized multimodal graph patterns in knowledge graphs. Each pattern is a conjunction of binary statements with (data-) type variables, constants, and/or value patterns. Upon discovery, the patterns are converted to SPARQL queries and presented in an interactive facet browser together with metadata and provenance information, enabling scholars to explore, analyse, and share queries. We evaluate our method from a user perspective, with the help of domain experts in the humanities.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# ModalPrompt:大規模マルチモーダルモデルの連続学習のためのDual-Modality Guided Prompt

ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models ( http://arxiv.org/abs/2410.05849v1 )

ライセンス: Link先を確認
Fanhu Zeng, Fei Zhu, Haiyang Guo, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) 大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。 しかし、新しいタスクは動的世界で順次発生し、連続的に微調整されたLMMは、しばしば性能の低下につながる。 破滅的な忘れ込みの課題に対処するため、既存の手法はデータリプレイやモデル拡張を利用しており、どちらもLMM用に特別に開発されておらず、固有の制限がある。 本稿では,従来の知識の忘れを軽減しつつ,新たなタスクを効果的に学習するために,マルチモーダル連続学習に適した新しいデュアルモーダル指導型プロンプト学習フレームワーク(ModalPrompt)を提案する。 具体的には、各タスクのプロトタイププロンプトを学習し、タスク識別子の効率的なプロンプト選択と、画像テキストの監督に基づく知識伝達のプロンプトを利用する。 例えば、ModalPromptは、LMMの連続学習ベンチマークにおいて、タスク数に比例してトレーニングコストの増加を控えた1.42ドルの推論速度で、20%以上のパフォーマンス向上を実現している。 コードは一般公開される予定だ。

Large Multimodal Models (LMMs) exhibit remarkable multi-tasking ability by learning mixed datasets jointly. However, novel tasks would be encountered sequentially in dynamic world, and continually fine-tuning LMMs often leads to performance degrades. To handle the challenges of catastrophic forgetting, existing methods leverage data replay or model expansion, both of which are not specially developed for LMMs and have their inherent limitations. In this paper, we propose a novel dual-modality guided prompt learning framework (ModalPrompt) tailored for multimodal continual learning to effectively learn new tasks while alleviating forgetting of previous knowledge. Concretely, we learn prototype prompts for each task and exploit efficient prompt selection for task identifiers and prompt fusion for knowledge transfer based on image-text supervision. Extensive experiments demonstrate the superiority of our approach, e.g., ModalPrompt achieves +20% performance gain on LMMs continual learning benchmarks with $\times$ 1.42 inference speed refraining from growing training cost in proportion to the number of tasks. The code will be made publically available.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 語学レベルの異なる話者と聞き手とのコミュニケーション

Communicating with Speakers and Listeners of Different Pragmatic Levels ( http://arxiv.org/abs/2410.05851v1 )

ライセンス: Link先を確認
Kata Naszadi, Frans A. Oliehoek, Christof Monz, (参考訳) 本稿では,言語学習を模擬し,様々な推論能力を持つ話者とリスナーの会話を通じて,多言語能力がコミュニケーションの成功に与える影響を考察する。 この相互作用を研究することによって、コミュニケーションパートナー間の推論の一致レベルが、コミュニケーションの成功と言語学習にとってより有益な環境を生み出すという仮説を立てる。 本研究は,学習者の実践的能力のレベルに関係なく,より明示的でリテラルな言語からの学習が有利であることが示唆された。 さらに、評価中だけでなく、言語学習中の実践的推論を統合することで、全体的なコミュニケーション性能が著しく向上することがわかった。 本稿では,コミュニケーションを最適化する上で,推論レベルを整合させることの重要性と,実践的推論を取り入れることの重要性について考察する。

This paper explores the impact of variable pragmatic competence on communicative success through simulating language learning and conversing between speakers and listeners with different levels of reasoning abilities. Through studying this interaction, we hypothesize that matching levels of reasoning between communication partners would create a more beneficial environment for communicative success and language learning. Our research findings indicate that learning from more explicit, literal language is advantageous, irrespective of the learner's level of pragmatic competence. Furthermore, we find that integrating pragmatic reasoning during language learning, not just during evaluation, significantly enhances overall communication performance. This paper provides key insights into the importance of aligning reasoning levels and incorporating pragmatic reasoning in optimizing communicative interactions.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# Egalitarian Assignment のための確率帯域

Stochastic Bandits for Egalitarian Assignment ( http://arxiv.org/abs/2410.05856v1 )

ライセンス: Link先を確認
Eugene Lim, Vincent Y. F. Tan, Harold Soh, (参考訳) 確率的多武装バンディットの文脈における平等的代入問題であるEgalMABについて検討する。 EgalMABでは、エージェントが一連のユーザーを武器に割り当てる。 各ステップでエージェントは、同じアームに2人のユーザが割り当てられないように、正確に1つのアームを各ユーザに割り当てなければならない。 その後、各ユーザは、割り当てられた腕に関連する未知の報酬分布から引き出された報酬を取得する。 エージェントの目的は、固定された地平線上での全ユーザーの最小累積報酬を最大化することである。 この問題は、仕事の公平さやリソース割り当てなどの分野に応用されている。 UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。 補完として、ほぼ一致しない政策非依存の不合理性結果を確立する。

We study EgalMAB, an egalitarian assignment problem in the context of stochastic multi-armed bandits. In EgalMAB, an agent is tasked with assigning a set of users to arms. At each time step, the agent must assign exactly one arm to each user such that no two users are assigned to the same arm. Subsequently, each user obtains a reward drawn from the unknown reward distribution associated with its assigned arm. The agent's objective is to maximize the minimum expected cumulative reward among all users over a fixed horizon. This problem has applications in areas such as fairness in job and resource allocations, among others. We design and analyze a UCB-based policy EgalUCB and establish upper bounds on the cumulative regret. In complement, we establish an almost-matching policy-independent impossibility result.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# MelissaDL x Breed: アクティブラーニングによるマルチパラメトリックサロゲートのデータ効率向上を目指したオンライン指導

MelissaDL x Breed: Towards Data-Efficient On-line Supervised Training of Multi-parametric Surrogates with Active Learning ( http://arxiv.org/abs/2410.05860v1 )

ライセンス: Link先を確認
Sofya Dymchenko, Abhishek Purandare, Bruno Raffin, (参考訳) 人工知能は、偏微分方程式(PDE)の解を近似するディープニューラルネットワークによる科学計算を変換している。 従来のオフライントレーニング手法では、トレーニングデータセットを前もって数値計算器で計算する必要があるため、ストレージとI/O効率に関する問題に直面している。 私たちの以前の作業であるMelissaフレームワークは、データをオンザフライで作成し、トレーニングプロセスに直接ストリームすることで、これらの問題に対処しています。 本稿では,オンライン・サロゲート・トレーニングにおけるデータ効率を向上させるための新しいアクティブ・ラーニング手法を提案する。 シュロゲートは直接的かつ多パラメータであり、例えば、異なる初期条件と境界条件パラメータで与えられた時間ステップを直接予測するように訓練されている。 提案手法では,パラメータ空間の困難な領域にNNトレーニングを集中させるために,学習損失統計によって導かれる適応多重重要度サンプリングを用いる。 2次元熱PDEの予備的な結果は、この方法、ブリード (Breed) の可能性を実証し、計算オーバーヘッドを低減し、サロゲートの一般化能力を向上させる。

Artificial intelligence is transforming scientific computing with deep neural network surrogates that approximate solutions to partial differential equations (PDEs). Traditional off-line training methods face issues with storage and I/O efficiency, as the training dataset has to be computed with numerical solvers up-front. Our previous work, the Melissa framework, addresses these problems by enabling data to be created "on-the-fly" and streamed directly into the training process. In this paper we introduce a new active learning method to enhance data-efficiency for on-line surrogate training. The surrogate is direct and multi-parametric, i.e., it is trained to predict a given timestep directly with different initial and boundary conditions parameters. Our approach uses Adaptive Multiple Importance Sampling guided by training loss statistics, in order to focus NN training on the difficult areas of the parameter space. Preliminary results for 2D heat PDE demonstrate the potential of this method, called Breed, to improve the generalization capabilities of surrogates while reducing computational overhead.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 生成モデルを用いた未観測物体検出

Unobserved Object Detection using Generative Models ( http://arxiv.org/abs/2410.05869v1 )

ライセンス: Link先を確認
Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome, (参考訳) 画像に見えない物体を検出できますか。 本研究では,2次元・3次元非観測物体検出の新たな課題として,物体の位置を画像フレームの外側で予測する手法を提案する。 本研究では,2次元・3次元拡散モデルや視覚言語モデルなど,最先端の事前学習型生成モデルを適用し,直接観測されていない物体の存在を推測できることを示す。 このタスクをベンチマークするために、パフォーマンスの異なる側面をキャプチャする一連のメトリクスを提案する。 本研究では,COCOオブジェクトカテゴリを用いたRealEstate10kデータセットによる屋内シーンの実証評価を行い,未観測物体検出作業における生成モデルの利用を動機づけた結果を示した。 現在の研究は、視覚的な検索や確率的計画のような説得力のあるアプリケーションに向けた有望なステップを示しており、直接観察できるもの以上のオブジェクト検出を活用できる。

Can we detect an object that is not visible in an image? This study introduces the novel task of 2D and 3D unobserved object detection for predicting the location of objects that are occluded or lie outside the image frame. We adapt several state-of-the-art pre-trained generative models to solve this task, including 2D and 3D diffusion models and vision--language models, and show that they can be used to infer the presence of objects that are not directly observed. To benchmark this task, we propose a suite of metrics that captures different aspects of performance. Our empirical evaluations on indoor scenes from the RealEstate10k dataset with COCO object categories demonstrate results that motivate the use of generative models for the unobserved object detection task. The current work presents a promising step towards compelling applications like visual search and probabilistic planning that can leverage object detection beyond what can be directly observed.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 部分観測可能な確率成分計画のためのヒューリスティックス

Heuristics for Partially Observable Stochastic Contingent Planning ( http://arxiv.org/abs/2410.05870v1 )

ライセンス: Link先を確認
Guy Shani, (参考訳) 確率的部分観測可能な領域でタスクを完了させることは人工知能の重要な問題であり、しばしばゴールベースのPOMDPとして定式化される。 ゴールベースのPOMDPは、最初の信念からゴールへの前方軌道を走らせるRTDP-BELアルゴリズムを用いて解決できる。 これらの軌道はヒューリスティックによって導かれることができ、より正確なヒューリスティックははるかに高速な収束をもたらす。 本稿では,ドメインモデルの構造的表現を利用するヒューリスティック関数を開発する。 我々は、情報の価値と確率的効果を考慮しつつ、リラックスした空間で目標を達成する計画を計算する。 我々のヒューリスティックは計算が遅いが、収束前には桁違いのトラジェクトリを必要とすることを示す実験を行っている。 これによりRTDP-BELを高速化し、特に重要な情報収集が必要な問題に対処する。

Acting to complete tasks in stochastic partially observable domains is an important problem in artificial intelligence, and is often formulated as a goal-based POMDP. Goal-based POMDPs can be solved using the RTDP-BEL algorithm, that operates by running forward trajectories from the initial belief to the goal. These trajectories can be guided by a heuristic, and more accurate heuristics can result in significantly faster convergence. In this paper, we develop a heuristic function that leverages the structured representation of domain models. We compute, in a relaxed space, a plan to achieve the goal, while taking into account the value of information, as well as the stochastic effects. We provide experiments showing that while our heuristic is slower to compute, it requires an order of magnitude less trajectories before convergence. Overall, it thus speeds up RTDP-BEL, particularly in problems where significant information gathering is needed.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# 適応的勾配スケーリングを用いた深層学習用2次最適化器

A second-order-like optimizer with adaptive gradient scaling for deep learning ( http://arxiv.org/abs/2410.05871v1 )

ライセンス: Link先を確認
Jérôme Bolte, Ryan Boustany, Edouard Pauwels, Andrei Purica, (参考訳) 本稿では,INNA法とRMSprop適応勾配スケーリングを組み合わせた最適化アルゴリズムINNApropを紹介する。 標準的なDLメソッドのメモリ要件をAdamWやSGDのように運動量で保ちながら、二階情報を活用し、再スケーリングする。 画像分類 (CIFAR-10, ImageNet) と言語モデリング (GPT-2) では、INNAprop はAdamW のトレーニング速度と精度の両面で、大規模な設定では最小限のハイパーパラメータチューニングで一貫して一致または性能に優れる。 私たちのコードは \url{https://github.com/innaprop/innaprop} で公開されています。

In this empirical article, we introduce INNAprop, an optimization algorithm that combines the INNA method with the RMSprop adaptive gradient scaling. It leverages second-order information and rescaling while keeping the memory requirements of standard DL methods as AdamW or SGD with momentum.After having recalled our geometrical motivations, we provide quite extensive experiments. On image classification (CIFAR-10, ImageNet) and language modeling (GPT-2), INNAprop consistently matches or outperforms AdamW both in training speed and accuracy, with minimal hyperparameter tuning in large-scale settings. Our code is publicly available at \url{https://github.com/innaprop/innaprop}.
翻訳日:2024-11-01 12:30:00 公開日:2024-10-08
# MEXA:言語横断的アライメントによる英語中心LLMの多言語評価

MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment ( http://arxiv.org/abs/2410.05873v1 )

ライセンス: Link先を確認
Amir Hossein Kargaran, Ali Modarressi, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze, (参考訳) 英語中心の大規模言語モデル(LLM)は、しばしば強い多言語機能を示す。 しかし、これらのモデルの多言語性能はいまだ不明であり、多くの言語で十分に評価されていない。 多言語性のためのほとんどのベンチマークは、古典的なNLPタスクにフォーカスするか、最小限の言語をカバーする。 我々は,既存の下流タスクよりも多くの言語で利用できる並列文を用いて,事前学習した英語中心のLLMの多言語能力を評価する手法であるMEXAを紹介する。 MEXAは、英語中心のLLMが中間層で英語をピボット言語の一種として使っているという事実を活用している。 パラレル文を用いて英語と非英語のアライメントを計算し、英語から他言語への言語理解の伝達を評価する。 このアライメントは、他の言語でのモデルパフォーマンスを推定するために使用することができる。 各種並列データセット(FLORES-200とBible)、モデル(Llama family、Gemma family、Mistral、OLMo)を用いて研究を行い、下流タスク(Belebele、m-MMLU、m-ARC)を確立した。 我々はデコーダのみのモデルに埋め込まれた埋め込みを計算する方法を探究する。 その結果,MEXAのデフォルト設定では,9つのモデルと2つの並列データセットにまたがる3つの下流タスクに対して,統計学的に有意なPearson相関が0.90であることがわかった。 このことは、MEXAが英語中心のLLMの多言語能力を推定する信頼性の高い方法であり、その多言語ポテンシャルとLLMの内部動作のより明確な理解を提供することを示唆している。 リーダーボード: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.com

English-centric large language models (LLMs) often show strong multilingual capabilities. However, the multilingual performance of these models remains unclear and is not thoroughly evaluated for many languages. Most benchmarks for multilinguality focus on classic NLP tasks, or cover a minimal number of languages. We introduce MEXA, a method for assessing the multilingual capabilities of pre-trained English-centric LLMs using parallel sentences, which are available for more languages than existing downstream tasks. MEXA leverages the fact that English-centric LLMs use English as a kind of pivot language in their intermediate layers. It computes the alignment between English and non-English languages using parallel sentences to evaluate the transfer of language understanding from English to other languages. This alignment can be used to estimate model performance in other languages. We conduct studies using various parallel datasets (FLORES-200 and Bible), models (Llama family, Gemma family, Mistral, and OLMo), and established downstream tasks (Belebele, m-MMLU, and m-ARC). We explore different methods to compute embeddings in decoder-only models. Our results show that MEXA, in its default settings, achieves a statistically significant average Pearson correlation of 0.90 with three established downstream tasks across nine models and two parallel datasets. This suggests that MEXA is a reliable method for estimating the multilingual capabilities of English-centric LLMs, providing a clearer understanding of their multilingual potential and the inner workings of LLMs. Leaderboard: https://huggingface.co/spaces/cis-lmu/Mexa, Code: https://github.com/cisnlp/Mexa.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# 拡散・拡散・反応ダイナミクスを模擬した量子回路

Explicit Quantum Circuit for Simulating the Advection-Diffusion-Reaction Dynamics ( http://arxiv.org/abs/2410.05876v1 )

ライセンス: Link先を確認
Claudio Sanavio, Enea Mauri, Sauro Succi, (参考訳) 対数非線形性を持つ対流拡散反応(ADR)方程式のカールマン線形化の収束性を評価する。 5つのカールマンイテレートは、幅広いパラメータと非線形性の強さにまたがる元の ADR の満足な近似を与える。 この線形化に基づく量子アルゴリズムの実現可能性を評価するため、カールマンADR行列のテンソルパウリ基底への投影を解析した。 カールマン ADR 行列は、キュービット数の関数として指数的な数のパウリゲートを必要とする。 これにより、現在のハードウェア上でのADR問題の量子シミュレーションに対するカールマンアプローチの実践的実装が防止される。 オーラクルを用いたスパース行列のブロック符号化手法を用いて,この制限に対処することを提案する。 このような量子ADRオラクルは明示的な形で示され、指数複雑性を多項式 1 に変換することが示されている。 しかし、非単体カールマン演算子の実装に成功する確率が低いため、現回路のマルチステップ版の実装にはさらなる研究が必要である。

We assess the convergence of the Carleman linearization of advection-diffusion-reaction (ADR) equations with a logistic nonlinearity. It is shown that five Carleman iterates provide a satisfactory approximation of the original ADR across a broad range of parameters and strength of nonlinearity. To assess the feasibility of a quantum algorithm based on this linearization, we analyze the projection of the Carleman ADR matrix onto the tensor Pauli basis. It is found that the Carleman ADR matrix requires an exponential number of Pauli gates as a function of the number of qubits. This prevents the practical implementation of the Carleman approach to the quantum simulation of ADR problems on current hardware. We propose to address this limitation by resorting to block-encoding techniques for sparse matrix employing oracles. Such quantum ADR oracles are presented in explicit form and shown to turn the exponential complexity into a polynomial one. However, due to the low probability of successfully implementing the nonunitary Carleman operator, further research is needed to implement the multi-timestep version of the present circuit.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# MDAP:クロスドメインレコメンデーションのための多視点・適応型推論学習フレームワーク

MDAP: A Multi-view Disentangled and Adaptive Preference Learning Framework for Cross-Domain Recommendation ( http://arxiv.org/abs/2410.05877v1 )

ライセンス: Link先を確認
Junxiong Tong, Mingjia Yin, Hao Wang, Qiushi Pan, Defu Lian, Enhong Chen, (参考訳) クロスドメインレコメンデーションシステムはマルチドメインユーザインタラクションを活用して、特にスパースデータや新しいユーザシナリオのパフォーマンスを改善する。 しかし、CDRはユーザの好みを効果的に捉え、ネガティブな転送を避けるといった課題に直面している。 これらの課題に対処するために,MDAP(Multi-view Disentangled and Adaptive Preference Learning)フレームワークを提案する。 私たちのMDAPフレームワークは、多視点エンコーダを使用して、多様なユーザの好みをキャプチャします。 このフレームワークには、異なるビューからの埋め込みを適応的に結合して包括的なユーザ表現を生成するゲートデコーダが含まれている。 表現を分離し、適応的な特徴選択を可能にすることにより、我々のモデルは適応性と有効性を高める。 ベンチマークデータセットの大規模な実験により、我々の手法は最先端のCDRや単一ドメインモデルよりも優れており、より正確なレコメンデーションと、異なるドメインにわたるユーザの振る舞いに関する深い洞察を提供する。

Cross-domain Recommendation systems leverage multi-domain user interactions to improve performance, especially in sparse data or new user scenarios. However, CDR faces challenges such as effectively capturing user preferences and avoiding negative transfer. To address these issues, we propose the Multi-view Disentangled and Adaptive Preference Learning (MDAP) framework. Our MDAP framework uses a multiview encoder to capture diverse user preferences. The framework includes a gated decoder that adaptively combines embeddings from different views to generate a comprehensive user representation. By disentangling representations and allowing adaptive feature selection, our model enhances adaptability and effectiveness. Extensive experiments on benchmark datasets demonstrate that our method significantly outperforms state-of-the-art CDR and single-domain models, providing more accurate recommendations and deeper insights into user behavior across different domains.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# 相関雑音の知覚における指数的絡み合いの利点

Exponential entanglement advantage in sensing correlated noise ( http://arxiv.org/abs/2410.05878v1 )

ライセンス: Link先を確認
Yu-Xin Wang, Jacob Bringewatt, Alireza Seif, Anthony J. Brady, Changhun Oh, Alexey V. Gorshkov, (参考訳) 本研究では,相関雑音の知覚における指数的量子優位性の新しい形式を提案する。 具体的には、リンドブラディアンの認知力学に関連するパラメータを推定する問題に着目し、エンタングルメントが(センサ状態の量子フィッシャー情報によって定量化される)感度の指数関数的向上に繋がることを示し、最大相関された認知力学のクラスからシステムリンドブラディアンの偏差を推定する小さなパラメータを推定する。 この結果は、アンタングル化が信号対雑音比の優位性に繋がらないことを証明できるような、非相関な dephasing noise を検出するという従来研究されたシナリオとは対照的である。 そこで本研究は,近距離量子デバイスのデコヒーレンスダイナミクスを特徴付けるために,絡み合いに基づくセンサの優位性を実現するための新たな経路を開拓する。 さらに,センサターゲットから発生する雑音を計測することにより,多体相関位相のポテンシャル量子化プローブを提案する。 また,短期量子ハードウェアを用いたプロトコルの実現についても論じる。

In this work, we propose a new form of exponential quantum advantage in the context of sensing correlated noise. Specifically, we focus on the problem of estimating parameters associated with Lindblad dephasing dynamics, and show that entanglement can lead to an exponential enhancement in the sensitivity (as quantified via quantum Fisher information of the sensor state) for estimating a small parameter characterizing the deviation of system Lindbladians from a class of maximally correlated dephasing dynamics. This result stands in stark contrast with previously studied scenarios of sensing uncorrelated dephasing noise, where one can prove that entanglement does not lead to an advantage in the signal-to-noise ratio. Our work thus opens a novel pathway towards achieving entanglement-based sensing advantage, which may find applications in characterizing decoherence dynamics of near-term quantum devices. Further, our approach provides a potential quantum-enhanced probe of many-body correlated phases by measuring noise generated by a sensing target. We also discuss realization of our protocol using near-term quantum hardware.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# プライベート非平滑非凸最適化のためのサンプル複素性の改善

Improved Sample Complexity for Private Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2410.05880v1 )

ライセンス: Link先を確認
Guy Kornowski, Daogao Liu, Kunal Talwar, (参考訳) 本研究では,滑らかで凸性のない確率的および経験的目的に対する微分プライベート(DP)最適化アルゴリズムについて検討し,既存の作業を改善するサンプル複雑性境界を持つゴールドスタイン定常点を返す手法を提案する。 まず、単一パス$(\epsilon,\delta)$-DPアルゴリズムを提供し、データセットのサイズが大きければ$(\alpha,\beta)$-stationary pointを返します。 $\widetilde{\Omega}\left(1/\alpha\beta^{3}+d/\epsilon\alpha\beta^{2}+d^{3/4}/\epsilon^{1/2}\alpha\beta^{5/2}\right)$。 次に、サンプルの複雑性を$\widetilde{\Omega}\left(d/\beta^2+d^{3/4}/\epsilon\alpha^{1/2}\beta^{3/2}\right)$に改善するマルチパス多項式時間アルゴリズムを提案する。

We study differentially private (DP) optimization algorithms for stochastic and empirical objectives which are neither smooth nor convex, and propose methods that return a Goldstein-stationary point with sample complexity bounds that improve on existing works. We start by providing a single-pass $(\epsilon,\delta)$-DP algorithm that returns an $(\alpha,\beta)$-stationary point as long as the dataset is of size $\widetilde{\Omega}\left(1/\alpha\beta^{3}+d/\epsilon\alpha\beta^{2}+d^{3/4}/\epsilon^{1/2}\alpha\beta^{5/2}\right)$, which is $\Omega(\sqrt{d})$ times smaller than the algorithm of Zhang et al. [2024] for this task, where $d$ is the dimension. We then provide a multi-pass polynomial time algorithm which further improves the sample complexity to $\widetilde{\Omega}\left(d/\beta^2+d^{3/4}/\epsilon\alpha^{1/2}\beta^{3/2}\right)$, by designing a sample efficient ERM algorithm, and proving that Goldstein-stationary points generalize from the empirical loss to the population loss.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# 研究・商業場面における下流課題への遠隔編集とその応用

Edit Distances and Their Applications to Downstream Tasks in Research and Commercial Contexts ( http://arxiv.org/abs/2410.05881v1 )

ライセンス: Link先を確認
Félix do Carmo, Diptesh Kanojia, (参考訳) チュートリアルでは、研究や商業の文脈に適用される編集距離について記述している。 我々は,翻訳編集率 (TER), Levenshtein, Damerau-Levenshtein, Longest Common Subsequence and $n$-gram distances を用いて,テキスト列の比較における統計指標の脆弱さを示す。 我々の議論はそれらをそれらの重要な構成要素に分解する。 我々は,単語の挿入,削除,置換,移動という4つの編集動作の中心性について議論し,公開パッケージやツールキットで実装を示す。 下流タスクにおける編集距離の適用は、これらが後処理によって実行される作業とMT出力で修正する必要がある実際のエラーを正確に表現していると仮定することが多い。 本稿では,この誤り訂正作業の詳細と,これらの編集距離を利用した研究者や商業的応用への応用について論じる。 商業的応用の観点からは、コンピュータ支援翻訳ツールへの統合と、編集距離と編集後作業の関連性に対する認識が翻訳者率の定義にどのように影響するかを論じる。

The tutorial describes the concept of edit distances applied to research and commercial contexts. We use Translation Edit Rate (TER), Levenshtein, Damerau-Levenshtein, Longest Common Subsequence and $n$-gram distances to demonstrate the frailty of statistical metrics when comparing text sequences. Our discussion disassembles them into their essential components. We discuss the centrality of four editing actions: insert, delete, replace and move words, and show their implementations in openly available packages and toolkits. The application of edit distances in downstream tasks often assumes that these accurately represent work done by post-editors and real errors that need to be corrected in MT output. We discuss how imperfect edit distances are in capturing the details of this error correction work and the implications for researchers and for commercial applications, of these uses of edit distances. In terms of commercial applications, we discuss their integration in computer-assisted translation tools and how the perception of the connection between edit distances and post-editor effort affects the definition of translator rates.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# PCA呼吸運動モデルと動的にトレーニングされたリカレントニューラルネットワークを用いた胸部MR画像のフレーム予測

Future frame prediction in chest cine MR imaging using the PCA respiratory motion model and dynamically trained recurrent neural networks ( http://arxiv.org/abs/2410.05882v1 )

ライセンス: Link先を確認
Michel Pohl, Mitsuru Uesaka, Hiroyuki Takahashi, Kazuyuki Demachi, Ritu Bhusal Chhatkuli, (参考訳) 肺放射線治療システムは、推定腫瘍位置の不確実性や健康な組織の高照射を引き起こす遅延を受ける。 この研究は、オンライン学習アルゴリズムで訓練されたRNNを用いて、胸部ダイナミックMRIシーケンスの将来のフレーム予測に対処し、その遅延を補償する。 後者は、新しいトレーニング例ごとにシナプス重みを更新するので、不規則な動きを軽減できる。 公開されている4つの2次元胸腺-MRIシークエンスを用いて実験を行った。 PCAは、ルーカス・カナーデ光学フローアルゴリズムで計算された時間変化変形ベクトル場(DVF)を、静的変形場と低次元時間依存重みに分解する。 線形回帰、最小平均平方(LMS)、リアルタイム反復学習(RTRL)で訓練されたRNN、バイアスのないオンライン反復最適化、分離されたニューラルネットワーク、スパース1ステップ近似(SnAp-1)など、様々なアルゴリズムを比較した。 これにより、将来のDVFを推定し、最初の画像をワープすることで次のフレームを推定できる。 線形回帰は水平方向h = 0.32s(予報の時間間隔)で最低値DVF誤差を1.30mmに、続いてSnAp-1とRTRLが1.37mmから1.44mmに増加し、hは0.62sから2.20sに増加した。 同様に、LMSの構造類似度指標(SSIM)は、hが0.31sから1.57sに増加するにつれて0.904から0.898に減少し、後者の地平線と比較するとアルゴリズムの中で最も高かった。 SnAp-1 は h $\geq$ 1.88s の最高 SSIM を 0.898 未満で達成した。 予測された画像は元々のものと似ており、最も高い誤差は、運動のばらつきがより顕著な吸入段階における横隔膜境界や、外界運動がより多い領域など、困難な領域で発生した。

Lung radiotherapy treatment systems are subject to a latency that leads to uncertainty in the estimated tumor location and high irradiation of healthy tissue. This work addresses future frame prediction in chest dynamic MRI sequences to compensate for that delay using RNNs trained with online learning algorithms. The latter enable networks to mitigate irregular movements, as they update synaptic weights with each new training example. Experiments were conducted using four publicly available 2D thoracic cine-MRI sequences. PCA decomposes the time-varying deformation vector field (DVF), computed with the Lucas-Kanade optical flow algorithm, into static deformation fields and low-dimensional time-dependent weights. We compare various algorithms to forecast the latter: linear regression, least mean squares (LMS), and RNNs trained with real-time recurrent learning (RTRL), unbiased online recurrent optimization, decoupled neural interfaces and sparse 1-step approximation (SnAp-1). That enables estimating the future DVFs and, in turn, the next frames by warping the initial image. Linear regression led to the lowest mean DVF error at a horizon h = 0.32s (the time interval in advance for which the prediction is made), equal to 1.30mm, followed by SnAp-1 and RTRL, whose error increased from 1.37mm to 1.44mm as h increased from 0.62s to 2.20s. Similarly, the structural similarity index measure (SSIM) of LMS decreased from 0.904 to 0.898 as h increased from 0.31s to 1.57s and was the highest among the algorithms compared for the latter horizons. SnAp-1 attained the highest SSIM for h $\geq$ 1.88s, with values of less than 0.898. The predicted images look similar to the original ones, and the highest errors occurred at challenging areas such as the diaphragm boundary at the end-of-inhale phase, where motion variability is more prominent, and regions where out-of-plane motion was more prevalent.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# 状況モニタリングにおける深層学習に基づく故障識別

Deep learning-based fault identification in condition monitoring ( http://arxiv.org/abs/2410.05889v1 )

ライセンス: Link先を確認
Hariom Dhungana, Suresh Kumar Mukhiya, Pragya Dhungana, Benjamin Karic, (参考訳) 振動に基づく条件モニタリング技術は、転がり要素軸受の欠陥を特定するために一般的に用いられる。 故障検出手順の精度と速度は, 条件モニタリングにおける重要な性能指標である。 遅延は特にリモート状態監視と時間に敏感な産業用途において重要である。 既存のほとんどの手法は精度に重点を置いているが、故障同定プロセスにおける推測時間にはほとんど注意が払われていない。 本稿では,転がり要素軸受におけるリアルタイム故障同定のための畳み込みニューラルネットワーク(CNN)に基づくアプローチを提案することにより,このギャップに対処する。 我々は、様々な符号化手法を用いて生の振動信号を二次元画像に符号化し、CNNでこれらを用いて、断層の種類と大きさのいくつかのカテゴリを分類する。 故障識別精度と処理時間との相互作用を分析する。 トレーニングと評価には、ベアリング障害CWRUデータセットを使用します。

Vibration-based condition monitoring techniques are commonly used to identify faults in rolling element bearings. Accuracy and speed of fault detection procedures are critical performance measures in condition monitoring. Delay is especially important in remote condition monitoring and time-sensitive industrial applications. While most existing methods focus on accuracy, little attention has been given to the inference time in the fault identification process. In this paper, we address this gap by presenting a Convolutional Neural Network (CNN) based approach for real-time fault identification in rolling element bearings. We encode raw vibration signals into two-dimensional images using various encoding methods and use these with a CNN to classify several categories of bearing fault types and sizes. We analyse the interplay between fault identification accuracy and processing time. For training and evaluation we use a bearing failure CWRU dataset.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# 線形および非線形関係に対する順序に基づく因果探索

Ordering-Based Causal Discovery for Linear and Nonlinear Relations ( http://arxiv.org/abs/2410.05890v1 )

ライセンス: Link先を確認
Zhuopeng Xu, Yujie Li, Cheng Liu, Ning Gui, (参考訳) 純粋な観測データから因果関係を同定するには、通常、関係や雑音に関する追加の仮定が必要となる。 現在のほとんどの手法は、純粋な線形あるいは非線形な関係を持つと仮定されるデータセットにその分析を制限しており、どちらも組み合わさった実世界のデータセットを反映しないことが多い。 本稿では,線形および非線形関係を効果的に処理する順序付けに基づく因果探索アルゴリズムであるCaPSを提案する。 CaPSは、トポロジカルな順序付けのための新しい識別基準を導入し、後処理最適化段階において「パープルスコア」の概念を取り入れている。 これらのスコアは平均因果効果の強さを定量化し、プルーニング過程を加速し、プルーニング工程における不正確な予測を補正するのに役立つ。 実験の結果,提案手法は線形関係と非線形関係の比の異なる合成データに対して,最先端のベースラインよりも優れていることがわかった。 実世界のデータから得られた結果は、CaPSの競争力にも寄与する。 コードとデータセットはhttps://github.com/E2real/CaPS.comで入手できる。

Identifying causal relations from purely observational data typically requires additional assumptions on relations and/or noise. Most current methods restrict their analysis to datasets that are assumed to have pure linear or nonlinear relations, which is often not reflective of real-world datasets that contain a combination of both. This paper presents CaPS, an ordering-based causal discovery algorithm that effectively handles linear and nonlinear relations. CaPS introduces a novel identification criterion for topological ordering and incorporates the concept of "parent score" during the post-processing optimization stage. These scores quantify the strength of the average causal effect, helping to accelerate the pruning process and correct inaccurate predictions in the pruning step. Experimental results demonstrate that our proposed solutions outperform state-of-the-art baselines on synthetic data with varying ratios of linear and nonlinear relations. The results obtained from real-world data also support the competitiveness of CaPS. Code and datasets are available at https://github.com/E2real/CaPS.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# 水質モニタリングの人工知能応用のための自動表面車両プロトタイプの実現に向けて

Towards an Autonomous Surface Vehicle Prototype for Artificial Intelligence Applications of Water Quality Monitoring ( http://arxiv.org/abs/2410.05892v1 )

ライセンス: Link先を確認
Luis Miguel Díaz, Samuel Yanes Luis, Alejandro Mendoza Barrionuevo, Dame Seck Diop, Manuel Perales, Alejandro Casado, Sergio Toral, Daniel Gutiérrez, (参考訳) 水質センサーと人工視覚システムを備えた自律表面車両の使用により、水資源環境監視にスマートで適応的な展開が可能になる。 本稿では,人工知能アルゴリズムの利用に対処し,水質モニタリングのためのセンシング技術を強化した車両プロトタイプの実際の実装について述べる。 車両には水質パラメータと水深を測定するための高品質なセンサーが装備されている。 さらに, ステレオカメラを用いて, YOLOv5などの深部視覚モデルを用いて, 実環境におけるマクロプラスチックの検出と検出を行うことができる。 本稿では,Lago Mayor (Sevilla) で実施した実験結果を,提案アーキテクチャの能力の証明として提示した。 システム全体とその初期の成果は、水資源モニタリングタスクに有用な実際のプラットフォームの実例を提供し、経路計画や人工視覚などの人工知能アルゴリズムをデプロイするための実例として機能することが期待されている。

The use of Autonomous Surface Vehicles, equipped with water quality sensors and artificial vision systems, allows for a smart and adaptive deployment in water resources environmental monitoring. This paper presents a real implementation of a vehicle prototype that to address the use of Artificial Intelligence algorithms and enhanced sensing techniques for water quality monitoring. The vehicle is fully equipped with high-quality sensors to measure water quality parameters and water depth. Furthermore, by means of a stereo-camera, it also can detect and locate macro-plastics in real environments by means of deep visual models, such as YOLOv5. In this paper, experimental results, carried out in Lago Mayor (Sevilla), has been presented as proof of the capabilities of the proposed architecture. The overall system, and the early results obtained, are expected to provide a solid example of a real platform useful for the water resource monitoring task, and to serve as a real case scenario for deploying Artificial Intelligence algorithms, such as path planning, artificial vision, etc.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# DimOL: オペレータ学習における新しい「次元」としての次元認識

DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning ( http://arxiv.org/abs/2410.05894v1 )

ライセンス: Link先を確認
Yichen Song, Yunbo Wang, Xiaokang Yang, (参考訳) 計算物理学の領域では、永続的な話題は偏微分方程式(PDE)の数値解である。 近年、研究者の注目は、関数から関数へのマッピングである ``operators'' を近似する能力で有名な、Neural Operator メソッドへと移行している。 ニューラル作用素の普遍近似定理にもかかわらず、誤差境界を保証するには多くのフーリエ層を用いる必要がある。 しかし、軽量モデルはどうだろう? そこで我々は,DimOL (Dimension-aware Operator Learning)を導入し,次元解析から洞察を得た。 DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。 経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。 さらに、フーリエ成分の重みを解析することにより、各項の物理的意義を象徴的に識別することができる。 これはニューラルネットワークの不透明な性質に光を当て、基礎となる物理原理を明らかにします。

In the realm of computational physics, an enduring topic is the numerical solutions to partial differential equations (PDEs). Recently, the attention of researchers has shifted towards Neural Operator methods, renowned for their capability to approximate ``operators'' -- mappings from functions to functions. Despite the universal approximation theorem within neural operators, ensuring error bounds often requires employing numerous Fourier layers. However, what about lightweight models? In response to this question, we introduce DimOL (Dimension-aware Operator Learning), drawing insights from dimensional analysis. To implement DimOL, we propose the ProdLayer, which can be seamlessly integrated into FNO-based and Transformer-based PDE solvers, enhancing their ability to handle sum-of-products structures inherent in many physical systems. Empirically, DimOL models achieve up to 48% performance gain within the PDE datasets. Furthermore, by analyzing Fourier components' weights, we can symbolically discern the physical significance of each term. This sheds light on the opaque nature of neural networks, unveiling underlying physical principles.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# サイレントシナプス統合による脳誘発連続学習者

Brain-inspired continual pre-trained learner via silent synaptic consolidation ( http://arxiv.org/abs/2410.05899v1 )

ライセンス: Link先を確認
Xuming Ran, Juntao Yao, Yusong Wang, Mingkun Xu, Dianbo Liu, (参考訳) 事前訓練されたモデルは、目覚ましい一般化能力を示しているが、新しいタスクで漸進的に訓練されたときに、破滅的な忘れ方に弱いままである。 既存のアーキテクチャベースの戦略は、主な2つの課題に直面する。 1)学習中に学習の可塑性と記憶の安定性の微妙なバランスを複雑化する訓練用サブネットワークをトレーニング可能なサブネットワークに統合する。 2)事前学習ネットワークと各種サブネットワーク間の堅牢な相互接続の欠如は,推論中の関連する情報の有効検索を制限する。 本研究では、成熟した脳で観察されるスパイク刺激依存性の可塑性を介してサイレントシナプスの活性化機構にインスパイアされたArticを紹介し、事前学習モデルの継続的な学習能力を向上させる。 Artyはトレーニング中に、トレーニング済みネットワーク内で学習した知識に対するメモリ安定性を維持しながら、タスク固有のサブネットワークにおける学習の可塑性を同時に促進することによって、成熟した脳のダイナミクスを模倣する。 推論中、人工的なサイレントと機能的シナプスを用いて、事前訓練されたネットワーク内のシナプス前ニューロンとサブネットワーク内のシナプス後ニューロンとの間の正確な接続を確立することにより、シナプス統合が促進され、テストサンプルから関連情報を効果的に抽出することができる。 包括的実験により,本モデルは従来のクラス増分学習法よりも優れており,アーキテクチャに基づくアプローチの生物学的解釈性も向上していることが明らかとなった。 さらに, 人工システムと生体システムの両方において, 神経可塑性の理解を深める可能性があり, 生体シナプス機構をシミュレートするための有望な道が提案されている。

Pre-trained models have demonstrated impressive generalization capabilities, yet they remain vulnerable to catastrophic forgetting when incrementally trained on new tasks. Existing architecture-based strategies encounter two primary challenges: 1) Integrating a pre-trained network with a trainable sub-network complicates the delicate balance between learning plasticity and memory stability across evolving tasks during learning. 2) The absence of robust interconnections between pre-trained networks and various sub-networks limits the effective retrieval of pertinent information during inference. In this study, we introduce the Artsy, inspired by the activation mechanisms of silent synapses via spike-timing-dependent plasticity observed in mature brains, to enhance the continual learning capabilities of pre-trained models. The Artsy integrates two key components: During training, the Artsy mimics mature brain dynamics by maintaining memory stability for previously learned knowledge within the pre-trained network while simultaneously promoting learning plasticity in task-specific sub-networks. During inference, artificial silent and functional synapses are utilized to establish precise connections between the pre-synaptic neurons in the pre-trained network and the post-synaptic neurons in the sub-networks, facilitated through synaptic consolidation, thereby enabling effective extraction of relevant information from test samples. Comprehensive experimental evaluations reveal that our model significantly outperforms conventional methods on class-incremental learning tasks, while also providing enhanced biological interpretability for architecture-based approaches. Moreover, we propose that the Artsy offers a promising avenue for simulating biological synaptic mechanisms, potentially advancing our understanding of neural plasticity in both artificial and biological systems.
翻訳日:2024-11-01 12:20:15 公開日:2024-10-08
# MTFL:監視ビデオにおける弱教師付き異常検出のためのマルチタイム特徴学習

MTFL: Multi-Timescale Feature Learning for Weakly-Supervised Anomaly Detection in Surveillance Videos ( http://arxiv.org/abs/2410.05900v1 )

ライセンス: Link先を確認
Yiling Zhang, Erkut Akdag, Egor Bondarev, Peter H. N. De With, (参考訳) 異常事象の検出は公衆の安全に重要であり、様々な時間スケールでの微粒な動き情報と文脈イベントの組み合わせが必要となる。 そこで本研究では,異常特徴の表現性を高めるため,MTFL法を提案する。 ビデオスウィン変換器を用いて時空間映像の特徴を抽出するために,短管,中管,長管を用いる。 実験の結果、MTFLはUCF-Crimeデータセットの最先端の手法より優れ、異常検出性能89.78%のAUCを達成した。 さらに、上海技術では95.32%のAUC、XD-Violenceデータセットでは84.57%のAPでSotAを補完する。 さらに,ビデオ異常検出データセット(VADD, Video Anomaly Detection Dataset)の開発と評価のために,UCF-Crimeの拡張データセットを生成した。

Detection of anomaly events is relevant for public safety and requires a combination of fine-grained motion information and contextual events at variable time-scales. To this end, we propose a Multi-Timescale Feature Learning (MTFL) method to enhance the representation of anomaly features. Short, medium, and long temporal tubelets are employed to extract spatio-temporal video features using a Video Swin Transformer. Experimental results demonstrate that MTFL outperforms state-of-the-art methods on the UCF-Crime dataset, achieving an anomaly detection performance 89.78% AUC. Moreover, it performs complementary to SotA with 95.32% AUC on the ShanghaiTech and 84.57% AP on the XD-Violence dataset. Furthermore, we generate an extended dataset of the UCF-Crime for development and evaluation on a wider range of anomalies, namely Video Anomaly Detection Dataset (VADD), involving 2,591 videos in 18 classes with extensive coverage of realistic anomalies.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# Mini-Batch Kernel $k$-means

Mini-Batch Kernel $k$-means ( http://arxiv.org/abs/2410.05902v1 )

ライセンス: Link先を確認
Ben Jourdan, Gregory Schwartzman, (参考訳) 本稿では,最初のミニバッチカーネル$k$-meansアルゴリズムを提案する。 我々のアルゴリズムの1つのイテレーションは、$\widetilde{O}(kb^2)$時間であり、フルバッチカーネルの$k$-meansで必要となる$O(n^2)$時間よりもはるかに高速である。 大規模な実験により、我々のアルゴリズムは最小品質の損失を最小限に抑えた10-100倍のスピードアップを一貫して達成し、実際にカーネルが$k$-meansに制限された遅いランタイムに対処することを示した。 さらに、これらの結果を早期停止条件下で理論解析し、バッチサイズが$\widetilde{\Omega}(\max \{\gamma^{4}, \gamma^{2}\} \cdot \epsilon^{-2})$で、アルゴリズムは高い確率で$O(\gamma^2/\epsilon)$イテレーションを終了し、$\gamma$は特徴空間における点のノルムを束縛し、$\epsilon$は終端しきい値であることを示す。 我々の解析は任意の合理的な中心初期化を保ち、$k$-means++初期化を使用する場合、アルゴリズムは予想で$O(\log k)$の近似比を達成できる。 ガウスやラプラシアンのような正規化された核に対しては、$\gamma=1$である。 $\epsilon = O(1)$ と $b=\Theta(\log n)$ とすると、アルゴリズムは$O(1)$イテレーションで終了し、各イテレーションは $\widetilde{O}(k)$タイムで実行される。

We present the first mini-batch kernel $k$-means algorithm, offering an order of magnitude improvement in running time compared to the full batch algorithm. A single iteration of our algorithm takes $\widetilde{O}(kb^2)$ time, significantly faster than the $O(n^2)$ time required by the full batch kernel $k$-means, where $n$ is the dataset size and $b$ is the batch size. Extensive experiments demonstrate that our algorithm consistently achieves a 10-100x speedup with minimal loss in quality, addressing the slow runtime that has limited kernel $k$-means adoption in practice. We further complement these results with a theoretical analysis under an early stopping condition, proving that with a batch size of $\widetilde{\Omega}(\max \{\gamma^{4}, \gamma^{2}\} \cdot \epsilon^{-2})$, the algorithm terminates in $O(\gamma^2/\epsilon)$ iterations with high probability, where $\gamma$ bounds the norm of points in feature space and $\epsilon$ is a termination threshold. Our analysis holds for any reasonable center initialization, and when using $k$-means++ initialization, the algorithm achieves an approximation ratio of $O(\log k)$ in expectation. For normalized kernels, such as Gaussian or Laplacian it holds that $\gamma=1$. Taking $\epsilon = O(1)$ and $b=\Theta(\log n)$, the algorithm terminates in $O(1)$ iterations, with each iteration running in $\widetilde{O}(k)$ time.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# 文書の自動要約

Automatic Summarization of Long Documents ( http://arxiv.org/abs/2410.05903v1 )

ライセンス: Link先を確認
Naman Chhibbar, Jugal Kalita, (参考訳) 大量のテキストデータが毎日インターネットに追加され、そのようなデータの活用と解釈が困難で面倒である。 その結果、関連情報を抽出し、貴重な読解時間を節約するためには、自動テキスト要約が不可欠である。 多くのトランスフォーマーベースのモデルでは要約が優れているが、入力サイズに制約されているため、コンテキストサイズよりも長いテキスト処理ができない。 本研究では, LLMの入力サイズ制限を効率的に克服し, アーキテクチャ変更を伴わずにその潜在能力を効果的に活用する3つの新しいアルゴリズムを提案する。 我々は70,000語以上のテキストでアルゴリズムをテストし、実験の結果、競争力のあるROUGEスコアによるBERTScoreの顕著な増加が示されている。

A vast amount of textual data is added to the internet daily, making utilization and interpretation of such data difficult and cumbersome. As a result, automatic text summarization is crucial for extracting relevant information, saving precious reading time. Although many transformer-based models excel in summarization, they are constrained by their input size, preventing them from processing texts longer than their context size. This study introduces three novel algorithms that allow any LLM to efficiently overcome its input size limitation, effectively utilizing its full potential without any architectural modifications. We test our algorithms on texts with more than 70,000 words, and our experiments show a significant increase in BERTScore with competitive ROUGE scores.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# MedUniSeg: プロンプト駆動ユニバーサルモデルによる2次元および3次元医用画像セグメンテーション

MedUniSeg: 2D and 3D Medical Image Segmentation via a Prompt-driven Universal Model ( http://arxiv.org/abs/2410.05905v1 )

ライセンス: Link先を確認
Yiwen Ye, Ziyang Chen, Jianpeng Zhang, Yutong Xie, Yong Xia, (参考訳) ユニバーサルセグメンテーションモデルは、離散アノテーションを効果的に活用することによって、幅広いタスクに対処する上で大きな可能性を提供する。 タスクとモダリティの範囲が拡大するにつれて、ユニバーサルモデル内でタスクとモダリティ固有の事前情報を生成し、戦略的に位置づけることがますます重要になる。 しかし、既存の普遍モデルは、しばしば異なる先行の相関を見落とし、これらの先行の最適な配置と頻度は、未探索のままである。 本稿では,多様なモダリティや領域にまたがる2次元および3次元マルチタスクセグメンテーションのために設計された,プロンプト駆動のユニバーサルセグメンテーションモデルであるMedUniSegを紹介する。 MedUniSegは複数のモーダル固有のプロンプトとユニバーサルタスクプロンプトを使用して、モーダルとタスクを正確に特徴づける。 そこで本研究では,モーダルマップ (MMap) とフュージョン・アンド・セレクション (FUSE) モジュールを提案する。 これらのモーダルおよびタスク先行は、エンコーディングプロセスの開始と終了で体系的に導入される。 我々は17のサブデータセットからなる総合的マルチモーダル上流データセット上でMedUniSegを評価する。 その結果、MedUniSegは、パラメータの1/10未満を使用しながら、17上流タスクの平均DiceスコアをnUNetベースラインと比較して1.2%改善し、マルチタスクセグメンテーション性能が向上することを示した。 最初のマルチタスクのジョイントトレーニングで不足したタスクに対しては、MedUniSegを凍結し、これらのタスクを再学習するための新しいモジュールを導入します。 このアプローチは拡張バージョンであるMedUniSeg*をもたらし、すべてのタスクでMedUniSegを一貫して上回っている。 さらに、MedUniSegは、6つの下流タスクにおける高度な自己教師付きおよび教師付き事前訓練モデルを超え、高品質で、高度に一般化可能な事前訓練セグメンテーションモデルとして確立している。

Universal segmentation models offer significant potential in addressing a wide range of tasks by effectively leveraging discrete annotations. As the scope of tasks and modalities expands, it becomes increasingly important to generate and strategically position task- and modal-specific priors within the universal model. However, existing universal models often overlook the correlations between different priors, and the optimal placement and frequency of these priors remain underexplored. In this paper, we introduce MedUniSeg, a prompt-driven universal segmentation model designed for 2D and 3D multi-task segmentation across diverse modalities and domains. MedUniSeg employs multiple modal-specific prompts alongside a universal task prompt to accurately characterize the modalities and tasks. To generate the related priors, we propose the modal map (MMap) and the fusion and selection (FUSE) modules, which transform modal and task prompts into corresponding priors. These modal and task priors are systematically introduced at the start and end of the encoding process. We evaluate MedUniSeg on a comprehensive multi-modal upstream dataset consisting of 17 sub-datasets. The results demonstrate that MedUniSeg achieves superior multi-task segmentation performance, attaining a 1.2% improvement in the mean Dice score across the 17 upstream tasks compared to nnUNet baselines, while using less than 1/10 of the parameters. For tasks that underperform during the initial multi-task joint training, we freeze MedUniSeg and introduce new modules to re-learn these tasks. This approach yields an enhanced version, MedUniSeg*, which consistently outperforms MedUniSeg across all tasks. Moreover, MedUniSeg surpasses advanced self-supervised and supervised pre-trained models on six downstream tasks, establishing itself as a high-quality, highly generalizable pre-trained segmentation model.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# デジタル労働と人工知能の不明瞭な生産

Digital Labor and the Inconspicuous Production of Artificial Intelligence ( http://arxiv.org/abs/2410.05910v1 )

ライセンス: Link先を確認
Antonio A. Casilli, (参考訳) デジタルプラットフォームは、ユーザの労力を生かし、ユーザの努力に対する認識に関係なく、カジュアルな活動や消費として重要な貢献を軽視することが多い。 データアノテーション、コンテンツ作成、広告への関与は、この隠れた生産性のすべての側面である。 AI開発において重要な役割を担っているにもかかわらず、こうしたタスクは認識されず、過小評価され続けている。 この章は、家事から観客労働まで、未認識の労働に関する歴史的理論を描き、デジタル経済におけるこれらの活動の体系的評価を明らかにするものである。 このアプローチは、「目立たない生産」という概念を導入し、デジタル労働のより広い理解を提唱しており、特に自動化やプラットフォームベースの雇用の増大を背景に、すべての職種に固有の隠れた要素を強調する「目に見えない作業」という伝統的な概念を超越している。

Digital platforms capitalize on users' labor, often disguising essential contributions as casual activities or consumption, regardless of users' recognition of their efforts. Data annotation, content creation, and engagement with advertising are all aspects of this hidden productivity. Despite playing a crucial role in driving AI development, such tasks remain largely unrecognized and undercompensated. This chapter exposes the systemic devaluation of these activities in the digital economy, by drawing on historical theories about unrecognized labor, from housework to audience labor. This approach advocates for a broader understanding of digital labor by introducing the concept of ''inconspicuous production.'' It moves beyond the traditional notion of ''invisible work'' to highlight the hidden elements inherent in all job types, especially in light of growing automation and platform-based employment.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# 誤り訂正符号変換器の高速化

Accelerating Error Correction Code Transformers ( http://arxiv.org/abs/2410.05911v1 )

ライセンス: Link先を確認
Matan Levy, Yoni Choukroun, Lior Wolf, (参考訳) 誤り訂正符号(ECC)は通信システムにおいて信頼性の高い情報伝送を保証するために重要である。 Choukroun & Wolf (2022b) は先日 Error Correction Code Transformer (ECCT) を導入した。 しかし、その高い計算とメモリ要求は、従来の復号アルゴリズムと比較して実用的応用を制限している。 既存の非常に高精度な量子化技術は、しばしばコンパクトニューラルネットワークの性能劣化を引き起こすため、ECCTの効果的な量子化を実現することは、本質的には小さなアーキテクチャであるため、重大な課題となる。 本稿では,トランスを用いたデコーダの高速化手法を提案する。 本稿ではまず,ECCTに特化して設計された3次重み量子化法を提案する。 コーダウェアマルチヘッド処理による計算複雑性を低減するために,最適化された自己認識機構を提案する。 最後に、タンナーグラフ固有分解による位置符号化を行い、グラフ接続性のよりリッチな表現を可能にする。 このアプローチはECCTの性能にマッチまたは超えるだけでなく、エネルギー消費、メモリフットプリント、計算複雑性を大幅に削減する。 提案手法は, 資源制約のある環境において, 変圧器による誤り訂正を実用化し, 90%の圧縮率を実現し, 演算エネルギー消費量を224倍に削減する。

Error correction codes (ECC) are crucial for ensuring reliable information transmission in communication systems. Choukroun & Wolf (2022b) recently introduced the Error Correction Code Transformer (ECCT), which has demonstrated promising performance across various transmission channels and families of codes. However, its high computational and memory demands limit its practical applications compared to traditional decoding algorithms. Achieving effective quantization of the ECCT presents significant challenges due to its inherently small architecture, since existing, very low-precision quantization techniques often lead to performance degradation in compact neural networks. In this paper, we introduce a novel acceleration method for transformer-based decoders. We first propose a ternary weight quantization method specifically designed for the ECCT, inducing a decoder with multiplication-free linear layers. We present an optimized self-attention mechanism to reduce computational complexity via codeaware multi-heads processing. Finally, we provide positional encoding via the Tanner graph eigendecomposition, enabling a richer representation of the graph connectivity. The approach not only matches or surpasses ECCT's performance but also significantly reduces energy consumption, memory footprint, and computational complexity. Our method brings transformer-based error correction closer to practical implementation in resource-constrained environments, achieving a 90% compression ratio and reducing arithmetic operation energy consumption by at least 224 times on modern hardware.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# ヒントをください: LLMは数学の問題を解決するヒントをもらえますか?

Give me a hint: Can LLMs take a hint to solve math problems? ( http://arxiv.org/abs/2410.05915v1 )

ライセンス: Link先を確認
Vansh Agrawal, Pratham Singla, Amitoj Singh Miglani, Shivank Garg, Ayush Mangal, (参考訳) 最先端のLLMの多くは論理的および基礎的な数学的推論を欠いているが、最近の研究はプロンプト技術を用いて問題解決能力を改善しようとしている。 我々は,人間が数学的にどのようにアプローチするかから着想を得て,先進的な数学的問題に対する言語モデルの性能向上のための"ヒント"を提案する。 また、間違ったヒントに対してモデルの対角的堅牢性をテストする。 我々は,様々なLSMを評価し,MATHデータセットの難易度やトピックの多種多様な問題を提示し,ワンショット,少数ショット,思考の連鎖といった手法と比較することにより,アプローチの有効性を実証する。

While many state-of-the-art LLMs have shown poor logical and basic mathematical reasoning, recent works try to improve their problem-solving abilities using prompting techniques. We propose giving "hints" to improve the language model's performance on advanced mathematical problems, taking inspiration from how humans approach math pedagogically. We also test the model's adversarial robustness to wrong hints. We demonstrate the effectiveness of our approach by evaluating various LLMs, presenting them with a diverse set of problems of different difficulties and topics from the MATH dataset and comparing against techniques such as one-shot, few-shot, and chain of thought prompting.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# TIMBA:双方向マンバブロックと拡散モデルを用いた時系列計算

TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models ( http://arxiv.org/abs/2410.05916v1 )

ライセンス: Link先を確認
Javier Solís-García, Belén Vega-Márquez, Juan A. Nepomuceno, Isabel A. Nepomuceno-Chamorro, (参考訳) 多変量時系列を計算する問題は、臨床医療からマルチセンサーシステムまで幅広い分野にまたがる。 当初、リカレントニューラルネットワーク(RNN)がこのタスクに使用されたが、エラーの蓄積の問題によりトランスフォーマーが採用され、これらの問題を緩和するための注意機構が利用された。 同時に、元の分布を捉えた拡散モデルの有望な結果は、しばしばトランスフォーマーと共に、現在の研究の最前線に位置づけられている。 本稿では,時間指向変換器を時空間モデル (SSM) に置き換えることを提案する。 具体的には、注意のようなメカニズムを組み込んだ最新のSSM変種であるS6を利用する。 MambaブロックにS6を埋め込むことで、拡張時空間表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向トランスフォーマーを統合するモデルを開発する。 この分野では、以前は探索されていなかったこれらのアーキテクチャ変更を実装し、双方向のマンバブロックと拡散モデル(TIMBA)を用いた時系列Imputationを提示する。 TIMBAは、ほぼすべてのベンチマークシナリオで優れたパフォーマンスを達成し、さまざまな価値状況と3つの実世界のデータセットにまたがって、他のシナリオと互換性のあるパフォーマンスを実現している。 また、我々のモデルの性能が、異なる量の欠落値でどのように変化するかを評価し、下流タスクでその性能を分析する。 さらに、結果を複製する元のコードも提供します。

The problem of imputing multivariate time series spans a wide range of fields, from clinical healthcare to multi-sensor systems. Initially, Recurrent Neural Networks (RNNs) were employed for this task; however, their error accumulation issues led to the adoption of Transformers, leveraging attention mechanisms to mitigate these problems. Concurrently, the promising results of diffusion models in capturing original distributions have positioned them at the forefront of current research, often in conjunction with Transformers. In this paper, we propose replacing time-oriented Transformers with State-Space Models (SSM), which are better suited for temporal data modeling. Specifically, we utilize the latest SSM variant, S6, which incorporates attention-like mechanisms. By embedding S6 within Mamba blocks, we develop a model that integrates SSM, Graph Neural Networks, and node-oriented Transformers to achieve enhanced spatiotemporal representations. Implementing these architectural modifications, previously unexplored in this field, we present Time series Imputation with Bi-directional mamba blocks and diffusion models (TIMBA). TIMBA achieves superior performance in almost all benchmark scenarios and performs comparably in others across a diverse range of missing value situations and three real-world datasets. We also evaluate how the performance of our model varies with different amounts of missing values and analyse its performance on downstream tasks. In addition, we provide the original code to replicate the results.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# 2量子系における厳密な三重不確実性関係の観測

Observing tight triple uncertainty relations in two-qubit systems ( http://arxiv.org/abs/2410.05925v1 )

ライセンス: Link先を確認
Yan Wang, Jie Zhou, Xing-Yan Fan, Ze-Yan Hao, Jia-Kun Li, Zheng-Hao Liu, Kai Sun, Jin-Shi Xu, Jing-Ling Chen, Chuan-Feng Li, Guang-Can Guo, (参考訳) 量子情報科学の基本的な道具として、不確実性原理は量子系の非古典的性質を示すのに不可欠である。 2つの観測可能量を持つ不確実性原理に対する多くの取り組みが達成されており、シナリオを複数の観測可能量に拡張することは魅力的な課題である。 ここでは、光学的セットアップに基づいて、3つの物理成分とタイトな定数2/\sqrt{3}$を含む2量子系の不確実性関係を実証する。 さらに,不確実性関数の最大値と絡み合いの度合いの対応を明らかにし,より不確実性がより高い絡み合いの度合いに比例する。 以上の結果から,複数の観測値との不確実性関係を理解する新たな知見が得られ,量子情報科学におけるより革新的な応用の動機となる可能性が示唆された。

As the fundamental tool in quantum information science, the uncertainty principle is essential for manifesting nonclassical properties of quantum systems. Plenty of efforts on the uncertainty principle with two observables have been achieved, making it an appealing challenge to extend the scenario to multiple observables. Here, based on an optical setup, we demonstrate the uncertainty relations in two-qubit systems involving three physical components with the tight constant $2/\sqrt{3}$, which signifies a more precise limit in the measurement of multiple quantum components and offers deeper insights into the trade-offs between observables. Furthermore, we reveal the correspondence of the maximal values of the uncertainty functions and the degree of entanglement, where the more uncertainty is proportional to the higher degree of entanglement. Our results provide a new insight into understanding the uncertainty relations with multiple observables and may motivate more innovative applications in quantum information science.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# キャプションを超えて: 数学的推論におけるVLM性能向上のためのタスク特化プロンプト

Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning ( http://arxiv.org/abs/2410.05928v1 )

ライセンス: Link先を確認
Ayush Singh, Mansi Gupta, Shivank Garg, Abhinav Kumar, Vansh Agrawal, (参考訳) VLM(Vision-Language Models)は、画像検索やVQA(Visual Question Answering)といった視覚的および推論能力を必要とするタスクを変換している。 彼らの成功にもかかわらず、VLMは幾何学的推論、代数的問題解決、数え上げといったタスクで重大な課題に直面している。 これらの制限は、複数のモダリティを効果的に統合し、幾何学に関連したタスクを正確に解釈することの難しさに起因している。 VQAタスクの前にキャプションパイプラインを導入することでパフォーマンスが向上する、とさまざまな研究が主張している。 我々はこのパイプラインを幾何学、代数、数え上げを含むタスクに組み込んだ。 特に,下流のQnAタスクで学習したより大きなVLMでは,数学関連の課題に対してランダムな性能を示すことが確認された。 しかし、タスクベースのプロンプト、タスク固有のガイダンスでプロンプトを充実させるという、有望な代替手段を提示する。 このアプローチは確率を示し、数学的な問題に対する直接キャプション法よりも有効であることを示す。

Vision-Language Models (VLMs) have transformed tasks requiring visual and reasoning abilities, such as image retrieval and Visual Question Answering (VQA). Despite their success, VLMs face significant challenges with tasks involving geometric reasoning, algebraic problem-solving, and counting. These limitations stem from difficulties effectively integrating multiple modalities and accurately interpreting geometry-related tasks. Various works claim that introducing a captioning pipeline before VQA tasks enhances performance. We incorporated this pipeline for tasks involving geometry, algebra, and counting. We found that captioning results are not generalizable, specifically with larger VLMs primarily trained on downstream QnA tasks showing random performance on math-related challenges. However, we present a promising alternative: task-based prompting, enriching the prompt with task-specific guidance. This approach shows promise and proves more effective than direct captioning methods for math-heavy problems.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# Fortify your Foundations: クラウドにおけるファンデーションモデルデプロイのための実践的プライバシとセキュリティ

Fortify Your Foundations: Practical Privacy and Security for Foundation Model Deployments In The Cloud ( http://arxiv.org/abs/2410.05930v1 )

ライセンス: Link先を確認
Marcin Chrapek, Anjo Vahldiek-Oberwagner, Marcin Spoczynski, Scott Constable, Mona Vij, Torsten Hoefler, (参考訳) ファンデーションモデル(FM)は自然言語処理などのタスクにおいて例外的なパフォーマンスを示しており、様々な分野に応用されている。 通常、大規模な公開データセットでトレーニングされるが、FMは、プライベートデータに依存するRetrieval-Augmented Generation (RAG)システムに微調整または統合されることが多い。 このアクセスは、そのサイズとコストのかかるトレーニングとともに、知的財産盗難のリスクを高める。 さらに、マルチモーダルFMは機密情報を露出する可能性がある。 本研究では、FM脅威モデルについて検討し、MLベースの手法や信頼できる実行環境(TEE)など、その対策のための様々なアプローチの実用性と包括性について考察する。 我々は、TEEが強力なセキュリティ特性、ユーザビリティ、パフォーマンスの効果的なバランスを提供することを示した。 具体的には, Llama2 7B と 13B の完全な推論パイプラインが \intel\ SGX と \intel\ TDX 内で動作する場合, オーバーヘッドを 10 % 以下に抑える方法を提案する。 構成ファイルや実装からの洞察も共有しています。 我々の知る限り、我々の研究はFMの確保のためのTEEの実用性を示す最初のものである。

Foundation Models (FMs) display exceptional performance in tasks such as natural language processing and are being applied across a growing range of disciplines. Although typically trained on large public datasets, FMs are often fine-tuned or integrated into Retrieval-Augmented Generation (RAG) systems, which rely on private data. This access, along with their size and costly training, heightens the risk of intellectual property theft. Moreover, multimodal FMs may expose sensitive information. In this work, we examine the FM threat model and discuss the practicality and comprehensiveness of various approaches for securing against them, such as ML-based methods and trusted execution environments (TEEs). We demonstrate that TEEs offer an effective balance between strong security properties, usability, and performance. Specifically, we present a solution achieving less than 10\% overhead versus bare metal for the full Llama2 7B and 13B inference pipelines running inside \intel\ SGX and \intel\ TDX. We also share our configuration files and insights from our implementation. To our knowledge, our work is the first to show the practicality of TEEs for securing FMs.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# QUBOフレームワークにおける量子インスパイアされたポートフォリオ最適化

Quantum-Inspired Portfolio Optimization In The QUBO Framework ( http://arxiv.org/abs/2410.05932v1 )

ライセンス: Link先を確認
Ying-Chang Lu, Yen-Jui Chang, Lien-Po Yu, Chao-Ming Fu, (参考訳) 異なる資産クラスにまたがる投資の多様化によるリスクを最小化しつつ、投資ポートフォリオのリターンを最大化することを目的としたポートフォリオ最適化を検討するために、量子インスパイアされた最適化手法が提案されている。 従来の手法と量子インスパイアされた手法とペナルティ係数推定のシミュレーション手法を統合することにより,ポートフォリオ最適化の高速化を実現する。 提案した2段階探索戦略は,より広い探索から始め,潜在的な解を素早く同定し,その結果を精査し,精度を高めることによって,その手法をさらに強化する。 提案手法の有効性は,10年間にわたる実世界の四半期財務データのデータセットを用いて検証した。 さらに,揮発性市場条件下でのポートフォリオ戦略の有効性についても,方法論の堅牢性と予測能力に着目して検討した。 この研究は、資産配分とポートフォリオ管理のための強力なツールとしての可能性を示す、金融における量子インスパイアされた技術に関する文献の増大に寄与する。

A quantum-inspired optimization approach is proposed to study the portfolio optimization aimed at maximizing the returns of investment portfolio while minimizing its risk by diversifying investment across different asset classes. By integrating conventional approaches with quantum-inspired methods and simulation techniques for penalty coefficient estimation, this approach enables faster solutions to portfolio optimization. The proposed two-stage search strategy further enhances the method by starting with a broad search to quickly identify potential solutions and then refining these results to increase accuracy. The effectiveness of our approach is validated through experiments using a real-world dataset of quarterly financial data spanning ten years. Moreover, the effectiveness of various portfolio strategies under volatile market conditions is also investigated with emphasis on the robustness and predictive capacity of our methodology. This research contributes to the growing body of literature on quantum-inspired techniques in finance, demonstrating its potential as a powerful tool for asset allocation and portfolio management.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# Chameleon:GPU上での高速化を効率よく切り替えるFHEスキーム

Chameleon: An Efficient FHE Scheme Switching Acceleration on GPUs ( http://arxiv.org/abs/2410.05934v1 )

ライセンス: Link先を確認
Zhiwei Wang, Haoqi He, Lutan Zhao, Peinan Li, Zhihao Li, Dan Meng, Rui Hou, (参考訳) 完全同型暗号化(FHE)は、暗号化データの直接計算を可能にするため、プライバシ保護にとって重要な技術である。 しかし、FHEは大きなパフォーマンスボトルネックに悩まされている。 この文脈では、GPUアクセラレーションはパフォーマンスギャップを埋めるための有望なソリューションを提供する。 既存の取り組みは、データ型と関数の多様な要求を満たすことができない単一クラスFHEスキームに重点を置いており、ハイブリッドマルチクラスFHEスキームの開発を促している。 しかし、ハイブリッドFHEスキームのための特定のGPU最適化については、まだ徹底的に研究されていない。 本稿では,Chameleon という,GPU ベースの効率的な FHE スキーム切替高速化手法を提案する。 まず,より大きなCKKS多項式と小さいTFHE多項式に適応する拡張性のあるNTT加速設計を提案する。 特に、Chameleonは同期を減らし、多項式係数シャッフルを用いて同期スケールを最小化し、SM-awareの組み合わせ戦略を用いて最適な切り替え点を同定することで同期問題に取り組む。 第二に、Chameleonは、重要なスイッチング操作を包括的に分析し、最適化する最初の企業である。 LUT評価を加速するためにCMuxレベルの並列化を導入し、リパック効率を向上させるために同型回転自由行列ベクトル乗算を導入した。 最後に、ChameleonはCKKS HMULの1.23倍、ブートストラップの1.15倍で、最先端のGPU実装より優れている。 また、TFHEゲートブートストラップの最大4.87倍と1.51倍のスピードアップを実現し、CPUベースの実装に切り替えるための平均67.3倍のスピードアップを提供する。

Fully homomorphic encryption (FHE) enables direct computation on encrypted data, making it a crucial technology for privacy protection. However, FHE suffers from significant performance bottlenecks. In this context, GPU acceleration offers a promising solution to bridge the performance gap. Existing efforts primarily focus on single-class FHE schemes, which fail to meet the diverse requirements of data types and functions, prompting the development of hybrid multi-class FHE schemes. However, studies have yet to thoroughly investigate specific GPU optimizations for hybrid FHE schemes. In this paper, we present an efficient GPU-based FHE scheme switching acceleration named Chameleon. First, we propose a scalable NTT acceleration design that adapts to larger CKKS polynomials and smaller TFHE polynomials. Specifically, Chameleon tackles synchronization issues by fusing stages to reduce synchronization, employing polynomial coefficient shuffling to minimize synchronization scale, and utilizing an SM-aware combination strategy to identify the optimal switching point. Second, Chameleon is the first to comprehensively analyze and optimize critical switching operations. It introduces CMux-level parallelization to accelerate LUT evaluation and a homomorphic rotation-free matrix-vector multiplication to improve repacking efficiency. Finally, Chameleon outperforms the state-of-the-art GPU implementations by 1.23x in CKKS HMUL and 1.15x in bootstrapping. It also achieves up to 4.87x and 1.51x speedups for TFHE gate bootstrapping compared to CPU and GPU versions, respectively, and delivers a 67.3x average speedup for scheme switching over CPU-based implementation.
翻訳日:2024-11-01 12:10:29 公開日:2024-10-08
# マンガにおけるワンショット物体検出のための特徴空間におけるガウスデータ拡張学習

Learning Gaussian Data Augmentation in Feature Space for One-shot Object Detection in Manga ( http://arxiv.org/abs/2410.05935v1 )

ライセンス: Link先を確認
Takara Taniguchi, Ryosuke Furuta, (参考訳) マンガにおける一発物体検出に挑戦する。 日本マンガの世界的な普及により、自動着色などの潜在的な応用により、キャラクターの物体検出がますます重要になっている。 しかし,従来のオブジェクト検出器のトレーニングに十分なデータを取得することは,著作権上の制約により困難である。 さらに、新しいキャラクタがリリースされる度に新しいキャラクタが現れ、新しいキャラクタを検出する度にオブジェクト検出器を再トレーニングすることは不可能である。 したがって,新たなキャラクタを検出するために単一のクエリ(参照)イメージのみを必要とするワンショットオブジェクト検出は,マンガ産業において不可欠な課題である。 マンガにおけるワンショットオブジェクト検出の課題の1つは、参照として1つのクエリイメージしか持たないにも関わらず、ターゲット画像中の文字のポーズと表情の大きなバリエーションである。 もう一つの課題は、キャラクタの出現頻度が長い尾の分布に従うことである。 これらの課題を克服するために,特徴空間におけるデータ拡張手法を提案する。 提案手法は,ガウス雑音を学習中に学習した各チャネルの雑音分散を伴って,クエリから特徴を増強する。 実験結果から,提案手法は画像空間におけるデータ拡張手法を超越して,目視クラスと目視クラスの両方のパフォーマンスを向上することが示された。

We tackle one-shot object detection in Japanese Manga. The rising global popularity of Japanese manga has made the object detection of character faces increasingly important, with potential applications such as automatic colorization. However, obtaining sufficient data for training conventional object detectors is challenging due to copyright restrictions. Additionally, new characters appear every time a new volume of manga is released, making it impractical to re-train object detectors each time to detect these new characters. Therefore, one-shot object detection, where only a single query (reference) image is required to detect a new character, is an essential task in the manga industry. One challenge with one-shot object detection in manga is the large variation in the poses and facial expressions of characters in target images, despite having only one query image as a reference. Another challenge is that the frequency of character appearances follows a long-tail distribution. To overcome these challenges, we propose a data augmentation method in feature space to increase the variation of the query. The proposed method augments the feature from the query by adding Gaussian noise, with the noise variance at each channel learned during training. The experimental results show that the proposed method improves the performance for both seen and unseen classes, surpassing data augmentation methods in image space.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# Athanor: 抽象制約仕様に関するローカル検索

Athanor: Local Search over Abstract Constraint Specifications ( http://arxiv.org/abs/2410.05937v1 )

ライセンス: Link先を確認
Saad Attieh, Nguyen Dang, Christopher Jefferson, Ian Miguel, Peter Nightingale, (参考訳) 局所探索は組合せ最適化問題を解く一般的な方法である。 本稿では,制約モデルの入力として受け入れる汎用ローカルサーチソルバに着目し,一組の制約の下で決定変数からなる問題の宣言的記述を行う。 既存のアプローチは通常、MiniZincのようなソルバ非依存の制約モデリング言語で書かれた入力モデルである。 ここで説明するAthanorソルバは、抽象制約仕様言語Essenceにおける問題の仕様から始まり、豊富な抽象型をサポートすることで、低レベルのモデリング決定にコミットすることなく、問題を記述することができるという点で異なる。 Essence からの進行の利点は、簡潔で抽象的な問題仕様に現れる構造を利用して、高品質な近隣部を自動的に生成し、その構造を等価な制約モデルで識別する難しいタスクを避けることである。 高次型とそれらの型を直接探索することによって得られるスケーラビリティの2つの利点に基づいて,本実験の結果は,既存の解法と比較して,実際に高い性能を示す。

Local search is a common method for solving combinatorial optimisation problems. We focus on general-purpose local search solvers that accept as input a constraint model - a declarative description of a problem consisting of a set of decision variables under a set of constraints. Existing approaches typically take as input models written in solver-independent constraint modelling languages like MiniZinc. The Athanor solver we describe herein differs in that it begins from a specification of a problem in the abstract constraint specification language Essence, which allows problems to be described without commitment to low-level modelling decisions through its support for a rich set of abstract types. The advantage of proceeding from Essence is that the structure apparent in a concise, abstract specification of a problem can be exploited to generate high quality neighbourhoods automatically, avoiding the difficult task of identifying that structure in an equivalent constraint model. Based on the twin benefits of neighbourhoods derived from high level types and the scalability derived by searching directly over those types, our empirical results demonstrate strong performance in practice relative to existing solution methods.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# EMMA:構造的・階層的アライメントを備えたマルチモーダルマンバ

EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment ( http://arxiv.org/abs/2410.05938v1 )

ライセンス: Link先を確認
Yifei Xing, Xiangyuan Lan, Ruiping Wang, Dongmei Jiang, Wenjun Huang, Qingfang Zheng, Yaowei Wang, (参考訳) Mambaベースのアーキテクチャは、競争力のあるパフォーマンスとサブクワッドラティックなデプロイメント速度のため、ディープラーニングモデルの新たな方向性として期待されている。 しかし、現在のMamba Multi-modal Large Language Model (MLLM) は視覚的特徴の抽出に不十分であり、視覚的およびテクスチュラルなラテント間の不均衡な相互モーダルアライメントをもたらし、マルチモーダルタスクの性能に悪影響を及ぼす。 本研究では,構造的・階層的アライメントを備えたマルチモーダルマンバ(EMMA)を提案する。 具体的には、テキストトークンとともに空間画像レベルの特徴の学習と処理を自動回帰的に最適化し、画像レベルでの構造的アライメントを可能にする画素ワイドアライメントモジュールを提案する。 さらに,クロスモデルアライメントプロセスにおける視覚情報の劣化を防止するため,中間層からのマルチスケール視覚特徴を組み合わせたマルチスケール機能融合(MFF)モジュールを提案し,特徴レベルの階層的アライメントを実現する。 大規模な実験は、様々なマルチモーダルベンチマークで行われている。 本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。 クロスモーダルアライメントが向上し,幻覚の度合いが低下し,視覚的細部への感度が向上し,多様なマルチモーダルベンチマークにおいて優れた性能を示した。 コードは提供される。

Mamba-based architectures have shown to be a promising new direction for deep learning models owing to their competitive performance and sub-quadratic deployment speed. However, current Mamba multi-modal large language models (MLLM) are insufficient in extracting visual features, leading to imbalanced cross-modal alignment between visual and textural latents, negatively impacting performance on multi-modal tasks. In this work, we propose Empowering Multi-modal Mamba with Structural and Hierarchical Alignment (EMMA), which enables the MLLM to extract fine-grained visual information. Specifically, we propose a pixel-wise alignment module to autoregressively optimize the learning and processing of spatial image-level features along with textual tokens, enabling structural alignment at the image level. In addition, to prevent the degradation of visual information during the cross-model alignment process, we propose a multi-scale feature fusion (MFF) module to combine multi-scale visual features from intermediate layers, enabling hierarchical alignment at the feature level. Extensive experiments are conducted across a variety of multi-modal benchmarks. Our model shows lower latency than other Mamba-based MLLMs and is nearly four times faster than transformer-based MLLMs of similar scale during inference. Due to better cross-modal alignment, our model exhibits lower degrees of hallucination and enhanced sensitivity to visual details, which manifests in superior performance across diverse multi-modal benchmarks. Code will be provided.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# TouchInsight:Egocentric Visionによる複合現実感のための不確実性を認識したラピッドタッチとテキスト入力

TouchInsight: Uncertainty-aware Rapid Touch and Text Input for Mixed Reality from Egocentric Vision ( http://arxiv.org/abs/2410.05940v1 )

ライセンス: Link先を確認
Paul Streli, Mark Richardson, Fadi Botros, Shugao Ma, Robert Wang, Christian Holz, (参考訳) 受動的表面は複合現実の相互作用に多くの利点をもたらすが、ヘッドマウントカメラのみからタッチ入力を確実に検出することは長年の課題であった。 カメラの特徴、手の自己閉塞、頭部と指の急激な動きは、タッチイベントの正確な位置についてかなりの不確実性をもたらす。 既存の手法では、ロバストな相互作用に必要な性能を達成できない。 本稿では,任意の物理的表面上の10本の指すべてからタッチ入力を検出するリアルタイムパイプラインを提案する。 筆者らのTouchInsightは,タッチイベントの瞬間,指の接触,タッチ位置を予測するニューラルネットワークを備える。 TouchInsightは、2変数のガウス分布を通して位置を表現し、不正確な検出によって不確かさを考慮します。 まず,本手法をオフラインで評価し,平均誤差6.3mmで入力イベントを検出し,タッチイベントを正確に検出し(F1=0.99),使用する指を特定する(F1=0.96)。 オンライン評価では,両手によるテキスト入力によるデキスタラスタッチ入力のコアアプリケーションに対するアプローチの有効性を実証する。 被験者は平均2.9%の誤り率で毎分37.0語を入力した。

While passive surfaces offer numerous benefits for interaction in mixed reality, reliably detecting touch input solely from head-mounted cameras has been a long-standing challenge. Camera specifics, hand self-occlusion, and rapid movements of both head and fingers introduce considerable uncertainty about the exact location of touch events. Existing methods have thus not been capable of achieving the performance needed for robust interaction. In this paper, we present a real-time pipeline that detects touch input from all ten fingers on any physical surface, purely based on egocentric hand tracking. Our method TouchInsight comprises a neural network to predict the moment of a touch event, the finger making contact, and the touch location. TouchInsight represents locations through a bivariate Gaussian distribution to account for uncertainties due to sensing inaccuracies, which we resolve through contextual priors to accurately infer intended user input. We first evaluated our method offline and found that it locates input events with a mean error of 6.3 mm, and accurately detects touch events (F1=0.99) and identifies the finger used (F1=0.96). In an online evaluation, we then demonstrate the effectiveness of our approach for a core application of dexterous touch input: two-handed text entry. In our study, participants typed 37.0 words per minute with an uncorrected error rate of 2.9% on average.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# 非凸確率目的関数を用いた単一点ベース分散ゼロ階最適化

Single Point-Based Distributed Zeroth-Order Optimization with a Non-Convex Stochastic Objective Function ( http://arxiv.org/abs/2410.05942v1 )

ライセンス: Link先を確認
Elissa Mhanna, Mohamad Assaad, (参考訳) ゼロオーダー最適化(ZO)は、現実的な制約を扱うための強力なツールである。 一方、勾配追跡(GT)技術は、コンセンサスの実現を目的とした分散最適化の効率的な手法であることが判明した。 しかし、これは勾配の知識を必要とする一階法(FO)であり、実際には必ずしも可能であるとは限らない。 本研究では,勾配追従手法の一点推定に基づくゼロ階分散最適化手法を提案する。 我々は,この手法が,非凸条件下で一度に1つのノイズ関数クエリと収束することを証明する。 次に、一連の反復 K の後に$O(\frac{1}{\sqrt[3]{K}})$の収束率を定め、これは集中化された K の$O(\frac{1}{\sqrt[4]{K}})$と競合する。 最後に、数値的な例は、我々の理論的結果を検証する。

Zero-order (ZO) optimization is a powerful tool for dealing with realistic constraints. On the other hand, the gradient-tracking (GT) technique proved to be an efficient method for distributed optimization aiming to achieve consensus. However, it is a first-order (FO) method that requires knowledge of the gradient, which is not always possible in practice. In this work, we introduce a zero-order distributed optimization method based on a one-point estimate of the gradient tracking technique. We prove that this new technique converges with a single noisy function query at a time in the non-convex setting. We then establish a convergence rate of $O(\frac{1}{\sqrt[3]{K}})$ after a number of iterations K, which competes with that of $O(\frac{1}{\sqrt[4]{K}})$ of its centralized counterparts. Finally, a numerical example validates our theoretical results.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# 多重励起による量子空間探索

Quantum spatial search with multiple excitations ( http://arxiv.org/abs/2410.05945v1 )

ライセンス: Link先を確認
Dylan Lewis, Leonardo Banchi, Sougato Bose, (参考訳) 空間探索は、グラフにマークされた頂点を見つける問題である。 スピン系の単励起部分空間における連続時間量子ウォークは、$O(\sqrt{n})$時間でマークされた頂点を見つけることによって空間探索の問題を解く。 本稿では,空間探索問題の自然な拡張について検討し,局所フィールドでマークされたグラフの複数の頂点をマーキングする。 我々は、$n$スピンの$k$-励起部分空間における連続時間量子ウォークが、$O(\sqrt{n})$という状態空間のサイズが$O(n^k)$として大きくなるにもかかわらず、時間の漸近的忠実度を持つ$k$マークされた頂点のバイナリ列を決定することができることを証明した。 数値的には、このアルゴリズムは1/r^\alpha$として崩壊し、$r$はスピン間の距離であり、$\alpha$は現在のイオントラップシステムで容易に利用できる。

Spatial search is the problem of finding a marked vertex in a graph. A continuous-time quantum walk in the single-excitation subspace of an $n$ spin system solves the problem of spatial search by finding the marked vertex in $O(\sqrt{n})$ time. Here, we investigate a natural extension of the spatial search problem, marking multiple vertices of a graph, which are still marked with local fields. We prove that a continuous-time quantum walk in the $k$-excitation subspace of $n$ spins can determine the binary string of $k$ marked vertices with an asymptotic fidelity in time $O(\sqrt{n})$, despite the size of the state space growing as $O(n^k)$. Numerically, we show that this algorithm can be implemented with interactions that decay as $1/r^\alpha$, where $r$ is the distance between spins, and an $\alpha$ that is readily available in current ion trap systems.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# 事前訓練された大型視覚モデルの対向ロバスト性向上のための超対向調整

Hyper Adversarial Tuning for Boosting Adversarial Robustness of Pretrained Large Vision Models ( http://arxiv.org/abs/2410.05951v1 )

ライセンス: Link先を確認
Kangtao Lv, Huangsen Cao, Kainan Tu, Yihuai Xu, Zhimeng Zhang, Xin Ding, Yongwei Wang, (参考訳) 大きな視覚モデルは敵の例に弱いことが分かっており、敵の強靭性を高める必要性を強調している。 敵対的トレーニングは深層畳み込みモデルの効果的な防御法であるが、高い計算コストのために大きな視覚モデルでスケーラビリティの問題に直面することが多い。 近年の研究では、大規模視覚モデルにおけるローランク適応(LoRA)の逆調整のような堅牢な微調整法が提案されているが、完全なパラメータ逆微調整の精度の一致に苦慮している。 様々な防御機構の統合は、大きな視覚モデルの堅牢性を高めるための有望なアプローチを提供するが、このパラダイムは未解明のままである。 そこで本研究では,モデルロバスト性を効率的にかつ効率的に向上するために,異なる手法間で共有された防御知識を活用するHyperATを提案する。 具体的には、各防衛手法の逆調整を学習課題として定式化し、この防衛に特有のLoRAを生成する。 そこで,異なる防御領域間での防御知識の伝達を促進するために,ランダムサンプリングとチューニング戦略を提案する。 最後に、多様なLoRAが統合され、敵の堅牢性を高める。 様々なデータセットとモデルアーキテクチャの実験により、HyperATは過剰な計算オーバーヘッドを伴わずに事前訓練された大きな視覚モデルの対角的堅牢性を大幅に向上し、新しい最先端のベンチマークを確立した。

Large vision models have been found vulnerable to adversarial examples, emphasizing the need for enhancing their adversarial robustness. While adversarial training is an effective defense for deep convolutional models, it often faces scalability issues with large vision models due to high computational costs. Recent approaches propose robust fine-tuning methods, such as adversarial tuning of low-rank adaptation (LoRA) in large vision models, but they still struggle to match the accuracy of full parameter adversarial fine-tuning. The integration of various defense mechanisms offers a promising approach to enhancing the robustness of large vision models, yet this paradigm remains underexplored. To address this, we propose hyper adversarial tuning (HyperAT), which leverages shared defensive knowledge among different methods to improve model robustness efficiently and effectively simultaneously. Specifically, adversarial tuning of each defense method is formulated as a learning task, and a hypernetwork generates LoRA specific to this defense. Then, a random sampling and tuning strategy is proposed to extract and facilitate the defensive knowledge transfer between different defenses. Finally, diverse LoRAs are merged to enhance the adversarial robustness. Experiments on various datasets and model architectures demonstrate that HyperAT significantly enhances the adversarial robustness of pretrained large vision models without excessive computational overhead, establishing a new state-of-the-art benchmark.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# 効率的なLCMベンチマークのための能動的評価取得

Active Evaluation Acquisition for Efficient LLM Benchmarking ( http://arxiv.org/abs/2410.05952v1 )

ライセンス: Link先を確認
Yang Li, Jie Ma, Miguel Ballesteros, Yassine Benajiba, Graham Horwood, (参考訳) 大規模言語モデル(LLM)がますます多用途化されていくにつれて、その能力を徹底的に評価するために多数の大規模ベンチマークが開発されている。 これらのベンチマークは、典型的には多様なデータセットから成り、LLMのパフォーマンスの異なる側面を評価するよう促す。 しかし、数百から数千のプロンプトに対する包括的な評価は、計算、お金、時間といった面で非常にコストがかかる。 本研究では,各ベンチマークからサンプルのサブセットを学習ポリシーを用いて選択することで,評価効率を向上させる方法を検討する。 提案手法は,テスト例間の依存関係をモデル化し,選択した例の結果に基づいて,残りの例に対する評価結果の正確な予測を可能にする。 その結果、選択したサブセットの実際の評価結果を取得する必要がある。 我々は、様々なサブセット選択ポリシーを厳格に検討し、キャプチャーされた依存関係を活用する新しいRLベースのポリシーを導入する。 実験の結果,提案手法は従来の手法と比較して精度の高い性能評価を維持しつつ,必要な評価プロンプトの数を大幅に削減することが示された。

As large language models (LLMs) become increasingly versatile, numerous large scale benchmarks have been developed to thoroughly assess their capabilities. These benchmarks typically consist of diverse datasets and prompts to evaluate different aspects of LLM performance. However, comprehensive evaluations on hundreds or thousands of prompts incur tremendous costs in terms of computation, money, and time. In this work, we investigate strategies to improve evaluation efficiency by selecting a subset of examples from each benchmark using a learned policy. Our approach models the dependencies across test examples, allowing accurate prediction of the evaluation outcomes for the remaining examples based on the outcomes of the selected ones. Consequently, we only need to acquire the actual evaluation outcomes for the selected subset. We rigorously explore various subset selection policies and introduce a novel RL-based policy that leverages the captured dependencies. Empirical results demonstrate that our approach significantly reduces the number of evaluation prompts required while maintaining accurate performance estimates compared to previous methods.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# サイバーアライアンスゲーム:アライアンスがサイバー戦争にどう影響するか

The Cyber Alliance Game: How Alliances Influence Cyber-Warfare ( http://arxiv.org/abs/2410.05953v1 )

ライセンス: Link先を確認
Gergely Benkő, Gergely Biczók, (参考訳) サイバー戦争は、現在進行中の軍事紛争の標準となっている。 過去10年間で、国家がサイバー能力の構築に集中しなければ、どの程度脆弱になるかを示す多くの例が示されてきた。 サイバー戦争シナリオの固有の複雑さに加えて、状態は通常、1つ以上のアライアンスのメンバーである。 同盟政策と内部闘争は加盟国の個々の行動を形成する可能性があるが、直感的には、これはサイバードメインにも当てはまる。 本稿では,国家間のサイバー紛争に対するアライアンスの基本的影響を理解することを目的とした,シンプルなサイバーアライアンスゲームを定義し,研究する。 具体的には、新たに発見された脆弱性を個別に活用するか、あるいはアライアンスと共有するかという決定に重点を置いています。 まず、脆弱性共有報酬が結果の均衡に与える影響を特徴付ける。 第2に,アライアンスの内部電力構造がサイバー戦争の結果に与える影響について検討し,ディクテーター,ヴェト,ダミー選手の期待する振る舞いを推測する。 最後に,同盟は,彼らの防衛的あるいは攻撃的なサイバー政策に固執するために,報酬や罰を通じてメンバーを苦しめることができるかを検討する。 この結果は,アライアンスの影響を特徴づけることで,現実のサイバーコンフリクトの根本的な理解に寄与すると考えている。

Cyber-warfare has become the norm in current ongoing military conflicts. Over the past decade, numerous examples have shown the extent to which nation-states become vulnerable if they do not focus on building their cyber capacities. Adding to the inherent complexity of cyberwar scenarios, a state is usually a member of one or more alliances. Alliance policies and internal struggles could shape the individual actions of member states; intuitively, this also holds for the cyber domain. In this paper, we define and study a simple Cyber Alliance Game with the objective of understanding the fundamental influence of alliances on cyber conflicts between nation-states. Specifically, we focus on the decision of whether to exploit a newly found vulnerability individually or share it with the alliance. First, we characterize the impact of vulnerability-sharing rewards on the resulting equilibrium. Second, we study the implications of the internal power structure of alliances on cyberwar outcomes and infer the expected behavior of Dictator, Veto, and Dummy players. Finally, we investigate how alliances can nudge their members via rewards and punishments to adhere to their defensive or offensive cyber policy. We believe that our results contribute to the fundamental understanding of real-world cyber-conflicts by characterizing the impact of alliances.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# 効率的な映像生成モデルのためのピラミッドフローマッチング

Pyramidal Flow Matching for Efficient Video Generative Modeling ( http://arxiv.org/abs/2410.05954v1 )

ライセンス: Link先を確認
Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu, Zhouchen Lin, (参考訳) ビデオ生成には、膨大な時間空間をモデル化する必要がある。 複雑さを減らすために、一般的なアプローチでは、完全な解像度で直接トレーニングするのを避けるためにカスケードアーキテクチャを採用している。 計算要求の削減にもかかわらず、各サブステージの個別の最適化は知識共有を妨げ、柔軟性を犠牲にする。 この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。 元々の認知軌道をピラミッドの一連の段階として再解釈し、最終段階のみが完全な解像度で動作し、より効率的なビデオ生成モデリングを可能にする。 我々の洗練された設計により、異なるピラミッドステージのフローは連続性を維持するために相互にリンクすることができる。 さらに,時間ピラミッドを用いた自己回帰映像生成を行い,その全解像度履歴を圧縮する。 フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を備える。 大規模な実験により,20.7k A100GPUトレーニング時間内に,高画質の5秒動画(最大10秒)を768p,24FPSで生成できることが確認された。 すべてのコードとモデルはhttps://pyramid-flow.github.ioでオープンソース化される。

Video generation requires modeling a vast spatiotemporal space, which demands significant computational resources and data usage. To reduce the complexity, the prevailing approaches employ a cascaded architecture to avoid direct training with full resolution. Despite reducing computational demands, the separate optimization of each sub-stage hinders knowledge sharing and sacrifices flexibility. This work introduces a unified pyramidal flow matching algorithm. It reinterprets the original denoising trajectory as a series of pyramid stages, where only the final stage operates at the full resolution, thereby enabling more efficient video generative modeling. Through our sophisticated design, the flows of different pyramid stages can be interlinked to maintain continuity. Moreover, we craft autoregressive video generation with a temporal pyramid to compress the full-resolution history. The entire framework can be optimized in an end-to-end manner and with a single unified Diffusion Transformer (DiT). Extensive experiments demonstrate that our method supports generating high-quality 5-second (up to 10-second) videos at 768p resolution and 24 FPS within 20.7k A100 GPU training hours. All code and models will be open-sourced at https://pyramid-flow.github.io.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# ディジタル化誤差のないゲートベース量子アニール

Gate-based quantum annealing without digitization errors ( http://arxiv.org/abs/2410.05955v1 )

ライセンス: Link先を確認
Takuya Hatomura, (参考訳) トロッター化を用いた時間依存ハミルトニアンシミュレーションは、2種類の誤差、すなわち離散化誤差とデジタル化誤差を引き起こす。 本稿では,量子アニールのディジタル量子シミュレーションにおいて,ディジタル化エラーを完全に除去できる分解式を提案する。 従来のトロッタライズ手法に対して,本手法のスケーリングの利点を数値的に示す。 また, いくつかの触媒を用いた量子アニール法にも適用可能であることを示す。 特に、非知性$XX$-相互作用、バイアス$Z$-フィールド、および反断熱性$Y$-フィールド触媒の組み合わせが本法の適用に含まれている。

Time-dependent Hamiltonian simulation using Trotterization causes two types of errors, i.e., discretization errors and digitization errors. In this paper, we propose a decomposition formula which enables us to completely eliminate digitization errors in digital quantum simulation of quantum annealing. We numerically demonstrate scaling advantage of the present method against the conventional Trotterization approach. We also show that the present method can be applied to quantum annealing with some catalysts. Notably, some combinations of nonstoquastic $XX$-interaction, bias $Z$-field, and counterdiabatic $Y$-field catalysts are included in applications of the present method.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# プロンプトとしての注意による無訓練オープンエンド物体検出とセグメンテーション

Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts ( http://arxiv.org/abs/2410.05963v1 )

ライセンス: Link先を確認
Zhiwei Lin, Yongtao Wang, Zhi Tang, (参考訳) 既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。 この問題を軽減するために、研究者はオープンセットの知覚タスクを導入し、トレーニングセット内の未確認物体を検出したり、セグメンテーションしたりする。 しかし、これらのモデルは、実世界のシナリオでは利用できない、推論中に入力として事前定義されたオブジェクトカテゴリを必要とする。 近年、研究者は、オブジェクトのカテゴリを入力として含まない未知のオブジェクトを発見できる、新しいより実践的な問題である「textit{i.e.}」を提起している。 本稿では、一般化オブジェクト認識モデル(\textit{i.e.,} Vision-Language Model)と一般化オブジェクトローカライゼーションモデル(\textit{i.e.,} Segment-Anything Model)を組み合わせた学習自由フレームワークであるVL-SAMについて述べる。 追加のトレーニングがなければ、これらの2つの一般化されたモデルをアテンションマップをプロンプトとして接続する。 具体的には,頭部アグリゲーションと正規化された注意流を用いて,VLMの全頭部および層にアグリゲーションマップを配置し,高品質なアグリゲーションマップを生成するアグリゲーションマップ生成モジュールを設計する。 次に,アテンションマップからのポジティと負の点をプロンプト生成モジュールで繰り返しサンプリングし,サンプルされた点をSAMに送信して対応するオブジェクトを分割する。 LVIS(Long-tail instance segmentation dataset)の実験結果から,本手法はオブジェクト検出タスクにおける従来のオープンエンド手法を超越し,追加のインスタンスセグメンテーションマスクを提供することができることがわかった。 さらに、VL-SAMはコーナーケースオブジェクト検出データセット(CODA)上で良好な性能を発揮し、実世界のアプリケーションにおけるVL-SAMの有効性を示す。 さらに、VL-SAMは、様々なVLMとSAMを組み込むことができる優れたモデル一般化を示す。

Existing perception models achieve great success by learning from large amounts of labeled data, but they still struggle with open-world scenarios. To alleviate this issue, researchers introduce open-set perception tasks to detect or segment unseen objects in the training set. However, these models require predefined object categories as inputs during inference, which are not available in real-world scenarios. Recently, researchers pose a new and more practical problem, \textit{i.e.}, open-ended object detection, which discovers unseen objects without any object categories as inputs. In this paper, we present VL-SAM, a training-free framework that combines the generalized object recognition model (\textit{i.e.,} Vision-Language Model) with the generalized object localization model (\textit{i.e.,} Segment-Anything Model), to address the open-ended object detection and segmentation task. Without additional training, we connect these two generalized models with attention maps as the prompts. Specifically, we design an attention map generation module by employing head aggregation and a regularized attention flow to aggregate and propagate attention maps across all heads and layers in VLM, yielding high-quality attention maps. Then, we iteratively sample positive and negative points from the attention maps with a prompt generation module and send the sampled points to SAM to segment corresponding objects. Experimental results on the long-tail instance segmentation dataset (LVIS) show that our method surpasses the previous open-ended method on the object detection task and can provide additional instance segmentation masks. Besides, VL-SAM achieves favorable performance on the corner case object detection dataset (CODA), demonstrating the effectiveness of VL-SAM in real-world applications. Moreover, VL-SAM exhibits good model generalization that can incorporate various VLMs and SAMs.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# STNet:ロバスト話者追跡のためのディープオーディオ・ビジュアルフュージョンネットワーク

STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking ( http://arxiv.org/abs/2410.05964v1 )

ライセンス: Link先を確認
Yidi Li, Hong Liu, Bing Yang, (参考訳) マルチモーダル融合法により精度とロバスト性を向上できるマルチセンサプラットフォームによって捕捉された信号を用いて,映像中の人的標的の位置を特定することを目的としている。 近年,複数モードの相関をモデル化するための融合法が提案されている。 しかし、話者追跡問題では、音声と視覚信号の相互の相互作用は十分に活用されていない。 そこで本研究では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。 我々は、カメラモデルによる視覚的観察を利用して拡張音響マップを構築する、統一的な局所化空間において異種キューを融合する視覚誘導音響測定法を設計する。 機能融合では、マルチモーダルコンテキストと相互作用を協調的にモデル化するために、クロスモーダルアテンションモジュールが採用されている。 融合モデルでは、音声と視覚的特徴の相関情報がさらに相互作用する。 さらに、STNetベースのトラッカーは、複雑なシナリオにおいて堅牢なトラッキングを実現するために、マルチモーダル観測の信頼性を評価する品質認識モジュールによってマルチスピーカケースに適用される。 AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。

Audio-visual speaker tracking aims to determine the location of human targets in a scene using signals captured by a multi-sensor platform, whose accuracy and robustness can be improved by multi-modal fusion methods. Recently, several fusion methods have been proposed to model the correlation in multiple modalities. However, for the speaker tracking problem, the cross-modal interaction between audio and visual signals hasn't been well exploited. To this end, we present a novel Speaker Tracking Network (STNet) with a deep audio-visual fusion model in this work. We design a visual-guided acoustic measurement method to fuse heterogeneous cues in a unified localization space, which employs visual observations via a camera model to construct the enhanced acoustic map. For feature fusion, a cross-modal attention module is adopted to jointly model multi-modal contexts and interactions. The correlated information between audio and visual features is further interacted in the fusion model. Moreover, the STNet-based tracker is applied to multi-speaker cases by a quality-aware module, which evaluates the reliability of multi-modal observations to achieve robust tracking in complex scenarios. Experiments on the AV16.3 and CAV3D datasets show that the proposed STNet-based tracker outperforms uni-modal methods and state-of-the-art audio-visual speaker trackers.
翻訳日:2024-11-01 12:00:27 公開日:2024-10-08
# ディープニューラルネットワークを用いたスマートフォン画像からの偽造品の検出

Deep neural network-based detection of counterfeit products from smartphone images ( http://arxiv.org/abs/2410.05969v1 )

ライセンス: Link先を確認
Hugo Garcia-Cotte, Dorra Mellouli, Abdul Rehman, Li Wang, David G. Stork, (参考訳) 医薬品やワクチンなどの偽造品や、高級ハンドバッグ、時計、宝石、衣服、化粧品などの高級品は、正統な製造業者や販売業者への収入の著しい直接的損失であり、社会全体に間接的なコストがかかる。 我々は、プライチェーン追跡のための製品や修正に特別なセキュリティタグやその他の変更を必要としない偽造と戦う、世界初の純粋にコンピュータビジョンベースのシステムを提示します。 私たちのディープニューラルネットワークシステムは、小売店、税関のチェックポイント、倉庫、屋外など、自然に制御された弱い条件下で撮影された画像を使用して、最初のメーカーがテストした(3.06%の拒否後99.71%)ブランドの衣服に高い精度を示す。 本システムでは,少数の偽物や偽物で訓練された商品を,ファッションアクセサリ,香水箱,薬品など,追加の製品カテゴリに応用することを目的としている。

Counterfeit products such as drugs and vaccines as well as luxury items such as high-fashion handbags, watches, jewelry, garments, and cosmetics, represent significant direct losses of revenue to legitimate manufacturers and vendors, as well as indirect costs to societies at large. We present the world's first purely computer-vision-based system to combat such counterfeiting-one that does not require special security tags or other alterations to the products or modifications to supply chain tracking. Our deep neural network system shows high accuracy on branded garments from our first manufacturer tested (99.71% after 3.06% rejections) using images captured under natural, weakly controlled conditions, such as in retail stores, customs checkpoints, warehouses, and outdoors. Our system, suitably transfer trained on a small number of fake and genuine articles, should find application in additional product categories as well, for example fashion accessories, perfume boxes, medicines, and more.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# PDF-WuKong: エンド・ツー・エンドスパースサンプリングによる高効率PDF読解のための大規模マルチモーダルモデル

PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling ( http://arxiv.org/abs/2410.05970v1 )

ライセンス: Link先を確認
Xudong Xie, Liang Yin, Hao Yan, Yang Liu, Jing Ding, Minghui Liao, Yuliang Liu, Wei Chen, Xiang Bai, (参考訳) 文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。 大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。 しかし、既存の手法は、通常、平易なテキストまたは限られた数の文書画像に焦点を当て、特に学術論文において、インターリーブされたテキストと画像で長いPDF文書を扱うのに苦労している。 本稿では,長いPDF文書に対する多モーダル質問回答(QA)の強化を目的とした多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。 PDF-WuKongはテキストと画像表現の両方で動作するスパースサンプルを組み込んでおり、MLLMの効率と能力を大幅に改善している。 スパースサンプリングはMLLMの画像エンコーダと統合され、言語モデルにより処理されるユーザクエリに関連する段落やダイアグラムを選択する。 本モデルを効果的にトレーニングし,評価するために,arXivから得られた学術論文の広範なコレクションからなるデータセットであるPaperPDFを構築し,対応するエビデンスソースとともに,自動1M QAペアを生成するための複数の戦略を提案する。 実験の結果,F1 上でのプロプライエタリな製品を平均8.6% 上回る長いマルチモーダル PDF 理解作業において,他のモデルに対するアプローチの優位性と高い効率性を示した。 私たちのコードとデータセットはhttps://github.com/yh-hust/PDF-Wukong.comで公開されます。

Document understanding is a challenging task to process and comprehend large amounts of textual and visual information. Recent advances in Large Language Models (LLMs) have significantly improved the performance of this task. However, existing methods typically focus on either plain text or a limited number of document images, struggling to handle long PDF documents with interleaved text and images, especially in academic papers. In this paper, we introduce PDF-WuKong, a multimodal large language model (MLLM) which is designed to enhance multimodal question-answering (QA) for long PDF documents. PDF-WuKong incorporates a sparse sampler that operates on both text and image representations, significantly improving the efficiency and capability of the MLLM. The sparse sampler is integrated with the MLLM's image encoder and selects the paragraphs or diagrams most pertinent to user queries for processing by the language model. To effectively train and evaluate our model, we construct PaperPDF, a dataset consisting of a broad collection of academic papers sourced from arXiv, multiple strategies are proposed to generate automatically 1M QA pairs along with their corresponding evidence sources. Experimental results demonstrate the superiority and high efficiency of our approach over other models on the task of long multimodal PDF understanding, surpassing proprietary products by an average of 8.6% on F1. Our code and dataset will be released at https://github.com/yh-hust/PDF-Wukong.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# 多様な分布に一般化する:一様性、優雅な微調整、再バランス

Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing ( http://arxiv.org/abs/2410.05980v1 )

ライセンス: Link先を確認
Andreas Loukas, Karolis Martinkus, Ed Wagstaff, Kyunghyun Cho, (参考訳) トレーニングデータセットが大きくなるにつれて、トレーニングデータから大きく逸脱した場合でも、さまざまなテスト分布に適切に適応するモデルを開発したいと考えています。 ドメイン適応、ドメイン一般化、堅牢な最適化といった様々なアプローチは、トレーニングとテスト分布の関係に関する仮定を仮定することによって、アウト・オブ・ディストリビューションの課題に対処しようとする。 異なることに、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。 最初の発見は、この領域上の一様分布のトレーニングが最適であるということです。 また,一様サンプルが利用できない場合,微調整と再バランスによる不均一性を緩和する方法を検討することで,実用的対策も検討する。 我々の理論は、エントロピーの役割と、o.o.d.一般化と基礎モデルトレーニングに対する再バランスに関する過去の観測の数学的根拠を提供する。 我々はまた、我々の視点の幅広い適用性を示すo.o.d.シフトを含むタスクにまたがる新しい経験的証拠を提供する。

As training datasets grow larger, we aspire to develop models that generalize well to any diverse test distribution, even if the latter deviates significantly from the training data. Various approaches like domain adaptation, domain generalization, and robust optimization attempt to address the out-of-distribution challenge by posing assumptions about the relation between training and test distribution. Differently, we adopt a more conservative perspective by accounting for the worst-case error across all sufficiently diverse test distributions within a known domain. Our first finding is that training on a uniform distribution over this domain is optimal. We also interrogate practical remedies when uniform samples are unavailable by considering methods for mitigating non-uniformity through finetuning and rebalancing. Our theory provides a mathematical grounding for previous observations on the role of entropy and rebalancing for o.o.d. generalization and foundation model training. We also provide new empirical evidence across tasks involving o.o.d. shifts which illustrate the broad applicability of our perspective.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# DeMo: 動き予測を方向意図と動的状態に分離する

DeMo: Decoupling Motion Forecasting into Directional Intentions and Dynamic States ( http://arxiv.org/abs/2410.05982v1 )

ライセンス: Link先を確認
Bozhou Zhang, Nan Song, Li Zhang, (参考訳) 交通機関の正確な動き予測は、動的に変化する環境における自律運転システムの安全性と効率を確保するために不可欠である。 メインストリームの手法は1-クエリ・ワン・トラジェクトリ・パラダイムを採用しており、各クエリはマルチモーダル・トラジェクトリを予測するためのユニークなトラジェクトリに対応する。 単純かつ効果的であるが、将来の軌道の詳細な表現がないことは、エージェント状態が時間とともに動的に進化することを考えると、最適以下の結果をもたらす可能性がある。 この問題に対処するため,マルチモーダルなトラジェクトリクエリを2つのタイプに分離するフレームワークであるDeMoを紹介した。 この形式を利用することで、軌道の多モード性と動的進化特性を別々に最適化する。 その後、モードと状態クエリを統合して、トラジェクトリの包括的かつ詳細な表現を得る。 これらの操作を実現するために,グローバルな情報集約と状態シーケンスモデリングのためのアテンションとマンバを組み合わせた手法を導入し,それぞれの強みを活用している。 Argoverse 2 と nuScenes のベンチマークによる大規模な実験により,DeMo が動作予測における最先端性能を達成していることが示された。

Accurate motion forecasting for traffic agents is crucial for ensuring the safety and efficiency of autonomous driving systems in dynamically changing environments. Mainstream methods adopt a one-query-one-trajectory paradigm, where each query corresponds to a unique trajectory for predicting multi-modal trajectories. While straightforward and effective, the absence of detailed representation of future trajectories may yield suboptimal outcomes, given that the agent states dynamically evolve over time. To address this problem, we introduce DeMo, a framework that decouples multi-modal trajectory queries into two types: mode queries capturing distinct directional intentions and state queries tracking the agent's dynamic states over time. By leveraging this format, we separately optimize the multi-modality and dynamic evolutionary properties of trajectories. Subsequently, the mode and state queries are integrated to obtain a comprehensive and detailed representation of the trajectories. To achieve these operations, we additionally introduce combined Attention and Mamba techniques for global information aggregation and state sequence modeling, leveraging their respective strengths. Extensive experiments on both the Argoverse 2 and nuScenes benchmarks demonstrate that our DeMo achieves state-of-the-art performance in motion forecasting.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# RAGとLong-Context LLM - RAGにおけるLong-Inputsの課題を克服する

Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG ( http://arxiv.org/abs/2410.05983v1 )

ライセンス: Link先を確認
Bowen Jin, Jinsung Yoon, Jiawei Han, Sercan O. Arik, (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)に外部知識ソースを利用する権限を与える。 より長い入力シーケンスを処理するLLMの容量が増加すると、より検索された情報を提供するための道が開き、生成した出力の品質が向上する可能性がある。 より大きな検索セットがより関連性の高い情報(より高いリコール)を含んでいると仮定すると、パフォーマンスが向上する可能性がある。 しかし,多くの長文LCMにおいて,生成した出力の質は最初は向上するが,その後,検索されたパス数が増えるにつれて低下することを示す実験結果が得られた。 本稿では, 回収した「硬い負」の有害な影響を鍵要因として, この現象を解明する。 これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。 まず,検索リオーダーの有効性を,単純かつ強力なトレーニングフリー最適化として示す。 さらに、トレーニングベースの手法、特にRAG固有の暗黙的なLCM微調整とRAG指向の微調整を中間的推論で検討し、その性能向上の可能性を実証した。 最後に,データ配信,検索者選択,学習コンテキスト長など,これらのトレーニングベースの手法の設計選択を体系的に分析する。

Retrieval-augmented generation (RAG) empowers large language models (LLMs) to utilize external knowledge sources. The increasing capacity of LLMs to process longer input sequences opens up avenues for providing more retrieved information, to potentially enhance the quality of generated outputs. It is plausible to assume that a larger retrieval set would contain more relevant information (higher recall), that might result in improved performance. However, our empirical findings demonstrate that for many long-context LLMs, the quality of generated output initially improves first, but then subsequently declines as the number of retrieved passages increases. This paper investigates this phenomenon, identifying the detrimental impact of retrieved "hard negatives" as a key contributor. To mitigate this and enhance the robustness of long-context LLM-based RAG, we propose both training-free and training-based approaches. We first showcase the effectiveness of retrieval reordering as a simple yet powerful training-free optimization. Furthermore, we explore training-based methods, specifically RAG-specific implicit LLM fine-tuning and RAG-oriented fine-tuning with intermediate reasoning, demonstrating their capacity for substantial performance gains. Finally, we conduct a systematic analysis of design choices for these training-based methods, including data distribution, retriever selection, and training context length.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# 最小半径歪解法は相対的ポス推定に必要か?

Are Minimal Radial Distortion Solvers Necessary for Relative Pose Estimation? ( http://arxiv.org/abs/2410.05984v1 )

ライセンス: Link先を確認
Charalambos Tzamos, Viktor Kocur, Yaqing Ding, Torsten Sattler, Zuzana Kukelova, (参考訳) 2台のカメラ間の相対的なポーズを推定することは、Structure-from-Motionのような多くのアプリケーションにおける基本的なステップである。 相対ポーズ推定に対する一般的なアプローチは、RANSACループ内に最小の解法を適用することである。 ピンホールカメラには非常に効率的な解法が存在する。 しかし、(ほぼ)すべてのカメラは放射歪みを示す。 放射歪みをモデル化しないことは(顕著に)悪い結果をもたらす。 しかし、最小の半径歪み解法は、実行時間と実装の両面でピンホール解法よりもかなり複雑である。 本稿では, 効率的なピンホール解法と試料の半径歪みパラメータを組み合わせ, 簡単な実装法と放射歪み解法を比較した。 複数のデータセットとRANSACの変種に対する大規模な実験は、この単純なアプローチが、より高速な実行時に最も正確な最小歪み解法よりも、より高速な非最小解法よりもはるかに正確であることを示している。 複雑なラジアル歪み解法は実際は不要であることを示す。 コードとベンチマークはhttps://github.com/kocurvik/rd.orgで公開されている。

Estimating the relative pose between two cameras is a fundamental step in many applications such as Structure-from-Motion. The common approach to relative pose estimation is to apply a minimal solver inside a RANSAC loop. Highly efficient solvers exist for pinhole cameras. Yet, (nearly) all cameras exhibit radial distortion. Not modeling radial distortion leads to (significantly) worse results. However, minimal radial distortion solvers are significantly more complex than pinhole solvers, both in terms of run-time and implementation efforts. This paper compares radial distortion solvers with a simple-to-implement approach that combines an efficient pinhole solver with sampled radial distortion parameters. Extensive experiments on multiple datasets and RANSAC variants show that this simple approach performs similarly or better than the most accurate minimal distortion solvers at faster run-times while being significantly more accurate than faster non-minimal solvers. We clearly show that complex radial distortion solvers are not necessary in practice. Code and benchmark are available at https://github.com/kocurvik/rd.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# Decoupled Backpropagation と Layer-Wise Update を併用した非同期確率的グラディエントDescent の1例

Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates ( http://arxiv.org/abs/2410.05985v1 )

ライセンス: Link先を確認
Cabrel Teguemne Fokam, Khaleelulla Khan Nazeer, Lukas König, David Kappel, Anand Subramoney, (参考訳) ディープラーニングモデルのサイズが大きくなるにつれ、非同期、並列、分散コンピューティングをより活用する標準エラーバックプロパゲーションアルゴリズムに対する、より効率的な代替手段の必要性が高まっている。 バックプロパゲーションの最大の欠点は、グローバルな損失を計算するアルゴリズムの前フェーズと、ネットワークパラメータの更新に使用される勾配を計算するためにすべての層を通して損失が逆プロパゲーションされる下位フェーズとのインターロックである。 そこで本研究では,複数のスレッドから非同期に更新することで,モデルのレイヤ間でSGD更新を並列化する手法を提案する。 さらに,前進パスが後進パスよりもはるかに高速であることから,前進パスと後進パスの計算に別スレッドを用いることで,前進スレッドと後進スレッドの比率を通常の1:1比よりも高めることができるため,パラメータの全体としての安定性が低下する。 そこで本手法では,損失(前方)と勾配(後方)の計算に別スレッドを用いて非同期確率勾配降下を行い,パラメータの階層的部分的更新を分散的に行う。 複数のデバイス(Locally-Partitioned-Asynchronous-Parallel SGD)でスケールしたHogwild!よりも最大2.97倍高速に動作しながら、このアプローチは最先端の結果に近い結果が得られることを示す。 本稿では,確率微分方程式とドリフト拡散過程に基づく新しい理論フレームワークを用いて,非同期パラメータの更新を確率過程としてモデル化し,アルゴリズムの収束性を理論的に証明する。

The increasing size of deep learning models has created the need for more efficient alternatives to the standard error backpropagation algorithm, that make better use of asynchronous, parallel and distributed computing. One major shortcoming of backpropagation is the interlocking between the forward phase of the algorithm, which computes a global loss, and the backward phase where the loss is backpropagated through all layers to compute the gradients, which are used to update the network parameters. To address this problem, we propose a method that parallelises SGD updates across the layers of a model by asynchronously updating them from multiple threads. Furthermore, since we observe that the forward pass is often much faster than the backward pass, we use separate threads for the forward and backward pass calculations, which allows us to use a higher ratio of forward to backward threads than the usual 1:1 ratio, reducing the overall staleness of the parameters. Thus, our approach performs asynchronous stochastic gradient descent using separate threads for the loss (forward) and gradient (backward) computations and performs layer-wise partial updates to parameters in a distributed way. We show that this approach yields close to state-of-the-art results while running up to 2.97x faster than Hogwild! scaled on multiple devices (Locally-Partitioned-Asynchronous-Parallel SGD). We theoretically prove the convergence of the algorithm using a novel theoretical framework based on stochastic differential equations and the drift diffusion process, by modeling the asynchronous parameter updates as a stochastic process.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# 深層ニューラルネットワーク設計におけるリアプノフ指数の利用

Utilizing Lyapunov Exponents in designing deep neural networks ( http://arxiv.org/abs/2410.05988v1 )

ライセンス: Link先を確認
Tirthankar Mittra, (参考訳) 大きなディープニューラルネットワークのトレーニングはリソース集約である。 本研究は,リャプノフ指数がハイパーパラメータの選択を支援することにより,この過程を加速できるかどうかを考察する。 そこで本研究では,隠れた層内でのアクティベーション関数の異なるニューラルネットワークを用いて最適化問題を定式化する。 モデル重みを異なるランダムシードで初期化することにより、これらのモデル重みに対して従来の勾配降下を行いながら、リアプノフ指数を計算する。 その結果,学習速度の変動がモデル重みのカオス的変化を引き起こすことが示唆された。 また、より負のリャプノフ指数を持つ活性化関数はより良い収束特性を示すことを示した。 さらに、この研究では、Lyapunov指数がディープニューラルネットワークの効果的な初期モデル重みの選択に利用でき、最適化プロセスが強化される可能性があることも示している。

Training large deep neural networks is resource intensive. This study investigates whether Lyapunov exponents can accelerate this process by aiding in the selection of hyperparameters. To study this I formulate an optimization problem using neural networks with different activation functions in the hidden layers. By initializing model weights with different random seeds, I calculate the Lyapunov exponent while performing traditional gradient descent on these model weights. The findings demonstrate that variations in the learning rate can induce chaotic changes in model weights. I also show that activation functions with more negative Lyapunov exponents exhibit better convergence properties. Additionally, the study also demonstrates that Lyapunov exponents can be utilized to select effective initial model weights for deep neural networks, potentially enhancing the optimization process.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# ベクトルグリモワール:ラスター画像監督下でのコードブックによる形状生成

Vector Grimoire: Codebook-based Shape Generation under Raster Image Supervision ( http://arxiv.org/abs/2410.05991v1 )

ライセンス: Link先を確認
Moritz Feuerpfeil, Marco Cipriano, Gerard de Melo, (参考訳) Scalable Vector Graphics (SVG) はウェブやデザイン業界で人気のあるフォーマットである。 しかし、生成的モデリングにおける大きな進歩にもかかわらず、SVGはそのようなデータの離散的かつ複雑な性質のため、未探索のままである。 視覚形状量化器(VSQ)は、ラスタ画像をベクトル形状に再構成して離散コードブックにマッピングすることを学習し、自動回帰変換器(ART)は、形状トークン、位置、テキスト記述に関する結合確率分布をモデル化し、自然言語からベクトルグラフィックスを生成する。 SVGデータからの直接監督を必要とする既存のモデルとは異なり、GRIMOIREはラスタ画像のみを使用して形状画像パッチを学習し、ベクトル生成モデリングをはるかに多くのデータに開放する。 GRIMOIRE を MNIST 上の閉じた形状とアイコンおよびフォントデータ上のアウトラインストロークに適合させ, 生成品質とベクトル教師による柔軟性のアプローチにおいて, 従来の画像管理手法を上回り, 本手法の有効性を実証した。

Scalable Vector Graphics (SVG) is a popular format on the web and in the design industry. However, despite the great strides made in generative modeling, SVG has remained underexplored due to the discrete and complex nature of such data. We introduce GRIMOIRE, a text-guided SVG generative model that is comprised of two modules: A Visual Shape Quantizer (VSQ) learns to map raster images onto a discrete codebook by reconstructing them as vector shapes, and an Auto-Regressive Transformer (ART) models the joint probability distribution over shape tokens, positions and textual descriptions, allowing us to generate vector graphics from natural language. Unlike existing models that require direct supervision from SVG data, GRIMOIRE learns shape image patches using only raster image supervision which opens up vector generative modeling to significantly more data. We demonstrate the effectiveness of our method by fitting GRIMOIRE for closed filled shapes on the MNIST and for outline strokes on icon and font data, surpassing previous image-supervised methods in generative quality and vector-supervised approach in flexibility.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# コードのリンクとドキュメントのチャーン:予備分析

Linking Code and Documentation Churn: Preliminary Analysis ( http://arxiv.org/abs/2410.05992v1 )

ライセンス: Link先を確認
Ani Hovhannisyan, Youmei Fan, Gema Rodriguez-Perez, Raula Gaikovina Kula, (参考訳) コードチャーン(Code Churn)は、プロジェクトで追加、修正、削除されたコードの量を表し、コードベースの安定性と保守性を評価するためにしばしば使用される。 プログラムの理解や変更の理解は、保守性にも同じように重要です。 ドキュメンテーションは、特に新しいメンテナが放棄されたコードを引き継いだ場合、知識伝達に不可欠である。 これは、サードパーティのライブラリとしてのプロジェクトの健全性と信頼性を反映しています。 したがって、すべてのコード変更がドキュメント更新(ドキュメントのチャーンとして定義される)を促すべきだ、と私たちは主張する。 コードの変更とドキュメントの更新をリンクすることは、プロジェクトの持続可能性にとって重要である。 本研究では,GitHubの3つのオープンソースプロジェクトにおけるコードチャーンとドキュメント更新の同期について検討する。 定性的分析とリポジトリマイニングを使用して、コードチャーンとドキュメント更新のアライメントと相関を調べます。 どのコード変更がドキュメンテーションと同期しているか、どの程度でドキュメンテーションを自動生成できるかを特定したいのです。 予備的な結果は、プロジェクト間での同期の度合いの変化を示し、統合された並行ドキュメントプラクティスの重要性を強調し、AIのような最近の技術が、どのようにしてLLM(Large Language Models)の形で利用され、コードとドキュメントの同期が保たれるかについての洞察を提供する。 この研究の斬新さは、コードの変更とドキュメントの更新を同期させることが、多様性と効率を向上させることで、開発ライフサイクルをいかに改善できるかを示すことである。

Code churn refers to the measure of the amount of code added, modified, or deleted in a project and is often used to assess codebase stability and maintainability. Program comprehension or how understandable the changes are, is equally important for maintainability. Documentation is crucial for knowledge transfer, especially when new maintainers take over abandoned code. We emphasize the need for corresponding documentation updates, as this reflects project health and trustworthiness as a third-party library. Therefore, we argue that every code change should prompt a documentation update (defined as documentation churn). Linking code churn changes with documentation updates is important for project sustainability, as it facilitates knowledge transfer and reduces the effort required for program comprehension. This study investigates the synchrony between code churn and documentation updates in three GitHub open-source projects. We will use qualitative analysis and repository mining to examine the alignment and correlation of code churn and documentation updates over time. We want to identify which code changes are likely synchronized with documentation and to what extent documentation can be auto-generated. Preliminary results indicate varying degrees of synchrony across projects, highlighting the importance of integrated concurrent documentation practices and providing insights into how recent technologies like AI, in the form of Large Language Models (i.e., LLMs), could be leveraged to keep code and documentation churn in sync. The novelty of this study lies in demonstrating how synchronizing code changes with documentation updates can improve the development lifecycle by enhancing diversity and efficiency.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# 相対論系における絡み合った量子軌道

Entangled quantum trajectories in relativistic systems ( http://arxiv.org/abs/2410.05995v1 )

ライセンス: Link先を確認
Yannick Noel Freitag, Julien Pinske, Jan Sperling, (参考訳) 量子絡み合い(quantum entanglement)は、量子技術の鍵となるリソースである。 このようなシナリオでは、克服すべき重要な課題は、異なる慣性フレームにおける2つ以上の量子粒子間の絡み合いを考えることである。 本稿では,この課題を克服する一貫した枠組みを提案する。 この目的のために、分解可能かつ絡み合った多時間軌道の概念を確立し、非絡み合い挙動の制約の下でオイラー-ラグランジュ方程式のクラスを導出する。 この制限された進化を運動方程式の解と比較すると、一般系の軌道に基づく絡み合いを調べることができる。 Klein-Gordon-typeセッティングにおける粒子の相互作用に関する方程式を解くことにより、絡み合いの動的および相対論的影響を自己整合的に定量化する。

Quantum entanglement is a key resource for quantum technologies, including emerging ground-to-satellite quantum communication. In such a scenario, an important challenge to be overcome is to consider entanglement between two or more quantum particles in different inertial frames, potentially experiencing relativistic effects affecting quantum correlations. In this paper, we present a consistent framework that overcomes this challenge. To this end, we establish the notion of factorizable and entangled multi-time trajectories and derive a class of Euler--Lagrange equations under the constraint of a non-entangling behavior. Comparing this restricted evolution to the solutions of the unrestricted equations of motion allows one to investigate the trajectory-based entanglement of general systems. We solve our equations for interacting particles in a Klein--Gordon-type setting, thereby quantifying the dynamic and relativistic impact of entanglement in a self-consistent manner.
翻訳日:2024-11-01 11:50:19 公開日:2024-10-08
# 耳の目:視覚分布アライメントを用いた画像キャプタを活用したゼロショットオーディオ記述

An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment ( http://arxiv.org/abs/2410.05997v1 )

ライセンス: Link先を確認
Hugo Malard, Michel Olvera, Stéphane Lathuiliere, Slim Essid, (参考訳) マルチモーダルな大言語モデルは画像キャプションの進歩を加速させた。 これらのモデルは、膨大な画像データセットに基づいて微調整され、セマンティックな概念を深く理解している。 本研究では,この機能を音声キャプションに応用し,共同画像言語デコーダを用いて音声視覚コンテンツを含むビデオ内の画像シーケンスに関連する聴覚コンテンツを記述できることを示す。 これはマルチモーダルアライメントによって達成できる。 しかし、このマルチモーダルアライメントタスクは、実世界のビデオにおける可聴性と可視性の間に固有の相違があるため、簡単ではない。 さらに、マルチモーダル表現学習は、しばしば対照的な学習に依存し、モダリティ間のスムーズな統合を妨げるいわゆるモダリティギャップの課題に直面している。 本研究では,音声バックボーンと画像キャプタのトークンの分布を一致させることにより,視覚的モダリティギャップを埋める新しい手法を提案する。 提案手法は,音声トークンの分布と画像トークンの分布とを一致させ,初期画像キャプションコンポーネントを変更せずにゼロショット音声キャプションを教師なしで実行可能にする。 このアライメントは、画像エンコーダとアライメントされたオーディオエンコーダを組み合わせて、オーディオまたはオーディオ視覚入力を使用することができる。 提案手法は,既存の手法と比較して,ゼロショット音声キャプションの性能を著しく向上させる。

Multimodal large language models have fueled progress in image captioning. These models, fine-tuned on vast image datasets, exhibit a deep understanding of semantic concepts. In this work, we show that this ability can be re-purposed for audio captioning, where the joint image-language decoder can be leveraged to describe auditory content associated with image sequences within videos featuring audiovisual content. This can be achieved via multimodal alignment. Yet, this multimodal alignment task is non-trivial due to the inherent disparity between audible and visible elements in real-world videos. Moreover, multimodal representation learning often relies on contrastive learning, facing the challenge of the so-called modality gap which hinders smooth integration between modalities. In this work, we introduce a novel methodology for bridging the audiovisual modality gap by matching the distributions of tokens produced by an audio backbone and those of an image captioner. Our approach aligns the audio token distribution with that of the image tokens, enabling the model to perform zero-shot audio captioning in an unsupervised fashion while keeping the initial image captioning component unaltered. This alignment allows for the use of either audio or audiovisual input by combining or substituting the image encoder with the aligned audio encoder. Our method achieves significantly improved performances in zero-shot audio captioning, compared to existing approaches.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# 大気乱流における構造光学場のスカイミオン数のロバスト性

The robustness of skyrmion numbers of structured optical fields in atmospheric turbulence ( http://arxiv.org/abs/2410.05999v1 )

ライセンス: Link先を確認
Liwen Wang, Sheng Liu, Geng Chen, Yongsheng Zhang, Chuanfeng Li, Guangcan Guo, (参考訳) ベクトル光学場の開発は、多くの応用をもたらした。 これらの光学場のうち、特定の種類のベクトル渦ビームが出現し、スカイミオン数によって特徴づけられる興味深い光スカイミオン場が出現する。 光スカイミオン場は、その有効磁化によってよく定義され、位相的に保護された構成を持つ。 このタイプの光学構造は, 乱流空気や光ファイバ, 一般のランダムメディアなどの摂動下であっても, 光通信における情報の符号化に利用することができると期待されている。 本研究では,その強度,位相,偏光パターンが歪んだとしても,光スカイミオン場のスカイミオン数が大気乱流に対して一定の強靭性を示すことを数値的に示す。 興味深いことに、ベクトル構造光場における2つのアジムタール指数の絶対値の差が、より優れたレジリエンスをもたらすことが観察された。 これらの性質は、スカイミオン場とその数の多元性を高めるだけでなく、ノイズのあるチャネルをまたいだ様々な用途で利用するための新たな可能性も開ける。

The development of vector optical fields has brought forth numerous applications. Among these optical fields, a particular class of vector vortex beams has emerged, leading to the emergence of intriguing optical skyrmion fields characterized by skyrmion numbers. The optical skyrmion fields are well-defined by their effective magnetization and possess topologically protected configurations. It is anticipated that this type of optical structure can be exploited for encoding information in optical communication, even under perturbations such as turbulent air, optical fibers, and even general random media. In this study, we numerically demonstrate that the skyrmion numbers of optical skyrmion fields exhibit a certain degree of robustness to atmospheric turbulence, even though their intensity, phase and polarization patterns are distorted. Intriguingly, it is also observed that a larger difference between the absolute values of two azimuthal indices of the vectorial structured light field can lead to a superior level of resilience. These properties not only enhance the versatility of skyrmion fields and their numbers, but also open up new possibilities for their use in various applications across noisy channels.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# TapType:ベイジアン推論による毎日の表面の10指テキスト入力

TapType: Ten-finger text entry on everyday surfaces via Bayesian inference ( http://arxiv.org/abs/2410.06001v1 )

ライセンス: Link先を確認
Paul Streli, Jiaxi Jiang, Andreas Fender, Manuel Meier, Hugo Romat, Christian Holz, (参考訳) タッチスクリーンの登場にもかかわらず、物理キーボードのタイピングはテキスト入力に最も効率的である。 モバイルやウェアラブルデバイスでのテキスト入力は、ユーザーがますますタイプするにつれて、フルサイズのタイピングに妥協しなければならなかった。 本稿では,実際のキーボードを使わずに受動面上でのフルサイズのタイピングを行うモバイルテキスト入力システムであるTapTypeを提案する。 バンド内の慣性センサーから、TapTypeは、表面タップと従来のQWERTYキーボードレイアウトをデコードして関連付ける。 本手法の主な特徴は,ベイズニューラルネットワーク分類器の指の確率を,n-gram言語モデルからの文字の事前確率と融合させることにより,最も可能性の高い文字列を予測することである。 オンライン評価では,30分後の文字誤り率0.6%で1分間平均19語を入力した。 これにより、専門家のタイピストは、同様のエラー率で25WPM以上を継続的に達成した。 我々はスマートフォンやタブレットのモバイル利用におけるTapTypeの応用を実演し、視覚制御外におけるMixed Realityのインタラクションを補完し、音声フィードバックのみのインタフェースを用いた目のないモバイルテキスト入力方法として紹介する。

Despite the advent of touchscreens, typing on physical keyboards remains most efficient for entering text, because users can leverage all fingers across a full-size keyboard for convenient typing. As users increasingly type on the go, text input on mobile and wearable devices has had to compromise on full-size typing. In this paper, we present TapType, a mobile text entry system for full-size typing on passive surfaces--without an actual keyboard. From the inertial sensors inside a band on either wrist, TapType decodes and relates surface taps to a traditional QWERTY keyboard layout. The key novelty of our method is to predict the most likely character sequences by fusing the finger probabilities from our Bayesian neural network classifier with the characters' prior probabilities from an n-gram language model. In our online evaluation, participants on average typed 19 words per minute with a character error rate of 0.6% after 30 minutes of training. Expert typists thereby consistently achieved more than 25 WPM at a similar error rate. We demonstrate applications of TapType in mobile use around smartphones and tablets, as a complement to interaction in situated Mixed Reality outside visual control, and as an eyes-free mobile text input method using an audio feedback-only interface.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# 連続運転における動作予測

Motion Forecasting in Continuous Driving ( http://arxiv.org/abs/2410.06007v1 )

ライセンス: Link先を確認
Nan Song, Bozhou Zhang, Xiatian Zhu, Li Zhang, (参考訳) 自律運転におけるエージェントの動作予測は、各エージェントの次のアクションと空間と時間における複雑な相互作用に対する多くの可能性のために、非常に難しい。 実際のアプリケーションでは、自動運転車が動くと、動きの予測が繰り返し繰り返されます。 しかし、既存の予測手法は、通常、各走行シーンを一定の範囲内で独立に処理し、連続する走行シーン間の状況的・文脈的関係を完全に無視する。 これは予測タスクを著しく単純化し、ソリューションを最適化し、実際に使用するのに非効率にする。 この基本的限界に対処するために,RealMotion という連続運転のための新しい動き予測フレームワークを提案する。 1)シーンのコンテキストストリームは、シーン要素間の時間的相互関係を捉えながら、現在までのシーン情報を段階的に蓄積する。 2) エージェント・トラジェクトリ・ストリームは過去の予測を逐次中継することで現在の予測を最適化する。 さらに、既存のベンチマークと実世界のアプリケーションとのギャップを狭めるために、当社のネットワークと整合したデータ再構成戦略が導入された。 これらのアプローチは、空間と時間にわたる動的運動の状況的および進歩的な洞察をより広く活用することを可能にする。 異なる設定のArgoverseシリーズの大規模な実験により、我々のRealMotionは、効率的な実世界の推論の利点とともに、最先端のパフォーマンスを達成することを示した。 ソースコードはhttps://github.com/fudan-zvg/RealMotion.comから入手できる。

Motion forecasting for agents in autonomous driving is highly challenging due to the numerous possibilities for each agent's next action and their complex interactions in space and time. In real applications, motion forecasting takes place repeatedly and continuously as the self-driving car moves. However, existing forecasting methods typically process each driving scene within a certain range independently, totally ignoring the situational and contextual relationships between successive driving scenes. This significantly simplifies the forecasting task, making the solutions suboptimal and inefficient to use in practice. To address this fundamental limitation, we propose a novel motion forecasting framework for continuous driving, named RealMotion. It comprises two integral streams both at the scene level: (1) The scene context stream progressively accumulates historical scene information until the present moment, capturing temporal interactive relationships among scene elements. (2) The agent trajectory stream optimizes current forecasting by sequentially relaying past predictions. Besides, a data reorganization strategy is introduced to narrow the gap between existing benchmarks and real-world applications, consistent with our network. These approaches enable exploiting more broadly the situational and progressive insights of dynamic motion across space and time. Extensive experiments on Argoverse series with different settings demonstrate that our RealMotion achieves state-of-the-art performance, along with the advantage of efficient real-world inference. The source code will be available at https://github.com/fudan-zvg/RealMotion.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# 知識グラフを用いたバイオインフォマティクスの問合せ-問合せ--方法論と応用

A large collection of bioinformatics question-query pairs over federated knowledge graphs: methodology and applications ( http://arxiv.org/abs/2410.06010v1 )

ライセンス: Link先を確認
Jerven Bolleman, Vincent Emonet, Adrian Altenhoff, Amos Bairoch, Marie-Claude Blatter, Alan Bridge, Severine Duvaud, Elisabeth Gasteiger, Dmitry Kuznetsov, Sebastien Moretti, Pierre-Andre Michel, Anne Morgat, Marco Pagni, Nicole Redaschi, Monique Zahn-Zabal, Tarcisio Mendes de Farias, Ana Claudia Sima, (参考訳) 背景。 過去数十年間、いくつかのライフサイエンスリソースは、同じフレームワークを使用してデータを構造化し、相互運用性を促進するために、同じクエリ言語を使用してそれらにアクセスできるようにした。 知識グラフは、汎用グラフフォーマットでデータを表現する利点から、バイオインフォマティクスの採用が増加している。 例えば、Yummydata.orgは60以上の知識グラフを技術的クエリ言語であるSPARQLを通じてカタログ化している。 SPARQLは、物理的に分散した知識グラフでさえ、強力な表現力のあるクエリを可能にするが、そのようなクエリを定式化することは、ほとんどのユーザにとって課題である。 したがって、ユーザに対して関連データの検索を指導するため、これらのリソースの多くは代表的な例を提供する。 これらの例は、もし十分な数のサンプルが提供され、異なるリソースにわたって共通の、機械可読で標準化されたフォーマットで公開された場合、機械学習にとって重要な情報源となる。 発見。 SIBスイスバイオインフォマティクス研究所(SIB Swiss Institute of Bioinformatics)のさまざまな研究グループで数年間に渡り収集された、連合生物インフォマティクス知識グラフ(KG)上の、人間の記述する自然言語質問とそれに対応するSPARQLクエリについて紹介する。 コレクションには、65のフェデレーションクエリを含む1000以上のサンプル質問とクエリが含まれている。 既存の標準に基づいて,サンプルを最小限のメタデータで一様に表現する手法を提案する。 さらに,提案手法を採用したKGメンテナが容易に再利用可能な,クエリグラフの可視化やスマートクエリエディタなど,幅広いオープンソースアプリケーションを紹介した。 結論。 我々はコミュニティに対して,提案手法の採用と拡張,KGメタデータの充実,セマンティックWebサービスの改善を奨励する。

Background. In the last decades, several life science resources have structured data using the same framework and made these accessible using the same query language to facilitate interoperability. Knowledge graphs have seen increased adoption in bioinformatics due to their advantages for representing data in a generic graph format. For example, yummydata.org catalogs more than 60 knowledge graphs accessible through SPARQL, a technical query language. Although SPARQL allows powerful, expressive queries, even across physically distributed knowledge graphs, formulating such queries is a challenge for most users. Therefore, to guide users in retrieving the relevant data, many of these resources provide representative examples. These examples can also be an important source of information for machine learning, if a sufficiently large number of examples are provided and published in a common, machine-readable and standardized format across different resources. Findings. We introduce a large collection of human-written natural language questions and their corresponding SPARQL queries over federated bioinformatics knowledge graphs (KGs) collected for several years across different research groups at the SIB Swiss Institute of Bioinformatics. The collection comprises more than 1000 example questions and queries, including 65 federated queries. We propose a methodology to uniformly represent the examples with minimal metadata, based on existing standards. Furthermore, we introduce an extensive set of open-source applications, including query graph visualizations and smart query editors, easily reusable by KG maintainers who adopt the proposed methodology. Conclusions. We encourage the community to adopt and extend the proposed methodology, towards richer KG metadata and improved Semantic Web services.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# SplaTraj:Semantic Gaussian Splattingによるカメラ軌道生成

SplaTraj: Camera Trajectory Generation with Semantic Gaussian Splatting ( http://arxiv.org/abs/2410.06014v1 )

ライセンス: Link先を確認
Xinyi Liu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi, (参考訳) ロボットが環境を表現するための最近の多くの開発は、フォトリアリスティックな再構築に焦点を当てている。 本稿では,ユーザ入力言語が与える命令にマッチする,フォトリアリスティックなガウススプラッティングモデルから画像のシーケンスを生成することに焦点を当てる。 本研究では,連続時間軌道最適化問題として,光現実的環境表現における画像生成を定式化した新しいフレームワークSplaTrajを提案する。 トラジェクティブポーズに続くカメラが環境をスムーズに横切るように設計され、指定された空間情報をフォトジェニックな方法でレンダリングする。 これは、ユーザが指定した入力に対応する分離された領域に言語を埋め込み、フォトリアリスティックな表現をクエリすることで実現される。 これらの領域は、時間が経つにつれてカメラの視点に投影され、コストがかかる。 次に、勾配に基づく最適化を適用し、レンダリングを通して差別化して、定義されたコストに対して軌道を最適化する。 結果として得られる軌道は、指定された対象のそれぞれをフォトジェニックに見るために動く。 本研究では,環境と命令の集合に対するアプローチを実証的に評価し,生成した画像シーケンスの品質を実証する。

Many recent developments for robots to represent environments have focused on photorealistic reconstructions. This paper particularly focuses on generating sequences of images from the photorealistic Gaussian Splatting models, that match instructions that are given by user-inputted language. We contribute a novel framework, SplaTraj, which formulates the generation of images within photorealistic environment representations as a continuous-time trajectory optimization problem. Costs are designed so that a camera following the trajectory poses will smoothly traverse through the environment and render the specified spatial information in a photogenic manner. This is achieved by querying a photorealistic representation with language embedding to isolate regions that correspond to the user-specified inputs. These regions are then projected to the camera's view as it moves over time and a cost is constructed. We can then apply gradient-based optimization and differentiate through the rendering to optimize the trajectory for the defined cost. The resulting trajectory moves to photogenically view each of the specified objects. We empirically evaluate our approach on a suite of environments and instructions, and demonstrate the quality of generated image sequences.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# チリの山火事における避難パターンと社会経済成層

Evacuation patterns and socioeconomic stratification in the context of wildfires in Chile ( http://arxiv.org/abs/2410.06017v1 )

ライセンス: Link先を確認
Timur Naushirvanov, Erick Elejalde, Kyriaki Kalimeri, Elisa Omodei, Márton Karsai, Leo Ferres, (参考訳) 気候変動によって山火事の頻度と強度が変化し、人間の移動と社会経済構造を混乱させる避難イベントが増加する。 これらの破壊は、資源、雇用、住宅へのアクセスに影響を与え、コミュニティ内の既存の脆弱性を増幅する。 気候変動、山火事、避難パターン、社会経済的要因の相互作用を理解することは、効果的な緩和と適応戦略の開発に不可欠である。 この課題に貢献するため,2024年2月2~3日の間にチリのバルパライソで発生した山火事において,避難パターンの分析に高精細な携帯電話記録を用いた。 このデータにより、被災地の個人の動きを追跡することができ、深刻な山火事の文脈で人々が大規模な避難にどう反応するかについての洞察を提供することができる。 本研究では,山火事時の避難行動の観察に回帰不連続性と差分差法を併用した因果推論手法を適用し,社会経済的成層化に着目した。 本手法により,災害前後の被災者の避難パターンを比較検討し,災害発生前後の傾向や不連続を考慮し,異なる社会経済集団に対する山火事の影響を分離することができる。 多くの人が家から一晩離れて過ごしており、最も低い社会経済セグメントの人々は最も長い時間離れていた。 概して避難時の移動距離を減らし,最低の社会経済集団は最小限に移動した。 当初、人々は急いで避難しようとしたが、最終的に同様の社会経済的な地位を持つ地域へと移動した。 以上の結果から,社会経済的差異が避難動態に果たす役割が示唆され,対応計画に有用な知見が得られた。

Climate change is altering the frequency and intensity of wildfires, leading to increased evacuation events that disrupt human mobility and socioeconomic structures. These disruptions affect access to resources, employment, and housing, amplifying existing vulnerabilities within communities. Understanding the interplay between climate change, wildfires, evacuation patterns, and socioeconomic factors is crucial for developing effective mitigation and adaptation strategies. To contribute to this challenge, we use high-definition mobile phone records to analyse evacuation patterns during the wildfires in Valpara\'iso, Chile, that took place between February 2-3, 2024. This data allows us to track the movements of individuals in the disaster area, providing insight into how people respond to large-scale evacuations in the context of severe wildfires. We apply a causal inference approach that combines regression discontinuity and difference-in-differences methodologies to observe evacuation behaviours during wildfires, with a focus on socioeconomic stratification. This approach allows us to isolate the impact of the wildfires on different socioeconomic groups by comparing the evacuation patterns of affected populations before and after the event, while accounting for underlying trends and discontinuities at the threshold of the disaster. We find that many people spent nights away from home, with those in the lowest socioeconomic segment stayed away the longest. In general, people reduced their travel distance during the evacuation, and the lowest socioeconomic group moved the least. Initially, movements became more random, as people sought refuge in a rush, but eventually gravitated towards areas with similar socioeconomic status. Our results show that socioeconomic differences play a role in evacuation dynamics, providing useful insights for response planning.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-08
# 入力マニフォールド探索による変圧器の解離知覚

Unveiling Transformer Perception by Exploring Input Manifolds ( http://arxiv.org/abs/2410.06019v1 )

ライセンス: Link先を確認
Alessandro Benfenati, Alfio Ferrara, Alessio Marta, Davide Riva, Elisabetta Rocchetti, (参考訳) 本稿ではトランスフォーマーモデルの入力空間における同値クラスの探索法を提案する。 提案手法は、トランスフォーマーアーキテクチャの内部層を入力多様体の逐次変形として記述する音響数学的理論に基づいている。 モデルのヤコビアンを通して出力空間上で定義される距離計量の引き戻しの固有分解を用いて、入力空間における同値類を再構成し、それらをナビゲートすることができる。 本稿では,トランスフォーマーが入力空間をどのように見るかを調べるための強力なツールとして,コンピュータビジョンおよび自然言語処理タスクにおける局所的およびタスクに依存しない説明性を実現する方法について述べる。

This paper introduces a general method for the exploration of equivalence classes in the input space of Transformer models. The proposed approach is based on sound mathematical theory which describes the internal layers of a Transformer architecture as sequential deformations of the input manifold. Using eigendecomposition of the pullback of the distance metric defined on the output space through the Jacobian of the model, we are able to reconstruct equivalence classes in the input space and navigate across them. We illustrate how this method can be used as a powerful tool for investigating how a Transformer sees the input space, facilitating local and task-agnostic explainability in Computer Vision and Natural Language Processing tasks.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# QT-DoG:領域一般化のための量子化対応トレーニング

QT-DoG: Quantization-aware Training for Domain Generalization ( http://arxiv.org/abs/2410.06020v1 )

ライセンス: Link先を確認
Saqib Javed, Hieu Le, Mathieu Salzmann, (参考訳) ドメイン一般化(Domain Generalization, DG)は、トレーニング(ソース)ドメインだけでなく、新しい、目に見えないターゲットデータ分布でもうまく機能するモデルを訓練することを目的としている。 DGの重要な課題は、ソースドメインへの過度な適合を防止することだ。 そこで本研究では,QT-DoG(Quantization-Aware Training for Domain Generalization)を提案する。 モデル圧縮に焦点を当てた従来の量子化法とは異なり、QT-DoGは、モデル重み付けのノイズを誘導し、摂動や過度適合に敏感でないフラットなミニマに向けて最適化プロセスを導くことで、暗黙の正則化として量子化を利用する。 我々は、量子化が本質的により平坦なミニマムを促進し、ドメイン間のより良い一般化をもたらすことを示す理論的洞察と経験的証拠の両方を提供する。 さらに、量子化によるモデルサイズ削減の利点により、複数の量子化モデルのアンサンブルが、計算やメモリオーバーヘッドのない最先端のDGアプローチよりも精度が高いことを示す。 我々の広範な実験は、QT-DoGが様々なデータセット、アーキテクチャ、量子化アルゴリズムにまたがって一般化し、他のDG手法と組み合わせて、その汎用性と堅牢性を確立することを実証している。

Domain Generalization (DG) aims to train models that perform well not only on the training (source) domains but also on novel, unseen target data distributions. A key challenge in DG is preventing overfitting to source domains, which can be mitigated by finding flatter minima in the loss landscape. In this work, we propose Quantization-aware Training for Domain Generalization (QT-DoG) and demonstrate that weight quantization effectively leads to flatter minima in the loss landscape, thereby enhancing domain generalization. Unlike traditional quantization methods focused on model compression, QT-DoG exploits quantization as an implicit regularizer by inducing noise in model weights, guiding the optimization process toward flatter minima that are less sensitive to perturbations and overfitting. We provide both theoretical insights and empirical evidence demonstrating that quantization inherently encourages flatter minima, leading to better generalization across domains. Moreover, with the benefit of reducing the model size through quantization, we demonstrate that an ensemble of multiple quantized models further yields superior accuracy than the state-of-the-art DG approaches with no computational or memory overheads. Our extensive experiments demonstrate that QT-DoG generalizes across various datasets, architectures, and quantization algorithms, and can be combined with other DG methods, establishing its versatility and robustness.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# 残留計算のジェット膨張

Jet Expansions of Residual Computation ( http://arxiv.org/abs/2410.06024v1 )

ライセンス: Link先を確認
Yihong Chen, Xiangxiang Xu, Yao Lu, Pontus Stenetorp, Luca Franceschi, (参考訳) 本稿では, トラッピングされたテイラー級数を一般化するジェット演算子を用いて, 残差計算グラフを拡張するためのフレームワークを提案する。 提案手法は,様々な計算経路のコントリビューションをアンタングルしてモデル予測を行うための体系的なアプローチを提供する。 蒸留、探索、早期復号化といった既存の技術とは対照的に、我々の拡張はモデル自体にのみ依存しており、モデルからのデータ、トレーニング、サンプリングを必要としない。 我々は,我々のフレームワークがロジットレンズを接地し,また,再帰的残差深さにおける(超)指数パス構造を明らかにし,いくつかの応用を開放する様子を実証する。 その中には、その計算から抽出された$n$-gramの統計値を持つトランスフォーマーの大きな言語モデルのスケッチや、モデルの毒性に関する知識のレベルをインデックス化することが含まれる。 本手法はモデル解釈可能性, 開発, 評価のための残差計算のデータフリー解析を可能にする。

We introduce a framework for expanding residual computational graphs using jets, operators that generalize truncated Taylor series. Our method provides a systematic approach to disentangle contributions of different computational paths to model predictions. In contrast to existing techniques such as distillation, probing, or early decoding, our expansions rely solely on the model itself and requires no data, training, or sampling from the model. We demonstrate how our framework grounds and subsumes logit lens, reveals a (super-)exponential path structure in the recursive residual depth and opens up several applications. These include sketching a transformer large language model with $n$-gram statistics extracted from its computations, and indexing the models' levels of toxicity knowledge. Our approach enables data-free analysis of residual computation for model interpretability, development, and evaluation.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# SpecTrack: スペックルイメージングによるマルチ回転追跡の学習

SpecTrack: Learned Multi-Rotation Tracking via Speckle Imaging ( http://arxiv.org/abs/2410.06028v1 )

ライセンス: Link先を確認
Ziyang Chen, Mustafa Doğa Doğan, Josef Spjut, Kaan Akşit, (参考訳) 精密ポーズ検出は、正確な位置情報を確保する上で重要な役割を担っているため、パーソナルメイキング、バーチャルリアリティ(VR)、ロボット工学などの分野でますます求められている。 しかしながら、これらのシステムで使用される従来の視覚ベースのシステムは、特に複雑な環境や高速移動物体を扱う場合、高い精度と精度を達成するのに苦労することが多い。 これらの制約に対処するために、ポーズ推定精度を向上させるための有望なポテンシャルを提供する新しい光追跡法であるレーザースペックルイメージング(LSI)について検討する。 具体的には、レンズレスカメラとレトロレフレクタマーカーと符号化開口部を併用したLSIベースのトラッキング(SpecTrack)を用いて、高精度な多軸回転ポーズ推定を実現する。 社内で構築したテストベッドを用いた大規模な試験では、SpecTrackは0.31{\deg}(std=0.43{\deg})の精度を達成し、最先端のアプローチを著しく上回り、精度を最大200%向上することを示した。

Precision pose detection is increasingly demanded in fields such as personal fabrication, Virtual Reality (VR), and robotics due to its critical role in ensuring accurate positioning information. However, conventional vision-based systems used in these systems often struggle with achieving high precision and accuracy, particularly when dealing with complex environments or fast-moving objects. To address these limitations, we investigate Laser Speckle Imaging (LSI), an emerging optical tracking method that offers promising potential for improving pose estimation accuracy. Specifically, our proposed LSI-Based Tracking (SpecTrack) leverages the captures from a lensless camera and a retro-reflector marker with a coded aperture to achieve multi-axis rotational pose estimation with high precision. Our extensive trials using our in-house built testbed have shown that SpecTrack achieves an accuracy of 0.31{\deg} (std=0.43{\deg}), significantly outperforming state-of-the-art approaches and improving accuracy up to 200%.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# Unclonable Functional Encryption

Unclonable Functional Encryption ( http://arxiv.org/abs/2410.06029v1 )

ライセンス: Link先を確認
Arthur Mehta, Anne Müller, (参考訳) 関数暗号(FE)方式では、暗号文と関数キーを保持するユーザは、その関数を平文メッセージに適用した結果を学ぶことができる。 セキュリティは、ユーザが関数評価以外のことを学ばないことを要求する。 一方、制限不能暗号化(UE)はユニークな量子プリミティブであり、敵が同じメッセージを複数回復号するために暗号文を複製できないことを保証している。 この研究では、共に FE の概念を量子設定に拡張し、UE の非拘束的セキュリティも持つ、非拘束型量子関数暗号(英語版) (UFE) を導入している。 任意の量子メッセージと多項式サイズの回路をサポートするUFEの構成を行い、独立にサンプリングされた関数キーに対して、識別不能なセキュリティを実現する。 特に、我々のUFEは、2つの独立サンプリングされた関数キーを使用して2つのパーティが同時に正しい関数出力を復元できないことを保証します。 我々の構成は、[BY22] と[AKY24] を組み合わせ、[Hir+23] の平文展開引数からのテクニックを活用する。 アプリケーションとして、可変復号鍵を持つ公開鍵UEの最初の構成を提供する。 最後に、量子不特定性難読化(qiO)と量子汎関数暗号(QFE)の接続を確立する。

In a functional encryption (FE) scheme, a user that holds a ciphertext and a function-key can learn the result of applying the function to the plaintext message. Security requires that the user does not learn anything beyond the function evaluation. On the other hand, unclonable encryption (UE) is a uniquely quantum primitive, which ensures that an adversary cannot duplicate a ciphertext to decrypt the same message multiple times. In this work we introduce unclonable quantum functional encryption (UFE), which both extends the notion of FE to the quantum setting and also possesses the unclonable security of UE. We give a construction for UFE that supports arbitrary quantum messages and polynomialy-sized circuit, and achieves unclonable-indistinguishable security for independently sampled function keys. In particular, our UFE guarantees that two parties cannot simultaneously recover the correct function outputs using two independently sampled function keys. Our construction combines quantum garbled circuits [BY22], and quantum-key unclonable encryption [AKY24], and leverages techniques from the plaintext expansion arguments in [Hir+23]. As an application we give the first construction for public-key UE with variable decryption keys. Lastly, we establish a connection between quantum indistinguishability obfuscation (qiO) and quantum functional encryption (QFE); Showing that any multi-input indistinguishability-secure quantum functional encryption scheme unconditionally implies the existence of qiO.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# 脆弱性検出データセットにおけるデータ品質問題

Data Quality Issues in Vulnerability Detection Datasets ( http://arxiv.org/abs/2410.06030v1 )

ライセンス: Link先を確認
Yuejun Guo, Seifeddine Bettaieb, (参考訳) 脆弱性検出は、サイバーセキュリティのためのソフトウェアの潜在的な弱点を特定する上で、極めて難しいタスクである。 近年,ディープラーニング(DL)は検出プロセスの自動化に大きな進歩を遂げている。 複雑な多層構造と多数のパラメータのため、DLモデルは脆弱性のあるコードとセキュアなコードの区別を効果的に行うために、大量のラベル付きソースコードを必要とする。 文献では、この目的のためにDLモデルをトレーニングするために多くのデータセットが作成されています。 しかし、これらのデータセットは、DLモデルの検出精度の低下につながるいくつかの問題に悩まされる。 本稿では,データ不均衡,低脆弱性カバレッジ,バイアス付き脆弱性分布という3つの重要な問題と,その性能にも影響するが専用の前処理手順によって対処できる3つの二次問題(ソースコードの誤り,ラベルの誤り,ノイズの多い履歴データ)を定義する。 さらに、14の論文と54のデータセットを用いて脆弱性検出を行い、これらの定義された問題を確認する。 さらに、既存のデータセットを使用し、新しいデータセットを作成するための優れたプラクティスについても論じる。

Vulnerability detection is a crucial yet challenging task to identify potential weaknesses in software for cyber security. Recently, deep learning (DL) has made great progress in automating the detection process. Due to the complex multi-layer structure and a large number of parameters, a DL model requires massive labeled (vulnerable or secure) source code to gain knowledge to effectively distinguish between vulnerable and secure code. In the literature, many datasets have been created to train DL models for this purpose. However, these datasets suffer from several issues that will lead to low detection accuracy of DL models. In this paper, we define three critical issues (i.e., data imbalance, low vulnerability coverage, biased vulnerability distribution) that can significantly affect the model performance and three secondary issues (i.e., errors in source code, mislabeling, noisy historical data) that also affect the performance but can be addressed through a dedicated pre-processing procedure. In addition, we conduct a study of 14 papers along with 54 datasets for vulnerability detection to confirm these defined issues. Furthermore, we discuss good practices to use existing datasets and to create new ones.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# 高調波発生における光ホップイオンの形成と制御

Formation and Controlling of Optical Hopfions in High Harmonic Generation ( http://arxiv.org/abs/2410.06032v1 )

ライセンス: Link先を確認
Zijian Lyu, Yiqi Fang, Yunquan Liu, (参考訳) トロイダル渦(英: Toroidal vortex)は、フォトニックトポロジと量子情報に潜在的な応用を持つ、新規でエキゾチックな構造光の一種である。 本稿では,強いトロイダル渦と原子との相互作用から高調波発生(HHG)を研究する。 本研究では,高次トロイダル渦の一種である高調波スペクトルの空間分布が,逆軌道角運動量を持つ運動場を回転させることにより,一意構造を呈することを示す。 次に、トロイダル渦と光渦を長手軌道角運動量で合成することにより、極紫外線(EUV)範囲で光ホップイオンを生成できることを示す。 さらに、スピン角運動量選択規則を遵守することにより、位相的テクスチャを制御でき、各ハーモニックを単一の制御可能なホップ不変量に流すことができることを示す。

Toroidal vortex is a kind of novel and exotic structured light with potential applications in photonic topology and quantum information. Here, we present the study on high harmonic generation (HHG) from the interaction of the intense toroidal vortices with atoms. We show that the spatial distribution of harmonic spectra reveal unique structures, which are kinds of high-order topological toroidal vortex because of the rotating of the driving fields with transverse orbital angular momentum. Then we show that, by synthesizing the toroidal vortices and optical vortices with longitudinal orbital angular momentum, it is able to generate the optical hopfions in extreme ultraviolet (EUV) range, which exhibit completely different topological property compared with both the driving fields. Harnessing the spin angular momentum selection rules, we further show that one can control the topological texture and channel each harmonic into a single mode of controllable Hopf invariant.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# QERA:量子化エラー再構成のための分析フレームワーク

QERA: an Analytical Framework for Quantization Error Reconstruction ( http://arxiv.org/abs/2410.06040v1 )

ライセンス: Link先を確認
Cheng Zhang, Jeffrey T. H. Wong, Can Xiao, George A. Constantinides, Yiren Zhao, (参考訳) 大規模言語モデル(LLM)のパラメータや計算要求の数の増加は、その効率的なデプロイに重大な課題をもたらしている。 近年、重みを極端に高精度に定量化することへの関心が高まっており、その結果の誤差を低ランクで高精度な誤り再構成項で相殺している。 量子化と低ランク近似の組み合わせは、LoftQのようなアダプタベースのパラメータ効率の高い微調整法とZeroQuant-V2のような低精度推論技術の両方で人気がある。 通常、低ランク項はウェイト量子化誤差の特異値分解(SVD)によって計算され、フロベニウスとウェイト近似誤差のスペクトルノルムを最小化する。 LQ-LoRAやLQERのような最近の手法は、重みよりも層出力(アクティベーション)の誤差を最小限に抑えるために手作りのヒューリスティックを導入し、量子化結果を改善した。 しかし、これらのヒューリスティックな手法は量子化誤差再構成項の設計を導くための解析的な解決策を欠いている。 本稿では,この問題を再検討し,量子化誤り再構成解析 (QERA) という解析的枠組みを定式化し,その問題に対するクローズドフォームな解法を提案する。 QERA は LoftQ と比較して GLUE 上の 2-bit RoBERTa-base の $\Delta_{\text{acc}}$ = 6.05% の微調整精度を達成し、ZeroQuant-V2 と $\Delta_{\text{ppl}}$ = 0.28 よりも平均 4-bit Llama-3.1-70B のトレーニング後量子化精度を平均して $\Delta_{\text{acc}}$ = 2.97% 高い値を得る。

he growing number of parameters and computational demands of large language models (LLMs) present significant challenges for their efficient deployment. Recently, there is an increasing interest in quantizing weights to extremely low precision while offsetting the resulting error with low-rank, high-precision error reconstruction terms. The combination of quantization and low-rank approximation is now popular in both adapter-based, parameter-efficient fine-tuning methods such as LoftQ and low-precision inference techniques including ZeroQuant-V2. Usually, the low-rank terms are calculated via the singular value decomposition (SVD) of the weight quantization error, minimizing the Frobenius and spectral norms of the weight approximation error. Recent methods like LQ-LoRA and LQER introduced hand-crafted heuristics to minimize errors in layer outputs (activations) rather than weights, resulting improved quantization results. However, these heuristic methods lack an analytical solution to guide the design of quantization error reconstruction terms. In this paper, we revisit this problem and formulate an analytical framework, named Quantization Error Reconstruction Analysis (QERA), and offer a closed-form solution to the problem. We show QERA benefits both existing low-precision fine-tuning and inference methods -- QERA achieves a fine-tuned accuracy gain of $\Delta_{\text{acc}}$ = 6.05% of 2-bit RoBERTa-base on GLUE compared to LoftQ; and obtains $\Delta_{\text{acc}}$ = 2.97% higher post-training quantization accuracy of 4-bit Llama-3.1-70B on average than ZeroQuant-V2 and $\Delta_{\text{ppl}}$ = - 0.28 lower perplexity on WikiText2 than LQER.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# 低次元グラフ表現のための重み付き埋め込み

Weighted Embeddings for Low-Dimensional Graph Representation ( http://arxiv.org/abs/2410.06042v1 )

ライセンス: Link先を確認
Thomas Bläsius, Jean-Pierre von der Heydt, Maximilian Katzmann, Nikolai Maas, (参考訳) 記号データから低次元の数値表現(例えばグラフのノードを幾何学空間に埋め込む)を学習することは、機械学習において重要な概念である。 ユークリッド空間への埋め込みは一般的であるが、近年の観測により、双曲幾何学は階層的な情報や不均一なデータ(例えば、スケールフリーな次数分布を持つグラフ)を表現するのに適していることが示されている。 より正確な表現の可能性にもかかわらず、双曲的埋め込みはより計算が難しく、下流タスクでの使用が難しいといった欠点もある。 双曲幾何学と密接に関連するが数学的には単純である重み付き空間への埋め込みを提案する。 我々は、生成した2000以上の実世界のグラフをベースとした埋め込みアルゴリズムWEmbedと実証を行い、重み付けされた埋め込みは、より少ない次元のユークリッドグラフに対する最先端のユークリッド埋め込みよりも優れていることを示した。 WEmbedの実行時間と残りのインスタンスの埋め込み品質は、最先端のユークリッド埋め込みと同等である。

Learning low-dimensional numerical representations from symbolic data, e.g., embedding the nodes of a graph into a geometric space, is an important concept in machine learning. While embedding into Euclidean space is common, recent observations indicate that hyperbolic geometry is better suited to represent hierarchical information and heterogeneous data (e.g., graphs with a scale-free degree distribution). Despite their potential for more accurate representations, hyperbolic embeddings also have downsides like being more difficult to compute and harder to use in downstream tasks. We propose embedding into a weighted space, which is closely related to hyperbolic geometry but mathematically simpler. We provide the embedding algorithm WEmbed and demonstrate, based on generated as well as over 2000 real-world graphs, that our weighted embeddings heavily outperform state-of-the-art Euclidean embeddings for heterogeneous graphs while using fewer dimensions. The running time of WEmbed and embedding quality for the remaining instances is on par with state-of-the-art Euclidean embedders.
翻訳日:2024-11-01 11:30:40 公開日:2024-10-08
# HyperDet: ハイパーロラの混合生成とマージによる合成画像の一般化可能な検出

HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs ( http://arxiv.org/abs/2410.06044v1 )

ライセンス: Link先を確認
Huangsen Cao, Yongwei Wang, Yinfeng Liu, Sixian Zheng, Kangtao Lv, Zhimeng Zhang, Bo Zhang, Xin Ding, Fei Wu, (参考訳) 多様な生成視覚モデルの出現により、視覚的にリアルな画像の合成が可能となり、これらの生成画像を実画像から効果的に検出する必要性が強調された。 この分野での進歩にもかかわらず、既存の検出手法は、異なる生成モデルによって生成された合成画像の正確な識別に苦慮することが多い。 本研究では,機能的に異なる軽量な専門家検出器のコレクションから共有知識を革新的にキャプチャし,統合するHyperDetという,新規で一般化可能な検出フレームワークを紹介する。 HyperDetは、大規模な事前訓練された視覚モデルを利用して、タスク固有の機能を同時にキャプチャし、拡張しながら、一般的な検出機能を抽出する。 これを実現するために、HyperDetはまずSRMフィルタを5つの異なるグループに分類し、異なる機能と複雑さに基づいて、さまざまなピクセルアーティファクトを効率的にキャプチャする。 次に、HyperDetはハイパーネットワークを使用して、異なる埋め込みパラメータを持つLoRAモデルウェイトを生成する。 最後に、LoRAネットワークをマージして効率的なモデルアンサンブルを形成する。 また,画素とセマンティックアーティファクトを効果的にバランスさせる目的関数を提案する。 UnivFDとFake2Mデータセットの大規模な実験により、我々のアプローチの有効性が実証され、最先端のパフォーマンスが達成された。 さらに,本研究は,事前学習された大規模視覚モデルに基づいて,一般化可能な領域固有の偽画像検出器を確立するための新しい方法である。

The emergence of diverse generative vision models has recently enabled the synthesis of visually realistic images, underscoring the critical need for effectively detecting these generated images from real photos. Despite advances in this field, existing detection approaches often struggle to accurately identify synthesized images generated by different generative models. In this work, we introduce a novel and generalizable detection framework termed HyperDet, which innovatively captures and integrates shared knowledge from a collection of functionally distinct and lightweight expert detectors. HyperDet leverages a large pretrained vision model to extract general detection features while simultaneously capturing and enhancing task-specific features. To achieve this, HyperDet first groups SRM filters into five distinct groups to efficiently capture varying levels of pixel artifacts based on their different functionality and complexity. Then, HyperDet utilizes a hypernetwork to generate LoRA model weights with distinct embedding parameters. Finally, we merge the LoRA networks to form an efficient model ensemble. Also, we propose a novel objective function that balances the pixel and semantic artifacts effectively. Extensive experiments on the UnivFD and Fake2M datasets demonstrate the effectiveness of our approach, achieving state-of-the-art performance. Moreover, our work paves a new way to establish generalizable domain-specific fake image detectors based on pretrained large vision models.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# 変圧器から有限状態機械を抽出する

Extracting Finite State Machines from Transformers ( http://arxiv.org/abs/2410.06045v1 )

ライセンス: Link先を確認
Rik Adriaensen, Jaron Maene, (参考訳) ディープラーニングにおけるトランスフォーマーアーキテクチャの人気に支えられ、いくつかの研究でトランスフォーマーがどのような形式言語を学べるかが研究されている。 それでも、既存の結果の比較は困難であり、正規言語におけるトランスフォーマーの訓練性に関する詳細な理解はいまだに不足している。 機械的解釈可能性の観点から正規言語で訓練された変換器について検討する。 L^*$アルゴリズムの拡張を用いて変換器からムーアマシンを抽出する。 有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。 さらに、機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。 しかし,注意機構の飽和により,判定シンボルが誤認識される場合も確認する。

Fueled by the popularity of the transformer architecture in deep learning, several works have investigated what formal languages a transformer can learn. Nonetheless, existing results remain hard to compare and a fine-grained understanding of the trainability of transformers on regular languages is still lacking. We investigate transformers trained on regular languages from a mechanistic interpretability perspective. Using an extension of the $L^*$ algorithm, we extract Moore machines from transformers. We empirically find tighter lower bounds on the trainability of transformers, when a finite number of symbols determine the state. Additionally, our mechanistic insight allows us to characterise the regular languages a one-layer transformer can learn with good length generalisation. However, we also identify failure cases where the determining symbols get misrecognised due to saturation of the attention mechanism.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# U(1)対称性破壊リドバーグ原子系におけるヒッグスモードとゴールドストーンモードの観測

Observation of Higgs and Goldstone modes in U(1) symmetry-broken Rydberg atomic systems ( http://arxiv.org/abs/2410.06047v1 )

ライセンス: Link先を確認
Bang Liu, Li-Hua Zhang, Ya-Jun Wang, Jun Zhang, Qi-Feng Wang, Yu Ma, Tian-Yu Han, Zheng-Yuan Zhang, Shi-Yao Shao, Qing Li, Han-Chao Chen, Jia-Dou Nan, Dong-Yang Zhu, Yi-Ming Yin, Bao-Sen Shi, Dong-Sheng Ding, (参考訳) ヒッグスモードとゴールドストーンモードは系の秩序パラメータの揺らぎとして現れ、その相転移と対称性の性質に関する洞察を提供する。 リュードベルク原子系におけるこれらの集合励起のダイナミクスを探索し、凝縮物質、粒子物理学、宇宙論の様々な分野を前進させる。 本稿では,U(1)対称性を損なうRydberg原子気体におけるヒッグスモードとゴールドストーンモードの実験的なシグネチャを報告する。 2つのプローブ場を構築して原子を励起することにより、Rydberg原子の異なる位相と振幅変動を粒子-ホール対称性の下で観測する。 ライドベルク原子間のファンデルワールス相互作用により、分岐状態と位相境界で分割された対称分散スペクトルを検出し、追加のヒッグスモードとゴールドストーンモードのフルダイナミクスを捉える。 ライドバーグ原子におけるヒッグスモードとゴールドストーンモードの研究により、量子相転移と対称性の破れ現象の基本的な側面を探求できると同時に、これらの高度に相互作用するシステムのユニークな性質を活用して、新しい物理学と量子シミュレーションへの応用の可能性を明らかにすることができる。

Higgs and Goldstone modes manifest as fluctuations in the order parameter of system, offering insights into its phase transitions and symmetry properties. Exploring the dynamics of these collective excitations in a Rydberg atoms system advances various branches of condensed matter, particle physics, and cosmology. Here, we report an experimental signature of Higgs and Goldstone modes in a U(1) symmetry-broken Rydberg atomic gases. By constructing two probe fields to excite atoms, we observe the distinct phase and amplitude fluctuations of Rydberg atoms collective excitations under the particle-hole symmetry. Due to the van der Waals interactions between the Rydberg atoms, we detect a symmetric variance spectrum divided by the divergent regime and phase boundary, capturing the full dynamics of the additional Higgs and Goldstone modes. Studying the Higgs and Goldstone modes in Rydberg atoms allows us to explore fundamental aspects of quantum phase transitions and symmetry breaking phenomena, while leveraging the unique properties of these highly interacting systems to uncover new physics and potential applications in quantum simulation.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# Gaussianベースとアウトサイド・ザ・ボックスのランタイム監視が協力

Gaussian-Based and Outside-the-Box Runtime Monitoring Join Forces ( http://arxiv.org/abs/2410.06051v1 )

ライセンス: Link先を確認
Vahid Hashemi, Jan Křetínský, Sabine Rieder, Torsten Schön, Jan Vorhoff, (参考訳) ニューラルネットワークは信頼性が高くても誤った予測をすることができるため、特に自律運転のような安全クリティカルな領域では、実行時の動作を監視することが重要である。 本稿では,隠れニューロンの活性化値の観測に基づく従来のモニタリング手法の考え方を組み合わせる。 特に、計測された各ニューロンの現在の値が、トレーニング中に観察される典型的な値に類似しているかどうかを観察するガウス的アプローチと、許容される活性化値のクラスタを生成するOutside-the-Boxモニターを組み合わせることで、ニューロンの値の相関を考察する。 我々の実験は達成された改善を評価した。

Since neural networks can make wrong predictions even with high confidence, monitoring their behavior at runtime is important, especially in safety-critical domains like autonomous driving. In this paper, we combine ideas from previous monitoring approaches based on observing the activation values of hidden neurons. In particular, we combine the Gaussian-based approach, which observes whether the current value of each monitored neuron is similar to typical values observed during training, and the Outside-the-Box monitor, which creates clusters of the acceptable activation values, and, thus, considers the correlations of the neurons' values. Our experiments evaluate the achieved improvement.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# AP-LDM: 学習不要高分解能画像生成のための注意・進行遅延拡散モデル

AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation ( http://arxiv.org/abs/2410.06055v1 )

ライセンス: Link先を確認
Boyuan Cao, Jiaxin Ye, Yujie Wei, Hongming Shan, (参考訳) 安定拡散のような潜時拡散モデル(LDM)は、しばしば、元のトレーニング解像度を超える高解像度(HR)画像を直接生成する際に、重要な構造歪みを経験する。 直接的で費用対効果の高い解決策は、HR画像生成のために事前訓練されたLCMを適用することであるが、既存の手法では画像品質の低下と長時間の推測に悩まされることが多い。 本稿では,HR画像の品質向上を目的とした新しい学習自由フレームワークであるAttentive and Progressive LDM(AP-LDM)を提案する。 AP-LDMはLDMの分解過程を2段階に分解する。 一 注意深い訓練の質疑応答、及び (II)進行性高分解能デノナイジング。 第1段階は、新しいパラメータフリー自己保持機構を用いて、構造的整合性を高めることによって、高品質なトレーニング解像度画像の潜時表現を生成する。 第2段階は徐々に画素空間でのアップサンプリングを行い、潜在空間のアップサンプリングによって引き起こされる深刻なアーティファクトを緩和する。 第1段階から効果的な初期化を活用すれば、ステップが大幅に少ない高分解能での分解が可能となり、全体的な効率が向上する。 大規模な実験結果から,AP-LDMは最先端の手法を著しく上回り,HR画像生成の最大5倍の高速化を実現し,現実世界のアプリケーションにおいてその大きな利点を浮き彫りにした。 コードはhttps://github.com/kmittle/AP-LDM.comで入手できる。

Latent diffusion models (LDMs), such as Stable Diffusion, often experience significant structural distortions when directly generating high-resolution (HR) images that exceed their original training resolutions. A straightforward and cost-effective solution is to adapt pre-trained LDMs for HR image generation; however, existing methods often suffer from poor image quality and long inference time. In this paper, we propose an Attentive and Progressive LDM (AP-LDM), a novel, training-free framework aimed at enhancing HR image quality while accelerating the generation process. AP-LDM decomposes the denoising process of LDMs into two stages: (i) attentive training-resolution denoising, and (ii) progressive high-resolution denoising. The first stage generates a latent representation of a higher-quality training-resolution image through the proposed attentive guidance, which utilizes a novel parameter-free self-attention mechanism to enhance the structural consistency. The second stage progressively performs upsampling in pixel space, alleviating the severe artifacts caused by latent space upsampling. Leveraging the effective initialization from the first stage enables denoising at higher resolutions with significantly fewer steps, enhancing overall efficiency. Extensive experimental results demonstrate that AP-LDM significantly outperforms state-of-the-art methods, delivering up to a 5x speedup in HR image generation, thereby highlighting its substantial advantages for real-world applications. Code is available at https://github.com/kmittle/AP-LDM.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# 2成分混合系の特性予測のための階層行列補完

Hierarchical Matrix Completion for the Prediction of Properties of Binary Mixtures ( http://arxiv.org/abs/2410.06060v1 )

ライセンス: Link先を確認
Dominik Gond, Jan-Tobias Sohns, Heike Leitte, Hans Hasse, Fabian Jirasek, (参考訳) 混合物の熱力学特性の予測は化学工学におけるプロセス設計と最適化に不可欠である。 この分野では機械学習(ML)手法が注目されているが、トレーニングのための実験データはほとんどない。 本研究では、データ駆動モデルを改善するための新しい汎用的アプローチを紹介する。これは、古来の規則「similia similibus solvuntur」にインスパイアされた、化学クラスに類似した振る舞いをするコンポーネントを、階層的アプローチの第一段階において共同でモデル化する。 クラスアフィリエイトに関する情報は原則として任意のソースから得られるが,アグリメティブクラスタリングによって混合データのみに基づいてクラスを再現的に定義する方法を実証する。 このクラスタリングステップからの情報は、個々のデータに適合するための情報事前として使用される。 本稿では, 2成分混合系の無限希釈における等温活性係数を予測するために, 行列完備化法(MCM)と組み合わせて適用することで, このアプローチの利点を実証する。 クラスタリングを使用すると、クラスタリングなしのCMに比べて予測が大幅に改善される。 さらに、クラスタリングから学んだ化学クラスは、与えられた混合特性をモデル化するために分子レベルに何が重要なのか、エキサイティングな洞察を与える。

Predicting the thermodynamic properties of mixtures is crucial for process design and optimization in chemical engineering. Machine learning (ML) methods are gaining increasing attention in this field, but experimental data for training are often scarce, which hampers their application. In this work, we introduce a novel generic approach for improving data-driven models: inspired by the ancient rule "similia similibus solvuntur", we lump components that behave similarly into chemical classes and model them jointly in the first step of a hierarchical approach. While the information on class affiliations can stem in principle from any source, we demonstrate how classes can reproducibly be defined based on mixture data alone by agglomerative clustering. The information from this clustering step is then used as an informed prior for fitting the individual data. We demonstrate the benefits of this approach by applying it in connection with a matrix completion method (MCM) for predicting isothermal activity coefficients at infinite dilution in binary mixtures. Using clustering leads to significantly improved predictions compared to an MCM without clustering. Furthermore, the chemical classes learned from the clustering give exciting insights into what matters on the molecular level for modeling given mixture properties.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# 時間外順序付き相関器の準古典理論

Quasiclassical theory of out-of-time-ordered correlators ( http://arxiv.org/abs/2410.06064v1 )

ライセンス: Link先を確認
Thomas R. Michel, Juan Diego Urbina, Peter Schlagheck, (参考訳) 時間進化と定常演算子の2乗換算器を介して定義される時間外順序相関器(OTOC)は、複雑な量子系におけるカオスや情報のスクランブルに有用な指標を提供する観測可能器を表す。 ここでは、対角近似の適用により、半古典的なファン・ヴレック=グッツウィルプロパゲータから得られるOTOCの準古典形式について述べる。 短い進化期間において、この準古典的アプローチはウィグナー・モラル形式主義(英語版)(Wigner-Moyal formalism)と同じ結果をもたらす。 半古典的枠組みが原則としてまだ有効である長い時間の間、対角近似は、完全に発達した古典的カオスの仮定の下で準古典的OTOCに対して漸近飽和値を得る。 しかし、周期駆動の欠如と存在下でカオス的な少数サイトであるBose-Hubbardシステム内で行われる数値シミュレーションにより、この飽和値は、通常エレンフェスト時間後に達成される量子OTOCの実際の閾値を強く過小評価することを示した。 このことは、非対角的であり、従って真に量子的寄与であり、従って準古典的記述の枠組みを超越して、OTOCを短期的な体制を超えて記述する責任を主に負っていることを示している。

Out-of-time-ordered correlators (OTOCs), defined via the squared commutator of a time-evolving and a stationary operator, represent observables that provide useful indicators for chaos and the scrambling of information in complex quantum systems. Here we present a quasiclassical formalism of OTOCs, which is obtained from the semiclassical van Vleck-Gutzwiller propagator through the application of the diagonal approximation. For short evolution times, this quasiclassical approach yields the same result as the Wigner-Moyal formalism, i.e., OTOCs are classically described via the square of the Poisson bracket between the two involved observables, thus giving rise to an exponential growth in a chaotic regime. For long times, for which the semiclassical framework is, in principle, still valid, the diagonal approximation yields an asymptotic saturation value for the quasiclassical OTOC under the assumption of fully developed classical chaos. However, numerical simulations, carried out within chaotic few-site Bose-Hubbard systems in the absence and presence of periodic driving, demonstrate that this saturation value strongly underestimates the actual threshold value of the quantum OTOC, which is normally attained after the Ehrenfest time. This indicates that nondiagonal and hence genuinely quantum contributions, thus exceeding the framework of the quasiclassical description, are primarily responsible for describing OTOCs beyond the short-time regime.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# イベント知識グラフにおける順序付き特徴の発見のためのポセットと境界確率

Posets and Bounded Probabilities for Discovering Order-inducing Features in Event Knowledge Graphs ( http://arxiv.org/abs/2410.06065v1 )

ライセンス: Link先を確認
Christoffer Olling Back, Jakob Grue Simonsen, (参考訳) イベント知識グラフ(EKG)は、トレースの古典的な概念を拡張して、プロセス実行の複数の対話的なビューをキャプチャする。 本稿では,イベントにおける特徴的部分順序から得られる結果空間に基づいて,未処理データからのEKG発見を自動化するというオープンな課題に対処する。 そこで我々は,アドホックな戦略やヒューリスティックな戦略ではなく,統計的推測に基づくEKG発見アルゴリズムを導出した。 このアプローチは、大規模な非凸仮説空間を探索する計算コストが伴う。 特に、最大極大項の解法は、一般に#P完全である列の線型拡大の数を数えることを含む。 幸いなことに、バウンド推定はモデルの比較に十分であり、分岐とバウンドのアルゴリズムに組み込むことができる。 定義した後続確率は、単調w.r.t.モデル包含である分岐規則に対する反音速w.r.t.探索深さであることを示す。 これにより、探索空間の大部分を刈り取ることができ、実験により手動で構築されたEKGと整合した最適解への急速な収束が示される。

Event knowledge graphs (EKG) extend the classical notion of a trace to capture multiple, interacting views of a process execution. In this paper, we tackle the open problem of automating EKG discovery from uncurated data through a principled, probabilistic framing based on the outcome space resulting from featured-derived partial orders on events. From this, we derive an EKG discovery algorithm based upon statistical inference rather than an ad-hoc or heuristic-based strategy, or relying on manual analysis from domain experts. This approach comes at the computational cost of exploring a large, non-convex hypothesis space. In particular, solving the maximum likelihood term involves counting the number of linear extensions of posets, which in general is #P-complete. Fortunately, bound estimates suffice for model comparison, and admit incorporation into a bespoke branch-and-bound algorithm. We show that the posterior probability as defined is antitonic w.r.t. search depth for branching rules that are monotonic w.r.t. model inclusion. This allows pruning of large portions of the search space, which we show experimentally leads to rapid convergence toward optimal solutions that are consistent with manually built EKGs.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# 視覚皮質の特徴抽出モデルに対するコントラスト学習

Contrastive Learning to Fine-Tune Feature Extraction Models for the Visual Cortex ( http://arxiv.org/abs/2410.06067v1 )

ライセンス: Link先を確認
Alex Mulrooney, Austin J. Brockmeier, (参考訳) 視覚野の自然画像に対する神経反応を予測するには、画像から関連する特徴を抽出し、観察された反応に関連付ける必要がある。 本研究では,fMRIで測定したBOLD信号から抽出した関心領域(ROI)において,画像特徴とボクセル間のニューラル応答間で共有される情報を最大化するために特徴抽出を最適化する。 我々は、画像分類のために事前訓練された畳み込みニューラルネットワークを微調整するために、コントラスト学習(CL)を適用する。 我々は、最近リリースされたNatural Scenes Dataset (Allen et al , 2022) を、Algonauts Project (Gifford et al , 2023) の組織として活用する。 CLファインタニングは、事前訓練されたネットワークと、fMRI応答符号化のためにネットワーク出力の回帰損失を利用したベースラインアプローチの両方と比較して、早期視覚ROIの符号化精度を高める機能抽出モデルを生成する。 我々は,他の低解像度データセット(Gong et al ,2023)の被験者を含むCL微調整モデルのオブジェクト間移動について検討した。 また、符号化性能をさらに向上するために、微調整のために被験者をプールする。 最後に、共通画像分類タスクにおける微調整モデルの性能について検討し、それらのタスクの予測(Mao et al , 2024)を用いて作成した Bhattacharya Dissimilarity matrix に次元性還元を適用してROI特化モデルのランドスケープを探索し(Mao et al , 2024)、CL調整モデル上に構築された分類器のサリエンスマップを用いて初期視覚ROIの処理の側面化について検討する。

Predicting the neural response to natural images in the visual cortex requires extracting relevant features from the images and relating those feature to the observed responses. In this work, we optimize the feature extraction in order to maximize the information shared between the image features and the neural response across voxels in a given region of interest (ROI) extracted from the BOLD signal measured by fMRI. We adapt contrastive learning (CL) to fine-tune a convolutional neural network, which was pretrained for image classification, such that a mapping of a given image's features are more similar to the corresponding fMRI response than to the responses to other images. We exploit the recently released Natural Scenes Dataset (Allen et al., 2022) as organized for the Algonauts Project (Gifford et al., 2023), which contains the high-resolution fMRI responses of eight subjects to tens of thousands of naturalistic images. We show that CL fine-tuning creates feature extraction models that enable higher encoding accuracy in early visual ROIs as compared to both the pretrained network and a baseline approach that uses a regression loss at the output of the network to tune it for fMRI response encoding. We investigate inter-subject transfer of the CL fine-tuned models, including subjects from another, lower-resolution dataset (Gong et al., 2023). We also pool subjects for fine-tuning to further improve the encoding performance. Finally, we examine the performance of the fine-tuned models on common image classification tasks, explore the landscape of ROI-specific models by applying dimensionality reduction on the Bhattacharya dissimilarity matrix created using the predictions on those tasks (Mao et al., 2024), and investigate lateralization of the processing for early visual ROIs using salience maps of the classifiers built on the CL-tuned models.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# 時系列変換器における解釈可能性の強化:概念ボトルネックフレームワーク

Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework ( http://arxiv.org/abs/2410.06070v1 )

ライセンス: Link先を確認
Angela van Sprang, Erman Acar, Willem Zuidema, (参考訳) 近年,トランスフォーマーを用いた長期時系列予測モデルの研究が進められている。 様々なドメインやアーキテクチャの解釈可能性に関する多くの研究があるが、トランスフォーマーベースの予測モデルの解釈可能性はほとんど解明されていない。 このギャップに対処するため,我々は,時系列変換器の解釈可能性を実現するためのConcept Bottleneck Modelsに基づくフレームワークを開発した。 我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。 実験では、Centered Kernel Alignmentを用いて類似性を強制し、事前定義された概念には、時間的特徴と解釈可能な自己回帰的代理モデル(AR)が含まれる。 このフレームワークをAutoformerモデルに適用し,様々なベンチマークタスクの詳細な分析を行う。 モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。 さらに、解釈可能な概念は局所的なものとなり、訓練されたモデルは容易に介入できる。 概念実証として、データのタイムシフトのシナリオへの介入が成功し、再トレーニングの必要がなくなることを実証する。

There has been a recent push of research on Transformer-based models for long-term time series forecasting, even though they are inherently difficult to interpret and explain. While there is a large body of work on interpretability methods for various domains and architectures, the interpretability of Transformer-based forecasting models remains largely unexplored. To address this gap, we develop a framework based on Concept Bottleneck Models to enforce interpretability of time series Transformers. We modify the training objective to encourage a model to develop representations similar to predefined interpretable concepts. In our experiments, we enforce similarity using Centered Kernel Alignment, and the predefined concepts include time features and an interpretable, autoregressive surrogate model (AR). We apply the framework to the Autoformer model, and present an in-depth analysis for a variety of benchmark tasks. We find that the model performance remains mostly unaffected, while the model shows much improved interpretability. Additionally, interpretable concepts become local, which makes the trained model easily intervenable. As a proof of concept, we demonstrate a successful intervention in the scenario of a time shift in the data, which eliminates the need to retrain.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# マイニングトークン確率系列による無訓練LCMテキスト検出

Training-free LLM-generated Text Detection by Mining Token Probability Sequences ( http://arxiv.org/abs/2410.06072v1 )

ライセンス: Link先を確認
Yihuai Xu, Yongwei Wang, Yifei Bi, Huangsen Cao, Zhouhan Lin, Yu Zhao, Fei Wu, (参考訳) 大規模言語モデル (LLM) は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。 しかし、LCMの潜在的な誤用は重大な懸念を引き起こしており、LCM生成したテキストの確実な検出が緊急に必要であることを示している。 従来のトレーニングベースの検出器は、特にクロスドメインやクロスモデルシナリオにおいて、一般化に苦慮することが多い。 対照的に、慎重に設計された統計的特徴を通して固有の不一致に焦点を当てたトレーニングフリーな手法は、一般化と解釈性を改善している。 これにもかかわらず、既存の訓練なし検出手法は、通常、グローバルなテキストシーケンス統計に依存し、局所的な識別的特徴のモデリングを無視して、検出の有効性を制限している。 そこで本研究では,局所的および大域的統計を相乗化して検出を増強する,新しい学習自由度検出器「textbf{Lastde}」を提案する。 LLM生成テキスト検出に時系列解析を導入し,トークン確率列の時間的ダイナミクスを捉える。 これらの局所統計をグローバルな統計と組み合わせることで、我々の検出器は人間とLLM生成したテキストの相違を顕著に明らかにする。 また,リアルタイム検出を実現するための効率的な代替手段として,textbf{Lastde++}を提案する。 クロスドメイン,クロスモデル,およびクロスランガル検出シナリオを含む6つのデータセットを,ホワイトボックスとブラックボックスの両方の設定で広範囲に実験した結果,我々の手法が常に最先端の性能を達成することを示した。 さらに,提案手法は,既存のベースライン手法と比較して,パラフレーズ攻撃に対する堅牢性が高い。

Large language models (LLMs) have demonstrated remarkable capabilities in generating high-quality texts across diverse domains. However, the potential misuse of LLMs has raised significant concerns, underscoring the urgent need for reliable detection of LLM-generated texts. Conventional training-based detectors often struggle with generalization, particularly in cross-domain and cross-model scenarios. In contrast, training-free methods, which focus on inherent discrepancies through carefully designed statistical features, offer improved generalization and interpretability. Despite this, existing training-free detection methods typically rely on global text sequence statistics, neglecting the modeling of local discriminative features, thereby limiting their detection efficacy. In this work, we introduce a novel training-free detector, termed \textbf{Lastde} that synergizes local and global statistics for enhanced detection. For the first time, we introduce time series analysis to LLM-generated text detection, capturing the temporal dynamics of token probability sequences. By integrating these local statistics with global ones, our detector reveals significant disparities between human and LLM-generated texts. We also propose an efficient alternative, \textbf{Lastde++} to enable real-time detection. Extensive experiments on six datasets involving cross-domain, cross-model, and cross-lingual detection scenarios, under both white-box and black-box settings, demonstrated that our method consistently achieves state-of-the-art performance. Furthermore, our approach exhibits greater robustness against paraphrasing attacks compared to existing baseline methods.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# スケーラブルなメカニスティックニューラルネットワーク

Scalable Mechanistic Neural Networks ( http://arxiv.org/abs/2410.06074v1 )

ライセンス: Link先を確認
Jiale Chen, Dingling Yao, Adeel Pervez, Dan Alistarh, Francesco Locatello, (参考訳) 本研究では,長期的時系列を含む科学的機械学習アプリケーションのための拡張ニューラルネットワークフレームワークであるS-MNNを提案する。 元のメカニスティックニューラルネットワーク(MNN) (Pervez et al , 2024) を再構成することにより, 計算時間と空間の複雑さを, それぞれ3次および2次から線形に短縮する。 この大幅な改善により、精度や解釈性を犠牲にすることなく、長期的力学の効率的なモデリングが可能になる。 大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。 その結果、S-MNNはアプリケーションの元のMNNを置き換えることができ、複雑な力学系のニューラルネットワークモデルに機械的ボトルネックを統合するための実用的で効率的なツールを提供する。

We propose Scalable Mechanistic Neural Network (S-MNN), an enhanced neural network framework designed for scientific machine learning applications involving long temporal sequences. By reformulating the original Mechanistic Neural Network (MNN) (Pervez et al., 2024), we reduce the computational time and space complexities from cubic and quadratic with respect to the sequence length, respectively, to linear. This significant improvement enables efficient modeling of long-term dynamics without sacrificing accuracy or interpretability. Extensive experiments demonstrate that S-MNN matches the original MNN in precision while substantially reducing computational resources. Consequently, S-MNN can drop-in replace the original MNN in applications, providing a practical and efficient tool for integrating mechanistic bottlenecks into neural network models of complex dynamical systems.
翻訳日:2024-11-01 11:20:35 公開日:2024-10-08
# 多様性逆CFG蒸留

Diversity-Rewarded CFG Distillation ( http://arxiv.org/abs/2410.06084v1 )

ライセンス: Link先を確認
Geoffrey Cideron, Andrea Agostinelli, Johan Ferret, Sertan Girgin, Romuald Elie, Olivier Bachem, Sarah Perrin, Alexandre Ramé, (参考訳) 生成モデルは、音楽生成のような創造的なドメインを変革し、分類自由誘導(CFG)のような推論時間戦略が重要な役割を果たす。 しかし、CFGは、生成したコンテンツの独創性と多様性を制限しながら、推論コストを2倍にする。 本稿では,CFGの限界に対処しつつ,CFGの強度を蒸留する新しい微調整法であるCFG蒸留を導入する。 提案手法は,(1)蒸留目標,(CFGを使わずに)モデルのみにCFG拡張予測を模倣するよう促すこと,(2)多様性報酬を付与したRL目標,および与えられたプロンプトに対する多様な出力の生成を促進すること,の2つの訓練目標を最適化する。 微調整により、予測オーバーヘッドを伴わずに、高品質で多様な出力を生成できるモデルウェイトを学習する。 これにより、2つのモデルの重み(第1は品質、第2は多様性)を補間することで、デプロイメント時の品質と多様性のトレードオフを制御でき、パフォーマンスをさらに向上できます。 Agostinelli et al , 2023)テキストから音楽への生成モデルについて広範な実験を行った。 人体評価装置によれば,我々はCFGで強化したベースモデルよりも高品質なサンプルを生成する。 https://google-research.github.io/seanet/musiclm/diverse_music/

Generative models are transforming creative domains such as music generation, with inference-time strategies like Classifier-Free Guidance (CFG) playing a crucial role. However, CFG doubles inference cost while limiting originality and diversity across generated contents. In this paper, we introduce diversity-rewarded CFG distillation, a novel finetuning procedure that distills the strengths of CFG while addressing its limitations. Our approach optimises two training objectives: (1) a distillation objective, encouraging the model alone (without CFG) to imitate the CFG-augmented predictions, and (2) an RL objective with a diversity reward, promoting the generation of diverse outputs for a given prompt. By finetuning, we learn model weights with the ability to generate high-quality and diverse outputs, without any inference overhead. This also unlocks the potential of weight-based model merging strategies: by interpolating between the weights of two models (the first focusing on quality, the second on diversity), we can control the quality-diversity trade-off at deployment time, and even further boost performance. We conduct extensive experiments on the MusicLM (Agostinelli et al., 2023) text-to-music generative model, where our approach surpasses CFG in terms of quality-diversity Pareto optimality. According to human evaluators, our finetuned-then-merged model generates samples with higher quality-diversity than the base model augmented with CFG. Explore our generations at https://google-research.github.io/seanet/musiclm/diverse_music/.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# データ更新に関するGDPRのルール--その合理性と影響の分析から

The GDPR's Rules on Data Breaches: Analysing Their Rationales and Effects ( http://arxiv.org/abs/2410.06086v1 )

ライセンス: Link先を確認
Frederik Zuiderveen Borgesius, Hadi Asghari, Noël Bangma, Jaap-Henk Hoepman, (参考訳) 一般データ保護規則(GDPR)は、有能なデータ保護機関に通知するために、データ漏洩に悩む組織を必要とする。 データ漏洩が権利と自由を脅かす場合、組織は関連する個人にも通知しなければなりません。 本稿では、GDPRのデータ侵害通知義務の目標を考慮し、これらの目標を照らしてその義務を評価する。 情報セキュリティと経済学からの洞察を参考にし、弁護士にとって読者フレンドリーな方法で提示する。 我々の主な結論は、GDPRのデータ侵害ルールが目標に寄与する可能性が高いということだ。 例えば、データ侵害通知義務は、組織をより良いセキュリティに導くことができ、そのような義務は、規制当局がその義務を遂行することを可能にし、そのような義務は透明性と説明責任を改善します。 しかし、この論文は、データ漏洩通知の後、人々が自分の利益を守る可能性を非現実的に期待するべきではないと警告している。 同様に、私たちは、データ漏洩通知を受け取った後、他のサービスプロバイダに切り替える人たちに対して、高い期待を持ってはいけません。 最後に、この論文は、データ保護当局に対して、報告されたデータ漏洩に関するさらなる情報を公開するよう求めている。 このような情報は、セキュリティの脅威を分析するのに役立つ。

The General Data Protection Regulation (GDPR) requires an organisation that suffers a data breach to notify the competent Data Protection Authority. The organisation must also inform the relevant individuals, when a data breach threatens their rights and freedoms. This paper focuses on the following question: given the goals of the GDPR's data breach notification obligation, and we assess the obligation in the light of those goals. We refer to insights from information security and economics, and present them in a reader-friendly way for lawyers. Our main conclusion is that the GDPR's data breach rules are likely to contribute to the goals. For instance, the data breach notification obligation can nudge organisations towards better security; such an obligation enables regulators to perform their duties; and such an obligation improves transparency and accountability. However, the paper also warns that we should not have unrealistic expectations of the possibilities for people to protect their interests after a data breach notice. Likewise, we should not have high expectations of people switching to other service providers after receiving a data breach notification. Lastly, the paper calls for Data Protection Authorities to publish more information about reported data breaches. Such information can help to analyse security threats.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# TOWER: 複雑なインストラクションを評価するためのツリー編成重み付け

TOWER: Tree Organized Weighting for Evaluating Complex Instructions ( http://arxiv.org/abs/2410.06089v1 )

ライセンス: Link先を確認
Noah Ziems, Zhihan Zhang, Meng Jiang, (参考訳) 大規模言語モデル(LLM)の複雑なヒューマン記述命令に従う能力を評価することは、現実のアプリケーションへの展開に不可欠である。 Chatbot Arenaのようなベンチマークでは、人間の判断を使ってモデルのパフォーマンスを評価するが、それらはリソース集約的で時間を要する。 AlpacaEval、MT Bench、WildBench、InFoBenchなどの審査にLLMを使用する別の手法は改善を提供するが、しかしながら、ある複雑な命令の側面が他のものよりも重要であることを捉えていない。 このギャップに対処するために, 人力の重大さを付加した新しい評価指標である「textsc{TOWER}」を提案する。 ヒトのアノテータは他のヒトのアノテータとほぼ同程度に複雑な命令のツリーベース表現に一致していることを示す。 InFoBenchデータセットのツリーベースのアノテーションとそれに対応する評価コードをリリースし、今後の研究を促進する。

Evaluating the ability of large language models (LLMs) to follow complex human-written instructions is essential for their deployment in real-world applications. While benchmarks like Chatbot Arena use human judges to assess model performance, they are resource-intensive and time-consuming. Alternative methods using LLMs as judges, such as AlpacaEval, MT Bench, WildBench, and InFoBench offer improvements but still do not capture that certain complex instruction aspects are more important than others to follow. To address this gap, we propose a novel evaluation metric, \textsc{TOWER}, that incorporates human-judged importance into the assessment of complex instruction following. We show that human annotators agree with tree-based representations of these complex instructions nearly as much as they agree with other human annotators. We release tree-based annotations of the InFoBench dataset and the corresponding evaluation code to facilitate future research.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 患者に聞く:患者の幻覚検出と緩和による医療対話生成の促進

Listen to the Patient: Enhancing Medical Dialogue Generation with Patient Hallucination Detection and Mitigation ( http://arxiv.org/abs/2410.06094v1 )

ライセンス: Link先を確認
Lang Qin, Yao Zhang, Hongru Liang, Adam Jatowt, Zhenglu Yang, (参考訳) 医療対話システムは患者とエージェントの会話を通じて医療サービスを提供することを目的としている。 従来の方法では、患者を理想的なユーザとみなし、主に対話システムにおける共通の課題に焦点を合わせ、実際の患者が導入する潜在的なバイアスや誤解を無視する。 本研究は,医療相談中の患者の表情と,患者の幻覚として定義される実際の健康状態の相違について検討した。 このような現象は、患者の知識、理解、関心、不安の欠如から生じることが多く、相談中に不正確な情報や誤った情報が伝達される。 この問題を解決するために,幻覚の検出・対処を目的とした患者幻覚の緩和のための医療対話生成手法であるMedPHを提案する。 MedPHは、時間的対話エンティティグラフ上の一次元構造エントロピーを利用する検出方法と、幻覚関連情報に基づく緩和戦略を取り入れて、患者が実際の状態を表現できるようにする。 実験結果から,メディカルエンティティ予測と応答生成の両タスクにおける既存のアプローチと比較して,MedPHの有効性が高いとともに,対話的なシナリオにおける幻覚の緩和にも有効であることが示唆された。

Medical dialogue systems aim to provide medical services through patient-agent conversations. Previous methods typically regard patients as ideal users, focusing mainly on common challenges in dialogue systems, while neglecting the potential biases or misconceptions that might be introduced by real patients, who are typically non-experts. This study investigates the discrepancy between patients' expressions during medical consultations and their actual health conditions, defined as patient hallucination. Such phenomena often arise from patients' lack of knowledge and comprehension, concerns, and anxieties, resulting in the transmission of inaccurate or wrong information during consultations. To address this issue, we propose MedPH, a Medical dialogue generation method for mitigating the problem of Patient Hallucinations designed to detect and cope with hallucinations. MedPH incorporates a detection method that utilizes one-dimensional structural entropy over a temporal dialogue entity graph, and a mitigation strategy based on hallucination-related information to guide patients in expressing their actual conditions. Experimental results indicate the high effectiveness of MedPH when compared to existing approaches in both medical entity prediction and response generation tasks, while also demonstrating its effectiveness in mitigating hallucinations within interactive scenarios.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 復号化デコード:オープンエンディングテキスト生成におけるハイパーパラメータ効果の理解

Decoding Decoded: Understanding Hyperparameter Effects in Open-Ended Text Generation ( http://arxiv.org/abs/2410.06097v1 )

ライセンス: Link先を確認
Esteban Garces Arias, Meimingwei Li, Christian Heumann, Matthias Aßenmacher, (参考訳) 大規模言語モデル(LLM)の復号戦略は、テキスト生成タスクの重要な側面であるが、しばしば未探索の側面である。 LLMは語彙全体の確率分布を生成するため、これらの確率をコヒーレントで流動的なテキストに変換するための様々な復号法が開発されている。 本研究では,複数のLCM,データセット,評価指標を用いたオープンエンドテキスト生成において,ハイパーパラメータ選択がテキスト品質に与える影響を大規模かつ包括的に分析する。 広義の感度解析を通じて、ハイパーパラメータチューニングの実践的ガイドラインを提供し、これらの選択がテキスト品質に与える影響を実証する。 現実の領域(ニュースなど)と創造的な領域(フィクションなど)にまたがる3つの確立されたデータセットを用いて、ハイパーパラメータチューニングが生成品質に大きな影響を及ぼすが、その効果はモデルやタスクによって異なる。 人的評価と広く使用されている自動評価指標の合成の両方によって支援された、これらの効果に関する詳細な知見を提供する。

Decoding strategies for large language models (LLMs) are a critical but often underexplored aspect of text generation tasks. Since LLMs produce probability distributions over the entire vocabulary, various decoding methods have been developed to transform these probabilities into coherent and fluent text, each with its own set of hyperparameters. In this study, we present a large-scale, comprehensive analysis of how hyperparameter selection affects text quality in open-ended text generation across multiple LLMs, datasets, and evaluation metrics. Through an extensive sensitivity analysis, we provide practical guidelines for hyperparameter tuning and demonstrate the substantial influence of these choices on text quality. Using three established datasets, spanning factual domains (e.g., news) and creative domains (e.g., fiction), we show that hyperparameter tuning significantly impacts generation quality, though its effects vary across models and tasks. We offer in-depth insights into these effects, supported by both human evaluations and a synthesis of widely-used automatic evaluation metrics.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 他者との共進化:連続的協調型多エージェント強化学習による微調整LDM

Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2410.06101v1 )

ライセンス: Link先を確認
Hao Ma, Tianyi Hu, Zhiqiang Pu, Boyin Liu, Xiaolin Ai, Yanyan Liang, Min Chen, (参考訳) 強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)を特定のタスクで微調整するための重要な手法である。 しかし、一般的なRL微調整法は主にPPOとその変種に依存している。 これらのアルゴリズムは一般のRL設定では有効であるが、LLMの微調整に適用した場合、最適性能と分散崩壊の脆弱性を示すことが多い。 本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。 CORYでは、微調整されるLLMは、最初は2つの自律エージェント(先駆者と観察者)に複製される。 パイオニアはクエリに基づいてレスポンスを生成し、オブザーバはクエリとパイオニアのレスポンスの両方を使用してレスポンスを生成する。 2人のエージェントは一緒に訓練されています。 訓練中、エージェントは定期的に役割を交換し、両者の協力と共進化を促進する。 GPT-2とLlama-2をIMDB ReviewとGSM8Kデータセットの主観的および客観的な報酬関数で微調整し,CORYの性能を評価する実験を行った。 以上の結果から,CORYはポリシ最適性,分散崩壊に対する抵抗性,ロバスト性の訓練においてPPOよりも優れており,現実のアプリケーションにおいてLCMを精錬するための優れた方法論としての可能性を示している。

Reinforcement learning (RL) has emerged as a pivotal technique for fine-tuning large language models (LLMs) on specific tasks. However, prevailing RL fine-tuning methods predominantly rely on PPO and its variants. Though these algorithms are effective in general RL settings, they often exhibit suboptimal performance and vulnerability to distribution collapse when applied to the fine-tuning of LLMs. In this paper, we propose CORY, extending the RL fine-tuning of LLMs to a sequential cooperative multi-agent reinforcement learning framework, to leverage the inherent coevolution and emergent capabilities of multi-agent systems. In CORY, the LLM to be fine-tuned is initially duplicated into two autonomous agents: a pioneer and an observer. The pioneer generates responses based on queries, while the observer generates responses using both the queries and the pioneer's responses. The two agents are trained together. During training, the agents exchange roles periodically, fostering cooperation and coevolution between them. Experiments evaluate CORY's performance by fine-tuning GPT-2 and Llama-2 under subjective and objective reward functions on the IMDB Review and GSM8K datasets, respectively. Results show that CORY outperforms PPO in terms of policy optimality, resistance to distribution collapse, and training robustness, thereby underscoring its potential as a superior methodology for refining LLMs in real-world applications.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# RefineStyle: StyleGANの動的畳み込みリファインメント

RefineStyle: Dynamic Convolution Refinement for StyleGAN ( http://arxiv.org/abs/2410.06104v1 )

ライセンス: Link先を確認
Siwei Xia, Xueqi Hu, Li Sun, Qingli Li, (参考訳) StyleGANでは、コンボリューションカーネルは画像間で共有される静的パラメータと、各画像に特有の動的変調因子$w^+\in\mathcal{W}^+$によって形成される。 したがって、$\mathcal{W}^+$スペースは画像の反転や編集によく使用される。 しかし、事前訓練されたモデルでは、$\mathcal{W}^+$とその結果として生じるカーネルの能力に制限があり、複雑なハイパーネットワークを通して完全な微調整や適応を必要とするため、ドメイン外の画像の合成に苦労する。 本稿では,動的カーネルの効率的な精錬戦略を提案する。 キーとなる考え方は、入力画像やドメインガイダンスから学んだ低ランク残差によるカーネルの変更である。 これらの残基は、同じ数を持つ2つのトークンの集合間の行列乗法によって生成される。 画像インバージョンとドメイン適応における精細化方式を検証する。 従来のタスクでは、1段階または2段階のトレーニングでこれらのトークン集合を学習するために、グループ化されたトランスフォーマーブロックを設計する。 後者のタスクでは、トークンセットは、元のコンテンツを保持しながら、ターゲットドメインの合成をサポートするように、直接最適化される。 大規模な実験により,画像インバージョンのための歪みが低く,ドメイン外編集のための高品質な手法が得られた。

In StyleGAN, convolution kernels are shaped by both static parameters shared across images and dynamic modulation factors $w^+\in\mathcal{W}^+$ specific to each image. Therefore, $\mathcal{W}^+$ space is often used for image inversion and editing. However, pre-trained model struggles with synthesizing out-of-domain images due to the limited capabilities of $\mathcal{W}^+$ and its resultant kernels, necessitating full fine-tuning or adaptation through a complex hypernetwork. This paper proposes an efficient refining strategy for dynamic kernels. The key idea is to modify kernels by low-rank residuals, learned from input image or domain guidance. These residuals are generated by matrix multiplication between two sets of tokens with the same number, which controls the complexity. We validate the refining scheme in image inversion and domain adaptation. In the former task, we design grouped transformer blocks to learn these token sets by one- or two-stage training. In the latter task, token sets are directly optimized to support synthesis in the target domain while preserving original content. Extensive experiments show that our method achieves low distortions for image inversion and high quality for out-of-domain editing.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# AI-Native Software Engineering (SE 3.0):ビジョンと課題のロードマップ

Towards AI-Native Software Engineering (SE 3.0): A Vision and a Challenge Roadmap ( http://arxiv.org/abs/2410.06107v1 )

ライセンス: Link先を確認
Ahmed E. Hassan, Gustavo A. Oliva, Dayi Lin, Boyuan Chen, Zhen Ming, Jiang, (参考訳) AI支援ソフトウェアエンジニアリング(SE 2.0)の台頭は、ファンデーションモデル(FM)とFM駆動のコピロによって、開発者の生産性向上を約束している。 しかし、開発者に対する認知的過負荷や非効率など、固有の制限も明らかにしている。 我々は、人間開発者とAIチームメイト間の意図優先の会話指向開発を特徴とする、AIネイティブなアプローチであるSoftware Engineering 3.0(SE 3.0)への移行を提案する。 SE 3.0は、タスク駆動のコラボレートを超えて、インテリジェントなコラボレータへと進化するAIシステムを構想しており、ソフトウェアエンジニアリングの原則と意図について深く理解し、推論することができる。 例えば、適応的でパーソナライズされたAIパートナーシップのためのTeammate.next、意図第一の会話指向開発のためのIDE.next、多目的コード合成のためのCompiler.next、エッジコンピューティングをサポートするSLA対応実行のためのRuntime.nextなどです。 我々のビジョンは、人間開発者とAIの共生関係を育み、相補的な強みを最大化することで、SE 2.0の非効率性と認知的歪に対処する。 また、SE 3.0のビジョンを実現するために克服しなければならない課題のロードマップも提示します。 本稿では,次世代のソフトウェア工学におけるAIの役割について,今後の議論の基盤を定めている。

The rise of AI-assisted software engineering (SE 2.0), powered by Foundation Models (FMs) and FM-powered copilots, has shown promise in improving developer productivity. However, it has also exposed inherent limitations, such as cognitive overload on developers and inefficiencies. We propose a shift towards Software Engineering 3.0 (SE 3.0), an AI-native approach characterized by intent-first, conversation-oriented development between human developers and AI teammates. SE 3.0 envisions AI systems evolving beyond task-driven copilots into intelligent collaborators, capable of deeply understanding and reasoning about software engineering principles and intents. We outline the key components of the SE 3.0 technology stack, which includes Teammate.next for adaptive and personalized AI partnership, IDE.next for intent-first conversation-oriented development, Compiler.next for multi-objective code synthesis, and Runtime.next for SLA-aware execution with edge-computing support. Our vision addresses the inefficiencies and cognitive strain of SE 2.0 by fostering a symbiotic relationship between human developers and AI, maximizing their complementary strengths. We also present a roadmap of challenges that must be overcome to realize our vision of SE 3.0. This paper lays the foundation for future discussions on the role of AI in the next era of software engineering.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# ConceptAgent:ロバストタスク計画と実行のためのLLM駆動プレコンディショニングとツリー検索

ConceptAgent: LLM-Driven Precondition Grounding and Tree Search for Robust Task Planning and Execution ( http://arxiv.org/abs/2410.06108v1 )

ライセンス: Link先を確認
Corban Rivera, Grayson Byrd, William Paul, Tyler Feldman, Meghan Booker, Emma Holmes, David Handelman, Bethany Kemp, Andrew Badger, Aurora Schmidt, Krishna Murthy Jatavallabhula, Celso M de Melo, Lalithkumar Seenivasan, Mathias Unberath, Rama Chellappa, (参考訳) オープンワールド環境におけるロボット計画と実行は、膨大な状態空間とタスクの実施可能性が高いため、複雑な問題である。 認知アルゴリズムの最近の進歩と計画のためのLarge Language Models(LLM)を組み合わせることで、LLMの常識推論能力は、アクション空間を効率的に探索する強力なヒューリスティックを提供するため、これらの課題に対する有望な解決策を提供する。 しかし、事前の作業ではLSMからの幻覚の可能性に対処できず、結果として計画されたアクションの実行に失敗する。 このような幻覚による自動化の失敗に対抗するために,非構造化環境でのタスク実行を目的とした自然言語駆動型ロボットプラットフォームであるConceptAgentを紹介した。 複雑な状態と行動空間におけるLCMベースの計画のスケーラビリティと信頼性に焦点をあてて、これらの欠点を抑えるために設計されたイノベーションを提示します。 1【実施不可能な行為の予防及び回復のための指示的接地,及び 2) LLM誘導モンテカルロ木探索の実施版。 シミュレーション実験で、ConceptAgentは3つの部屋のレイアウトで19%のタスク完了率、30の簡単なレベルの実施タスクを達成し、同じベンチマークで10.26%と8.11%を記録した。 さらに、中程度から硬度の実施タスクに対するアブレーション調査では、ベースラインエージェントから完全に拡張されたConceptAgentへのタスク完了が20%増加し、複雑な状態や行動空間におけるより堅牢な自動化を実現するために、述語接地とLLM誘導木探索の個人的および複合的な貢献を強調した。

Robotic planning and execution in open-world environments is a complex problem due to the vast state spaces and high variability of task embodiment. Recent advances in perception algorithms, combined with Large Language Models (LLMs) for planning, offer promising solutions to these challenges, as the common sense reasoning capabilities of LLMs provide a strong heuristic for efficiently searching the action space. However, prior work fails to address the possibility of hallucinations from LLMs, which results in failures to execute the planned actions largely due to logical fallacies at high- or low-levels. To contend with automation failure due to such hallucinations, we introduce ConceptAgent, a natural language-driven robotic platform designed for task execution in unstructured environments. With a focus on scalability and reliability of LLM-based planning in complex state and action spaces, we present innovations designed to limit these shortcomings, including 1) Predicate Grounding to prevent and recover from infeasible actions, and 2) an embodied version of LLM-guided Monte Carlo Tree Search with self reflection. In simulation experiments, ConceptAgent achieved a 19% task completion rate across three room layouts and 30 easy level embodied tasks outperforming other state-of-the-art LLM-driven reasoning baselines that scored 10.26% and 8.11% on the same benchmark. Additionally, ablation studies on moderate to hard embodied tasks revealed a 20% increase in task completion from the baseline agent to the fully enhanced ConceptAgent, highlighting the individual and combined contributions of Predicate Grounding and LLM-guided Tree Search to enable more robust automation in complex state and action spaces.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 長期半教師付き音声認識のための連続コントラスト学習

Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition ( http://arxiv.org/abs/2410.06109v1 )

ライセンス: Link先を確認
Zi-Hao Zhou, Siyuan Fang, Zi-Jing Zhou, Tong Wei, Yuanyu Wan, Min-Ling Zhang, (参考訳) 長い尾を持つ半教師付き学習は、長い尾を持つラベル分布を示す限られたラベル付きデータを持つ訓練モデルにおいて重要な課題となる。 現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して、高品質な擬似ラベルに大きく依存している。 しかしながら、これらの手法はニューラルネットワークが学習した表現の影響を無視し、ラベル付きデータとは異なる分布に従う現実世界のラベルなしデータに苦戦することが多い。 本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。 我々のフレームワークはガウス核密度推定によるクラスバランスの対照的な損失を導出する。 我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。 ラベルの分布を段階的に推定し、モデル予測との整合性を最適化することにより、実世界のシナリオにおけるラベルなしデータの多様な分布に取り組む。 ラベルのないさまざまなデータ分布を持つ複数のデータセットにわたる大規模な実験は、CCLが従来よりも一貫して優れており、ImageNet-127データセットで4%以上の改善が達成されていることを示している。 ソースコードはhttps://github.com/zhouzihao11/CCLで公開されています。

Long-tailed semi-supervised learning poses a significant challenge in training models with limited labeled data exhibiting a long-tailed label distribution. Current state-of-the-art LTSSL approaches heavily rely on high-quality pseudo-labels for large-scale unlabeled data. However, these methods often neglect the impact of representations learned by the neural network and struggle with real-world unlabeled data, which typically follows a different distribution than labeled data. This paper introduces a novel probabilistic framework that unifies various recent proposals in long-tail learning. Our framework derives the class-balanced contrastive loss through Gaussian kernel density estimation. We introduce a continuous contrastive learning method, CCL, extending our framework to unlabeled data using reliable and smoothed pseudo-labels. By progressively estimating the underlying label distribution and optimizing its alignment with model predictions, we tackle the diverse distribution of unlabeled data in real-world scenarios. Extensive experiments across multiple datasets with varying unlabeled data distributions demonstrate that CCL consistently outperforms prior state-of-the-art methods, achieving over 4% improvement on the ImageNet-127 dataset. Our source code is available at https://github.com/zhouzihao11/CCL
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# SwiftQueue: Swift Packetキューによる低レイテンシアプリケーションの最適化

SwiftQueue: Optimizing Low-Latency Applications with Swift Packet Queuing ( http://arxiv.org/abs/2410.06112v1 )

ライセンス: Link先を確認
Siddhant Ray, Xi Jiang, Jack Luo, Nick Feamster, Junchen Jiang, (参考訳) 低レイテンシ、低損失、スケーラブルスループット(L4S)は、新しいルータキュー管理技術として、業界に着実に展開されている。 L4S対応ルータは、パケットヘッダマーキングに基づいて各パケットをキューに割り当てる。 現在、L4Sはフロー単位のキュー選択を採用しており、フローの全てのパケットは同じ方法でマークされているため、各パケットが別々にマークされているにもかかわらず、同じキューを使用する。 しかしこれは、過度な混雑とキューのビルドがフロー内のパケットのごく一部にしか影響しないため、テールレイテンシと遅延に敏感なアプリケーションに悪影響を及ぼす可能性がある。 我々は、新しいL4Sキュー選択戦略であるSwiftQueueを紹介します。 この知見は、多くのパケットレベルの遅延は、共有ルータキューにおける最近のパケット間の複雑な相互作用によって生じる。 しかし、これらの複雑なパケットレベルのレイテンシパターンは、従来のモデルで効率的に学習するのは難しい。 代わりにSwiftQueueでは、シーケンシャルなパターンを表現できる独自のTransformerを使用して、最近受信したACKのレイテンシに基づいて、次のパケットのレイテンシを予測する。 各送信パケットの予測レイテンシに基づいて、SwiftQueueの送信者は、L4Sパケットヘッダを動的にマークして、同一フロー内であっても、潜在的に異なるキューにパケットを割り当てる。 実際のネットワークトレースを用いて、SwiftQueueは、最先端の手法よりもレイテンシとそのバリエーションを予測する上で、45~65%正確であることを示す。 SwiftQueueはレイテンシ予測に基づいて、既存のL4Sキュー選択方法と比較して、L4S対応フローのテールレイテンシを36-45%削減する。

Low Latency, Low Loss, and Scalable Throughput (L4S), as an emerging router-queue management technique, has seen steady deployment in the industry. An L4S-enabled router assigns each packet to the queue based on the packet header marking. Currently, L4S employs per-flow queue selection, i.e. all packets of a flow are marked the same way and thus use the same queues, even though each packet is marked separately. However, this may hurt tail latency and latency-sensitive applications because transient congestion and queue buildups may only affect a fraction of packets in a flow. We present SwiftQueue, a new L4S queue-selection strategy in which a sender uses a novel per-packet latency predictor to pinpoint which packets likely have latency spikes or drops. The insight is that many packet-level latency variations result from complex interactions among recent packets at shared router queues. Yet, these intricate packet-level latency patterns are hard to learn efficiently by traditional models. Instead, SwiftQueue uses a custom Transformer, which is well-studied for its expressiveness on sequential patterns, to predict the next packet's latency based on the latencies of recently received ACKs. Based on the predicted latency of each outgoing packet, SwiftQueue's sender dynamically marks the L4S packet header to assign packets to potentially different queues, even within the same flow. Using real network traces, we show that SwiftQueue is 45-65% more accurate in predicting latency and its variations than state-of-art methods. Based on its latency prediction, SwiftQueue reduces the tail latency for L4S-enabled flows by 36-45%, compared with the existing L4S queue-selection method.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# UnSeGArmaNet:畳み込みARMAフィルタを用いたグラフニューラルネットワークによる教師なし画像分割

UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters ( http://arxiv.org/abs/2410.06114v1 )

ライセンス: Link先を確認
Kovvuri Sai Gopal Reddy, Bodduluri Saran, A. Mudit Adityaja, Saurabh J. Shigwan, Nitin Kumar, Snehasis Mukherjee, (参考訳) 教師付き分類によるデータハングリーアプローチは、特にラベル付きデータが入手が困難な医療画像のセグメンテーションのような問題に対して、教師なしのアプローチへの研究者の関心を喚起する。 コンピュータビジョンタスクにおけるビジョントランスフォーマー (ViT) の成功に触発されて, 事前学習したViTを用いた教師なしセグメンテーションフレームワークを提案する。 さらに, 画像内に存在するグラフ構造を利用して, 特に医用画像において, セグメンテーションにおける顕著な性能を実現する。 さらに、モジュラリティに基づく損失関数と自動回帰移動平均(ARMA)フィルタを組み合わせることで、画像内の固有のグラフトポロジをキャプチャする。 最後に,提案したグラフニューラルネットワーク(GNN)アーキテクチャにおいて,SELU(Scaled Exponential Linear Unit)とSILU(Swish)のアクティベーション機能を利用することにより,セグメンテーションの性能が向上することを示す。 提案手法は,ECSSD,DUTS,CUBなどのベンチマーク画像セグメンテーションデータセットに対して,KVASIR,CVC-ClinicDB,ISIC-2018などの医用画像セグメンテーションデータセットに対して,最先端のパフォーマンス(教師付き手法に匹敵する)を提供する。 コードのgithubリポジトリは \url{https://github.com/ksgr5566/UnSeGArmaNet} で公開されている。

The data-hungry approach of supervised classification drives the interest of the researchers toward unsupervised approaches, especially for problems such as medical image segmentation, where labeled data are difficult to get. Motivated by the recent success of Vision transformers (ViT) in various computer vision tasks, we propose an unsupervised segmentation framework with a pre-trained ViT. Moreover, by harnessing the graph structure inherent within the image, the proposed method achieves a notable performance in segmentation, especially in medical images. We further introduce a modularity-based loss function coupled with an Auto-Regressive Moving Average (ARMA) filter to capture the inherent graph topology within the image. Finally, we observe that employing Scaled Exponential Linear Unit (SELU) and SILU (Swish) activation functions within the proposed Graph Neural Network (GNN) architecture enhances the performance of segmentation. The proposed method provides state-of-the-art performance (even comparable to supervised methods) on benchmark image segmentation datasets such as ECSSD, DUTS, and CUB, as well as challenging medical image segmentation datasets such as KVASIR, CVC-ClinicDB, ISIC-2018. The github repository of the code is available on \url{https://github.com/ksgr5566/UnSeGArmaNet}.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 原子線に類似した薄膜におけるファラデー・ラムゼイ回転測定

Faraday-Ramsey rotation measurement in a thin cell as an analogy to an atomic beam ( http://arxiv.org/abs/2410.06116v1 )

ライセンス: Link先を確認
Mark Dikopoltsev, Eliran Talker, Yefim Barash, Noa Mazurski, Uriel Levy, (参考訳) 原子ビームは熱蒸気の測定能力を提供するが、しばしば複雑でかさばるシステムを必要とし、小型化を制限している。 本研究では, 薄膜(L=30,5ミクロン)中の熱蒸気について, 原子線と簡易な類似性として検討した。 コヒーレンスは、壁の衝突がスピンをランダムにするので、細胞壁と平行に動く原子に対してのみ維持される。 非平行原子をフィルタリングすることにより、原子ビームの挙動を模倣し、ファラデー・ラムゼー効果を観測する。 ルビジウム原子は、線形偏光共鳴放射によって光学的に励起され、垂直磁場の中で進化し、ファラデー回転によってプローブされる。 我々は、薄膜技術が原子ビームベースのセンサーの小型化の道を歩んでいると信じている。

Atomic beams offer measurement capabilities for hot vapors but often require complex, bulky systems, limiting miniaturization. This study explores hot vapors in thin cells (L=30,5 microns) as a simplified analogy to atomic beams. Coherence is maintained only for atoms moving parallel to the cell walls, as wall collisions randomize spin. By filtering non-parallel atoms, we mimic atomic beam behavior and observe the Faraday-Ramsey effect. Rubidium atoms are optically pumped with linearly polarized resonance radiation, evolving in a perpendicular magnetic field and probed via Faraday rotation. We believe that thin cell technology is paving the way for the miniaturization of atomic beam-based sensors.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 強化学習を用いた多言語NMT訓練スケジュールの最適化

Optimizing the Training Schedule of Multilingual NMT using Reinforcement Learning ( http://arxiv.org/abs/2410.06118v1 )

ライセンス: Link先を確認
Alexis Allemann, Àlex R. Atrio, Andrei Popescu-Belis, (参考訳) マルチリンガルNMTは、同じ言語ファミリーから高リソース言語(HRL)のデータが利用できる場合に、低リソース言語(LRL)を翻訳するための実行可能なソリューションである。 しかし、訓練スケジュール、すなわち言語提示の順序は、そのようなシステムの品質に影響を及ぼす。 本稿では,NMTの学習スケジュールを最適化するために強化学習を利用する2つのアルゴリズムを提案する。 前者は、モノリンガルまたは多言語開発サブセットの損失に基づいて、各アクションのリターンを指数関数的に滑らかに見積もる一方、後者は、システムの異なる状態で選択されたアクションの歴史からトレーニングされた追加のニューラルネットワークを使用して、受信された報酬と共に報酬を推定する。 LRLとHRLを用いた8対1の翻訳データセットでは,一言語バッチのランダム選択と多言語バッチのシャッフルに対してBLEUとCOMETのスコアを改良し,LRLとHRLのプレゼンテーション数を調整した。

Multilingual NMT is a viable solution for translating low-resource languages (LRLs) when data from high-resource languages (HRLs) from the same language family is available. However, the training schedule, i.e. the order of presentation of languages, has an impact on the quality of such systems. Here, in a many-to-one translation setting, we propose to apply two algorithms that use reinforcement learning to optimize the training schedule of NMT: (1) Teacher-Student Curriculum Learning and (2) Deep Q Network. The former uses an exponentially smoothed estimate of the returns of each action based on the loss on monolingual or multilingual development subsets, while the latter estimates rewards using an additional neural network trained from the history of actions selected in different states of the system, together with the rewards received. On a 8-to-1 translation dataset with LRLs and HRLs, our second method improves BLEU and COMET scores with respect to both random selection of monolingual batches and shuffled multilingual batches, by adjusting the number of presentations of LRL vs. HRL batches.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# E3STO:軌道にインスパイアされたSE(3)-等変分子表現による電子密度予測

E3STO: Orbital Inspired SE(3)-Equivariant Molecular Representation for Electron Density Prediction ( http://arxiv.org/abs/2410.06119v1 )

ライセンス: Link先を確認
Ilan Mitnikov, Joseph Jacobson, (参考訳) 電子密度予測は分子系の基礎的な課題であり、分子相互作用の理解や正確な量子力学計算の実施など、様々な応用において重要な課題である。 しかし、密度汎関数理論(DFT)計算のスケーリングは違法に高価である。 機械学習手法は、効率と精度を提供する代替手段を提供する。 分子電子構造の表現を学習するために, Slater-Type Orbitals (STO) からインスピレーションを得た新しいSE(3)-equivariantアーキテクチャを導入する。 我々のアプローチは、学習された軌道のような分子表現に代替的な機能形式を提供する。 分子の電子密度のSOTA予測精度を他の分子動力学データよりも30~70%向上させることにより,本手法の有効性を示す。

Electron density prediction stands as a cornerstone challenge in molecular systems, pivotal for various applications such as understanding molecular interactions and conducting precise quantum mechanical calculations. However, the scaling of density functional theory (DFT) calculations is prohibitively expensive. Machine learning methods provide an alternative, offering efficiency and accuracy. We introduce a novel SE(3)-equivariant architecture, drawing inspiration from Slater-Type Orbitals (STO), to learn representations of molecular electronic structures. Our approach offers an alternative functional form for learned orbital-like molecular representation. We showcase the effectiveness of our method by achieving SOTA prediction accuracy of molecular electron density with 30-70\% improvement over other work on Molecular Dynamics data.
翻訳日:2024-11-01 11:10:50 公開日:2024-10-08
# 深層学習モデルとドロップアウト層のアンサンブルによる地震観測の不確かさ推定

Uncertainty estimation via ensembles of deep learning models and dropout layers for seismic traces ( http://arxiv.org/abs/2410.06120v1 )

ライセンス: Link先を確認
Giovanni Messuti, ortensia Amoroso, Ferdinando Napolitano, Mariarosaria Falanga, Paolo Capuano, Silvia Scarpetta, (参考訳) 深層学習モデルは地震学など様々な分野で顕著な成功を収めている。 しかし、ディープラーニングにおける大きな課題の1つは、ラベルのつかない例の存在である。 さらに、モデルの不確実性を正確に推定することは、機械学習におけるもう一つの課題である。 本研究では, 第一運動極性に基づく地震波形の分類を行うために, 畳み込みニューラルネットワーク(CNN)を開発した。 異なる設定で複数のCNNモデルをトレーニングしました。 また、不確実性を推定するためにネットワークのアンサンブルを構築した。 その結果、各トレーニング環境は良好な性能を示し、アンサンブル法は不確実性推定において個々のネットワークより優れていた。 ネットワークのアンサンブルの不確実性推定能力は,ドロップアウト層を用いて向上することができる。 さらに、異なるトレーニング設定の比較により、ドロップアウトの使用により、ネットワークの堅牢性は、誤ってラベル付けされた例よりも向上したことが明らかとなった。

Deep learning models have demonstrated remarkable success in various fields, including seismology. However, one major challenge in deep learning is the presence of mislabeled examples. Additionally, accurately estimating model uncertainty is another challenge in machine learning. In this study, we develop Convolutional Neural Networks (CNNs) to classify seismic waveforms based on first-motion polarity. We trained multiple CNN models with different settings. We also constructed ensembles of networks to estimate uncertainty. The results showed that each training setting achieved satisfactory performances, with the ensemble method outperforming individual networks in uncertainty estimation. We observe that the uncertainty estimation ability of the ensembles of networks can be enhanced using dropout layers. In addition, comparisons among different training settings revealed that the use of dropout improved the robustness of networks to mislabeled examples.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# より少ないもの:マルチホップKGQAのための小言語モデルと競合するサブグラフ検索

Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA ( http://arxiv.org/abs/2410.06121v1 )

ライセンス: Link先を確認
Wenyu Huang, Guancheng Zhou, Hongru Wang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan, (参考訳) Retrieval-Augmented Generation (RAG) は、外部の非パラメトリック知識を大規模言語モデル(LLM)に注入するために広く用いられている。 近年の研究では、知識グラフ(KG)にはLLMの貴重な外部知識が含まれていることが示唆されている。 KGから情報を取得することは、文書集合から情報を抽出することとは異なる。 既存のほとんどのアプローチは、関連するサブグラフを直接取得しようとしており、伝統的にセマンティックパーシングメソッドで必要とされる広範なSPARQLアノテーションを不要にしている。 本稿では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 具体的には、サブグラフ識別子を関係の列として定義し、それぞれが言語モデルに格納された特別なトークンとして表現する。 220Mパラメータのみからなる基本生成サブグラフ検索モデルは、7Bパラメータに依存する最先端モデルと比較して競争力のある検索性能を達成し、小言語モデルがサブグラフ検索タスクを実行可能であることを示す。 さらに,LLMリーダを接続した最大の3Bモデルは,WebQSPとCWQベンチマークの両方でSOTAのエンドツーエンド性能を新たに設定する。 私たちのモデルとデータはオンラインで利用可能になります。

Retrieval-Augmented Generation (RAG) is widely used to inject external non-parametric knowledge into large language models (LLMs). Recent works suggest that Knowledge Graphs (KGs) contain valuable external knowledge for LLMs. Retrieving information from KGs differs from extracting it from document sets. Most existing approaches seek to directly retrieve relevant subgraphs, thereby eliminating the need for extensive SPARQL annotations, traditionally required by semantic parsing methods. In this paper, we model the subgraph retrieval task as a conditional generation task handled by small language models. Specifically, we define a subgraph identifier as a sequence of relations, each represented as a special token stored in the language models. Our base generative subgraph retrieval model, consisting of only 220M parameters, achieves competitive retrieval performance compared to state-of-the-art models relying on 7B parameters, demonstrating that small language models are capable of performing the subgraph retrieval task. Furthermore, our largest 3B model, when plugged with an LLM reader, sets new SOTA end-to-end performance on both the WebQSP and CWQ benchmarks. Our model and data will be made available online: https://github.com/hwy9855/GSR.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# プロの写真解析と指導のための and-OR テンプレートの学習

Learning AND-OR Templates for Professional Photograph Parsing and Guidance ( http://arxiv.org/abs/2410.06124v1 )

ライセンス: Link先を確認
Xin Jin, Liaoruxing Zhang, Chenyu Fan, Wenbo Yuan, (参考訳) 写真芸術の発展以来、多くのいわゆる「テンプレート」、すなわち一連のテーマ化された、様式化された写真作品から要約された視覚的なスタイルが形成された。 本稿では,写真画像の合成テンプレートを学習し,これらの「テンプレート」を写真で分析し,要約することを提案する。 本稿では、写真画像から階層的再構成可能な画像テンプレートを学習し、これらの画像に使用される「テンプレート」を学習し、特徴付けるためのフレームワークを提案する。 本手法を用いて,写真の芸術的品質を測定し,写真指導を行った。 また,複数の画像生成タスクにおいて,「テンプレート」を指導に利用した。 実験結果から,学習したテンプレートは写真技術やスタイルをうまく表現できるが,提案手法は画像の質を人間のように評価できることがわかった。

Since the development of photography art, many so-called "templates" have been formed, namely visual styles summarized from a series of themed and stylized photography works. In this paper, we propose to analysize and and summarize these 'templates' in photography by learning composite templates of photography images. We present a framework for learning a hierarchical reconfigurable image template from photography images to learn and characterize the "templates" used in these photography images. Using this method, we measured the artistic quality of photography on the photos and conducted photography guidance. In addition, we also utilized the "templates" for guidance in several image generation tasks. Experimental results show that the learned templates can well describe the photography techniques and styles, whereas the proposed approach can assess the quality of photography images as human being does.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# $\textit{X}^2$-DFD: e${X}$plainableとe${X}$tendable Deepfake Detectionのためのフレームワーク

$\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection ( http://arxiv.org/abs/2410.06126v1 )

ライセンス: Link先を確認
Yize Chen, Zhiyuan Yan, Siwei Lyu, Baoyuan Wu, (参考訳) ディープフェイクの検出は重要なタスクとなっている。 既存の検出手法の多くは、人間に理解可能な説明を提供することなく、実際の/偽の予測のみを提供する。 近年, MLLMを用いた深度検出による説明可能性の向上が報告されている。 しかし, MLLM(例えばLLaVA)の性能は, このタスクの能力の欠如や, 強化戦略の欠如により, いまだに限られている。 本研究では, MLLMの強度と弱点を, フォージェリ特徴解析によるディープフェイク検出において実証的に評価する。 これらの評価に基づいて、3つのコアモジュールからなる${X}^2$-DFDという新しいフレームワークを提案する。 最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。 第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。 第3のモジュールであるWak Feature Supplementing (WFS)は、外部の専用のディープフェイク検出器を統合することで、低ランク機能に対する微調整MLLMの機能を改善する。 さらに,本フレームワークの有効性を検証するために,MFAモジュール用の自動偽造画像生成,評価,ランク付け手順を設計し,SFSモデルに対して,上位機能に基づく説明を含む実画像と偽画像を含む微調整データセットの自動生成手順を開発,事前訓練されたMLLMの低検出機能に対応するブレンディングアーティファクトに着目した従来型のディープフェイク検出器をWFSモジュールに統合する,実践的な実装を提案する。 実験の結果,本手法は検出性能と説明性能を両立させることがわかった。

Detecting deepfakes has become an important task. Most existing detection methods provide only real/fake predictions without offering human-comprehensible explanations. Recent studies leveraging MLLMs for deepfake detection have shown improvements in explainability. However, the performance of pre-trained MLLMs (e.g., LLaVA) remains limited due to a lack of understanding of their capabilities for this task and strategies to enhance them. In this work, we empirically assess the strengths and weaknesses of MLLMs specifically in deepfake detection via forgery features analysis. Building on these assessments, we propose a novel framework called ${X}^2$-DFD, consisting of three core modules. The first module, Model Feature Assessment (MFA), measures the detection capabilities of forgery features intrinsic to MLLMs, and gives a descending ranking of these features. The second module, Strong Feature Strengthening (SFS), enhances the detection and explanation capabilities by fine-tuning the MLLM on a dataset constructed based on the top-ranked features. The third module, Weak Feature Supplementing (WFS), improves the fine-tuned MLLM's capabilities on lower-ranked features by integrating external dedicated deepfake detectors. To verify the effectiveness of this framework, we further present a practical implementation, where an automated forgery features generation, evaluation, and ranking procedure is designed for MFA module; an automated generation procedure of the fine-tuning dataset containing real and fake images with explanations based on top-ranked features is developed for SFS model; an external conventional deepfake detector focusing on blending artifact, which corresponds to a low detection capability in the pre-trained MLLM, is integrated for WFS module. Experiments show that our approach enhances both detection and explanation performance.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# De-VertiFL: 分散垂直学習のためのソリューション

De-VertiFL: A Solution for Decentralized Vertical Federated Learning ( http://arxiv.org/abs/2410.06127v1 )

ライセンス: Link先を確認
Alberto Huertas Celdrán, Chao Feng, Sabyasachi Banik, Gerome Bovet, Gregorio Martinez Perez, Burkhard Stiller, (参考訳) 2016年に導入されたフェデレートラーニング(FL)は、コラボレーティブモデルトレーニング環境におけるデータのプライバシを高めるために設計された。 FLパラダイムの中では、クライアントが同じ機能と異なるデータサンプルを共有する水平FLが、集中型と分散型の両方で広く研究されている。 対照的に、クライアントが異なるが機密性の高い同一エンティティに関するデータを保有する現実世界の分散シナリオにおいて重要なVertical Federated Learning(VFL)は、いまだ過小評価されている。 そこで本研究では、分散VFL設定でモデルをトレーニングするための新しいソリューションであるDe-VertiFLを紹介した。 De-VertiFLは、新しいネットワークアーキテクチャディストリビューション、革新的な知識交換スキーム、分散フェデレーショントレーニングプロセスを導入することで貢献する。 具体的には、De-VertiFLは、フェデレーションクライアント間で隠れた層出力の共有を可能にし、参加者は中間計算の恩恵を受け、学習効率が向上する。 De-VertiFLは、バイナリとマルチクラスの分類タスクにおいて、画像データと表データの両方を含む、よく知られたデータセットを使用して評価されている。 その結果、De-VertiFLは一般的にF1スコアのパフォーマンスにおいて最先端のメソッドを上回り、分散化とプライバシ保護のフレームワークを維持していることがわかった。

Federated Learning (FL), introduced in 2016, was designed to enhance data privacy in collaborative model training environments. Among the FL paradigm, horizontal FL, where clients share the same set of features but different data samples, has been extensively studied in both centralized and decentralized settings. In contrast, Vertical Federated Learning (VFL), which is crucial in real-world decentralized scenarios where clients possess different, yet sensitive, data about the same entity, remains underexplored. Thus, this work introduces De-VertiFL, a novel solution for training models in a decentralized VFL setting. De-VertiFL contributes by introducing a new network architecture distribution, an innovative knowledge exchange scheme, and a distributed federated training process. Specifically, De-VertiFL enables the sharing of hidden layer outputs among federation clients, allowing participants to benefit from intermediate computations, thereby improving learning efficiency. De-VertiFL has been evaluated using a variety of well-known datasets, including both image and tabular data, across binary and multiclass classification tasks. The results demonstrate that De-VertiFL generally surpasses state-of-the-art methods in F1-score performance, while maintaining a decentralized and privacy-preserving framework.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# 因果モデルのゼロショット学習

Zero-Shot Learning of Causal Models ( http://arxiv.org/abs/2410.06128v1 )

ライセンス: Link先を確認
Divyat Mahajan, Jannes Gladrow, Agrin Hilmkil, Cheng Zhang, Meyer Scetbon, (参考訳) 時間が経つにつれてデータセットの取得が増加し、私たちは世界の精密で多様な記述にアクセスでき、あらゆる種類の現象を捉えています。 これらのデータセットは未知の因果生成過程の実験的観察と見なすことができ、一般に構造因果モデル(Structure Causal Models, SCMs)によって記述される。 これらの因果生成過程を観測から回収することは、深刻な課題となり、しばしばデータセットごとに特定の生成モデルを学ぶ必要がある。 本研究では,データセットの因果生成過程をゼロショットで推論できるemph{single}モデルを学習することを提案する。 各データセットに対して特定のSCMを学習するのではなく、~\cite{scetbon2024fip} で提案された固定点アプローチ(FiP)を有効にすることで、生成したSCMを経験的表現に基づいて条件付きで推測する。 より具体的には、合成データセット上での観測と因果構造から生成SCMを推定するために、FiPの条件付きバージョンを学ぶことを提案する。 我々のモデルは、真の生成的SCMをゼロショットで予測し、副産物として予測できることを示します。 (i)新しいデータセットのサンプルを生成し、 (二)介在するものを推定すること。 本実験は,各データセットに特化して訓練されたSoTA法と同等の性能を,内分布問題と外分布問題の両方で達成できることを実証する。 私たちの知る限りでは、SCMが観測からゼロショットで推論され、データセット間の因果知識の同化に向けたパラダイムシフトの道を開くのは、これが初めてです。

With the increasing acquisition of datasets over time, we now have access to precise and varied descriptions of the world, capturing all sorts of phenomena. These datasets can be seen as empirical observations of unknown causal generative processes, which can commonly be described by Structural Causal Models (SCMs). Recovering these causal generative processes from observations poses formidable challenges, and often require to learn a specific generative model for each dataset. In this work, we propose to learn a \emph{single} model capable of inferring in a zero-shot manner the causal generative processes of datasets. Rather than learning a specific SCM for each dataset, we enable the Fixed-Point Approach (FiP) proposed in~\cite{scetbon2024fip}, to infer the generative SCMs conditionally on their empirical representations. More specifically, we propose to amortize the learning of a conditional version of FiP to infer generative SCMs from observations and causal structures on synthetically generated datasets. We show that our model is capable of predicting in zero-shot the true generative SCMs, and as a by-product, of (i) generating new dataset samples, and (ii) inferring intervened ones. Our experiments demonstrate that our amortized procedure achieves performances on par with SoTA methods trained specifically for each dataset on both in and out-of-distribution problems. To the best of our knowledge, this is the first time that SCMs are inferred in a zero-shot manner from observations, paving the way for a paradigmatic shift towards the assimilation of causal knowledge across datasets.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# 視線追跡のための教師なしアイレジオンセグメンテーションに向けて

Towards Unsupervised Eye-Region Segmentation for Eye Tracking ( http://arxiv.org/abs/2410.06131v1 )

ライセンス: Link先を確認
Jiangfan Deng, Zhuang Jia, Zhaoxue Wang, Xiang Long, Daniel K. Du, (参考訳) 目を見つけて部品(例えば瞳孔と虹彩)を解析することは、画像ベースの視線追跡の必須条件であり、今日のヘッドマウントVR/ARデバイスでは欠かせないモジュールになっている。 しかし、セグメンタを訓練する典型的なルートは、面倒なハンドラベリングを必要とする。 本研究では,教師なしの方法を探究する。 まず、人間の目の前兆を利用して画像から信号を抽出し、目領域構造を示す粗い手がかりを確立する。 これらのスパースでノイズの多い手がかりに基づいて、セグメント化ネットワークをトレーニングし、各部分の正確な領域を徐々に特定する。 眼領域の正確な解析を実現するために,まず,事前訓練された基礎モデルセグメンテーション(SAM)を自動的に活用し,眼の表示を洗練させる。 そして、学習プロセスは、進歩的かつ事前認識の原則に従ってエンドツーエンドで設計される。 実験の結果、教師なしのアプローチは、教師付き学習下での成績の90%(瞳孔と虹彩)と85%(視線領域全体)を容易に達成できることがわかった。

Finding the eye and parsing out the parts (e.g. pupil and iris) is a key prerequisite for image-based eye tracking, which has become an indispensable module in today's head-mounted VR/AR devices. However, a typical route for training a segmenter requires tedious handlabeling. In this work, we explore an unsupervised way. First, we utilize priors of human eye and extract signals from the image to establish rough clues indicating the eye-region structure. Upon these sparse and noisy clues, a segmentation network is trained to gradually identify the precise area for each part. To achieve accurate parsing of the eye-region, we first leverage the pretrained foundation model Segment Anything (SAM) in an automatic way to refine the eye indications. Then, the learning process is designed in an end-to-end manner following progressive and prior-aware principle. Experiments show that our unsupervised approach can easily achieve 90% (the pupil and iris) and 85% (the whole eye-region) of the performances under supervised learning.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# 分布外検出のための適応ラベル平滑化

Adaptive Label Smoothing for Out-of-Distribution Detection ( http://arxiv.org/abs/2410.06134v1 )

ライセンス: Link先を確認
Mingle Xu, Jaehwan Lee, Sook Yoon, Dong Sun Park, (参考訳) 近年,未知のクラスと未知のクラスを区別することを目的としたアウト・オブ・ディストリビューション(OOD)検出が注目されている。 主な課題は、トレーニングプロセスで未知のクラスからサンプルを入手できないことであり、効果的な戦略は既知のクラスのパフォーマンスを改善することである。 したがって、データ拡張や長いトレーニングのような有益な戦略を使用することで、OOD検出を改善することができる。 しかし、既知のクラスを分類する効果的な手法であるラベルスムーシングは、OOD検出の性能を低下させ、この現象を調査中である。 本稿ではまず,ラベル平滑化における限定的かつ事前定義された学習目標が,最大確率とロジットを小さくし,OOD検出性能が悪化することを示す。 この問題を緩和するために,適応ラベル平滑化 (ALS) と呼ばれる新しい正規化手法を提案する。 2つのバックボーンを持つ6つのデータセットの大規模な実験結果は、ALSが既知のサンプルを分類し、未知のサンプルを明確なマージンで識別することに寄与していることを示唆している。 私たちのコードは一般に公開されます。

Out-of-distribution (OOD) detection, which aims to distinguish unknown classes from known classes, has received increasing attention recently. A main challenge within is the unavailable of samples from the unknown classes in the training process, and an effective strategy is to improve the performance for known classes. Using beneficial strategies such as data augmentation and longer training is thus a way to improve OOD detection. However, label smoothing, an effective method for classifying known classes, degrades the performance of OOD detection, and this phenomenon is under exploration. In this paper, we first analyze that the limited and predefined learning target in label smoothing results in the smaller maximal probability and logit, which further leads to worse OOD detection performance. To mitigate this issue, we then propose a novel regularization method, called adaptive label smoothing (ALS), and the core is to push the non-true classes to have same probabilities whereas the maximal probability is neither fixed nor limited. Extensive experimental results in six datasets with two backbones suggest that ALS contributes to classifying known samples and discerning unknown samples with clear margins. Our code will be available to the public.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# ディープラーニングを用いたQUICにおけるHTTP/3応答数の推定

Estimating the Number of HTTP/3 Responses in QUIC Using Deep Learning ( http://arxiv.org/abs/2410.06140v1 )

ライセンス: Link先を確認
Barak Gahtan, Robert J. Shahla, Reuven Cohen, Alex M. Bronstein, (参考訳) QUICは、新しい、そしてますます使われるトランスポートプロトコルであり、より優れたセキュリティ、パフォーマンス、ストリーム多重化のような機能を提供することでTCPを強化する。 しかしこれらの機能は、Webトラフィックの監視と分析を必要とするネットワークミドルボックスにも課題を課している。 本稿では、所定のQUIC接続におけるHTTP/3応答数をオブザーバによって推定する新しい方法を提案する。 この推定では、サーバの振る舞い、クライアントとサーバのインタラクション、データ転送の効率が明らかになり、これはロードバランシングソリューションの設計やHTTP/3の洪水攻撃の検出など、さまざまなアプリケーションにとって不可欠である。 提案手法はQUIC接続トレースを一連の画像に変換し,機械学習(ML)モデルを用いて応答数を予測する。 そして、QUIC接続の画像を集約することにより、オブザーバはレスポンスの総数を推定することができる。 この問題は離散回帰問題として定式化されるので、専用損失関数を導入する。 提案手法は,4ヶ月間に44,000ドル以上のウェブサイトから収集された10万ドル以上のトレースから得られた700万以上の画像のデータセットに基づいて評価される。 このスキームは、既知のWebサーバ設定と未知のWebサーバ設定の両方において最大97 %の累積精度と、未知のQUICトレースにおけるレスポンスの総数の推定における92 %の精度を達成する。

QUIC, a new and increasingly used transport protocol, enhances TCP by providing better security, performance, and features like stream multiplexing. These features, however, also impose challenges for network middle-boxes that need to monitor and analyze web traffic. This paper proposes a novel solution for estimating the number of HTTP/3 responses in a given QUIC connection by an observer. This estimation reveals server behavior, client-server interactions, and data transmission efficiency, which is crucial for various applications such as designing a load balancing solution and detecting HTTP/3 flood attacks. The proposed scheme transforms QUIC connection traces into a sequence of images and trains machine learning (ML) models to predict the number of responses. Then, by aggregating images of a QUIC connection, an observer can estimate the total number of responses. As the problem is formulated as a discrete regression problem, we introduce a dedicated loss function. The proposed scheme is evaluated on a dataset of over seven million images, generated from $100,000$ traces collected from over $44,000$ websites over a four-month period, from various vantage points. The scheme achieves up to 97\% cumulative accuracy in both known and unknown web server settings and 92\% accuracy in estimating the total number of responses in unseen QUIC traces.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# blockLAW: 合法的な自動化とワークフローのためのブロックチェーン技術 -- サイバー倫理とサイバーセキュリティプラットフォーム

blockLAW: Blockchain Technology for Legal Automation and Workflow -- Cyber Ethics and Cybersecurity Platforms ( http://arxiv.org/abs/2410.06143v1 )

ライセンス: Link先を確認
Bishwo Prakash Pokharel, Naresh Kshetri, (参考訳) 現在の法的環境においては、信頼と有効性を促進するためにデータの保護と信頼性を優先することが不可欠である。 本研究は,ブロックチェーン技術が,法的自動化,サイバーセキュリティ,倫理的懸念に対するその影響を調査するために,BlockLAWの形で適用可能であるかを検討する。 分散型台帳と交換不能なBlockchainの特徴は、法的手続きを簡素化し、スマートコントラクトによるコントラクト実行を自動化するとともに、法的トランザクションの透明性を向上させる機会を提供する。 ブロックチェーンは、倫理的基準を維持しつつ、スケーラビリティ、規制の遵守、プライバシーや公正性といった倫理的ジレンマに対処する上で、法的プロセスの更新において重要な手段であると考えられている。 この研究は、最近の進展を調査し、ブロックチェーンが法的構造に与える影響を評価し、法的手続きを強化し、法体系における透明性を保証する可能性の展望を提供する。 さらにブロックチェーンの能力は、法律専門家が機密情報をどう処理し保護するかを再定義し、より強く、より効果的で、信頼性の高い法的手続きにつながることを強調している。 私たちはまた、統合計画、実装戦略、イノベーション、進歩、法的システムのためのブロックチェーン統合フレームワークのトレンドといった、法的システムへのブロックチェーン統合に関する技術的考慮についても議論しました。

In the current legal environment, it is essential to prioritize the protection and reliability of data to promote trust and effectiveness. This study examines how blockchain technology in the form of blockLAW can be applicable to investigate its effects on legal automation, cybersecurity, and ethical concerns. The decentralized ledger and unchangeable characteristics of Blockchain provide opportunities to simplify legal procedures, automate contract execution with smart contracts, and improve transparency in legal transactions. Blockchain is seen as a crucial instrument for updating legal processes while maintaining ethical standards, tackling issues like scalability, regulatory adherence, and ethical dilemmas such as privacy and fairness. The study examines recent developments and evaluates blockchain impact on legal structures, offering perspectives on its potential to enhance legal procedures and guarantee transparency in legal systems. It further emphasizes blockchain ability to redefine how legal professionals handle and protect sensitive information, leading to stronger, more effective, and reliable legal procedures. We have also discussed the technological considerations when it comes to blockchain integration into legal systems like integration planning, implementation strategies, innovations, advancements, trends with Blockchain Integration Framework for legal systems.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# スケーラブルな画像特徴圧縮に向けて:コンテンツ適応型および拡散型アプローチ

Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach ( http://arxiv.org/abs/2410.06149v1 )

ライセンス: Link先を確認
Sha Guo, Zhuo Chen, Yang Zhao, Ning Zhang, Xiaotong Li, Lingyu Duan, (参考訳) 伝統的な画像コーデックは、しばしば機械ビジョンのタスクを犠牲にして、信号の忠実さと人間の知覚を強調する。 ディープラーニング手法は、人間と機械の両方に最適化されたリッチなセマンティック埋め込みを利用することで、有望なコーディング性能を実証している。 しかし、これらのコンパクトな埋め込みは、輪郭やテクスチャのような細部を捉えるのに苦労し、不完全な再構築をもたらす。 さらに、既存の学習ベースのコーデックにはスケーラビリティがない。 これらの制約に対処するために,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。 提案手法は, マシンビジョンタスクに不可欠な特徴を保ちながら, 知覚品質を高めながら, 微細なテクスチャを拡散処理により符号化する。 このアプローチでは、マルコフパレット拡散モデルと、広く使われている特徴抽出器と画像生成器を組み合わせて、効率的なデータ圧縮を実現する。 協調的なテクスチャ・セマンティック特徴抽出と擬似ラベル生成を利用して、テクスチャ情報を正確にキャプチャする。 次に、コンテンツ適応型マルコフパレット拡散モデルを適用し、低レベルのテクスチャと高レベルのセマンティックコンテンツの両方をスケーラブルに表現する。 このフレームワークは、中間拡散状態を選択して圧縮比を柔軟に制御し、異なる操作点におけるディープラーニングモデルの再学習を不要にする。 画像再構成と,物体検出,セグメンテーション,顔のランドマーク検出などの下流マシンビジョンタスクにおいて,提案手法の有効性を実証し,最先端の手法と比較して知覚品質に優れることを示した。

Traditional image codecs emphasize signal fidelity and human perception, often at the expense of machine vision tasks. Deep learning methods have demonstrated promising coding performance by utilizing rich semantic embeddings optimized for both human and machine vision. However, these compact embeddings struggle to capture fine details such as contours and textures, resulting in imperfect reconstructions. Furthermore, existing learning-based codecs lack scalability. To address these limitations, this paper introduces a content-adaptive diffusion model for scalable image compression. The proposed method encodes fine textures through a diffusion process, enhancing perceptual quality while preserving essential features for machine vision tasks. The approach employs a Markov palette diffusion model combined with widely used feature extractors and image generators, enabling efficient data compression. By leveraging collaborative texture-semantic feature extraction and pseudo-label generation, the method accurately captures texture information. A content-adaptive Markov palette diffusion model is then applied to represent both low-level textures and high-level semantic content in a scalable manner. This framework offers flexible control over compression ratios by selecting intermediate diffusion states, eliminating the need for retraining deep learning models at different operating points. Extensive experiments demonstrate the effectiveness of the proposed framework in both image reconstruction and downstream machine vision tasks such as object detection, segmentation, and facial landmark detection, achieving superior perceptual quality compared to state-of-the-art methods.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# 品質の多様性を模倣する学習

Quality Diversity Imitation Learning ( http://arxiv.org/abs/2410.06151v1 )

ライセンス: Link先を確認
Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Ivor Tsang, (参考訳) 模倣学習(IL)は,ロボット制御など,様々な応用において大きな可能性を秘めている。 しかしながら、従来のILメソッドは通常、1つの特定のタイプの振る舞いのみを学ぶように設計されている。 本研究では,QD-IL(Quality Diversity Imitation Learning)の最初の汎用フレームワークを紹介する。 本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。 実験により,本フレームワークは,Mujoco環境からの連続制御タスクにおいてGAILとVAILのQD性能を著しく向上させる。 さらに,最も難易度の高いヒューマノイド環境では,2倍の性能を実現する方法も提案した。

Imitation learning (IL) has shown great potential in various applications, such as robot control. However, traditional IL methods are usually designed to learn only one specific type of behavior since demonstrations typically correspond to a single expert. In this work, we introduce the first generic framework for Quality Diversity Imitation Learning (QD-IL), which enables the agent to learn a broad range of skills from limited demonstrations. Our framework integrates the principles of quality diversity with adversarial imitation learning (AIL) methods, and can potentially improve any inverse reinforcement learning (IRL) method. Empirically, our framework significantly improves the QD performance of GAIL and VAIL on the challenging continuous control tasks derived from Mujoco environments. Moreover, our method even achieves 2x expert performance in the most challenging Humanoid environment.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# AgentSquare: モジュールデザイン空間におけるLLMエージェントの自動検索

AgentSquare: Automatic LLM Agent Search in Modular Design Space ( http://arxiv.org/abs/2410.06153v1 )

ライセンス: Link先を確認
Yu Shang, Yu Li, Keyu Zhao, Likai Ma, Jiahe Liu, Fengli Xu, Yong Li, (参考訳) 近年のLarge Language Models (LLMs) の進歩は,幅広い複雑なタスクを処理できるエージェントシステムの急速な成長につながっている。 しかしながら、現在の研究は主に手動のタスク固有の設計に依存しており、新しいタスクへの適応性に制限されている。 本稿では,新しい研究課題であるModularized LLM Agent Search (MoLAS)を紹介する。 本稿では,既存のLLMエージェント設計を,均一なIOインターフェースを持つ4つの基本モジュール(プランニング,リ推論,ツール利用,メモリ)に抽象化するモジュール設計空間を提案する。 この設計空間を基盤として,モジュールの進化と再結合という2つのコア機構を導入し,最適化されたLLMエージェントを効率的に検索する,AgentSquareという新しいLLMエージェント検索フレームワークを提案する。 プロセスをさらに高速化するために,テキスト内代理モデルを用いてエージェント設計をスキップする性能予測器を設計する。 6つのベンチマークにわたる大規模な実験は、Web、具体化、ツールの使用、ゲームアプリケーションの様々なシナリオをカバーし、エージェントSquareが手作りのエージェントを大幅に上回り、よく知られた人間のデザインに対して平均17.2%のパフォーマンス向上を達成したことを示している。 さらに、AgentSquareは解釈可能な設計の洞察を生成し、エージェントアーキテクチャの深い理解とタスクパフォーマンスへの影響を可能にする。 我々は,モジュール型デザイン空間とエージェントSquare検索フレームワークが,先行して成功したデザインの可能性を完全に活用し,研究コミュニティの総合的な取り組みを統合するためのプラットフォームを提供すると考えている。 Code repoはhttps://github.com/tsinghua-fib-lab/AgentSquareで入手できる。

Recent advancements in Large Language Models (LLMs) have led to a rapid growth of agentic systems capable of handling a wide range of complex tasks. However, current research largely relies on manual, task-specific design, limiting their adaptability to novel tasks. In this paper, we introduce a new research problem: Modularized LLM Agent Search (MoLAS). We propose a modular design space that abstracts existing LLM agent designs into four fundamental modules with uniform IO interface: Planning, Reasoning, Tool Use, and Memory. Building on this design space, we present a novel LLM agent search framework called AgentSquare, which introduces two core mechanisms, i.e., module evolution and recombination, to efficiently search for optimized LLM agents. To further accelerate the process, we design a performance predictor that uses in-context surrogate models to skip unpromising agent designs. Extensive experiments across six benchmarks, covering the diverse scenarios of web, embodied, tool use and game applications, show that AgentSquare substantially outperforms hand-crafted agents, achieving an average performance gain of 17.2% against best-known human designs. Moreover, AgentSquare can generate interpretable design insights, enabling a deeper understanding of agentic architecture and its impact on task performance. We believe that the modular design space and AgentSquare search framework offer a platform for fully exploiting the potential of prior successful designs and consolidating the collective efforts of research community. Code repo is available at https://github.com/tsinghua-fib-lab/AgentSquare.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# GLOV:視覚言語モデルのための暗黙の最適化手法としての大規模言語モデル

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models ( http://arxiv.org/abs/2410.06154v1 )

ライセンス: Link先を確認
M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass, (参考訳) 本研究では,Large Language Models (LLMs) が視覚言語モデル (VLMs) の暗黙の最適化機能として機能し,下流の視覚タスクを向上する新しい手法(GLOV)を提案する。 私たちのGLOVメタプロンプトは、下流のタスク記述でLLMをメタプロンプトし、適切なVLMプロンプト(例えば、CLIPによるゼロショット分類)にクエリします。 これらのプロンプトは、フィットネス機能を通して得られる純度尺度に従ってランク付けされる。 各最適化ステップにおいて、ランク付けされたプロンプトは、ダウンストリームのVLMで好まれるテキストプロンプトのタイプに関する知識をLLMに装備するために、インコンテキストの例(アキュラシーを含む)としてフィードされる。 さらに, 従来の最適化ステップにおいて, LLMが検出した正および負の解から, 組込みのオフセット差ベクトルを, ネットワークの中間層に追加することにより, 各最適化ステップにおいてLLM生成プロセスを明示的に操る。 このオフセットベクトルは、下流のVLMで好まれる言語タイプに向けてLLM生成を操縦し、下流の視覚タスクのパフォーマンスを向上する。 我々は、VLMの2つのファミリー、すなわちデュアルエンコーダ(eg, CLIP)とエンコーダデコーダ(eg, LLaVa)モデルを使用して、16種類の多様なデータセット上でGLOVを総合的に評価し、これらのモデルに対して、検出されたソリューションが認識性能を最大15.0%、57.5%(平均3.8%、21.6%)向上できることを示す。

In this work, we propose a novel method (GLOV) enabling Large Language Models (LLMs) to act as implicit Optimizers for Vision-Langugage Models (VLMs) to enhance downstream vision tasks. Our GLOV meta-prompts an LLM with the downstream task description, querying it for suitable VLM prompts (e.g., for zero-shot classification with CLIP). These prompts are ranked according to a purity measure obtained through a fitness function. In each respective optimization step, the ranked prompts are fed as in-context examples (with their accuracies) to equip the LLM with the knowledge of the type of text prompts preferred by the downstream VLM. Furthermore, we also explicitly steer the LLM generation process in each optimization step by specifically adding an offset difference vector of the embeddings from the positive and negative solutions found by the LLM, in previous optimization steps, to the intermediate layer of the network for the next generation step. This offset vector steers the LLM generation toward the type of language preferred by the downstream VLM, resulting in enhanced performance on the downstream vision tasks. We comprehensively evaluate our GLOV on 16 diverse datasets using two families of VLMs, i.e., dual-encoder (e.g., CLIP) and encoder-decoder (e.g., LLaVa) models -- showing that the discovered solutions can enhance the recognition performance by up to 15.0% and 57.5% (3.8% and 21.6% on average) for these models.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# 複数の相補的視点からアプリの動作を可視化したAndroidマルウェアの検出

Detecting Android Malware by Visualizing App Behaviors from Multiple Complementary Views ( http://arxiv.org/abs/2410.06157v1 )

ライセンス: Link先を確認
Zhaoyi Meng, Jiale Zhang, Jiaqi Guo, Wansen Wang, Wenchao Huang, Jie Cui, Hong Zhong, Yan Xiong, (参考訳) ディープラーニングはAndroidのマルウェア検出を実現するための有望な技術として登場した。 検出能力をさらに解き放つために、ソフトウェアビジュアライゼーションは、アプリの動作の詳細をはっきりと分析するために統合することができる。 しかし、より高度なマルウェアに直面した既存の可視化ベースの手法は、1つまたはランダムに選択された少数のビューから分析し、限られた攻撃タイプしか検出できない。 我々は,複数の相補的なビューからアプリの動作を可視化することで,Androidマルウェアを検出する新しい手法であるLensDroidを提案し,実装する。 私たちのゴールは、ディープラーニングとソフトウェアビジュアライゼーションを組み合わせたパワーを活用して、本質的にリンクされていない高レベルの機能を自動キャプチャし、集約することで、Androidアプリの動作に隠れた悪意を明らかにすることです。 アプリの詳細を徹底的に理解するために、動作の感度、運用状況、サポート環境の3つの異なるビューから、アプリの動作を可視化する。 次に、ビューに基づいて高次セマンティクスを抽出する。 ビューのセマンティックな相補性を活用するために、下流タスクへのコントリビューションに基づいて、視覚化された機能をローカルからグローバルに融合するディープニューラルネットワークベースモデルを設計する。 5つのベースラインテクニックとの包括的な比較は、全体的な脅威、アプリの進化、ゼロデイマルウェアを含む3つの現実の典型的なシナリオにおいて、51K以上のアプリのデータセット上で実施される。 実験の結果,LensDroidの全体的な性能はベースライン技術よりも優れていた。 また、ビューの相補性を検証し、LensDroidのマルチビュー融合がAndroidのマルウェア検出を強化することを示す。

Deep learning has emerged as a promising technology for achieving Android malware detection. To further unleash its detection potentials, software visualization can be integrated for analyzing the details of app behaviors clearly. However, facing increasingly sophisticated malware, existing visualization-based methods, analyzing from one or randomly-selected few views, can only detect limited attack types. We propose and implement LensDroid, a novel technique that detects Android malware by visualizing app behaviors from multiple complementary views. Our goal is to harness the power of combining deep learning and software visualization to automatically capture and aggregate high-level features that are not inherently linked, thereby revealing hidden maliciousness of Android app behaviors. To thoroughly comprehend the details of apps, we visualize app behaviors from three related but distinct views of behavioral sensitivities, operational contexts and supported environments. We then extract high-order semantics based on the views accordingly. To exploit semantic complementarity of the views, we design a deep neural network based model for fusing the visualized features from local to global based on their contributions to downstream tasks. A comprehensive comparison with five baseline techniques is performed on datasets of more than 51K apps in three real-world typical scenarios, including overall threats, app evolution and zero-day malware. The experimental results show that the overall performance of LensDroid is better than the baseline techniques. We also validate the complementarity of the views and demonstrate that the multi-view fusion in LensDroid enhances Android malware detection.
翻訳日:2024-11-01 11:00:50 公開日:2024-10-08
# GR-2: ロボット操作のためのWebスケール知識を用いた生成ビデオ言語行動モデル

GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation ( http://arxiv.org/abs/2410.06158v1 )

ライセンス: Link先を確認
Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu, (参考訳) 本稿では,多目的で汎用的なロボット操作のための,最先端の汎用ロボットエージェントGR-2を提案する。 GR-2は、世界のダイナミクスを捉えるために、多数のインターネットビデオで事前訓練されている。 3800万のビデオクリップと500億以上のトークンを含むこの大規模な事前トレーニングは、GR-2に、その後のポリシー学習中に幅広いロボットタスクと環境を一般化する能力を備えている。 その後、GR-2はロボット軌道を用いた映像生成と動作予測の両方のために微調整される。 優れたマルチタスク学習能力を示し、100以上のタスクで平均97.7%の成功率を達成した。 さらに、GR-2は、新しい背景、環境、オブジェクト、タスクを含む、以前は目に見えない新しいシナリオに例外的な一般化を示す。 特にGR-2はモデルサイズと効果的にスケールし、継続的な成長と応用の可能性を強調している。 プロジェクトページ: \url{https://gr2-manipulation.github.io}。

We present GR-2, a state-of-the-art generalist robot agent for versatile and generalizable robot manipulation. GR-2 is first pre-trained on a vast number of Internet videos to capture the dynamics of the world. This large-scale pre-training, involving 38 million video clips and over 50 billion tokens, equips GR-2 with the ability to generalize across a wide range of robotic tasks and environments during subsequent policy learning. Following this, GR-2 is fine-tuned for both video generation and action prediction using robot trajectories. It exhibits impressive multi-task learning capabilities, achieving an average success rate of 97.7% across more than 100 tasks. Moreover, GR-2 demonstrates exceptional generalization to new, previously unseen scenarios, including novel backgrounds, environments, objects, and tasks. Notably, GR-2 scales effectively with model size, underscoring its potential for continued growth and application. Project page: \url{https://gr2-manipulation.github.io}.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# 低磁場小児脳MRI画像における外見に基づくシミュレーションと海馬セグメンテーションを用いた自動品質評価

Automated quality assessment using appearance-based simulations and hippocampus segmentation on low-field paediatric brain MR images ( http://arxiv.org/abs/2410.06161v1 )

ライセンス: Link先を確認
Vaanathi Sundaresan, Nicola K Dinsdale, (参考訳) 小児脳の構造的成長を理解することは、様々な神経発達障害の同定における重要なステップである。 しかし、我々の知識は、特に低所得国や中所得国における自動画像解析ツールの欠如や、高磁場MR画像の欠如など、多くの要因によって制限されている。 ローフィールドシステムはこれらの国で研究が進んでいるため、画像の自動解析ツールを開発する必要がある。 この作業では、予備的なステップとして、2つのタスクを検討します。 1【品質保証の自動化】 2) 海馬のセグメンテーションでは, 複数のアプローチを比較した。 自動品質保証タスクでは、DenseNetと外見に基づく人工物合成の変換を組み合わせることで、82.3%の重み付き精度で最高のパフォーマンスを実現した。 セグメンテーションタスクでは、平均アトラスの登録が最高であり、最終Diceスコアは0.61である。 以上の結果から, 画像は大規模病理と大規模解剖学的発達の理解を提供することができるが, より粒度の細かい解析には依然として障壁が残っていることが示唆された。

Understanding the structural growth of paediatric brains is a key step in the identification of various neuro-developmental disorders. However, our knowledge is limited by many factors, including the lack of automated image analysis tools, especially in Low and Middle Income Countries from the lack of high field MR images available. Low-field systems are being increasingly explored in these countries, and, therefore, there is a need to develop automated image analysis tools for these images. In this work, as a preliminary step, we consider two tasks: 1) automated quality assurance and 2) hippocampal segmentation, where we compare multiple approaches. For the automated quality assurance task a DenseNet combined with appearance-based transformations for synthesising artefacts produced the best performance, with a weighted accuracy of 82.3%. For the segmentation task, registration of an average atlas performed the best, with a final Dice score of 0.61. Our results show that although the images can provide understanding of large scale pathologies and gross scale anatomical development, there still remain barriers for their use for more granular analyses.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# テキストからビデオへの時間的推論

Temporal Reasoning Transfer from Text to Video ( http://arxiv.org/abs/2410.06166v1 )

ライセンス: Link先を確認
Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu, (参考訳) ビデオ大言語モデル(ビデオLLM)はビデオ理解において有望な能力を示しているが、時間的変化の追跡と時間的関係の推論に苦慮している。 従来の研究では、この制限は視覚入力の時間的非効率な符号化に起因していたが、診断研究により、ビデオ表現は、たとえ小さなプロブリング分類器であっても、完全な精度を達成するのに十分な情報を含んでいることが明らかとなった。 意外なことに、ビデオLLMの時間的推論能力の鍵となるボトルネックは、テキスト時間的質問応答タスクにおける粗悪なパフォーマンスによって証明されるように、その根底にあるLLMの時間的概念に対する難しさに起因している。 この発見に基づいて、テクスチュアル・テンポラル・推論・トランスファー(T3)を導入する。 T3は、既存の画像テキストデータセットから純粋なテキスト形式で多様な時間的推論タスクを合成し、複雑な時間的シナリオでビデオサンプルの不足に対処する。 注目すべきは、ビデオデータを一切使わずに、T3はLongVA-7Bの時間的理解を強化し、挑戦的なTempCompassベンチマークにおいて5.3の絶対精度の向上を実現し、28,000のビデオサンプルでトレーニングされたShareGPT4Video-8Bよりも優れたパフォーマンスを実現したことだ。 さらに、拡張されたLongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。 例えば、ビデオMMEのテンポラル推論タスクにおいて49.7の精度を実現し、InternVL-Chat-V1.5-20BやVILA1.5-40Bのような強力な大規模モデルを上回る。 さらに,テキストから映像領域への時間的推論能力の移譲の有効性を検証し,テキストと映像の時間的タスク性能の相関性を示す。

Video Large Language Models (Video LLMs) have shown promising capabilities in video comprehension, yet they struggle with tracking temporal changes and reasoning about temporal relationships. While previous research attributed this limitation to the ineffective temporal encoding of visual inputs, our diagnostic study reveals that video representations contain sufficient information for even small probing classifiers to achieve perfect accuracy. Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning capability stems from the underlying LLM's inherent difficulty with temporal concepts, as evidenced by poor performance on textual temporal question-answering tasks. Building on this discovery, we introduce the Textual Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning tasks in pure text format from existing image-text datasets, addressing the scarcity of video samples with complex temporal scenarios. Remarkably, without using any video data, T3 enhances LongVA-7B's temporal understanding, yielding a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark, which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video samples. Additionally, the enhanced LongVA-7B model achieves competitive performance on comprehensive video benchmarks. For example, it achieves a 49.7 accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further analysis reveals a strong correlation between textual and video temporal task performance, validating the efficacy of transferring temporal reasoning abilities from text to video domains.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# マルチモーダルな大規模言語モデルには必要ではない

Quadratic Is Not What You Need For Multimodal Large Language Models ( http://arxiv.org/abs/2410.06169v1 )

ライセンス: Link先を確認
Phu Pham, Wentian Zhao, Kun Wan, Yu-Jhe Li, Zeliang Zhang, Daniel Miranda, Ajinkya Kale, Chenliang Xu, (参考訳) この1年間で、MLLM(Multimodal Large Language Models)の能力は様々な面で大幅に改善された。 しかし,トークン数の増加に伴い,LSMにおける計算の二次的成長に制約され,MLLMのさらなるスケーリングのボトルネックとなっている。 近年,視覚的トークンの創出や,より軽量なLCMによる計算の削減が試みられているが,視覚的トークンの増加に伴う計算の二次的成長の問題はまだ残っている。 そこで我々は,LLMの入力された視覚トークンを減らす代わりに,LLM内の視覚関連計算を抽出することに焦点をあてる,新しい手法を提案する。 刈り取り後のLLMの計算量は、視覚トークンの増加に伴って2次ではなく、線形である。 驚くべきことに、このような広範囲のプルーニングを適用した後、MLLMの能力は元のものと同等であり、計算の25%しか持たないベンチマークよりも優れていることがわかった。 この発見は、MLLMがより密集した視覚トークンを組み込む可能性を開く。 さらに, この知見に基づいて, 既存のMLLMのアーキテクチャ設計上の欠陥を解析し, 将来的な改善を提案する。 我々の知る限り、MLLMの視覚成分の計算冗長性を調べる最初の研究である。 コードとチェックポイントはまもなくリリースされる予定だ。

In the past year, the capabilities of Multimodal Large Language Models (MLLMs) have significantly improved across various aspects. However, constrained by the quadratic growth of computation in LLMs as the number of tokens increases, efficiency has become a bottleneck for further scaling MLLMs. Although recent efforts have been made to prune visual tokens or use more lightweight LLMs to reduce computation, the problem of quadratic growth in computation with the increase of visual tokens still persists. To address this, we propose a novel approach: instead of reducing the input visual tokens for LLMs, we focus on pruning vision-related computations within the LLMs. After pruning, the computation growth in the LLM is no longer quadratic with the increase of visual tokens, but linear. Surprisingly, we found that after applying such extensive pruning, the capabilities of MLLMs are comparable with the original one and even superior on some benchmarks with only 25% of the computation. This finding opens up the possibility for MLLMs to incorporate much denser visual tokens. Additionally, based on this finding, we further analyzed some architectural design deficiencies in existing MLLMs and proposed promising improvements. To the best of our knowledge, this is the first study to investigate the computational redundancy in the LLM's vision component of MLLMs. Code and checkpoints will be released soon.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# QGym:キューネットワークコントローラのスケーラブルなシミュレーションとベンチマーク

QGym: Scalable Simulation and Benchmarking of Queuing Network Controllers ( http://arxiv.org/abs/2410.06170v1 )

ライセンス: Link先を確認
Haozhe Chen, Ang Li, Ethan Che, Tianyi Peng, Jing Dong, Hongseok Namkoong, (参考訳) キューイングネットワーク制御は、製造、通信、医療における根本的問題である混雑管理のための不足資源の割り当てを決定する。 標準のRL問題と比較すると、キューの問題は固有の課題によって区別される。 一 連続的に作動するシステム ii)高い確率性、そして 三 システムが不安定になりうる長い地平線(露光遅延) これらの課題に対処する方法論的な進展を促すために,実問題インスタンスをまたいでキューポリシーをベンチマークするQGymというオープンソースのキューシミュレーションフレームワークを提案する。 私たちのモジュラーフレームワークは、並列サーバ、criss-cross、tandem、re-entrantネットワーク、およびリアルに校正された病院キューシステムなど、幅広い環境を提供する最初のインスタンスの上に構築することができます。 QGymは、モデルフリーなRLメソッドと古典的なキューポリシの両方を含む、複数のポリシーを簡単に比較できる。 我々のテストベッドは、理想的な設定における数学的保証に基づくアルゴリズムの評価に伝統的な焦点を補完し、事前の作業における経験的ベンチマークの範囲を大幅に拡大する。 QGymのコードはhttps://github.com/namkoong-lab/QGym.comで公開されている。

Queuing network control determines the allocation of scarce resources to manage congestion, a fundamental problem in manufacturing, communications, and healthcare. Compared to standard RL problems, queueing problems are distinguished by unique challenges: i) a system operating in continuous time, ii) high stochasticity, and iii) long horizons over which the system can become unstable (exploding delays). To spur methodological progress tackling these challenges, we present an open-sourced queueing simulation framework, QGym, that benchmark queueing policies across realistic problem instances. Our modular framework allows the researchers to build on our initial instances, which provide a wide range of environments including parallel servers, criss-cross, tandem, and re-entrant networks, as well as a realistically calibrated hospital queuing system. QGym makes it easy to compare multiple policies, including both model-free RL methods and classical queuing policies. Our testbed complements the traditional focus on evaluating algorithms based on mathematical guarantees in idealized settings, and significantly expands the scope of empirical benchmarking in prior work. QGym code is open-sourced at https://github.com/namkoong-lab/QGym.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# 確率的カーネル規則化はディープカーネルマシンの一般化を改善する

Stochastic Kernel Regularisation Improves Generalisation in Deep Kernel Machines ( http://arxiv.org/abs/2410.06171v1 )

ライセンス: Link先を確認
Edward Milsom, Ben Anson, Laurence Aitchison, (参考訳) 最近の研究は、CIFAR-10の92.7%のテスト精度をResNetにインスパイアされたアーキテクチャで達成し、カーネルメソッドのSOTAを開発した。 しかし、これは、同様のアーキテクチャで94%以上のテスト精度を容易に達成できるニューラルネットワークに遅れを取っている。 本研究では,学習中のGram行列にノイズを加える確率的カーネル正規化を含む,畳み込み型ディープカーネルマシンの一般化を改善するために,いくつかの修正を導入する。 その結果、CIFAR-10で94.5%のテスト精度が得られた。 この発見は、画像分類のような複雑なタスクでうまく機能できることは、ニューラルネットワークに特有のものではないことを証明している。 代わりに、ディープカーネルメソッドを含む他のアプローチは、データから表現を学ぶ能力がある限り、そのようなタスクで優れたパフォーマンスを達成することができる。

Recent work developed convolutional deep kernel machines, achieving 92.7% test accuracy on CIFAR-10 using a ResNet-inspired architecture, which is SOTA for kernel methods. However, this still lags behind neural networks, which easily achieve over 94% test accuracy with similar architectures. In this work we introduce several modifications to improve the convolutional deep kernel machine's generalisation, including stochastic kernel regularisation, which adds noise to the learned Gram matrices during training. The resulting model achieves 94.5% test accuracy on CIFAR-10. This finding has important theoretical and practical implications, as it demonstrates that the ability to perform well on complex tasks like image classification is not unique to neural networks. Instead, other approaches including deep kernel methods can achieve excellent performance on such tasks, as long as they have the capacity to learn representations from data.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# マルチモーダルシチュエーションの安全性

Multimodal Situational Safety ( http://arxiv.org/abs/2410.06172v1 )

ライセンス: Link先を確認
Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang, (参考訳) MLLM(Multimodal Large Language Models)は急速に進化し、人間と環境の両方と対話するマルチモーダルアシスタントとして素晴らしい能力を発揮している。 しかし、この高度化は、重大な安全上の懸念をもたらす。 本稿では,ユーザやエージェントが関与する特定の状況に基づいて,安全性の考慮事項がどう変化するかを検討する,Multimodal situational Safetyと呼ばれる新しい安全課題について,まず評価と分析を行う。 MLLMが言語や行動によっても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内で安全に与える影響を評価する必要がある。 この能力を評価するために,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。 データセットは1,820の言語クエリイメージペアで構成されており、その半分はイメージコンテキストが安全であり、残り半分は安全ではない。 また, 明確な安全性推論, 視覚的理解, 重要な状況的安全性推論など, 重要な安全性の側面を分析する評価フレームワークも開発している。 以上の結果から,現在のMLLMは,これらの状況下での安全対策の課題に対処する上で,これらの課題に対処する上で困難であり,今後の研究の要点を浮き彫りにしている。 さらに,安全上の課題を協調的に解決するマルチエージェントパイプラインを開発し,MLLM応答に対して一貫した安全性向上を示す。 コードとデータ: mssbench.github.io

Multimodal Large Language Models (MLLMs) are rapidly evolving, demonstrating impressive capabilities as multimodal assistants that interact with both humans and their environments. However, this increased sophistication introduces significant safety concerns. In this paper, we present the first evaluation and analysis of a novel safety challenge termed Multimodal Situational Safety, which explores how safety considerations vary based on the specific situation in which the user or agent is engaged. We argue that for an MLLM to respond safely, whether through language or action, it often needs to assess the safety implications of a language query within its corresponding visual context. To evaluate this capability, we develop the Multimodal Situational Safety benchmark (MSSBench) to assess the situational safety performance of current MLLMs. The dataset comprises 1,820 language query-image pairs, half of which the image context is safe, and the other half is unsafe. We also develop an evaluation framework that analyzes key safety aspects, including explicit safety reasoning, visual understanding, and, crucially, situational safety reasoning. Our findings reveal that current MLLMs struggle with this nuanced safety problem in the instruction-following setting and struggle to tackle these situational safety challenges all at once, highlighting a key area for future research. Furthermore, we develop multi-agent pipelines to coordinately solve safety challenges, which shows consistent improvement in safety over the original MLLM response. Code and data: mssbench.github.io.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# Few-Shotテキスト分類のためのマニュアルバーバリザの強化

Manual Verbalizer Enrichment for Few-Shot Text Classification ( http://arxiv.org/abs/2410.06173v1 )

ライセンス: Link先を確認
Quang Anh Nguyen, Nadi Tomeh, Mustapha Lebbah, Thierry Charnois, Hanene Azzag, Santiago Cordoba Muñoz, (参考訳) 事前訓練された言語モデルの継続的な開発により、プロンプトベースのトレーニングは、多くの自然言語処理タスクに対するモデルの活用を大幅に改善する、よく訓練されたパラダイムとなる。 アノテーション付きデータの数が制限されたゼロショットや少数ショットのシナリオに適応する場合、従来の微調整と比較して、プロンプティングは優れたパフォーマンスを示す。 この枠組みでは,マスキングされた単語分布から出力予測への解釈として,話し言葉の役割が不可欠である。 そこで本研究では,テキスト分類タスクにおける単語の埋め込み空間における近傍関係を用いたクラスラベルの強化による言語化のための手法である<acrshort{mave}を提案する。 さらに, 文書分類のための文節分類手法として, 数ショットの学習文脈において, 文節分類の典型的なベースラインを評価するために, ベンチマーク手法を精査する。 本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。 極めて限られた監視データを持つ場合に,本手法が特に有効であることを示す。

With the continuous development of pre-trained language models, prompt-based training becomes a well-adopted paradigm that drastically improves the exploitation of models for many natural language processing tasks. Prompting also shows great performance compared to traditional fine-tuning when adapted to zero-shot or few-shot scenarios where the number of annotated data is limited. In this framework, the role of verbalizers is essential, as an interpretation from masked word distributions into output predictions. In this work, we propose \acrshort{mave}, an approach for verbalizer construction by enrichment of class labels using neighborhood relation in the embedding space of words for the text classification task. In addition, we elaborate a benchmarking procedure to evaluate typical baselines of verbalizers for document classification in few-shot learning contexts. Our model achieves state-of-the-art results while using significantly fewer resources. We show that our approach is particularly effective in cases with extremely limited supervision data.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# SC-Bench: スマートコントラクト監査のための大規模データセット

SC-Bench: A Large-Scale Dataset for Smart Contract Auditing ( http://arxiv.org/abs/2410.06176v1 )

ライセンス: Link先を確認
Shihao Xia, Mengting He, Linhai Song, Yiying Zhang, (参考訳) ブロックチェーンプラットフォームにリストされたスマートコントラクトの安全と経済標準へのコンプライアンスを保証するための大きな需要があります。 今日では、この目標を達成するために、監査という形で手作業が一般的に使用されている。 MLベースの自動化技術は、人間の努力と結果として生じる金銭的コストを軽減することを約束する。 しかし、ML技術が大きな成功を収めた他のドメインとは異なり、体系的なML技術は提案されていないし、スマートコントラクト監査にも適用されていない。 自動スマートコントラクト監査研究のための最初のデータセットであるSC-Benchを紹介する。 SC-Benchは、広く使用されているブロックチェーンプラットフォームEthereum上で動作する現実世界の5,377のスマートコントラクトと、ECCと呼ばれるEhereumの標準違反15,975である。 これらの違反のうち、139件はプログラマが実際に犯した違反である。 残るエラーは、異なるERCルールの違反を反映するために、系統的に注入したエラーです。 GPT-4 を用いて SC-Bench の評価を行った。 さらに、違反した各ルールと対応するコードサイト(すなわち、オラクル)を手動で識別し、True-or-False質問を求める情報でGPT-4をプロンプトする。 以上の結果から,GPT-4は0.9%の違反しか検出できず,22.9%の違反を検出できた。 これらの結果は、スマートコントラクト監査のためのMLベースの手法の改善の可能性を示している。

There is a huge demand to ensure the compliance of smart contracts listed on blockchain platforms to safety and economic standards. Today, manual efforts in the form of auditing are commonly used to achieve this goal. ML-based automated techniques have the promise to alleviate human efforts and the resulting monetary costs. However, unlike other domains where ML techniques have had huge successes, no systematic ML techniques have been proposed or applied to smart contract auditing. We present SC-Bench, the first dataset for automated smart-contract auditing research. SC-Bench consists of 5,377 real-world smart contracts running on Ethereum, a widely used blockchain platform, and 15,975 violations of standards on Ehereum called ERCs. Out of these violations, 139 are real violations programmers made. The remaining are errors we systematically injected to reflect the violations of different ERC rules. We evaluate SC-Bench using GPT-4 by prompting it with both the contracts and ERC rules. In addition, we manually identify each violated rule and the corresponding code site (i.e., oracle) and prompt GPT-4 with the information asking for a True-or-False question. Our results show that without the oracle, GPT-4 can only detect 0.9% violations, and with the oracle, it detects 22.9% violations. These results show the potential room for improvement in ML-based techniques for smart-contract auditing.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# 二量化$π$-flux光学格子における渦束状態:特性,状態形成,電流測定

Vortex bound states in dimerized $π$-flux optical lattices: characterization, state preparation and current measurement ( http://arxiv.org/abs/2410.06184v1 )

ライセンス: Link先を確認
Andrei A. Stepanenko, Marco Di Liberto, (参考訳) 格子モデルでは、強いオンサイト相互作用のために、二重占有部位、すなわち二重占有部位の高エネルギー2粒子状態に滑らかに接続する反発相互作用の有界状態を示す。 本研究では、2つのボソンの渦束縛状態(渦束縛状態)が、中間相互作用のための均一な$\pi$-fluxで突き刺された二量体正方格子に現れることを示す。 本稿では, フラックスデチューニングによって誘導されるキラリティ変化する減衰チャネルを含む, その特性を図示的な例として, はしご形状に着目して特徴付け, 断熱シーケンスや近年のインプリント法により, 光学格子の状態準備を行うプロトコルを開発した。 最後に, 近辺の孤立した一対の部位に系を焼成し, 対応する動力学をサンプリングすることにより, 電流を計測し, キラリティを測定する方法を示す。 これらの結果は、光学格子中のキラルギャップ多体相の状態調製と探索のための実験的に現実的な戦略を提供することもできる。

Lattice models display bound states for repulsive interactions that smoothly connect to high-energy two-particle states of doubly occupied sites, namely doublons, for strong onsite interactions. In this work, we show that a distinct type of repulsively bound states, namely vortex bound states of two bosons, appear in dimerized square lattices pierced by a uniform $\pi$-flux for moderate interactions. By focusing on a ladder geometry as an illustrative example, we characterize their properties, including chirality-changing decay channels induced by flux detuning, and we develop protocols to perform state preparation in optical lattices via adiabatic sequences or recently developed current imprinting methods. Finally, we show how to measure currents and thus chirality by quenching the system onto isolated pairs of nearest-neighbor sites and then sampling the corresponding dynamics. These results can also provide an experimentally realistic strategy for state preparation and probing of chiral gapped many-body phases in optical lattices.
翻訳日:2024-11-01 10:50:51 公開日:2024-10-08
# 最小2乗総和クラスタリングのための動的制約アグリゲーションを用いた列生成アルゴリズム

A column generation algorithm with dynamic constraint aggregation for minimum sum-of-squares clustering ( http://arxiv.org/abs/2410.06187v1 )

ライセンス: Link先を確認
Antonio M. Sudoso, Daniel Aloise, (参考訳) 最小総和クラスタリング問題(MSSC)は、$k$-meansクラスタリングとも呼ばれ、各点と割り当てられたクラスタの中心の間の2乗ユークリッド距離の総和を最小化することを目的として、$n$のデータポイントを$k$クラスタに分割する問題を指す。 本稿では,大規模MSSCインスタンスを効率よく解くアルゴリズムを提案し,カラム生成(CG)と動的制約集約(DCA)を組み合わせることにより,CGマスター問題において考慮される制約数を効果的に削減する。 DCAはもともと、設定された分割制約の分割から得られる集約された制限されたマスター問題を利用して、設定された分割問題の縮退を減らすために考案された。 そこで本研究では,MSSC の厳密解に対する CG アルゴリズムにおける DCA の利用について検討する。 提案手法は, DCA設計選択に関する一連のアブレーション研究によって微調整され, 文献上利用可能な既存の最先端のアプローチを著しく上回ることを示す。

The minimum sum-of-squares clustering problem (MSSC), also known as $k$-means clustering, refers to the problem of partitioning $n$ data points into $k$ clusters, with the objective of minimizing the total sum of squared Euclidean distances between each point and the center of its assigned cluster. We propose an efficient algorithm for solving large-scale MSSC instances, which combines column generation (CG) with dynamic constraint aggregation (DCA) to effectively reduce the number of constraints considered in the CG master problem. DCA was originally conceived to reduce degeneracy in set partitioning problems by utilizing an aggregated restricted master problem obtained from a partition of the set partitioning constraints into disjoint clusters. In this work, we explore the use of DCA within a CG algorithm for MSSC exact solution. Our method is fine-tuned by a series of ablation studies on DCA design choices, and is demonstrated to significantly outperform existing state-of-the-art exact approaches available in the literature.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# Alphabetを超えて:DNAクラスタリングを強化したディープシグナル埋め込み

Beyond the Alphabet: Deep Signal Embedding for Enhanced DNA Clustering ( http://arxiv.org/abs/2410.06188v1 )

ライセンス: Link先を確認
Hadas Abraham, Barak Gahtan, Adir Kobovich, Orian Leitersdorf, Alex M. Bronstein, Eitan Yaakobi, (参考訳) DNAストレージの新たな分野は、DNA塩基の鎖(A/T/C/G)をデジタル情報の記憶媒体として利用して、膨大な密度と耐久性を実現している。 本発明のDNA保存パイプラインは、(1)生データをDNA塩基の配列にエンコードする;(2)配列を非順序集合として保存するDNA \textit{strands}として合成する;(3)DNA鎖をシークエンシングしてDNA \textit{reads}を生成する;(4)原データのデジェクションを含む。 DNA合成およびシークエンシング段階はそれぞれ、それぞれの鎖の独立したエラーを起こし、最終段階で利用され、元の鎖の最良の推定値を再構築する。 具体的には、読み込みは最初、同じストランド(互いに類似性に基づいて)に由来すると思われるグループに分割され、その後、各グループはそのグループの読み込みに繋がるストランドを近似する。 この研究はDNAシークエンシングの一部として組み込むことでDNAクラスタリングの段階を改善する。 DNAシークエンシングプロセスは、個別のDNA読み取り(A/T/C/G)を生成した後に開始されるが、ベースに識別される前にNanopore DNAシークエンシングマシンによって生成された生信号を使用することには、未解決の可能性がある。 本稿では,これらの信号を直接クラスタリングするディープニューラルネットワークを提案する。

The emerging field of DNA storage employs strands of DNA bases (A/T/C/G) as a storage medium for digital information to enable massive density and durability. The DNA storage pipeline includes: (1) encoding the raw data into sequences of DNA bases; (2) synthesizing the sequences as DNA \textit{strands} that are stored over time as an unordered set; (3) sequencing the DNA strands to generate DNA \textit{reads}; and (4) deducing the original data. The DNA synthesis and sequencing stages each generate several independent error-prone duplicates of each strand which are then utilized in the final stage to reconstruct the best estimate for the original strand. Specifically, the reads are first \textit{clustered} into groups likely originating from the same strand (based on their similarity to each other), and then each group approximates the strand that led to the reads of that group. This work improves the DNA clustering stage by embedding it as part of the DNA sequencing. Traditional DNA storage solutions begin after the DNA sequencing process generates discrete DNA reads (A/T/C/G), yet we identify that there is untapped potential in using the raw signals generated by the Nanopore DNA sequencing machine before they are discretized into bases, a process known as \textit{basecalling}, which is done using a deep neural network. We propose a deep neural network that clusters these signals directly, demonstrating superior accuracy, and reduced computation times compared to current approaches that cluster after basecalling.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# Few-shot Dialogue Intent Parsingのためのニューラルベイジアンプログラム学習

Neural-Bayesian Program Learning for Few-shot Dialogue Intent Parsing ( http://arxiv.org/abs/2410.06190v1 )

ライセンス: Link先を確認
Mengze Hong, Di Jiang, Yuanfeng Song, Chen Jason Zhang, (参考訳) 現代ビジネスにおけるカスタマーサービスの重要性の高まりに伴い、企業の戦略的成功には、サービス対話の背景にある意図を認識することが不可欠になっている。 しかし、対話データの性質は様々なシナリオで大きく異なり、特定のドメインに対してインテントパーサを実装するには、面倒な機能エンジニアリングと大量のデータラベリングが伴うことが多い。 本稿では,データ・ハングリー設定下での意図解析を専門とし,有望な性能向上を実現するニューラル・ベイズ型プログラム学習モデルであるDI-Parserを提案する。 DI-Parserは、"ラーニング・トゥ・ラーニング"の方法で複数のソースからのデータを効果的に利用し、"群衆の知恵"を活用して、人間の注釈付きデータセットで数ショットの学習機能を実現する。 実験により、DI-Parserは最先端のディープラーニングモデルより優れており、産業規模のアプリケーションに実用的な利点があることが示された。

With the growing importance of customer service in contemporary business, recognizing the intents behind service dialogues has become essential for the strategic success of enterprises. However, the nature of dialogue data varies significantly across different scenarios, and implementing an intent parser for a specific domain often involves tedious feature engineering and a heavy workload of data labeling. In this paper, we propose a novel Neural-Bayesian Program Learning model named Dialogue-Intent Parser (DI-Parser), which specializes in intent parsing under data-hungry settings and offers promising performance improvements. DI-Parser effectively utilizes data from multiple sources in a "Learning to Learn" manner and harnesses the "wisdom of the crowd" through few-shot learning capabilities on human-annotated datasets. Experimental results demonstrate that DI-Parser outperforms state-of-the-art deep learning models and offers practical advantages for industrial-scale applications.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# トレーニングされた2層ReLUネットワークによる回帰の便益オーバーフィッティング

Benign Overfitting for Regression with Trained Two-Layer ReLU Networks ( http://arxiv.org/abs/2410.06191v1 )

ライセンス: Link先を確認
Junhyung Park, Patrick Bloebaum, Shiva Prasad Kasiviswanathan, (参考訳) 本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。 最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。 我々はニューラル・タンジェント・カーネル・システムで動作し、過大なリスクを推定・近似誤差に分解し、勾配流を暗黙の正則化器として見ることによって一般化する。 このニューラルネットワークの文脈における分解は、勾配降下の新しい視点であり、一様収束トラップを避けるのに役立つ。 この作業では、同じ設定で、トレーニングされたネットワークがデータに過度に適合していることも確認します。 これらの結果とともに、任意の回帰関数に対する有限幅ReLUネットワークに対する良性オーバーフィッティングの最初の結果を確立する。

We study the least-square regression problem with a two-layer fully-connected neural network, with ReLU activation function, trained by gradient flow. Our first result is a generalization result, that requires no assumptions on the underlying regression function or the noise other than that they are bounded. We operate in the neural tangent kernel regime, and our generalization result is developed via a decomposition of the excess risk into estimation and approximation errors, viewing gradient flow as an implicit regularizer. This decomposition in the context of neural networks is a novel perspective of gradient descent, and helps us avoid uniform convergence traps. In this work, we also establish that under the same setting, the trained network overfits to the data. Together, these results, establishes the first result on benign overfitting for finite-width ReLU networks for arbitrary regression functions.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# リモートセンシング画像における意味的輪郭抽出のためのプロンプトダイレクトSAM

Prompting DirectSAM for Semantic Contour Extraction in Remote Sensing Images ( http://arxiv.org/abs/2410.06194v1 )

ライセンス: Link先を確認
Shiyu Miao, Delong Chen, Fan Liu, Chuanyi Zhang, Yanhui Gu, Shengjie Guo, Jun Zhou, (参考訳) DirectSAM(Direct Segment Anything Model)は、クラスに依存しない輪郭抽出において優れている。 本稿では,建物,道路網,海岸線等の意味的輪郭抽出が重要な実用的価値である光リモートセンシング画像に適用することで,その利用を探求する。 これらのアプリケーションは、現在、各ドメインの小さなデータセットで個別に、特別な小さなモデルをトレーニングすることで処理されている。 我々は、DirectSAM-RSと呼ばれるDirectSAMから派生した基盤モデルを導入し、自然画像から得られる強力なセグメンテーション能力を継承するだけでなく、リモートセマンティックな輪郭抽出のために作成した大規模なデータセットの恩恵を受ける。 このデータセットは34k以上の画像-テキスト-コンテンツトレーレットで構成されており、個々のデータセットの少なくとも30倍の大きさである。 DirectSAM-RSは、DirectSAMアーキテクチャにアタッチされたテキストエンコーダとクロスアテンション層というプロンプトモジュールを統合している。 我々は、DirectSAM-RSをゼロショットと微調整の両方で評価し、複数のダウンストリームベンチマークで最先端性能を実現することを実証した。

The Direct Segment Anything Model (DirectSAM) excels in class-agnostic contour extraction. In this paper, we explore its use by applying it to optical remote sensing imagery, where semantic contour extraction-such as identifying buildings, road networks, and coastlines-holds significant practical value. Those applications are currently handled via training specialized small models separately on small datasets in each domain. We introduce a foundation model derived from DirectSAM, termed DirectSAM-RS, which not only inherits the strong segmentation capability acquired from natural images, but also benefits from a large-scale dataset we created for remote sensing semantic contour extraction. This dataset comprises over 34k image-text-contour triplets, making it at least 30 times larger than individual dataset. DirectSAM-RS integrates a prompter module: a text encoder and cross-attention layers attached to the DirectSAM architecture, which allows flexible conditioning on target class labels or referring expressions. We evaluate the DirectSAM-RS in both zero-shot and fine-tuning setting, and demonstrate that it achieves state-of-the-art performance across several downstream benchmarks.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# 現実社会への参入! LLMの心の理論と社会化能力の第一の視点からの検証

Entering Real Social World! Benchmarking the Theory of Mind and Socialization Capabilities of LLMs from a First-person Perspective ( http://arxiv.org/abs/2410.06195v1 )

ライセンス: Link先を確認
Guiyang Hou, Wenqi Zhang, Yongliang Shen, Zeqi Tan, Sihao Shen, Weiming Lu, (参考訳) 社会世界では、人間は心の理論(ToM)として知られる他の精神状態(感情、信念、意図など)を推論し、推論する能力を持っている。 同時に、人間の精神状態は社会的状況に応じて進化し、これは社会化と呼ばれる能力である。 これらの能力は、人間の社会的相互作用の基礎となる。 人工知能(AI)の時代、特に大規模言語モデル(LLM)の開発において、私たちは興味深い疑問を提起する。 さらに広い範囲で、これらのAIモデルは現実の社会の世界に入り、ナビゲートできるのだろうか? LLMをアクティブな参加者としてではなく、第三者の観点から受動的観察者として位置づけることにより、LLMのToMと社会化能力を評価する既存の研究である。 しかし、三人称視点と比較して、自我中心の第一人称視点から世界を観察し、理解することは、人間とAIエージェントの両方にとって自然なアプローチである。 LLMのToMと社会化能力は、インボディードAIエージェントを前進させる重要な属性である第一人者の視点からは未解明のままである。 上記の疑問に答え,研究ギャップを埋めるために,第1の視点からLLMのToMと社会化能力を評価し,調査するための新しいフレームワークであるEgoSocialArenaを紹介した。 静的環境とインタラクティブ環境という,7つのシナリオ – Daily Life, Counterfactual, New World, Blackjack, Number Guessing, Limit Texas Hold em – を含む。 我々は,EgoSocialArenaを用いて,9種類の先進LLMの総合的な評価を行い,LLMの今後の発展と,現在利用可能な最先進LLMの能力レベルについていくつかの重要な洞察を得た。

In the social world, humans possess the capability to infer and reason about others mental states (such as emotions, beliefs, and intentions), known as the Theory of Mind (ToM). Simultaneously, humans own mental states evolve in response to social situations, a capability we refer to as socialization. Together, these capabilities form the foundation of human social interaction. In the era of artificial intelligence (AI), especially with the development of large language models (LLMs), we raise an intriguing question: How do LLMs perform in terms of ToM and socialization capabilities? And more broadly, can these AI models truly enter and navigate the real social world? Existing research evaluating LLMs ToM and socialization capabilities by positioning LLMs as passive observers from a third person perspective, rather than as active participants. However, compared to the third-person perspective, observing and understanding the world from an egocentric first person perspective is a natural approach for both humans and AI agents. The ToM and socialization capabilities of LLMs from a first person perspective, a crucial attribute for advancing embodied AI agents, remain unexplored. To answer the aforementioned questions and bridge the research gap, we introduce EgoSocialArena, a novel framework designed to evaluate and investigate the ToM and socialization capabilities of LLMs from a first person perspective. It encompasses two evaluation environments: static environment and interactive environment, with seven scenarios: Daily Life, Counterfactual, New World, Blackjack, Number Guessing, and Limit Texas Hold em, totaling 2,195 data entries. With EgoSocialArena, we have conducted a comprehensive evaluation of nine advanced LLMs and observed some key insights regarding the future development of LLMs as well as the capabilities levels of the most advanced LLMs currently available.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# 絡み合った2光子吸収のロバスト検出に向けて

Towards robust detection of entangled two-photon absorption ( http://arxiv.org/abs/2410.06199v1 )

ライセンス: Link先を確認
Raj Pandya, Patrick Cameron, Chloé Vernière, Baptiste Courme, Sandrine Ithurria, Alex Chin, Emmanuel Lhuillier, Hugo Defienne, (参考訳) 過去50年間、束縛された光子対は、2光子吸収イメージングと分光法でフラックスを下げるために注目を集めてきた。 それにもかかわらず、絡み合った2光子吸収(ETPA)効果の証拠は、特に低フラックスにおいて非常に議論されている。 ここでは, 有機および無機のクロロフォアの室温におけるETPAの証拠を示すために, 絡み合った光子対の空間的相互相関を低フラックス系で構成する。 従来,線形吸収や背景蛍光といったETPAの検出を妨げていた共通アーティファクトに対してロバストな手法を示すとともに,ETPAは横相関領域とクロマフォ2光子断面積でスケール可能であることを示す。 本研究は,ETPAの検証に向けてのステップを示し,光-物質相互作用を実験的に検討した。

Over the last 50 years entangled photon pairs have received attention for use in lowering the flux in two-photon absorption imaging and spectroscopy. Despite this, evidence for entangled two-photon absorption (ETPA) effects remain highly debated, especially at low-fluxes. Here, we structure the transverse spatial correlations of entangled photon pairs to evidence signs of ETPA at room-temperature in organic and inorganic chromophores, in the low-flux regime. We demonstrate our scheme to be robust to common artifacts that have previously hampered detection of ETPA such as linear absorption and background fluorescence, and show that ETPA scales with transverse correlation area and chromophore two-photon cross-sections. Our results present a step towards verifying ETPA and experimentally exploring entangled light-matter interactions.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# 単軸長文生成への計画統合

Integrating Planning into Single-Turn Long-Form Text Generation ( http://arxiv.org/abs/2410.06203v1 )

ライセンス: Link先を確認
Yi Liang, You Wu, Honglei Zhuang, Li Chen, Jiaming Shen, Yiling Jia, Zhen Qin, Sumit Sanghai, Xuanhui Wang, Carl Yang, Michael Bendersky, (参考訳) 学術論文、ニュース記事、ウィキペディアのエントリ、書籍など、高品質で詳細なテキスト文書を生成することは、Large Language Models (LLMs) にとって重要な課題である。 本稿では,長文コンテンツを生成するための計画手法を提案する。 目的を達成するために、最終テキストを生成する前にLCMに計画、理性、構造を教える補助タスクを介して中間ステップを生成する。 私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。 これらの中間段階のトレーニングデータの不足を克服するため,既存の全記事からアウトライン,キー情報,要約などの合成中間記述データを生成するためにLCMを利用する。 我々の実験は、科学ニュースデータセットSciNews とウィキペディアデータセットKILT-Wiki とFreshWiki の2つの分野のデータセットについて、補助的なタスクで微調整された LLM が高品質な文書を生成することを実証した。 ROUGE-Lsumは+2.5%改善し,ヒトSxS評価による総合勝敗率は3.60倍となり,組織,妥当性,妥当性が明らかとなった。

Generating high-quality, in-depth textual documents, such as academic papers, news articles, Wikipedia entries, and books, remains a significant challenge for Large Language Models (LLMs). In this paper, we propose to use planning to generate long form content. To achieve our goal, we generate intermediate steps via an auxiliary task that teaches the LLM to plan, reason and structure before generating the final text. Our main novelty lies in a single auxiliary task that does not require multiple rounds of prompting or planning. To overcome the scarcity of training data for these intermediate steps, we leverage LLMs to generate synthetic intermediate writing data such as outlines, key information and summaries from existing full articles. Our experiments demonstrate on two datasets from different domains, namely the scientific news dataset SciNews and Wikipedia datasets in KILT-Wiki and FreshWiki, that LLMs fine-tuned with the auxiliary task generate higher quality documents. We observed +2.5% improvement in ROUGE-Lsum, and a strong 3.60 overall win/loss ratio via human SxS evaluation, with clear wins in organization, relevance, and verifiability.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# 集積フォトニックプロセッサにおけるモジュール量子-量子バーヌーイファクトリー

Modular Quantum-to-Quantum Bernoulli Factory in an Integrated Photonic Processor ( http://arxiv.org/abs/2410.06204v1 )

ライセンス: Link先を確認
Francesco Hoch, Taira Giordani, Luca Castello, Gonzalo Carvacho, Nicolò Spagnolo, Francesco Ceccarelli, Ciro Pentangelo, Simone Piacentini, Andrea Crespi, Roberto Osellame, Ernesto F. Galvão, Fabio Sciarrino, (参考訳) ランダム性の生成と操作は、情報技術のいくつかの応用において重要な課題である。 量子力学がこの種のタスクにいくつかの利点をもたらすことが示されている。 ランダム性操作の有望なモデルはベルヌーイ工場によって提供され、制御された方法でベルヌーイランダムプロセスのバイアスを変更することができるプロトコルである。 当初は、この枠組みが提案され、完全に古典的な体制で検討された。 量子の場合へのこのモデルの最近の拡張は、より広範なランダム性操作関数を実装する可能性を示した。 量子状態を入力および出力とするベルヌーイファクトリ方式をフォトニックパス符号化手法を用いて提案する。 私たちのスキームはモジュラーで普遍的であり、その機能は、初期の作業で欠落していた入力バイアス、特性を本当に無視しています。 完全プログラム型フォトニックプラットフォームを用いた実験的な実装について報告し,本手法の有効性を実証する。 これらの結果は、統合量子技術によるランダム性操作のための新しい経路を開く。

Generation and manipulation of randomness is a relevant task for several applications of information technology. It has been shown that quantum mechanics offers some advantages for this type of task. A promising model for randomness manipulation is provided by the Bernoulli factories, protocols capable of changing the bias of Bernoulli random processes in a controlled way. At first, this framework was proposed and investigated in a fully classical regime. Recent extensions of this model to the quantum case showed the possibility of implementing a wider class of randomness manipulation functions. We propose a Bernoulli factory scheme with quantum states as input and output, using a photonic path-encoding approach. Our scheme is modular, universal, and its functioning is truly oblivious of the input bias, characteristics that were missing in earlier work. We report on experimental implementations using an integrated and fully programmable photonic platform, thus demonstrating the viability of our approach. These results open new paths for randomness manipulation with integrated quantum technologies.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# ラウンド・アンド・ラウンド・ウィー・ゴー!ロータリー位置エンコーディングが便利になる理由

Round and Round We Go! What makes Rotary Positional Encodings useful? ( http://arxiv.org/abs/2410.06205v1 )

ライセンス: Link先を確認
Federico Barbero, Alex Vitvitskyi, Christos Perivolaropoulos, Razvan Pascanu, Petar Veličković, (参考訳) 位置エンコーディング(PE)は、トランスフォーマーベースの大規模言語モデル(LLM)の重要なコンポーネントであり、重要なシークエンス情報を持つ注意機構を提供する。 現在LLMで使われている最も一般的なエンコーディングの1つはRotary Positional Encodings (RoPE) である。 RoPEは相対距離が増加するにつれてトークン依存が崩壊するので有用であるという説が一般的である。 この研究では、これが中核的な理由になる可能性は低いと論じる。 メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。 Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。 また、一般に、GemmaはRoPEの最低周波数を非常に好んでおり、セマンティックな情報を運ぶのに使われていると考えている。 我々は,RoPEの興味深い動作を数学的に証明し,その結果を検証する実験を行い,RoPEの修正を提案する。 この研究は、LLMのPEをより深く理解するための興味深いステップであると考えています。

Positional Encodings (PEs) are a critical component of Transformer-based Large Language Models (LLMs), providing the attention mechanism with important sequence-position information. One of the most popular types of encoding used today in LLMs are Rotary Positional Encodings (RoPE), that rotate the queries and keys based on their relative distance. A common belief is that RoPE is useful because it helps to decay token dependency as relative distance increases. In this work, we argue that this is unlikely to be the core reason. We study the internals of a trained Gemma 7B model to understand how RoPE is being used at a mechanical level. We find that Gemma learns to use RoPE to construct robust "positional" attention patterns by exploiting the highest frequencies. We also find that, in general, Gemma greatly prefers to use the lowest frequencies of RoPE, which we suspect are used to carry semantic information. We mathematically prove interesting behaviours of RoPE and conduct experiments to verify our findings, proposing a modification of RoPE that fixes some highlighted issues and improves performance. We believe that this work represents an interesting step in better understanding PEs in LLMs, which we believe holds crucial value for scaling LLMs to large sizes and context lengths.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-08
# 制御ゲノミクスのための機械的解釈型ニューラルネットワーク

A mechanistically interpretable neural network for regulatory genomics ( http://arxiv.org/abs/2410.06211v1 )

ライセンス: Link先を確認
Alex M. Tseng, Gokcen Eraslan, Tommaso Biancalani, Gabriele Scalia, (参考訳) ディープニューラルネットワークはゲノムDNA配列を関連するレディングアウト(タンパク質-DNA結合など)にマッピングする上で優れている。 予測以外にも、これらのネットワークの目標は、ゲノム制御を促進する基礎となるモチーフ(とその構文)を明らかにすることである。 畳み込みフィルタからモチーフを抽出する伝統的な方法は、フィルタや層にまたがる情報の解釈不能な分散に悩まされる。 重要なスコアに依存する他の方法は不安定で信頼できない。 代わりに、我々は規制ゲノミクスのための機械的に解釈可能な新しいアーキテクチャを設計し、そこではモチーフとその構文を直接エンコードし、学習した重みとアクティベーションから読み取ることができる。 我々は、アーキテクチャの完全な表現性に関する理論的かつ実証的な証拠を提供するが、それでも高い解釈が可能である。 いくつかの実験を通して、我々のアーキテクチャはde novoモチーフの発見とモチーフのインスタンス呼び出しに優れており、可変シーケンスコンテキストに対して堅牢であり、新しい関数シーケンスを完全に解釈可能な生成を可能にしていることを示す。

Deep neural networks excel in mapping genomic DNA sequences to associated readouts (e.g., protein-DNA binding). Beyond prediction, the goal of these networks is to reveal to scientists the underlying motifs (and their syntax) which drive genome regulation. Traditional methods that extract motifs from convolutional filters suffer from the uninterpretable dispersion of information across filters and layers. Other methods which rely on importance scores can be unstable and unreliable. Instead, we designed a novel mechanistically interpretable architecture for regulatory genomics, where motifs and their syntax are directly encoded and readable from the learned weights and activations. We provide theoretical and empirical evidence of our architecture's full expressivity, while still being highly interpretable. Through several experiments, we show that our architecture excels in de novo motif discovery and motif instance calling, is robust to variable sequence contexts, and enables fully interpretable generation of novel functional sequences.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# 静的RL問題の列としてのロバストなMDPの解法

Solving robust MDPs as a sequence of static RL problems ( http://arxiv.org/abs/2410.06212v1 )

ライセンス: Link先を確認
Adil Zouitine, Matthieu Geist, Emmanuel Rachelson, (参考訳) 実世界のアプリケーションで強化学習(RL)を採用する上では,パフォーマンスレベルが所定のしきい値を超えることが保証される制御ポリシの設計が重要な特徴である。 このようなロバストなポリシーの探索は、いわゆる遷移関数の不確実性の動的モデルに関係し、環境のダイナミクスが各ステップで変化することを許すという、非常に難しい問題である。 しかし実際は、対話のエピソード全体を通して、静的な遷移モデルに頑健性に関心がある。 静的モデルは、動的モデルよりも解決が難しいことが知られており、ロバストな値反復のようなセミナルアルゴリズムや、より堅牢なRLに関する最近の研究は、動的モデルの上に構築されている。 本研究では,静的モデルの再検討を提案する。 そこで本研究では, 動的モデルと等価性に基づいて, 幾らかの軽微な仮説の下で静的モデルを解くことが合理的な試みであるのかを解析し, 一連の静的問題に取り組むことで, 堅牢なMDPを解くことができるという一般的な直観を定式化する。 我々はIWOCSと呼ばれる汎用メタアルゴリズムを導入し、ロバストなポリシーの探索をガイドするために最悪の遷移モデルを段階的に特定する。 IWOCSに関する議論は、政策最適化と対立遷移関数を分離し、分析の新しい視点を開く新しい方法に光を当てている。 我々は、IWOCSの深いRLバージョンを導き、古典的なベンチマークで最先端のアルゴリズムと競合することを示した。

Designing control policies whose performance level is guaranteed to remain above a given threshold in a span of environments is a critical feature for the adoption of reinforcement learning (RL) in real-world applications. The search for such robust policies is a notoriously difficult problem, related to the so-called dynamic model of transition function uncertainty, where the environment dynamics are allowed to change at each time step. But in practical cases, one is rather interested in robustness to a span of static transition models throughout interaction episodes. The static model is known to be harder to solve than the dynamic one, and seminal algorithms, such as robust value iteration, as well as most recent works on deep robust RL, build upon the dynamic model. In this work, we propose to revisit the static model. We suggest an analysis of why solving the static model under some mild hypotheses is a reasonable endeavor, based on an equivalence with the dynamic model, and formalize the general intuition that robust MDPs can be solved by tackling a series of static problems. We introduce a generic meta-algorithm called IWOCS, which incrementally identifies worst-case transition models so as to guide the search for a robust policy. Discussion on IWOCS sheds light on new ways to decouple policy optimization and adversarial transition functions and opens new perspectives for analysis. We derive a deep RL version of IWOCS and demonstrate it is competitive with state-of-the-art algorithms on classical benchmarks.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# RLですが、私はやらないことを何もしないでください。

RL, but don't do anything I wouldn't do ( http://arxiv.org/abs/2410.06213v1 )

ライセンス: Link先を確認
Michael K. Cohen, Marcus Hutter, Yoshua Bengio, Stuart Russell, (参考訳) 強化学習では、エージェントの報酬がデザイナの真の効用と異なる場合、たとえまれにさえ、エージェントの方針から生じる状態分布は非常に悪いものになりうる。 RL政策が望ましくない行動へと発展する時、一般的な対策は信頼された政策へのKL正規化である("Don't do what do I't do I don't do)。 現在の最先端言語モデルはすべて、純粋に予測可能な"基本ポリシー"にKL調整されたRLエージェントである。 残念なことに、この基本方針が信頼された政策のベイズ予測モデルである場合、KL制約は高度なRLエージェントの挙動を制御できない。 我々は、アルゴリズム情報理論を用いてこれを理論的に実証し、今日のシステムは、この理論化された失敗を正確に示すには弱すぎるが、言語モデルをRL-finetuneし、我々の公式な結果が実際は妥当に関連している証拠を見つける。 また, 「やらないことはやらない」という原則を「やらないことはやらない」という原則に置き換えることで, この問題を回避する理論的な代替案も提案する。

In reinforcement learning, if the agent's reward differs from the designers' true utility, even only rarely, the state distribution resulting from the agent's policy can be very bad, in theory and in practice. When RL policies would devolve into undesired behavior, a common countermeasure is KL regularization to a trusted policy ("Don't do anything I wouldn't do"). All current cutting-edge language models are RL agents that are KL-regularized to a "base policy" that is purely predictive. Unfortunately, we demonstrate that when this base policy is a Bayesian predictive model of a trusted policy, the KL constraint is no longer reliable for controlling the behavior of an advanced RL agent. We demonstrate this theoretically using algorithmic information theory, and while systems today are too weak to exhibit this theorized failure precisely, we RL-finetune a language model and find evidence that our formal results are plausibly relevant in practice. We also propose a theoretical alternative that avoids this problem by replacing the "Don't do anything I wouldn't do" principle with "Don't do anything I mightn't do".
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# DataEnvGym:学習者のフィードバックを伴う教師環境におけるデータ生成エージェント

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback ( http://arxiv.org/abs/2410.06215v1 )

ライセンス: Link先を確認
Zaid Khan, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal, (参考訳) モデルを教えるためのトレーニングデータを作成するプロセスは現在、モデルの弱点を手動で分析し、学生モデルを改善するデータを作成する方法を計画している人間によって進められている。 LLMをアノテータとして使用する最近のアプローチは、人間の労力を減らすが、それでも、評価からフィードバックを解釈し、学生が必要とするデータを生成するためにLLMを制御する必要がある。 自律的なデータ生成エージェント(あるいは教師)を作成することで、この労働集約的なプロセスを自動化することが望ましいが、フィードバック駆動、反復的、クローズドループのデータ生成をシミュレートできる環境が必要である。 このようなエージェントとそのモジュールの迅速かつスケーラブルなテストを可能にするために,データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介した。 DataEnvGymは、学生のフィードバックを提供する環境の中で、データ生成ポリシー(トレーニングデータを作成する計画を生成する)とデータ生成エンジン(プランをデータに変換する)で構成されるエージェントを含む、シーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。 エージェントの目標は、学生のパフォーマンスを改善することです。 学生は、生成されたデータに基づいて反復的にトレーニングされ、評価され、各イテレーション後にエージェントにフィードバック(エラーや弱いスキルの形で)が報告される。 DataEnvGymには、状態表現とアクション空間における3つのレベルの構造にわたる複数の教師環境インスタンス化が含まれている。 より構造化された環境は推論されたスキルに基づいており、より解釈可能性とカリキュラム制御を提供する。 我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。 教育環境における事例エージェントは,課題や設定を通じて,生徒を反復的に改善することができる。 さらに,本研究では,データ生成エージェント,エンジン,フィードバック機構の改善に向けた今後の取り組みを,各環境がキーモジュールの異なるスキルレベルとテストの変種を教えていることを示す。

The process of creating training data to teach models is currently driven by humans, who manually analyze model weaknesses and plan how to create data that improves a student model. Recent approaches using LLMs as annotators reduce human effort, but still require humans to interpret feedback from evaluations and control the LLM to produce data the student needs. Automating this labor-intensive process by creating autonomous data generation agents - or teachers - is desirable, but requires environments that can simulate the feedback-driven, iterative, closed loop of data creation. To enable rapid and scalable testing for such agents and their modules, we introduce DataEnvGym, a testbed of teacher environments for data generation agents. DataEnvGym frames data generation as a sequential decision-making task, involving an agent consisting of a data generation policy (which generates a plan for creating training data) and a data generation engine (which transforms the plan into data), inside an environment that provides student feedback. The agent's goal is to improve student performance. Students are iteratively trained and evaluated on generated data, with their feedback (in the form of errors or weak skills) being reported to the agent after each iteration. DataEnvGym includes multiple teacher environment instantiations across 3 levels of structure in the state representation and action space. More structured environments are based on inferred skills and offer more interpretability and curriculum control. We support 3 diverse tasks (math, code, and VQA) and test multiple students and teachers. Example agents in our teaching environments can iteratively improve students across tasks and settings. Moreover, we show that environments teach different skill levels and test variants of key modules, pointing to future work in improving data generation agents, engines, and feedback mechanisms.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# 有界および非有界領域上のガウス変分スキーム

Gaussian Variational Schemes on Bounded and Unbounded Domains ( http://arxiv.org/abs/2410.06219v1 )

ライセンス: Link先を確認
Jonas A. Actor, Anthony Gruber, Eric C. Cyr, Nathaniel Trask, (参考訳) ガウスラジアル基底関数(GRBF)を用いた機械学習可能な変分スキームを提示し、有界および非有界領域上の線形問題を近似するために利用する。 強い形式微分方程式を離散化するためにGRBFを使用する標準的なメッシュフリー法とは対照的に、この研究は、GRBFの積分、その微分、多項式モーメントの関係を利用して、弱い形式表現を可能にする正確な二次式を生成する。 訓練可能な GRBF 平均と共分散と組み合わせることで、このスキームが適合する無限領域の設定や、そうでない有界領域の設定に適用される、柔軟な一般化されたガレルキン変分フレームワークが導かれる。 提案手法の誤り率を各ケースで導出し, 代理モデリング手法として本手法の有用性を示す例を示す。

A machine-learnable variational scheme using Gaussian radial basis functions (GRBFs) is presented and used to approximate linear problems on bounded and unbounded domains. In contrast to standard mesh-free methods, which use GRBFs to discretize strong-form differential equations, this work exploits the relationship between integrals of GRBFs, their derivatives, and polynomial moments to produce exact quadrature formulae which enable weak-form expressions. Combined with trainable GRBF means and covariances, this leads to a flexible, generalized Galerkin variational framework which is applied in the infinite-domain setting where the scheme is conforming, as well as the bounded-domain setting where it is not. Error rates for the proposed GRBF scheme are derived in each case, and examples are presented demonstrating utility of this approach as a surrogate modeling technique.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# 大規模言語モデルにおける表現可塑性のタイムラインと解析

A Timeline and Analysis for Representation Plasticity in Large Language Models ( http://arxiv.org/abs/2410.06225v1 )

ライセンス: Link先を確認
Akshat Kannan, (参考訳) AIの振る舞いを操る能力は、その長期的な危険で破滅的な可能性を防ぐために不可欠だ。 表現工学(RepE)は、トップダウンレベルで「正直」のような内部モデルの振る舞いを操る新しい強力な手法として登場した。 したがって、表現の運営を理解することは、アライメントイニシアチブの最前線に置かれるべきである。 残念ながら、このレベルでの可塑性を理解するための現在の取り組みは、非常に無視されている。 本稿では,LLM表現の安定性,特に「正直」の概念を橋渡しし,異なる微調整段階から抽出したステアリングベクトルを適用してモデル塑性をモデル化し,モデル挙動の相違点を明らかにすることを目的としている。 初期のステアリングは高い塑性を示すが、後期は驚くほど反応のよい臨界窓を持つ。 このパターンは異なるモデルアーキテクチャにまたがって観察され、効果的な介入に使用できるモデル可塑性の一般的なパターンが存在することを示唆している。 これらの洞察は、AI透明性の分野に大きく貢献し、効率の急激な欠如に対処し、モデルの振る舞いを効果的に操る能力を制限する。

The ability to steer AI behavior is crucial to preventing its long term dangerous and catastrophic potential. Representation Engineering (RepE) has emerged as a novel, powerful method to steer internal model behaviors, such as "honesty", at a top-down level. Understanding the steering of representations should thus be placed at the forefront of alignment initiatives. Unfortunately, current efforts to understand plasticity at this level are highly neglected. This paper aims to bridge the knowledge gap and understand how LLM representation stability, specifically for the concept of "honesty", and model plasticity evolve by applying steering vectors extracted at different fine-tuning stages, revealing differing magnitudes of shifts in model behavior. The findings are pivotal, showing that while early steering exhibits high plasticity, later stages have a surprisingly responsive critical window. This pattern is observed across different model architectures, signaling that there is a general pattern of model plasticity that can be used for effective intervention. These insights greatly contribute to the field of AI transparency, addressing a pressing lack of efficiency limiting our ability to effectively steer model behavior.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# コーナーを切らない:生物学的にインスパイアされた表現におけるモジュラリティの厳密な条件

Don't Cut Corners: Exact Conditions for Modularity in Biologically Inspired Representations ( http://arxiv.org/abs/2410.06232v1 )

ライセンス: Link先を確認
Will Dorrell, Kyle Hsu, Luke Hollingsworth, Jin Hwa Lee, Jiajun Wu, Chelsea Finn, Peter E Latham, Tim EJ Behrens, James CR Whittington, (参考訳) なぜ生物学的・人工的なニューロンは、しばしばモジュラー化し、それぞれが単一の有意義な変数をコードし、時には多くの変数の表現を絡み合わせるのか? 本研究では、生物学的にインスピレーションを受けた表現(非負でエネルギー効率のよい表現)が、ソース変数(ソース)に対してモジュラー化されるときの理論を開発する。 我々は、最適な生物学的にインスパイアされたリニアオートエンコーダのモジュラー化のニューロンを決定する情報源のサンプルに対して、必要かつ十分な条件を導出する。 我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。 むしろ、サポートが"十分拡大"された場合、ソースがモジュール化されることを示します。 この理論から、非線形フィードフォワードおよびリカレントニューラルネットワークにおけるデータ分散が、教師なしタスクおよび教師なしタスクで訓練されたモジュラー化にどのように影響するかに関する様々な実験的な研究において、予測を抽出し、検証する。 さらに、これらのアイデアを神経科学データに適用する。 まず,作業記憶タスクにおける前頭前野活動を記録した2つの研究が,記憶が直交部分空間に符号化されているかどうかに矛盾する理由を説明する。 第二に、運動野のRNNモデルにおける準備的および強力な部分空間がなぜ直交的であるかを理解するために、同様の議論を用いる。 第三に,エントラヒナル録音における空間情報と報酬情報の混合について検討し,我々の理論が過去の研究とよく一致したことを示す。 そして第4に、従来の理論のように複雑な非線形読み出しを必要とせず、神経細胞を選択的に混合(または出現)できる驚くべき設定の組を提案する。 まとめると、我々の理論は神経活動がいつモジュール化されるかという正確な条件を規定し、脳や機械のモジュラー表現を誘導し解明するためのツールを提供する。

Why do biological and artificial neurons sometimes modularise, each encoding a single meaningful variable, and sometimes entangle their representation of many variables? In this work, we develop a theory of when biologically inspired representations -- those that are nonnegative and energy efficient -- modularise with respect to source variables (sources). We derive necessary and sufficient conditions on a sample of sources that determine whether the neurons in an optimal biologically-inspired linear autoencoder modularise. Our theory applies to any dataset, extending far beyond the case of statistical independence studied in previous work. Rather, we show that sources modularise if their support is "sufficiently spread". From this theory, we extract and validate predictions in a variety of empirical studies on how data distribution affects modularisation in nonlinear feedforward and recurrent neural networks trained on supervised and unsupervised tasks. Furthermore, we apply these ideas to neuroscience data. First, we explain why two studies that recorded prefrontal activity in working memory tasks conflict on whether memories are encoded in orthogonal subspaces: the support of the sources differed due to a critical discrepancy in experimental protocol. Second, we use similar arguments to understand why preparatory and potent subspaces in RNN models of motor cortex are only sometimes orthogonal. Third, we study spatial and reward information mixing in entorhinal recordings, and show our theory matches data better than previous work. And fourth, we suggest a suite of surprising settings in which neurons can be (or appear) mixed selective, without requiring complex nonlinear readouts as in traditional theories. In sum, our theory prescribes precise conditions on when neural activities modularise, providing tools for inducing and elucidating modular representations in brains and machines.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# TEOChat: 時間的地球観測データのための大型ビジョンランゲージアシスタント

TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data ( http://arxiv.org/abs/2410.06234v1 )

ライセンス: Link先を確認
Jeremy Andrew Irvin, Emily Ruoyu Liu, Joyce Chuyi Chen, Ines Dormoy, Jinyoung Kim, Samar Khanna, Zhuo Zheng, Stefano Ermon, (参考訳) 大きな視覚と言語アシスタントは、自然なイメージを解釈する新しい機能を可能にした。 これらのアプローチは地球観測データに適用されているが、単一の画像入力しか処理できず、多くの実世界のタスクでの使用を制限することができる。 本研究では,地球観測データの時間的順序に関する会話を行うTEOChatという新しいビジョンと言語アシスタントを開発する。 TEOChatを訓練するために,建物変更や損傷評価,意味変化検出,時間的シーン分類など,多数の単一画像と時間的タスクからなる指示追従データセットをキュレートする。 TEOChatは、様々な空間的・時間的推論タスクを実行でき、従来のビジョンや言語アシスタントを著しく上回り、これらの特定のタスクを実行するために訓練された専門家モデルと同等または優れたパフォーマンスを達成できることを示す。 さらにTEOChatは、変更検出および変更質問応答データセット上で印象的なゼロショットパフォーマンスを実現し、複数の時間的タスクにおいてGPT-4oとGemini 1.5 Proを上回っ、同等の単一EOイメージ命令フォローモデルよりも強力なシングルイメージ機能を示す。 データ、モデル、コードはhttps://github.com/ermongroup/TEOChat で公開しています。

Large vision and language assistants have enabled new capabilities for interpreting natural images. These approaches have recently been adapted to earth observation data, but they are only able to handle single image inputs, limiting their use for many real-world tasks. In this work, we develop a new vision and language assistant called TEOChat that can engage in conversations about temporal sequences of earth observation data. To train TEOChat, we curate an instruction-following dataset composed of many single image and temporal tasks including building change and damage assessment, semantic change detection, and temporal scene classification. We show that TEOChat can perform a wide variety of spatial and temporal reasoning tasks, substantially outperforming previous vision and language assistants, and even achieving comparable or better performance than specialist models trained to perform these specific tasks. Furthermore, TEOChat achieves impressive zero-shot performance on a change detection and change question answering dataset, outperforms GPT-4o and Gemini 1.5 Pro on multiple temporal tasks, and exhibits stronger single image capabilities than a comparable single EO image instruction-following model. We publicly release our data, models, and code at https://github.com/ermongroup/TEOChat .
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# 深部領域不変学習におけるパラメータ選択とニューロシンボリックアプローチ

Parameter Choice and Neuro-Symbolic Approaches for Deep Domain-Invariant Learning ( http://arxiv.org/abs/2410.06235v1 )

ライセンス: Link先を確認
Marius-Constantin Dinu, (参考訳) 人工知能(AI)システムが進歩するにつれて、さまざまなタスクでうまく機能し、コンテキストを理解し、新しいシナリオに迅速に適応できるシステムである、幅広いAIに向かって進みます。 広範なAIシステムにおける中心的な課題は、関連するドメインのタスクを一般化し、分散シフトに対して堅牢であることである。 ニューロシンボリック(NeSy)AIは、これらの課題に対処するために、シンボリックパラダイムとサブシンボリックパラダイムのギャップを埋め、適応可能で、一般化可能で、より解釈可能なシステムを実現する。 広義のAIの開発にはドメイン適応(DA)の進歩が必要であり、ソースドメインでトレーニングされたモデルが効果的にターゲットドメインに一般化できるようにする。 伝統的なアプローチは、しばしばパラメータ最適化と微調整に頼っているが、これは高いコストと破滅的な忘れ込みのリスクのために現実的ではない。 NeSy AIシステムは、複数のモデルとメソッドを使用して、見えないドメインを一般化し、さまざまな条件でパフォーマンスを維持する。 DAとNeSyの一般的なアプローチを、深いドメイン不変学習に焦点をあてて分析し、継続的に変化するドメインへの適応や大きなドメインギャップの処理といった現実的な課題にまで拡張します。 本稿では,限られたサンプルを持つシナリオに対する最先端モデル選択手法を紹介し,モデルチューニングが不可能なケースに対して,勾配ベースの更新を伴わないドメイン固有の適応を導入する。 この研究は、さまざまな問題設定に適用可能なスケーラブルで一般化可能な広義のAIシステムのためのフレームワークを確立し、シンボリック推論と大規模言語モデルが、ドメインや問題にまたがって一般化された普遍的な計算グラフを構築する方法を示し、現実のアプリケーションに対してより適応可能なAIアプローチに寄与する。

As artificial intelligence (AI) systems advance, we move towards broad AI: systems capable of performing well on diverse tasks, understanding context, and adapting rapidly to new scenarios. A central challenge for broad AI systems is to generalize over tasks in related domains and being robust to distribution shifts. Neuro-symbolic (NeSy) AI bridges the gap between symbolic and sub-symbolic paradigms to address these challenges, enabling adaptable, generalizable, and more interpretable systems. The development of broad AI requires advancements in domain adaptation (DA), enabling models trained on source domains to effectively generalize to unseen target domains. Traditional approaches often rely on parameter optimization and fine-tuning, which can be impractical due to high costs and risks of catastrophic forgetting. NeSy AI systems use multiple models and methods to generalize to unseen domains and maintain performance across varying conditions. We analyze common DA and NeSy approaches with a focus on deep domain-invariant learning, extending to real-world challenges such as adapting to continuously changing domains and handling large domain gaps. We showcase state-of-the-art model-selection methods for scenarios with limited samples and introduce domain-specific adaptations without gradient-based updates for cases where model tuning is infeasible. This work establishes a framework for scalable and generalizable broad AI systems applicable across various problem settings, demonstrating how symbolic reasoning and large language models can build universal computational graphs that generalize across domains and problems, contributing to more adaptable AI approaches for real-world applications.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# SD-$π$XL: スコア蒸留による低分解能量子化画像の生成

SD-$π$XL: Generating Low-Resolution Quantized Imagery via Score Distillation ( http://arxiv.org/abs/2410.06236v1 )

ライセンス: Link先を確認
Alexandre Binninger, Olga Sorkine-Hornung, (参考訳) ピクセルアートのような低解像度の量子化画像は、ビデオゲームグラフィックスからデジタルデザインや製造まで、現代のアプリケーションで復活している。 人気が高まっているにもかかわらず、生の入力から自動的に量子化された画像を生成することは大きな課題であり、しばしば集中的な手入力を必要とする。 SD-$\pi$XLは、微分可能な画像生成器と組み合わせて、スコア蒸留サンプリングを利用する量子化画像を生成する手法である。 提案手法では,任意の出力サイズを$H \times W$に設定し,色や要素のパレットを$n$に設定する。 各色は生成元に対する別のクラスに対応しており、これは$H \times W \times n$ tensor で作用する。 我々はソフトマックスアプローチを採用し、要素の凸和を計算し、プロセスが微分可能で、バックプロパゲーションに対処できる。 Gumbel-softmax再パラメータ化を用いることで,鮮明なピクセルアート効果が得られることを示す。 提案手法の特長は,入力画像を低解像度の量子化バージョンに変換し,キーセマンティックな特徴を保持できる点である。 我々の実験は、SD-$\pi$XLの視覚的快楽で忠実な表現における性能を検証し、現状を一貫して上回っている。 さらに, SD-$\pi$XL の実用性を示す。

Low-resolution quantized imagery, such as pixel art, is seeing a revival in modern applications ranging from video game graphics to digital design and fabrication, where creativity is often bound by a limited palette of elemental units. Despite their growing popularity, the automated generation of quantized images from raw inputs remains a significant challenge, often necessitating intensive manual input. We introduce SD-$\pi$XL, an approach for producing quantized images that employs score distillation sampling in conjunction with a differentiable image generator. Our method enables users to input a prompt and optionally an image for spatial conditioning, set any desired output size $H \times W$, and choose a palette of $n$ colors or elements. Each color corresponds to a distinct class for our generator, which operates on an $H \times W \times n$ tensor. We adopt a softmax approach, computing a convex sum of elements, thus rendering the process differentiable and amenable to backpropagation. We show that employing Gumbel-softmax reparameterization allows for crisp pixel art effects. Unique to our method is the ability to transform input images into low-resolution, quantized versions while retaining their key semantic features. Our experiments validate SD-$\pi$XL's performance in creating visually pleasing and faithful representations, consistently outperforming the current state-of-the-art. Furthermore, we showcase SD-$\pi$XL's practical utility in fabrication through its applications in interlocking brick mosaic, beading and embroidery design.
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# BUMBLE:ビルワイド移動操作のための視覚言語モデルによる推論と動作の統合

BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation ( http://arxiv.org/abs/2410.06237v1 )

ライセンス: Link先を確認
Rutav Shah, Albert Yu, Yifeng Zhu, Yuke Zhu, Roberto Martín-Martín, (参考訳) 建設規模で運用するには、サービスロボットは、異なる部屋をナビゲートし、異なるフロアにアクセスし、広範囲で目に見えない日常的なオブジェクトと対話することによって、非常に長い水平移動操作タスクを実行する必要がある。 これらのタスクをビルワイド・モバイル・マニピュレーションと呼ぶ。 このような長期的課題に対処するために,オープンワールドなRGBD認識を統合した統合ビジョン・ランゲージ・モデル(VLM)ベースのフレームワークであるBUMBLEを導入する。 広汎な評価 (90時間以上) により, BUMBLE は, 1回の試行15分にわたる12の真理スキルのシークエンシングを必要とする, 長期にわたるビルディングワイドタスクにおいて, 複数のベースラインに優れていたことが示唆された。 BUMBLEは、異なる部屋やフロアから70以上の試験、タスク、シーンレイアウトを平均47.1%の成功率で達成している。 ユーザスタディでは,最先端のモバイル操作方法よりも22%高い満足度を示した。 最後に、パフォーマンスをさらに向上させるために、機能強化可能な基盤モデルを使用することの可能性を示す。 詳細はhttps://robin-lab.cs.utexas.edu/BUMBLE/を参照のこと。

To operate at a building scale, service robots must perform very long-horizon mobile manipulation tasks by navigating to different rooms, accessing different floors, and interacting with a wide and unseen range of everyday objects. We refer to these tasks as Building-wide Mobile Manipulation. To tackle these inherently long-horizon tasks, we introduce BUMBLE, a unified Vision-Language Model (VLM)-based framework integrating open-world RGBD perception, a wide spectrum of gross-to-fine motor skills, and dual-layered memory. Our extensive evaluation (90+ hours) indicates that BUMBLE outperforms multiple baselines in long-horizon building-wide tasks that require sequencing up to 12 ground truth skills spanning 15 minutes per trial. BUMBLE achieves 47.1% success rate averaged over 70 trials in different buildings, tasks, and scene layouts from different starting rooms and floors. Our user study demonstrates 22% higher satisfaction with our method than state-of-the-art mobile manipulation methods. Finally, we demonstrate the potential of using increasingly-capable foundation models to push performance further. For more information, see https://robin-lab.cs.utexas.edu/BUMBLE/
翻訳日:2024-11-01 10:31:16 公開日:2024-10-08
# EVOLvE: 探索のためのLLMの評価と最適化

EVOLvE: Evaluating and Optimizing LLMs For Exploration ( http://arxiv.org/abs/2410.06238v1 )

ライセンス: Link先を確認
Allen Nie, Yi Su, Bo Chang, Jonathan N. Lee, Ed H. Chi, Quoc V. Le, Minmin Chen, (参考訳) 多くのドメインで成功したにもかかわらず、大きな言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。 これは、パーソナライズされたレコメンデーションから医療介入まで、多くの現実世界のアプリケーションにおいて重要なことです。 本研究では,LLMの帯域幅を最適に決定する能力,すなわち,多くのアプリケーションに関係のあるステートレス強化学習環境を計測する。 LLMの性能をベンチマークするために,環境の包括的スイートを開発する。 最適な探索アルゴリズムの存在を動機として,推論中に明示的なアルゴリズム誘導型サポートを提供することにより,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。 印象的なことに、これらの手法により、より小さなモデルでより優れた探索性能を達成でき、様々なタスクにおいてより大きなモデルを超えることができる。 LLM探索の効率に影響を及ぼす課題難易度やデータ表現など,様々な要因について,広範囲にわたるアブレーション研究を行った。 さらに、後悔の概念を用いて、LLMの探索効率を厳密に分析し、モデルサイズと基礎となるアルゴリズムを探索する能力にリンクする。

Despite their success in many domains, large language models (LLMs) remain under-studied in scenarios requiring optimal decision-making under uncertainty. This is crucial as many real-world applications, ranging from personalized recommendations to healthcare interventions, demand that LLMs not only predict but also actively learn to make optimal decisions through exploration. In this work, we measure LLMs' (in)ability to make optimal decisions in bandits, a state-less reinforcement learning setting relevant to many applications. We develop a comprehensive suite of environments, including both context-free and contextual bandits with varying task difficulties, to benchmark LLMs' performance. Motivated by the existence of optimal exploration algorithms, we propose efficient ways to integrate this algorithmic knowledge into LLMs: by providing explicit algorithm-guided support during inference; and through algorithm distillation via in-context demonstrations and fine-tuning, using synthetic data generated from these algorithms. Impressively, these techniques allow us to achieve superior exploration performance with smaller models, surpassing larger models on various tasks. We conducted an extensive ablation study to shed light on various factors, such as task difficulty and data representation, that influence the efficiency of LLM exploration. Additionally, we conduct a rigorous analysis of the LLM's exploration efficiency using the concept of regret, linking its ability to explore to the model size and underlying algorithm.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# クランク・ニコルソンスキームを用いたKdV方程式の解法

Using Crank-Nikolson Scheme to Solve the Korteweg-de Vries (KdV) Equation ( http://arxiv.org/abs/2410.06240v1 )

ライセンス: Link先を確認
Qiming Wu, (参考訳) Korteweg-de Vries (KdV) 方程式は、浅い水やその他の分散媒質の波動伝播をモデル化する基本偏微分方程式である。 KdV方程式の正確な解法は、物理学や工学の応用における波動力学の理解に不可欠である。 このプロジェクトは、KdV方程式を解くために、安定性と精度で知られている有限差分法であるCrank-Nicolsonスキームの実装に焦点を当てる。 クランク・ニコルソンスキームの暗黙的な性質は、特にKdV方程式の分散項と非線形項を扱う際に、より安定な数値解を可能にする。 提案手法の各種試験事例による性能評価を行い,その収束性および誤差挙動を解析した。 その結果、クランク・ニコソン法は、従来の明示的手法よりも精度が向上し、KdV方程式を解くための堅牢なアプローチを提供することを示した。 コードは論文の最後に掲載されている。

The Korteweg-de Vries (KdV) equation is a fundamental partial differential equation that models wave propagation in shallow water and other dispersive media. Accurately solving the KdV equation is essential for understanding wave dynamics in physics and engineering applications. This project focuses on implementing the Crank-Nicolson scheme, a finite difference method known for its stability and accuracy, to solve the KdV equation. The Crank-Nicolson scheme's implicit nature allows for a more stable numerical solution, especially in handling the dispersive and nonlinear terms of the KdV equation. We investigate the performance of the scheme through various test cases, analyzing its convergence and error behavior. The results demonstrate that the Crank-Nicolson method provides a robust approach for solving the KdV equation, with improved accuracy over traditional explicit methods. Code is available at the end of the paper.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# 教師なしモデル診断

Unsupervised Model Diagnosis ( http://arxiv.org/abs/2410.06243v1 )

ライセンス: Link先を確認
Yinong Oliver Wang, Eileen Li, Jinqi Luo, Zhaoning Wang, Fernando De la Torre, (参考訳) ディープビジョンシステムの信頼性確保には、モデル説明可能性と堅牢性の確保が不可欠である。 堅牢性を評価するための現在の手法は、広範なテストセットの収集と注釈付けに依存している。 これは一般的なプラクティスだが、プロセスは労働集約的でコストがかかるため、関心のある属性に対して十分なカバレッジが保証されない。 近年,モデルの脆弱性を評価するためにユーザ入力(例:テキスト)を活用するモデル診断フレームワークが登場している。 しかし、特定のユーザのドメイン知識を考えると、そのような人間への依存はバイアスや制限をもたらす可能性がある。 本稿では、生成モデルを利用した教師なしモデル診断(UMO)を提案する。 微分可能なコンピュータビジョンモデル(すなわちターゲットモデル)が与えられた場合、UMOは生成的潜在空間において最も反現実的な方向を最適化する。 提案手法は意味論における変化を特定し可視化し,その変化を辞書や言語モデルなど幅広いテキストソースの属性と照合する。 複数の視覚タスク(例えば、分類、セグメンテーション、キーポイント検出)のフレームワークを検証する。 大規模な実験により、教師なしによる意味的方向の発見は、素早い相関を正しく強調し、人間の介入なしにターゲットモデルの失敗モードを可視化できることが示されている。

Ensuring model explainability and robustness is essential for reliable deployment of deep vision systems. Current methods for evaluating robustness rely on collecting and annotating extensive test sets. While this is common practice, the process is labor-intensive and expensive with no guarantee of sufficient coverage across attributes of interest. Recently, model diagnosis frameworks have emerged leveraging user inputs (e.g., text) to assess the vulnerability of the model. However, such dependence on human can introduce bias and limitation given the domain knowledge of particular users. This paper proposes Unsupervised Model Diagnosis (UMO), that leverages generative models to produce semantic counterfactual explanations without any user guidance. Given a differentiable computer vision model (i.e., the target model), UMO optimizes for the most counterfactual directions in a generative latent space. Our approach identifies and visualizes changes in semantics, and then matches these changes to attributes from wide-ranging text sources, such as dictionaries or language models. We validate the framework on multiple vision tasks (e.g., classification, segmentation, keypoint detection). Extensive experiments show that our unsupervised discovery of semantic directions can correctly highlight spurious correlations and visualize the failure mode of target models without any human intervention.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# Story-Adapter: 長いストーリーの可視化のためのトレーニング不要な反復フレームワーク

Story-Adapter: A Training-free Iterative Framework for Long Story Visualization ( http://arxiv.org/abs/2410.06244v1 )

ライセンス: Link先を確認
Jiawei Mao, Xiaoke Huang, Yunfei Xie, Yuanqi Chang, Mude Hui, Bingjie Xu, Yuyin Zhou, (参考訳) 物語に基づくコヒーレントな画像を生成するタスクであるストーリービジュアライゼーションは、テキスト・ツー・イメージモデル、特に拡散モデルが出現し、大きな進歩を遂げてきた。 しかし、セマンティック一貫性の維持、高品質なきめ細かい相互作用の生成、そして計算能力の確保は、特に長いストーリーの可視化(つまり最大100フレーム)において難しいままである。 本研究では,ストーリーアダプタ(Story-Adapter)と呼ばれる学習自由で計算効率の良いフレームワークを提案する。 具体的には、テキストプロンプトと、前回の繰り返しから生成された画像の両方を活用することにより、各生成画像を洗練するための反復パラダイムを提案する。 このモジュールは、前回のイテレーションから生成されたすべての画像を集約して、全体にわたってセマンティックな一貫性を保ちながら、グローバルな埋め込みによる計算コストを最小化します。 この反復的プロセスは、テキスト制約を繰り返し組み込むことで画像生成を段階的に最適化し、より正確できめ細かな相互作用をもたらす。 広範囲な実験は、特に長いストーリーシナリオにおいて、セマンティックな一貫性と、きめ細かい相互作用のための生成能力の両方を改善する上で、ストーリー・アダプタの優位性を検証する。 プロジェクトページと関連するコードはhttps://jwmao1.github.io/storyadapter.comからアクセスすることができる。

Story visualization, the task of generating coherent images based on a narrative, has seen significant advancements with the emergence of text-to-image models, particularly diffusion models. However, maintaining semantic consistency, generating high-quality fine-grained interactions, and ensuring computational feasibility remain challenging, especially in long story visualization (i.e., up to 100 frames). In this work, we propose a training-free and computationally efficient framework, termed Story-Adapter, to enhance the generative capability of long stories. Specifically, we propose an iterative paradigm to refine each generated image, leveraging both the text prompt and all generated images from the previous iteration. Central to our framework is a training-free global reference cross-attention module, which aggregates all generated images from the previous iteration to preserve semantic consistency across the entire story, while minimizing computational costs with global embeddings. This iterative process progressively optimizes image generation by repeatedly incorporating text constraints, resulting in more precise and fine-grained interactions. Extensive experiments validate the superiority of Story-Adapter in improving both semantic consistency and generative capability for fine-grained interactions, particularly in long story scenarios. The project page and associated code can be accessed via https://jwmao1.github.io/storyadapter .
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# HiSplat: 一般化可能なスパースビューリコンストラクションのための階層型3次元ガウススプラッティング

HiSplat: Hierarchical 3D Gaussian Splatting for Generalizable Sparse-View Reconstruction ( http://arxiv.org/abs/2410.06245v1 )

ライセンス: Link先を確認
Shengji Tang, Weicai Ye, Peng Ye, Weihao Lin, Yang Zhou, Tao Chen, Wanli Ouyang, (参考訳) 複数の視点から3Dシーンを再構築することはステレオビジョンの基本的な課題である。 近年、一般化可能な3Dガウススプラッティングの進歩により、余分な最適化なしに画素ごとのガウスパラメータをフィードフォワード予測することで、スパース入力ビューから見えないシーンの高品質な新規ビュー合成が可能になった。 しかし、既存の手法は通常、大規模な構造とテクスチャの細部の両方の表現が欠けている単一スケールの3Dガウシアンを生成する。 本稿では,階層型3次元ガウススプラッティングの階層的手法を導入し,階層型3次元ガウススプラッティングを粗大な戦略により構築する新しいフレームワーク,HiSplatを提案する。 特に、HiSplatは巨大な粗粒のガウシアンを生成して大規模な構造物を捕獲し、さらに細粒のガウシアンを使って繊細なテクスチャの細部を拡大する。 本稿では,ガウス補償のための誤り認識モジュールとガウス補修のための修正融合モジュールを提案する。 提案手法は階層表現の協調最適化を実現し,2視点参照画像のみを用いた新しいビュー合成を実現する。 様々なデータセットに対する総合的な実験により、HiSplatは以前の単一スケール手法と比較して再構築品質とデータセット間の一般化を著しく向上させることが示された。 異なるスケールの3Dガウスのアブレーション研究と分析は、その効果の裏にあるメカニズムを明らかにしている。 プロジェクトウェブサイト: https://open3dvlab.github.io/HiSplat/

Reconstructing 3D scenes from multiple viewpoints is a fundamental task in stereo vision. Recently, advances in generalizable 3D Gaussian Splatting have enabled high-quality novel view synthesis for unseen scenes from sparse input views by feed-forward predicting per-pixel Gaussian parameters without extra optimization. However, existing methods typically generate single-scale 3D Gaussians, which lack representation of both large-scale structure and texture details, resulting in mislocation and artefacts. In this paper, we propose a novel framework, HiSplat, which introduces a hierarchical manner in generalizable 3D Gaussian Splatting to construct hierarchical 3D Gaussians via a coarse-to-fine strategy. Specifically, HiSplat generates large coarse-grained Gaussians to capture large-scale structures, followed by fine-grained Gaussians to enhance delicate texture details. To promote inter-scale interactions, we propose an Error Aware Module for Gaussian compensation and a Modulating Fusion Module for Gaussian repair. Our method achieves joint optimization of hierarchical representations, allowing for novel view synthesis using only two-view reference images. Comprehensive experiments on various datasets demonstrate that HiSplat significantly enhances reconstruction quality and cross-dataset generalization compared to prior single-scale methods. The corresponding ablation study and analysis of different-scale 3D Gaussians reveal the mechanism behind the effectiveness. Project website: https://open3dvlab.github.io/HiSplat/
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# 超伝導量子プロセッサの相転移における位相欠陥の統計

Statistics of topological defects across a phase transition in a superconducting quantum processor ( http://arxiv.org/abs/2410.06250v1 )

ライセンス: Link先を確認
Daniil Teplitskiy, Oriel Kiss, Michele Grossi, Antonio Mandarino, (参考訳) 量子相転移が有限時間以内に交わるとき、臨界減速は断熱力学を妨害し、トポロジカルな欠陥を形成する。 これらの欠陥の平均密度は、KZM(Kybble-Zurek mechanism)によって予測される普遍的な電力法則に従って、クエンチ速度とともにスケールする。 本研究では,1次元横場量子イジングモデルにおけるkink密度のカウント統計について検討する。 我々は、20量子ビットの量子処理ユニットにおいて、クエンチ時間の関数として高次累積が普遍的な電力法スケーリングに従うことを示す。 また,有限サイズ系に対する短絡に対するKZM機構の分解について述べる。 テンソルネットワークシミュレーションは、漸近的限界にないより大きなシステムに対する量子シミュレーション結果を相関させる。

When a quantum phase transition is crossed within a finite time, critical slowing down disrupts adiabatic dynamics, resulting in the formation of topological defects. The average density of these defects scales with the quench rate, adhering to a universal power law as predicted by the Kibble-Zurek mechanism (KZM). In this study, we aim to investigate the counting statistics of kink density in the 1D transverse-field quantum Ising model. We demonstrate on a 20-qubit quantum processing unit, that higher-order cumulants follow a universal power law scaling as a function of the quench time. We also show the breakdown of the KZM mechanism for short quenches for finite-size systems. Tensor network simulations corroborate our quantum simulation results for bigger systems not in the asymptotic limit.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# SymDiff: 確率的対称性による等変拡散

SymDiff: Equivariant Diffusion via Stochastic Symmetrisation ( http://arxiv.org/abs/2410.06262v1 )

ライセンス: Link先を確認
Leo Zhang, Kianoosh Ashouritaklimi, Yee Whye Teh, Rob Cornish, (参考訳) 我々は最近導入された確率的対称性の枠組みを用いて同変拡散モデルを構築する新しい方法であるSymDiffを提案する。 SymDiffは、サンプリング時にデプロイされる学習データ拡張に似ており、軽量で、計算効率が高く、任意のオフザシェルフモデル上に実装が容易である。 特に、以前の研究とは対照的に、SymDiffは本質的に同変のニューラルネットワークコンポーネントを必要とせず、複雑なパラメータ化や高階幾何学的特徴の使用を避ける。 代わりに、我々の手法は、より制約のある代替品のドロップイン代替品として、高度にスケーラブルなモダンアーキテクチャを利用することができる。 この付加的な柔軟性は、$\mathrm{E}(3)$-equivariantな分子生成に対して大きな経験的利益をもたらすことを示す。 我々の知る限りでは、これは生成的モデリングへの対称性の最初の応用であり、この領域におけるそのポテンシャルをより一般的に示唆している。

We propose SymDiff, a novel method for constructing equivariant diffusion models using the recently introduced framework of stochastic symmetrisation. SymDiff resembles a learned data augmentation that is deployed at sampling time, and is lightweight, computationally efficient, and easy to implement on top of arbitrary off-the-shelf models. Notably, in contrast to previous work, SymDiff typically does not require any neural network components that are intrinsically equivariant, avoiding the need for complex parameterizations and the use of higher-order geometric features. Instead, our method can leverage highly scalable modern architectures as drop-in replacements for these more constrained alternatives. We show that this additional flexibility yields significant empirical benefit on $\mathrm{E}(3)$-equivariant molecular generation. To the best of our knowledge, this is the first application of symmetrisation to generative modelling, suggesting its potential in this domain more generally.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# 生成しながら考える - 計画されたデノイングによる拡散の離散化

Think While You Generate: Discrete Diffusion with Planned Denoising ( http://arxiv.org/abs/2410.06264v1 )

ライセンス: Link先を確認
Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli, (参考訳) 離散拡散は、標準ベンチマーク上での自己回帰モデルの性能や性能、アプローチなど、最先端のパフォーマンスを達成した。 本稿では,計画デノイングによる離散拡散(DDPD)について紹介する。このフレームワークは,生成プロセスを2つのモデル – プランナーとデノライザ – に分割する新しいフレームワークである。 推測時に、プランナーは、最初に劣化した位置と追加の洗練を必要とする位置の両方を含む最も劣化した位置を特定することによって、次に劣化する位置を選択する。 このプラン・アンド・デノエイズ・アプローチは、最適な順序で汚職を反復的に識別し、デノナイズすることで、生成中のより効率的な再構築を可能にする。 DDPDは従来の denoiser のみのマスク拡散法より優れており、text8、OpenWebText、ImageNet 256 \times 256$のトークンベースの生成などの言語モデリングベンチマークにおいて、優れた結果が得られる。 特に言語モデリングにおいて、DDPDは、拡散に基づく手法と自己回帰的手法のパフォーマンスギャップを、生成的パープレキシティの観点から著しく減少させる。 コードはhttps://github.com/liusulin/DDPD.comで入手できる。

Discrete diffusion has achieved state-of-the-art performance, outperforming or approaching autoregressive models on standard benchmarks. In this work, we introduce Discrete Diffusion with Planned Denoising (DDPD), a novel framework that separates the generation process into two models: a planner and a denoiser. At inference time, the planner selects which positions to denoise next by identifying the most corrupted positions in need of denoising, including both initially corrupted and those requiring additional refinement. This plan-and-denoise approach enables more efficient reconstruction during generation by iteratively identifying and denoising corruptions in the optimal order. DDPD outperforms traditional denoiser-only mask diffusion methods, achieving superior results on language modeling benchmarks such as text8, OpenWebText, and token-based generation on ImageNet $256 \times 256$. Notably, in language modeling, DDPD significantly reduces the performance gap between diffusion-based and autoregressive methods in terms of generative perplexity. Code is available at https://github.com/liusulin/DDPD.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# SHADE: 密度に基づくクラスタリング

SHADE: Deep Density-based Clustering ( http://arxiv.org/abs/2410.06265v1 )

ライセンス: Link先を確認
Anna Beer, Pascal Weber, Lukas Miklautz, Collin Leiber, Walid Durani, Christian Böhm, Claudia Plant, (参考訳) 任意の形状のクラスタを高次元ノイズデータで検出することは、現在のクラスタリング法では困難である。 SHADE(Structure-serving High-dimensional Analysis with Density-based Exploration)は,密度接続性を損失関数に組み込んだ最初のディープクラスタリングアルゴリズムである。 既存のディープクラスタリングアルゴリズムと同様に、SHADEはディープオートエンコーダの表現力で高次元および大規模データセットをサポートする。 セントロイドベースのクラスタリングの目的に依存する既存のディープクラスタリング手法とは対照的に、SHADEは密度接続性を捉える新しいロス関数を取り入れている。 これによりSHADEは密度連結クラスタの分離を強化する表現を学ぶ。 SHADEは安定したクラスタリングとノイズポイントをユーザ入力なしで完全に自動的に検出する。 クラスタリングの品質において、特にビデオデータのような非ガウスクラスタを含むデータにおいて、既存の手法よりも優れています。 さらに、SHADEの埋め込み空間は、クラスタの個々の形状が保存されているため、クラスタリング結果の可視化と解釈に適している。

Detecting arbitrarily shaped clusters in high-dimensional noisy data is challenging for current clustering methods. We introduce SHADE (Structure-preserving High-dimensional Analysis with Density-based Exploration), the first deep clustering algorithm that incorporates density-connectivity into its loss function. Similar to existing deep clustering algorithms, SHADE supports high-dimensional and large data sets with the expressive power of a deep autoencoder. In contrast to most existing deep clustering methods that rely on a centroid-based clustering objective, SHADE incorporates a novel loss function that captures density-connectivity. SHADE thereby learns a representation that enhances the separation of density-connected clusters. SHADE detects a stable clustering and noise points fully automatically without any user input. It outperforms existing methods in clustering quality, especially on data that contain non-Gaussian clusters, such as video data. Moreover, the embedded space of SHADE is suitable for visualization and interpretation of the clustering results as the individual shapes of the clusters are preserved.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# マトリックス機構の近似的プライバシー増幅

Near Exact Privacy Amplification for Matrix Mechanisms ( http://arxiv.org/abs/2410.06266v1 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, Arun Ganesh, Saminul Haque, Thomas Steinke, Abhradeep Thakurta, (参考訳) 本稿では,DP機械学習のプライバシパラメータをランダムなバッチ処理とラウンド間のノイズ相関を用いて,相関行列$\textbf{C}$(行列機構)を用いて計算する問題について検討する。 この問題の過去の作業は、バンド化された$\textbf{C}$にのみ適用されるか、あるいは、緩やかなプライバシパラメータを与えるかのどちらかだった。 本研究では、低三角形で非負の$\textbf{C}$に対して、ほぼ正確なプライバシーパラメータを計算するためのフレームワークを提供する。 私たちのフレームワークは、アンプリフィケーションを考慮しながら相関行列 $\textbf{C}$ を最適化できますが、過去の作業ではできなかったのです。 実証的な結果として,従来のSOTA (State-of-the-art) よりも小さな RMSE をプレフィックス和で実現できることを示す。 また,深層学習タスクにおけるSOTA性能の向上が期待できることを示す。 私たちの主な技術ツールは2つです。 (i)モンテカルロ会計を用いて、過去の作品の主要な技術的課題である作曲をバイパスし、 (II)プライバシー分析が容易で,Poissonサンプリングよりもランダムなバッチ処理に近い,"balls-in-bins"バッチ方式。

We study the problem of computing the privacy parameters for DP machine learning when using privacy amplification via random batching and noise correlated across rounds via a correlation matrix $\textbf{C}$ (i.e., the matrix mechanism). Past work on this problem either only applied to banded $\textbf{C}$, or gave loose privacy parameters. In this work, we give a framework for computing near-exact privacy parameters for any lower-triangular, non-negative $\textbf{C}$. Our framework allows us to optimize the correlation matrix $\textbf{C}$ while accounting for amplification, whereas past work could not. Empirically, we show this lets us achieve smaller RMSE on prefix sums than the previous state-of-the-art (SOTA). We also show that we can improve on the SOTA performance on deep learning tasks. Our two main technical tools are (i) using Monte Carlo accounting to bypass composition, which was the main technical challenge for past work, and (ii) a "balls-in-bins" batching scheme that enables easy privacy analysis and is closer to practical random batching than Poisson sampling.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# メタ認知は問題解決の成功を予測することができるか? : プログラミングにおける探索的ケーススタディ

Can metacognition predict your success in solving problems? An exploratory case study in programming ( http://arxiv.org/abs/2410.06267v1 )

ライセンス: Link先を確認
Bostjan Bubnic, Željko Kovačević, Tomaž Kosar, (参考訳) メタ認知は、学術的成功と問題解決におけるパフォーマンスに欠かせないスキルとして認識されている。 学習や問題解決において、メタ認知能力は様々な認知的および感情的なプロセスを促進し、全体としてパフォーマンスを向上させる。 本研究では,メタ認知の予測可能性について検討した。 メタ認知的認知とメタ認知的行動からなる2次元モデルが提案されている。 メタ認知の予測能力を実証的に評価するため,第2回導入プログラミングコースでは,2施設194名の被験者による探索ケーススタディを実施した。 オブジェクト指向プログラミングにおけるメタ認知と性能の関係を検討するために,潜在的アプローチが採用された。 以上の結果から,メタ認知の両次元がプログラミングに肯定的な影響を及ぼすことが示唆された。 同様に、構造方程式モデリングの結果は、プログラミング性能のばらつきの27%がメタ認知的行動によって説明されていることを示している。 その結果、メタ認知は、導入プログラミングにおけるパフォーマンスの重要な予測要因の1つと見なされる可能性がある。

Metacognition has been recognized as an essential skill for academic success and for performance in solving problems. During learning or problem-solving, metacognitive skills facilitate a range of cognitive and affective processes, leading collectively to improved performance. This study explores the predictive potential of metacognition in the second introductory programming course. A two-dimensional model has been proposed, consisting of metacognitive awareness and metacognitive behavior. To evaluate the predictive capacity of metacognition empirically, an exploratory case study with 194 participants from two institutions was conducted in the second introductory programming course. A latent approach was employed to examine the associations between metacognition and performance in object-oriented programming. Our findings indicate that both metacognitive dimensions have a positive effect on programming. Likewise, the results of the structural equation modeling show that 27% of variance in programming performance is explained by metacognitive behavior. Following the results, metacognition has the potential to be considered as one of the important predictors of performance in introductory programming.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# MC-MoE:LLM混合圧縮機がさらに向上

MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More ( http://arxiv.org/abs/2410.06270v1 )

ライセンス: Link先を確認
Wei Huang, Yue Liao, Jianhui Liu, Ruifei He, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, Xiaojuan Qi, (参考訳) Mixture-of-Experts Large Language Model (MoE-LLMs)は、言語モデルにとって重要な一歩だが、実際には2つの重要な課題に直面している。 1)エキスパートパラメータは、メモリ消費と負荷遅延をかなり引き起こす。 2) 現在のアクティベートされた専門家は冗長であり、多くのトークンは単一の専門家しか必要としない。 これらの問題に触発されて、我々はMoE-LLMを調査し、2つの重要な観察を行った。 a) 異なる専門家は、アクティベーション再構成誤差、ルーティングスコア、アクティベーション周波数に関する様々な行動を示し、その重要性を強調し、 b) すべてのトークンが等しく重要であるわけではない。 これらの知見に基づいて,MoE-LLMのトレーニング不要な混合圧縮機MC-MoEを提案する。 まず、ストレージとロードのオーバーヘッドを軽減するために、各専門家の重要性を反映した多要素のバランスをとる線形プログラミング問題として、適応ビット幅割り当てを定式化するプリロード混合精度量子化を導入する。 さらに,性能を維持しながら効率を最適化するために,他のトークンに対するアクティベートされた専門家の保持と動的選択を行う重要なトークンを識別するオンラインダイナミックプルーニングを開発した。 我々のMC-MoEは静的量子化と動的プルーニングを統合し、MoE-LLMの極端な圧縮を精度の低下で協調的に達成し、性能と効率の最適なトレードオフを確保する。 大規模な実験により、我々のアプローチの有効性が確認された。 例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。 動的推論では、アクティベートパラメータを15%削減し、性能低下は0.6%未満である。

Mixture-of-Experts large language models (MoE-LLMs) marks a significant step forward of language models, however, they encounter two critical challenges in practice: 1) expert parameters lead to considerable memory consumption and loading latency; and 2) the current activated experts are redundant, as many tokens may only require a single expert. Motivated by these issues, we investigate the MoE-LLMs and make two key observations: a) different experts exhibit varying behaviors on activation reconstruction error, routing scores, and activated frequencies, highlighting their differing importance, and b) not all tokens are equally important -- only a small subset is critical. Building on these insights, we propose MC-MoE, a training-free Mixture-Compressor for MoE-LLMs, which leverages the significance of both experts and tokens to achieve an extreme compression. First, to mitigate storage and loading overheads, we introduce Pre-Loading Mixed-Precision Quantization, which formulates the adaptive bit-width allocation as a Linear Programming problem, where the objective function balances multi-factors reflecting the importance of each expert. Additionally, we develop Online Dynamic Pruning, which identifies important tokens to retain and dynamically select activated experts for other tokens during inference to optimize efficiency while maintaining performance. Our MC-MoE integrates static quantization and dynamic pruning to collaboratively achieve extreme compression for MoE-LLMs with less accuracy loss, ensuring an optimal trade-off between performance and efficiency. Extensive experiments confirm the effectiveness of our approach. For instance, at 2.54 bits, MC-MoE compresses 76.6% of the model, with only a 3.8% average accuracy loss. During dynamic inference, we further reduce activated parameters by 15%, with a performance drop of less than 0.6%.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# 大規模言語モデルにおける心の理論のロバスト性を証明する

Probing the Robustness of Theory of Mind in Large Language Models ( http://arxiv.org/abs/2410.06271v1 )

ライセンス: Link先を確認
Christian Nickel, Laura Schrewe, Lucie Flek, (参考訳) ChatGPTや同様の大きさのSotA LLMの成功により、科学文献において、社会推論能力、特に心の理論(ToM)のような創発的な人間の主張が現れた。 一方、これらのToM能力は、心理学で使用されるものに似たタスクを用いて、うまくテストされている(Kosinski, 2023)。 一方、追跡研究の結果、タスクがわずかに変更されたときにこれらの能力は消滅した(Ullman, 2023)。 本研究では,10の複雑性クラスに割り当てられる潜在的に困難なバリエーションを含む,LLMにおけるToM探索のための68タスクのデータセットを紹介する。 このようにして、LLMがこれらのタスクのバリエーションで直面する課題に対して、新たな洞察を提供しています。 データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価を行った(Kosinski, 2023)。 全ての評価モデルにおける全体的な目標目標の精度は、限られたToM能力しか示さない。 両方のデータセットからの単純な複雑性クラスタスクにおけるLLMのパフォーマンスは類似している。 テストされた全てのLLMでは、モデルに綴じられた場合でも、エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、不整合な傾向が見られます。 前置詞を置き換えることでオブジェクト間の関係を変化させるタスクの複雑さに対して、すべてのモデルのパフォーマンス低下に気付き、その影響が最も強い。 複雑度でグループ化されたタスクのデータセットを用いて,LSMにおけるToM機能の安定化と向上について,さらなる研究の方向性を提供する。

With the success of ChatGPT and other similarly sized SotA LLMs, claims of emergent human like social reasoning capabilities, especially Theory of Mind (ToM), in these models have appeared in the scientific literature. On the one hand those ToM-capabilities have been successfully tested using tasks styled similar to those used in psychology (Kosinski, 2023). On the other hand, follow up studies showed that those capabilities vanished when the tasks were slightly altered (Ullman, 2023). In this work we introduce a novel dataset of 68 tasks for probing ToM in LLMs, including potentially challenging variations which are assigned to 10 complexity classes. This way it is providing novel insights into the challenges LLMs face with those task variations. We evaluate the ToM performance of four SotA open source LLMs on our dataset and the dataset introduced by (Kosinski, 2023). The overall low goal accuracy across all evaluated models indicates only a limited degree of ToM capabilities. The LLMs' performance on simple complexity class tasks from both datasets are similar. Whereas we find a consistent tendency in all tested LLMs to perform poorly on tasks that require the realization that an agent has knowledge of automatic state changes in its environment, even when those are spelled out to the model. For task complications that change the relationship between objects by replacing prepositions, we notice a performance drop in all models, with the strongest impact on the mixture-of-experts model. With our dataset of tasks grouped by complexity we offer directions for further research on how to stabilize and advance ToM capabilities in LLM.
翻訳日:2024-11-01 10:21:03 公開日:2024-10-08
# グラフに基づく生成コモンセンス推論における構成一般化の謎

The Mystery of Compositional Generalization in Graph-based Generative Commonsense Reasoning ( http://arxiv.org/abs/2410.06272v1 )

ライセンス: Link先を確認
Xiyan Fu, Anette Frank, (参考訳) LLMはタスク推論のためのパフォーマンスアーキテクチャとして登場したが、それらの合成一般化能力は疑問視されている。 本稿では,グラフに基づくコモンセンス推論(CGGC)のための合成一般化チャレンジを紹介する。これはシーケンスやツリー構造に基づく過去の評価を超越し,推論グラフを含むものだ。 この課題をマスターするには、モデルがグラフ内の関係的なタペルの推論方法と、言語化を概念化する際の構成方法を学ぶ必要がある。 我々は、文脈内学習を用いて7つのよく知られたLLMを評価し、パフォーマンスの高いLLMが構成一般化に苦戦していることを発見した。 推論グラフの構造を解析することにより,このギャップの潜在的な原因を解明し,様々な構造が構成一般化の難易度に変化があることを見出した。 構造物の難易度に応じて実演の順序をアレンジすると, サンプルの整理がLLMの構成一般化能力を高めることが示される。

While LLMs have emerged as performant architectures for reasoning tasks, their compositional generalization capabilities have been questioned. In this work, we introduce a Compositional Generalization Challenge for Graph-based Commonsense Reasoning (CGGC) that goes beyond previous evaluations that are based on sequences or tree structures - and instead involves a reasoning graph: It requires models to generate a natural sentence based on given concepts and a corresponding reasoning graph, where the presented graph involves a previously unseen combination of relation types. To master this challenge, models need to learn how to reason over relation tupels within the graph, and how to compose them when conceptualizing a verbalization. We evaluate seven well-known LLMs using in-context learning and find that performant LLMs still struggle in compositional generalization. We investigate potential causes of this gap by analyzing the structures of reasoning graphs, and find that different structures present varying levels of difficulty for compositional generalization. Arranging the order of demonstrations according to the structures' difficulty shows that organizing samples in an easy-to-hard schema enhances the compositional generalization ability of LLMs.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# PreDICT:候補軌道から推定される分解選好の評価による選好推論

PREDICT: Preference Reasoning by Evaluating Decomposed preferences Inferred from Candidate Trajectories ( http://arxiv.org/abs/2410.06273v1 )

ライセンス: Link先を確認
Stephane Aroca-Ouellette, Natalie Mackraz, Barry-John Theobald, Katherine Metcalf, (参考訳) パーソナライズされた効果的なインタラクションを提供するAIエージェントを作成するためには、人間の好みの調整が不可欠である。 最近の研究は、LLMがユーザーインタラクションから好みを推測する可能性を示しているが、広範で汎用的な嗜好をしばしば生み出し、人間の嗜好の独特で個人化された性質を捉えていない。 提案手法は,選好の精度と適応性を向上する手法である PreDICT を提案する。 PreDICTには、(1)推論された嗜好の反復的洗練、(2)構成要素への選好の分解、(3)複数の軌跡をまたいだ選好の検証の3つの重要な要素が組み込まれている。 我々は、グリッドワールド設定と新しいテキストドメイン環境(PLUME)の2つの異なる環境でPreDICTを評価する。 PreDICTは、既存のベースラインよりも66.2\%(gridworld environment)と41.0\%(PLUME)改善されたニュアンスな人間の嗜好をより正確に推測する。

Accommodating human preferences is essential for creating AI agents that deliver personalized and effective interactions. Recent work has shown the potential for LLMs to infer preferences from user interactions, but they often produce broad and generic preferences, failing to capture the unique and individualized nature of human preferences. This paper introduces PREDICT, a method designed to enhance the precision and adaptability of inferring preferences. PREDICT incorporates three key elements: (1) iterative refinement of inferred preferences, (2) decomposition of preferences into constituent components, and (3) validation of preferences across multiple trajectories. We evaluate PREDICT on two distinct environments: a gridworld setting and a new text-domain environment (PLUME). PREDICT more accurately infers nuanced human preferences improving over existing baselines by 66.2\% (gridworld environment) and 41.0\% (PLUME).
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# ポントリャーギンの最大原理は必要か?

Is Pontryagin's Maximum Principle all you need? Solving optimal control problems with PMP-inspired neural networks ( http://arxiv.org/abs/2410.06277v1 )

ライセンス: Link先を確認
Kawisorn Kamtue, Jose M. F. Moura, Orathai Sangpetch, (参考訳) 変分法 (Calculus of Variations) は関数最適化の数学、すなわち解が時間間隔で関数であるときの数学である。 これは、最小時間制御問題のように時間間隔が未知である場合に特に重要であり、時間解の進行は不可能である。 変分計算は最適な制御と推論を学ぶための堅牢なフレームワークを提供する。 このフレームワークは、制御と推論の課題を解決するために、ニューラルネットワークの設計にどのように活用できるのか? 本稿では,ポントリャーギンの最大原理ニューラルネットワーク(PMP-net)を提案する。 最適線形フィルタリングと最小時間制御の2つの古典的最適制御および推論問題についてPMP-netを評価する。 以上の結果から,PMP-netは,従来の"カルマンフィルタ"と"バンバンバン"制御ソリューションの導出に成功して,これらの問題を解決するために,教師なしの方法で効果的に訓練できることが示唆された。 これにより、一般的な、しかし解決されていない、最適制御問題に対処する新しいアプローチが確立される。

Calculus of Variations is the mathematics of functional optimization, i.e., when the solutions are functions over a time interval. This is particularly important when the time interval is unknown like in minimum-time control problems, so that forward in time solutions are not possible. Calculus of Variations offers a robust framework for learning optimal control and inference. How can this framework be leveraged to design neural networks to solve challenges in control and inference? We propose the Pontryagin's Maximum Principle Neural Network (PMP-net) that is tailored to estimate control and inference solutions, in accordance with the necessary conditions outlined by Pontryagin's Maximum Principle. We assess PMP-net on two classic optimal control and inference problems: optimal linear filtering and minimum-time control. Our findings indicate that PMP-net can be effectively trained in an unsupervised manner to solve these problems without the need for ground-truth data, successfully deriving the classical "Kalman filter" and "bang-bang" control solution. This establishes a new approach for addressing general, possibly yet unsolved, optimal control problems.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# クロスモーダル状態空間モデルとマルチビューマッチングによるLiDARマップの単眼的視覚的位置認識

Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching ( http://arxiv.org/abs/2410.06285v1 )

ライセンス: Link先を確認
Gongxin Yao, Xinyang Li, Luowei Fu, Yu Pan, (参考訳) プリビルドされたLiDARマップ内の単眼カメラのローカライゼーションを実現することで、視覚SLAMシステムの同時マッピングプロセスを回避でき、自律的なローカライゼーションの計算オーバーヘッドを低減できる可能性がある。 この目的のために、重要な課題の1つは、オンラインRGBイメージに従ってLiDARマップから3Dシーン(ポイントクラウド)を取得することを含む、クロスモーダルな位置認識である。 本稿では,RGB画像と点群の両方のディスクリプタを学習するための効率的なフレームワークを提案する。 ビジュアルステートスペースモデル(VMamba)をバックボーンとし、画素ビューとシーンの共同トレーニング戦略を用いて、クロスモーダルなコントラスト学習を行う。 フィールド・オブ・ビューの違いに対処するため、独立ディスクリプタは、ポイントクラウドに対する複数の均等に分散された視点から生成される。 視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。 さらに,NetVLADを用いた画素レベルの特徴量からデクリプタを生成する場合,幾何情報の損失を補うとともに,マルチビュー生成のための効率的なスキームを導入する。 KITTIとKITTI-360データセットの実験結果から,本手法の有効性と一般化が示された。 コードは受理時にリリースされます。

Achieving monocular camera localization within pre-built LiDAR maps can bypass the simultaneous mapping process of visual SLAM systems, potentially reducing the computational overhead of autonomous localization. To this end, one of the key challenges is cross-modal place recognition, which involves retrieving 3D scenes (point clouds) from a LiDAR map according to online RGB images. In this paper, we introduce an efficient framework to learn descriptors for both RGB images and point clouds. It takes visual state space model (VMamba) as the backbone and employs a pixel-view-scene joint training strategy for cross-modal contrastive learning. To address the field-of-view differences, independent descriptors are generated from multiple evenly distributed viewpoints for point clouds. A visible 3D points overlap strategy is then designed to quantify the similarity between point cloud views and RGB images for multi-view supervision. Additionally, when generating descriptors from pixel-level features using NetVLAD, we compensate for the loss of geometric information, and introduce an efficient scheme for multi-view generation. Experimental results on the KITTI and KITTI-360 datasets demonstrate the effectiveness and generalization of our method. The code will be released upon acceptance.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 非Haltingクエリ: LLMにおける固定点の爆発

Non-Halting Queries: Exploiting Fixed Points in LLMs ( http://arxiv.org/abs/2410.06287v1 )

ライセンス: Link先を確認
Ghaith Hammouri, Kemal Derya, Berk Sunar, (参考訳) 自動回帰モデルにおける固定点を利用した新たな脆弱性を導入し、停止しないクエリ、すなわち終了しないLCM出力を作成する。 より正確には、私たちがノンハーフティングクエリと呼ぶものに対して、LLMはストリングの終端トークンを決してサンプリングしない(<eos>)。 非半減期異常が出現する条件を厳密に分析する。 特に、温度0では、トークンの繰り返し(循環)列が文脈サイズを超える出力で観測された場合、LCMは停止しない。 本研究は, 繰り返しトークンが直ちに非半周期的挙動をもたらすような, 基本(非整合)モデルで実施された多数の実験において, 非半周期的異常を実証するものである。 さらに、ベースモデルで観測された同じ固定点を抽出し、アライメントされたモデルをターゲットにしたプロンプト構造を生成する簡単なレシピを開発する。 GPT-4o, llama-3-8b-instruct, gemma-2-9b-itを含む多数のLCMのアライメントをバイパスする際のレシピの挙動について検討した。 さらに、過去1年間にリリースされた主要なモデルの大半を、高温でも同じ簡単なプロンプトで半減状態にするというレシピの成功を実証する。 さらに, 直接反転に基づく手法を用いて, 新たなショートプロンプトを製作し, 非ハーフ状態を誘導する手法についても検討する。 勾配探索に基づく逆転法ARCAによる実験により, モデル間では非ハーフティングが一般的であり, 数個の入力トークンで容易に誘導できることが示唆された。 ホストシステムの信頼性への影響は、サンプリング器の最大トークン制限を設定することで緩和できるが、非半減な異常はいまだにアライメントを損なうことができる。 このことは、さらなる研究の必要性と、非半減な異常に対するより強力なアライメントの必要性を浮き彫りにする。

We introduce a new vulnerability that exploits fixed points in autoregressive models and use it to craft queries that never halt, i.e. an LLM output that does not terminate. More precisely, for what we call non-halting queries, the LLM never samples the end-of-string token (<eos>). We rigorously analyze the conditions under which the non-halting anomaly presents itself. In particular, at temperature zero, we prove that if a repeating (cyclic) sequence of tokens is observed at the output beyond the context size, then the LLM does not halt. We demonstrate the non-halting anomaly in a number of experiments performed in base (unaligned) models where repeating tokens immediately lead to a non-halting cyclic behavior as predicted by the analysis. Further, we develop a simple recipe that takes the same fixed points observed in the base model and creates a prompt structure to target aligned models. We study the recipe behavior in bypassing alignment in a number of LLMs including GPT-4o, llama-3-8b-instruct, and gemma-2-9b-it where all models are forced into a non-halting state. Further, we demonstrate the recipe's success in sending most major models released over the past year into a non-halting state with the same simple prompt even at higher temperatures. Further, we study direct inversion based techniques to craft new short prompts to induce the non-halting state. Our experiments with the gradient search based inversion technique ARCA show that non-halting is prevalent across models and may be easily induced with a few input tokens. While its impact on the reliability of hosted systems can be mitigated by configuring a hard maximum token limit in the sampler, the non-halting anomaly still manages to break alignment. This underlines the need for further studies and stronger forms of alignment against non-halting anomalies.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# マルチクリトリアインセンティブ化のためのスコア設計

Score Design for Multi-Criteria Incentivization ( http://arxiv.org/abs/2410.06290v1 )

ライセンス: Link先を確認
Anmol Kabra, Mina Karzand, Tosca Lechner, Nathan Srebro, Serena Wang, (参考訳) パフォーマンス指標を要約するスコアを設計するためのフレームワークを提案する。 本設計では,(1) スコアの改善はすべてのパフォーマンス指標を改善すること,(2) パーエト最適スコアの達成はパーエト最適指標を達成すること,の2つの目的がある。 目的を満足しながら、スコアの寸法を最小化するために設計を定式化します。 パフォーマンス指標の構造に関する軽度な仮定の下では,最小限のスコアを設計するためのアルゴリズムが提供される。 この枠組みは病院評価システムにおける現実の実践からモチベーションを引き出すもので、誤ったスコアとパフォーマンス指標が意図しない結果をもたらす。

We present a framework for designing scores to summarize performance metrics. Our design has two multi-criteria objectives: (1) improving on scores should improve all performance metrics, and (2) achieving pareto-optimal scores should achieve pareto-optimal metrics. We formulate our design to minimize the dimensionality of scores while satisfying the objectives. We give algorithms to design scores, which are provably minimal under mild assumptions on the structure of performance metrics. This framework draws motivation from real-world practices in hospital rating systems, where misaligned scores and performance metrics lead to unintended consequences.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 時間依存Bloch-Redfieldマスター方程式によるゲート忠実度とゲート駆動型デフォーカス

Gate Fidelity and Gate Driven Dephasing via Time-Dependent Bloch-Redfield Master Equation ( http://arxiv.org/abs/2410.06292v1 )

ライセンス: Link先を確認
Sirui Chen, Dragomir Davidović, (参考訳) 開量子系の微視的な性質がゲート機能にどのように影響するかを理解することは、高品質な量子ゲートの開発に不可欠である。 この研究は、高速な外部駆動を持つ線形高調波発振器の浴槽における駆動量子ビットの進化を調べる。 動的に準備された状態技術と時間依存のブロッホ・レッドフィールド・マスター方程式は正確な状態コヒーレンス計算を可能にする。 この手法は緩和力学に対する反応遅延を排除し、従来のマスター方程式における因子化初期状態による不正確な劣化率を補正する。 さらに,浴槽との相互作用がゲート忠実度に及ぼす影響について検討した。 キュービット回転角の関数として、ゲートの忠実度は {\pi}-flip に対して最小限であり、2{\pi}-flip で部分的に回復する。

Understanding how the microscopic properties of open quantum systems affect gate functionality is essential for developing high-quality quantum gates. This work examines driven qubit evolution in a bath of linear harmonic oscillators with a fast external drive. The dynamically prepared state technique and the time-dependent Bloch-Redfield master equation allow for accurate state coherence calculations. This technique eliminates reaction delays for relaxation dynamics and corrects inaccurate dephasing rates caused by factorized initial states in traditional master equations. Furthermore, the interaction with the bath is investigated for its effect on gate fidelity. As a function of the qubit rotation angle, the gate fidelity is minimal for the {\pi}-flip and partially recovers with the 2{\pi}-flip.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 大規模言語モデルアライメントのための高速化された選好最適化

Accelerated Preference Optimization for Large Language Model Alignment ( http://arxiv.org/abs/2410.06293v1 )

ライセンス: Link先を確認
Jiafan He, Huizhuo Yuan, Quanquan Gu, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。 直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化している。 これは2段階のアプローチの安定性と効率の問題を克服し、通常は報酬関数をまず推定し、その後、近似ポリシー最適化(PPO)を通じてポリシーを最適化する。 RLHFは基本的に最適化問題であり、運動量技術が理論上も経験上も最適化を加速できることはよく知られているので、自然な疑問が生じる: RLHFは運動量によって加速できるか? 本稿は、この疑問を肯定的に答える。 より詳しくは、反復的選好最適化法を近点法とみなすことができることを示す。 そこで本研究では,従来の最適化アルゴリズムの多くを統一し,Nesterovのモーメント技術を用いてLCMのアライメントを高速化する,一般的なAPO(Accelerated Preference Optimization)フレームワークを提案する。 理論的には、DPOやSPPO(Self-Play Preference Optimization)を含む標準的な反復選好最適化手法よりも、APOがより高速に収束できることを示す。 実験では,AlpacaEval 2.0ベンチマークにおいて,DPOに対するAPOの優位性,反復的DPO,その他のRLHFの強いベースラインを示す。

Reinforcement Learning from Human Feedback (RLHF) has emerged as a pivotal tool for aligning large language models (LLMs) with human preferences. Direct Preference Optimization (DPO), one of the most popular approaches, formulates RLHF as a policy optimization problem without explicitly estimating the reward function. It overcomes the stability and efficiency issues of two-step approaches, which typically involve first estimating the reward function and then optimizing the policy via proximal policy optimization (PPO). Since RLHF is essentially an optimization problem, and it is well-known that momentum techniques can accelerate optimization both theoretically and empirically, a natural question arises: Can RLHF be accelerated by momentum? This paper answers this question in the affirmative. In detail, we first show that the iterative preference optimization method can be viewed as a proximal point method. Based on this observation, we propose a general Accelerated Preference Optimization (APO) framework, which unifies many existing preference optimization algorithms and employs Nesterov's momentum technique to speed up the alignment of LLMs. Theoretically, we demonstrate that APO can achieve a faster convergence rate than the standard iterative preference optimization methods, including DPO and Self-Play Preference Optimization (SPPO). Empirically, we show the superiority of APO over DPO, iterative DPO, and other strong baselines for RLHF on the AlpacaEval 2.0 benchmark.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# ニューラル強化多対象追跡のための新しいアーキテクチャ

A New Architecture for Neural Enhanced Multiobject Tracking ( http://arxiv.org/abs/2410.06294v1 )

ライセンス: Link先を確認
Shaoxiu Wei, Mingchao Liang, Florian Meyer, (参考訳) マルチオブジェクトトラッキング(MOT)は、ロボット工学、自律運転、海洋監視において重要なタスクである。 MOTの伝統的な研究はモデルベースであり、逐次ベイズ推定の枠組みでアルゴリズムを確立することを目的としている。 最近の手法は完全なデータ駆動であり、ニューラルネットワークのトレーニングに依存している。 この2つのアプローチは、特定のシナリオにおいて利点を示してきた。 特に、ニューラルネットワークのトレーニングのためのラベル付きデータが多数存在する問題では、データ駆動型MOTは従来の手法に比べて利点がある傾向があります。 自然な考えは、汎用的で効率的なフレームワークが2つのアプローチを統合することができるかどうかである。 本稿では,Neural-enhanced belief propagation (NEBP)と呼ばれるハイブリッドモデルとデータ駆動方式を最近導入した。 NEBP for MOTの既存の研究と比較すると、MOTの2つの重要な側面である、データアソシエーションと新しいオブジェクト初期化を改善する新しいニューラルアーキテクチャが導入されている。 提案手法は,本論文提出時のnuScenes LiDARのみの追跡課題を導いたものである。

Multiobject tracking (MOT) is an important task in robotics, autonomous driving, and maritime surveillance. Traditional work on MOT is model-based and aims to establish algorithms in the framework of sequential Bayesian estimation. More recent methods are fully data-driven and rely on the training of neural networks. The two approaches have demonstrated advantages in certain scenarios. In particular, in problems where plenty of labeled data for the training of neural networks is available, data-driven MOT tends to have advantages compared to traditional methods. A natural thought is whether a general and efficient framework can integrate the two approaches. This paper advances a recently introduced hybrid model-based and data-driven method called neural-enhanced belief propagation (NEBP). Compared to existing work on NEBP for MOT, it introduces a novel neural architecture that can improve data association and new object initialization, two critical aspects of MOT. The proposed tracking method is leading the nuScenes LiDAR-only tracking challenge at the time of submission of this paper.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 等角構造予測

Conformal Structured Prediction ( http://arxiv.org/abs/2410.06296v1 )

ライセンス: Link先を確認
Botong Zhang, Shuo Li, Osbert Bastani, (参考訳) コンフォーマル予測は、予測モデルの不確実性を定量化するための有望な戦略として最近現れており、これらのアルゴリズムは、真のラベルを高い確率で含むことが保証されるラベルの集合を出力するためにモデルを修正している。 しかし、既存の共形予測アルゴリズムは、主に分類と回帰の設定を目標としており、予測セットの構造はスコアリング関数のレベルセットとして単純な形式である。 しかし、テキスト生成のような複雑な構造化された出力の場合、これらの予測セットには多数のラベルが含まれており、ユーザが解釈するのは困難である。 本稿では,既存の共形予測アルゴリズムをラベル集合を暗黙的に表現する構造化予測集合に変形させる構造予測設定における共形予測のための一般的な枠組みを提案する。 さらに、有向非巡回グラフのノードの集合として予測集合を表現できる領域において、我々のアプローチがどのように適用できるかを実証する。例えば、画像分類のような階層的なラベルの場合、予測集合は、より微細な被写体の予測集合を暗黙的に表す粗いラベルの小さなサブセットであるかもしれない。 本稿では,提案アルゴリズムを用いて,複数の領域において所望のカバレッジ保証を満たす予測セットを構築する方法を示す。

Conformal prediction has recently emerged as a promising strategy for quantifying the uncertainty of a predictive model; these algorithms modify the model to output sets of labels that are guaranteed to contain the true label with high probability. However, existing conformal prediction algorithms have largely targeted classification and regression settings, where the structure of the prediction set has a simple form as a level set of the scoring function. However, for complex structured outputs such as text generation, these prediction sets might include a large number of labels and therefore be hard for users to interpret. In this paper, we propose a general framework for conformal prediction in the structured prediction setting, that modifies existing conformal prediction algorithms to output structured prediction sets that implicitly represent sets of labels. In addition, we demonstrate how our approach can be applied in domains where the prediction sets can be represented as a set of nodes in a directed acyclic graph; for instance, for hierarchical labels such as image classification, a prediction set might be a small subset of coarse labels implicitly representing the prediction set of all their more fine-descendants. We demonstrate how our algorithm can be used to construct prediction sets that satisfy a desired coverage guarantee in several domains.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# ゲームプレイAIから見た集合カードゲームの分類

A Taxonomy of Collectible Card Games from a Game-Playing AI Perspective ( http://arxiv.org/abs/2410.06299v1 )

ライセンス: Link先を確認
Ronaldo e Silva Vieira, Anderson Rocha Tavares, Luiz Chaimowicz, (参考訳) 集合カードゲームは、近年AI研究コミュニティから注目を集めている、広くプレイされている難題である。 重要なブレークスルーにもかかわらず、この分野は未だに未解決の課題を数多く抱えている。 この研究は、ゲームプレイングAI研究の観点から、ルール、メカニック、ゲームモードを分析して、収集可能なカードゲームの分類を提案することにより、このジャンルのさらなる研究を支援することを目的としている。 そこで我々は,一連の人気ゲームについて検討し,その特徴について徹底的な議論を行った。

Collectible card games are challenging, widely played games that have received increasing attention from the AI research community in recent years. Despite important breakthroughs, the field still poses many unresolved challenges. This work aims to help further research on the genre by proposing a taxonomy of collectible card games by analyzing their rules, mechanics, and game modes from the perspective of game-playing AI research. To achieve this, we studied a set of popular games and provided a thorough discussion about their characteristics.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# スパースフーリエ関数近似による償却SHAP値

Amortized SHAP values via sparse Fourier function approximation ( http://arxiv.org/abs/2410.06300v1 )

ライセンス: Link先を確認
Ali Gorji, Andisheh Amrollahi, Andreas Krause, (参考訳) SHAP値は、解釈可能で説明可能なAIで広く使われている、一般的なローカルな特徴属性手法である。 これらの値を効率的に計算する問題に取り組みます。 モデルに依存しない(ブラックボックス)設定と、モデルへのクエリアクセスしか持たない(アンサンブルの)ツリーの場合の両方をカバーします。 ブラックボックスとツリー設定の両方に対して、SHAP値を推定するための2段階のアプローチを提案する。 我々のアルゴリズムの最初のステップは、多くの実世界の予測器が、正確に(決定木のアンサンブルの場合)、あるいは、コンパクトなフーリエ表現を用いて(ニューラルネットワークの場合)それらを効率的に近似できるスペクトルバイアスを持つことを示す最近の結果を利用する。 アルゴリズムの第2ステップでは、フーリエ表現を用いてSHAP値を正確に計算する。 第一に表現はコンパクトであり、第二にフーリエ基底関数に対してSHAP値に対する閉形式表現が存在することを証明する。 さらに、この式は計算を単純な和に効果的に線形化し、複数のコアやGPU上で並列化することができる。 関数近似(最初のステップ)は1回しか行われないので、Shapleyの値を償却された方法で生成することができます。 木とブラックボックスの設定の精度に等しい基準線法と比較して,高速化を示す。 さらに,従来すべてのブラックボックス法では利用できなかったフーリエ近似(Fourier approximation)の空間性を通じて,計算と精度の間の信頼性と微妙な連続的なトレードオフを導入する。

SHAP values are a popular local feature-attribution method widely used in interpretable and explainable AI. We tackle the problem of efficiently computing these values. We cover both the model-agnostic (black-box) setting, where one only has query access to the model and also the case of (ensembles of) trees where one has access to the structure of the tree. For both the black-box and the tree setting we propose a two-stage approach for estimating SHAP values. Our algorithm's first step harnesses recent results showing that many real-world predictors have a spectral bias that allows us to either exactly represent (in the case of ensembles of decision trees), or efficiently approximate them (in the case of neural networks) using a compact Fourier representation. In the second step of the algorithm, we use the Fourier representation to exactly compute SHAP values. The second step is computationally very cheap because firstly, the representation is compact and secondly, we prove that there exists a closed-form expression for SHAP values for the Fourier basis functions. Furthermore, the expression we derive effectively linearizes the computation into a simple summation and is amenable to parallelization on multiple cores or a GPU. Since the function approximation (first step) is only done once, it allows us to produce Shapley values in an amortized way. We show speedups compared to relevant baseline methods equal levels of accuracy for both the tree and black-box settings. Moreover, this approach introduces a reliable and fine-grained continuous trade-off between computation and accuracy through the sparsity of the Fourier approximation, a feature previously unavailable in all black-box methods.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 二相透過格子を用いた可逆光アコーディオン格子

Versatile optical accordion lattices using binary phase transmission gratings ( http://arxiv.org/abs/2410.06301v1 )

ライセンス: Link先を確認
Hyok Sang Han, Ahreum Lee, Sarthak Subhankar, S. L. Rolston, Fredrik K. Fatemi, (参考訳) 光アコーディオン格子は、光学格子間隔を調整するために、量子シミュレーションや量子計算実験で日常的に使用される。 本稿では,二相透過格子を用いた波長可変光格子の作製手法を提案する。 この技術を用いて生成された格子は、均一性、コントラスト、格子間隔調整性、電力効率が高い。 これらの特性は、量子ネットワークと量子シミュレーションのために光導波路と結合した高次原子配列における集合量子現象の探索に不可欠である。 本稿では,光ナノファイバーの使用に適した調整可能な周期格子について述べる。

Optical accordion lattices are routinely used in quantum simulation and quantum computation experiments to tune optical lattice spacings. Here, we present a technique for creating tunable optical lattices using binary-phase transmission gratings. Lattices generated using this technique have high uniformity, contrast, lattice spacing tunability, and power efficiencies. These attributes are crucial for exploring collective quantum phenomena in highly ordered atomic arrays coupled to optical waveguides for quantum networking and quantum simulation. In this paper, we demonstrate adjustable-period lattices that are ideally suited for use with optical nanofibers.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 構成リスク最小化

Compositional Risk Minimization ( http://arxiv.org/abs/2410.06303v1 )

ライセンス: Link先を確認
Divyat Mahajan, Mohammad Pezeshki, Ioannis Mitliagkas, Kartik Ahuja, Pascal Vincent, (参考訳) 本研究では, サブポピュレーションシフトの難易度と極端な形態に取り組み, これを構成シフトと呼ぶ。 構成シフトの下では、いくつかの属性の組み合わせはトレーニング分布から完全に欠落しているが、テスト分布には存在しない。 我々は、各エネルギー項が属性を表すフレキシブルな付加エネルギー分布を用いてデータをモデル化し、構成的リスク最小化(CRM)と呼ばれる経験的リスク最小化の簡単な代替案を導出する。 まず、複数の属性を予測するために加法エネルギー分類器を訓練し、次にこの分類器を合成シフトに取り組むように調整する。 我々はCRMの広範な理論的分析を行い、この提案は、見受けられる属性の組み合わせの特別なアフィン殻に外挿することを示す。 ベンチマークデータセットの実証評価により、CRMのロバスト性は、様々な形態のサブポピュレーションシフトに取り組むために設計された文献の他の方法と比較して改善されていることが確認できる。

In this work, we tackle a challenging and extreme form of subpopulation shift, which is termed compositional shift. Under compositional shifts, some combinations of attributes are totally absent from the training distribution but present in the test distribution. We model the data with flexible additive energy distributions, where each energy term represents an attribute, and derive a simple alternative to empirical risk minimization termed compositional risk minimization (CRM). We first train an additive energy classifier to predict the multiple attributes and then adjust this classifier to tackle compositional shifts. We provide an extensive theoretical analysis of CRM, where we show that our proposal extrapolates to special affine hulls of seen attribute combinations. Empirical evaluations on benchmark datasets confirms the improved robustness of CRM compared to other methods from the literature designed to tackle various forms of subpopulation shifts.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 言語モデル数学的推論におけるきめ細かい幻覚検出と緩和

Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning ( http://arxiv.org/abs/2410.06304v1 )

ライセンス: Link先を確認
Ruosen Li, Ziming Luo, Xinya Du, (参考訳) 大規模言語モデル(LLM)における幻覚は、数学的問題解決のような複雑な多段階推論を必要とするタスクにおいて重大な課題を引き起こす。 既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解が欠如している。 本稿ではまず, 数学的推論タスクにおける共通幻覚を, 生成, 事実的不整合, 文脈的不整合, 命令的不整合, 論理的不整合, 論理的誤りの6つのタイプに分類する。 次にFG-PRM(Fine-Grained Process Reward Model)を提案する。 手動ラベリングトレーニングデータの限界に対処するため,LLMを用いて微細な幻覚データを生成する自動手法を提案する。 適切な解の推論ステップに幻覚を注入することにより、FG-PRMを訓練するための多種多様でバランスの取れた合成データセットを作成し、それぞれが特定の幻覚型を検出するように調整された6つのプロセスリワードモデル(PRM)から構成される。 我々のFG-PRMは2つの主要なタスクにまたがる優れた性能を示している。 1)微粒な幻覚検出:各推論ステップごとに幻覚の種類を分類すること。 2)検証:最も正確な解を選択するために複数のLCM生成出力をランク付けし、推論幻覚を緩和する。 実験の結果,FG-PRM は ChatGPT-3.5 と Claude-3 より微細な幻覚検出に優れ,GSM8K および MATH ベンチマーク上での LLM の性能を大幅に向上させることがわかった。

Hallucinations in large language models (LLMs) pose significant challenges in tasks requiring complex multi-step reasoning, such as mathematical problem-solving. Existing approaches primarily detect the presence of hallucinations but lack a nuanced understanding of their types and manifestations. In this paper, we first introduce a comprehensive taxonomy that categorizes the common hallucinations in mathematical reasoning task into six types: fabrication, factual inconsistency, context inconsistency, instruction inconsistency, logical inconsistency, and logical error. We then propose FG-PRM (Fine-Grained Process Reward Model), an augmented model designed to detect and mitigate hallucinations in a fine-grained, step-level manner. To address the limitations of manually labeling training data, we propose an automated method for generating fine-grained hallucination data using LLMs. By injecting hallucinations into reasoning steps of correct solutions, we create a diverse and balanced synthetic dataset for training FG-PRM, which consists of six specialized Process Reward Models (PRMs), each tailored to detect a specific hallucination type. Our FG-PRM demonstrates superior performance across two key tasks: 1) Fine-grained hallucination detection: classifying hallucination types for each reasoning step; and 2) Verification: ranking multiple LLM-generated outputs to select the most accurate solution, mitigating reasoning hallucinations. Our experiments show that FG-PRM outperforms ChatGPT-3.5 and Claude-3 on fine-grained hallucination detection and substantially boosts the performance of LLMs on GSM8K and MATH benchmarks.
翻訳日:2024-11-01 10:11:01 公開日:2024-10-08
# 火山噴火データにおける新しいデータ分割手法のベンチマーク

Benchmarking of a new data splitting method on volcanic eruption data ( http://arxiv.org/abs/2410.06306v1 )

ライセンス: Link先を確認
Simona Reale, Pietro Di Stasio, Francesco Mauro, Alessandro Sebastianelli, Paolo Gamba, Silvia Liberata Ullo, (参考訳) 本稿では, 火山噴火の入力データセットを2つの部分に分割し, この2つの部分の累積ヒストグラムから算出した相同性指数を用いて分割する手法を提案する。 この設計の一環として、累積ヒストグラム異性度(CHD)指数が導入された。 得られた結果から,RandomスプリッティングとK平均の両方が異なる構成で実装されているのに対し,提案モデルでは,エポック数がわずかに増加し,最高の性能が得られる。 しかし、これはモデルが入力データセットからより深く学習できることを示しており、これは分割の品質に起因する。 実際、各モデルはオーバーフィッティングに適する早期停止を訓練し、提案手法のエポック数の増加は、早期停止がオーバーフィッティングを検知しないことを示し、その結果、学習が最適であることを示した。

In this paper, a novel method for data splitting is presented: an iterative procedure divides the input dataset of volcanic eruption, chosen as the proposed use case, into two parts using a dissimilarity index calculated on the cumulative histograms of these two parts. The Cumulative Histogram Dissimilarity (CHD) index is introduced as part of the design. Based on the obtained results the proposed model in this case, compared to both Random splitting and K-means implemented over different configurations, achieves the best performance, with a slightly higher number of epochs. However, this demonstrates that the model can learn more deeply from the input dataset, which is attributable to the quality of the splitting. In fact, each model was trained with early stopping, suitable in case of overfitting, and the higher number of epochs in the proposed method demonstrates that early stopping did not detect overfitting, and consequently, the learning was optimal.
翻訳日:2024-11-01 06:29:17 公開日:2024-10-08
# モデル予測制御は安静帯域にほぼ最適である

Model Predictive Control is Almost Optimal for Restless Bandit ( http://arxiv.org/abs/2410.06307v1 )

ライセンス: Link先を確認
Nicolas Gast, Dheeraj Narasimha, (参考訳) 離散時間無限水平平均報酬(RMAB)問題を考える。 転がり計算の地平線を$\tau$で表わすような非定常的ポリシーを, \emph{model predictive control} に基づいて提案する。 各時間スロットにおいて、このポリシーはRMABの制御として第1の制御値を保持する$\tau$水平線形プログラムを解く。 我々の解は最小限の仮定を必要とし、$\tau$と腕の数、$N$で最適性の損失を定量化する。 その部分最適性ギャップは一般に$O(1/\sqrt{N})$であり、局所安定条件下では$\exp(-\Omega(N))$である。 我々の証明は 'emph{dissipativity} として知られる動的制御の枠組みに基づいている。 私たちのソリューションは実装が容易で、最先端のソリューションと比較して非常にうまく機能します。 さらに、我々のソリューションと証明手法は、より一般的な制約されたMDP設定に容易に一般化できるので、新興のRMABコミュニティにとって大きな関心を持つべきである。

We consider the discrete time infinite horizon average reward restless markovian bandit (RMAB) problem. We propose a \emph{model predictive control} based non-stationary policy with a rolling computational horizon $\tau$. At each time-slot, this policy solves a $\tau$ horizon linear program whose first control value is kept as a control for the RMAB. Our solution requires minimal assumptions and quantifies the loss in optimality in terms of $\tau$ and the number of arms, $N$. We show that its sub-optimality gap is $O(1/\sqrt{N})$ in general, and $\exp(-\Omega(N))$ under a local-stability condition. Our proof is based on a framework from dynamic control known as \emph{dissipativity}. Our solution easy to implement and performs very well in practice when compared to the state of the art. Further, both our solution and our proof methodology can easily be generalized to more general constrained MDP settings and should thus, be of great interest to the burgeoning RMAB community.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# ニューラルネットワークに基づくPDE解法における学習困難度と加速収束度の定量化

Quantifying Training Difficulty and Accelerating Convergence in Neural Network-Based PDE Solvers ( http://arxiv.org/abs/2410.06308v1 )

ライセンス: Link先を確認
Chuqi Chen, Qixuan Zhou, Yahong Yang, Yang Xiang, Tao Luo, (参考訳) ニューラルネットワークベースの手法は、科学や工学の応用、特に複雑なドメインの処理や経験的データの導入において、偏微分方程式(PDE)を解く強力なツールとして登場した。 これらの手法は、ニューラルネットワークを基底関数として利用し、PDE解を近似する。 しかし、そのようなネットワークのトレーニングは困難であり、しばしば精度が制限される。 本稿では,ニューラルネットワークを用いたPDEソルバのトレーニングダイナミクスについて検討し,初期化手法の影響に着目した。 本稿では,カーネルの固有値分布を解析してトレーニングの難しさを評価し,この難易度を定量化するために有効なランクの概念を適用した。 これに基づいて、理論解析と数値実験により、ユニタリ分割(PoU)と分散スケーリング(VS)の2つの初期化手法が有効ランクを高め、トレーニングエラーの収束を加速することを発見した。 さらに、PINN、Deep Ritz、および演算子学習フレームワークDeepOnetといった人気のあるPDE解決フレームワークを用いた総合的な実験により、これらの初期化手法が、理論的な結果に従って収束を継続的に加速することを確認する。

Neural network-based methods have emerged as powerful tools for solving partial differential equations (PDEs) in scientific and engineering applications, particularly when handling complex domains or incorporating empirical data. These methods leverage neural networks as basis functions to approximate PDE solutions. However, training such networks can be challenging, often resulting in limited accuracy. In this paper, we investigate the training dynamics of neural network-based PDE solvers with a focus on the impact of initialization techniques. We assess training difficulty by analyzing the eigenvalue distribution of the kernel and apply the concept of effective rank to quantify this difficulty, where a larger effective rank correlates with faster convergence of the training error. Building upon this, we discover through theoretical analysis and numerical experiments that two initialization techniques, partition of unity (PoU) and variance scaling (VS), enhance the effective rank, thereby accelerating the convergence of training error. Furthermore, comprehensive experiments using popular PDE-solving frameworks, such as PINN, Deep Ritz, and the operator learning framework DeepOnet, confirm that these initialization techniques consistently speed up convergence, in line with our theoretical findings.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# 健康情報テキスト分類におけるハイブリッドモデルの比較検討

A Comparative Study of Hybrid Models in Health Misinformation Text Classification ( http://arxiv.org/abs/2410.06311v1 )

ライセンス: Link先を確認
Mkululi Sikosana, Oluwaseun Ajao, Sean Maudsley-Barton, (参考訳) 本研究では、オンラインソーシャルネットワーク(OSN)上での新型コロナウイルス関連誤情報検出における機械学習(ML)モデルと深層学習(DL)モデルの有効性を評価し、パンデミック時の健康誤情報の拡散に対処するためのより効果的なツールを開発することを目的とした。 本研究では,各種ML分類器(Naive Bayes,SVM,ランダムフォレストなど),DLモデル(CNN,LSTM,ハイブリッドCNN+LSTM),事前学習言語モデル(DistilBERT,RoBERTa)を"COVID19-FNIR dataSET"上で訓練し,試験した。 これらのモデルは精度、F1スコア、リコール、精度、ROCで評価され、ステミングや補修といった前処理技術を使用した。 その結果、SVMは94.41%のF1スコアを達成した。 Word2Vecを組み込んだDLモデルは、すべてのパフォーマンス指標(精度、F1スコア、リコール、精度、ROC)で98%を超えた。 CNN+LSTMハイブリッドモデルもパフォーマンス指標で98%を超え、DistilBERTやRoBERTaといった事前トレーニング済みモデルを上回った。 本研究は, 従来のMLアルゴリズムよりも, DLおよびハイブリッドDLモデルの方が, OSN上の新型コロナウイルスの誤情報を検出するのに有効であることが示唆された。 この発見は、誤情報検出における高度なニューラルネットワークアプローチと大規模事前学習の重要性を強調している。 今後の研究は、これらのモデルを様々な誤報タイプに最適化し、OSNの変更に適応し、健康上の誤報と戦うことを目指している。

This study evaluates the effectiveness of machine learning (ML) and deep learning (DL) models in detecting COVID-19-related misinformation on online social networks (OSNs), aiming to develop more effective tools for countering the spread of health misinformation during the pan-demic. The study trained and tested various ML classifiers (Naive Bayes, SVM, Random Forest, etc.), DL models (CNN, LSTM, hybrid CNN+LSTM), and pretrained language models (DistilBERT, RoBERTa) on the "COVID19-FNIR DATASET". These models were evaluated for accuracy, F1 score, recall, precision, and ROC, and used preprocessing techniques like stemming and lemmatization. The results showed SVM performed well, achieving a 94.41% F1-score. DL models with Word2Vec embeddings exceeded 98% in all performance metrics (accuracy, F1 score, recall, precision & ROC). The CNN+LSTM hybrid models also exceeded 98% across performance metrics, outperforming pretrained models like DistilBERT and RoBERTa. Our study concludes that DL and hybrid DL models are more effective than conventional ML algorithms for detecting COVID-19 misinformation on OSNs. The findings highlight the importance of advanced neural network approaches and large-scale pretraining in misinformation detection. Future research should optimize these models for various misinformation types and adapt to changing OSNs, aiding in combating health misinformation.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# 時間的画像キャプチャ検索コンペティション -- 説明と結果

Temporal Image Caption Retrieval Competition -- Description and Results ( http://arxiv.org/abs/2410.06314v1 )

ライセンス: Link先を確認
Jakub Pokrywka, Piotr Wierzchoń, Kornel Weryszko, Krzysztof Jassem, (参考訳) 視覚情報とテキスト情報を組み合わせたマルチモーダルモデルは近年,認知度が高まっている。 本稿では,テキスト画像検索のマルチモーダル課題に対処し,時間的データを含むモーダル性を拡張する新しいタスクを提案する。 本論文は,274年にわたる歴史あるアメリカの新聞をデジタル化して収集する,日刊アメリカ・チャレニアングアメリカプロジェクトを基にした画像検索コンペティション(TICRC)である。 コンペの結果に加えて、提供されたデータセットと作成プロセスの分析結果も提供する。

Multimodal models, which combine visual and textual information, have recently gained significant recognition. This paper addresses the multimodal challenge of Text-Image retrieval and introduces a novel task that extends the modalities to include temporal data. The Temporal Image Caption Retrieval Competition (TICRC) presented in this paper is based on the Chronicling America and Challenging America projects, which offer access to an extensive collection of digitized historic American newspapers spanning 274 years. In addition to the competition results, we provide an analysis of the delivered dataset and the process of its creation.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# ポリシー勾配のない複素作用空間での学習

Learning in complex action spaces without policy gradients ( http://arxiv.org/abs/2410.06317v1 )

ライセンス: Link先を確認
Arash Tavakoli, Sina Ghiassian, Nemanja Rakićević, (参考訳) 従来の知恵は、ポリシー勾配法はアクション値法よりも複雑なアクション空間に適していることを示唆している。 しかし、基礎研究により、これらのパラダイムは小さな作用空間と有限作用空間(O'Donoghue et al , 2017; Schulman et al , 2017a)で等価であることが示されている。 このことは、アクション空間の複雑さが増大するにつれて、その計算適用性と性能がなぜばらばらになるのかという問題を提起する。 このような設定における政策勾配の明らかな優越性は、パラダイムの本質的な性質ではなく、同様の機能を実現するためにアクション・バリュー・メソッドにも適用可能な普遍的な原則に由来する、という仮説を立てる。 このような原則を3つ同定し,アクション・バリュー・メソッドに組み込むためのフレームワークを提供する。 仮説を支持するため,このフレームワークをQMLE (Q-learning) と呼ぶ,最大推定可能なQ-Learning(Q-Learning) にインスタンス化する。 以上の結果から,QMLEはポリシ勾配法に匹敵する計算コストで複雑な行動空間に適用可能であることが示唆された。 さらに、QMLEはDMPOやD4PGのような最先端の手法と比較しても、DeepMind Control Suiteで強い性能を示す。

Conventional wisdom suggests that policy gradient methods are better suited to complex action spaces than action-value methods. However, foundational studies have shown equivalences between these paradigms in small and finite action spaces (O'Donoghue et al., 2017; Schulman et al., 2017a). This raises the question of why their computational applicability and performance diverge as the complexity of the action space increases. We hypothesize that the apparent superiority of policy gradients in such settings stems not from intrinsic qualities of the paradigm, but from universal principles that can also be applied to action-value methods to serve similar functionality. We identify three such principles and provide a framework for incorporating them into action-value methods. To support our hypothesis, we instantiate this framework in what we term QMLE, for Q-learning with maximum likelihood estimation. Our results show that QMLE can be applied to complex action spaces with a controllable computational cost that is comparable to that of policy gradient methods, all without using policy gradients. Furthermore, QMLE demonstrates strong performance on the DeepMind Control Suite, even when compared to the state-of-the-art methods such as DMPO and D4PG.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# 有限温度におけるスピン軌道結合平均場ボースガス

Spin-orbit coupled mean-field Bose gas at finite temperature ( http://arxiv.org/abs/2410.06318v1 )

ライセンス: Link先を確認
Pawel Jakubczyk, Marek Napiórkowski, (参考訳) スピン軌道結合型ボースガスと反発平均場-粒子間相互作用を考察する。 我々は, 温度$T>0$, 化学ポテンシャル, 粒子間相互作用, スピン軌道相互作用結合の相図を解析した。 以上の結果から、Rashba型およびWeyl型スピン軌道カップリングの場合、秩序波ベクトル$\vec{Q}\neq \vec{0}$は熱ゆらぎに対して脆弱であり、BECを含む唯一の安定な熱力学的位相は$\vec{Q}=\vec{0}$であることがわかった。 一方、スピン軌道結合の存在は任意の次元$d>1$における$\vec{Q}=\vec{0}$ BEC状態を安定化させ、対応する相転移の位数または普遍性クラスを変更する。 スピン軌道相互作用結合の極限である$v$, 異なる$v$の位相境界の大きさシフト, および縮合遷移の特性に対する粒子間相互作用結合の相対等級の役割の特異性を強調した。

We consider the spin-orbit coupled Bose gas with repulsive mean-field interparticle interactions. We analyze the phase diagram of the system varying the temperature $T>0$, the chemical potentials, as well as interparticle and spin-orbit interaction couplings. Our results indicate that, for Rashba- and Weyl-type spin-orbit couplings, condensates featuring ordering wavevector $\vec{Q}\neq \vec{0}$ are fragile with respect to thermal fluctuations and, at $T>0$, the only stable thermodynamic phases involving the Bose-Einstein condensate (BEC) are those of uniform type with $\vec{Q}=\vec{0}$. On the other hand, presence of the spin-orbit coupling stabilizes the $\vec{Q}=\vec{0}$ BEC state at any dimensionality $d>1$ and modifies either the order or the universality class of the corresponding phase transition. We emphasize the singular nature of the limit of vanishing spin-orbit interaction coupling $v$, sizable shifts of the phase boundaries upon varying $v$, as well as the role of the relative magnitudes of the interparticle interaction couplings for the character of the condensation transition.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# 自然パラメトリゼーションによる共変量調整ガウス図形の凸定式化

A convex formulation of covariate-adjusted Gaussian graphical models via natural parametrization ( http://arxiv.org/abs/2410.06326v1 )

ライセンス: Link先を確認
Ruobin Liu, Guo Yu, (参考訳) ガウス図形モデル(GGM)は、確率変数間の条件付き独立構造を復元するために広く用いられている。 近年、興味のある変数のGGMをより正確に推定するために、追加の変数セットを活用するためにいくつかの重要な進歩がなされている。 例えば、eQTL(co-expression quantitative trait locus)研究では、遺伝子の平均的な発現レベルと2つの条件付き独立構造の両方が、それらの遺伝子に固有の遺伝的変異によって調節される可能性がある。 共変量調整GGMを推定する既存の方法は、平均と精度行列を同時に推定する固有の非凸性のため、平均が共変量に依存するか、あるいはスケーリングの仮定が貧弱な場合のみを許容する。 本稿では,多変量ガウス確率の自然なパラメトリゼーションを利用して,共変量調整平均と精度行列を共同で推定する凸定式化を提案する。 この凸性は、サンプル数に対して共変量の空間と次元が大きくなるにつれて理論上より優れた性能をもたらす。 我々は, 数値シミュレーションを用いて理論結果を検証し, 脳がんの攻撃的形態であるglioblastoma multiforme (GBM) のeQTL研究を再検討した。

Gaussian graphical models (GGMs) are widely used for recovering the conditional independence structure among random variables. Recently, several key advances have been made to exploit an additional set of variables for better estimating the GGMs of the variables of interest. For example, in co-expression quantitative trait locus (eQTL) studies, both the mean expression level of genes as well as their pairwise conditional independence structure may be adjusted by genetic variants local to those genes. Existing methods to estimate covariate-adjusted GGMs either allow only the mean to depend on covariates or suffer from poor scaling assumptions due to the inherent non-convexity of simultaneously estimating the mean and precision matrix. In this paper, we propose a convex formulation that jointly estimates the covariate-adjusted mean and precision matrix by utilizing the natural parametrization of the multivariate Gaussian likelihood. This convexity yields theoretically better performance as the sparsity and dimension of the covariates grow large relative to the number of samples. We verify our theoretical results with numerical simulations and perform a reanalysis of an eQTL study of glioblastoma multiforme (GBM), an aggressive form of brain cancer.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# GENEA Leaderboard -- 会話運動合成の評価と改善のための拡張型リビングベンチマーク

Towards a GENEA Leaderboard -- an Extended, Living Benchmark for Evaluating and Advancing Conversational Motion Synthesis ( http://arxiv.org/abs/2410.06327v1 )

ライセンス: Link先を確認
Rajmund Nagy, Hendric Voss, Youngwoo Yoon, Taras Kucherenko, Teodor Nikolov, Thanh Hoang-Minh, Rachel McDonnell, Stefan Kopp, Michael Neff, Gustav Eje Henter, (参考訳) 音声駆動ジェスチャ生成における現在の評価手法は、標準化が欠如しており、実際に重要な側面に対して測定が容易な側面に焦点を当てている。 これは、最先端技術が何であるかを知ることが不可能な状況や、2つの出版物を比較する際に、どの方法がどの目的に有効かを知ることにつながる。 本稿では,既存のジェスチャジェネレーション評価の問題点を概説し,その解決に向けた新しい提案を提案する。 具体的には,対話型モーション合成の進歩をベンチマークするライビングリーダーボードについて発表する。 従来のジェスチャ生成の課題とは異なり、リーダーボードは毎年複数回新しいジェスチャ生成システムの大規模なユーザスタディを伴って更新され、リーダーボード上のシステムは著者が好むすべての出版場所に提出される。 リーダボードの評価データとタスクを時間とともに進化させることで、コミュニティが認識した最も重要な目標に向かって前進し続けることができます。 評価パイプライン全体にわたるコミュニティの関与を積極的に求めています。データやタスクからツーリングを通じて評価対象のシステムまで。 言い換えれば、我々の提案は、研究者が優れた評価を行うのを容易にするだけでなく、それらの総合的なインプットとコントリビューションは、ジェスチャー生成研究の将来を後押しする。

Current evaluation practices in speech-driven gesture generation lack standardisation and focus on aspects that are easy to measure over aspects that actually matter. This leads to a situation where it is impossible to know what is the state of the art, or to know which method works better for which purpose when comparing two publications. In this position paper, we review and give details on issues with existing gesture-generation evaluation, and present a novel proposal for remedying them. Specifically, we announce an upcoming living leaderboard to benchmark progress in conversational motion synthesis. Unlike earlier gesture-generation challenges, the leaderboard will be updated with large-scale user studies of new gesture-generation systems multiple times per year, and systems on the leaderboard can be submitted to any publication venue that their authors prefer. By evolving the leaderboard evaluation data and tasks over time, the effort can keep driving progress towards the most important end goals identified by the community. We actively seek community involvement across the entire evaluation pipeline: from data and tasks for the evaluation, via tooling, to the systems evaluated. In other words, our proposal will not only make it easier for researchers to perform good evaluations, but their collective input and contributions will also help drive the future of gesture-generation research.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# 確率質量関数テンソルのベイズ推定とチューニング自由ランク検出

Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors ( http://arxiv.org/abs/2410.06329v1 )

ライセンス: Link先を確認
Joseph K. Chege, Arie Yeredor, Martin Haardt, (参考訳) 統計信号処理や機械学習において,観測データから確率変数の集合の結合確率質量関数(PMF)の信頼度を推定することは重要な目的である。 低ランク正準多進分解(CPD)を許容するテンソルとしての関節PMFのモデル化により,効率的なPMF推定アルゴリズムの開発が可能となった。 しかし、これらのアルゴリズムはテンソルのランク(モデル順序)を事前に指定する必要がある。 実世界の応用において、真のランクは未知である。 したがって、検証エラーを観測したり、様々な可能性ベースの情報基準を計算したりすることで、適切なランクが設定された候補から選択されるのが普通である。 本稿では,共同PMFを推定し,そのランクを観測データから自動的に推定する新しいベイズ的枠組みを提案する。 ベイジアンPMF推定モデルを定義し、モデルパラメータに適切な事前分布を適用し、単一のトレーニング実行によるチューニング不要なランク推論を可能にする。 次に、変動推論(VI)に基づく決定論的解を導出し、様々なモデルパラメータの後方分布を近似する。 さらに,確率的変分推論(SVI)を活用して,複雑性がデータセットのサイズと直交的にスケールする効率的なアルゴリズムを構築することにより,VIベースのアプローチのスケーラブルバージョンを開発する。 合成データと実写映画レコメンデーションデータの両方を含む数値実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。

Obtaining a reliable estimate of the joint probability mass function (PMF) of a set of random variables from observed data is a significant objective in statistical signal processing and machine learning. Modelling the joint PMF as a tensor that admits a low-rank canonical polyadic decomposition (CPD) has enabled the development of efficient PMF estimation algorithms. However, these algorithms require the rank (model order) of the tensor to be specified beforehand. In real-world applications, the true rank is unknown. Therefore, an appropriate rank is usually selected from a candidate set either by observing validation errors or by computing various likelihood-based information criteria, a procedure which is computationally expensive for large datasets. This paper presents a novel Bayesian framework for estimating the joint PMF and automatically inferring its rank from observed data. We specify a Bayesian PMF estimation model and employ appropriate prior distributions for the model parameters, allowing for tuning-free rank inference via a single training run. We then derive a deterministic solution based on variational inference (VI) to approximate the posterior distributions of various model parameters. Additionally, we develop a scalable version of the VI-based approach by leveraging stochastic variational inference (SVI) to arrive at an efficient algorithm whose complexity scales sublinearly with the size of the dataset. Numerical experiments involving both synthetic data and real movie recommendation data illustrate the advantages of our VI and SVI-based methods in terms of estimation accuracy, automatic rank detection, and computational efficiency.
翻訳日:2024-11-01 06:29:16 公開日:2024-10-08
# 相関候補不確実性を考慮したバッチベイズ最適化

Batched Bayesian optimization with correlated candidate uncertainties ( http://arxiv.org/abs/2410.06333v1 )

ライセンス: Link先を確認
Jenna Fromer, Runzhong Wang, Mrunali Manjrekar, Austin Tripp, José Miguel Hernández-Lobato, Connor W. Coley, (参考訳) バッチベイズ最適化(BO)は、大きな化学ライブラリーから高い性能の化合物を効率的に同定することにより、分子設計を加速することができる。 BOにおけるバッチ設計のための既存の買収戦略は、探索とエクスプロイトのバランスをとることを目的としている。 これはしばしば、非付加的なバッチ取得関数を最適化し、心筋構築または/または多様性ヒューリスティックスによる近似を必要とする。 そこで本研究では,純粋に活用する qPO (multipoint Probability of Optimality) によって動機付けられた離散最適化の獲得戦略を提案する。 qPOは、バッチが真の最適値を含む確率を最大化し、これは個々の取得スコアの和として表されるので、バッチ取得関数を最適化する組合せ課題を回避できる。 提案手法を並列トンプソンサンプリングと区別し,多様性を暗黙的に捉える方法について論じる。 最後に,本手法を大規模化学ライブラリのモデル誘導探索に適用し,バッチ化ベイズ最適化における最先端手法と同等以上の性能を示すことを示す。

Batched Bayesian optimization (BO) can accelerate molecular design by efficiently identifying top-performing compounds from a large chemical library. Existing acquisition strategies for batch design in BO aim to balance exploration and exploitation. This often involves optimizing non-additive batch acquisition functions, necessitating approximation via myopic construction and/or diversity heuristics. In this work, we propose an acquisition strategy for discrete optimization that is motivated by pure exploitation, qPO (multipoint Probability of Optimality). qPO maximizes the probability that the batch includes the true optimum, which is expressible as the sum over individual acquisition scores and thereby circumvents the combinatorial challenge of optimizing a batch acquisition function. We differentiate the proposed strategy from parallel Thompson sampling and discuss how it implicitly captures diversity. Finally, we apply our method to the model-guided exploration of large chemical libraries and provide empirical evidence that it performs better than or on par with state-of-the-art methods in batched Bayesian optimization.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# フォトニックキューディットとO(N)線形光学素子を持つN-量子普遍量子論理

N-qubit universal quantum logic with a photonic qudit and O(N) linear optics elements ( http://arxiv.org/abs/2410.06334v1 )

ライセンス: Link先を確認
Aymeric Delteil, (参考訳) 情報の高次元量子単位(qudits)は、単一の自由度で複数の量子ビット情報を運ぶことができ、そのため、量子通信や量子計算プロトコルの性能を高めるのに使うことができる。 2^N$の時間ビン(時間ビンキューディット)の重畳中の光子は、N量子ビットと同じ量の情報を含む。 ここでは、単一時間ビンキューディットで符号化されたN-量子状態は、通常$O(2^N)$要素を必要とするN-量子論理の単一量子実装の以前の提案とは対照的に、Nと線形にスケールする多くの線形光学素子を用いて、任意かつ決定的に生成、操作、測定することができることを示す。 提案するシンプルで費用対効果の高い実装は、小型量子プロセッサとして利用することができる。 次に,光学共振器内の物質量子ビット(原子あるいは量子ドットスピン)に異なるキューディットプロセッサを対向させることにより,スケーラビリティへの道を示す。 このような空洞QEDシステムは、単一の量子ビットの非分解測定や異なる量子ビット間の2量子ゲートなど、より高度な機能を実現することができる。 量子ネットワークや分散量子コンピューティングのコンテキストにおいて、他の物質量子ノードとの量子インターフェースを可能にすることもできる。

High-dimensional quantum units of information, or qudits, can carry more than one quantum bit of information in a single degree of freedom, and can therefore be used to boost the performance of quantum communication and quantum computation protocols. A photon in a superposition of $2^N$ time bins - a time-bin qudit - contains as much information as N qubits. Here, we show that N-qubit states encoded in a single time-bin qudit can be arbitrarily and deterministically generated, manipulated and measured using a number of linear optics elements that scales linearly with N, as opposed with prior proposals of single-qudit implementation of N-qubit logic, which typically requires $O(2^N)$ elements. The simple and cost-effective implementation we propose can be used as a small-scale quantum processor. We then demonstrate a path towards scalability by interfacing distinct qudit processors to a matter qubit (atom or quantum dot spin) in an optical resonator. Such a cavity QED system allows for more advanced functionalities, such as single-qubit nondemolition measurement and two-qubit gates between distinct qudits. It could also enable quantum interfaces with other matter quantum nodes in the context of quantum networks and distributed quantum computing.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# 大規模言語モデルはユーザ生成コンテンツの機械翻訳のための最先端の品質推定器か?

Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content? ( http://arxiv.org/abs/2410.06338v1 )

ライセンス: Link先を確認
Shenbin Qian, Constantin Orăsan, Diptesh Kanojia, Félix do Carmo, (参考訳) 本稿では,大言語モデル(LLM)が,参照翻訳を使わずに感情表現を含むユーザ生成コンテンツ(UGC)の機械翻訳のための最先端品質推定器であるか否かを検討する。 これを実現するために,人間の注釈付き誤りを含む既存の感情関連データセットを用いて,多次元品質指標に基づく品質評価スコアを算出する。 テキスト内学習とパラメータ効率のよい微調整(PEFT)のシナリオにおいて,複数のLDMの精度を,我々の微調整ベースラインモデルと比較した。 LLMのPEFTは、微調整モデルよりも人間の解釈可能な説明を用いてスコア予測の性能を向上させることが判明した。 しかし、LCM出力のマニュアル解析により、UGCの機械翻訳を評価しながら、迅速な不安定な出力への応答を拒否するなどの問題がまだ残っていることが明らかとなった。

This paper investigates whether large language models (LLMs) are state-of-the-art quality estimators for machine translation of user-generated content (UGC) that contains emotional expressions, without the use of reference translations. To achieve this, we employ an existing emotion-related dataset with human-annotated errors and calculate quality evaluation scores based on the Multi-dimensional Quality Metrics. We compare the accuracy of several LLMs with that of our fine-tuned baseline models, under in-context learning and parameter-efficient fine-tuning (PEFT) scenarios. We find that PEFT of LLMs leads to better performance in score prediction with human interpretable explanations than fine-tuned models. However, a manual analysis of LLM outputs reveals that they still have problems such as refusal to reply to a prompt and unstable output while evaluating machine translation of UGC.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# Filtered Randomized Smoothing: A New Defense for Robust Modulation Classification

Filtered Randomized Smoothing: A New Defense for Robust Modulation Classification ( http://arxiv.org/abs/2410.06339v1 )

ライセンス: Link先を確認
Wenhan Zhang, Meiyu Zhong, Ravi Tandon, Marwan Krunz, (参考訳) ディープニューラルネットワーク(DNN)に基づく分類器は、最近、RF信号の変調分類に使われている。 これらの分類器は従来の手法と比較して顕著な性能向上を示したが、非知覚的(低消費電力)敵攻撃に対して脆弱である。 防衛的アプローチとしては、対戦訓練(AT)やランダム化平滑化(RS)などがある。 ATは一般にロバスト性を高めるが、これまで見えなかった適応攻撃に対してレジリエンスを提供することができない。 入力にノイズを注入するRandomized Smoothing (RS)のような他のアプローチは、任意の攻撃に対して証明可能な保証を提供することによって、この欠点に対処するが、精度を犠牲にする傾向がある。 本稿では,DNNをベースとしたロバストな変調分類器を設計する際の問題点について検討する。 そこで我々はまず,RadioMLのベンチマークデータセットに対する変調分類器に対する攻撃のスペクトル分析を行った。 我々は、未摂動RF信号のスペクトル信号が高度に局所化されているのに対して、攻撃信号は周波数で拡散する傾向があることを観察した。 このスペクトルの不均一性を利用するために、スペクトルフィルタリングとランダムな平滑化を組み合わせた新しい防御法であるフィルタランダム化平滑化(FRS)を提案する。 FRSは、変調分類問題に固有の特異性(スペクトル不均一性)を活用することにより、RSの強化と見なすことができる。 FRSの精度を計算するためのアプローチを提供するだけでなく、FRSの有効性を示すためにRadioMLデータセットの総合的なシミュレーションも提供し、攻撃信号と良信号の両方の精度でATやRSを含む既存の防御を著しく上回っていることを示す。

Deep Neural Network (DNN) based classifiers have recently been used for the modulation classification of RF signals. These classifiers have shown impressive performance gains relative to conventional methods, however, they are vulnerable to imperceptible (low-power) adversarial attacks. Some of the prominent defense approaches include adversarial training (AT) and randomized smoothing (RS). While AT increases robustness in general, it fails to provide resilience against previously unseen adaptive attacks. Other approaches, such as Randomized Smoothing (RS), which injects noise into the input, address this shortcoming by providing provable certified guarantees against arbitrary attacks, however, they tend to sacrifice accuracy. In this paper, we study the problem of designing robust DNN-based modulation classifiers that can provide provable defense against arbitrary attacks without significantly sacrificing accuracy. To this end, we first analyze the spectral content of commonly studied attacks on modulation classifiers for the benchmark RadioML dataset. We observe that spectral signatures of un-perturbed RF signals are highly localized, whereas attack signals tend to be spread out in frequency. To exploit this spectral heterogeneity, we propose Filtered Randomized Smoothing (FRS), a novel defense which combines spectral filtering together with randomized smoothing. FRS can be viewed as a strengthening of RS by leveraging the specificity (spectral Heterogeneity) inherent to the modulation classification problem. In addition to providing an approach to compute the certified accuracy of FRS, we also provide a comprehensive set of simulations on the RadioML dataset to show the effectiveness of FRS and show that it significantly outperforms existing defenses including AT and RS in terms of accuracy on both attacked and benign signals.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# FedGraph:フェデレーショングラフ学習のための研究ライブラリとベンチマーク

FedGraph: A Research Library and Benchmark for Federated Graph Learning ( http://arxiv.org/abs/2410.06340v1 )

ライセンス: Link先を確認
Yuhang Yao, Yuan Li, Xinyi Fan, Junhao Li, Kay Liu, Weizhao Jin, Srivatsan Ravi, Philip S. Yu, Carlee Joe-Wong, (参考訳) フェデレーショングラフ学習は、重要な実践上の課題を持つ新興分野である。 モデル精度を高めるために多くのアルゴリズムが提案されているが、実際の展開に不可欠なシステム性能は見過ごされがちである。 このギャップに対処するため、フェデレーショングラフ学習において、実用的な分散デプロイメントとベンチマークのための研究ライブラリであるFedGraphを提示する。 FedGraphは最先端のさまざまなメソッドをサポートし、トレーニング中のコミュニケーションと計算コストに焦点を当てた、システムパフォーマンス評価のためのプロファイリングツールを含んでいる。 FedGraphは実践的なアプリケーションの開発を促進し、将来のアルゴリズムの設計をガイドする。

Federated graph learning is an emerging field with significant practical challenges. While many algorithms have been proposed to enhance model accuracy, their system performance, crucial for real-world deployment, is often overlooked. To address this gap, we present FedGraph, a research library designed for practical distributed deployment and benchmarking in federated graph learning. FedGraph supports a range of state-of-the-art methods and includes profiling tools for system performance evaluation, focusing on communication and computation costs during training. FedGraph can then facilitate the development of practical applications and guide the design of future algorithms.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# 決定変換器を用いた多目的ロボットタスクの解法

Solving Multi-Goal Robotic Tasks with Decision Transformer ( http://arxiv.org/abs/2410.06347v1 )

ライセンス: Link先を確認
Paul Gajewski, Dominik Żurek, Marcin Pietroń, Kamil Faber, (参考訳) 人工知能はロボット工学において重要な役割を担い、強化学習(RL)がロボット制御の最も有望なアプローチの1つとして登場した。 しかし、いくつかの重要な課題は、その適用を妨げている。 第一に、多くのRL手法はオンライン学習に依存しており、これは現実世界のハードウェアか高度なシミュレーション環境を必要とする。 オフライン強化学習は、物理ロボットやシミュレーションへのアクセスを継続することなくモデルをトレーニングできるソリューションを提供する。 第2の課題は、ロボットが複数の目標を同時に達成しなければならないマルチゴールタスクの学習である。 これにより、モデルは異なる目標をまたいで一般化する必要があるため、トレーニングプロセスに複雑さが増す。 同時に、トランスフォーマーアーキテクチャは強化学習を含む様々な領域で大きな人気を集めている。 しかし、オフライントレーニング、マルチゴール学習、トランスフォーマーベースのアーキテクチャを効果的に組み合わせる既存の方法は存在しない。 本稿では,ロボット工学におけるオフラインマルチゴール強化学習のための決定変換器アーキテクチャの新たな適応を導入することで,これらの課題に対処する。 われわれのアプローチでは、ゴール固有の情報を意思決定変換器に統合し、オフライン環境で複雑なタスクを処理できる。 提案手法を検証するために,Pandaロボットプラットフォームを用いた新しいオフライン強化学習データセットを開発した。 我々の広範な実験は、決定変換器が最先端のオンライン強化学習方法より優れていることを示した。

Artificial intelligence plays a crucial role in robotics, with reinforcement learning (RL) emerging as one of the most promising approaches for robot control. However, several key challenges hinder its broader application. First, many RL methods rely on online learning, which requires either real-world hardware or advanced simulation environments--both of which can be costly, time-consuming, and impractical. Offline reinforcement learning offers a solution, enabling models to be trained without ongoing access to physical robots or simulations. A second challenge is learning multi-goal tasks, where robots must achieve multiple objectives simultaneously. This adds complexity to the training process, as the model must generalize across different goals. At the same time, transformer architectures have gained significant popularity across various domains, including reinforcement learning. Yet, no existing methods effectively combine offline training, multi-goal learning, and transformer-based architectures. In this paper, we address these challenges by introducing a novel adaptation of the decision transformer architecture for offline multi-goal reinforcement learning in robotics. Our approach integrates goal-specific information into the decision transformer, allowing it to handle complex tasks in an offline setting. To validate our method, we developed a new offline reinforcement learning dataset using the Panda robotic platform in simulation. Our extensive experiments demonstrate that the decision transformer can outperform state-of-the-art online reinforcement learning methods.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# 騒音の力の調和:技術と応用のサーベイ

Harnessing the Power of Noise: A Survey of Techniques and Applications ( http://arxiv.org/abs/2410.06348v1 )

ライセンス: Link先を確認
Reyhaneh Abdolazimi, Shengmin Jin, Pramod K. Varshney, Reza Zafarani, (参考訳) ノイズは伝統的に計算システムにおいて迷惑であると考えられてきたが、非線形情報処理、信号処理、画像処理、機械学習、ネットワーク科学、自然言語処理など、様々な領域で予期せぬ非直感的な利点のために再考されている。 歴史研究と現代研究の両方の総合的なレビューを通じて、この調査はノイズに対する二重の視点を示し、性能の破壊と向上の両面での可能性を認めている。 特に、ノイズに富んだトレーニング戦略が、ノイズの多いデータからより一般化するモデルにどのように結びつくかを強調し、ノイズを克服するための課題だけでなく、改善のための戦略的ツールとして位置づける。 この研究は、ノイズの知覚の仕方を変え、それが情報時代におけるイノベーションと進歩の火花になり得ることを示唆している。

Noise, traditionally considered a nuisance in computational systems, is reconsidered for its unexpected and counter-intuitive benefits across a wide spectrum of domains, including nonlinear information processing, signal processing, image processing, machine learning, network science, and natural language processing. Through a comprehensive review of both historical and contemporary research, this survey presents a dual perspective on noise, acknowledging its potential to both disrupt and enhance performance. Particularly, we highlight how noise-enhanced training strategies can lead to models that better generalize from noisy data, positioning noise not just as a challenge to overcome but as a strategic tool for improvement. This work calls for a shift in how we perceive noise, proposing that it can be a spark for innovation and advancement in the information era.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# 因果不変ベイズニューラルネットワークを用いたロバスト領域一般化

Robust Domain Generalisation with Causal Invariant Bayesian Neural Networks ( http://arxiv.org/abs/2410.06349v1 )

ライセンス: Link先を確認
Gaël Gendron, Michael Witbrock, Gillian Dobbie, (参考訳) 深層ニューラルネットワークは、トレーニングドメインがターゲットドメインと同一であるという前提の下で、さまざまなタスクにおいて印象的なパフォーマンスを得ることができる。 この仮定が満たない場合、パフォーマンスは劇的に低下します。 この違いの1つの説明は、ネットワークが悪用するトレーニングデータに急激なドメイン固有の相関が存在することである。 一方、因果メカニズムは、データ生成の根底にある分布の要因を解消できるため、分布変化の下で不変にすることができる。 しかし、アウト・オブ・ディストリビューションの一般化を改善するための因果関係の学習は、まだ未調査領域である。 本稿では,推論プロセスのメカニズムからデータ分布の学習を阻害するベイズ型ニューラルネットワークを提案する。 理論的,実験的に,我々のモデルは因果的介入下での推論に近似していることを示す。 本研究では,データ分布が強い対向的共同創設者として機能する分布外画像認識タスクにおいて,提案手法の性能,点推定カウンタ部の性能を実証する。

Deep neural networks can obtain impressive performance on various tasks under the assumption that their training domain is identical to their target domain. Performance can drop dramatically when this assumption does not hold. One explanation for this discrepancy is the presence of spurious domain-specific correlations in the training data that the network exploits. Causal mechanisms, in the other hand, can be made invariant under distribution changes as they allow disentangling the factors of distribution underlying the data generation. Yet, learning causal mechanisms to improve out-of-distribution generalisation remains an under-explored area. We propose a Bayesian neural architecture that disentangles the learning of the the data distribution from the inference process mechanisms. We show theoretically and experimentally that our model approximates reasoning under causal interventions. We demonstrate the performance of our method, outperforming point estimate-counterparts, on out-of-distribution image recognition tasks where the data distribution acts as strong adversarial confounders.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# より速く、リスクを減らす - リリースデプロイメントでLLMを使用する

Moving Faster and Reducing Risk: Using LLMs in Release Deployment ( http://arxiv.org/abs/2410.06351v1 )

ライセンス: Link先を確認
Rui Abreu, Vijayaraghavan Murali, Peter C Rigby, Chandra Maddila, Weiyan Sun, Jun Ge, Kaavya Chinniah, Audris Mockus, Megh Mehta, Nachiappan Nagappan, (参考訳) リリースエンジニアリングは伝統的に、機能やバグフィックスをユーザに継続的に提供することに重点を置いてきたが、あるスケールでは、リリースエンジニアリングチームがリリースすべきものを決定することは不可能になる。 Metaのスケールでは、責任は適切に、そして必然的に、エンジニアがコードを書いてレビューすることに帰着する。 この課題に対処するため、私たちは差動リスクスコア(DRS)のモデルを開発し、差動リスクスコアがSEVの原因となる可能性、すなわちエンドユーザに影響を与える深刻な欠陥を判断した。 SEVが差分によってのみ引き起こされると仮定すると、単純モデルは着陸からX%の差分をランダムにゲートし、平均でSEVのX%を自動的にキャッチする。 しかし、我々は、過去にSEVを発生させた差分に関する歴史的データに基づいてモデルをトレーニングすることで、排出する差分がSEVの原因となるリスクを予測できるモデルを構築することを目指していた。 特定のリスクしきい値を超えているディフを排除できる。 ゲイティング(グリーン)なし、週末のゲーティング(ウィークエンド)、エンドユーザーへの中程度の影響(イエロー)、エンドユーザーへの大きな影響(赤)の4種類があります。 我々のモデルに対する入力パラメータはゲーティングのレベルであり、その結果は捕捉されたSEVの数である。 本研究のアプローチは,ロジスティック回帰モデル,BERTモデル,ジェネレーティブLLMなどである。 ベースライン回帰モデルは、SEVの18.7%、27.9%、84.6%を捉え、それぞれ上位5%(週末)、10%(黄)、50%(赤)の危険差を計上している。 BERTベースのモデルであるStarBERTは、週末、黄色、赤のゲーティングゾーンのロジスティック回帰として、多くのSEVの0.61倍、0.85倍、0.81倍しか捉えていない。 生成型LLMのiCodeLlama-34BとiDiffLlama-13Bは、リスクアライメントを行うと、それぞれ1.40x、1.22x、1.05xのロジスティック回帰モデルよりも多くのSEVをキャプチャする。

Release engineering has traditionally focused on continuously delivering features and bug fixes to users, but at a certain scale, it becomes impossible for a release engineering team to determine what should be released. At Meta's scale, the responsibility appropriately and necessarily falls back on the engineer writing and reviewing the code. To address this challenge, we developed models of diff risk scores (DRS) to determine how likely a diff is to cause a SEV, i.e., a severe fault that impacts end-users. Assuming that SEVs are only caused by diffs, a naive model could randomly gate X% of diffs from landing, which would automatically catch X% of SEVs on average. However, we aimed to build a model that can capture Y% of SEVs by gating X% of diffs, where Y >> X. By training the model on historical data on diffs that have caused SEVs in the past, we can predict the riskiness of an outgoing diff to cause a SEV. Diffs that are beyond a particular threshold of risk can then be gated. We have four types of gating: no gating (green), weekend gating (weekend), medium impact on end-users (yellow), and high impact on end-users (red). The input parameter for our models is the level of gating, and the outcome measure is the number of captured SEVs. Our research approaches include a logistic regression model, a BERT-based model, and generative LLMs. Our baseline regression model captures 18.7%, 27.9%, and 84.6% of SEVs while respectively gating the top 5% (weekend), 10% (yellow), and 50% (red) of risky diffs. The BERT-based model, StarBERT, only captures 0.61x, 0.85x, and 0.81x as many SEVs as the logistic regression for the weekend, yellow, and red gating zones, respectively. The generative LLMs, iCodeLlama-34B and iDiffLlama-13B, when risk-aligned, capture more SEVs than the logistic regression model in production: 1.40x, 1.52x, 1.05x, respectively.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# 概念ボトルネックモデルにおける木に基づく漏洩検査と制御

Tree-Based Leakage Inspection and Control in Concept Bottleneck Models ( http://arxiv.org/abs/2410.06352v1 )

ライセンス: Link先を確認
Angelos Ragkousis, Sonali Parbhoo, (参考訳) AIモデルが大きくなるにつれて、説明責任と解釈可能性に対する需要は、意思決定プロセスを理解する上でますます重要になっている。 概念ボトルネックモデル(CBM)は、最終的な予測を行う前に、入力を中間概念にマッピングすることで解釈可能性を高めることに注目されている。 しかし、CBMは情報漏洩に悩まされることが多く、そこでは、下流の予測の解釈を複雑にすることで、タスクのパフォーマンスを向上させるために追加の入力データが使用される。 本稿では,共同CBMとシーケンシャルCBMの両方をトレーニングするための新しいアプローチを提案する。 本手法は,硬質CBMと軟質で漏れやすいCBMの判定経路を比較し,漏洩量を定量化する。 具体的には、特に概念情報が不完全である場合に、ソフトリークCBMがハードCBMの決定経路を拡張することを示す。 この知見を応用して,リークを検査・管理し,最も影響を受けるデータのサブセットを分離する手法を開発した。 合成および実世界の実験を通して、この方法で漏れを制御することは、タスクの正確性を改善するだけでなく、より情報的で透明な説明をもたらすことを実証する。

As AI models grow larger, the demand for accountability and interpretability has become increasingly critical for understanding their decision-making processes. Concept Bottleneck Models (CBMs) have gained attention for enhancing interpretability by mapping inputs to intermediate concepts before making final predictions. However, CBMs often suffer from information leakage, where additional input data, not captured by the concepts, is used to improve task performance, complicating the interpretation of downstream predictions. In this paper, we introduce a novel approach for training both joint and sequential CBMs that allows us to identify and control leakage using decision trees. Our method quantifies leakage by comparing the decision paths of hard CBMs with their soft, leaky counterparts. Specifically, we show that soft leaky CBMs extend the decision paths of hard CBMs, particularly in cases where concept information is incomplete. Using this insight, we develop a technique to better inspect and manage leakage, isolating the subsets of data most affected by this. Through synthetic and real-world experiments, we demonstrate that controlling leakage in this way not only improves task accuracy but also yields more informative and transparent explanations.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# 骨格に基づく時間行動セグメンテーションのための言語支援型ヒューマン・パート・モーション・ラーニング

Language-Assisted Human Part Motion Learning for Skeleton-Based Temporal Action Segmentation ( http://arxiv.org/abs/2410.06353v1 )

ライセンス: Link先を確認
Bowen Chen, Haoyu Ji, Zhiyong Wang, Benjamin Filtjens, Chunzhuo Wang, Weihong Ren, Bart Vanrumste, Honghai Liu, (参考訳) 骨格に基づくテンポラルアクションセグメンテーションは、可変長の骨格配列の密度の高いアクション分類を含む。 現在のアプローチでは、主にグラフベースのネットワークを用いて、フレームワイドで全身レベルの動作表現を抽出し、モデル最適化にワンホット符号化ラベルを使用する。 しかし、全身の動き表現は細かい部分レベルの動きの表現を捉えず、ワンホット符号化されたラベルは言語に基づく行動定義の中で固有の意味的関係を無視する。 これらの制約に対処するため,DPE(Disentangled Part Motion Encoder)を含むLPL(Language-assisted Human Part Motion Representation Learning)とLDA(Language-assisted Distribution Alignment)という手法を提案する。 具体的には、DPEによる部分認識スケルトンエンコーディングの後、LDAは、大規模言語モデルの助けを借りて、テキスト埋め込み空間を構築するために、デュアルレベルなアクション記述を生成する。 そして、LDAは、テキスト記述と動きの間の埋め込み空間のアライメントを動機付ける。 このアライメントにより、LDAはクラス内のコンパクト性を高めるだけでなく、アクション間の言語エンコードされたセマンティックな相関関係をスケルトンに基づく運動学習に転送することができる。 さらに、ドメイン間ミスアライメントを円滑にするための、シンプルで効率的なセマンティックオフセットアダプタを提案する。 実験の結果,LPLは様々なデータセット(例えば,+4.4\%精度,+5.6\%F1,PKU-MMDデータセット)で最先端の性能を達成することがわかった。 さらに、LDAは既存の手法と互換性があり、その性能(例えば、LARaデータセットでは+4.8\%、+4.3\% F1)を追加の推論コストなしで改善する。

Skeleton-based Temporal Action Segmentation involves the dense action classification of variable-length skeleton sequences. Current approaches primarily apply graph-based networks to extract framewise, whole-body-level motion representations, and use one-hot encoded labels for model optimization. However, whole-body motion representations do not capture fine-grained part-level motion representations and the one-hot encoded labels neglect the intrinsic semantic relationships within the language-based action definitions. To address these limitations, we propose a novel method named Language-assisted Human Part Motion Representation Learning (LPL), which contains a Disentangled Part Motion Encoder (DPE) to extract dual-level (i.e., part and whole-body) motion representations and a Language-assisted Distribution Alignment (LDA) strategy for optimizing spatial relations within representations. Specifically, after part-aware skeleton encoding via DPE, LDA generates dual-level action descriptions to construct a textual embedding space with the help of a large-scale language model. Then, LDA motivates the alignment of the embedding space between text descriptions and motions. This alignment allows LDA not only to enhance intra-class compactness but also to transfer the language-encoded semantic correlations among actions to skeleton-based motion learning. Moreover, we propose a simple yet efficient Semantic Offset Adapter to smooth the cross-domain misalignment. Our experiments indicate that LPL achieves state-of-the-art performance across various datasets (e.g., +4.4\% Accuracy, +5.6\% F1 on the PKU-MMD dataset). Moreover, LDA is compatible with existing methods and improves their performance (e.g., +4.8\% Accuracy, +4.3\% F1 on the LARa dataset) without additional inference costs.
翻訳日:2024-11-01 06:19:07 公開日:2024-10-08
# ランダムモジュラーネットワークにおけるカオス力学の階層性

Hierarchy of chaotic dynamics in random modular networks ( http://arxiv.org/abs/2410.06361v1 )

ライセンス: Link先を確認
Łukasz Kuśmierz, Ulises Pereira-Obilinovic, Zhixin Lu, Dana Mastrovito, Stefan Mihalas, (参考訳) ランダムに連結された神経集団のモデルを導入し、その力学を力学平均場理論とシミュレーションを用いて研究する。 分析の結果,最大リアプノフ指数と参加比次元の低値が特徴のクロスオーバー領域で分離された高次元および低次元カオス相を特徴とする豊富な位相図が得られた。 強くモジュール化された接続にノイズを加えるか、ランダムな接続にモジュール化を導入することでカオスを弱めることができる。 複数のレベルの階層的な接続性を含むモデルを拡張することで、レベル間のアクティビティ間の緩やかなバランスが、システムをカオスの端へと導くことが分かる。

We introduce a model of randomly connected neural populations and study its dynamics by means of the dynamical mean-field theory and simulations. Our analysis uncovers a rich phase diagram, featuring high- and low-dimensional chaotic phases, separated by a crossover region characterized by low values of the maximal Lyapunov exponent and participation ratio dimension, but with high and rapidly changing values of the Lyapunov dimension. Counterintuitively, chaos can be attenuated by either adding noise to strongly modular connectivity or by introducing modularity into random connectivity. Extending the model to include a multilevel, hierarchical connectivity reveals that a loose balance between activities across levels drives the system towards the edge of chaos.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# SpaLLM: スケッチによる大規模言語モデルの統一圧縮適応

SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching ( http://arxiv.org/abs/2410.06364v1 )

ライセンス: Link先を確認
Tianyi Zhang, Junda Su, Oscar Wu, Zhaozhuo Xu, Anshumali Shrivastava, (参考訳) QLoRAのような圧縮適応アプローチは、大規模言語モデル(LLM)の微調整中にメモリ要求を減らし、様々な下流タスクを処理できるモデルを生成するための一般的な代替手段である。 キーとなる考え方は、事前訓練されたLLMパラメータをコンパクトな表現に圧縮し、通常ローランクフォーマットで調整可能なパラメータがほとんどない追加の完全精度アダプタを微調整することである。 しかし、低ランクな仮定のような厳密な代数的仮定や、2towerアーキテクチャを構成する複雑さは既知の欠点のいくつかであり、結果として精度と効率のトレードオフは不十分である。 これらの制約に応えて, LLM に対する新しい圧縮適応手法である SpaLLM (Sketched Parameter Adaptation of LLMs) を提案する。 この手法は、QLoRAとは異なり、アダプタ上の厳密な低ランク代数的仮定を含まないLLMファインチューニングのためのパラメータ共有圧縮法を初めて記述したものである。 さらに,本提案では,モデル圧縮と適応を単一の合理化プロセスに統合し,2towerアーキテクチャの必要性を解消する。 SpaLLMはトレーニング済みのLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。 このアプローチは、LLMの圧縮適応ワークフローを単純化し、マルチユーザサービス効率を向上し、自然言語理解と生成タスクの両方において、大幅に精度が向上する。 さらに,"2-tower"アーキテクチャを避けることで,従来の手法よりも優れた推論効率を示すため,提案手法では1層あたりの圧縮行列乗算しか必要としない。

Compressive adaptation approaches, such as QLoRA, are widely popular alternatives for reducing memory requirements during fine-tuning of large language models (LLMs) while producing models capable of handling various downstream tasks. The key idea is to employ a "two-tower" architecture: compressing pre-trained LLM parameters into compact representations and fine-tuning the additive full-precision adapter, which typically has few tunable parameters in low-rank format. However, the strict algebraic assumptions, such as low-rank assumption, and the complexity of composing two-tower architectures are some of the known shortcomings, resulting in a poor accuracy-efficiency trade-off. In response to these known limitations, we propose SpaLLM (Sketched Parameter Adaptation of LLMs), a novel compressive adaptation approach for LLMs. This method is also the first to illustrate parameter-sharing compression methods for LLM fine-tuning, which, unlike QLoRA, are free from strict low-rank algebraic assumptions on adapters. Furthermore, our proposal unifies model compression and adaptation into a single, streamlined process, eliminating the need for two-tower architectures. SpaLLM sketches pre-trained LLM weights into lookup tables and directly fine-tunes the values in these tables. This approach simplifies LLMs' compressive adaptation workflow, potentially improves multi-user serving efficiency, and delivers significantly better accuracy for both natural language understanding and generation tasks. Moreover, by avoiding the "two-tower" architecture, our framework only requires one compressed matrix multiplication per layer during inference, demonstrating superior inference efficiency compared to previous methods.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 領域に依存しない力学系モデリングのための物理インフォームド正規化

Physics-Informed Regularization for Domain-Agnostic Dynamical System Modeling ( http://arxiv.org/abs/2410.06366v1 )

ライセンス: Link先を確認
Zijie Huang, Wanjia Zhao, Jingdong Gao, Ziniu Hu, Xiao Luo, Yadi Cao, Yuanzhou Chen, Yizhou Sun, Wei Wang, (参考訳) データから複雑な物理力学を純粋に学習することは、満たすべきシステムの本質的な性質のために困難である。 ハミルトニアンニューラルネットワーク(HNN)のような物理インフォームドプリエントを組み込むと、エネルギー保守系に対する高精度なモデリングが達成される。 しかし、現実世界のシステムは、しばしば厳密なエネルギー保存から逸脱し、異なる物理的前提に従う。 そこで本稿では,時間反転対称性(TRS)を新しい正規化項で適用することにより,数値的側面から広い範囲の力学系を高精度にモデル化するフレームワークを提案する。 保守的なシステムのエネルギーを保ちつつ、非保守的で可逆的なシステムの強い誘導バイアスとして機能する。 TRSはドメイン固有の物理先行概念であるが、ORD積分における高階テイラー項を最小化することにより、TRS損失がモデリング精度を普遍的に向上できるという最初の理論的証明を示す。 ニューラル常微分方程式モデルにTRS損失を組み込むことにより、提案モデルであるTREATは様々な物理系において優れた性能を示す。 これは、TREATの広範囲な適用性と有効性を裏付ける、挑戦的なカオス三重振り込みシナリオにおいて、11.5%のMSE改善を実現している。

Learning complex physical dynamics purely from data is challenging due to the intrinsic properties of systems to be satisfied. Incorporating physics-informed priors, such as in Hamiltonian Neural Networks (HNNs), achieves high-precision modeling for energy-conservative systems. However, real-world systems often deviate from strict energy conservation and follow different physical priors. To address this, we present a framework that achieves high-precision modeling for a wide range of dynamical systems from the numerical aspect, by enforcing Time-Reversal Symmetry (TRS) via a novel regularization term. It helps preserve energies for conservative systems while serving as a strong inductive bias for non-conservative, reversible systems. While TRS is a domain-specific physical prior, we present the first theoretical proof that TRS loss can universally improve modeling accuracy by minimizing higher-order Taylor terms in ODE integration, which is numerically beneficial to various systems regardless of their properties, even for irreversible systems. By integrating the TRS loss within neural ordinary differential equation models, the proposed model TREAT demonstrates superior performance on diverse physical systems. It achieves a significant 11.5% MSE improvement in a challenging chaotic triple-pendulum scenario, underscoring TREAT's broad applicability and effectiveness.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 量子性の隠れた証明

Hidden-State Proofs of Quantumness ( http://arxiv.org/abs/2410.06368v1 )

ライセンス: Link先を確認
Carl A. Miller, (参考訳) 量子性の実験的暗号的証明は、量子情報科学の進歩における重要なマイルストーンとなる。 効率的な量子証明器によって渡されるだけでなく、一定の量の計算誤差を示す証明器によって渡されるテストが必要である。 (Brakerskiらは2018年に、Learning With Errors (LWE) の仮定に基づいて、量子性の革新的な2ラウンドの証明を導入した。 しかしながら、プロトコルのステップの1つ(イメージ前テスト)はエラーに対する耐性が低い。 本研究では(Brakerski et al 2018)と同じ回路構造を維持しながら、ノイズの堅牢性を改善した量子性の証明を示す。 本プロトコルは,GHZ(Greenberger-Horne-Zeilinger)状態を古典ビット列内に暗号化的に隠蔽する。 漸近的に、我々のプロトコルは回路内のエラーの総確率を1 - O ( \lambda^{-C} )$で、$\lambda$はセキュリティパラメータ、$C$は任意に大きい定数である。 この結果の証明の一部として、独立な興味を持つような有限アーベル群に対する不確実性原理も証明する。

An experimental cryptographic proof of quantumness will be a vital milestone in the progress of quantum information science. Error tolerance is a persistent challenge for implementing such tests: we need a test that not only can be passed by an efficient quantum prover, but one that can be passed by a prover that exhibits a certain amount of computational error. (Brakerski et al. 2018) introduced an innovative two-round proof of quantumness based on the Learning With Errors (LWE) assumption. However, one of the steps in their protocol (the pre-image test) has low tolerance for error. In this work we present a proof of quantumness which maintains the same circuit structure as (Brakerski et al. 2018) while improving the robustness for noise. Our protocol is based on cryptographically hiding an extended Greenberger-Horne-Zeilinger (GHZ) state within a sequence of classical bits. Asymptotically, our protocol allows the total probability of error within the circuit to be as high as $1 - O ( \lambda^{-C} )$, where $\lambda$ is the security parameter and $C$ is a constant that can be made arbitrarily large. As part of the proof of this result, we also prove an uncertainty principle over finite abelian groups which may be of independent interest.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# コミュニケーション効率の良いフェデレーション群分散ロバスト最適化

Communication-Efficient Federated Group Distributionally Robust Optimization ( http://arxiv.org/abs/2410.06369v1 )

ライセンス: Link先を確認
Zhishuai Guo, Tianbao Yang, (参考訳) フェデレーション学習は、異なるクライアントにおけるデータボリュームと分散の不均一性により、様々な分散にモデル一般化能力を損なう可能性があるため、課題に直面している。 グループ分散ロバスト最適化(GDRO)に基づいてこの問題に対処するための既存のアプローチは、しばしば高い通信とサンプルの複雑さをもたらす。 この目的のために,FGDRO (Federated Group Distributionally Robust Optimization) に適したアルゴリズムを導入する。 まず、FGDRO-CVaRアルゴリズムを導入し、通信の複雑さを$O(1/\epsilon^4)$に抑えながら、平均的なトップK損失を最適化し、$\epsilon$は所望の精度レベルを示す。 第2に、我々のFGDRO-KLアルゴリズムは、KL正規化FGDROを最適化し、通信複雑性を$O(1/\epsilon^3)$に削減する。 最後に、FGDRO-KLのAdam型ローカルアップデートを利用するFGDRO-KL-Adamを提案する。これは通信コストが$O(1/\epsilon^3)であるだけでなく、実用的な応用においてSGD型ローカルステップを超える可能性がある。 このアルゴリズムの有効性は、自然言語処理やコンピュータビジョンなど、様々な現実世界のタスクで実証されてきた。

Federated learning faces challenges due to the heterogeneity in data volumes and distributions at different clients, which can compromise model generalization ability to various distributions. Existing approaches to address this issue based on group distributionally robust optimization (GDRO) often lead to high communication and sample complexity. To this end, this work introduces algorithms tailored for communication-efficient Federated Group Distributionally Robust Optimization (FGDRO). Our contributions are threefold: Firstly, we introduce the FGDRO-CVaR algorithm, which optimizes the average top-K losses while reducing communication complexity to $O(1/\epsilon^4)$, where $\epsilon$ denotes the desired precision level. Secondly, our FGDRO-KL algorithm is crafted to optimize KL regularized FGDRO, cutting communication complexity to $O(1/\epsilon^3)$. Lastly, we propose FGDRO-KL-Adam to utilize Adam-type local updates in FGDRO-KL, which not only maintains a communication cost of $O(1/\epsilon^3)$ but also shows potential to surpass SGD-type local steps in practical applications. The effectiveness of our algorithms has been demonstrated on a variety of real-world tasks, including natural language processing and computer vision.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 移動ロボットの不均一チームのための協調的・非同期トランスフォーマーによるミッションプランニング

Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots ( http://arxiv.org/abs/2410.06372v1 )

ライセンス: Link先を確認
Milad Farjadnasab, Shahin Sirouspour, (参考訳) 捜索や救助などのタスクのために、移動ロボットの異質なチームを調整することは極めて困難である。 これは、エージェントの非同期操作、制約された通信、限られた計算資源を含む、そのような環境における知覚、意思決定、計画の複雑さに起因する。 本稿では,多エージェント強化学習(MARL)を利用した協調型・非同期型トランスフォーマーベースミッションプランニング(CATMiP)フレームワークを提案する。 このフレームワークは、マクロアクションを介して異なるエージェントクラス間の非同期決定を処理するために、クラスベースのマクロアクション分散部分観測可能なマルコフ決定プロセス(CMD-POMDP)モデルを導入している。 また、マルチエージェントトランスフォーマー(MAT)アーキテクチャを拡張し、エージェント間の分散アドホック通信を容易にする。 CATMiPはミッションの複雑さやコミュニケーションの制約に容易に適応し、さまざまな環境サイズやチーム構成にスケールする。 シミュレーションは、厳密な通信制約下であっても、探検家と救助隊員の2つのクラスで協調的なミッション目標を達成するためのスケーラビリティと能力を示す。 コードはhttps://github.com/mylad13/CATMiPで入手できる。

Coordinating heterogeneous teams of mobile robots for tasks such as search and rescue is highly challenging. This is due to the complexities of perception, decision making and planning in such environments, with agents' non-synchronous operation, constrained communication, and limited computational resources. This paper presents the Cooperative and Asynchronous Transformer-based Mission Planning (CATMiP) framework, which leverages multi-agent reinforcement learning (MARL) to effectively coordinate agents with heterogeneous sensing, motion, and actuation capabilities. The framework introduces a Class-based Macro-Action Decentralized Partially Observable Markov Decision Process (CMD-POMDP) model to handle asynchronous decision-making among different agent classes via macro-actions. It also extends the Multi-Agent Transformer (MAT) architecture to facilitate distributed, ad hoc communication among the agents. CATMiP easily adapts to mission complexities and communication constraints, and scales to varying environment sizes and team compositions. Simulations demonstrate its scalability and ability to achieve cooperative mission objectives with two classes of explorer and rescuer agents, even under severe communication constraints. The code is available at https://github.com/mylad13/CATMiP.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 視覚表現学習におけるバックボーン・オプティマイザ結合バイアスの展開

Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning ( http://arxiv.org/abs/2410.06373v1 )

ライセンス: Link先を確認
Siyuan Li, Juanxi Tian, Zedong Wang, Luyuan Zhang, Zicheng Liu, Weiyang Jin, Yang Liu, Baigui Sun, Stan Z. Li, (参考訳) 本稿では,視覚バックボーンとオプティマイザの相互作用を考察し,BOCB (textbf{b}ackbone-\textbf{o}ptimizer \textbf{c}oupling \textbf{b}ias}) と呼ばれる相互依存現象を明らかにする。 我々は、VGGやResNetのような標準CNNがSGDファミリとの顕著な共存を示すのに対し、ViTsやConvNeXtといった最近のアーキテクチャは適応学習率と密接な結合性を持っていることを観察する。 さらに、BOCBはオプティマイザと特定のバックボーン設計の両方で導入可能であることを示し、視覚モデルの事前学習と下流の微調整に大きな影響を与える可能性があることを示した。 詳細な実証分析を通じて、推奨オプティマイザと堅牢なビジョンバックボーンアーキテクチャに関する洞察を要約する。 この取り組みがコミュニティに、バックボーンとオプティマイザの長期的仮定に疑問を呈し、さらなる探索を刺激し、それによってより堅牢なビジョンシステムに寄与することを願っている。 ソースコードとモデルはhttps://bocb-ai.github.io/.com/で公開されている。

This paper delves into the interplay between vision backbones and optimizers, unvealing an inter-dependent phenomenon termed \textit{\textbf{b}ackbone-\textbf{o}ptimizer \textbf{c}oupling \textbf{b}ias} (BOCB). We observe that canonical CNNs, such as VGG and ResNet, exhibit a marked co-dependency with SGD families, while recent architectures like ViTs and ConvNeXt share a tight coupling with the adaptive learning rate ones. We further show that BOCB can be introduced by both optimizers and certain backbone designs and may significantly impact the pre-training and downstream fine-tuning of vision models. Through in-depth empirical analysis, we summarize takeaways on recommended optimizers and insights into robust vision backbone architectures. We hope this work can inspire the community to question long-held assumptions on backbones and optimizers, stimulate further explorations, and thereby contribute to more robust vision systems. The source code and models are publicly available at https://bocb-ai.github.io/.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 5ビット符号に対する最適近傍補償量子回路

An Optimized Nearest Neighbor Compliant Quantum Circuit for 5-qubit Code ( http://arxiv.org/abs/2410.06375v1 )

ライセンス: Link先を確認
Arijit Mondal, Keshab K. Parhi, (参考訳) 5量子ビット量子誤り訂正符号は1つの論理量子ビットを5つの物理量子ビットに符号化し、1つのエラーからコードを保護する。 これは発明された最初の量子符号の1つであり、様々な符号化回路が提案されている。 本稿では,安定化器符号に対するエンコーダ回路の最適化手法を提案する。 まず、5量子ビット符号のエンコーダを体系的に構築し、量子ゲートの数の観点から回路を最適化する。 また,本手法はより大規模な安定化符号にも適用可能である。 さらに,先行設計における3つのスワップゲートと比較して,1つのスワップゲートを用いて,提案するエンコーダに最も近いNNC回路を提案する。

The five-qubit quantum error correcting code encodes one logical qubit to five physical qubits, and protects the code from a single error. It was one of the first quantum codes to be invented, and various encoding circuits have been proposed for it. In this paper, we propose a systematic procedure for optimization of encoder circuits for stabilizer codes. We start with the systematic construction of an encoder for a five-qubit code, and optimize the circuit in terms of the number of quantum gates. Our method is also applicable to larger stabilizer codes. We further propose nearest neighbor compliant (NNC) circuits for the proposed encoder using a single swap gate, as compared to three swap gates in a prior design.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# グローバルリカバリ保証付き非凸ユークリッド距離幾何学のリーマン最適化

Riemannian Optimization for Non-convex Euclidean Distance Geometry with Global Recovery Guarantees ( http://arxiv.org/abs/2410.06376v1 )

ライセンス: Link先を確認
Chandler Smith, HanQin Cai, Abiy Tasissa, (参考訳) ユークリッド距離幾何学(Euclidean Distance Geometry, EDG)問題として知られる部分距離情報から点の設定を決定する問題は、応用科学における多くの課題に不可欠である。 本稿では,EDG問題に対処するために,リーマン最適化フレームワークを基盤とした2つのアルゴリズムを提案する。 本手法は,非直交的にグラム行列の拡張係数として表される部分的な測定値を用いて,グラム行列上の低ランク行列完備化タスクとして問題を定式化する。 最初のアルゴリズムでは、観測された距離エントリの置換モデルで一様サンプリングを行い、高い確率で階数=r$行列の多様体上のリーマン勾配のようなアルゴリズムが真の解に線形に収束し、1ステップのハードしきい値による初期化が与えられることを示した。 サンプルの数は$m$で、$m \geq \mathcal{O}(n^{7/4}r^2 \log(n))$を満たす。 より洗練された初期化は、再サンプリングされたリーマン勾配のような降下によって達成され、さらに$m \geq \mathcal{O}(nr^2 \log(n))$ に制限される。 最初のアルゴリズムの解析は非自己随伴作用素を利用し、制限された基底行列の内積行列に対して固有値境界を導出することに依存し、より厳密な保証のために空間性特性を活用する。 第2のアルゴリズムはサンプリング演算子に対する自己共役サロゲートを導入する。 このアルゴリズムは、合成データと実データの両方で強い数値性能を示す。 さらに,高次階数=$r$行列の多様体上での最適化は,EDG問題における過パラメータ化に関する最近の文献と整合して,優れた数値結果をもたらすことを示す。

The problem of determining the configuration of points from partial distance information, known as the Euclidean Distance Geometry (EDG) problem, is fundamental to many tasks in the applied sciences. In this paper, we propose two algorithms grounded in the Riemannian optimization framework to address the EDG problem. Our approach formulates the problem as a low-rank matrix completion task over the Gram matrix, using partial measurements represented as expansion coefficients of the Gram matrix in a non-orthogonal basis. For the first algorithm, under a uniform sampling with replacement model for the observed distance entries, we demonstrate that, with high probability, a Riemannian gradient-like algorithm on the manifold of rank-$r$ matrices converges linearly to the true solution, given initialization via a one-step hard thresholding. This holds provided the number of samples, $m$, satisfies $m \geq \mathcal{O}(n^{7/4}r^2 \log(n))$. With a more refined initialization, achieved through resampled Riemannian gradient-like descent, we further improve this bound to $m \geq \mathcal{O}(nr^2 \log(n))$. Our analysis for the first algorithm leverages a non-self-adjoint operator and depends on deriving eigenvalue bounds for an inner product matrix of restricted basis matrices, leveraging sparsity properties for tighter guarantees than previously established. The second algorithm introduces a self-adjoint surrogate for the sampling operator. This algorithm demonstrates strong numerical performance on both synthetic and real data. Furthermore, we show that optimizing over manifolds of higher-than-rank-$r$ matrices yields superior numerical results, consistent with recent literature on overparameterization in the EDG problem.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 関数近似と非パラメトリック回帰への応用による深部ReLUネットワークの被覆数

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression ( http://arxiv.org/abs/2410.06378v1 )

ライセンス: Link先を確認
Weigutian Ou, Helmut Bölcskei, (参考訳) 深い)ReLUネットワークのファミリー数をカバーすることは、近似理論の性能、非パラメトリック回帰で発生する予測誤差の上限、分類能力の定量化に使われてきた。 これらの結果は被覆の明示的な構成によって得られた被覆数上界に基づいている。 カバー数に関する下限は、文献では利用できないようである。 本稿では, 有界重み付き完全連結ネットワーク, 有界重み付きスパースネットワーク, 量子化重み付き完全連結ネットワークの被覆数に対して, 厳密な(乗算定数まで)下限と上限を導出することにより, このギャップを埋める。 境界の厳密さにより、疎度、量子化、有界対非有界重み、およびネットワーク出力トランケーションの影響の根本的な理解が展開できる。 さらに、このバウンダリは、ネットワーク圧縮を含むニューラルネットワーク変換の基本的限界を特徴付けることができ、ディープネットワークによる非パラメトリック回帰における予測誤差のシャープな上限につながる。 具体的には、深層ネットワークによるリプシッツ関数の推定において、最もよく知られたサンプル複雑性率の$\log^6(n)$-factorを除去し、最適性を確立する。 最後に,深層ネットワークによる最適非パラメトリック回帰と最適近似の体系的関係を同定し,文献における多くの結果を統一し,基礎原理を明らかにする。

Covering numbers of families of (deep) ReLU networks have been used to characterize their approximation-theoretic performance, upper-bound the prediction error they incur in nonparametric regression, and quantify their classification capacity. These results are based on covering number upper bounds obtained through the explicit construction of coverings. Lower bounds on covering numbers do not seem to be available in the literature. The present paper fills this gap by deriving tight (up to a multiplicative constant) lower and upper bounds on the covering numbers of fully-connected networks with bounded weights, sparse networks with bounded weights, and fully-connected networks with quantized weights. Thanks to the tightness of the bounds, a fundamental understanding of the impact of sparsity, quantization, bounded vs. unbounded weights, and network output truncation can be developed. Furthermore, the bounds allow to characterize the fundamental limits of neural network transformation, including network compression, and lead to sharp upper bounds on the prediction error in nonparametric regression through deep networks. Specifically, we can remove a $\log^6(n)$-factor in the best-known sample complexity rate in the estimation of Lipschitz functions through deep networks thereby establishing optimality. Finally, we identify a systematic relation between optimal nonparametric regression and optimal approximation through deep networks, unifying numerous results in the literature and uncovering general underlying principles.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 多層開口キャビティを持つ量子光学の有効モデル

Effective models for quantum optics with multilayer open cavities ( http://arxiv.org/abs/2410.06379v1 )

ライセンス: Link先を確認
Astghik Saharyan, Juan-Rafael Álvarez, Axel Kuhn, Stéphane Guérin, (参考訳) 開空洞の力学を記述する効果的なモデルが文献で広く議論されている。 これらのモデルの多くは、外部への空洞の漏れは、現象学的に導入された損失として扱われる。 これらとは対照的に、我々は、外部をシステムの一部として扱う新しいアプローチを用いて、外部光子を特徴付けることに重点を置いている。 このような大域的なシステムでは、光子を内部と外部のキャビティを別々に特徴付けるために、誘電体層からなるミラーを持つキャビティに対するコヒーレントキャビティ-貯留層結合関数の第一原理的導出を示す。 特に, キャビティミラーの多層構造によって引き起こされる影響から, キャビティ・リザーバ・システムの記述は, ミラーの構造が無視されているものとは異なっている可能性が示唆された。 これに基づいて,キャビティミラーの長手形状構造を考慮した一般化キャビティ応答関数とキャビティ-貯留結合関数を定義する。 これにより,多層ミラーを用いたキャビティの有効反射率を,十分に定義された有効鏡面に収まるように定義することができる。 異なる長さとミラー構造の空洞を考慮し,そのような定義の誤差を推定する。 最後に、このようなキャビティ内で生成され、外部に伝播する単一光子のダイナミクスを特徴付けるために、このモデルを適用する。

Effective models to describe the dynamics of an open cavity have been extensively discussed in the literature. In many of these models the cavity leakage to the outside is treated as a loss introduced phenomenologically. In contrast to these, we focus here on characterizing the outgoing photon using a novel approach where the outside is treated as part of the system. In such a global system, in order to separately characterize the photon inside and outside cavity, we demonstrate a first-principle derivation of a coherent cavity-reservoir coupling function for cavities with mirrors consisting of a stack of dielectric layers. In particular, we show that due to the effects induced by the multilayer nature of the cavity mirror, even in the standardly defined high-finesse cavity regime, the cavity-reservoir system description might differ from the one where the structure of the mirror is neglected. Based on this, we define a generalized cavity response function and a cavity-reservoir coupling function, which account for the longitudinal geometric structure of the cavity mirror. This allows us to define an effective reflectivity for the cavity with a multilayer mirror as if it was sitting in a well-defined effective mirror plane. We estimate the error of such a definition by considering cavities of different lengths and mirror structures. Finally, we apply this model to characterize the dynamics of a single photon produced in such a cavity and propagating outside.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# Adver-City: 逆気象条件下での協調知覚のためのオープンソースのマルチモーダルデータセット

Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions ( http://arxiv.org/abs/2410.06380v1 )

ライセンス: Link先を確認
Mateus Karvat, Sidney Givigi, (参考訳) 逆気象条件は、LiDARやカメラのようなセンサーに影響を与えることにより、自律走行車(AV)の普及に重大な課題をもたらす。 コラボレーティブ・パーセプション(CP)は、困難な条件下でのAV知覚を改善するが、既存のCPデータセットは悪天候条件を欠いている。 そこで我々は,悪天候に着目した初のオープンソース総合CPデータセットであるAdver-Cityを紹介した。 OpenCDAでシミュレートされたCARLAには、24万フレーム、890万アノテーション、そして6つの異なる気象条件(晴れた天気、ソフトレイン、大雨、霧、霧のような大雨、そして初めて合成CPデータセットの中で、110のシナリオが含まれています。 歩行者やサイクリストを含む6つの対象カテゴリがあり、LiDAR、RGB、セマンティックセグメンテーションカメラ、GNSS、IMUなどの車両や道路のユニットからのデータを利用している。 そのシナリオは、実際の事故報告に基づいており、悪天候や視界の悪い状況に対して最も関連性の高い道路構成を描いている。 データセット上でのベンチマークでは、気象条件が知覚モデルに挑戦的な条件を生み出し、マルチモーダルオブジェクト検出性能が最大19%低下し、オブジェクト密度がLiDARベースの検出に最大29%低下したことが示されている。 データセット、コード、ドキュメントはhttps://labs.cs.queensu.ca/quarrg/datasets/adver-city/で公開されている。

Adverse weather conditions pose a significant challenge to the widespread adoption of Autonomous Vehicles (AVs) by impacting sensors like LiDARs and cameras. Even though Collaborative Perception (CP) improves AV perception in difficult conditions, existing CP datasets lack adverse weather conditions. To address this, we introduce Adver-City, the first open-source synthetic CP dataset focused on adverse weather conditions. Simulated in CARLA with OpenCDA, it contains over 24 thousand frames, over 890 thousand annotations, and 110 unique scenarios across six different weather conditions: clear weather, soft rain, heavy rain, fog, foggy heavy rain and, for the first time in a synthetic CP dataset, glare. It has six object categories including pedestrians and cyclists, and uses data from vehicles and roadside units featuring LiDARs, RGB and semantic segmentation cameras, GNSS, and IMUs. Its scenarios, based on real crash reports, depict the most relevant road configurations for adverse weather and poor visibility conditions, varying in object density, with both dense and sparse scenes, allowing for novel testing conditions of CP models. Benchmarks run on the dataset show that weather conditions created challenging conditions for perception models, reducing multi-modal object detection performance by up to 19%, while object density affected LiDAR-based detection by up to 29%. The dataset, code and documentation are available at https://labs.cs.queensu.ca/quarrg/datasets/adver-city/.
翻訳日:2024-11-01 06:09:19 公開日:2024-10-08
# 大規模言語モデルによるケムプテーションによる科学文献の検証

Validation of the Scientific Literature via Chemputation Augmented by Large Language Models ( http://arxiv.org/abs/2410.06384v1 )

ライセンス: Link先を確認
Sebastian Pagel, Michael Jirasek, Leroy Cronin, (参考訳) 化学計算は、普遍的な記号言語を用いて実験を行うための化学ロボットをプログラミングするプロセスである。 大規模言語モデル(LLM)は、自然言語処理、ロボット制御、最近では化学など、様々な分野において顕著な能力を発揮している。 合成化学データの報告と収集の標準化には大きな進歩があったが、報告された合成物の自動再生は労働集約的な作業である。 そこで本研究では,合成文献の自動検証を目的としたLCMベースの化学研究エージェントワークフローについて紹介する。 我々のワークフローは、広範囲な文書から合成手順と分析データを自律的に抽出し、これらの手順を普遍的なXDLコードに変換し、ハードウェア固有のセットアップで手順の実行をシミュレートし、最終的には合成化学のためのXDL制御ロボットシステム上で手順を実行する。 このことは、ケムプターを用いた自律的な化学合成のためのLLMベースのワークフローの可能性を示している。 XDLの抽象化のため、幻覚は計算不可能であり、XDLは検証も暗号化も可能であるため、このアプローチは安全でセキュアでスケーラブルである。 従来の作業はワークフローのごく一部にしか対応せず、柔軟性のないハードコードルールに依存していたり、物理的システムにおける検証に欠けていたりしていたが、本手法では合成文学から直接実行される合成の現実的な例を4つ提供している。 我々は,ロボットによる合成化学研究の自動化,データ抽出の合理化,再現性の向上,拡張性,および合成化学と実験化学の安全性の向上を期待する。

Chemputation is the process of programming chemical robots to do experiments using a universal symbolic language, but the literature can be error prone and hard to read due to ambiguities. Large Language Models (LLMs) have demonstrated remarkable capabilities in various domains, including natural language processing, robotic control, and more recently, chemistry. Despite significant advancements in standardizing the reporting and collection of synthetic chemistry data, the automatic reproduction of reported syntheses remains a labour-intensive task. In this work, we introduce an LLM-based chemical research agent workflow designed for the automatic validation of synthetic literature procedures. Our workflow can autonomously extract synthetic procedures and analytical data from extensive documents, translate these procedures into universal XDL code, simulate the execution of the procedure in a hardware-specific setup, and ultimately execute the procedure on an XDL-controlled robotic system for synthetic chemistry. This demonstrates the potential of LLM-based workflows for autonomous chemical synthesis with Chemputers. Due to the abstraction of XDL this approach is safe, secure, and scalable since hallucinations will not be chemputable and the XDL can be both verified and encrypted. Unlike previous efforts, which either addressed only a limited portion of the workflow, relied on inflexible hard-coded rules, or lacked validation in physical systems, our approach provides four realistic examples of syntheses directly executed from synthetic literature. We anticipate that our workflow will significantly enhance automation in robotically driven synthetic chemistry research, streamline data extraction, improve the reproducibility, scalability, and safety of synthetic and experimental chemistry.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 皮膚がん機械学習モデルトーンバイアス

Skin Cancer Machine Learning Model Tone Bias ( http://arxiv.org/abs/2410.06385v1 )

ライセンス: Link先を確認
James Pope, Md Hassanuzzaman, Mingmar Sherpa, Omar Emara, Ayush Joshi, Nirmala Adhikari, (参考訳) 背景:多くのオープンソースの皮膚がん画像データセットは、より軽い皮膚のトーンを持つ国で実施された臨床試験の結果である。 このトーン不均衡のため、これらのデータセットから派生した機械学習モデルは、より軽いスキントーンのための皮膚がんを検出するのによく機能する。 これらのモデルのトーンバイアスは、公正な懸念をもたらし、人工知能の健康分野に対する公衆の信頼を低下させる可能性がある。 方法: トーン情報を提供するISIC(International Skin Imaging Collaboration)アーカイブの画像のサブセットについて検討する。 サブセットには大きなトーンの不均衡がある。 これらの不均衡はモデルのトーンバイアスを説明できる。 これを解決するために、バランスの取れないデータセットとバランスのとれたデータセットを使用してモデルをトレーニングし、比較します。 データセットは、画像を悪性または良性として分類するために、深層畳み込みニューラルネットワークモデルをトレーニングするために使用される。 次に、選択率に基づいて、暗い肌や明るい肌のトーンに対するモデルの異なる影響を評価した。 結果: 不均衡データセットを用いて, より軽い音色で悪性画像を検出し, 0.577の異なる影響が認められた。 バランスの取れたデータセットを用いて、このモデルがより軽いと暗いトーンの悪性画像を検出し、0.684の異なる衝撃で検出できることがわかった。 モデルのトレーニングに不均衡あるいはバランスの取れたデータセットを使用することで、モデルが皮膚のトーンに対して偏りがあることを示唆する0.80の標準しきい値よりもはるかに低い差が生じる。 結論: 結果は、典型的な皮膚がん機械学習モデルに偏りがあることを示している。 これらの結果は、診断やトーンの不均衡がバイアスの原因ではないことを示す。 これらのモデルにおけるバイアスを識別し、対処するためには、他の技術が必要であり、これは将来の調査の分野である。

Background: Many open-source skin cancer image datasets are the result of clinical trials conducted in countries with lighter skin tones. Due to this tone imbalance, machine learning models derived from these datasets can perform well at detecting skin cancer for lighter skin tones. Any tone bias in these models could introduce fairness concerns and reduce public trust in the artificial intelligence health field. Methods: We examine a subset of images from the International Skin Imaging Collaboration (ISIC) archive that provide tone information. The subset has a significant tone imbalance. These imbalances could explain a model's tone bias. To address this, we train models using the imbalanced dataset and a balanced dataset to compare against. The datasets are used to train a deep convolutional neural network model to classify the images as malignant or benign. We then evaluate the models' disparate impact, based on selection rate, relative to dark or light skin tone. Results: Using the imbalanced dataset, we found that the model is significantly better at detecting malignant images in lighter tone resulting in a disparate impact of 0.577. Using the balanced dataset, we found that the model is also significantly better at detecting malignant images in lighter versus darker tones with a disparate impact of 0.684. Using the imbalanced or balanced dataset to train the model still results in a disparate impact well below the standard threshold of 0.80 which suggests the model is biased with respect to skin tone. Conclusion: The results show that typical skin cancer machine learning models can be tone biased. These results provide evidence that diagnosis or tone imbalance is not the cause of the bias. Other techniques will be necessary to identify and address the bias in these models, an area of future investigation.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 大規模言語モデルを用いた自然言語の因果推論

Counterfactual Causal Inference in Natural Language with Large Language Models ( http://arxiv.org/abs/2410.06392v1 )

ライセンス: Link先を確認
Gaël Gendron, Jože M. Rožanec, Michael Witbrock, Gillian Dobbie, (参考訳) 因果構造探索法は、因果変数が知られている構造データや、因果関係を評価するための統計的検査によく用いられる。 対照的に、ニュース記事のような構造化されていない自然言語データから因果構造を復元することは、因果関係を推定するための既知の変数や反実データがないため、多くの課題を含む。 大きな言語モデル(LLM)はこの方向に有望な結果を示しているが、制限も示している。 本研究では,テキスト文書から因果グラフを構築し,因果推論を行うLLMの能力について検討する。 まず、LLMを用いてテキストデータからインスタンス化された因果変数を抽出し、因果グラフを構築する。 複数のデータソースから因果グラフをマージして、可能な限り網羅的な原因を表現します。 次に、推定されたグラフに対して反実数推論を行う。 因果グラフ条件付けにより、LSMバイアスが減少し、因果推定値がより良く表現される。 提案手法は, 逆因果推論におけるLCMの限界が予測誤差から生じることを示し, それらの緩和策を提案する。 実世界のニュース記事に本手法の適用性を示す。

Causal structure discovery methods are commonly applied to structured data where the causal variables are known and where statistical testing can be used to assess the causal relationships. By contrast, recovering a causal structure from unstructured natural language data such as news articles contains numerous challenges due to the absence of known variables or counterfactual data to estimate the causal links. Large Language Models (LLMs) have shown promising results in this direction but also exhibit limitations. This work investigates LLM's abilities to build causal graphs from text documents and perform counterfactual causal inference. We propose an end-to-end causal structure discovery and causal inference method from natural language: we first use an LLM to extract the instantiated causal variables from text data and build a causal graph. We merge causal graphs from multiple data sources to represent the most exhaustive set of causes possible. We then conduct counterfactual inference on the estimated graph. The causal graph conditioning allows reduction of LLM biases and better represents the causal estimands. We use our method to show that the limitations of LLMs in counterfactual causal reasoning come from prediction errors and propose directions to mitigate them. We demonstrate the applicability of our method on real-world news articles.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 適応グラフ構築を用いたマルチモーダル表現学習

Multimodal Representation Learning using Adaptive Graph Construction ( http://arxiv.org/abs/2410.06395v1 )

ライセンス: Link先を確認
Weichen Huang, (参考訳) マルチモーダルコントラスト学習は、画像やテキストなどの異種ソースからのデータをレバーゲイトすることでニューラルネットワークを訓練する。 しかし、現在の多くのマルチモーダル学習アーキテクチャは任意の数のモダリティに一般化できず、手作業で構築する必要がある。 グラフ最適化により任意の数のモダライトから表現を学習できる新しいコントラスト学習フレームワークであるAutoBINDを提案する。 本稿では,Alzhiemer 病の診断における AutoBIND の評価を行った。 本稿では,AutoBINDが従来の手法よりも優れていることを示す。

Multimodal contrastive learning train neural networks by levergaing data from heterogeneous sources such as images and text. Yet, many current multimodal learning architectures cannot generalize to an arbitrary number of modalities and need to be hand-constructed. We propose AutoBIND, a novel contrastive learning framework that can learn representations from an arbitrary number of modalites through graph optimization. We evaluate AutoBIND on Alzhiemer's disease detection because it has real-world medical applicability and it contains a broad range of data modalities. We show that AutoBIND outperforms previous methods on this task, highlighting the generalizablility of the approach.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# MLissard: マルチリンガルで簡単なシーケンス推論ベンチマーク

MLissard: Multilingual Long and Simple Sequential Reasoning Benchmarks ( http://arxiv.org/abs/2410.06396v1 )

ライセンス: Link先を確認
Mirelle Bueno, Roberto Lotufo, Rodrigo Nogueira, (参考訳) 言語モデルは、数十万のトークンからなる長いシーケンスを扱う必要のあるタスクを解決することができる。 しかしながら、単純なルールを繰り返し使用する必要のあるタスクでは、トレーニング中に見られるものよりもはるかに短いシーケンスでも失敗することが多い。 例えば、最先端のLLMでは、2つのリストに最大20項目の共通項目を見つけることができるが、リストに80項目がある場合は失敗する。 本稿では,MLissardを提案する。MLissardは,様々な長さのテキストを処理・生成するモデルの能力を評価するための多言語ベンチマークであり,シーケンスの複雑さを制御するメカニズムを提供する。 オープンソースモデルとプロプライエタリモデルの評価は、シーケンスの複雑さが増大するにつれて、すべてのモデルと言語のパフォーマンスが一貫した低下を示す。 驚くべきことに、英語以外の言語での文脈内例の使用は、外挿性能を著しく向上させる。 データセットとコードはhttps://github.com/unicamp-dl/Lissardで公開されている。

Language models are now capable of solving tasks that require dealing with long sequences consisting of hundreds of thousands of tokens. However, they often fail on tasks that require repetitive use of simple rules, even on sequences that are much shorter than those seen during training. For example, state-of-the-art LLMs can find common items in two lists with up to 20 items but fail when lists have 80 items. In this paper, we introduce MLissard, a multilingual benchmark designed to evaluate models' abilities to process and generate texts of varied lengths and offers a mechanism for controlling sequence complexity. Our evaluation of open-source and proprietary models show a consistent decline in performance across all models and languages as the complexity of the sequence increases. Surprisingly, the use of in-context examples in languages other than English helps increase extrapolation performance significantly. The datasets and code are available at https://github.com/unicamp-dl/Lissard
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# ハイブリッド動的最適化とサンプリングのための確率的精度境界

Provable Accuracy Bounds for Hybrid Dynamical Optimization and Sampling ( http://arxiv.org/abs/2410.06397v1 )

ライセンス: Link先を確認
Matthew X. Burns, Qingyuan Hou, Michael C. Huang, (参考訳) アナログ動的加速器(Analog dynamical accelerators, DXs)は、コンピュータアーキテクチャの研究において、いくつかの機械学習、最適化、サンプリングタスクにおいて、従来のデジタルメソッドよりも電力効率と遅延のオーダー・オブ・マグニチュード向上を提供するサブフィールドとして成長している。 しかし、リミテッド・キャパシティ・アクセラレーターは実世界の問題を解決するためにハイブリッドアナログ/デジタルアルゴリズムを必要とする。 完全なデジタルアルゴリズムとは異なり、ハイブリッドLNLSは非漸近収束保証を持たず、特にデバイス間のトレーニングと推論を制限するような、原則化されたハイパーパラメータ選択スキームも持っていない。 本研究では,Langevin Diffusion (BLD) アルゴリズムをブロックすることにより,ハイブリッド LNLS の漸近収束を保証する。 古典的サンプリング理論からツールを適用することで、理想的DXを用いたランダム化および循環的ブロック選択戦略に対する指数的KL偏差収束を証明できる。 デバイスの変化が有限であれば、ステップ時間、雑音強度、関数パラメータの2-ワッサーシュタインバイアスに明確な境界を与える。 我々のBLDモデルは、確立された理論と新しい計算プラットフォームとの間の重要なリンクを提供し、我々の理論結果は、デバイスの変化、アルゴリズムのハイパーパラメータ、パフォーマンスのクローズドフォーム表現を提供する。

Analog dynamical accelerators (DXs) are a growing sub-field in computer architecture research, offering order-of-magnitude gains in power efficiency and latency over traditional digital methods in several machine learning, optimization, and sampling tasks. However, limited-capacity accelerators require hybrid analog/digital algorithms to solve real-world problems, commonly using large-neighborhood local search (LNLS) frameworks. Unlike fully digital algorithms, hybrid LNLS has no non-asymptotic convergence guarantees and no principled hyperparameter selection schemes, particularly limiting cross-device training and inference. In this work, we provide non-asymptotic convergence guarantees for hybrid LNLS by reducing to block Langevin Diffusion (BLD) algorithms. Adapting tools from classical sampling theory, we prove exponential KL-divergence convergence for randomized and cyclic block selection strategies using ideal DXs. With finite device variation, we provide explicit bounds on the 2-Wasserstein bias in terms of step duration, noise strength, and function parameters. Our BLD model provides a key link between established theory and novel computing platforms, and our theoretical results provide a closed-form expression linking device variation, algorithm hyperparameters, and performance.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# Public Quantum Network - 最初のNode

Public Quantum Network: The First Node ( http://arxiv.org/abs/2410.06398v1 )

ライセンス: Link先を確認
K. Kapoor, S. Hoseini, J. Choi, B. E. Nussbaum, Y. Zhang, K. Shetty, C. Skaar, M. Ward, L. Wilson, K. Shinbrough, E. Edwards, R. Wiltfong, C. P. Lualdi, Offir Cohen, P. G. Kwiat, V. O. Lorenz, (参考訳) 本稿では,イリノイ大学アーバナ・シャンペーン校とアーバナの公立図書館との間で,絡み合った光子を分配する量子ネットワークを提案する。 このネットワークにより、一般市民は光子の測定を行うことができる。 ネットワークに基づく設計・実装・アウトリーチについて述べる。 2023年11月にローンチされて以来、400以上の公開対話がシステムに記録されている。

We present a quantum network that distributes entangled photons between the University of Illinois Urbana-Champaign and a public library in Urbana. The network allows members of the public to perform measurements on the photons. We describe its design and implementation and outreach based on the network. Over 400 instances of public interaction have been logged with the system since it was launched in November 2023.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 画像回帰の応用による適応的ランダムフーリエ訓練

Adaptive Random Fourier Features Training Stabilized By Resampling With Applications in Image Regression ( http://arxiv.org/abs/2410.06399v1 )

ライセンス: Link先を確認
Aku Kammonen, Anamika Pandey, Erik von Schwerin, Raúl Tempone, (参考訳) 本稿では,浅層ニューラルネットワークのための適応型ランダムフーリエ(ARFF)学習アルゴリズムを提案する。このアルゴリズムは,"Adaptive Random Fourier Features with Metropolis Sampling", Kammonen et al , Foundations of Data Science, 2(3):309--332, 2020" で導入された作業に基づいている。 この改良手法は, 粒子フィルタ型再サンプリング法を用いて, トレーニングプロセスの安定化とパラメータ選択に対する感度の低下を図る。 再サンプリングでは、メトロポリステストも省略され、ハイパーパラメータの数が減少し、ARFFと比較して反復当たりの計算コストが削減される。 本稿では,関数回帰タスクにおける提案アルゴリズムの有効性を示す総合的な数値実験について述べる。 さらに,このアルゴリズムを単純な画像回帰問題に適用し,座標系多層パーセプトロン(MLP)のランダムフーリエ特徴層(RFF)のサンプリング周波数に有効であることを示す。 この文脈では,提案アルゴリズムを用いてRFF層のパラメータを自動でサンプリングする。

This paper presents an enhanced adaptive random Fourier features (ARFF) training algorithm for shallow neural networks, building upon the work introduced in "Adaptive Random Fourier Features with Metropolis Sampling", Kammonen et al., Foundations of Data Science, 2(3):309--332, 2020. This improved method uses a particle filter type resampling technique to stabilize the training process and reduce sensitivity to parameter choices. With resampling, the Metropolis test may also be omitted, reducing the number of hyperparameters and reducing the computational cost per iteration, compared to ARFF. We present comprehensive numerical experiments demonstrating the efficacy of our proposed algorithm in function regression tasks, both as a standalone method and as a pre-training step before gradient-based optimization, here Adam. Furthermore, we apply our algorithm to a simple image regression problem, showcasing its utility in sampling frequencies for the random Fourier features (RFF) layer of coordinate-based multilayer perceptrons (MLPs). In this context, we use the proposed algorithm to sample the parameters of the RFF layer in an automated manner.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# コモディティデバイスを用いた歩行者道路横断予測のための信頼性の高いヘッドトラッキング

Reliable Heading Tracking for Pedestrian Road Crossing Prediction Using Commodity Devices ( http://arxiv.org/abs/2410.06400v1 )

ライセンス: Link先を確認
Yucheng Yang, Jingjie Li, Kassem Fawaz, (参考訳) 歩行者の方向追跡は、歩行者ナビゲーション、交通安全、アクセシビリティの応用を可能にする。 従来、慣性センサーの融合や機械学習を使った研究は、スマートフォンが特定の方向で固定されていると仮定することで、その一般化を妨げていた。 我々は,移動中にスマートフォンを振り回すなどの習慣により,スマートフォンを一定の方法で携帯する傾向にある,という重要な洞察を生かした新しい方向追跡アルゴリズム,Orientation-Heading Alignment (OHA)を提案する。 この動作中のスマートフォンの姿勢について、OHAはスマートフォンの向きを歩行者の向きにマッピングし、粗い方向やスマートフォンの向きから効率的に学習する。 実際のシナリオでアルゴリズムを固定するために、道路利用者の安全を改善するために歩行者が道路を横断しようとしている時期を予測するという、難しいタスクにOHAを適用します。 特に、2020年以降に60人の個人から収集された755時間の歩行データを用いて、道路横断をリアルタイムで予測する軽量なモデルを構築した。 評価の結果、OHAは既存の手法に比べて9つのシナリオで3.4倍小さい方向誤差を達成できた。 さらに、OHAは歩行者の横断行動の早期かつ正確な検出を可能にし、歩行者が道路範囲に入る前に平均で0.35秒の横断警報を発する。

Pedestrian heading tracking enables applications in pedestrian navigation, traffic safety, and accessibility. Previous works, using inertial sensor fusion or machine learning, are limited in that they assume the phone is fixed in specific orientations, hindering their generalizability. We propose a new heading tracking algorithm, the Orientation-Heading Alignment (OHA), which leverages a key insight: people tend to carry smartphones in certain ways due to habits, such as swinging them while walking. For each smartphone attitude during this motion, OHA maps the smartphone orientation to the pedestrian heading and learns such mappings efficiently from coarse headings and smartphone orientations. To anchor our algorithm in a practical scenario, we apply OHA to a challenging task: predicting when pedestrians are about to cross the road to improve road user safety. In particular, using 755 hours of walking data collected since 2020 from 60 individuals, we develop a lightweight model that operates in real-time on commodity devices to predict road crossings. Our evaluation shows that OHA achieves 3.4 times smaller heading errors across nine scenarios than existing methods. Furthermore, OHA enables the early and accurate detection of pedestrian crossing behavior, issuing crossing alerts 0.35 seconds, on average, before pedestrians enter the road range.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 視覚変換器を用いた抽象・推論コーパスの抽出-2次元表現・位置・物体の重要性-

Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects ( http://arxiv.org/abs/2410.06405v1 )

ライセンス: Link先を確認
Wenhao Li, Yudong Xu, Scott Sanner, Elias Boutros Khalil, (参考訳) ARC(Abstraction and Reasoning Corpus)は、人工知能システムの評価における視覚的推論に焦点を当てた人気のあるベンチマークである。 当初のフレーミングでは、ARCタスクは、少数の入力出力トレーニングペアを使用して、小さな2D画像に対してプログラム合成問題を解決する必要がある。 本研究では、最近のARCに対するデータ駆動型アプローチを採用し、視覚変換器(ViT)が暗黙マッピングを入力画像から出力画像へ学習できるかどうかを問う。 画像の最先端モデルであるViTは、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗する。 このことは、ARCタスクの裏にある単純な構造化されたマッピングを明らかにすることができないViTアーキテクチャの固有の表現不足を示している。 これらの知見に基づいて、我々は、ARCが必要とする視覚的推論能力のいくつかを解放するViTARCというViTARCスタイルのアーキテクチャを提案する。 具体的には、画素レベルの入力表現を使用し、空間的に認識可能なトークン化スキームを設計し、自動セグメンテーションを利用する新しいオブジェクトベースの位置符号化を導入する。 我々のタスク固有のViTARCモデルは、入力出力グリッドからの教師あり学習により、400のパブリックARCタスクの半数以上で100%近い解率を達成する。 このことは、トレーニングデータが豊富であり、マッピングがノイズフリーである場合でも重要な抽象的視覚推論のための正しい帰納バイアスを持つ強力な(視覚)トランスフォーマーを入力することの重要性に注意を喚起する。 したがって、ViTARCはトランスフォーマーベースのアーキテクチャを用いた視覚推論における将来の研究の強力な基盤を提供する。

The Abstraction and Reasoning Corpus (ARC) is a popular benchmark focused on visual reasoning in the evaluation of Artificial Intelligence systems. In its original framing, an ARC task requires solving a program synthesis problem over small 2D images using a few input-output training pairs. In this work, we adopt the recently popular data-driven approach to the ARC and ask whether a Vision Transformer (ViT) can learn the implicit mapping, from input image to output image, that underlies the task. We show that a ViT -- otherwise a state-of-the-art model for images -- fails dramatically on most ARC tasks even when trained on one million examples per task. This points to an inherent representational deficiency of the ViT architecture that makes it incapable of uncovering the simple structured mappings underlying the ARC tasks. Building on these insights, we propose ViTARC, a ViT-style architecture that unlocks some of the visual reasoning capabilities required by the ARC. Specifically, we use a pixel-level input representation, design a spatially-aware tokenization scheme, and introduce a novel object-based positional encoding that leverages automatic segmentation, among other enhancements. Our task-specific ViTARC models achieve a test solve rate close to 100% on more than half of the 400 public ARC tasks strictly through supervised learning from input-output grids. This calls attention to the importance of imbuing the powerful (Vision) Transformer with the correct inductive biases for abstract visual reasoning that are critical even when the training data is plentiful and the mapping is noise-free. Hence, ViTARC provides a strong foundation for future research in visual reasoning using transformer-based architectures.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 非構造メッシュ上のスカラー場予測のためのトポロジー非依存グラフU-Net

Topology-Agnostic Graph U-Nets for Scalar Field Prediction on Unstructured Meshes ( http://arxiv.org/abs/2410.06406v1 )

ライセンス: Link先を確認
Kevin Ferguson, Yu-hsuan Chen, Yiming Chen, Andrew Gillman, James Hardin, Levent Burak Kara, (参考訳) 技術者が製品設計サイクルの合理化を図る中で、長いコンピュータシミュレーションを加速するマシン学習サロゲートモデルの重要性が高まっている。 多くの場合、これらの手法は幾何全体にわたって関連する量を予測する能力を提供するが、入力データに制約を課す。 多様なデータ型の世界では、望ましいアプローチは特定の構造への入力を制限するものではない。 本稿では,グラフ畳み込みネットワークであるTopology-Agnostic Graph U-Net(TAG U-Net)を提案する。 モデルは、各入力グラフの粗いバージョンを構築し、元のグラフ上のノードワイズ出力を予測するために、一連の畳み込みとプーリング操作を実行する。 多様な形状のトレーニングによって、モデルはトレーニング中に見られるような形状であっても、強い予測を行うことができる。 数千の部品に対してレーザー粉体融合シミュレーション結果を含む3次元付加製造データセットが提示される。 このモデルがこのデータセット上で実証され、2次元および3次元のスカラー場と、テスト測地上での中央値R-2乗 > 0.85 の2次元および3次元のスカラー場の両方を予測できる。 コードとデータセットはオンラインで入手できる。

Machine-learned surrogate models to accelerate lengthy computer simulations are becoming increasingly important as engineers look to streamline the product design cycle. In many cases, these approaches offer the ability to predict relevant quantities throughout a geometry, but place constraints on the form of the input data. In a world of diverse data types, a preferred approach would not restrict the input to a particular structure. In this paper, we propose Topology-Agnostic Graph U-Net (TAG U-Net), a graph convolutional network that can be trained to input any mesh or graph structure and output a prediction of a target scalar field at each node. The model constructs coarsened versions of each input graph and performs a set of convolution and pooling operations to predict the node-wise outputs on the original graph. By training on a diverse set of shapes, the model can make strong predictions, even for shapes unlike those seen during training. A 3-D additive manufacturing dataset is presented, containing Laser Powder Bed Fusion simulation results for thousands of parts. The model is demonstrated on this dataset, and it performs well, predicting both 2-D and 3-D scalar fields with a median R-squared > 0.85 on test geometries. Code and datasets are available online.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# 難治性難聴における難治性難聴に対するスキューネス基準の検討

A Skewness-Based Criterion for Addressing Heteroscedastic Noise in Causal Discovery ( http://arxiv.org/abs/2410.06407v1 )

ライセンス: Link先を確認
Yingyu Lin, Yuxing Huang, Wenqin Liu, Haoran Deng, Ignavier Ng, Kun Zhang, Mingming Gong, Yi-An Ma, Biwei Huang, (参考訳) 実世界のデータは、しばしば等分散仮定(ホモセダスティック性)に反し、因果発見においてヘテロセダスティックノイズを考慮することが不可欠である。 本研究では,非定常対称雑音モデル (HSNMs) について検討し,その効果を$Y = f(X) + \sigma(X)N$,$X$を原因として$N$を対称分布に続く独立雑音としてモデル化する。 データ分布のスコア(すなわちログ密度の勾配)の歪度に基づいて、HSNMを識別するための新しい基準を導入する。 この基準は、因果方向ではゼロであるが、反因果方向ではゼロではない計算的に引き出すことができる測定値を確立し、因果方向の発見を可能にする。 我々は、この歪度に基づく基準を多変量設定に拡張し、異種性雑音の抽出を必要とせず、異種性雑音を処理するアルゴリズムであるSkewScoreを提案する。 また,2変量モデルにおけるSkewScoreの堅牢性に関するケーススタディを実施し,その性能に関する理論的知見を提供する。 実験的な研究により,提案手法の有効性がさらに検証された。

Real-world data often violates the equal-variance assumption (homoscedasticity), making it essential to account for heteroscedastic noise in causal discovery. In this work, we explore heteroscedastic symmetric noise models (HSNMs), where the effect $Y$ is modeled as $Y = f(X) + \sigma(X)N$, with $X$ as the cause and $N$ as independent noise following a symmetric distribution. We introduce a novel criterion for identifying HSNMs based on the skewness of the score (i.e., the gradient of the log density) of the data distribution. This criterion establishes a computationally tractable measurement that is zero in the causal direction but nonzero in the anticausal direction, enabling the causal direction discovery. We extend this skewness-based criterion to the multivariate setting and propose SkewScore, an algorithm that handles heteroscedastic noise without requiring the extraction of exogenous noise. We also conduct a case study on the robustness of SkewScore in a bivariate model with a latent confounder, providing theoretical insights into its performance. Empirical studies further validate the effectiveness of the proposed method.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# テンソル補完によるデータサイエンスパイプラインの自動化

Automating Data Science Pipelines with Tensor Completion ( http://arxiv.org/abs/2410.06408v1 )

ライセンス: Link先を確認
Shaan Pakala, Bryce Graw, Dawon Ahn, Tam Dinh, Mehnaz Tabassum Mahin, Vassilis Tsotras, Jia Chen, Evangelos E. Papalexakis, (参考訳) ハイパーパラメータ最適化は、多くのデータサイエンスパイプラインにおいて不可欠なコンポーネントであり、組合せ探索空間を探索するためには、通常、全時間とリソース消費の計算を必要とする。 この問題と同様に、データサイエンスパイプラインにおける他の重要な操作は、まったく同じ特性を示す。 重要な例としては、ニューラルネットワークのための最良の設計選択を特定することが目標とするニューラルネットワーク検索、SQLクエリのさまざまな述語値が与えられた場合のクエリ基準推定、その目標は出力のサイズを見積もることである。 本稿では,データサイエンスパイプラインの基本成分を抽象化し,探索空間の各変数がテンソルの1つのモードに対応するテンソル完備化のインスタンスとしてモデル化する。 そこで我々はまず,既存の最先端テンソル完備化手法の徹底的な実験的評価を行い,ドメインにインスパイアされた適応(離散化変数空間のスムーズさなど)と,最先端性能を実現するアンサンブル技術を導入する。 我々は,既存の手法と提案手法を,対応する複数のデータセットで広範囲に評価する。 (a)非神経ネットワークモデルに対するハイパーパラメータ最適化 b)ニューラルアーキテクチャサーチ,及び (c)データサイエンスパイプラインの自動化ツールとしてのテンソル補完の有効性を実証したクエリ基準推定の変種。 さらに、このトピックに関する今後の作業のベンチマークを提供するために、生成されたデータセットとコードもリリースします。

Hyperparameter optimization is an essential component in many data science pipelines and typically entails exhaustive time and resource-consuming computations in order to explore the combinatorial search space. Similar to this problem, other key operations in data science pipelines exhibit the exact same properties. Important examples are: neural architecture search, where the goal is to identify the best design choices for a neural network, and query cardinality estimation, where given different predicate values for a SQL query the goal is to estimate the size of the output. In this paper, we abstract away those essential components of data science pipelines and we model them as instances of tensor completion, where each variable of the search space corresponds to one mode of the tensor, and the goal is to identify all missing entries of the tensor, corresponding to all combinations of variable values, starting from a very small sample of observed entries. In order to do so, we first conduct a thorough experimental evaluation of existing state-of-the-art tensor completion techniques and introduce domain-inspired adaptations (such as smoothness across the discretized variable space) and an ensemble technique which is able to achieve state-of-the-art performance. We extensively evaluate existing and proposed methods in a number of datasets generated corresponding to (a) hyperparameter optimization for non-neural network models, (b) neural architecture search, and (c) variants of query cardinality estimation, demonstrating the effectiveness of tensor completion as a tool for automating data science pipelines. Furthermore, we release our generated datasets and code in order to provide benchmarks for future work on this topic.
翻訳日:2024-11-01 05:59:12 公開日:2024-10-08
# BEVLoc:Birds-Eye-View 合成によるクロスビューローカライゼーションとマッチング

BEVLoc: Cross-View Localization and Matching via Birds-Eye-View Synthesis ( http://arxiv.org/abs/2410.06410v1 )

ライセンス: Link先を確認
Christopher Klammer, Michael Kaess, (参考訳) 地上と空中のマッチングは、特にGPSが欠如している場合や信頼性が低い場合、屋外ロボティクスにおいて重要な課題である。 建物や高密度の森林のような構造は干渉を引き起こし、グローバルな位置推定のためにGNSSを置き換える必要がある。 真の難しさは、地表面と空気像の視点差を調整して、許容できる位置を求めることである。 自律運転コミュニティからインスピレーションを得て,オフロード環境における航空地図とのマッチングとローカライズを行うために,鳥眼ビュー(BEV)シーン表現を合成する新しい枠組みを提案する。 我々は,合成されたBEVと航空地図の類似表現を学習するために,ドメイン固有の負のマイニングによる対照的な学習を活用してネットワークを訓練する。 推測中、BEVLocは粗いマッチング戦略を通じて、空中マップ内の最も可能性の高い場所の同定をガイドする。 本研究は,極難林環境における有望な初期成果を示すものである。 GNSSの代替品として,モデルの生のマッチング能力と性能の両方を評価し,粗大かつ微妙なマッチングのためのモデルの性能を分析した。 我々の研究は、オフロードマップのローカライゼーションと、将来のローカライゼーションの基盤となるベースラインを確立することを目的としている。 私たちのコードは、https://github.com/rpl-cmu/bevloc.comで利用可能です。

Ground to aerial matching is a crucial and challenging task in outdoor robotics, particularly when GPS is absent or unreliable. Structures like buildings or large dense forests create interference, requiring GNSS replacements for global positioning estimates. The true difficulty lies in reconciling the perspective difference between the ground and air images for acceptable localization. Taking inspiration from the autonomous driving community, we propose a novel framework for synthesizing a birds-eye-view (BEV) scene representation to match and localize against an aerial map in off-road environments. We leverage contrastive learning with domain specific hard negative mining to train a network to learn similar representations between the synthesized BEV and the aerial map. During inference, BEVLoc guides the identification of the most probable locations within the aerial map through a coarse-to-fine matching strategy. Our results demonstrate promising initial outcomes in extremely difficult forest environments with limited semantic diversity. We analyze our model's performance for coarse and fine matching, assessing both the raw matching capability of our model and its performance as a GNSS replacement. Our work delves into off-road map localization while establishing a foundational baseline for future developments in localization. Our code is available at: https://github.com/rpl-cmu/bevloc
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# バイアスドAIは政治的決定に影響を及ぼす

Biased AI can Influence Political Decision-Making ( http://arxiv.org/abs/2410.06415v1 )

ライセンス: Link先を確認
Jillian Fisher, Shangbin Feng, Robert Aron, Thomas Richardson, Yejin Choi, Daniel W. Fisher, Jennifer Pan, Yulia Tsvetkov, Katharina Reinecke, (参考訳) 現代のAIモデルは日常的なタスクに不可欠なものになっているため、その固有のバイアスと、人間の意思決定に対する潜在的な影響に対する懸念が生まれている。 モデルのバイアスは十分に文書化されているが、これらのバイアスが人間の決定にどのように影響するかについてはあまり知られていない。 本稿では、AI言語モデルにおけるパルチザンバイアスが政治的意思決定に与える影響を2つのインタラクティブな実験により検証する。 参加者は、政治的意思決定のタスクを完了しながら、偏見のあるリベラル、保守、あるいは偏見のないコントロールモデルと自由に対話した。 政治的偏見のあるモデルに晒された参加者は、個人の政治的党派によらず、意見を採用し、AIの偏見に沿う決定をする可能性が著しく高いことがわかった。 しかし、AIに関する事前の知識はバイアスの影響を減らし、堅牢なバイアス軽減のためのAI教育の重要性を強調していることもわかりました。 我々の発見は、偏見のあるAIと対話することの致命的な影響と、公衆の言論や政治的行為に影響を与える能力だけでなく、将来これらのリスクを緩和する潜在的なテクニックも強調している。

As modern AI models become integral to everyday tasks, concerns about their inherent biases and their potential impact on human decision-making have emerged. While bias in models are well-documented, less is known about how these biases influence human decisions. This paper presents two interactive experiments investigating the effects of partisan bias in AI language models on political decision-making. Participants interacted freely with either a biased liberal, conservative, or unbiased control model while completing political decision-making tasks. We found that participants exposed to politically biased models were significantly more likely to adopt opinions and make decisions aligning with the AI's bias, regardless of their personal political partisanship. However, we also discovered that prior knowledge about AI could lessen the impact of the bias, highlighting the possible importance of AI education for robust bias mitigation. Our findings not only highlight the critical effects of interacting with biased AI and its ability to impact public discourse and political conduct, but also highlights potential techniques for mitigating these risks in the future.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# 循環的複雑度と授業反応の依存性の評価

Evaluating the Dependency Between Cyclomatic Complexity and Response For Class ( http://arxiv.org/abs/2410.06416v1 )

ライセンス: Link先を確認
Maxim Stavtsev, Yegor Bugayenko, (参考訳) オブジェクト指向プログラミングでは、より少ないメソッドを持つより小さなクラスはより複雑でないという仮定が妥当である。 この仮説が本当なら、複雑性が保守性に著しく寄与するため、プログラマはメソッドが少ないクラスを設計することが望ましいだろう。 この仮定をテストするために、オープンなGitHubリポジトリ1,000から872,517のJavaクラスを分析しました。 以上の結果から,すべてのクラスメソッドの累積的マッケイブ循環複雑度 (CC) とメソッド数 (RFC) との間には, ピアソンの相関関係が強いことが示唆された。

In object-oriented programming, it is reasonable to hypothesize that smaller classes with fewer methods are less complex. Should this hypothesis hold true, it would be advisable for programmers to design classes with fewer methods, as complexity significantly contributes to poor maintainability. To test this assumption, we analyzed 862,517 Java classes from 1,000 open GitHub repositories. Our findings indicate a strong Pearson correlation of 0.79 between the cumulative McCabe's Cyclomatic Complexity (CC) of all class methods and the number of methods, a metric known as Response for Class (RFC).
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# MIRACLE 3D:形状モデル構築による点群における連続学習のためのメモリ効率統合ロバストアプローチ

MIRACLE 3D: Memory-efficient Integrated Robust Approach for Continual Learning on Point Clouds via Shape Model construction ( http://arxiv.org/abs/2410.06418v1 )

ライセンス: Link先を確認
Hossein Resani, Behrooz Nasihatkon, (参考訳) 本稿では,3次元オブジェクト分類におけるメモリ効率とプライバシ保護の継続学習のための新しいフレームワークを提案する。 連続学習における従来のメモリベースアプローチとは違って,各クラスのコンパクトな形状モデルを構築し,平均形状といくつかのキーモードを同時に保持する。 この戦略は、メモリ使用量を大幅に削減しつつ、多様なトレーニングサンプルの生成を可能にするだけでなく、元のデータを格納する必要をなくして、プライバシを向上させる。 入力変動に対するモデルロバスト性,強いバックボーンと限られたトレーニングデータがないことによる3次元領域に共通する問題をさらに改善するため,グラディエントモード規則化(Gradient Mode regularization)を取り入れた。 この手法によりモデルの安定性が向上し、分類マージンが拡大し、精度が向上する。 我々は、ModelNet40、ShapeNet、ScanNetデータセットに関する広範な実験を通じてアプローチを検証する。 特に,本手法は,ModelNet40とShapeNetで競合する手法で要求されるメモリの15%しか消費しないが,ScanNetデータセットでは8.5%のメモリで同等のパフォーマンスを実現している。 これらの結果は,3次元オブジェクト分類のためのフレームワークのスケーラビリティ,有効性,およびプライバシ保護の強みを裏付けるものである。

In this paper, we introduce a novel framework for memory-efficient and privacy-preserving continual learning in 3D object classification. Unlike conventional memory-based approaches in continual learning that require storing numerous exemplars, our method constructs a compact shape model for each class, retaining only the mean shape along with a few key modes of variation. This strategy not only enables the generation of diverse training samples while drastically reducing memory usage but also enhances privacy by eliminating the need to store original data. To further improve model robustness against input variations, an issue common in 3D domains due to the absence of strong backbones and limited training data, we incorporate Gradient Mode Regularization. This technique enhances model stability and broadens classification margins, resulting in accuracy improvements. We validate our approach through extensive experiments on the ModelNet40, ShapeNet, and ScanNet datasets, where we achieve state-of-the-art performance. Notably, our method consumes only 15% of the memory required by competing methods on the ModelNet40 and ShapeNet, while achieving comparable performance on the challenging ScanNet dataset with just 8.5% of the memory. These results underscore the scalability, effectiveness, and privacy-preserving strengths of our framework for 3D object classification.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# ERVQA: 病院環境における大規模視覚言語モデルの準備性を評価するデータセット

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments ( http://arxiv.org/abs/2410.06420v1 )

ライセンス: Link先を確認
Sourjyadip Ray, Kushal Gupta, Soumi Kundu, Payal Arvind Kasat, Somak Aditya, Pawan Goyal, (参考訳) 世界中の医療従事者が不足しているため、スマートヘルスケアアシスタントの開発が求められている。 本稿では,VQA(Visual Question Answering)タスクを通じて,既存のLVLM(Large Vision Language Models)の医療知識について,専門家によるオープンエンド質問を通じて検討する。 各種緊急室シナリオをカバーする<image, question, answer>三重項からなるERVQAデータセット,LVLMのセミナルベンチマークを紹介する。 詳細な誤り分類法を開発し,回答傾向を解析することにより,タスクの微妙な性質を明らかにする。 従来のVQAメトリクスを使用して、最先端のオープンソースおよびクローズドなLVLMをベンチマークする。 モデル間のエラーを分析し、デコーダタイプやモデルサイズ、コンテキスト内例といった特性に基づいてトレンドを推測します。 以上の結果から,ERVQAデータセットは非常に複雑なタスクを示し,専門的なドメイン固有のソリューションの必要性を浮き彫りにしている。

The global shortage of healthcare workers has demanded the development of smart healthcare assistants, which can help monitor and alert healthcare workers when necessary. We examine the healthcare knowledge of existing Large Vision Language Models (LVLMs) via the Visual Question Answering (VQA) task in hospital settings through expert annotated open-ended questions. We introduce the Emergency Room Visual Question Answering (ERVQA) dataset, consisting of <image, question, answer> triplets covering diverse emergency room scenarios, a seminal benchmark for LVLMs. By developing a detailed error taxonomy and analyzing answer trends, we reveal the nuanced nature of the task. We benchmark state-of-the-art open-source and closed LVLMs using traditional and adapted VQA metrics: Entailment Score and CLIPScore Confidence. Analyzing errors across models, we infer trends based on properties like decoder type, model size, and in-context examples. Our findings suggest the ERVQA dataset presents a highly complex task, highlighting the need for specialized, domain-specific solutions.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# 事前学習を伴わない確率論的機械学習モデルによる電池容量低下予測

Predicting Battery Capacity Fade Using Probabilistic Machine Learning Models With and Without Pre-Trained Priors ( http://arxiv.org/abs/2410.06422v1 )

ライセンス: Link先を確認
Michael J. Kenney, Katerina G. Malollari, Sergei V. Kalinin, Maxim Ziatdinov, (参考訳) リチウムイオン電池は、モバイルエレクトロニクス、電気自動車、再生可能エネルギーストレージに革命をもたらす重要なエネルギー貯蔵技術である。 キャパシティ保持は、これらの電池が寿命の終わりに近づいたかどうかを評価するために頻繁に使用される重要なパフォーマンス指標である。 機械学習(ML)は、過去のデータに基づいてキャパシティ劣化を予測する強力なツールを提供するが、健康状態に基づいて連続的な決定をしなければならない状況において、ML予測が信頼できる程度が極めて重要である。 本研究は,バッテリヘルス予測における完全ベイズ機械学習の有効性について,その予測における不確実性の定量化について検討した。 具体的には、3つの確率的ML手法を実装し、それらの予測と不確実性推定の精度を評価した: 標準ガウス過程(GP)、構造化ガウス過程(sGP)、完全ベイズニューラルネットワーク(BNN)。 GPとsGPの典型的な応用では、それらのハイパーパラメータは単一のサンプルから学習されるが、対照的に、BNNは既存のデータセット上で事前訓練され、推論に使用される前に重量分布を学習する。 この方法論の違いは、データセットのグローバルトレンドを学習する上で、BNNにメリットを与え、トレーニングデータが利用可能であれば、BNNを適切な選択肢にします。 しかし, 事前学習は, GP や sGP の事前分布を学習するためにも有効であり, 事前学習された sGP の場合, BNN と同等の精度と不確実性評価が可能であることを示す。 このアプローチは、過去のデータが利用可能であり、確率的MLモデルの(超)パラメータの事前学習に使用できる、幅広い確率的機械学習シナリオのためのフレームワークを提供する。

Lithium-ion batteries are a key energy storage technology driving revolutions in mobile electronics, electric vehicles and renewable energy storage. Capacity retention is a vital performance measure that is frequently utilized to assess whether these batteries have approached their end-of-life. Machine learning (ML) offers a powerful tool for predicting capacity degradation based on past data, and, potentially, prior physical knowledge, but the degree to which an ML prediction can be trusted is of significant practical importance in situations where consequential decisions must be made based on battery state of health. This study explores the efficacy of fully Bayesian machine learning in forecasting battery health with the quantification of uncertainty in its predictions. Specifically, we implemented three probabilistic ML approaches and evaluated the accuracy of their predictions and uncertainty estimates: a standard Gaussian process (GP), a structured Gaussian process (sGP), and a fully Bayesian neural network (BNN). In typical applications of GP and sGP, their hyperparameters are learned from a single sample while, in contrast, BNNs are typically pre-trained on an existing dataset to learn the weight distributions before being used for inference. This difference in methodology gives the BNN an advantage in learning global trends in a dataset and makes BNNs a good choice when training data is available. However, we show that pre-training can also be leveraged for GP and sGP approaches to learn the prior distributions of the hyperparameters and that in the case of the pre-trained sGP, similar accuracy and improved uncertainty estimation compared to the BNN can be achieved. This approach offers a framework for a broad range of probabilistic machine learning scenarios where past data is available and can be used to learn priors for (hyper)parameters of probabilistic ML models.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# FAIREDU:教育用機械学習モデルにおけるフェアネス向上のためのマルチ回帰ベース手法

FAIREDU: A Multiple Regression-Based Method for Enhancing Fairness in Machine Learning Models for Educational Applications ( http://arxiv.org/abs/2410.06423v1 )

ライセンス: Link先を確認
Nga Pham, Minh Kha Do, Tran Vu Dai, Pham Ngoc Hung, Anh Nguyen-Duc, (参考訳) 人工知能と機械学習(AI/ML)モデルの公正性は、特にこれらのシステムによる決定が多様なグループに影響を与えるにつれ、重要になっている。 すべての国にとって重要な教育分野である教育において、AI/MLシステムが広く適用されることは、公正性に関する特定の懸念を提起する。 現在の研究は主に、個々人の敏感な特徴に対する公平性に焦点を当てており、公平性評価の包括性を制限している。 本稿では,複数機能にまたがる公平性向上を目的とした,新規かつ効果的な手法であるFAIREDUを紹介する。 モデル性能を損なうことなく公平性を向上するためのFAIREDUの有効性を評価する。 その結果, FAIREDUは, 性別, 人種, 年齢, その他の敏感な特徴の交叉性に対処し, モデル精度に最小限の影響を伴って, 最先端の手法よりも優れていた。 また,機械学習モデルやデータセットの堅牢性と適用性を高めるための今後の研究の方向性についても検討する。

Fairness in artificial intelligence and machine learning (AI/ML) models is becoming critically important, especially as decisions made by these systems impact diverse groups. In education, a vital sector for all countries, the widespread application of AI/ML systems raises specific concerns regarding fairness. Current research predominantly focuses on fairness for individual sensitive features, which limits the comprehensiveness of fairness assessments. This paper introduces FAIREDU, a novel and effective method designed to improve fairness across multiple sensitive features. Through extensive experiments, we evaluate FAIREDU effectiveness in enhancing fairness without compromising model performance. The results demonstrate that FAIREDU addresses intersectionality across features such as gender, race, age, and other sensitive features, outperforming state-of-the-art methods with minimal effect on model accuracy. The paper also explores potential future research directions to enhance further the method robustness and applicability to various machine-learning models and datasets.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# 回転トリックによるベクトル量子化の再構成

Restructuring Vector Quantization with the Rotation Trick ( http://arxiv.org/abs/2410.06424v1 )

ライセンス: Link先を確認
Christopher Fifty, Ronald G. Junkins, Dennis Duan, Aniketh Iger, Jerry W. Liu, Ehsan Amid, Sebastian Thrun, Christopher Ré, (参考訳) ベクトル量子化変分オートエンコーダ(VQ-VAE)は、連続的な入力を離散潜在空間に圧縮し、最小限の歪みで再構成するように設計されている。 それらは、コードブックと呼ばれる一連のベクトルを維持し、各エンコーダ出力をコードブックの最も近いベクターに量子化する。 しかし、ベクトル量子化は微分不可能であるため、エンコーダへの勾配はベクトル量子化層を通り抜けるのではなく、直線的な近似で流れる。 この近似はベクトル量子化演算から得られる全ての情報が失われるため望ましくない。 本稿では,VQ-VAEのベクトル量子化層を通じて勾配を伝播する手法を提案する。 我々は,各エンコーダの出力を,バックプロパゲーション中に定数として扱われる線形変換を回転・再スケーリングすることで,対応するコードブックベクトルにスムーズに変換する。 その結果、エンコーダ出力とコードブックベクトルの相対等級と角度は、ベクトル量子化層を介して伝播し、エンコーダに戻るにつれて勾配に符号化される。 11種類のVQ-VAEトレーニングパラダイムで、この再構成により、再構成メトリクス、コードブック利用、量子化エラーが改善される。 私たちのコードはhttps://github.com/cfifty/rotation_trick.comから入手可能です。

Vector Quantized Variational AutoEncoders (VQ-VAEs) are designed to compress a continuous input to a discrete latent space and reconstruct it with minimal distortion. They operate by maintaining a set of vectors -- often referred to as the codebook -- and quantizing each encoder output to the nearest vector in the codebook. However, as vector quantization is non-differentiable, the gradient to the encoder flows around the vector quantization layer rather than through it in a straight-through approximation. This approximation may be undesirable as all information from the vector quantization operation is lost. In this work, we propose a way to propagate gradients through the vector quantization layer of VQ-VAEs. We smoothly transform each encoder output into its corresponding codebook vector via a rotation and rescaling linear transformation that is treated as a constant during backpropagation. As a result, the relative magnitude and angle between encoder output and codebook vector becomes encoded into the gradient as it propagates through the vector quantization layer and back to the encoder. Across 11 different VQ-VAE training paradigms, we find this restructuring improves reconstruction metrics, codebook utilization, and quantization error. Our code is available at https://github.com/cfifty/rotation_trick.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# ウクライナ・ロシア・ハマス・イスラエル紛争前後の予測に関するNLP事例研究

NLP Case Study on Predicting the Before and After of the Ukraine-Russia and Hamas-Israel Conflicts ( http://arxiv.org/abs/2410.06427v1 )

ライセンス: Link先を確認
Jordan Miner, John E. Ortega, (参考訳) 我々は,ウクライナ・ロシア・ハマス・イスラエル紛争の2つの出来事に対して,自然言語処理(NLP)技術を用いて毒性やその他のテキスト特性を予測する手法を提案する。 本稿は、紛争発生前後のソーシャルメディアの分析を通じてリスクを軽減することを願って、今後の紛争における調査の基盤を提供する。 我々の研究は、ソーシャルメディアの将来状態を予測して回避することを目的として、TwitterとRedditの双方の衝突の前後に、いくつかのデータセットをコンパイルする。 より具体的には、(1)紛争に先立って続くソーシャルメディアの議論に顕著な違いがあること、(2)TwitterやRedditのようなプラットフォーム上でのソーシャルメディアの談話は、紛争が起こる前に将来の紛争を特定するのに有用である。 以上の結果から,紛争前後の言語に対する高度なNLP技術(教師なしおよび教師なし)の毒性などの属性を用いることで,両紛争の誤差が1.2%近くと予測できることが示唆された。

We propose a method to predict toxicity and other textual attributes through the use of natural language processing (NLP) techniques for two recent events: the Ukraine-Russia and Hamas-Israel conflicts. This article provides a basis for exploration in future conflicts with hopes to mitigate risk through the analysis of social media before and after a conflict begins. Our work compiles several datasets from Twitter and Reddit for both conflicts in a before and after separation with an aim of predicting a future state of social media for avoidance. More specifically, we show that: (1) there is a noticeable difference in social media discussion leading up to and following a conflict and (2) social media discourse on platforms like Twitter and Reddit is useful in identifying future conflicts before they arise. Our results show that through the use of advanced NLP techniques (both supervised and unsupervised) toxicity and other attributes about language before and after a conflict is predictable with a low error of nearly 1.2 percent for both conflicts.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# 機械学習を用いたドラビディアン言語におけるコードミキシングテキストの応力検出

Stress Detection on Code-Mixed Texts in Dravidian Languages using Machine Learning ( http://arxiv.org/abs/2410.06428v1 )

ライセンス: Link先を確認
L. Ramos, M. Shahiki-Tash, Z. Ahani, A. Eponon, O. Kolesnikova, H. Calvo, (参考訳) ストレスは日常生活において一般的な感覚であるが、いくつかの状況では精神的健康に影響を与える可能性があるため、堅牢な検出モデルの開発は必須である。 本研究では,ドラビディアン言語用コード混合テキストにおけるストレス識別のための方法論的アプローチを提案する。 この課題には、それぞれタミル語とテルグ語をターゲットにした2つのデータセットが含まれていた。 この提案は, 様々な事前処理手法を取り入れた, 将来の分類手法を洗練するためのベンチマークとして, 不正テキストを使うことの重要性を強調している。 ランダムフォレストアルゴリズムは、TF-IDF、Uni-grams of words、および1+2+3)-Grams of charactersという3つのテキスト表現を特徴とする。 この手法は両方の言語カテゴリーで優れた性能を発揮し、タミルでは0.734のマクロF1スコア、テルグでは0.727のマクロF1スコアを達成した。 その結果、心的状態検出のための不適切なデータの価値と、ストレスのためのコード混合テキストの分類の課題が示され、クリーニングデータ、他の前処理技術、あるいはより複雑なモデルによってパフォーマンスが向上する可能性が示唆された。

Stress is a common feeling in daily life, but it can affect mental well-being in some situations, the development of robust detection models is imperative. This study introduces a methodical approach to the stress identification in code-mixed texts for Dravidian languages. The challenge encompassed two datasets, targeting Tamil and Telugu languages respectively. This proposal underscores the importance of using uncleaned text as a benchmark to refine future classification methodologies, incorporating diverse preprocessing techniques. Random Forest algorithm was used, featuring three textual representations: TF-IDF, Uni-grams of words, and a composite of (1+2+3)-Grams of characters. The approach achieved a good performance for both linguistic categories, achieving a Macro F1-score of 0.734 in Tamil and 0.727 in Telugu, overpassing results achieved with different complex techniques such as FastText and Transformer models. The results underscore the value of uncleaned data for mental state detection and the challenges classifying code-mixed texts for stress, indicating the potential for improved performance through cleaning data, other preprocessing techniques, or more complex models.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-08
# 一般化LinkedIn QueensゲームのためのQUBO形式

A QUBO Formulation for the Generalized LinkedIn Queens Game ( http://arxiv.org/abs/2410.06429v1 )

ライセンス: Link先を確認
Alejandro Mata Ali, Edgar Mencia, (参考訳) 本稿では,N-queens 問題のバージョンである LinkedIn Queens ゲームの一連の一般化を解決するために設計された QUBO の定式化について述べる。 この定式化は、変数の数と相互作用を最適化し、量子アニーリングや量子近似最適化アルゴリズム(QAOA)を用いて量子ハードウェアに適用する可能性を改善することで、問題の特定のケースに適応する。 また,カラーチェスピース問題 (Coloured Chess Piece Problem) とマックスチェスピース問題 (Max Chess Pieces Problem) という2種類の新しい問題を,対応するQUBOの定式化とともに提示する。

In this paper, we present a QUBO formulation designed to solve a series of generalisations of the LinkedIn queens game, a version of the N-queens problem. We adapt this formulation for several particular cases of the problem by trying to optimise the number of variables and interactions, improving the possibility of applying it on quantum hardware by means of Quantum Annealing or the Quantum Approximated Optimization Algorithm (QAOA). We also present two new types of problems, the Coloured Chess Piece Problem and the Max Chess Pieces Problem, with their corresponding QUBO formulations.
翻訳日:2024-11-01 05:49:25 公開日:2024-10-08
# AAAI Workshop on AI Planning for Cyber-Physical Systems -- CAIPI24

AAAI Workshop on AI Planning for Cyber-Physical Systems -- CAIPI24 ( http://arxiv.org/abs/2410.07245v1 )

ライセンス: Link先を確認
Oliver Niggemann, Gautam Biswas, Alexander Diedrich, Jonas Ehrhardt, René Heesch, Niklas Widulle, (参考訳) 2024年2月26日、カナダのバンクーバーで開催された第38回AAI年次人工知能会議(AAAI Conference on Artificial Intelligence)の一環として行われた「サイバー物理システムのためのAIベースプランニング」ワークショップは、研究者を集めて、サイバー物理システム(CPS)のAI計画手法の最近の進歩について議論した。 CPSは、その複雑さとデータ集約性により、しばしば従来の計画アルゴリズムの能力を超える大きな課題を生んでいる。 ワークショップでは、ニューロシンボリックアーキテクチャ、大規模言語モデル(LLM)、深い強化学習、象徴的計画の進歩など、新しいアプローチを強調した。 これらのテクニックは、CPSの複雑さを管理し、現実世界のアプリケーションに潜在的な可能性を秘めている。

The workshop 'AI-based Planning for Cyber-Physical Systems', which took place on February 26, 2024, as part of the 38th Annual AAAI Conference on Artificial Intelligence in Vancouver, Canada, brought together researchers to discuss recent advances in AI planning methods for Cyber-Physical Systems (CPS). CPS pose a major challenge due to their complexity and data-intensive nature, which often exceeds the capabilities of traditional planning algorithms. The workshop highlighted new approaches such as neuro-symbolic architectures, large language models (LLMs), deep reinforcement learning and advances in symbolic planning. These techniques are promising when it comes to managing the complexity of CPS and have potential for real-world applications.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# 深層学習アルゴリズムを用いた粒子流エネルギー分布の再構成

Reconstruction of Particle Flow Energy Distribution Using Deep Learning Algorithms ( http://arxiv.org/abs/2410.07250v1 )

ライセンス: Link先を確認
Han Zhang, Shengxiang Lin, Xingyi Zhang, Yu Wang, Yangguang Zhang, (参考訳) 高エネルギー粒子物理学では、複雑な検出器信号から情報を抽出することがエネルギー再構成に不可欠である。 近年の進歩は、エネルギーマップ再構築のための大型ハドロン衝突型加速器(LHC)のような実験において、様々なサブ検出器からの熱量計画像を処理するためにディープラーニングを使用する。 本稿では,従来のアルゴリズムであるMLP,CNN,U-Net,RNNを,自己アテンションと3次元畳み込みモジュールを含む変種と比較し,初期エネルギー分布の再構成の有効性を評価する。 さらに、ジェットイベントのテストデータセットを使用して、異常な高エネルギーイベントを扱う際のモデルの性能を分析し、比較する。 この分析は,エネルギー画像再構成における深層学習の有効性を強調し,その可能性を探るものである。

In high-energy particle physics, extracting information from complex detector signals is crucial for energy reconstruction. Recent advancements involve using deep learning to process calorimeter images from various sub-detectors in experiments like the Large Hadron Collider (LHC) for energy map reconstruction. This paper compares classical algorithms\-MLP, CNN, U-Net, and RNN\-with variants that include self-attention and 3D convolution modules to evaluate their effectiveness in reconstructing the initial energy distribution. Additionally, a test dataset of jet events is utilized to analyze and compare models' performance in handling anomalous high-energy events. The analysis highlights the effectiveness of deep learning techniques for energy image reconstruction and explores their potential in this area.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# BlockMEDC: モロッコの高等教育デジタル証明書を保護するためのブロックチェーンスマートコントラクト

BlockMEDC: Blockchain Smart Contracts for Securing Moroccan Higher Education Digital Certificates ( http://arxiv.org/abs/2410.07258v1 )

ライセンス: Link先を確認
Mohamed Fartitchou, Ismail Lamaakal, Khalid El Makkaoui, Zakaria El Allali, Yassine Maleh, (参考訳) Maroc Digital 2030として知られるモロッコのVision 2030は、デジタルインフラストラクチャの強化、イノベーションの促進、デジタルスキルの向上によって、同国をデジタル技術の地域的リーダーとして位置づけることを目指している。 このイニシアチブを補完するPacte ESRI 2030戦略は、2023年に開始され、最先端のデジタル技術を統合することで、高等教育、研究、イノベーションの分野を変革することを目指している。 本稿では,モロッコの教育デジタル証明書の保護と管理を行うブロックチェーンベースのシステムであるBlockMEDCを紹介する。 EthereumスマートコントラクトとInterPlanetary File Systemを活用するBlockMEDCは、モロッコの大学における学術的資格情報の発行、管理、検証を自動化する。 提案システムは、文書の信頼性、手動検証、相互運用性の欠如、モロッコの教育分野におけるデジタルトランスフォーメーション目標に沿った、安全で透明で費用対効果の高いソリューションの提供など、重要な課題に対処する。

Morocco's Vision 2030, known as Maroc Digital 2030, aims to position the country as a regional leader in digital technology by boosting digital infrastructure, fostering innovation, and advancing digital skills. Complementing this initiative, the Pacte ESRI 2030 strategy, launched in 2023, seeks to transform the higher education, research, and innovation sectors by integrating state-of-the-art digital technologies. In alignment with these national strategies, this paper introduces BlockMEDC, a blockchain-based system for securing and managing Moroccan educational digital certificates. Leveraging Ethereum smart contracts and the InterPlanetary File System, BlockMEDC automates the issuance, management, and verification of academic credentials across Moroccan universities. The proposed system addresses key issues such as document authenticity, manual verification, and lack of interoperability, delivering a secure, transparent, and cost-effective solution that aligns with Morocco's digital transformation goals for the education sector.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# 次元化と説明可能なAIによるmRNA遺伝子発現からの精密癌分類とバイオマーカー同定

Precision Cancer Classification and Biomarker Identification from mRNA Gene Expression via Dimensionality Reduction and Explainable AI ( http://arxiv.org/abs/2410.07260v1 )

ライセンス: Link先を確認
Farzana Tabassum, Sabrina Islam, Siana Rizwan, Masrur Sobhan, Tasnim Ahmed, Sabbir Ahmed, Tareque Mohmud Chowdhury, (参考訳) 遺伝子発現解析は、がんの分類において重要な手法であり、様々な腫瘍に関連する特異な分子的シグネチャの同定を通じて、正確な診断を可能にする。 癌特異的遺伝子を遺伝子発現値から同定することで、よりカスタマイズされパーソナライズされた治療アプローチが可能になる。 しかし、mRNA遺伝子発現データの高次元性は、解析とデータ抽出の課題を提起する。 本研究では,33種類の異なる癌とその対応する遺伝子群を正確に同定するための包括的パイプラインを提案する。 正規化と特徴選択技術を組み合わせて、高い性能を確保しながらデータセットの次元性を効果的に削減する。 特に,119,238個の特徴からなる全データセットと対照的に,たった500個の特徴セットを用いて癌特異的遺伝子を同定した。 3つの最高性能の分類器を組み合わせたアンサンブルアプローチを用いることで、96.61%の分類精度が達成された。 さらに,特定癌特異的遺伝子の生物学的意義を解明するためにExplainable AIを活用し,差分遺伝子表現(DGE)解析を適用した。

Gene expression analysis is a critical method for cancer classification, enabling precise diagnoses through the identification of unique molecular signatures associated with various tumors. Identifying cancer-specific genes from gene expression values enables a more tailored and personalized treatment approach. However, the high dimensionality of mRNA gene expression data poses challenges for analysis and data extraction. This research presents a comprehensive pipeline designed to accurately identify 33 distinct cancer types and their corresponding gene sets. It incorporates a combination of normalization and feature selection techniques to reduce dataset dimensionality effectively while ensuring high performance. Notably, our pipeline successfully identifies a substantial number of cancer-specific genes using a reduced feature set of just 500, in contrast to using the full dataset comprising 19,238 features. By employing an ensemble approach that combines three top-performing classifiers, a classification accuracy of 96.61% was achieved. Furthermore, we leverage Explainable AI to elucidate the biological significance of the identified cancer-specific genes, employing Differential Gene Expression (DGE) analysis.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# 量子重力実験による量子情報化法

Quantum-information methods for quantum gravity laboratory-based tests ( http://arxiv.org/abs/2410.07262v1 )

ライセンス: Link先を確認
Chiara Marletto, Vlatko Vedral, (参考訳) 量子論と一般相対性理論は1世紀ほど前のものである。 現在、これらは物理的現実の最良の説明と見なされており、これまでに実現された全ての実験で裏付けられている。 それでも、それらを統一しようとする試みはまだ進行中であり、量子重力の理論に関する未証明の提案がいくつかある。 本稿では,実験室における量子重力実験の設計に応用された情報理論の分野について概説する。 この分野は、量子情報理論の方法論を、重力をカバーするために、量子理論自体の適用可能性の領域を超えた実りある拡張から生まれる。 主に、2つの量子プローブ間の重力絡みの検出に焦点をあて、この手法を単プローブ方式と比較する。 我々は、この場の起源となった実験的な提案と、その変種、その応用を概観し、重力の量子論におけるその可能性について論じる。 重力における量子効果探索における一般情報理論の原理の役割も強調する。

Quantum theory and general relativity are about one century old. At present, they are considered the best available explanations of physical reality, and they have been so far corroborated by all experiments realised so far. Nonetheless, the quest to unify them is still ongoing, with several yet untested proposals for a theory of quantum gravity. Here we review the nascent field of information-theoretic methods applied to designing tests of quantum gravity in the laboratory. This field emerges from the fruitful extension of quantum information theory methodologies beyond the domain of applicability of quantum theory itself, to cover gravity. We shall focus mainly on the detection of gravitational entanglement between two quantum probes, comparing this method with single-probe schemes. We shall review the experimental proposal that has originated this field, as well as its variants, their applications, and discuss their potential implications for the quantum theory of gravity. We shall also highlight the role of general information-theoretic principles in illuminating the search for quantum effects in gravity.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# メモリ拡張変換器は線形一階最適化法を実装できる

Memory-augmented Transformers can implement Linear First-Order Optimization Methods ( http://arxiv.org/abs/2410.07263v1 )

ライセンス: Link先を確認
Sanchayan Dutta, Suvrit Sra, (参考訳) メモリ拡張変換器 (Memformers) は, 共役勾配降下法, 運動量法, より一般的には, 過去の勾配を線形に組み合わせた線形一階最適化法を実装可能であることを示す。 本研究では,トランスフォーマーが事前条件付き勾配降下をシミュレートする方法を示す先行研究に基づいて,メタフォーマーがより高度な最適化アルゴリズムを学習できるという理論的および実証的な証拠を提供する。 具体的には、メモリレジスタが適切な中間注意値を格納し、共役勾配などのアルゴリズムを実装する方法を分析する。 提案手法は, 線形回帰タスクの学習, あるいは共役勾配よりも優れる手法を学習することで, 効率よく学習できることが示唆された。 この研究は、トランスフォーマーのアルゴリズム能力に関する知識を拡張し、どのように複雑な最適化方法を学習できるかを示す。

We show that memory-augmented Transformers (Memformers) can implement linear first-order optimization methods such as conjugate gradient descent, momentum methods, and more generally, methods that linearly combine past gradients. Building on prior work that demonstrates how Transformers can simulate preconditioned gradient descent, we provide theoretical and empirical evidence that Memformers can learn more advanced optimization algorithms. Specifically, we analyze how memory registers in Memformers store suitable intermediate attention values allowing them to implement algorithms such as conjugate gradient. Our results show that Memformers can efficiently learn these methods by training on random linear regression tasks, even learning methods that outperform conjugate gradient. This work extends our knowledge about the algorithmic capabilities of Transformers, showing how they can learn complex optimization methods.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# A Survey: 大規模言語モデルの時代におけるコラボレーション型ハードウェアとソフトウェア設計

A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models ( http://arxiv.org/abs/2410.07265v1 )

ライセンス: Link先を確認
Cong Guo, Feng Cheng, Zhixu Du, James Kiessling, Jonathan Ku, Shiyu Li, Ziru Li, Mingyuan Ma, Tergel Molom-Ochir, Benjamin Morris, Haoxuan Shan, Jingwei Sun, Yitu Wang, Chiyue Wei, Xueying Wu, Yuhao Wu, Hao Frank Yang, Jingyang Zhang, Junyao Zhang, Qilin Zheng, Guanglei Zhou, Hai, Li, Yiran Chen, (参考訳) 大規模言語モデル(LLM)の急速な開発は、人工知能の分野を大きく変え、自然言語処理とマルチモーダル機能への移行において顕著な能力を示している。 これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。 しかし、その開発と展開には、広範な計算資源の必要性、高エネルギー消費、複雑なソフトウェア最適化など、重大な課題がある。 従来のディープラーニングシステムとは異なり、LLMはトレーニングと推論のためのユニークな最適化戦略を必要とし、システムレベルの効率に重点を置いている。 本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。 本調査は,アルゴリズム最適化,ハードウェア設計,システムレベルのイノベーションなど,LLMのハードウェアおよびアルゴリズム研究における課題と影響を分析した。 LLM中心のコンピューティングシステムにおけるトレードオフと考慮を包括的に理解し、AIの今後の進歩を導くことを目的としている。 最後に、この領域における既存の取り組みを要約し、次世代の大規模言語モデルとAIシステムのための生産レベルの共同設計手法の実現に向けた今後の方向性を概説する。

The rapid development of large language models (LLMs) has significantly transformed the field of artificial intelligence, demonstrating remarkable capabilities in natural language processing and moving towards multi-modal functionality. These models are increasingly integrated into diverse applications, impacting both research and industry. However, their development and deployment present substantial challenges, including the need for extensive computational resources, high energy consumption, and complex software optimizations. Unlike traditional deep learning systems, LLMs require unique optimization strategies for training and inference, focusing on system-level efficiency. This paper surveys hardware and software co-design approaches specifically tailored to address the unique characteristics and constraints of large language models. This survey analyzes the challenges and impacts of LLMs on hardware and algorithm research, exploring algorithm optimization, hardware design, and system-level innovations. It aims to provide a comprehensive understanding of the trade-offs and considerations in LLM-centric computing systems, guiding future advancements in AI. Finally, we summarize the existing efforts in this space and outline future directions toward realizing production-grade co-design methodologies for the next generation of large language models and AI systems.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-08
# 知覚テスト課題2024における時間的行動局所化課題の解法

The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024 ( http://arxiv.org/abs/2410.09088v1 )

ライセンス: Link先を確認
Yinan Han, Qingyuan Jiang, Hongming Mei, Yang Yang, Jinhui Tang, (参考訳) 本報告では、ビデオシーケンスを通して特定の時間間隔内での行動の特定と分類に焦点を当てた、時間的行動局所化(TAL)の手法を提案する。 我々は、SomethingV2データセットから重なり合うラベルを用いてトレーニングデータセットを拡張し、さまざまなアクションクラスにまたがってモデルを一般化する能力を高めることにより、データ拡張技術を採用する。 特徴抽出には、ビデオ機能にUTT、ビデオMAEv2、オーディオ機能にBEAT、CAV-MAEといった最先端モデルを用いる。 我々のアプローチは、マルチモーダル(ビデオとオーディオ)モデルとアンモダル(ビデオのみ)モデルの両方をトレーニングし、その後、Weighted Box Fusion (WBF) 法を用いて予測を組み合わせることである。 この融合戦略は、堅牢なアクションローカライゼーションを保証する。 我々の総合的なアプローチは スコア0.5498を達成し 大会で1位を確保します

This report presents our method for Temporal Action Localisation (TAL), which focuses on identifying and classifying actions within specific time intervals throughout a video sequence. We employ a data augmentation technique by expanding the training dataset using overlapping labels from the Something-SomethingV2 dataset, enhancing the model's ability to generalize across various action classes. For feature extraction, we utilize state-of-the-art models, including UMT, VideoMAEv2 for video features, and BEATs and CAV-MAE for audio features. Our approach involves training both multimodal (video and audio) and unimodal (video only) models, followed by combining their predictions using the Weighted Box Fusion (WBF) method. This fusion strategy ensures robust action localisation. our overall approach achieves a score of 0.5498, securing first place in the competition.
翻訳日:2024-10-30 16:48:15 公開日:2024-10-08
# 異なるサイバー犯罪と一般市民への解決策

Different Cybercrimes and their Solution for Common People ( http://arxiv.org/abs/2410.09089v1 )

ライセンス: Link先を確認
S. Tamang, G. S. Chandana, B. K. Roy, (参考訳) 今日のデジタル時代には、サイバー空間は日常生活に不可欠なものになっているが、サイバー犯罪活動の増加につながっている。 本稿では,サイバー犯罪の動向を考察し,脆弱性を緩和するためにサイバー犯罪意識(サイバーウェアネス)の必要性を強調した。 この研究は、インドにおけるサイバー犯罪に関する統計も調べている。 我々は、サイバー犯罪とサイバーセキュリティに関する既存の文献をレビューし、様々なタイプのサイバー犯罪とその影響に焦点を当てた。 我々は,「一般人」が技術的に意識していない可能性を考慮して,31の技術的および非技術的ソリューションのリストを提示する。 技術的に更新されていないことを考慮して、一般的な男性ソリューション。 ソリューションのリストを拡大し、サイバー脅威におけるその有効性を検証することは、研究の将来のスコープである可能性がある。

In today's digital age, cyberspace has become integral to daily life, however it has also led to an increase in cybercriminal activities. This paper explores cybercrime trends and highlights the need for cybercrime awareness (cyberawareness) to mitigate vulnerabilities. The study also examines Indian statistics on cybercrime. We review the existing literature on cybercrime and cybersecurity, focusing on various types of cybercrimes and their impacts. We present a list of 31 technical as well as non-technical solutions considering that a "common man" may not be technologically aware. Common man solutions, considering that they are not technologically updated. Expanding the list of solutions and validating their effectiveness in cyber threats can be the future scope of the research.
翻訳日:2024-10-30 16:48:15 公開日:2024-10-08
# 文変圧器と検索型生成(RAG:Retrieval-Augmented Generation)による書誌分析の自動化 : 高度都市研究のためのセマンティック・コンテクスト検索の試み

Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research ( http://arxiv.org/abs/2410.09090v1 )

ライセンス: Link先を確認
Haowen Xu, Xueping Li, Jose Tupayachi, Jianming, Lian, Femi Omitaomu, (参考訳) 文献分析は都市科学における研究動向、スコープ、影響を理解するのに不可欠であり、特にNature Portfoliosのようなハイインパクトな雑誌において重要である。 しかしながら、キーワード検索や基本的なNLP技術に依存した従来の手法は、記事のタイトルやキーワードに明記されていない貴重な洞察を明らかにするのに失敗することが多い。 これらのアプローチは意味探索や文脈理解を行うことができず、トピックの分類や研究の性格化においてその効果を制限している。 本稿では,生成型AIモデル,特にトランスフォーマーと検索型拡張生成(RAG)を活用して,バイオロメトリ分析の自動化と向上を図る。 我々は,ベクトルデータベース,文変換器,ガウス混合モデル(GMM),検索エージェント,大言語モデル(LLMs)を統合し,文脈検索,トピックランキング,カスタマイズしたプロンプトテンプレートを用いた研究のキャラクタリゼーションを実現する技術ワークフローを開発した。 過去10年間にNature Communicationsに掲載された223の都市科学関連記事を分析したパイロット研究は、ハイインパクトジャーナルにおける論文の品質、スコープ、特徴に関する洞察に富んだ要約統計を作成するためのアプローチの有効性を強調した。 本研究は, 都市部における文献分析と知識検索の促進のための新たなパラダイムを導入し, 研究評価と理解を促進する強力なツールとしてAIエージェントを位置づけた。

Bibliometric analysis is essential for understanding research trends, scope, and impact in urban science, especially in high-impact journals, such Nature Portfolios. However, traditional methods, relying on keyword searches and basic NLP techniques, often fail to uncover valuable insights not explicitly stated in article titles or keywords. These approaches are unable to perform semantic searches and contextual understanding, limiting their effectiveness in classifying topics and characterizing studies. In this paper, we address these limitations by leveraging Generative AI models, specifically transformers and Retrieval-Augmented Generation (RAG), to automate and enhance bibliometric analysis. We developed a technical workflow that integrates a vector database, Sentence Transformers, a Gaussian Mixture Model (GMM), Retrieval Agent, and Large Language Models (LLMs) to enable contextual search, topic ranking, and characterization of research using customized prompt templates. A pilot study analyzing 223 urban science-related articles published in Nature Communications over the past decade highlights the effectiveness of our approach in generating insightful summary statistics on the quality, scope, and characteristics of papers in high-impact journals. This study introduces a new paradigm for enhancing bibliometric analysis and knowledge retrieval in urban research, positioning an AI agent as a powerful tool for advancing research evaluation and understanding.
翻訳日:2024-10-30 16:48:15 公開日:2024-10-08